知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > ICGC >

ICGC數據庫數據提取表達矩陣/如何提取癌癥數據

時間:2019-07-30 11:34來源:生信自學網 作者:樂偉 點擊:
在前面的推文中,我們給大家介紹了ICGC數據庫簡介,大家有對這個數據庫有了一個直觀的認識,有給大家介紹了ICGC數據庫如何下載數據,可以做哪些癌癥分析,今天給大家介紹如何利用下載的
在前面的推文中,我們給大家介紹了ICGC數據庫簡介,大家有對這個數據庫有了一個直觀的認識
又給大家介紹了ICGC數據庫如何下載數據,可以做哪些癌癥分析,今天給大家介紹如何利用下載的的數據文件,提取表達矩陣
在介紹提取表達矩陣之前,有必要再給大家介紹一下ICGC數據庫
數據庫成立背景
由于人口的增長和老齡化,全球癌癥的發病率和死亡率正在上升。據估計,2007年全世界診斷出的新病例超過1,200萬,并且發生了約760萬例癌癥死亡事件;如果我們的預防,診斷和治療癌癥的能力沒有改善,這些數字將上升到預計的2700萬新病例和2050年的1750萬癌癥死亡人數。癌癥對個人,家庭和社會的后果是巨大的。雖然很難估計財務成本,但通過醫療保健系統的直接成本和經濟產出損失的間接成本,這些成本也很大。癌癥中存在許多病因學因素,包括感染,暴露于化學物質(例如煙草煙霧),飲食,輻射(例如在陽光下)和遺傳。雖然這些因素中的一些是可以預防的,但其中很多不是。

介紹
ICGC全稱是International Cancer Genome Consortium (國際癌癥基因組聯合體)。其旨在發起和協調大量的研究項目,其共同目標是全面闡明導致全球人類疾病負擔的多種癌癥中存在的基因組變化。
ICGC的主要目標是在全球范圍內具有臨床和社會重要性的50種不同癌癥類型和/或亞型的腫瘤中生成全面的基因組異常(體細胞突變,基因異常表達,表觀遺傳修飾)目錄數據,盡可能快地向整個研究團體提供數據,并且以最小的限制,加速研究癌癥的成因和控制。 ICGC促進了成員之間的溝通,并為廣大科研人員提供了一個平臺,達成治療和預防這些疾病的最大化目標。
ICGC Data Portal提供了用于可視化,查詢和下已發布的數據的數據工具。

目前存量
Cancer projects           76
Cancer primary sites     21
Donors with molecular data in DCC   17,440
Total Donors       20,383
Simple somatic mutations    68,194,271
Mutated Genes         57,668
看完這些,我們感覺這個數據庫也是非常強大的,可挖掘的內容也是非常多的
1、首先我們看下下載好的的數據,今天會利用其中兩個文件做提取分析


6個文件分別代表什么,我們在前面的推文有講解,用表達文件和樣本保存文件做分析
如果需要學習更多ICGC挖掘的內容,可以購買課程《ICGC數據庫挖掘差異/生存/lasso回歸/COX模型/獨立預后/列線圖》


2、我們來看下specimen文件包含哪些內容:樣本代號和病人編號

然后是樣本代號說明,是癌旁樣本還是癌癥樣本:

3、接下來看下下載好的表達文件,這個文件非常大,現在我們拿來做分析的是3G,所以有些小伙伴想用excel做提取的想法要破滅了,還是得用生信自學網為大家準備的原創perl腳本


我們可以看到,在表達數據庫文件中,有樣本代號,病人編號,已經基因的表達量,有這些數據就好辦了,我們可以根據剛才樣本說明文件和這個數據庫文件,整合得到我們需要的表達矩陣:

有了這個矩陣,行名為基因名,列名為樣本名,的表達量文件,后面我們就可以自由發揮了,可以做好多分析。而且我們這里提取的樣本名,把樣本編號,病人編碼,已經是癌旁或癌癥樣本都標記清楚了,一下子感覺輕松了好多,原來ICGC得到的數據是這樣的,后面的分析,我也可以哦
如果需要學習更多ICGC挖掘的內容,可以購買課程《ICGC數據庫挖掘差異/生存/lasso回歸/COX模型/獨立預后/列線圖》


責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(2)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A