知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > SEER >

TCGA與SEER兩大癌癥數據庫首次比較

時間:2018-01-27 20:03來源:原創 作者:森莘 點擊:
生物信息做癌癥分析,始終繞不過兩大數據庫,TCGA數據庫和SEER數據庫,對于很多學員來說,兩大數據庫都很陌生,隨著TCGA數據庫研究進展,越來越多的學員對TCGA數據庫有一定了解,但
做生物信息分析會經常看到兩個數據庫,一個時TCGA數據庫,一個是SEER數據庫,特別是癌癥分析,這兩大數據庫是繞不開的。隨著國內對TCGA數據研究不斷深入,越來越多的人選擇TCGA數據庫作為癌癥分析的入口。這也是不用實驗,就能獲得大量數據進行研究最佳選擇。TCGA和SEER兩大數據庫都是美國國立,用于癌癥研究的數據庫,很多學員就產生疑問,這兩大數據庫究竟有什么不同,做分析時需要如何選擇。其實兩大數據的區別時非常大,如果只用過其中一個數據庫,就會對另外一個數據庫不了解,如果同時使用過這兩大數據庫,就很容易發現,其實他們都用于分析癌癥,那是研究側重點和方向時不同的。
1、首先認識一下TCGA和SEER
從網址開始,TCGA數據庫:https://cancergenome.nih.gov/;SEER數據庫:https://seer.cancer.gov/;打開兩個數據庫,我們發現這兩個數據庫的LOGO時一樣的,說明TCGA和SEER都是美國NIH這個機構提供的數據庫。
TCGA數據庫SEER數據庫
2、TCGA和SEER數據庫官方定義
TCGA數據庫:
美國政府發起的癌癥和腫瘤基因圖譜(Cancer Genome Atlas,TCGA)計劃,試圖通過應用基因組分析技術,特別是采用大規模的基因組測序,將人類全部癌癥(近期目標為50種包括亞型在內的腫瘤)的基因組變異圖譜繪制出來,并進行系統分析,旨在找到所有致癌和抑癌基因的微小變異,了解癌細胞發生、發展的機制,在此基礎上取得新的診斷和治療方法,最后可以勾畫出整個新型“預防癌癥的策略”。
SEER數據庫:
美國國立癌癥研究所“監測、流行病學和結果數據庫”SEER是北美最具代表性的大型腫瘤登記注冊數據庫之一,收集了大量循證醫學的相關數據,為臨床醫師的循證實踐及臨床醫學研究提供了系統的證據支持和寶貴的第一手資料。


從定義基本可以知道TCGA數據庫和SEER數據庫的區別了
3、數據類型
TCGA數據庫:
數據類型多,包括表達數據,甲基化數據,copy number,核苷酸序列以及臨床信息
下面這副圖可以很好的展示TCGA的數據類型
TCGA數據類型

SEER數據庫:
SEER數據庫提供的臨床數據,數據記錄中包括患者的注冊編號、個人信息、原發病灶部位、腫瘤尺寸、腫瘤編碼、治療方案、死亡原因等信息。www.zmllko.live版權所有,未經授權,不得轉載!
4、癌癥類型
TCGA數據庫包含了主要的33種癌癥數據,具體請參照:TCGA數據庫癌癥類型
SEER數據庫所涉及的腫瘤劃分為9類:乳腺、結腸&直腸、其他消化系統、女性生殖、淋巴&白血病、男性生殖、呼吸系統、泌尿系統及其它尚未確指的類型。
5、數據下載與數據提取
SEER數據庫可以直接下載數據包,進行數據提取,亦可以下載桌面工具SEERStat進行桌面話數據下載提取,下載方便,但是數據篩選有點復雜,對于初學者有挺高難度。操作步驟可參照:SEERStat下載使用
TCGA數據庫以單個樣本保存一個文件的形式保存在后臺,分析一種癌癥,需要下載相關癌癥的對應文件,下載后需要把每個樣本的信息整理到一個文件,用于后續分析,這個步驟對于初學者難度很大,整理好之后的矩陣就顯得簡單很多,后期分析簡單。操作步驟可參照:TCGA數據庫數據下載整理



責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(5)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A