【重點整理】全球重磅計畫癌症全基因定序揭密 (Pan-Cancer Analysis of Whole Genomes):同名首篇
9 min readMar 29, 2020
2020年,Nature 大動作地公佈了21篇癌症全基因組的分析結果。此項研究橫跨國界,由一千多名科學家組成的「泛癌症全基因組分析合作項目」(Pan-Cancer Analysis of Whole Genomes Consortium,PCAWG)擕手完成。而其中 6 篇較具重要性,因此這個系列希望可以將含蓋大量訊息的研究原文整理成易讀、較為簡短的形式,讓對癌症、分子醫學、基因體學有興趣的大家能速速掌握通篇重點。
- PCAWG 全基因分析了 2,658 個 cancer genome,包括 38 種癌症。
- 墊基於個別 ICGC (International cancer genome consortium) 和 TCGA (The Cancer Genome Atlas) 的研究,並對此進行 meta-analysis。
原文連結
(註:這已是很簡易版的整理,沒有放入太多細節,欲知詳情請讀原文。)
基本概念
- 巨觀上一致的腫瘤在微觀細胞層級可以非常不同。
The commonalities of macroscopic features across tumors belie a vastly heterogeneous landscape of cellular abnormalities.
定義
Cancer
癌症:自發擴展並散佈的體細胞株。Driver mutations
驅動突變:讓該株細胞有演化優勢的突變。Passenger mutations
附隨突變:對該株細胞無優勢劣勢的突變。Clustered mutations
聚集突變:一次性發生多突變,包括Chromoplexy
重排突變、Kataegis
雷雨突變、Chromothripsis
染色體碎裂。
突變種類
- 本篇分析的 Somatic variants 體細胞變異包括:single nucleotide variations (SNV), small insertions and deletions (indels), copy-number alterations (CNAs), structural variants (SVs), somatic retrotransposition events, mitochondrial DNA mutations, telomere lengths
- 本篇分析的 Germline variants 生殖細胞變異包括:single-nucleotide polymorphisms (SNP), indels, SVs, mobile-element insertions。其中,會改變蛋白結構的叫做 PTV (protein truncating variants)。
- 遺傳性的蛋白結構變異突變 (germline protein truncating variants) 又可分為:cancer-predisposition genes (e.g. BRCA1, BRCA2 , ATM ), DNA-damage response genes, somatic driver genes。
本篇發現
- 平均而言,癌症基因體在編碼基因 (coding gene) 和非編碼基因 (non-coding gene) 會有 4.6 個驅動突變。如果只看編碼基因突變的話,平均每個腫瘤有 2.6 個。
年紀和腫瘤的關係
- 發現每年平均出現 190 個單核苷突變, 22 個插入刪除突變,1.5 個結構性突變。在各癌症,隨著複製的次數增多,染色體碎裂也發生越多次。
- 不同種類的變異,在同個個體或檢體上,有數量上的相關性。 e.g. 有比較多的 indels 也可能有比較多的 SNVs。這或許也和年紀有關。
發現潛在癌症驅動基因
- 91% 的癌症有一個以上
driver mutation
,但5% 癌症找不到驅動突變。 - 本篇就那找不到明確
driver mutation
的癌症進行Rank-and-cut
分析,找到潛在的致癌基因或突變機轉。
- Mebulloblastoma (尤其是 group 4):
SETD2
的複製數量突變 (CNA),而且容易有染色質修飾(chromatin-modifying) 基因方面的突變。 - Chromophobe Renal Cell Carcinoma (RCC), Pancreatic Neuroendocrine Tumors:常出現非整倍體
- Hepatocellular Carcinoma (HCC), biliary cholangiocarcinomas ⇒ TERT (其中一個端粒酶基因) 突變
先天致癌基因遺傳與後天失調
- 遺傳性致癌基因到癌症產生的過程,也在本篇揭露一二:
- 乳癌基因 (BRCA1, BRCA2) 本身會讓體染色體出現更多小型的刪除(deletions) 與基因重複 (tandem duplications)。
- 乳癌基因 (BRCA1, BRCA2) 本身也會造成不斷的基因重複插入 ( “cycle of templated insertions”),引發另一個對偶基因的體染色體突變,造成兩個對偶基因都無法發揮功效 (biallelic inactivation),進而引發癌症。
聚集突變與癌症
- 染色體重排突變 (chromoplexy):Prostate adenocarcinomas, lymphoid malignancies, Thyroid adenocarcinoma
- 雷雨突變 (Kataegis):Lung squamous cell carcinoma, bladder cancer, acral melanoma, sarcomas, B cell non-Hodgkin’s lymphoma, esophageal adenocarcinoma。裡面又可以細分成:APOBEC與複雜重排組 (sarcomas, melanoma)、APOBEC與獨立重排組 (bladder cancer, head and neck cancer)...。
- 染色體碎裂 (chromotripsis):sarcomas, glioblastoma (GBM), lung squamous cell carcinoma, melanoma, breast adenocarcinoma。有趣的是,本篇還提到女性的 esophageal cancer 和 B cell lymphoma 病人,比男性會出現顯著更多的染色體碎裂。
- 聚集突變還是可會引發特定基因的突變,包括:
- Liposarcoma 的染色體碎裂會影響多個染色體、出現 MDM2 與 TERT 擴增。
- Glioblastoma (GBM) 的染色體碎裂牽涉範圍較小,而且也離端粒較遠,但它之後會引發 EGFR 與 MDM2 的擴增與 CDKN2A 的喪失。
- Acral melanoma 有早期的 CCND1,而 cutaneous melanoma 則是晚期的 CCND1 擴增。
- Lung SqCC 則為 SOX2 擴增。
- chromophobe Renal Cell Carcinoma ( RCC ) 則是出現第五對染色體鄰近 TERT 處的碎裂,使 TERT 的表現增加 80 倍。
常見致癌基因在各癌的常見程度
- 本文以 TP53 為例,統計出癌症與非癌症持有 TP53 基因比率的比值 (odds ration, OR) 為 3.22,各癌則如下:
- breast lobular cancer (OR=13)
- colorectal cancer (OR=25)
- prostate cancer (OR=2.6)
- HCC (OR=3.9)
非編碼區轉位突變的表現
- 有個叫長散在核元件 (Long Interspersed Nuclear Element-1, LINE-1, L1)的序列,是一種反轉錄轉座子,會影響基因之間的轉位。
- 分兩種 (像火山動態):斯特龍博利式噴發 (Strombolian) 頻繁但輕微、維蘇威式火山噴發 (Plinian) 罕見但巨大。
方法 (簡簡簡易)
Rank-and-cut
用來區分出 cancer 裡常見的 mutation 是否為driver mutations
CADD
(Combined Annotation Dependent Depletion) 是個用來看 SNPs, indels 有害性 (致癌性) 的評分方式,PCAWG 自己開發的方法為 onCohortDrive,主要基於兩原則:
- not all mutations in driver elements are drivers 不是所有在 driver elements 的突變是 drivers ⇒ 潛在 type 1 error
- some driver GEs are below the statistical power of the cohort of tumours 有些因為出現數量不多而難被發現 ⇒ 潛在 type 2 error。下面有兩個例子。
(1) 像
TERT
promotors 因為 high GC contents ,在定序時有兩個 hotspots 容易被忽略⇒ 用 deep targeted sequencing 解決。(2)
JAK2
也會出現在 2-5% 健康的人的 clones,因此在把 Myoproliferative Neoplasm 基因體與正常基因體比較時,也常被當成正常。
naive Bayes relevance (NBR)
簡單貝氏模型:用 mutations 出現的頻率來看是否為 driver mutations- 用已知的 drivers ( ⇒ 整體成
compendium of mutational driver elements
) 去校正 ranking 方式,再依排序高低找出 probable drivers 和 probable passengers。 - Fisher-Boschloo test 無條件精確測試,來看是否有不同族群、條件上所產生的差異
molecular clock
來看 mutations 發生的先後順序
結論
- 研究價值主要在於暴力解開法 (x) 巨量樣本的細緻運算 (o) 可以看到單點研究無法分析到的突變與潛在致癌基因、機轉。