【重點整理】全球重磅計畫癌症全基因定序揭密 (Pan-Cancer Analysis of Whole Genomes):同名首篇

Gem Wu 吳懷珏
9 min readMar 29, 2020

--

底圖為原研究 figure 2

2020年,Nature 大動作地公佈了21篇癌症全基因組的分析結果。此項研究橫跨國界,由一千多名科學家組成的「泛癌症全基因組分析合作項目」(Pan-Cancer Analysis of Whole Genomes Consortium,PCAWG)擕手完成。而其中 6 篇較具重要性,因此這個系列希望可以將含蓋大量訊息的研究原文整理成易讀、較為簡短的形式,讓對癌症、分子醫學、基因體學有興趣的大家能速速掌握通篇重點。

  • PCAWG 全基因分析了 2,658 個 cancer genome,包括 38 種癌症。
  • 墊基於個別 ICGC (International cancer genome consortium) 和 TCGA (The Cancer Genome Atlas) 的研究,並對此進行 meta-analysis。

原文連結

(註:這已是很簡易版的整理,沒有放入太多細節,欲知詳情請讀原文。)

基本概念

  • 巨觀上一致的腫瘤在微觀細胞層級可以非常不同。

The commonalities of macroscopic features across tumors belie a vastly heterogeneous landscape of cellular abnormalities.

定義

  • Cancer 癌症:自發擴展並散佈的體細胞株。
  • Driver mutations 驅動突變:讓該株細胞有演化優勢的突變。
  • Passenger mutations 附隨突變:對該株細胞無優勢劣勢的突變。
  • Clustered mutations 聚集突變:一次性發生多突變,包括 Chromoplexy 重排突變、Kataegis 雷雨突變、Chromothripsis 染色體碎裂。

突變種類

  • 本篇分析的 Somatic variants 體細胞變異包括:single nucleotide variations (SNV), small insertions and deletions (indels), copy-number alterations (CNAs), structural variants (SVs), somatic retrotransposition events, mitochondrial DNA mutations, telomere lengths
  • 本篇分析的 Germline variants 生殖細胞變異包括:single-nucleotide polymorphisms (SNP), indels, SVs, mobile-element insertions。其中,會改變蛋白結構的叫做 PTV (protein truncating variants)。
  • 遺傳性的蛋白結構變異突變 (germline protein truncating variants) 又可分為:cancer-predisposition genes (e.g. BRCA1, BRCA2 , ATM ), DNA-damage response genes, somatic driver genes。

本篇發現

  • 平均而言,癌症基因體在編碼基因 (coding gene) 和非編碼基因 (non-coding gene) 會有 4.6 個驅動突變。如果只看編碼基因突變的話,平均每個腫瘤有 2.6 個。

年紀和腫瘤的關係

  • 發現每年平均出現 190 個單核苷突變, 22 個插入刪除突變,1.5 個結構性突變。在各癌症,隨著複製的次數增多,染色體碎裂也發生越多次。
  • 不同種類的變異,在同個個體或檢體上,有數量上的相關性。 e.g. 有比較多的 indels 也可能有比較多的 SNVs。這或許也和年紀有關。

發現潛在癌症驅動基因

  • 91% 的癌症有一個以上 driver mutation,但5% 癌症找不到驅動突變。
  • 本篇就那找不到明確 driver mutation 的癌症進行 Rank-and-cut 分析,找到潛在的致癌基因或突變機轉。
  1. Mebulloblastoma (尤其是 group 4):SETD2 的複製數量突變 (CNA),而且容易有染色質修飾(chromatin-modifying) 基因方面的突變。
  2. Chromophobe Renal Cell Carcinoma (RCC), Pancreatic Neuroendocrine Tumors:常出現非整倍體
  3. Hepatocellular Carcinoma (HCC), biliary cholangiocarcinomas ⇒ TERT (其中一個端粒酶基因) 突變

先天致癌基因遺傳與後天失調

  • 遺傳性致癌基因到癌症產生的過程,也在本篇揭露一二:
  1. 乳癌基因 (BRCA1, BRCA2) 本身會讓體染色體出現更多小型的刪除(deletions) 與基因重複 (tandem duplications)。
  2. 乳癌基因 (BRCA1, BRCA2) 本身也會造成不斷的基因重複插入 ( “cycle of templated insertions”),引發另一個對偶基因的體染色體突變,造成兩個對偶基因都無法發揮功效 (biallelic inactivation),進而引發癌症。

聚集突變與癌症

  • 染色體重排突變 (chromoplexy):Prostate adenocarcinomas, lymphoid malignancies, Thyroid adenocarcinoma
  • 雷雨突變 (Kataegis):Lung squamous cell carcinoma, bladder cancer, acral melanoma, sarcomas, B cell non-Hodgkin’s lymphoma, esophageal adenocarcinoma。裡面又可以細分成:APOBEC與複雜重排組 (sarcomas, melanoma)、APOBEC與獨立重排組 (bladder cancer, head and neck cancer)...。
  • 染色體碎裂 (chromotripsis):sarcomas, glioblastoma (GBM), lung squamous cell carcinoma, melanoma, breast adenocarcinoma。有趣的是,本篇還提到女性的 esophageal cancer 和 B cell lymphoma 病人,比男性會出現顯著更多的染色體碎裂。
  • 聚集突變還是可會引發特定基因的突變,包括:
  1. Liposarcoma 的染色體碎裂會影響多個染色體、出現 MDM2 與 TERT 擴增。
  2. Glioblastoma (GBM) 的染色體碎裂牽涉範圍較小,而且也離端粒較遠,但它之後會引發 EGFR 與 MDM2 的擴增與 CDKN2A 的喪失。
  3. Acral melanoma 有早期的 CCND1,而 cutaneous melanoma 則是晚期的 CCND1 擴增。
  4. Lung SqCC 則為 SOX2 擴增。
  5. chromophobe Renal Cell Carcinoma ( RCC ) 則是出現第五對染色體鄰近 TERT 處的碎裂,使 TERT 的表現增加 80 倍。

常見致癌基因在各癌的常見程度

  • 本文以 TP53 為例,統計出癌症與非癌症持有 TP53 基因比率的比值 (odds ration, OR) 為 3.22,各癌則如下:
  1. breast lobular cancer (OR=13)
  2. colorectal cancer (OR=25)
  3. prostate cancer (OR=2.6)
  4. HCC (OR=3.9)

非編碼區轉位突變的表現

  • 有個叫長散在核元件 (Long Interspersed Nuclear Element-1, LINE-1, L1)的序列,是一種反轉錄轉座子,會影響基因之間的轉位。
  • 分兩種 (像火山動態):斯特龍博利式噴發 (Strombolian) 頻繁但輕微、維蘇威式火山噴發 (Plinian) 罕見但巨大。

方法 (簡簡簡易)

  • Rank-and-cut 用來區分出 cancer 裡常見的 mutation 是否為 driver mutations
  • CADD (Combined Annotation Dependent Depletion) 是個用來看 SNPs, indels 有害性 (致癌性) 的評分方式,PCAWG 自己開發的方法為 onCohortDrive,主要基於兩原則:
  1. not all mutations in driver elements are drivers 不是所有在 driver elements 的突變是 drivers ⇒ 潛在 type 1 error
  2. some driver GEs are below the statistical power of the cohort of tumours 有些因為出現數量不多而難被發現 ⇒ 潛在 type 2 error。下面有兩個例子。

(1) 像 TERT promotors 因為 high GC contents ,在定序時有兩個 hotspots 容易被忽略⇒ 用 deep targeted sequencing 解決。

(2)JAK2 也會出現在 2-5% 健康的人的 clones,因此在把 Myoproliferative Neoplasm 基因體與正常基因體比較時,也常被當成正常。

  • naive Bayes relevance (NBR) 簡單貝氏模型:用 mutations 出現的頻率來看是否為 driver mutations
  • 用已知的 drivers ( ⇒ 整體成 compendium of mutational driver elements) 去校正 ranking 方式,再依排序高低找出 probable drivers 和 probable passengers。
  • Fisher-Boschloo test 無條件精確測試,來看是否有不同族群、條件上所產生的差異
  • molecular clock 來看 mutations 發生的先後順序

結論

  • 研究價值主要在於暴力解開法 (x) 巨量樣本的細緻運算 (o) 可以看到單點研究無法分析到的突變與潛在致癌基因、機轉。

--

--

Gem Wu 吳懷珏
Gem Wu 吳懷珏

Written by Gem Wu 吳懷珏

醫生。雖然臨床好玩,也不願意放棄研究、聽講,以及寫文章。

No responses yet