1. Hi-C文庫數據質控及解讀
數據自身的質量在很大程度上決定了分析結果的准確和可靠,隨著Hi-C技術在三維基因組學上的快速推廣,對於Hi-C數據本身的質量和測序深度也逐漸引起研究人員的重視。同時對該技術的進一步優化和改進使之能夠在更少的細胞起始量及測序量達到更高解析度也成為了一個技術發展新的熱點。本文旨在對Hi-C及相關技術的發展進行簡略地介紹,並對Hi-C數據展示的無效數據進行分析,以期能讓讀者能更清晰地理解無效數據的組成,在後續的實驗過程中能更好地改進實驗方法,獲得一份可靠的Hi-C的數據。
2009年Erez Lieberman-Aiden在3C的基礎上,獨創地在粘性末端添加了生物素,使得嵌合片段能被鏈親和素特異性富集,發明了第一代 dilution HiC技術 1) 。Hi-C的發明與二代測序完美結合,解決了5C在全基因組水平構象數據量瓶頸的問題,使得在全局范圍內研究三維結構成為可能。
圖1.Hi-C實驗原理
早期的實驗方案認為,去垢劑SDS在對交聯的細胞核進行處理時,即使是低濃度的SDS(0.3%-1%SDS)在加熱到65℃時,會導致細胞核碎裂,基因組的DNA會釋放到溶液中,因此第一版本的Hi-C,在酶連反應體系下,選用了近8ml的大連接體系。後來,4C研發人員通過用顯微鏡觀測SDS處理細胞核,發現細胞核仍然維持在一個較為穩定的核結構。在共聚焦顯微鏡下觀察,1%SDS處理細胞核,會導致細胞核的通透性發生改變,但很少細胞核發生裂解。
另一個影響交聯反應的因素是溫度,通常認為65℃以上,在有NaCl存在的情況下,甲醛交聯的DNA會發生解交聯現象,從而影響染色質構象的穩定。
在第一版本的Hi-C選用了65℃ 1%SDS處理細胞核10min,從最終的數據看染色質間的互作數據高達27.1%-65.3%。通常認為染色質是獨立折疊定位在細胞核中形成染色質領域的,因此染色質間的數據通常會認為是無效數據(s)。
直到2012年Chen Lin實驗室意識到細胞核的擾動會影響到染色質的高級構象,因此他們在Hi-C實驗的基礎上,將生物素標記在蛋白上,將反應體系固定在磁珠上,使得反應體系擾動更小,更穩定,TCC 2) 獲得的數據結果表明該方法可以顯著降低染色質間的數據佔比例valid pairs的比例。
圖2.TCC實驗原理
2014年EreZ對Hi-C的實驗進行了進一步的改進 3) ,他們在SDS處理細胞核的步驟選用了更溫和的0.5%SDS 62℃處理5-10min,而細胞連接的體系也降低到1ml,值得一提的是他們在文章中嘗試了未交聯的HiC實驗。發現除了噪音增加外,得到了與正常HiC類似的熱圖。
In situ Hi-C的改進使得染色質間的互作數據進一步降低,實測數據顯示Trans-interaction其佔valid pair的比例在20%左右。
在2015年,又有研究將SDS的處理條件更換成37℃ 60min,他們認為該方法可以更大程度維持細胞核的穩定性,提高intra/inter數據的比例 4) 。
表1:in solution Hi-C與 in nucleus Hi-C數據比較
隨著對HiC數據的進一步認識,研究人員發現一些超近距離的連接(<20Kb的數據)可能並不是有意義的由蛋白介導的空間上靠近的互作,而可能就是線性距離較近而引起的隨機連接,因此引入了這一參數來評判數據的質量。
為了更好地去除隨機連接導致的s,有研究利用統計模型認為三片段的連接可減少隨機連接的可能性,因此他們採用了類似於ChIA-PET
的方法,在連接反應過程中,添加一個帶有生物素的bridge-linker 5) ,通過富集帶有linker的嵌合片段,來改善實驗中存在的隨機連接可能性。作者自測的結果表明,添加linker後染色質內的互作比例比in situ Hi-C和HiChIP都有顯著改善。
圖3.BL-HiC實驗原理圖
除了cis/tran作為評判Hi-C數據的質量以外,Hi-C數據中還存在大量的無效數據,它們的存在會影響數據的有效利用率,以下篇幅將逐一進行介紹。
為了更好地理解Hi-C數據,在此我們簡要介紹下基於illumina平台的二代測序文庫。
圖4.二代測序文庫建庫示意圖
在標準的二代文庫中,DNA片段通過末端補平加A;再添加adapters ;此時reads的兩側各帶發卡結構P5/P7的測序接頭;為了獲取足夠上機的DNA文庫,通常還需要進行一輪擴增;擴增後的文庫兩端各帶一種測序接頭。
圖5.橋式PCR
在pool DNA到晶元上時,文庫片段首先anneal在晶元的測序接頭上;然後用DNA聚合酶進行擴增,DNA生長在晶元上;經過25-28輪的擴增,每條reads被擴增至數以千計的拷貝,此時就可以利用添加可逆的終止子來檢測鹼基的組成。通過150輪添加可逆終止子並採集信號即可完成測序。
由於DNA聚合酶的自身的偏性,GC含量相對合適的片段及小片段更容易在晶元生長階段得到富集。小片段(<150nt)在測序過程中,由於兩端各讀取150個鹼基,就極可能將DNA插入片段讀通,從而這部分的DNA就可能被檢測到adapter污染。
圖6.測序read示意圖
Hi-C標准文庫是標準的Chimera結構,在將兩端序列進行比對到基因組上時,理論上兩側pair ends可以分別比對到基因組的兩個座位。由於DNA在碎片化過程中,剪切是隨機的,因此酶切位點末端補平形成的junction fragment很可能分布在一側的reads中,常規的比對分析是很難處理chimera的。在HiC-Pro 6) 和HiCUP 7) 軟體中,他們會去識別理論的junction fragment。如HiC-Pro在比對時先進行Global Mapping,後將unmapping的reads用junction fragment序列進行識別並切割,再進行local mapping,最終將數據進行合並。
圖7.HiC-Pro的兩種比對策略
在實際比對中即使採用兩步比對方式,仍有可能是只有一端序列能比對到基因組中,另外一端無法識別到基因組中,這種情況我們將其歸類為 Singleton 。它產生的原因可能有①adapter污染(先前數據沒進行過濾);②另一側數據質量較差,多數為N的區域;③DNA片段被降解或酶切反應產生星號活性。同時片段過短,150鹼基已經讀通了生物素標記的位點,但是該位點不是正常的junction fragment。在植物樣本中,singleton較為常見,可能與細胞壁破碎不完全,部分細胞質成分進入到反應體系影響酶切有關。
有些植物的基因組存在大量的重復序列,如玉米中85%的序列被認為是重復序列。這對要求兩端都要唯一比對的HiC而言是巨大的挑戰,一旦有一段比對到兩個或兩個以上的位點,該reads就將被歸類到 Multiple mapped reads 中。
如果在比對過程中,global mapping 和 local mapping均無法將序列識別到特定的位點,這種序列會被歸類到 Unmapped reads。 它可能產生的原因是基因組的組裝完整度較差,基因組中存在大量的gap無法識別,被填充為NNNNN。另一個原因是酶切片段較碎,多個酶切片段連接在一起,無法識別到特定座位。
如果兩側數據都能比對到基因組的數據會被統一認為是 Unique mapped reads ,此時對於動物基因組,unique mapped reads 占測序量(clean reads)50%以上應是可接受的范圍。對於植物樣本,尤其是重復序列較多的樣本,unique mapped reads 比例可能會急劇降低。
在獲取unique mapped reads後,要進行進一步過濾,以識別真正有效的interaction reads。
圖8.三種比對過程識別的無效數據
根據HiC實驗的基本原理PLA(proximity ligation assay):空間上相互靠近的片段更有機會被連接在一起。因此僅且僅有兩個來源不同的片段連接在一起才會被認為是標準的文庫片段。而這片段是指利用限制性內切酶酶切的Fragments,即唯有兩個片段能分別比對到兩個不同的酶切片段上,且實際片段大小(observe)符合理論的片段大小,在分析是才會將其歸類到valid pairs中。
圖9.Hi-C數據過濾
因此在分析過程中會將部分無效的數據進行過濾,首先是如果兩個片段原本通過一個酶切位點連接在一起,在HiC文庫中如果該片段即使酶切後添加生物素仍然連接在一起,該片段會被歸類到 Re-ligation reads 中;
而如果兩個的reads比對到同一個fragment,但是方向相反,則該reads會被認為是首尾相連形成了S**elf-circle **;
如果pair end 同時比對到一個酶切片段上,則該片段會被認為是 Dangling ends ;
如果有一個發現是adapter污染,該reads會被認為是 Adapter polluted ;
如果兩側的end均能比對到基因組的兩個酶切片段中,但是觀測到的片段大小與理論的片段大小不一致,則該片段會認為是錯誤連接而被歸類為 Dumped reads ;
只有比對到兩個酶切片段且片段的理論值等於實際值的reads,才會被認為是 Valid pair reads 。
在這里我們解釋下Dangling ends和 Dumped 的成因。
Dangling ends 主要來源於兩部分,①經DNA連接酶連接反應後,攜帶生物素的DNA片段末端並未形成嵌合片段,在末端生物素切割的(klenow)時又未將末端的生物素去除,從而進入到最終的文庫中;②磁珠洗脫步驟未完全將非特異性結合的DNA洗脫下來。有文章報道,只有將Dangling Ends的比例控制子啊10-45%以下才會被認為是成功的Hi-C文庫 8) 。
Dump的主要原因在於酶的星號活性導致切割位點不在經典的位點,這有可能是酶切時間過長或反應體系中鹽離子濃度和種類不合適導致的;另外一個原因是片段被DNA外切酶降解,使得片段的大小發生了改變。
獲得了interaction reads後,要去除文庫中完全一樣的reads,因為這部分可能是由於PCR擴增導致的 Duplication ,去除Duplication後,Valid pairs數據可用於後續的滑bin統計分析了。
最後,對分享的內容進行總結。
判斷HiC的文庫是否合格的一個重要的指標是cis/trans的比值,一般認為cis interaction比例越高,表明該數據的質量越好。如果tran interaction的比例高於cis interaction的比例,則要慎重檢查實驗操作步驟是否出現紕漏。
對於植物樣本,尤其是大基因組的植物樣本,其unique mapped的比例可能較低,此時為了達到足夠的數據量,需要提高測序深度;然而如果對於人鼠等動物樣本,如果unique mapped ratio較低則可能是實驗原因。
在unqiue mapped數據過濾步驟中dangling ends 過高可能是末端生物素去除不完全或磁珠洗脫步驟中出現問題所致。如果mp的比例過高則可能是樣品發生了降解或星號活性。
最後一步去除PCR plication,如果該步驟中plication比例過高,則表明PCR循環數過高導致。
Hi-C實驗步驟繁多,一份好的Hi-C實驗數據需要實驗人員針對不同的樣本進行實驗優化及在整個實驗周期每個步驟用心地操作。出現不如人意的實驗結果對於新手而言是正常的,此時就要對數據進行仔細分析,並將自己融入到實驗的每個細節中細細體會,才會有所收獲。最後給大家一個建議,多看看最近發表的文章,比較每個protocol的細微差別,如頡偉老師 9) 和陳陽老師 5) 今年發表的文章。相信看完後,會有自己的體會。
參考文獻
2. 華泰證券專業版裡面那個乖離率BAIS指標這么寫:BAIS(6,-3,3,12,24)。這裡面怎麼會有負數
能否截圖看看?
BIAS值會是負數,但參數表示多少天的不會為負.如: