由干細胞搜丨干細胞搜網(wǎng)編輯: NGS技術(shù)的進步、應(yīng)用范圍的擴展、研究實驗室和學術(shù)機構(gòu)對NGS的采用率增加等等,這些因素推動了整個市場的發(fā)展。另外,診斷測試的準確性和標準化,以及缺乏熟練的技術(shù)人員是制約市場增長的關(guān)鍵因素之一。
測序基礎(chǔ)概念
NGS(下一代測序技術(shù)):又稱高通量測序,以高輸出量和高解析度為主要特色,能一次并行對幾十萬到幾百萬條DNA分子進行序列讀取,在提供豐富的遺傳學信息的同時,還可大大降低測序費用、縮短測序時間的測序技術(shù)。
Sanger法測序(一代測序):是一種利用DNA聚合酶來延伸結(jié)合在待定序列模板上的引物的測序技術(shù)。每一次序列測定由一套四個單獨的反應(yīng)構(gòu)成,每個反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團,使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調(diào)整,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標記進行檢測。
基因組學(genomics):基因組學是研究生物基因組和如何利用基因的一門學問。用于概括涉及基因作圖、測序和整個基因組功能分析的遺傳學分支。該學科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用,試圖解決生物,醫(yī)學,和工業(yè)領(lǐng)域的重大問題。
功能基因組學(Functional Genomics):又稱為后基因組學(postgenomics),它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物,發(fā)展和應(yīng)用新的實驗手段,通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學研究從對單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個基因或蛋白質(zhì)同時進行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對基因組動態(tài)的生物學功能學研究。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達分析及突變檢測。基因的功能包括:生物學功能,如作為蛋白質(zhì)激酶對特異蛋白質(zhì)進行磷酸化修飾;細胞學功能,如參與細胞間和細胞內(nèi)信號傳遞途徑;發(fā)育上功能,如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術(shù)不能對基因進行全面系統(tǒng)的分析,新的技術(shù)應(yīng)運而生,包括基因表達的系統(tǒng)分析(Serial Analysis of Gene Expression, SAGE),cDNA微陣列(cDNA microarray),DNA 芯片(DNA chip)和序列標志片段顯示(sequence tagged fragments display)
比較基因組學(Comparative Genomics):比較基因組學是基于基因組圖譜和測序基礎(chǔ)上,對已知的基因和基因組結(jié)構(gòu)進行比較,來了解基因的功能、表達機理和物種進化的學科。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機制,闡明物種進化關(guān)系,及基因組的內(nèi)在結(jié)構(gòu)。
表觀遺傳學:研究在不改變DNA序列的前提下,通過某些機制引起可遺傳的基因表達或細胞表現(xiàn)型的變化的一門遺傳學分支學科。表觀遺傳現(xiàn)象包括DNA甲基化、RNA干擾、基因組印記、母體效應(yīng)、基因沉默、核仁顯性、休眠轉(zhuǎn)座子激活和RNA編輯等。其研究內(nèi)容主要包括兩類:一類為基因選擇性轉(zhuǎn)錄表達的調(diào)控,有DNA甲基化、基因印記、組蛋白共價修飾和染色質(zhì)重塑;另一類為基因轉(zhuǎn)錄后的調(diào)控,包括基因組中非編碼RNA、微小RNA、反義RNA、內(nèi)含子及核糖開關(guān)等。
計算生物學:計算生物學是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學建模、計算機仿真技術(shù)等。當前,生物學數(shù)據(jù)量和復(fù)雜性不斷增長,每14個月基因研究產(chǎn)生的數(shù)據(jù)就會翻一番,單單依靠觀察和實驗已難以應(yīng)付。因此,必須依靠大規(guī)模計算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)。
基因組印記:指基因根據(jù)親代的不同而有不同的表達。印記基因的存在能導致細胞中兩個等位基因的一個表達而另一個不表達?;蚪M印記是一正常過程,此現(xiàn)象在一些低等動物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù),可能不超過5%,但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用。基因組印記病主要表現(xiàn)為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認為印記缺失是引起腫瘤最常見的遺傳學因素之一。
DNA甲基化:指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5’碳位共價鍵結(jié)合一個甲基基團。正常情況下,人類基因組“垃圾”序列的CpG二核苷酸相對稀少,并且總是處于甲基化狀態(tài),與之相反,人類基因組中大小為100-1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài),并且與56%的人類基因組編碼基因相關(guān)。人類基因組序列草圖分析結(jié)果表明,人類基因組CpG島約為28890個,大部分染色體每1 Mb就有5-15個CpG島,平均值為每Mb含10.5個CpG島,CpG島的數(shù)目與基因密度有良好的對應(yīng)關(guān)系。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題,DNA甲基化已經(jīng)成為表觀遺傳學和表觀基因組學的重要研究內(nèi)容。
宏基因組學(Metagenomic):又叫微生物環(huán)境基因組學、元基因組學。它通過直接從環(huán)境樣品中提取全部微生物的DNA,構(gòu)建宏基因組文庫,利用基因組學的研究策略研究環(huán)境樣品所包含的全部微生物的遺傳組成及其群落功能。它是在微生物基因組學的基礎(chǔ)上發(fā)展起來的一種研究微生物多樣性、開發(fā)新的生理活性物質(zhì)(或獲得新基因)的新理念和新方法。其主要含義是: 對特定環(huán)境中全部微生物的總DNA(也稱宏基因組,metagenomic)進行克隆,并通過構(gòu)建宏基因組文庫和篩選等手段獲得新的生理活性物質(zhì);或者根據(jù)rDNA數(shù)據(jù)庫設(shè)計引物,通過系統(tǒng)學分析獲得該環(huán)境中微生物的遺傳多樣性和分子生態(tài)學信息。
基因定位(Gene Mapping):基因所屬連鎖群或染色體的測定,即所屬連鎖群或染色體以及基因在染色體上的位置的測定?;蚨ㄎ皇沁z傳學研究中的重要環(huán)節(jié),基于發(fā)現(xiàn)一些有類似表型效應(yīng)的基因緊密連鎖的以及基因的位置與它們的功能相關(guān)的原理。
融合基因(Gene Fusion):將基因組位置不同的兩個基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。
基因表達譜(Gene Expression Profile):指通過構(gòu)建處于某一特定狀態(tài)下的細胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細胞或組織在特定狀態(tài)下的基因表達種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達譜。
單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP):SNP代表個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個體基因組DNA序列同一位置上的單個核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標志。人基因組上平均約每1000個核苷酸即可能出現(xiàn)1個單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動植物品系遺傳變異的重要依據(jù)。在研究癌癥基因組變異時,相對于正常組織,癌癥中特異的單核苷酸變異是一種體細胞突變(somatic mutation),稱做單核苷酸位點變異(SNV,Single Nucleotide Variation)。
Genotype和Phenotype:即基因型與表型?;蛐陀址Q遺傳型,指生物的全部遺傳物質(zhì)(基因)組成。 但一般只表示個別或少數(shù)基因位點上的等位基因的組成。表型指生物體個別或少數(shù)性狀以至全部性狀的表現(xiàn)。
基因組拷貝數(shù)變異(Copy Number Variation,CNV):基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區(qū)域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴增及缺失,擴增的位置可以是連續(xù)擴增如A-B-C-C-D也可以是在其他位置的擴增,如A-C-B-C-D。CNVs廣泛存在于正常個體,且相對單核苷酸多態(tài)性(SNPs)在整個基因組中覆蓋的核苷酸總數(shù)至少高3倍,在遺傳變異和物種進化方面具有重要意義。
基因組結(jié)構(gòu)變異(Structure Variation,SV):通常是指基因組內(nèi)大于1 kb的DNA片段缺失、插入、重復(fù)、倒位、易位以及DNA拷貝數(shù)目變化(CNVs)。人類基因組結(jié)構(gòu)變異涉及數(shù)千片段不連續(xù)的基因組區(qū)域,含數(shù)百萬DNA堿基對,可含數(shù)個基因及調(diào)控序列,多種基因功能因此缺失或改變,導致機體表型變化、疾病易感性改變或發(fā)生疾病。對基因組結(jié)構(gòu)變異的研究,有助于用動態(tài)的觀點全面分析基因組遺傳變異得到整合的基因型,理解結(jié)構(gòu)變異的潛在醫(yī)學作用及機體整體功能的復(fù)雜性。文章從人類基因組結(jié)構(gòu)變異的類型、研究方法, 對個體表型、疾病及生物進化的影響等方面綜合闡述人類基因組結(jié)構(gòu)變異的最新研究進展。
Segment Duplication:一般稱為SD區(qū)域,譯為重復(fù)片段倍增,是指參考基因組序列中出現(xiàn)DNA片段長度>1 kb的兩個或兩個以上拷貝,不同拷貝質(zhì)檢的序列同源性>90%。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。
測序類型相關(guān)概念
單細胞全基因組測序:單細胞全基因組測序技術(shù)是在單細胞水平對全基因組進行擴增與測序的一項新技術(shù)。其原理是將分離的單個細胞的微量全基因組DNA進行擴增,獲得高覆蓋率的完整的基因組之后通過外顯子捕獲進而高通量測序用于揭示細胞群體差異和細胞進化關(guān)系。全基因組擴增技術(shù)主要分為兩種類型:一是基于熱循環(huán)以PCR為基礎(chǔ)的擴增技術(shù),如簡并寡核苷酸引物PCR(DOP-PCR)、連接反應(yīng)介導的PCR(LM-PCR)、擴增前引物延伸反應(yīng)(PEP)等;二是基于等溫反應(yīng)不以PCR為基礎(chǔ)的擴增技術(shù),如多重置換擴增(MDA)和基于引物酶的全基因組擴增(pWGA)。
甲基化測序:DNA甲基化是表觀遺傳學(Epigenetics)的重要組成部分,在維持正常細胞功能、遺傳印記、胚胎發(fā)育以及人類腫瘤發(fā)生中起著重要的作用。在哺乳動物中,甲基化一般發(fā)生在CpG的胞嘧啶5位碳原子上。通過Illumina高通量測序平臺,對所有富集的甲基化DNA片段進行高通量測序,研究人員能夠獲得全基因組范圍內(nèi)高精度的甲基化狀態(tài),為深入的表觀遺傳調(diào)控分析提供了更有利的切入點。
靶向測序:對感興趣的基因區(qū)域設(shè)計芯片和探針,進行區(qū)域DNA富集后高精確度的序列分析,相比于全基因組和轉(zhuǎn)錄組測序,靶向區(qū)域測序的目標序列較少,可達到的測序深度較高,成本較低,可以獲得質(zhì)量較高的測序結(jié)果。該測序常用于臨床上進行疾病相關(guān)致病基因和易感基因的信息獲取,用于臨床指導個性化治療方案的制定。
Moleculo長測序:Moleculo方法,它的巧妙點就是可以把Illumina不算太長的序列,拼接成一個一個10 kb讀長的序列,然后,再拼出基因組來。在全新的基因組組裝工作中,也就是我們通常所說的“De Novo”工作中,最核心的技術(shù)點,是能否得到大量的、長讀長的序列。所以,得到長的讀長序列,一直是做De novo工作的科學家所追求的有效技術(shù)手段。另外,長讀長的序列還可以幫助科學家來確定染色體單體的基因型。Illumina標準的HiSeq/MiSeq測序方法,提供了一次給出大量序列的方法。它的序列,精度也很高,每個G的數(shù)據(jù)的測序成本也很低,但是,相對于De novo工作來說,它的讀長還是不夠長。舉例來說,Illumina旗下測序長度最長的MiSeq測序儀它的測序長度是:雙端各300個堿基。把這雙端的300個堿基拼起來,中間交錯100個堿基,可以得到一個500堿基的讀長,要用500堿基讀長的序列來組裝一個和人類基因組大小相近的一個基因組,也就是單倍體長度為30億個堿基長度的基因組,就相當于用筷子那么長(25厘米)的鐵軌,來拼出一個京滬鐵路(1300公里)。大家稍微想一想,就可以想出其中的難度。
Paired-End Sequencing 雙向/雙端測序:在構(gòu)建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后,去除第一輪測序的模板鏈,用對讀測序模塊(Paired-End Module)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序。
Single-Read Sequencing單向/單端測序:首先將DNA樣本進行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在Flowcell上生成DNA簇,上機測序單端讀取序列。
外顯子測序(Whole Exon Sequencing):外顯子組靶向測序采用了旨在檢測出編碼外顯子的富集策略,是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法。 外顯子組包括約1%的基因組,另外還包含約85%的致病突變。對于嘗試找出6800多種罕見病病因的基因研究人員而言,外顯子組測序可檢測出單核苷酸變異(SNV)、小部分基因插入或缺失(indel)以及罕見的新生突變,由此說明復(fù)雜疾病的遺傳率。外顯子組測序外顯子測序相對于基因組重測序成本較低,對研究已知基因的SNP、Indel等具有較大的優(yōu)勢,但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。
ChIp測序(ChIp-seq):染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)也稱結(jié)合位點分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點或組蛋白特異性修飾位點的研究。將ChIP與第二代測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。
ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對其進行純化與文庫構(gòu)建;然后對富集得到的DNA片段進行高通量測序。研究人員通過將獲得的數(shù)百萬條序列標簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。
基因組重測序(Genome Re-sequencing):全基因組重測序是對基因組序列已知的個體進行基因組測序,并在個體或群體水平上進行差異性分析的方法。隨著基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區(qū)域擴大到全基因組范圍。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測序相結(jié)合的策略進行高通量測序,實現(xiàn)在全基因組水平上檢測疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點,以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價值。
De novo測序:也稱為從頭測序,其不需要任何現(xiàn)有的序列資料就可以對某個物種進行測序,利用生物信息學分析手段對序列進行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個物種的全基因組序列是加快對此物種了解的重要捷徑。隨著新一代測序技術(shù)的飛速發(fā)展,基因組測序所需的成本和時間較傳統(tǒng)技術(shù)都大大降低,大規(guī)?;蚪M測序漸入佳境,基因組學研究也迎來新的發(fā)展契機和革命性突破。利用新一代高通量、高效率測序技術(shù)以及強大的生物信息分析能力,可以高效、低成本地測定并分析所有生物的基因組序列。
RNA測序(RNA-Seq):又稱轉(zhuǎn)錄組測序,是基于第二代測序技術(shù)的轉(zhuǎn)錄組學研究方法:首先提取生物樣品的全部轉(zhuǎn)錄的RNA,然后反轉(zhuǎn)錄為cDNA后進行的二代高通量測序,在此基礎(chǔ)上進行片段的重疊組裝,從而可得到一個個的轉(zhuǎn)錄本。進而可以形成對該生物樣品當前發(fā)育狀態(tài)的基因表達狀況的全局了解。進一步說,若和下一階段的生物樣品的RNA-Seq轉(zhuǎn)錄組進行比較,則可以得到全部的(在轉(zhuǎn)錄層面)基因表達的上調(diào)及下調(diào)–這就形成了表達譜,針對關(guān)鍵基因則可以形成你要想要的pathway的構(gòu)建。
mRNA測序(mRNA-seq):即研究特定細胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的mRNA的類型與拷貝數(shù)。對于真核生物,用帶有Oligo(dT)的磁珠富集mRNA,對于原核生物,用試劑盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片斷成為短片段,再以片斷后的mRNA為模板,用六堿基隨機引物(random hexamers)合成cDNA第一鏈,并加入緩沖液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二鏈,之后參照DNA文庫構(gòu)建的步驟,完成整個文庫制備工作。mRNA測序(mRNA-Seq)是針對分析疾病狀況、生物過程及廣泛研究設(shè)計中的轉(zhuǎn)錄組的首選方法。mRNA-Seq不僅可提供極為準確且高靈敏度的量化基因表達,還可識別已知的和新的轉(zhuǎn)錄異構(gòu)體、基因融合和其他特征及等位基因特異性表達。mRNA-Seq可提供編碼轉(zhuǎn)錄組的完整視圖,而并不受限于先驗知識。
單細胞mRNA測序:即測定單個細胞mRNA信息的測序方法。單細胞mRNA文庫的難點在于:PCR偏差和rRNA去除。目前市場主要有2種建庫方法,分別是Clontech公司推出的SMART法,和EpiCentre公司推出的TargetAmp方法。
小RNA測序(Small RNA-seq):Small RNA(miRNAs、siRNAs和 pi RNAs)是生命活動重要的調(diào)控因子,在基因表達調(diào)控、生物個體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。Illumina能夠?qū)毎蛘呓M織中的全部Small RNA進行深度測序及定量分析等研究。實驗時首先將18-30 nt范圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進一步處理,利用測序儀對DNA片段進行單向末端直接測序。
微小RNA測序(microRNA-seq,miRNA-seq):成熟的miRNA是由18-25個核苷酸組成的單鏈非編碼RNA,主要通過與靶miRNA結(jié)合使其降解或抑制其翻譯,從而達到調(diào)控基因表達、細胞生長、發(fā)育等生物學過程的目的?;诘诙鷾y序技術(shù)的miRNA測序,可以一次性獲得數(shù)百萬條miRNA序列,能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的miRNA及其表達差異,為研究miRNA對細胞進程的作用及其生物學影響提供了有力工具。
RIP測序(RNA Immunoprecipitation-sequence,RIP-seq):RIP是研究細胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù),是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動態(tài)過程的有力工具,能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點。這種技術(shù)運用針對目標蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來,然后經(jīng)過分離純化就可以對結(jié)合在復(fù)合物上的RNA進行測序分析,此測序分析過程則稱為RIP-seq。
RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類似應(yīng)用,但由于研究對象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物,RIP實驗的優(yōu)化條件與ChIP實驗不太相同(如復(fù)合物不需要固定,RIP反應(yīng)體系中的試劑和抗體絕對不能含有RNA酶,抗體需經(jīng)RIP實驗驗證等等)。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱為RIP-Chip,幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化。
紫外交聯(lián)免疫沉淀結(jié)合高通量測序(crosslinking-immunprecipitation and high-throughput sequencing,HITS-seq):HITS- seq又稱為CLIP-seq,是一項在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián),以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后,回收其中的RNA片段經(jīng)添加接頭、RT-PCR等步驟,對這些分子進行高通量測序,再經(jīng)生物信息學的分析和處理、總結(jié),挖掘出其特定規(guī)律,從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對生命的意義。
測序文庫相關(guān)概念
DNA文庫制備:文庫制備(Library Preparation)的原理就是在不同來源的DNA片段兩端連上特定序列的接頭,以符合高通量平臺的讀取要求。一般步驟包括:DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。
RNA文庫制備:RNA文庫制備一般步驟包括:RNA逆轉(zhuǎn)錄為雙鏈cDNA—DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。即將RNA逆轉(zhuǎn)錄為DNA后,進行建庫測序。
Tn5轉(zhuǎn)座子的建庫方法:執(zhí)行轉(zhuǎn)座功能的酶,通常由轉(zhuǎn)座子編碼,識別轉(zhuǎn)座子兩端的特異序列,能把轉(zhuǎn)座子從相鄰序列中脫離出來,再插入到新的DNA靶位點,無同源性要求。采用轉(zhuǎn)座子隨機插入并將基因組DNA打斷成長度大小為300 bp左右的片段,同時將測序所需的Adaptor直接在插入打斷的同時構(gòu)建到片段的兩端,所得產(chǎn)物即可經(jīng)PCR擴增(可選)完成文庫構(gòu)建。
Mate-Pair文庫:制備一些短的DNA片段,這些片段包含基因組中較大跨度(2-10 kb)片段兩端的序列,更具體地說:首先將基因組DNA隨機打斷到特定大?。?-10 kb范圍可選);然后經(jīng)末端修復(fù),生物素標記和環(huán)化等實驗步驟后,再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫,然后上機測序。
甲基化測序文庫:常用重亞硫酸鹽方法。原理是:在DNA按照常規(guī)建庫步驟,加完接頭以后,用重亞硫酸處理,將基因組中未發(fā)生甲基化的C堿基轉(zhuǎn)化成U,進行PCR擴增后變成T,這樣得到的文庫與原本具有甲基化修飾的C堿基區(qū)分開來。
方向性RNA文庫(鏈特異性):指在構(gòu)建測序文庫時,將mRNA鏈的方向信息保存到測序文庫中。測序后的數(shù)據(jù)分析可確定轉(zhuǎn)錄本是來自正義還是反義DNA鏈。與普通轉(zhuǎn)錄組測序相比,它更能準確地統(tǒng)計轉(zhuǎn)錄本的數(shù)量和確定基因的結(jié)構(gòu),同時可以發(fā)現(xiàn)更多的反義轉(zhuǎn)錄本,目前被廣泛地應(yīng)用于研究基因結(jié)構(gòu)和基因表達調(diào)控等領(lǐng)域范圍。其中用的最普遍的是摻U法(dUTP)。
生信分析相關(guān)概念
PE reads:即paired-end reads。reads(讀長)是高通量測序中一個反應(yīng)獲得的測序序列。
在測序過程中,一條DNA分子的兩端都可以測序.先測其中的一端,獲得一個reads,然后再轉(zhuǎn)到另一端測序,獲得另外一個reads,得到的這兩個reads就是PE reads。
測序中的Q20,Q30:基因高通量測序中,每測一個堿基會給出一個相應(yīng)的質(zhì)量值,這個質(zhì)量值是衡量測序準確度的。20的錯誤率為1%,30的錯誤率為0.1%。行業(yè)中Q20與Q30則表示質(zhì)量值≧20或30的堿基所占百分比。例如一共測了1G的數(shù)據(jù)量,其中有0.9G的堿基質(zhì)量值大于或等于20,那么Q20則為90%。
Q20值是指的測序過程堿基識別(Base Calling)過程中,對所識別的堿基給出的錯誤概率。
質(zhì)量值是Q20,則錯誤識別的概率是1%,即錯誤率1%,或者正確率是99%;
質(zhì)量值是Q30,則錯誤識別的概率是0.1%,即錯誤率0.1%,或者正確率是99.9%;
質(zhì)量值是Q40,則錯誤識別的概率是0.01%,即錯誤率0.01%,或者正確率是99.99%。
測序深度:指測序得到的總堿基數(shù)與待測基因組大小的比值。假設(shè)一個基因大小為2 M,測序深度為10X,那么獲得的總數(shù)據(jù)量為20 M。(測序深度=總數(shù)據(jù)量20 M/基因組大小2 M=10×)。
測序覆蓋度:指測序獲得的序列占整個基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個細菌基因組測序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測序獲得的。
Contig:拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig(重疊群)。(由reads通過對overlap區(qū)域拼接組裝成的沒有g(shù)ap的序列段。)
Contig N50:Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進行排序,如獲得Contig 1,Contig 2,Contig 3,,,,,,Contig 25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度×1/2時,Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個判斷標準。
Scaffold:基因組de novo測序(沒有參考基因組的測序,需要研究人員從頭拼接得到的序列),通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3 kb、6 kb、10 kb、20 kb)兩端的序列?;谶@些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。
Scaffold N50:Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3,,,,,,Scaffold 25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個判斷標準。
Reads:高通量測序平臺產(chǎn)生的序列就稱為reads。
Raw Reads:原始下機數(shù)據(jù)稱為Raw Reads。
Clean Reads:通過生物信息的方法,去除一些質(zhì)量差的reads,得到Clean Reads,常包括去除由于測序儀器硬件原因產(chǎn)生的信號強度極端的reads;去除總體質(zhì)量偏低的reads,即Q=20堿基比例小于50%的reads,其中,Q=-10logerror_ratio;去除3’端質(zhì)量Q低于10的堿基,即堿基錯誤率為0.1;去除reads中含有的模糊的N堿基,可能是由于測序熒光強度不夠造成;去除reads中含有的接頭序列;去除長度小于20的reads等。
Mapped Reads:比對到參考基因組上的Reads稱為Mapped Reads。Mapped Reads占Clean Reads的百分比,可以評估所選參考基因組組裝是否能滿足信息分析的需求。
RPKM:在衡量基因表現(xiàn)量時,若是單純以map到的read數(shù)來計算基因的表現(xiàn)量,在統(tǒng)計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現(xiàn)量較高,而錯估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表現(xiàn)量。
RPKM是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)。
假設(shè)一基因體只有兩個基因,一個9 kb,一個1 kb,如今有一sample,其map 到9 kb 的read 有18 million個,map 到1 kb 的有2 million個:
對于9 kb 的基因而言,Total exon reads=18 million,Mapped reads=18+2=20 million,Exon length=9 kb,RPKM=18million/(20×9)=0.1×106=105;
對于1 kb 的基因而言,Total exon reads=2 million,Mapped reads=18+2=20 million,Exon length=1 kb
RPKM =2million/(20×1)=0.1×106=105;
由此我們可以知道這兩個基因表現(xiàn)量沒有差別。
FPKM:Fragments Per Kilobase Million是將Map到基因的Fragments數(shù)除以Map到Genome的所有Read數(shù)(以Million為單位)與RNA的長度(以kb為單位),也是衡量基因表現(xiàn)量的參數(shù)。FPKM計算的是片段(Fragments),而RPKM計算的是數(shù)據(jù)(Reads)。Fragment比Read的含義更廣,因此FPKM包含的意義也更廣,可以是Pair-end的一個Fragment,也可以是一個Read。RPKM的誕生是針對SE測序,F(xiàn)PKM則是在PE測序上對RPKM的校正。
轉(zhuǎn)錄本重構(gòu):用測序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式:1. de-novo構(gòu)建;2. 有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個更長的序列,經(jīng)過不斷的延伸,拼成一個個的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構(gòu),是指先將read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、cufflinks。
華雅生物集團在疫情中迎難而上
北京紅榮微再生物工程技術(shù)有限公司正式落地北京
WGA 技術(shù) DOP-PCR, MDA , MALBAC 到底如何選擇,滿滿干貨來啦!
全球與中國干細胞專利發(fā)展態(tài)勢對比分析
2020華雅思創(chuàng)生物雙十一鉅惠來襲,更多熱賣產(chǎn)品等你來搶購,還有免費試用等著你喲?。?!
Streck新品上市 : RNA Complete BCT 保存管 國內(nèi)現(xiàn)貨
震驚!新冠病毒還會在貓狗之間傳播?答案來了!
華雅思創(chuàng)生物戰(zhàn)“疫”系列活動–還在等什么?
人類上皮細胞:外部環(huán)境的障礙
內(nèi)皮細胞3D培養(yǎng)模型的優(yōu)化探索 ?–Lifeline授權(quán)代理新品熱銷系列內(nèi)皮細胞