由干細(xì)胞搜丨干細(xì)胞搜網(wǎng)編輯: NGS技術(shù)的進(jìn)步、應(yīng)用范圍的擴(kuò)展、研究實(shí)驗(yàn)室和學(xué)術(shù)機(jī)構(gòu)對(duì)NGS的采用率增加等等,這些因素推動(dòng)了整個(gè)市場(chǎng)的發(fā)展。另外,診斷測(cè)試的準(zhǔn)確性和標(biāo)準(zhǔn)化,以及缺乏熟練的技術(shù)人員是制約市場(chǎng)增長的關(guān)鍵因素之一。
測(cè)序基礎(chǔ)概念
NGS(下一代測(cè)序技術(shù)):又稱高通量測(cè)序,以高輸出量和高解析度為主要特色,能一次并行對(duì)幾十萬到幾百萬條DNA分子進(jìn)行序列讀取,在提供豐富的遺傳學(xué)信息的同時(shí),還可大大降低測(cè)序費(fèi)用、縮短測(cè)序時(shí)間的測(cè)序技術(shù)。
Sanger法測(cè)序(一代測(cè)序):是一種利用DNA聚合酶來延伸結(jié)合在待定序列模板上的引物的測(cè)序技術(shù)。每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。
基因組學(xué)(genomics):基因組學(xué)是研究生物基因組和如何利用基因的一門學(xué)問。用于概括涉及基因作圖、測(cè)序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用,試圖解決生物,醫(yī)學(xué),和工業(yè)領(lǐng)域的重大問題。
功能基因組學(xué)(Functional Genomics):又稱為后基因組學(xué)(postgenomics),它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物,發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段,通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學(xué)研究從對(duì)單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測(cè)?;虻墓δ馨ǎ荷飳W(xué)功能,如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾;細(xì)胞學(xué)功能,如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑;發(fā)育上功能,如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術(shù)不能對(duì)基因進(jìn)行全面系統(tǒng)的分析,新的技術(shù)應(yīng)運(yùn)而生,包括基因表達(dá)的系統(tǒng)分析(Serial Analysis of Gene Expression, SAGE),cDNA微陣列(cDNA microarray),DNA 芯片(DNA chip)和序列標(biāo)志片段顯示(sequence tagged fragments display)
比較基因組學(xué)(Comparative Genomics):比較基因組學(xué)是基于基因組圖譜和測(cè)序基礎(chǔ)上,對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較,來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機(jī)制,闡明物種進(jìn)化關(guān)系,及基因組的內(nèi)在結(jié)構(gòu)。
表觀遺傳學(xué):研究在不改變DNA序列的前提下,通過某些機(jī)制引起可遺傳的基因表達(dá)或細(xì)胞表現(xiàn)型的變化的一門遺傳學(xué)分支學(xué)科。表觀遺傳現(xiàn)象包括DNA甲基化、RNA干擾、基因組印記、母體效應(yīng)、基因沉默、核仁顯性、休眠轉(zhuǎn)座子激活和RNA編輯等。其研究內(nèi)容主要包括兩類:一類為基因選擇性轉(zhuǎn)錄表達(dá)的調(diào)控,有DNA甲基化、基因印記、組蛋白共價(jià)修飾和染色質(zhì)重塑;另一類為基因轉(zhuǎn)錄后的調(diào)控,包括基因組中非編碼RNA、微小RNA、反義RNA、內(nèi)含子及核糖開關(guān)等。
計(jì)算生物學(xué):計(jì)算生物學(xué)是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等。當(dāng)前,生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長,每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會(huì)翻一番,單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付。因此,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)。
基因組印記:指基因根據(jù)親代的不同而有不同的表達(dá)。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)。基因組印記是一正常過程,此現(xiàn)象在一些低等動(dòng)物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù),可能不超過5%,但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用?;蚪M印記病主要表現(xiàn)為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見的遺傳學(xué)因素之一。
DNA甲基化:指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5’碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。正常情況下,人類基因組“垃圾”序列的CpG二核苷酸相對(duì)稀少,并且總是處于甲基化狀態(tài),與之相反,人類基因組中大小為100-1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài),并且與56%的人類基因組編碼基因相關(guān)。人類基因組序列草圖分析結(jié)果表明,人類基因組CpG島約為28890個(gè),大部分染色體每1 Mb就有5-15個(gè)CpG島,平均值為每Mb含10.5個(gè)CpG島,CpG島的數(shù)目與基因密度有良好的對(duì)應(yīng)關(guān)系。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題,DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。
宏基因組學(xué)(Metagenomic):又叫微生物環(huán)境基因組學(xué)、元基因組學(xué)。它通過直接從環(huán)境樣品中提取全部微生物的DNA,構(gòu)建宏基因組文庫,利用基因組學(xué)的研究策略研究環(huán)境樣品所包含的全部微生物的遺傳組成及其群落功能。它是在微生物基因組學(xué)的基礎(chǔ)上發(fā)展起來的一種研究微生物多樣性、開發(fā)新的生理活性物質(zhì)(或獲得新基因)的新理念和新方法。其主要含義是: 對(duì)特定環(huán)境中全部微生物的總DNA(也稱宏基因組,metagenomic)進(jìn)行克隆,并通過構(gòu)建宏基因組文庫和篩選等手段獲得新的生理活性物質(zhì);或者根據(jù)rDNA數(shù)據(jù)庫設(shè)計(jì)引物,通過系統(tǒng)學(xué)分析獲得該環(huán)境中微生物的遺傳多樣性和分子生態(tài)學(xué)信息。
基因定位(Gene Mapping):基因所屬連鎖群或染色體的測(cè)定,即所屬連鎖群或染色體以及基因在染色體上的位置的測(cè)定?;蚨ㄎ皇沁z傳學(xué)研究中的重要環(huán)節(jié),基于發(fā)現(xiàn)一些有類似表型效應(yīng)的基因緊密連鎖的以及基因的位置與它們的功能相關(guān)的原理。
融合基因(Gene Fusion):將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。
基因表達(dá)譜(Gene Expression Profile):指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測(cè)序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜。
單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP):SNP代表個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個(gè)體基因組DNA序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。在研究癌癥基因組變異時(shí),相對(duì)于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation),稱做單核苷酸位點(diǎn)變異(SNV,Single Nucleotide Variation)。
Genotype和Phenotype:即基因型與表型?;蛐陀址Q遺傳型,指生物的全部遺傳物質(zhì)(基因)組成。 但一般只表示個(gè)別或少數(shù)基因位點(diǎn)上的等位基因的組成。表型指生物體個(gè)別或少數(shù)性狀以至全部性狀的表現(xiàn)。
基因組拷貝數(shù)變異(Copy Number Variation,CNV):基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增,如A-C-B-C-D。CNVs廣泛存在于正常個(gè)體,且相對(duì)單核苷酸多態(tài)性(SNPs)在整個(gè)基因組中覆蓋的核苷酸總數(shù)至少高3倍,在遺傳變異和物種進(jìn)化方面具有重要意義。
基因組結(jié)構(gòu)變異(Structure Variation,SV):通常是指基因組內(nèi)大于1 kb的DNA片段缺失、插入、重復(fù)、倒位、易位以及DNA拷貝數(shù)目變化(CNVs)。人類基因組結(jié)構(gòu)變異涉及數(shù)千片段不連續(xù)的基因組區(qū)域,含數(shù)百萬DNA堿基對(duì),可含數(shù)個(gè)基因及調(diào)控序列,多種基因功能因此缺失或改變,導(dǎo)致機(jī)體表型變化、疾病易感性改變或發(fā)生疾病。對(duì)基因組結(jié)構(gòu)變異的研究,有助于用動(dòng)態(tài)的觀點(diǎn)全面分析基因組遺傳變異得到整合的基因型,理解結(jié)構(gòu)變異的潛在醫(yī)學(xué)作用及機(jī)體整體功能的復(fù)雜性。文章從人類基因組結(jié)構(gòu)變異的類型、研究方法, 對(duì)個(gè)體表型、疾病及生物進(jìn)化的影響等方面綜合闡述人類基因組結(jié)構(gòu)變異的最新研究進(jìn)展。
Segment Duplication:一般稱為SD區(qū)域,譯為重復(fù)片段倍增,是指參考基因組序列中出現(xiàn)DNA片段長度>1 kb的兩個(gè)或兩個(gè)以上拷貝,不同拷貝質(zhì)檢的序列同源性>90%。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。
測(cè)序類型相關(guān)概念
單細(xì)胞全基因組測(cè)序:單細(xì)胞全基因組測(cè)序技術(shù)是在單細(xì)胞水平對(duì)全基因組進(jìn)行擴(kuò)增與測(cè)序的一項(xiàng)新技術(shù)。其原理是將分離的單個(gè)細(xì)胞的微量全基因組DNA進(jìn)行擴(kuò)增,獲得高覆蓋率的完整的基因組之后通過外顯子捕獲進(jìn)而高通量測(cè)序用于揭示細(xì)胞群體差異和細(xì)胞進(jìn)化關(guān)系。全基因組擴(kuò)增技術(shù)主要分為兩種類型:一是基于熱循環(huán)以PCR為基礎(chǔ)的擴(kuò)增技術(shù),如簡并寡核苷酸引物PCR(DOP-PCR)、連接反應(yīng)介導(dǎo)的PCR(LM-PCR)、擴(kuò)增前引物延伸反應(yīng)(PEP)等;二是基于等溫反應(yīng)不以PCR為基礎(chǔ)的擴(kuò)增技術(shù),如多重置換擴(kuò)增(MDA)和基于引物酶的全基因組擴(kuò)增(pWGA)。
甲基化測(cè)序:DNA甲基化是表觀遺傳學(xué)(Epigenetics)的重要組成部分,在維持正常細(xì)胞功能、遺傳印記、胚胎發(fā)育以及人類腫瘤發(fā)生中起著重要的作用。在哺乳動(dòng)物中,甲基化一般發(fā)生在CpG的胞嘧啶5位碳原子上。通過Illumina高通量測(cè)序平臺(tái),對(duì)所有富集的甲基化DNA片段進(jìn)行高通量測(cè)序,研究人員能夠獲得全基因組范圍內(nèi)高精度的甲基化狀態(tài),為深入的表觀遺傳調(diào)控分析提供了更有利的切入點(diǎn)。
靶向測(cè)序:對(duì)感興趣的基因區(qū)域設(shè)計(jì)芯片和探針,進(jìn)行區(qū)域DNA富集后高精確度的序列分析,相比于全基因組和轉(zhuǎn)錄組測(cè)序,靶向區(qū)域測(cè)序的目標(biāo)序列較少,可達(dá)到的測(cè)序深度較高,成本較低,可以獲得質(zhì)量較高的測(cè)序結(jié)果。該測(cè)序常用于臨床上進(jìn)行疾病相關(guān)致病基因和易感基因的信息獲取,用于臨床指導(dǎo)個(gè)性化治療方案的制定。
Moleculo長測(cè)序:Moleculo方法,它的巧妙點(diǎn)就是可以把Illumina不算太長的序列,拼接成一個(gè)一個(gè)10 kb讀長的序列,然后,再拼出基因組來。在全新的基因組組裝工作中,也就是我們通常所說的“De Novo”工作中,最核心的技術(shù)點(diǎn),是能否得到大量的、長讀長的序列。所以,得到長的讀長序列,一直是做De novo工作的科學(xué)家所追求的有效技術(shù)手段。另外,長讀長的序列還可以幫助科學(xué)家來確定染色體單體的基因型。Illumina標(biāo)準(zhǔn)的HiSeq/MiSeq測(cè)序方法,提供了一次給出大量序列的方法。它的序列,精度也很高,每個(gè)G的數(shù)據(jù)的測(cè)序成本也很低,但是,相對(duì)于De novo工作來說,它的讀長還是不夠長。舉例來說,Illumina旗下測(cè)序長度最長的MiSeq測(cè)序儀它的測(cè)序長度是:雙端各300個(gè)堿基。把這雙端的300個(gè)堿基拼起來,中間交錯(cuò)100個(gè)堿基,可以得到一個(gè)500堿基的讀長,要用500堿基讀長的序列來組裝一個(gè)和人類基因組大小相近的一個(gè)基因組,也就是單倍體長度為30億個(gè)堿基長度的基因組,就相當(dāng)于用筷子那么長(25厘米)的鐵軌,來拼出一個(gè)京滬鐵路(1300公里)。大家稍微想一想,就可以想出其中的難度。
Paired-End Sequencing 雙向/雙端測(cè)序:在構(gòu)建待測(cè)DNA文庫時(shí)在兩端的接頭上都加上測(cè)序引物結(jié)合位點(diǎn),在第一輪測(cè)序完成后,去除第一輪測(cè)序的模板鏈,用對(duì)讀測(cè)序模塊(Paired-End Module)引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測(cè)序所用的模板量,進(jìn)行第二輪互補(bǔ)鏈的合成測(cè)序。
Single-Read Sequencing單向/單端測(cè)序:首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在Flowcell上生成DNA簇,上機(jī)測(cè)序單端讀取序列。
外顯子測(cè)序(Whole Exon Sequencing):外顯子組靶向測(cè)序采用了旨在檢測(cè)出編碼外顯子的富集策略,是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法。 外顯子組包括約1%的基因組,另外還包含約85%的致病突變。對(duì)于嘗試找出6800多種罕見病病因的基因研究人員而言,外顯子組測(cè)序可檢測(cè)出單核苷酸變異(SNV)、小部分基因插入或缺失(indel)以及罕見的新生突變,由此說明復(fù)雜疾病的遺傳率。外顯子組測(cè)序外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低,對(duì)研究已知基因的SNP、Indel等具有較大的優(yōu)勢(shì),但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。
ChIp測(cè)序(ChIp-seq):染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)也稱結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將ChIP與第二代測(cè)序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測(cè)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。
ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對(duì)其進(jìn)行純化與文庫構(gòu)建;然后對(duì)富集得到的DNA片段進(jìn)行高通量測(cè)序。研究人員通過將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。
基因組重測(cè)序(Genome Re-sequencing):全基因組重測(cè)序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測(cè)序,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測(cè)序成本的不斷降低,人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序,實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。
De novo測(cè)序:也稱為從頭測(cè)序,其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑。隨著新一代測(cè)序技術(shù)的飛速發(fā)展,基因組測(cè)序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)?;蚪M測(cè)序漸入佳境,基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。利用新一代高通量、高效率測(cè)序技術(shù)以及強(qiáng)大的生物信息分析能力,可以高效、低成本地測(cè)定并分析所有生物的基因組序列。
RNA測(cè)序(RNA-Seq):又稱轉(zhuǎn)錄組測(cè)序,是基于第二代測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法:首先提取生物樣品的全部轉(zhuǎn)錄的RNA,然后反轉(zhuǎn)錄為cDNA后進(jìn)行的二代高通量測(cè)序,在此基礎(chǔ)上進(jìn)行片段的重疊組裝,從而可得到一個(gè)個(gè)的轉(zhuǎn)錄本。進(jìn)而可以形成對(duì)該生物樣品當(dāng)前發(fā)育狀態(tài)的基因表達(dá)狀況的全局了解。進(jìn)一步說,若和下一階段的生物樣品的RNA-Seq轉(zhuǎn)錄組進(jìn)行比較,則可以得到全部的(在轉(zhuǎn)錄層面)基因表達(dá)的上調(diào)及下調(diào)–這就形成了表達(dá)譜,針對(duì)關(guān)鍵基因則可以形成你要想要的pathway的構(gòu)建。
mRNA測(cè)序(mRNA-seq):即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的mRNA的類型與拷貝數(shù)。對(duì)于真核生物,用帶有Oligo(dT)的磁珠富集mRNA,對(duì)于原核生物,用試劑盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片斷成為短片段,再以片斷后的mRNA為模板,用六堿基隨機(jī)引物(random hexamers)合成cDNA第一鏈,并加入緩沖液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二鏈,之后參照DNA文庫構(gòu)建的步驟,完成整個(gè)文庫制備工作。mRNA測(cè)序(mRNA-Seq)是針對(duì)分析疾病狀況、生物過程及廣泛研究設(shè)計(jì)中的轉(zhuǎn)錄組的首選方法。mRNA-Seq不僅可提供極為準(zhǔn)確且高靈敏度的量化基因表達(dá),還可識(shí)別已知的和新的轉(zhuǎn)錄異構(gòu)體、基因融合和其他特征及等位基因特異性表達(dá)。mRNA-Seq可提供編碼轉(zhuǎn)錄組的完整視圖,而并不受限于先驗(yàn)知識(shí)。
單細(xì)胞mRNA測(cè)序:即測(cè)定單個(gè)細(xì)胞mRNA信息的測(cè)序方法。單細(xì)胞mRNA文庫的難點(diǎn)在于:PCR偏差和rRNA去除。目前市場(chǎng)主要有2種建庫方法,分別是Clontech公司推出的SMART法,和EpiCentre公司推出的TargetAmp方法。
小RNA測(cè)序(Small RNA-seq):Small RNA(miRNAs、siRNAs和 pi RNAs)是生命活動(dòng)重要的調(diào)控因子,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。Illumina能夠?qū)?xì)胞或者組織中的全部Small RNA進(jìn)行深度測(cè)序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30 nt范圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理,利用測(cè)序儀對(duì)DNA片段進(jìn)行單向末端直接測(cè)序。
微小RNA測(cè)序(microRNA-seq,miRNA-seq):成熟的miRNA是由18-25個(gè)核苷酸組成的單鏈非編碼RNA,主要通過與靶miRNA結(jié)合使其降解或抑制其翻譯,從而達(dá)到調(diào)控基因表達(dá)、細(xì)胞生長、發(fā)育等生物學(xué)過程的目的。基于第二代測(cè)序技術(shù)的miRNA測(cè)序,可以一次性獲得數(shù)百萬條miRNA序列,能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的miRNA及其表達(dá)差異,為研究miRNA對(duì)細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具。
RIP測(cè)序(RNA Immunoprecipitation-sequence,RIP-seq):RIP是研究細(xì)胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù),是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動(dòng)態(tài)過程的有力工具,能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點(diǎn)。這種技術(shù)運(yùn)用針對(duì)目標(biāo)蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來,然后經(jīng)過分離純化就可以對(duì)結(jié)合在復(fù)合物上的RNA進(jìn)行測(cè)序分析,此測(cè)序分析過程則稱為RIP-seq。
RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類似應(yīng)用,但由于研究對(duì)象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物,RIP實(shí)驗(yàn)的優(yōu)化條件與ChIP實(shí)驗(yàn)不太相同(如復(fù)合物不需要固定,RIP反應(yīng)體系中的試劑和抗體絕對(duì)不能含有RNA酶,抗體需經(jīng)RIP實(shí)驗(yàn)驗(yàn)證等等)。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱為RIP-Chip,幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化。
紫外交聯(lián)免疫沉淀結(jié)合高通量測(cè)序(crosslinking-immunprecipitation and high-throughput sequencing,HITS-seq):HITS- seq又稱為CLIP-seq,是一項(xiàng)在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián),以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后,回收其中的RNA片段經(jīng)添加接頭、RT-PCR等步驟,對(duì)這些分子進(jìn)行高通量測(cè)序,再經(jīng)生物信息學(xué)的分析和處理、總結(jié),挖掘出其特定規(guī)律,從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對(duì)生命的意義。
測(cè)序文庫相關(guān)概念
DNA文庫制備:文庫制備(Library Preparation)的原理就是在不同來源的DNA片段兩端連上特定序列的接頭,以符合高通量平臺(tái)的讀取要求。一般步驟包括:DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。
RNA文庫制備:RNA文庫制備一般步驟包括:RNA逆轉(zhuǎn)錄為雙鏈cDNA—DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。即將RNA逆轉(zhuǎn)錄為DNA后,進(jìn)行建庫測(cè)序。
Tn5轉(zhuǎn)座子的建庫方法:執(zhí)行轉(zhuǎn)座功能的酶,通常由轉(zhuǎn)座子編碼,識(shí)別轉(zhuǎn)座子兩端的特異序列,能把轉(zhuǎn)座子從相鄰序列中脫離出來,再插入到新的DNA靶位點(diǎn),無同源性要求。采用轉(zhuǎn)座子隨機(jī)插入并將基因組DNA打斷成長度大小為300 bp左右的片段,同時(shí)將測(cè)序所需的Adaptor直接在插入打斷的同時(shí)構(gòu)建到片段的兩端,所得產(chǎn)物即可經(jīng)PCR擴(kuò)增(可選)完成文庫構(gòu)建。
Mate-Pair文庫:制備一些短的DNA片段,這些片段包含基因組中較大跨度(2-10 kb)片段兩端的序列,更具體地說:首先將基因組DNA隨機(jī)打斷到特定大小(2-10 kb范圍可選);然后經(jīng)末端修復(fù),生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后,再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫,然后上機(jī)測(cè)序。
甲基化測(cè)序文庫:常用重亞硫酸鹽方法。原理是:在DNA按照常規(guī)建庫步驟,加完接頭以后,用重亞硫酸處理,將基因組中未發(fā)生甲基化的C堿基轉(zhuǎn)化成U,進(jìn)行PCR擴(kuò)增后變成T,這樣得到的文庫與原本具有甲基化修飾的C堿基區(qū)分開來。
方向性RNA文庫(鏈特異性):指在構(gòu)建測(cè)序文庫時(shí),將mRNA鏈的方向信息保存到測(cè)序文庫中。測(cè)序后的數(shù)據(jù)分析可確定轉(zhuǎn)錄本是來自正義還是反義DNA鏈。與普通轉(zhuǎn)錄組測(cè)序相比,它更能準(zhǔn)確地統(tǒng)計(jì)轉(zhuǎn)錄本的數(shù)量和確定基因的結(jié)構(gòu),同時(shí)可以發(fā)現(xiàn)更多的反義轉(zhuǎn)錄本,目前被廣泛地應(yīng)用于研究基因結(jié)構(gòu)和基因表達(dá)調(diào)控等領(lǐng)域范圍。其中用的最普遍的是摻U法(dUTP)。
生信分析相關(guān)概念
PE reads:即paired-end reads。reads(讀長)是高通量測(cè)序中一個(gè)反應(yīng)獲得的測(cè)序序列。
在測(cè)序過程中,一條DNA分子的兩端都可以測(cè)序.先測(cè)其中的一端,獲得一個(gè)reads,然后再轉(zhuǎn)到另一端測(cè)序,獲得另外一個(gè)reads,得到的這兩個(gè)reads就是PE reads。
測(cè)序中的Q20,Q30:基因高通量測(cè)序中,每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值,這個(gè)質(zhì)量值是衡量測(cè)序準(zhǔn)確度的。20的錯(cuò)誤率為1%,30的錯(cuò)誤率為0.1%。行業(yè)中Q20與Q30則表示質(zhì)量值≧20或30的堿基所占百分比。例如一共測(cè)了1G的數(shù)據(jù)量,其中有0.9G的堿基質(zhì)量值大于或等于20,那么Q20則為90%。
Q20值是指的測(cè)序過程堿基識(shí)別(Base Calling)過程中,對(duì)所識(shí)別的堿基給出的錯(cuò)誤概率。
質(zhì)量值是Q20,則錯(cuò)誤識(shí)別的概率是1%,即錯(cuò)誤率1%,或者正確率是99%;
質(zhì)量值是Q30,則錯(cuò)誤識(shí)別的概率是0.1%,即錯(cuò)誤率0.1%,或者正確率是99.9%;
質(zhì)量值是Q40,則錯(cuò)誤識(shí)別的概率是0.01%,即錯(cuò)誤率0.01%,或者正確率是99.99%。
測(cè)序深度:指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值。假設(shè)一個(gè)基因大小為2 M,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為20 M。(測(cè)序深度=總數(shù)據(jù)量20 M/基因組大小2 M=10×)。
測(cè)序覆蓋度:指測(cè)序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。
Contig:拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig(重疊群)。(由reads通過對(duì)overlap區(qū)域拼接組裝成的沒有g(shù)ap的序列段。)
Contig N50:Reads拼接后會(huì)獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個(gè)Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序,如獲得Contig 1,Contig 2,Contig 3,,,,,,Contig 25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Contig總長度的一半時(shí),最后一個(gè)加上的Contig長度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度×1/2時(shí),Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
Scaffold:基因組de novo測(cè)序(沒有參考基因組的測(cè)序,需要研究人員從頭拼接得到的序列),通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3 kb、6 kb、10 kb、20 kb)兩端的序列。基于這些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。
Scaffold N50:Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個(gè)Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3,,,,,,Scaffold 25。將Scaffold按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí),最后一個(gè)加上的Scaffold長度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時(shí),Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
Reads:高通量測(cè)序平臺(tái)產(chǎn)生的序列就稱為reads。
Raw Reads:原始下機(jī)數(shù)據(jù)稱為Raw Reads。
Clean Reads:通過生物信息的方法,去除一些質(zhì)量差的reads,得到Clean Reads,常包括去除由于測(cè)序儀器硬件原因產(chǎn)生的信號(hào)強(qiáng)度極端的reads;去除總體質(zhì)量偏低的reads,即Q=20堿基比例小于50%的reads,其中,Q=-10logerror_ratio;去除3’端質(zhì)量Q低于10的堿基,即堿基錯(cuò)誤率為0.1;去除reads中含有的模糊的N堿基,可能是由于測(cè)序熒光強(qiáng)度不夠造成;去除reads中含有的接頭序列;去除長度小于20的reads等。
Mapped Reads:比對(duì)到參考基因組上的Reads稱為Mapped Reads。Mapped Reads占Clean Reads的百分比,可以評(píng)估所選參考基因組組裝是否能滿足信息分析的需求。
RPKM:在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長的基因被抽到的機(jī)率本來就會(huì)比序列短的基因較高,如此一來,序列長的基因永遠(yuǎn)會(huì)被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量。
RPKM是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)。
假設(shè)一基因體只有兩個(gè)基因,一個(gè)9 kb,一個(gè)1 kb,如今有一sample,其map 到9 kb 的read 有18 million個(gè),map 到1 kb 的有2 million個(gè):
對(duì)于9 kb 的基因而言,Total exon reads=18 million,Mapped reads=18+2=20 million,Exon length=9 kb,RPKM=18million/(20×9)=0.1×106=105;
對(duì)于1 kb 的基因而言,Total exon reads=2 million,Mapped reads=18+2=20 million,Exon length=1 kb
RPKM =2million/(20×1)=0.1×106=105;
由此我們可以知道這兩個(gè)基因表現(xiàn)量沒有差別。
FPKM:Fragments Per Kilobase Million是將Map到基因的Fragments數(shù)除以Map到Genome的所有Read數(shù)(以Million為單位)與RNA的長度(以kb為單位),也是衡量基因表現(xiàn)量的參數(shù)。FPKM計(jì)算的是片段(Fragments),而RPKM計(jì)算的是數(shù)據(jù)(Reads)。Fragment比Read的含義更廣,因此FPKM包含的意義也更廣,可以是Pair-end的一個(gè)Fragment,也可以是一個(gè)Read。RPKM的誕生是針對(duì)SE測(cè)序,F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。
轉(zhuǎn)錄本重構(gòu):用測(cè)序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式:1. de-novo構(gòu)建;2. 有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個(gè)更長的序列,經(jīng)過不斷的延伸,拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構(gòu),是指先將read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、cufflinks。
華雅生物集團(tuán)在疫情中迎難而上
北京紅榮微再生物工程技術(shù)有限公司正式落地北京
WGA 技術(shù) DOP-PCR, MDA , MALBAC 到底如何選擇,滿滿干貨來啦!
全球與中國干細(xì)胞專利發(fā)展態(tài)勢(shì)對(duì)比分析
2020華雅思創(chuàng)生物雙十一鉅惠來襲,更多熱賣產(chǎn)品等你來搶購,還有免費(fèi)試用等著你喲!??!
Streck新品上市 : RNA Complete BCT 保存管 國內(nèi)現(xiàn)貨
震驚!新冠病毒還會(huì)在貓狗之間傳播?答案來了!
華雅思創(chuàng)生物戰(zhàn)“疫”系列活動(dòng)–還在等什么?
人類上皮細(xì)胞:外部環(huán)境的障礙
內(nèi)皮細(xì)胞3D培養(yǎng)模型的優(yōu)化探索 ?–Lifeline授權(quán)代理新品熱銷系列內(nèi)皮細(xì)胞