辰东完美世界有声小说,盗墓笔记第二季,完美世界txt全集下载

NGS測(cè)序

導(dǎo)讀

由干細(xì)胞搜丨干細(xì)胞搜網(wǎng)編輯： NGS技術(shù)的進(jìn)步、應(yīng)用范圍的擴(kuò)展、研究實(shí)驗(yàn)室和學(xué)術(shù)機(jī)構(gòu)對(duì)NGS的采用率增加等等，這些因素推動(dòng)了整個(gè)市場(chǎng)的發(fā)展。另外，診斷測(cè)試的準(zhǔn)確性和標(biāo)準(zhǔn)化，以及缺乏熟練的技術(shù)人員是制約市場(chǎng)增長的關(guān)鍵因素之一。

測(cè)序基礎(chǔ)概念

NGS（下一代測(cè)序技術(shù)）：又稱高通量測(cè)序，以高輸出量和高解析度為主要特色，能一次并行對(duì)幾十萬到幾百萬條DNA分子進(jìn)行序列讀取，在提供豐富的遺傳學(xué)信息的同時(shí)，還可大大降低測(cè)序費(fèi)用、縮短測(cè)序時(shí)間的測(cè)序技術(shù)。

Sanger法測(cè)序（一代測(cè)序）：是一種利用DNA聚合酶來延伸結(jié)合在待定序列模板上的引物的測(cè)序技術(shù)。每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成，每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)，并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán)，使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整，使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn)，但終止在不同的的核苷酸上，可通過高分辨率變性凝膠電泳分離大小不同的片段，凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。

基因組學(xué)（genomics）：基因組學(xué)是研究生物基因組和如何利用基因的一門學(xué)問。用于概括涉及基因作圖、測(cè)序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用，試圖解決生物，醫(yī)學(xué)，和工業(yè)領(lǐng)域的重大問題。

功能基因組學(xué)（Functional Genomics）：又稱為后基因組學(xué)（postgenomics），它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物，發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段，通過在基因組或系統(tǒng)水平上全面分析基因的功能，使得生物學(xué)研究從對(duì)單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測(cè)?；虻墓δ馨ǎ荷飳W(xué)功能，如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾；細(xì)胞學(xué)功能，如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑；發(fā)育上功能，如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交，差示篩選，cDNA代表差異分析以及mRNA差異顯示等，但這些技術(shù)不能對(duì)基因進(jìn)行全面系統(tǒng)的分析，新的技術(shù)應(yīng)運(yùn)而生，包括基因表達(dá)的系統(tǒng)分析（Serial Analysis of Gene Expression, SAGE），cDNA微陣列（cDNA microarray），DNA 芯片（DNA chip）和序列標(biāo)志片段顯示（sequence tagged fragments display）

比較基因組學(xué)（Comparative Genomics）：比較基因組學(xué)是基于基因組圖譜和測(cè)序基礎(chǔ)上，對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較，來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性，克隆人類疾病基因，揭示基因功能和疾病分子機(jī)制，闡明物種進(jìn)化關(guān)系，及基因組的內(nèi)在結(jié)構(gòu)。

表觀遺傳學(xué)：研究在不改變DNA序列的前提下，通過某些機(jī)制引起可遺傳的基因表達(dá)或細(xì)胞表現(xiàn)型的變化的一門遺傳學(xué)分支學(xué)科。表觀遺傳現(xiàn)象包括DNA甲基化、RNA干擾、基因組印記、母體效應(yīng)、基因沉默、核仁顯性、休眠轉(zhuǎn)座子激活和RNA編輯等。其研究內(nèi)容主要包括兩類：一類為基因選擇性轉(zhuǎn)錄表達(dá)的調(diào)控，有DNA甲基化、基因印記、組蛋白共價(jià)修飾和染色質(zhì)重塑；另一類為基因轉(zhuǎn)錄后的調(diào)控，包括基因組中非編碼RNA、微小RNA、反義RNA、內(nèi)含子及核糖開關(guān)等。

計(jì)算生物學(xué)：計(jì)算生物學(xué)是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等。當(dāng)前，生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長，每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會(huì)翻一番，單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付。因此，必須依靠大規(guī)模計(jì)算模擬技術(shù)，從海量信息中提取最有用的數(shù)據(jù)。

基因組印記：指基因根據(jù)親代的不同而有不同的表達(dá)。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)。基因組印記是一正常過程，此現(xiàn)象在一些低等動(dòng)物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù)，可能不超過5%，但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用?；蚪M印記病主要表現(xiàn)為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見的遺傳學(xué)因素之一。

DNA甲基化：指在DNA甲基化轉(zhuǎn)移酶的作用下，在基因組CpG二核苷酸的胞嘧啶5’碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。正常情況下，人類基因組“垃圾”序列的CpG二核苷酸相對(duì)稀少，并且總是處于甲基化狀態(tài)，與之相反，人類基因組中大小為100-1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài)，并且與56％的人類基因組編碼基因相關(guān)。人類基因組序列草圖分析結(jié)果表明，人類基因組CpG島約為28890個(gè)，大部分染色體每1 Mb就有5-15個(gè)CpG島，平均值為每Mb含10.5個(gè)CpG島，CpG島的數(shù)目與基因密度有良好的對(duì)應(yīng)關(guān)系。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系，特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題，DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。

宏基因組學(xué)（Metagenomic）：又叫微生物環(huán)境基因組學(xué)、元基因組學(xué)。它通過直接從環(huán)境樣品中提取全部微生物的DNA,構(gòu)建宏基因組文庫，利用基因組學(xué)的研究策略研究環(huán)境樣品所包含的全部微生物的遺傳組成及其群落功能。它是在微生物基因組學(xué)的基礎(chǔ)上發(fā)展起來的一種研究微生物多樣性、開發(fā)新的生理活性物質(zhì)（或獲得新基因）的新理念和新方法。其主要含義是：對(duì)特定環(huán)境中全部微生物的總DNA（也稱宏基因組，metagenomic）進(jìn)行克隆，并通過構(gòu)建宏基因組文庫和篩選等手段獲得新的生理活性物質(zhì)；或者根據(jù)rDNA數(shù)據(jù)庫設(shè)計(jì)引物，通過系統(tǒng)學(xué)分析獲得該環(huán)境中微生物的遺傳多樣性和分子生態(tài)學(xué)信息。

基因定位（Gene Mapping）：基因所屬連鎖群或染色體的測(cè)定，即所屬連鎖群或染色體以及基因在染色體上的位置的測(cè)定?；蚨ㄎ皇沁z傳學(xué)研究中的重要環(huán)節(jié)，基于發(fā)現(xiàn)一些有類似表型效應(yīng)的基因緊密連鎖的以及基因的位置與它們的功能相關(guān)的原理。

融合基因（Gene Fusion）：將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起，形成新的基因，稱作融合基因，或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。

基因表達(dá)譜（Gene Expression Profile）：指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫，大規(guī)模cDNA測(cè)序，收集cDNA序列片段、定性、定量分析其mRNA群體組成，從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息，這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜。

單核苷酸多態(tài)性（Single Nucleotide Polymorphism，SNP）：SNP代表個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個(gè)體基因組DNA序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化，其中有些單核苷酸多態(tài)性可能與疾病有關(guān)，但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。在研究癌癥基因組變異時(shí)，相對(duì)于正常組織，癌癥中特異的單核苷酸變異是一種體細(xì)胞突變（somatic mutation），稱做單核苷酸位點(diǎn)變異（SNV，Single Nucleotide Variation）。

Genotype和Phenotype：即基因型與表型?；蛐陀址Q遺傳型,指生物的全部遺傳物質(zhì)(基因)組成。但一般只表示個(gè)別或少數(shù)基因位點(diǎn)上的等位基因的組成。表型指生物體個(gè)別或少數(shù)性狀以至全部性狀的表現(xiàn)。

基因組拷貝數(shù)變異（Copy Number Variation，CNV）：基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2，有些染色體區(qū)域拷貝數(shù)變成1或3，該區(qū)域發(fā)生拷貝數(shù)缺失或增加，位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域，則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失，擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增，如A-C-B-C-D。CNVs廣泛存在于正常個(gè)體，且相對(duì)單核苷酸多態(tài)性（SNPs）在整個(gè)基因組中覆蓋的核苷酸總數(shù)至少高3倍，在遺傳變異和物種進(jìn)化方面具有重要意義。

基因組結(jié)構(gòu)變異（Structure Variation，SV）：通常是指基因組內(nèi)大于1 kb的DNA片段缺失、插入、重復(fù)、倒位、易位以及DNA拷貝數(shù)目變化（CNVs）。人類基因組結(jié)構(gòu)變異涉及數(shù)千片段不連續(xù)的基因組區(qū)域，含數(shù)百萬DNA堿基對(duì)，可含數(shù)個(gè)基因及調(diào)控序列，多種基因功能因此缺失或改變，導(dǎo)致機(jī)體表型變化、疾病易感性改變或發(fā)生疾病。對(duì)基因組結(jié)構(gòu)變異的研究，有助于用動(dòng)態(tài)的觀點(diǎn)全面分析基因組遺傳變異得到整合的基因型，理解結(jié)構(gòu)變異的潛在醫(yī)學(xué)作用及機(jī)體整體功能的復(fù)雜性。文章從人類基因組結(jié)構(gòu)變異的類型、研究方法, 對(duì)個(gè)體表型、疾病及生物進(jìn)化的影響等方面綜合闡述人類基因組結(jié)構(gòu)變異的最新研究進(jìn)展。

Segment Duplication：一般稱為SD區(qū)域，譯為重復(fù)片段倍增，是指參考基因組序列中出現(xiàn)DNA片段長度>1 kb的兩個(gè)或兩個(gè)以上拷貝，不同拷貝質(zhì)檢的序列同源性>90%。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。

測(cè)序類型相關(guān)概念

單細(xì)胞全基因組測(cè)序：單細(xì)胞全基因組測(cè)序技術(shù)是在單細(xì)胞水平對(duì)全基因組進(jìn)行擴(kuò)增與測(cè)序的一項(xiàng)新技術(shù)。其原理是將分離的單個(gè)細(xì)胞的微量全基因組DNA進(jìn)行擴(kuò)增，獲得高覆蓋率的完整的基因組之后通過外顯子捕獲進(jìn)而高通量測(cè)序用于揭示細(xì)胞群體差異和細(xì)胞進(jìn)化關(guān)系。全基因組擴(kuò)增技術(shù)主要分為兩種類型：一是基于熱循環(huán)以PCR為基礎(chǔ)的擴(kuò)增技術(shù)，如簡并寡核苷酸引物PCR（DOP-PCR）、連接反應(yīng)介導(dǎo)的PCR（LM-PCR）、擴(kuò)增前引物延伸反應(yīng)（PEP）等；二是基于等溫反應(yīng)不以PCR為基礎(chǔ)的擴(kuò)增技術(shù)，如多重置換擴(kuò)增（MDA）和基于引物酶的全基因組擴(kuò)增（pWGA）。

甲基化測(cè)序：DNA甲基化是表觀遺傳學(xué)（Epigenetics）的重要組成部分，在維持正常細(xì)胞功能、遺傳印記、胚胎發(fā)育以及人類腫瘤發(fā)生中起著重要的作用。在哺乳動(dòng)物中，甲基化一般發(fā)生在CpG的胞嘧啶5位碳原子上。通過Illumina高通量測(cè)序平臺(tái)，對(duì)所有富集的甲基化DNA片段進(jìn)行高通量測(cè)序，研究人員能夠獲得全基因組范圍內(nèi)高精度的甲基化狀態(tài)，為深入的表觀遺傳調(diào)控分析提供了更有利的切入點(diǎn)。

靶向測(cè)序：對(duì)感興趣的基因區(qū)域設(shè)計(jì)芯片和探針，進(jìn)行區(qū)域DNA富集后高精確度的序列分析，相比于全基因組和轉(zhuǎn)錄組測(cè)序，靶向區(qū)域測(cè)序的目標(biāo)序列較少，可達(dá)到的測(cè)序深度較高，成本較低，可以獲得質(zhì)量較高的測(cè)序結(jié)果。該測(cè)序常用于臨床上進(jìn)行疾病相關(guān)致病基因和易感基因的信息獲取，用于臨床指導(dǎo)個(gè)性化治療方案的制定。

Moleculo長測(cè)序：Moleculo方法，它的巧妙點(diǎn)就是可以把Illumina不算太長的序列，拼接成一個(gè)一個(gè)10 kb讀長的序列，然后，再拼出基因組來。在全新的基因組組裝工作中，也就是我們通常所說的“De Novo”工作中，最核心的技術(shù)點(diǎn)，是能否得到大量的、長讀長的序列。所以，得到長的讀長序列，一直是做De novo工作的科學(xué)家所追求的有效技術(shù)手段。另外，長讀長的序列還可以幫助科學(xué)家來確定染色體單體的基因型。Illumina標(biāo)準(zhǔn)的HiSeq/MiSeq測(cè)序方法，提供了一次給出大量序列的方法。它的序列，精度也很高，每個(gè)G的數(shù)據(jù)的測(cè)序成本也很低，但是，相對(duì)于De novo工作來說，它的讀長還是不夠長。舉例來說，Illumina旗下測(cè)序長度最長的MiSeq測(cè)序儀它的測(cè)序長度是：雙端各300個(gè)堿基。把這雙端的300個(gè)堿基拼起來，中間交錯(cuò)100個(gè)堿基，可以得到一個(gè)500堿基的讀長，要用500堿基讀長的序列來組裝一個(gè)和人類基因組大小相近的一個(gè)基因組，也就是單倍體長度為30億個(gè)堿基長度的基因組，就相當(dāng)于用筷子那么長（25厘米）的鐵軌，來拼出一個(gè)京滬鐵路（1300公里）。大家稍微想一想，就可以想出其中的難度。

Paired-End Sequencing 雙向/雙端測(cè)序：在構(gòu)建待測(cè)DNA文庫時(shí)在兩端的接頭上都加上測(cè)序引物結(jié)合位點(diǎn)，在第一輪測(cè)序完成后，去除第一輪測(cè)序的模板鏈，用對(duì)讀測(cè)序模塊（Paired-End Module）引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增，以達(dá)到第二輪測(cè)序所用的模板量，進(jìn)行第二輪互補(bǔ)鏈的合成測(cè)序。

Single-Read Sequencing單向/單端測(cè)序：首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段，引物序列連接到DNA片段的一端，然后末端加上接頭，將片段固定在Flowcell上生成DNA簇，上機(jī)測(cè)序單端讀取序列。

外顯子測(cè)序（Whole Exon Sequencing）：外顯子組靶向測(cè)序采用了旨在檢測(cè)出編碼外顯子的富集策略，是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法。外顯子組包括約1%的基因組，另外還包含約85%的致病突變。對(duì)于嘗試找出6800多種罕見病病因的基因研究人員而言，外顯子組測(cè)序可檢測(cè)出單核苷酸變異（SNV）、小部分基因插入或缺失（indel）以及罕見的新生突變，由此說明復(fù)雜疾病的遺傳率。外顯子組測(cè)序外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低，對(duì)研究已知基因的SNP、Indel等具有較大的優(yōu)勢(shì)，但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。

ChIp測(cè)序（ChIp-seq）：染色質(zhì)免疫共沉淀技術(shù)（Chromatin Immunoprecipitation，ChIP）也稱結(jié)合位點(diǎn)分析法，是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具，通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將ChIP與第二代測(cè)序技術(shù)相結(jié)合的ChIP-Seq技術(shù)，能夠高效地在全基因組范圍內(nèi)檢測(cè)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。

ChIP-Seq的原理是：首先通過染色質(zhì)免疫共沉淀技術(shù)（ChIP）特異性地富集目的蛋白結(jié)合的DNA片段，并對(duì)其進(jìn)行純化與文庫構(gòu)建；然后對(duì)富集得到的DNA片段進(jìn)行高通量測(cè)序。研究人員通過將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上，從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。

基因組重測(cè)序（Genome Re-sequencing）：全基因組重測(cè)序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測(cè)序，并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測(cè)序成本的不斷降低，人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序，實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點(diǎn)，以及結(jié)構(gòu)變異等，具有重大的科研和產(chǎn)業(yè)價(jià)值。

De novo測(cè)序：也稱為從頭測(cè)序，其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序，利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接，組裝，從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑。隨著新一代測(cè)序技術(shù)的飛速發(fā)展，基因組測(cè)序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低，大規(guī)?；蚪M測(cè)序漸入佳境，基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。利用新一代高通量、高效率測(cè)序技術(shù)以及強(qiáng)大的生物信息分析能力，可以高效、低成本地測(cè)定并分析所有生物的基因組序列。

RNA測(cè)序（RNA-Seq）：又稱轉(zhuǎn)錄組測(cè)序,是基于第二代測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法：首先提取生物樣品的全部轉(zhuǎn)錄的RNA，然后反轉(zhuǎn)錄為cDNA后進(jìn)行的二代高通量測(cè)序，在此基礎(chǔ)上進(jìn)行片段的重疊組裝，從而可得到一個(gè)個(gè)的轉(zhuǎn)錄本。進(jìn)而可以形成對(duì)該生物樣品當(dāng)前發(fā)育狀態(tài)的基因表達(dá)狀況的全局了解。進(jìn)一步說，若和下一階段的生物樣品的RNA-Seq轉(zhuǎn)錄組進(jìn)行比較，則可以得到全部的（在轉(zhuǎn)錄層面）基因表達(dá)的上調(diào)及下調(diào)–這就形成了表達(dá)譜，針對(duì)關(guān)鍵基因則可以形成你要想要的pathway的構(gòu)建。

mRNA測(cè)序（mRNA-seq）：即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的mRNA的類型與拷貝數(shù)。對(duì)于真核生物，用帶有Oligo(dT)的磁珠富集mRNA，對(duì)于原核生物，用試劑盒去除rRNA，向得到的mRNA中加入Fragmentation Buffer使其片斷成為短片段，再以片斷后的mRNA為模板，用六堿基隨機(jī)引物（random hexamers）合成cDNA第一鏈，并加入緩沖液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二鏈，之后參照DNA文庫構(gòu)建的步驟，完成整個(gè)文庫制備工作。mRNA測(cè)序（mRNA-Seq）是針對(duì)分析疾病狀況、生物過程及廣泛研究設(shè)計(jì)中的轉(zhuǎn)錄組的首選方法。mRNA-Seq不僅可提供極為準(zhǔn)確且高靈敏度的量化基因表達(dá)，還可識(shí)別已知的和新的轉(zhuǎn)錄異構(gòu)體、基因融合和其他特征及等位基因特異性表達(dá)。mRNA-Seq可提供編碼轉(zhuǎn)錄組的完整視圖，而并不受限于先驗(yàn)知識(shí)。

單細(xì)胞mRNA測(cè)序：即測(cè)定單個(gè)細(xì)胞mRNA信息的測(cè)序方法。單細(xì)胞mRNA文庫的難點(diǎn)在于：PCR偏差和rRNA去除。目前市場(chǎng)主要有2種建庫方法，分別是Clontech公司推出的SMART法，和EpiCentre公司推出的TargetAmp方法。

小RNA測(cè)序（Small RNA-seq）：Small RNA（miRNAs、siRNAs和 pi RNAs）是生命活動(dòng)重要的調(diào)控因子，在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。Illumina能夠?qū)?xì)胞或者組織中的全部Small RNA進(jìn)行深度測(cè)序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30 nt范圍的Small RNA從總RNA中分離出來，兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理，利用測(cè)序儀對(duì)DNA片段進(jìn)行單向末端直接測(cè)序。

微小RNA測(cè)序（microRNA-seq，miRNA-seq）：成熟的miRNA是由18-25個(gè)核苷酸組成的單鏈非編碼RNA，主要通過與靶miRNA結(jié)合使其降解或抑制其翻譯，從而達(dá)到調(diào)控基因表達(dá)、細(xì)胞生長、發(fā)育等生物學(xué)過程的目的。基于第二代測(cè)序技術(shù)的miRNA測(cè)序，可以一次性獲得數(shù)百萬條miRNA序列，能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的miRNA及其表達(dá)差異，為研究miRNA對(duì)細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具。

RIP測(cè)序（RNA Immunoprecipitation-sequence，RIP-seq）：RIP是研究細(xì)胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù)，是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動(dòng)態(tài)過程的有力工具，能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點(diǎn)。這種技術(shù)運(yùn)用針對(duì)目標(biāo)蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來，然后經(jīng)過分離純化就可以對(duì)結(jié)合在復(fù)合物上的RNA進(jìn)行測(cè)序分析，此測(cè)序分析過程則稱為RIP-seq。

RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類似應(yīng)用，但由于研究對(duì)象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物，RIP實(shí)驗(yàn)的優(yōu)化條件與ChIP實(shí)驗(yàn)不太相同（如復(fù)合物不需要固定，RIP反應(yīng)體系中的試劑和抗體絕對(duì)不能含有RNA酶，抗體需經(jīng)RIP實(shí)驗(yàn)驗(yàn)證等等）。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱為RIP-Chip，幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化。

紫外交聯(lián)免疫沉淀結(jié)合高通量測(cè)序（crosslinking-immunprecipitation and high-throughput sequencing，HITS-seq）：HITS- seq又稱為CLIP-seq,是一項(xiàng)在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián)，以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后，回收其中的RNA片段經(jīng)添加接頭、RT-PCR等步驟，對(duì)這些分子進(jìn)行高通量測(cè)序，再經(jīng)生物信息學(xué)的分析和處理、總結(jié)，挖掘出其特定規(guī)律，從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對(duì)生命的意義。

測(cè)序文庫相關(guān)概念

DNA文庫制備：文庫制備（Library Preparation）的原理就是在不同來源的DNA片段兩端連上特定序列的接頭，以符合高通量平臺(tái)的讀取要求。一般步驟包括：DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。

RNA文庫制備：RNA文庫制備一般步驟包括：RNA逆轉(zhuǎn)錄為雙鏈cDNA—DNA片段化—末端修復(fù)—A尾添加—接頭連接—分選純化等步驟。即將RNA逆轉(zhuǎn)錄為DNA后，進(jìn)行建庫測(cè)序。

Tn5轉(zhuǎn)座子的建庫方法：執(zhí)行轉(zhuǎn)座功能的酶，通常由轉(zhuǎn)座子編碼，識(shí)別轉(zhuǎn)座子兩端的特異序列，能把轉(zhuǎn)座子從相鄰序列中脫離出來，再插入到新的DNA靶位點(diǎn)，無同源性要求。采用轉(zhuǎn)座子隨機(jī)插入并將基因組DNA打斷成長度大小為300 bp左右的片段，同時(shí)將測(cè)序所需的Adaptor直接在插入打斷的同時(shí)構(gòu)建到片段的兩端，所得產(chǎn)物即可經(jīng)PCR擴(kuò)增（可選）完成文庫構(gòu)建。

Mate-Pair文庫：制備一些短的DNA片段，這些片段包含基因組中較大跨度（2-10 kb）片段兩端的序列，更具體地說：首先將基因組DNA隨機(jī)打斷到特定大小（2-10 kb范圍可選）；然后經(jīng)末端修復(fù)，生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后，再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫，然后上機(jī)測(cè)序。

甲基化測(cè)序文庫：常用重亞硫酸鹽方法。原理是：在DNA按照常規(guī)建庫步驟，加完接頭以后，用重亞硫酸處理，將基因組中未發(fā)生甲基化的C堿基轉(zhuǎn)化成U，進(jìn)行PCR擴(kuò)增后變成T，這樣得到的文庫與原本具有甲基化修飾的C堿基區(qū)分開來。

方向性RNA文庫（鏈特異性）：指在構(gòu)建測(cè)序文庫時(shí)，將mRNA鏈的方向信息保存到測(cè)序文庫中。測(cè)序后的數(shù)據(jù)分析可確定轉(zhuǎn)錄本是來自正義還是反義DNA鏈。與普通轉(zhuǎn)錄組測(cè)序相比，它更能準(zhǔn)確地統(tǒng)計(jì)轉(zhuǎn)錄本的數(shù)量和確定基因的結(jié)構(gòu)，同時(shí)可以發(fā)現(xiàn)更多的反義轉(zhuǎn)錄本，目前被廣泛地應(yīng)用于研究基因結(jié)構(gòu)和基因表達(dá)調(diào)控等領(lǐng)域范圍。其中用的最普遍的是摻U法（dUTP）。

生信分析相關(guān)概念

PE reads：即paired-end reads。reads（讀長）是高通量測(cè)序中一個(gè)反應(yīng)獲得的測(cè)序序列。

在測(cè)序過程中，一條DNA分子的兩端都可以測(cè)序.先測(cè)其中的一端,獲得一個(gè)reads，然后再轉(zhuǎn)到另一端測(cè)序,獲得另外一個(gè)reads，得到的這兩個(gè)reads就是PE reads。

測(cè)序中的Q20，Q30：基因高通量測(cè)序中，每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值，這個(gè)質(zhì)量值是衡量測(cè)序準(zhǔn)確度的。20的錯(cuò)誤率為1%，30的錯(cuò)誤率為0.1%。行業(yè)中Q20與Q30則表示質(zhì)量值≧20或30的堿基所占百分比。例如一共測(cè)了1G的數(shù)據(jù)量，其中有0.9G的堿基質(zhì)量值大于或等于20，那么Q20則為90%。

Q20值是指的測(cè)序過程堿基識(shí)別（Base Calling）過程中，對(duì)所識(shí)別的堿基給出的錯(cuò)誤概率。

質(zhì)量值是Q20，則錯(cuò)誤識(shí)別的概率是1%，即錯(cuò)誤率1%，或者正確率是99%；

質(zhì)量值是Q30，則錯(cuò)誤識(shí)別的概率是0.1%，即錯(cuò)誤率0.1%，或者正確率是99.9%；

質(zhì)量值是Q40，則錯(cuò)誤識(shí)別的概率是0.01%，即錯(cuò)誤率0.01%，或者正確率是99.99%。

測(cè)序深度：指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值。假設(shè)一個(gè)基因大小為2 M，測(cè)序深度為10X，那么獲得的總數(shù)據(jù)量為20 M。（測(cè)序深度=總數(shù)據(jù)量20 M/基因組大小2 M=10×）。

測(cè)序覆蓋度：指測(cè)序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在，測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域，這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序，覆蓋度是98%，那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。

Contig：拼接軟件基于reads之間的overlap區(qū)，拼接獲得的序列稱為Contig（重疊群）。（由reads通過對(duì)overlap區(qū)域拼接組裝成的沒有g(shù)ap的序列段。）

Contig N50：Reads拼接后會(huì)獲得一些不同長度的Contigs。將所有的Contig長度相加，能獲得一個(gè)Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序，如獲得Contig 1，Contig 2，Contig 3，，，，，，Contig 25。將Contig按照這個(gè)順序依次相加，當(dāng)相加的長度達(dá)到Contig總長度的一半時(shí)，最后一個(gè)加上的Contig長度即為Contig N50。舉例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度×1/2時(shí)，Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

Scaffold：基因組de novo測(cè)序（沒有參考基因組的測(cè)序，需要研究人員從頭拼接得到的序列），通過reads拼接獲得Contigs后，往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫，以獲得一定大小片段（如3 kb、6 kb、10 kb、20 kb）兩端的序列。基于這些序列，可以確定一些Contig之間的順序關(guān)系，這些先后順序已知的Contigs組成Scaffold。

Scaffold N50：Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加，能獲得一個(gè)Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序，如獲得Scaffold 1，Scaffold 2，Scaffold 3，，，，，，Scaffold 25。將Scaffold按照這個(gè)順序依次相加，當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí)，最后一個(gè)加上的Scaffold長度即為Scaffold N50。舉例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時(shí)，Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

Reads：高通量測(cè)序平臺(tái)產(chǎn)生的序列就稱為reads。

Raw Reads：原始下機(jī)數(shù)據(jù)稱為Raw Reads。

Clean Reads：通過生物信息的方法，去除一些質(zhì)量差的reads，得到Clean Reads，常包括去除由于測(cè)序儀器硬件原因產(chǎn)生的信號(hào)強(qiáng)度極端的reads；去除總體質(zhì)量偏低的reads，即Q=20堿基比例小于50%的reads，其中，Q=-10logerror_ratio；去除3’端質(zhì)量Q低于10的堿基，即堿基錯(cuò)誤率為0.1；去除reads中含有的模糊的N堿基，可能是由于測(cè)序熒光強(qiáng)度不夠造成；去除reads中含有的接頭序列；去除長度小于20的reads等。

Mapped Reads：比對(duì)到參考基因組上的Reads稱為Mapped Reads。Mapped Reads占Clean Reads的百分比，可以評(píng)估所選參考基因組組裝是否能滿足信息分析的需求。

RPKM：在衡量基因表現(xiàn)量時(shí)，若是單純以map到的read數(shù)來計(jì)算基因的表現(xiàn)量，在統(tǒng)計(jì)上是一件相當(dāng)不合理事，因?yàn)樵陔S機(jī)抽樣的情況下，序列較長的基因被抽到的機(jī)率本來就會(huì)比序列短的基因較高，如此一來，序列長的基因永遠(yuǎn)會(huì)被認(rèn)為表現(xiàn)量較高，而錯(cuò)估基因真正的表現(xiàn)量，所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量。

RPKM是Reads Per Kilobase per Million mapped reads的縮寫，代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)。

假設(shè)一基因體只有兩個(gè)基因，一個(gè)9 kb，一個(gè)1 kb，如今有一sample，其map 到9 kb 的read 有18 million個(gè)，map 到1 kb 的有2 million個(gè)：

對(duì)于9 kb 的基因而言，Total exon reads=18 million，Mapped reads=18+2=20 million，Exon length=9 kb，RPKM=18million/(20×9)=0.1×106=105；

對(duì)于1 kb 的基因而言，Total exon reads=2 million，Mapped reads=18+2=20 million，Exon length=1 kb

RPKM =2million/(20×1)=0.1×106=105；

由此我們可以知道這兩個(gè)基因表現(xiàn)量沒有差別。

FPKM：Fragments Per Kilobase Million是將Map到基因的Fragments數(shù)除以Map到Genome的所有Read數(shù)（以Million為單位）與RNA的長度（以kb為單位），也是衡量基因表現(xiàn)量的參數(shù)。FPKM計(jì)算的是片段(Fragments)，而RPKM計(jì)算的是數(shù)據(jù)(Reads)。Fragment比Read的含義更廣，因此FPKM包含的意義也更廣，可以是Pair-end的一個(gè)Fragment，也可以是一個(gè)Read。RPKM的誕生是針對(duì)SE測(cè)序，F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。

轉(zhuǎn)錄本重構(gòu)：用測(cè)序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式：1. de-novo構(gòu)建；2. 有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下，將有overlap的reads連接成一個(gè)更長的序列，經(jīng)過不斷的延伸，拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有參考基因組重構(gòu)，是指先將read貼回到基因組上，然后在基因組通過reads覆蓋度，junction位點(diǎn)的信息等得到轉(zhuǎn)錄本，常用工具包括scripture、cufflinks。

下一篇：華雅思創(chuàng) Takara NGS基因測(cè)序解決方案 SMARTer? PicoPLEX? Single Cell WGA Kit 單細(xì)胞測(cè)序

上一篇：磁性微球在各個(gè)領(lǐng)域中的應(yīng)用

NGS測(cè)序

相關(guān)產(chǎn)品

焦點(diǎn)報(bào)道