高通量测序技术新名词的理解和辨析

品牌
中国科技术语
2022年01月13日 00:22

高通量测序技术在微生物领域的应用

王海

摘 要:高通量测序是指能一次并行对几十万到几百万条DNA分子进行序列测定的技术。高通量测序迅猛发展,已成为全球生命科学研究的热点。由此衍生的新科技术语也不断出现。而规范统一的定名有助于科技成果的快速推广。文章从测序技术的发展历史进行阐述,着重对高通量测序技术一词进行分析,并对其领域内主要的专业术语进行了归纳和解释。

关键词:高通量测序技术,新名词

中图分类号:N04;Q34文献标识码:ADOI:10.3969/j.issn.1673-8578.2017.04.010

Abstract: Highthroughput sequencing is a technique that has capable of sequencing multiple DNA molecules in parallel, enabling hundreds of millions of DNA molecules to be sequenced at a time. With the rapid development of highthroughput sequencing, it has become a hot field in life sciences, and appeared some novel terms. This article expounds the development history of sequencing technology, analyzes the term “highthroughput sequencing technology”, and explains related main technical terms in this field.

Keywords: highthroughput sequencing, novel terms

引 言

科技術语是科学技术研究中的专用名词,它所代表的意义必须力求准确统一,只有这样才符合科学研究中要求的严格性与严密性。科技术语的混乱,会影响科技工作者之间的交流,因此科技术语的统一和规范化,对学科知识的传播与交流、新理论的建立、新学科的开拓、最新信息的交流、科技成果推广等方面都至关重要[1]。

高通量测序(highthroughput sequencing)是指能一次并行对几十万到几百万条DNA分子进行序列测定的技术。在21世纪初被国外生物公司首次开发,继而迅速在全球范围内推广应用,它能够帮助科研人员解决许多生物学问题,深入研究各物种的基因组结构、功能、表达、调控等,更透彻地解密“生命密码”。比如在基因组水平上对还没有参考序列的物种进行从头测序(de novo sequencing),获得该物种的参考序列;在转录组水平上进行mRNA测序(mRNA sequencing),从而开展差异基因表达分析、可变剪切分析等研究;从表观遗传学的角度,研究DNA、RNA、蛋白质间相互作用或染色质构象的测序技术, 进行转录后调控等方面的研究。

“高通量测序”一词已广泛应用于生命科学的研究,通过测序技术得到的基因组数据库、转录组数据库等众多数据库,对生命现象的研究起着至关重要的作用。因此以高通量测序为基础发展出许多新名词,对这些新名词的规范命名和正确的理解,能够有效地促进科学技术的传播,进而推动科学的进一步发展。

一 测序技术的发展历史

众所周知,生物的遗传信息是由DNA序列决定的,4种碱基A、T、C、G的排列方式决定了生物的形态、生长发育、疾病等种种特征。DNA序列的异常也将引起各种各样的疾病。那么某一个物种的DNA序列究竟是什么,如何得到该物种完整的DNA序列,如何破解“生命密码”,就成为20世纪70年代生命科学研究领域的热门课题。

1977年,英国生物化学家桑格(F. Sanger)和库森(A.R.Coulson)创建了第一代测序技术,通过DNA双脱氧链终止法,成功得到噬菌体X174的全部基因组序列,全长5374个碱基。该方法使用能在DNA模板链上互补参入却不能延伸的四种双脱氧核苷三磷酸(ddNTP)与正常的四种脱氧核苷三磷酸(dNTP)竞争,合成的互补链可以在任何位置终止,获得长短不一的反应产物,通过电泳分离,从四条泳道上的条带顺序就能读出DNA的序列。这一技术可以对样品直接进行测序,不需提前了解其遗传背景,有较高的准确性,因此快速成为当时最常用的基因测序技术,并命名为“桑格-库森法”(SangerCoulson method),也成为第一代测序技术。它的出现标志着生命科学的研究进入了基因组时代。人类基因组计划(human genome project,HGP)就是用该技术完成的。

全国科学技术名词审定委员会审定公布的《遗传学名词》(2007年)、《生物化学与分子生物学名词》(2008年)、《细胞生物学名词》(2009年)中,均将第一代测序技术命名为“桑格-库森法”(SangerCoulson method),定义是“以2,3-双脱氧核苷三磷酸为底物,快速测定DNA中核苷酸序列的方法”。而某些网站或期刊,仍使用“桑格法”“Sanger 法”“Sanger 法测序”等不规范、不统一的名称。

随着科技的发展,到21世纪初,“桑格-库森法”(SangerCoulson method)的第一代测序技术已不能满足科研人员的要求,科研人员需要一种通量更大、速度更快、成本更低、灵敏度更高、准确度更高的新的测序技术,来满足日益增长的科研需求,第二代测序技术就应运而生,它不同于第一代的测序原理,采用的是边合成边测序(或边连接边测序)(sequencing by synthesis, SBL)的原理,即以四种标记不同荧光染料的碱基(dNTP)为底物,待检测样品的单链DNA为模板,模拟DNA复制的过程。复制中,检测与模板DNA链结合的碱基上包含的荧光染料信号,从而获得DNA模板的序列[2]。该方法带来了革命性的改变,具有高通量、高效率、低成本等特点,其中尤以高通量特点最为显著,因此产生一个新的科技名词“高通量测序”,该技术的诞生对基因组学的研究具有划时代的意义。

近年来,为了更精确、更有效地挖掘DNA的序列信息,研究人员研发出一个新的测序技术,即单分子测序(single molecule sequencing)。基于单分子水平的边合成边测序,具有超长读长、不需要模板扩增、运行时间短、直接检测表观修饰位点等特点,弥补了第二代测序读长短、易受GC(鸟嘌呤和胞嘧啶)含量影响等局限性。所以该技术刚出现,就受到广大科研人员的热烈欢迎,并视此技术为第三代测序[3]。因此该技术正处于发展阶段,商业化的测序仪还比较少,相信随着科技的不断发展,该技术会逐渐走向成熟和多元化。

虽然测序技术已发展到第三代,但并不意味着第一代和第二代测序技术已被淘汰,相反,每一代的测序技术都有其特点,现在依然在其各自领域发挥着重要作用,比如用于亲子鉴定的3130仪器,就是基于第一代测序技术原理;第二代测序技术以其高通量、低成本的特点,仍然活跃在各类DNA、RNA测序以及各种表观修饰的研究中;第三代测序技术则凭借其当仁不让的读长优势,在基因组测序、全长转录本测序中独占鳌头。

二 “高通量测序”名词的理解和辨析

由于高通量测序(highthroughput sequencing)技术的发展太快,以至于还没有对其给出准确统一的中文定名,这就导致对“高通量测序”名词的使用出现了混乱。

在高通量测序技术应用阶段之初,由于其给生命科学的研究带来了革命性的改变,大量文献进行了宣传报道,其中许多将高通量测序,又称为“第二代测序”或“新一代测序”“下一代测序”(nextgeneration sequencing,NGS)等,甚至有些文章将“第二代测序”“新一代测序”或“下一代测序”作为正称使用,这也比较符合当时的科技发展要求。纵观测序技术的发展历史,继第一代测序技术之后,美国应用生物系统公司(ABI)、罗氏(Roche)公司和Illumina公司相继研发出与第一代截然不同的测序技术,并利用各自獨特的测序技术推出了Solid、454和Solexa三种测序平台,也是第二代测序中最主流的三种测序平台。这些不同的测序平台都具有高通量、高效率、低成本等特点,故被通称为“高通量测序”,开创了第二代测序技术。当时,由于这个新的测序技术过于高端和前沿,只有这三个公司才具有能力提供这种“高通量测序”技术,处于垄断阶段。所以在很长一段时间,高通量测序都代表着第二代测序,或者是下一代的测序。

但是随着测序技术的迅猛发展,很快就出现了第三代测序技术,“高通量测序”的名称就容易产生误解,因为第三代测序技术的通量也很大,此时,“高通量测序”并不能特指第二代测序。“新一代测序”“下一代测序”的命名更不符合“科技名词不宜使用时效性词汇”的原则。某些不规范的名词随着科技的发展,会越来越阻碍科技信息的传播。

全国科学技术名词审定委员会在2015年生物物理学名词预公布中,对“highthroughput sequencing”给出规范的中文定名“高通量测序”,定义是“能一次并行对几十万到几百万条DNA分子进行序列测定的技术”。那么,只要检测的DNA分子量超过几十万,都可以是高通量测序,因此高通量测序包含第二代测序和第三代测序。在使用上,应正确理解其所指代的范围,把第二代测序和高通量测序加以区分。而“新一代测序”“下一代测序”等曾经特指第二代测序的名词,如出现在当下则会引起歧义,属于不规范名词,不推荐使用。

三 高通量测序技术其他新名词的理解

为满足科研人员对生命科学领域不同角度的研究,高通量测序技术也发展出许多不同目的的测序技术,有的应用于基因组的研究,有的应用于转录组的研究等。这些技术发展之快,让人应接不暇,许多新的科技名词如雨后春笋般涌现,对这些新名词的正确认识有助于科技知识的传播。比如:

全基因组测序(whole genome sequencing, WGS):利用高通量测序技术,检测并获得细胞或组织中全部染色体中DNA的序列。用于研究未知基因组的序列、不同个体基因组的差异等。

外显子测序(whole exon sequencing):利用序列捕获技术捕获并富集细胞或组织基因组中所有外显子区域DNA,经高通量测序技术得到其所有的序列。用于研究已知基因的单核苷酸多态性位点、插入缺失位点等,不适合用于研究基因组结构的变异。

mRNA测序(mRNA sequencing, mRNAseq):从细胞或组织中提取其所有的信使RNA(mRNA),通过高通量测序技术得到其所有的序列。用于研究某特定状态下的细胞或组织中的转录组变化,比如差异基因表达分析、可变剪切分析等。

微RNA测序(microRNA sequencing, miRNAseq):从细胞或组织中提取其所有的微RNA(microRNA),通过高通量测序技术得到其所有的序列。用于研究某特定状态下的细胞或组织中的微RNA的差异表达、寻找其作用的靶点mRNA,以及发现新的微RNA等。

从头测序(de novo sequencing):不需要任何已有的序列资料对某个物种进行的测序。利用生物信息学分析方法对序列进行拼接、组装,从而获得该物种的基因组图谱。应用于从头分析未知物种的基因组序列、基因组成、进化特点等。

基因组重测序(genome resequencing):对基因组序列已知的物种进行不同个体的基因组测序。用于分析不同个体间基因组的差异,如发现单核苷酸多态性位点、插入缺失位点、结构变异位点和拷贝数变异位点等。

单细胞测序(single cell sequencing):利用单细胞基因组扩增技术,通过高通量测序技术,得到单个细胞中所有的基因组、转录组等序列的技术。能够揭示该细胞内整体水平的基因表达状态和基因结构信息,准确反映细胞间的异质性,深入理解其基因型和表型之间的相互关系。

染色质免疫沉淀测序(chromatin immunoprecipitation sequencing, ChIPseq):一类将染色质免疫沉淀(chromatin immunoprecipitation, ChIP)与高通量测序相结合,用以高效地在全基因组范围内研究细胞或组织中蛋白质和DNA相互作用的技术。可用于检测转录因子结合位点、组蛋白特异性修饰位点等。

RNA免疫沉淀测序(RNA immunoprecipitation sequencing, RIPseq):一类将免疫沉淀与高通量测序相结合,用以高效地在全基因组范围内研究细胞或组织中蛋白质和RNA相互作用的技术。可用于发现转录后调控网络、miRNA调节靶点等。

环状染色质构象捕获(circular chromosome conformation capture, 4C):又称“芯片染色质构象捕获”(chromosome conformation captureonchip)。基于染色体构象捕获(chromosome conformation capture, 3C)发展而来。染色体构象捕获(3C)是一种检测DNA间是否存在相互作用的技术,用以分析染色质的空间构象。4C是将3C和芯片技术相结合,在全基因组范围内研究DNA间相互作用的技术。

3C碳拷贝(3Ccarbon copy, 5C):基于染色体构象捕获(3C)工作原理,结合连接介导的扩增(ligationmediated amplification, LMA),实现大通量检测DNA间相互作用的技术。

高通量染色质构象捕获(HiC):染色体构象捕获(3C)和高通量测序技术相结合的用以高通量检测DNA间相互作用的技术。是目前对测序量要求最高的一种技术。由于该技术是近几年高速发展起来的,且广泛应用,在研究人员中只广泛采用其英文缩写名“HiC”,尚未有成熟的中文定名,此处是笔者根据全国科学技术名词审定委员会《科技名词审定原则与方法》给出的中文名,仅供参考。

RNA纯化染色质分离高通量测序 ( chromatin isolation by RNA purification, CHIRPSeq):一种在全基因组水平上检测与RNA绑定的DNA和蛋白的高通量测序方法。

紫外交联免疫沉淀结合高通量测序(crosslinkingimmunprecipitation and highthroughput sequencing, CLIPseq):利用高通量测序技术,在全基因组水平上检测细胞或组织中RNA分子与RNA结合蛋白相互作用的技术。

亚硫酸氢盐测序(bisulfite sequencing, BSSeq):利用高通量测序技术,检测细胞或组织中全部染色体DNA上甲基化修饰情况的技术。通过分析不同样品之间的甲基化差异,可研究DNA甲基化水平对基因表达的调控。

文库标签(index):测序样品为混合样本时,为区分不同样品而添加不同的标签。用于鉴别测序样品。

碱基质量值(quality score, Qscore):碱基识别(base calling)出错的概率的整数映射。公式是:Q-score=-10×log10P,式中P为碱基识别出错的概率。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。

上述新名词已在生物学与医学领域研究人员中广泛应用,但是仍有许多新的名词还没有给出准确的中文定名,只能应用英文名词或英文简称,如HiC、RPKM,这需要科技工作者与术语研究者密切联系,共同关注新科技名词的命名。

四 结 语

几千年来,人们对“生命奥秘”的探索从未停息,测序技术的发展也不会止步于此,可能在不久的将来,第四代、第五代等测序技术也将应运而生。在此过程中,每出现新的科技术语,伴随而来的科学命名都非常重要。规范统一的定名,准确简单的名称能够快速地推动新技术的传播,方便最新信息的交流,也将为日后先进技术的发展与推广奠定坚实的基础。

参考文献

[1]科技名词术语的统一和规范化的意义[J]. 中国现代医药杂志,2008 (6):109-109.

[2]王兴春,杨致荣,王敏,等. 高通量测序技术及其应用[J]. 中国生物工程杂志,2012(1):109-114.

[3]柳延虎,王璐,于黎. 單分子实时测序技术的原理与应用[J]. 遗传,2015(3):259-268.

家电之家©部分网站内容来自网络,如有侵权请联系我们,立即删除!
下一代 蛋白质 文章
你该读读这些:一周精选导览
更多内容...

TOP

More