作者: Alan Dove /文 高大海 姜天海/译 来源: 发布时间:2016-11-16 18:59:10
挑战测序中“难啃的硬骨头”

 
测序项目中这些“难啃的硬骨头”的目标覆盖了从研究气候变化,到对灭绝物种进行分类、甚至复活,再到提高癌症诊断技术。然而,他们面临着许多共同的挑战,因为存储的DNA会随着时间的流逝逐渐被分解成更小的片段。此外,在环境中标准的防腐剂或者化合物会对核酸进行化学修饰,因此这使得现代测序技术产生了大量通常很神秘的数据。纵然有这些障碍,科学家和仪器供应商仍然在稳步推进测序技术的发展,并常常会得到令人惊讶的结果。
 
不死之身
 
2001年,一队科学家造访了波尔斯金字塔(塔斯曼海中豪勋爵岛上一座孤立的石塔),发现了世界上最为罕见的无脊椎动物:20多只豪勋爵岛竹节虫(Dryococelusaustralis)的显著遗留居群。这种昆虫曾经在附近的同名岛屿上大量存在,然而在1918年引入老鼠后,这种昆虫很快就灭绝了。波尔斯金字塔上发现的群体看起来像是同一物种,但是为了确证,研究人员想要把它与1个世纪前博物馆的收藏样品进行DNA比较。
 
对于位于日本冲绳的冲绳科技研究所生态与进化部门助理教授Alexander Mikheyev来说,这是一个很常见的问题。“我所打交道的样品没有真正完好保存的,有些比较差,有些真的很糟糕。”Mikheyev说,他的专长就是对保藏的昆虫进行测序。他想要分析的豪勋爵岛竹节虫的样品已经在博物馆抽屉中被干燥处理过,保存在大头针上。
 
旧标本的DNA通常会破碎成一个个小片段。“而这正是下一(代测序)技术能够帮助我们的地方,因为它确实很擅长于测序小片段,很多的小片段。”Mikheyev说。一个麻烦的问题是旧的DNA,特别是那些存储在酒精或其它固定剂中的样品,倾向于变为化学的衍生物,在骨架结构和明显的碱基序列上发生改变。经过简单的DNA制备后,研究者使用聚合酶链式反应(PCR)扩增样品中所有小片段组成的文库。PCR过程中通常会用不正确的碱基替换那些化学衍生物。“一旦你完成了你的文库制备,你也需要确保自己在分析它时没有由于这些死后信息内容的改变而引入大量的偏见。”Mikheyev接着说。
 
在测序系统中的内部质量控制也无助于这些类型的人工产品。“测序仪会自以为是地替换(这些碱基),并且非常确定地告诉你错误的答案,” Mikheyev说。
 
研究者通常会通过对比他们的测序读取与相同或近缘种的已知序列,从而控制这类偏见的产生。“在昆虫中这可能会是个巨大的问题,因为昆虫的遗传多态性很高。”Mikheyev说。由于多态性具有很高的背景水平,DNA的死后改变会使得死去已久的动物的序列难以与新鲜样品的序列进行匹配。通过对多个样本的测序建立种群水平的统计,能够帮助降低此类误差。对于豪勋爵岛竹节虫来说,一项成功的饲养繁殖计划意味着,至少波尔斯金字塔种群的采样将会相对容易。
 
面对降解十分严重的样品,研究者可能也会需要用到极其严格的统计滤波器,去除掉测序仪中绝大多数的原始数据,以产生出最终准确的序列。耐心和灵活性同样也有帮助。“对于这些方法中的大部分来说,的确没有现成的实验步骤。”Mikheyev补充道,“每个样品都将会有它自己的挑战。”
 
除了降解的DNA之外,保存于博物馆中的标本常常是不可替代的。“我们能够分析阿尔弗雷德·拉塞尔·华莱士在穿越“马来群岛”的考察时,于1860年在拉贾安帕特群岛收集的一份标本。”法国图卢兹第三大学进化与生物多样性实验室的研究人员 Guillaume Besnard说。为了保存这位著名博物学家的标本——一只紫胸凤冠鸠(Gourascheepmakeri),Besnard和他的同事们从该鸟的脚趾垫处剪取了一块非常小的干燥处理过的肉。他们选取该区域是因为它含有大量的细胞,也因为鸟的脚没有被砷处理过,因此此处保留的DNA比尸体的其它部分更为完整。
 
在他们的系统发育和生物地理学研究中,Besnard和他的同事同时也对植物标本馆中保存的植物进行了DNA测序。“对于植物来说,通常我们会尽量选择绿色的叶片。”Besnard说,但是他补充道,种子也是很好的DNA材料。在所有情况下,他说,“我推荐选择最好的样本是最鲜嫩的部分,并且收集和保存较为完好。”
 
在鉴定出适合的样品并设计出总体策略后,Besnard表示,研究者应当在容易取代的标本上测试他们的计划。这样将让他们能够改善自己的技术,从而确保只需破坏珍贵的标本一次。“取决于所研究的问题,制定出合适的策略可能也是十分重要的,要么是全基因组测序,要么使用基因捕获方法就靶向某些基因组区域。”Besnard说。在基因捕获中,科学家们在文库构建过程中使用靶向PCR引物去扩增特定的基因,而不是扩增样品中所有的DNA片段。
 
对于分类学研究来说,聚焦在特定的基因或区域是一种非常好的策略,几个基因中的变异通常足以让一种生物登上系统发育树。“我们通常聚焦在丰富的基因组区域上,例如细胞器DNA,当测序深度足够高时,组装出高质量的序列就相对容易。”Besnard说,核基因组测序需要对DNA文库进行许多次的测序,从而提高每个碱基序列读取的“深度”。然而,该过程同时扩增了有效和无效的数据,因此研究者不得不对他们的结果采用更加严格的过滤方法。
 
稀有样品同样也需要在洁净的环境中完成分析,将污染降至最低。即便如此,研究者也应该会预计到,他们需要花费一些时间从数据中去除细菌和真菌的序列。对于所有这些分析,测序设备供应商能够帮助研究者选择合适的生物信息学算法。
 
数据转储
 
讽刺的是,灭绝物种和古人类中一些最好的DNA资源是那些未被人类尝试去保存的标本。经证明,来自洞穴和坑式厕所的干燥排泄物卓有成效。在干燥的环境下,美拉德反应(与让牛排呈棕色同样的化学过程)导致粪便产生了一种保护外壳。结果产生的古粪便可以保存数百年,将混合的大量DNA包裹在其中,包括排泄粪便的动物的细胞,以及动物饮食的样本。
 
位于安大略省汉密尔顿市麦克马斯特大学的体质人类学教授Hendrik Poinar,是最早开始挖掘这些数据宝藏的研究者之一。从上世纪90年代末起,Poinar和他的同事们就开始分析从古人类到灭绝地懒等的各种样品。除了古粪便外,该团队也从北极永久冻土下找到的动物尸体中成功地进行了DNA测序,包括长毛象。
 
Poinar表示,自从他开始这项工作以来,“技术已经发生了显著的变革,对于这些分子的拷贝和测序等一切事情都在以指数级成长,因此我们现在所做的事情即便在(几)年前也是不可想象的。”然而,尽管测序技术有所进步,Poinar说,他的纠结在于样品制备的工具却几乎没有改变。“我认为,从年代更久远、更复杂的遗留物中获取样品,仍然是一个制约因素,因为提取技术的发展相当不成熟。”他说。标准的实验室DNA分离方法,例如超声波降解法、核糖核酸酶处理和乙醇沉淀法可能会降低DNA的有效含量,从而阻碍了从最古老的样品中找回有用的序列。
 
研究古粪便和其它未保存样品的研究者同样也会面对完全被降解的DNA。事实上,其中一些降解产物常常足以成为有用的内部控制。Poinar的团队已经记录了特定的降解产品,能够将古代DNA从现代DNA中区分出来。“我们用它作为一种方式去说,‘这确实是来自样品本身的,而不是现代的污染物进来的了’。”Poinar说。
 
进行远古或保存标本测序的科学家看起来更倾向于用Illumina的下一代平台去进行测序,尽管赛默飞世尔科技公司的IonTorrent平台提供类似的功能。Poinar说,这一选择主要是出于便利性的考虑:“就我所知,平台本身不会产生什么差别,差别将会来自于你提取的分子的修复,然后就是文库的制备过程。”
 
对于刚开始研究古代样品的科学家而言,Poinar同意Mikheyev在灵活性上的建议。“可以多一些尝试;我认为人们最大的问题是他们只用标准的方法来提取样品,我不认为这会非常成功。” Poinar说。
 
病理学固定
 
尽管来自洞穴的一堆粪便造成了分析上的很大挑战,但却可能不是研究人员目前测序上遇到的最难搞定的样本。实际上,最具挑战性的样本类型之一也是生化研究者最可能感兴趣的类型:福尔马林固定的、石蜡包埋的(formalin-fixed, paraffin-embedded,FFPE)组织。
 
病理学家和组织学家使用福尔马林固定组织的方法已经超过了1个世纪,而且FFPE切片是临床病理学实验室的中流砥柱。该技术简单而又强大。不幸的是,这种强大造成了对于固定的漫不经心的态度。“在一些情况下,样品可能被固定了几天或整个周末;而在另外的情况下,可能仅仅是过夜,因此样品间有很大的差别。”丹麦奥尔胡斯市奥尔胡斯大学医院分子医学部博士后研究员Jakob Hedegaard说,他在工作中会大量接触到FFPE样品。
 
进行固定的时间变化对于组织的形态来说影响甚微,甚至没有影响,然而在分子水平却会造成严重破坏。随着时间推移,福尔马林会与细胞内的蛋白交联,同时让DNA和RNA片段化和衍生化。如果不知道这种化学伤害持续了多久,研究者很难预测他们将要恢复的DNA的质量。
 
至于其它的降解DNA样品,衍生化的碱基产生了最大的问题。在大部分测序步骤中,标准的文库扩增步骤用错误的碱基替换被修饰的碱基,产生高质量但却不正确的序列。研究者随后必须要过滤原始数据,从人工产品中区分出真正的多态性。“由于固定步骤引入的变异倾向于随机分布在各处,因此如果测序深度足够的话,你应该能看到真正的变异并且去除掉噪音。”Hedegaard说,“总体上当DNA来源于FFPE时,数据的噪音要大很多。”
 
分析FFPE组织的科学家通常处理的样品要多于研究稀有或非常规样本的科学家。例如,在一项肿瘤遗传学的研究中,一个团队可能需要从不同的病患身上获取成百上千的FFPE组织切片进行测序,以找到具有统计学意义的变异。即使测序成本已经降低了,这种高通量的需求也要求将DNA样品进行混池测序。
 
在混池前,Hedegaard和他的同事们通常会给来源于每个组织样品的DNA连上特定标签,使得他们在每个测序运行中能对大量的样本进行测序。随后,他们使用标签序列从原始数据中分离逐个样品。
 
有些分子生物学家可能会有足够的影响力,能够哄着病理学家去改进他们控制不良的方式。“在过去的6~18个月里,我们最主要的工作就是研究如何提升能够测序的样本的数量,而且看起来控制那些固定的步骤确实能够产生显著的影响。”英国剑桥大学英国癌症研究院剑桥研究所的基因组核心平台主任James Hadfield表示。
 
Hadfield和他的同事们正在进行不同肿瘤类型的大规模基因组分析,这是一项大规模的“基因组学英格兰”计划的一部分,该计划要测定10万个英国人的基因组。但即便是在这个得到大力支持的大项目的影响下,改变旧习仍然很困难。Hadfield说,将这种改变打包成总体的质量控制改进措施可能会有帮助:“在我们研究所里,在进行固定时,我们的组织病理核心会得到非常小心的控制,(而且)在任何科学或诊断过程中得到控制意味着事情会更加稳固。”
 
对于病理学合作者仍旧固执己见的研究人员或者研究历史样本的研究者而言,仪器和试剂生产商可能会帮得上忙。Illumina公司提供一组生物芯片,以及其他设计用于优化高度降解的FFPE样本结果的工具,并且New England BioLabs公司也出售NEBNext FFPE DNA 修复试剂等产品。
 
Hadfield和其他人也试着去研发和改善DNA友好的固定剂,让病理学家可以用于替代福尔马林。尽管这一工作已经取得了可喜的成果,Hadfield强调,让临床实验室从广泛验证的方法中进行转变仍然是一个很大的挑战。
 
有些拥有高度聚焦的研究计划的科学家也可以选择完全避免基因组水平的测序。Hadfield同意Besnard的建议,如果能够回答研究问题的话,可以对特定基因而非整个基因组进行扩增和测序。
 
无论他们对什么类型的样品进行测序,也无论他们选择的策略是什么,那些与“难搞的”DNA样本打交道的人都同意,该领域需要一种高度的怀疑精神。正如Mikheyev所说,“要一直质疑你的数据,并使用某种正交试验的方法向自己证明,这份数据所告诉你的正是你认为他们所告诉你的。”■
 
(译者之一高大海系中国科学院海洋研究所助理研究员)
  
Alan Dove是马萨诸塞州的科学作家和编辑。
 
DOI: 10.1126/science.opms.p1600102
 
鸣谢:“原文由美国科学促进会(www.aaas.org)发布在2016年2月11日《科学》杂志”。官方英文版请见http://www.sciencemag.org/custom-publishing/technology-features/hard-core-sequencing。
 
《科学新闻》 (科学新闻2016年9月刊 科学·生命)
发E-mail给:      
| 打印 | 评论 |