作者:Jeffrey M. Perkel / 文 高大海 姜天海 / 译 来源: 发布时间:2017-7-5 15:19:54
破解染色质:新方法绘制基因组结构

 
几十年来,研究人员已经认识到癌细胞通常携带大量的染色体异常。例如,人类第9和第22染色体的易位连接片段产生了所谓的“费城染色体”,这是一种与慢性粒细胞白血病相关的结构异常。而某些形式的前列腺癌与基因融合相关,使得ETS家族转录因子在雄激素应答启动子的控制下表达。在这两个案例中,没有发生遗传物质的丢失,它只是从一个位置移动到另一个位置。但是基因在这个过程中被融合,通常被严格调控的蛋白质变成活跃表达,从而不可逆转地导致疾病的发生。
 
某些形式的急性髓细胞性白血病(AML)也有特殊的遗传畸变——发生在3号染色体长臂上。这一区域被称为“3q26”,它所包含的EVI1基因通常只在早期造血祖细胞中表达,在随后的分化过程中被关闭。但在某些情况的AML中,EVI1被永久打开。
 
为了找出原因,位于荷兰鹿特丹的伊拉斯姆斯大学医学中心、从事分子白血病生成研究的H. Ruud Delwel教授和他的团队对3q26的易位断点进行了测序。结果表明,3q26可以打断EVI1基因的上游或下游——这似乎并没什么影响,Delwel说。但是另一个断点严格限制在3号染色体的另一块区域,位于约40兆碱基之外:一处18000个碱基对的3q21片段,夹在GATA2和RPN1基因之间。那里没有基因或启动子,所以自身没有发生基因融合。但该区域存在一个调控元件,约1000个碱基对的序列,通常能够在造血干细胞中驱动GATA2的启动子。易位AML促使这一增强子的遗传作用发生转变,激活EVI1的同时关闭GATA2。
 
最终的结果是一对遗传异常,它们都与白血病独立相关。这些患者的预后非常差,Delwel说。但疾病并不会简单地由于染色体上线性距离的变化而导致。毕竟从理论上来讲,一个增强子也有可能会远距离到达并激活一个沉默的启动子,即便是在数兆碱基之外的位置。然而,这种相互作用在很大程度上会被基因组的基本折叠结构所阻止。与AML相关的易位从根本上改变了3号染色体上的结构,使得这种相互作用更易于发生。
 
如今,随着高精度、高分辨率的成套工具产生,研究人员正在以前所未有的清晰度解析染色质的结构奥秘。有的人使用基于群体的测序方法,而另一些人则借助显微镜的力量,在单个细胞的基础上研究染色质的结构。还有一些人在研发新的方法,在单细胞和活细胞水平对基因组进行探测。这其中还有很多工作要做。但根据马萨诸塞大学医学院霍华德·休斯医学研究所的研究员Job Dekker的说法,转折点已经来临:研究人员已经从简单地收录染色质结构发展为实际对其进行操作。他说:“我们目前处于可以进行经典结构—功能研究的阶段。”
 
C方法与染色体
 
研究人员一早就知道,真核细胞核必须是有序的,这要归功于“染色体绘制”的研究,该研究表明每个染色体都存在于自己的区域中。然而,区域内的结构多年以来仍然保持神秘。2012年,研究人员提出,真核染色体可以折叠成相对可预测的结构——被称为“拓扑关联域”(TADs),而这些结构通过将增强子的行动有效限制在数十万碱基的范围内,从而防止其在全基因组中激活基因。“TADs让我们从物理概念上理解这些元素行为的边界。”加利福尼亚州拉荷亚路德维希癌症研究所的细胞和分子医学教授Bing Ren表示,他的实验室是三个最先描述这些领域的实验室之一。
 
为了定义TADS,研究人员采用了多种技术,统称为“C方法”。2002年,Dekker在Nancy Kleckner实验室做博士后时,首先建立了这样的方法——染色体构象捕获(3C)。他想出这一策略是为了研究在减数分裂过程中的染色单体配对。
 
这些C方法虽然在细节上有所不同,但都依赖于近距离连接,使用DNA连接酶缝合两个碰巧在三维空间挨在一起的线性距离较远的DNA片段。3C方法使用PCR进行连接片段的分离和鉴定,针对两个候选区域使用引物;3C方法的后续变异使得方法多重化,提高了分辨率,并将范围扩大到鉴定大片的染色体区域甚至全基因组的相互作用。如今,他们代表了染色质结构分析的基本技术。
 
其它策略包括ChIA-PET(基于配对末端标签测序的染色质相互作用分析),该方法有效地将基因组层面的3C变异与染色质免疫沉淀技术(ChIP)融合在一起,分离与特定蛋白相关的相互作用;DamID技术(DNA腺嘌呤甲基化酶识别法),该技术能够通过融合核纤层蛋白与细菌甲基转移酶并监测甲基化序列的位置,鉴定纤层关联的区域(与核膜内表面相关的染色质区域,倾向于转录沉默)。
 
表观遗传学产品供应商Active Motif公司提供的商业化工具,据介绍也可以用来绘制染色质环。该公司的enChip(工程DNA结合分子介导的染色质免疫沉淀)检测试剂盒采用抗原标记、非酶活性的(“死亡”)Cas9蛋白,通过ChIP法为基因组编辑应用绘制核酸酶的特异性。但据产品经理Kyle Hondorp称,该检测方法也能够捕获染色质成环的事件。
 
然而,如今可能使用最广泛的方法是Hi-C法。该方法是贝勒医学院遗传学助理教授Erez Lieberman Aiden与Dekker合作开发的,他当时是麻省理工学院—哈佛布罗德研究所Eric Lander实验室的研究生。他回忆道:“当时有个研讨会之类的场合,Eric评论,Illumina测序仪产生了如此多的数据,因此人们通常会想要弄清楚如何将一个(遗传)问题转化为测序问题,然后可能就是这个游戏规则的改变者。”
 
Aiden承认,将细胞核连接与无偏好的、基于高通量测序的方法相耦合刚好能够代表这一游戏改变者,这种想法基本上是升级了范德堡大学学者Katherine Cullen于1993年发表的一种基于凝胶的方法。但是Aiden也表示,他发表于2009年的原初方法有“一点点令人失望”。Hi-C法的数据通常以接触频率热图的形式展示。接触域在这些数据中作为沿对角线的暗正方形序列突出出来。但是Hi-C的分辨率是数以万计的碱基,增强子与启动子间的环状结构就由于太小而难以被监测到。
 
Aiden表示,他的研究小组找出了原初方法的两个问题。其中之一是测序通量。根据粗略统计显示,要想真正捕获启动子与增强子的相互作用,需要100亿个读取——当时是2007年,100亿个序列读取“超过了全球历史上所产生的全部数据”。然而这种艰苦而又笨拙的方法所产生的图像也有其内在的模糊性。因此,由他团队的Suhas Rao和Miriam Huntley负责,花费了5年时间打磨他们的方法,同时也在等待测序通量能够紧追直上。Aiden说,其中一项最重要的改进是在完整的细胞核中重新确立连接步骤,就像Cullen在最初的实验中那样(在3C中,细胞核是首先被破坏的)。最终,在2014年,他们发表了被称为“原位Hi-C”法的升级版方法,该方法中的千碱基分辨率足以捕获染色体成环事件,在Hi-C热图上呈现为偏离坐标轴的暗点。
 
通往单细胞
 
如今,研究人员正在使用C方法来解决一系列令人头痛的生物学问题。位于芝加哥的伊利诺伊大学医学院的Amy Kenter使用该方法来确定小鼠免疫球蛋白重链基因位点的3个“亚结构域”,这一数据可以解释抗体基因重组的细微差别。法国居里研究所遗传学和发育生物学系主任Edith Heard,曾与Dekker一起协作,将等位基因特异的Hi-C(该方法可以将每个测序读取分给父系或母系染色体)应用于雌性哺乳动物其中一个X染色体的失活。
 
2014年,Aiden的团队展示了,失活的X染色体不是组装成TADs(活性 X染色体会如此),而是成为两个大的“超级结构域”,被DXZ4大随体区的“铰链”分隔开。Heard和Dekker(以及Aiden,他在独立工作)在2016年7月表明,打乱这一区域,或者丢失X染色体非活性关联的非编码RNA Xist(X染色体失活特异转录),将会改变了这种分区并影响那些通常能“逃离”失活的基因的表达。而纽约大学医学中心霍华德·休斯医学研究所的研究员Danny Reinberg则采用C方法探究和干扰Hox体节调节基因簇的精致时空表达。
 
然而对于科学家来说,这些技术描绘的是种群,而不是单个细胞,每个细胞都可能展示出不同的染色体构象,或是处于细胞周期的不同阶段,英国剑桥大学巴布拉汉研究所的核动态项目负责人Peter Fraser表示。这样导致的结果是,产生的接触地图可能并不能代表种群中的任何细胞,他解释道,他们就像是试图用将一场球赛中数百张快照进行光学平均来捕获这场球赛的动态。“它只会给你混在一起的一整块。”他说。
 
Fraser对这一问题的解决方案是单细胞Hi-C,他在2013年首次描述了这种方法。Fraser说,该方法的关键是在连接前保持细胞核完整。比起首先破坏核结构(Aiden原来的Hi-C方法),“这使得它更洁净,噪音更少”,他解释说。但最初,他的团队在任意给定细胞中只能探测到大约2.5%的接触,每次大约是十几个细胞。如今,改进的方法将覆盖率提高了约10至20倍,并将通量提高到每周约400个细胞。“我们可以对成千上万的单细胞Hi-C数据集进行实验,这让我们可以从单细胞水平上看到一个群体是如何表现的。”他解释道。该数据表明,TADs比研究人员所了解的要更不稳定。“即使是在表型相同的细胞中,染色体折叠的方式在细胞间也是高度可变的。”他说。
 
华盛顿大学基因组科学系的Jay Shendure和他的同事们近期在《科学》上发表了一种高度多重化的方法,利用DNA条形码技术(而不是物理的细胞分离方法)将单细胞Hi-C一次性扩展到成千上万的细胞中。
 
然而,还有一些研究人员利用荧光原位杂交(FISH)技术在单细胞水平上探测染色质结构,这是一项自身固有的单细胞技术,利用荧光探针和统计分析来推断细胞核内染色体结构域的相对定位。例如,Heard利用在DXZ4蛋白两端的FISH探针形象地展示小鼠活性和非活性X染色体在染色体折叠上的区别,从而验证了她在Hi-C法上的发现。
 
但不同于C方法的是,FISH是低通量(就可以同时分析的基因组位点数量而言)、低分辨率的。近期,哈佛大学霍华德·休斯医学研究所研究员Xiaowei Zhuang和她的同事们至少对此前的问题提供了一种解决方案,他们研发了一种新的方法对FISH技术进行多重化,通过使用Oligopaint探针和连续杂交,对数以万计甚至可能更多的基因组位点进行成像。该研究团队通过使用这一方法,逐个绘制染色体上每个TAD的位置。该团队通过连接产生信号的点,有效地追踪了单个固定细胞中给定染色体的三维拓扑结构,该策略已经应用于人类20、21、22和X染色体上。
 
Zhuang认为,由此产生的数据与基于群体的Hi-C数据集是一致的(例如,他们也在非活性X染色体上发现了DXZ4 “铰链”),同时也揭示了此前未知的空间特征。“在我们的方法中,TADs的区划任务在本质上是相同的,这是完全不同于Hi-C法的方法。”她说,“这的确非同寻常。”
 
充满“活”力
 
当然,最终的问题不在于研究固定细胞中的染色质结构,而是该结构会随着细胞的生长、分裂和对刺激的反应而如何变化。“这需要一项活细胞技术,而现在还没有真正研发出好的技术来。”纽约阿尔伯特·爱因斯坦医学院解剖和结构生物学主任Robert Singer说。
 
然而,很多研究组正在解决这一问题,包括一些由美国国立卫生研究院共同基金的4D核体项目资助的研究小组,纽约大学病理学教授Jane Skok说,他同时也是该项目的咨询顾问。例如,Skok利用失活的Cas9核酸酶和修饰的介导RNAs,可视化标记活细胞中特异的(即使是重复的)染色体区域,其中包括免疫球蛋白重链基因。其他人也发表了类似的方法。例如,霍华德·休斯医学研究所珍妮莉娅研究园区的项目科学家Singer和Wulan Deng将他们的方法称为“CASFISH”,而马萨诸塞大学医学院的Hanhui Ma则研发出一种6色方法,并将其命名为称为“CRISPRainbow”(Rainbow有彩虹的意思)。
 
另一种选择是Kerstin Bystricky开发的“锚(ANCHOR)”方法,Bystricky教授是法国图卢兹大学整合生物学中心的染色质和基因表达课题组组长。该方法插入少量结合位点,让位点附近的细菌ParB蛋白进行成像,同时,在同一细胞中表达ParB和荧光蛋白的融合体。Cas9的方法要求每个结合事件都有一个DNA靶点,但该方法有所不同,ParB一个不错的特性是易于积累,Bystricky解释说。因此,一个蛋白二聚体的结合将很快使更多分子成核。由于每个蛋白质分子都被荧光标记过,因此有效效果将是高度放大的荧光信号。
 
通过将该方法与活细胞RNA可视化相结合,Bystricky的研究组发现积极转录的基因往往比沉默基因移动得更少,这是违背直觉的一个发现,她说。“有一种观点相信,转录激活会增强移动性。”她解释道。
 
据Dekker介绍,细节逐渐开始在研究人员面前拼凑有序起来,他们开始从结构表征转而进行操作。但是仍旧存在着数据整合的挑战,他说。通常,一种方法产生的数据只能与另一种方法的数据部分匹配。“我是乐观主义者。”他说,“我想要认为(FISH和Hi-C方法)都是真实的。但我们搞不清楚它们如何同时为真。”鉴于染色质构象方法的快速发展,解释这一问题可能不会太久。■
 
(译者之一高大海系中国科学院海洋研究所助理研究员)
 
 
Jeffrey M. Perkel是爱达荷州波卡特洛的科学自由撰稿人
DOI: 10.1126/science.opms.p1600108
鸣谢:“原文由美国科学促进会(www.aaas.org)发布在2016年10月6日《科学》杂志”。官方英文版请见http://www.sciencemag.org/custom-publishing/technology-features/chromatin-untangled-new-methods-map-genomic-structure。
 
《科学新闻》 (科学新闻2017年6月刊 科学·生命)
发E-mail给:      
| 打印 | 评论 |