作者: 林落 来源: 发布时间:2019-1-8 14:55:2
罪案DNA分析:福兮?祸兮?

 
近日,先后发表于不同权威学术期刊的两篇文章不约而同地指出,将美国加利福尼亚州臭名昭著的“金州杀手”绳之于法的基因侦查技术,正变得越来越强大。
 
但同时研究也警告称,人们很快就可能通过犯罪现场的DNA分析,“追踪”到几乎所有欧洲裔美国人之间的联系,并大幅拓展现有法医基因数据库的潜在覆盖范围,而这势必会引发令公众担忧的隐私问题。
 
“尽早讨论这个问题很有必要。”以色列消费级家谱及DNA检测服务公司MyHeritage首席科学官、美国哥伦比亚大学计算遗传学家Yaniv Erlich表示。
 
信息收集器
 
20世纪70年代中期到80年代末,美国加州接连发生了一系列耸人听闻的入室盗窃、性侵及谋杀案,案件的始作俑者共同指向了一个无名氏——人们称其为“金州杀手”或“东区强奸犯”。
 
在很长的一段时间里,此案一度陷入僵局。直到2018年4月,警方终于逮捕了一名名为Joseph James DeAngelo的嫌疑人。
 
DeAngelo之所以被指认为嫌疑人,其中一个原因在于警方将其遗留在犯罪现场的DNA,与其远亲上传到GEDmatch网站上的基因样本进行了对比,而这个网站支持用户上传从消费级基因公司获得的基因信息,以便用于家谱及亲缘查找。
 
虽然“金州杀手”案并不是警方通过亲缘DNA捕获嫌疑人的首起案件,但鉴于此案件的高调以及消费级基因检测市场的飞速发展,这使得类似的调查与日俱增。数据显示,2018年4月到8月间,这项被称为“远程家族搜索”的技术已经帮助解决了十多起案件。
 
此前,Erlich及其团队已经证实可以从这些公共的基因数据库中识别出匿名的DNA样本,而现在,他们则开始着手衡量“远程家族搜索”的范围。
 
Erlich的团队分析了MyHeritage网站上128万份匿名用户的DNA档案——与其他消费级基因公司一样,MyHeritage也允许用户检索与自己共享同一先祖遗传下来的DNA片段的亲属。
 
研究发现,在MyHeritage数据库中,60%的用户都有一个表亲或近亲。之后,研究团队对GEDmatch数据库中随机选择的30个样本进行了检索,发现结果与MyHeritage的十分相似。
 
同时,研究人员也发现,通过这类基因数据库也有可能识别出那些基因信息并不在其中的人。就拿DeAngelo来说,其个人的基因信息并没有上传至GEDmatch,但警方通过他表亲的基因档案“追踪”到了他。对此,Erlich的团队预估,一个包含300万欧洲裔美国人基因档案的数据库,就能够通过公共谱系记录识别出这个群体中90%的人。
 
GEDmatch的联合管理者Curtis Rogers表示,目前他们的数据库正以每天增加1000~2000份基因档案的速度飞速发展,预计在未来几年内,基因档案的总数就会突破300万的门槛。
 
虽然有关“金州杀手”案调查的全部细节尚未被披露,但在聚焦DeAngelo之前,调查人员对数十甚至数百人进行了筛查,其中就包括DeAngelo的一些近亲。
 
为了确定是否真的能够识别出公共数据库之外的人,Erlich及其团队开始着手鉴定一位来自美国犹他州的匿名女性,她的DNA作为“千人基因组”项目的一部分而被公开。
 
首先,研究团队将这名女性在“千人基因组”项目中的基因档案上传至GEDmatch,然后在数据库中检索她的远房表亲。那些与这名女子DNA相似度足够高的人,可能在过去几代中与其拥有共同的先祖。
 
之后,在与这名女子DNA相似度足够高的人群中,两位分别来自北达科他州和怀俄明州的表亲进入了研究团队的视线:他们有足够的公开家谱信息可以帮助研究人员缩小范围。于是,在排除了数百名后代之后,研究团队最终确定了这名犹他州女子的身份。
 
之后,Erlich的团队联系了美国国立卫生研究院(NIH)——该机构参与了“千人基因组”项目——告知对方他们已经确定了一名参与者的身份。不过,研究人员并没有在论文中提及这名女子的名字,也没有试图联系她。
 
交叉匹配法
 
DeAngelo之所以能够被识别出并被逮捕,仅仅是因为他遗留在犯罪现场的DNA被保存了下来,而这使得法医学家们能够利用现代技术将他的DNA与遗传物质进行对比,继而确定整个基因组中数十万DNA变体的序列或单核苷酸多态性(SNP)。这与消费级基因检测和许多生物医学研究中使用的基因分型方法相同。
 
但在过去几十年里,大多数犯罪现场的DNA样本都是通过另外一种技术进行分析的——“短串联重复序列”(STR)。
 
每个STR的核心序列结构相同,但其重复单位数目和重复区域的长度不同,因此STR在不同种族、不同人群之间的分布具有很大差异性,构成了STR遗传多态性。同时,不同个体在一个同源STR位点的重复次数也不同,因而如同指纹识别一样,STR位点分析也可对个体进行身份识别。
 
基于此,STR分析已经成为一种重要的鉴定分析方法,广泛应用于法医学、亲子鉴定及细胞鉴定等领域。比如,在美国联邦调查局(FBI)的联合DNA索引系统(CODIS)数据库中,就保存了超过1300万个此类档案。
 
STR分析不仅灵敏度极高,而且对高度退化的样本如犯罪现场的血迹等的检测成功率也较高。但美国斯坦福大学人口遗传学家Noah Rosenberg表示,这类档案可能并不适用于亲属匹配,因为它们无法像SNP检测那样可以基于百万个变体确定先祖和亲属,另外在家族搜索中也可能会出现假阳性。
 
为了解决这个问题,Rosenberg团队开发了一种计算方法——将CODIS数据库中的档案与近亲的SNP档案进行交叉匹配,而SNP档案正是大多数消费级基因公司所使用的,并且可以被用于GEDmatch检索。
 
新开发出来的计算方法可以用来匹配一级亲属,即兄弟姐妹、父母及子女。模拟表明,约有1/3使用STR进行基因分型的人可以正确匹配到使用SNP分型的一级亲属,反之亦然。对此,Rosenberg表示,这可以使无法从犯罪现场证据中获得SNP样本的调查人员在GEDmatch等数据库中寻找与CODIS数据库匹配的档案,反之亦然。
 
隐私的担忧
 
当前,类似“金州杀手”案所使用的家谱调查正在增多。比如,位于美国弗吉尼亚州Reston的法医DNA公司Parabon NanoLabs就参与了许多此类调查,并且还有数十个案例正在跟进中。
 
美国旧金山州立大学统计遗传学家Rori Rohlfs此前就曾撰写过有关家族搜索伦理的文章,她表示对此类检索监管的缺乏是令人吃惊的,可以想象政策制定者将会限制执法机构何时以及如何使用GEDmatch等公共数据库。
 
实际上,许多类似的限制已经存在。比如,美国加州规定执法法医数据库只能用于寻找那些威胁公共安全的严重犯罪的嫌疑人的家族成员,并且在同一案件中,家谱调查团队必须与处理案件的当地调查人员有所区别。
 
在Erlich看来,一些技术可以用于保护人们免受不必要的搜索。比如,消费级基因公司通常允许用户下载数据并将其发布在第三方数据库上。对此,Erlich表示,基因公司可以在这些文件中加入数字签名,使GEDmatch这类网站能够将它们与调查人员上传的犯罪现场档案区别开来,从而避免消费者被检索。
 
但Rohlfs也指出,迄今为止,GEDmatch并没有试图阻止类似的调查行为——它更新了服务条款,提醒用户执法机构可能会使用该数据库。“在我看来,GEDmatch显然没有想要阻止这种搜索的意思。”
 
这一点也得到了GEDmatch的印证。Rogers表示,GEDmatch目前并没有限制执法者访问该网站的计划——“金州杀手”案件出现后,网站更新了服务条款,明确警告用户调查人员可能使用该网站。Rogers担心监管会干扰该网站建立的初衷,即帮助人们找到亲人。“我不认为有人的隐私受到了侵犯。人们应该能够控制自己的DNA,而不是政府。”
 
Colleen Fitzpatrick是加州DNA Doe项目的联合执行主任,该项目使用家族搜索来帮助解决一些人口失踪案件。在Fitzpatrick看来,调查人员从这些搜索中收集到的信息与从其他来源获取的线索并没有太大区别,因此不应该被区别对待。“我们在生活中所做的任何事情都会揭示出其他人的信息。”■
 
《科学新闻》 (科学新闻2018年12月刊 特别报道)
发E-mail给:      
| 打印 | 评论 |