Nah是一个六岁的孩子,患有一种没有名字的疾病。 今年,他的医生将开始在互联网上发送他的基因信息,看看世界上是否有人,在任何地方,像他一样。

一场比赛可能会有所作为。 诺亚发育迟缓,使用助行器,只会说几句话。 而且他的病越来越重。 核磁共振显示他的小脑正在萎缩。 他的 DNA 由东安大略儿童医院的医学遗传学家分析。 数以百万计的 As、Gs、Cs 和 Ts 中的某处是拼写错误,可能是处理的线索。 但除非他们发现第二个孩子有同样的症状和类似的 DNA 错误,否则他的医生无法确定诺亚基因中哪个错误是关键错误。

今年 1 月,多伦多的程序员开始测试与其他医院交易基因信息的系统。 这些设施位于迈阿密、巴尔的摩和英国剑桥等地,还治疗患有所谓的孟德尔疾病的儿童,这种疾病是由单个基因的罕见突变引起的。 这个名为 MatchMaker Exchange 的系统代表了一些新事物:一种自动比较世界各地病人 DNA 的方法。

该项目的幕后推手之一是加州大学圣克鲁兹分校的生物信息学专家 David Haussler。 Haussler 现在正在努力解决的问题是,基因组测序在很大程度上脱离了我们最大的信息共享工具:互联网。 这很不幸,因为已经有超过 200,000 人的基因组被测序,这个数字在未来几年肯定会增加到数百万。 下一个医学时代取决于对这些基因组的大规模比较,他认为科学家们对这项任务准备不足。 “我可以在世界任何地方使用我的信用卡,但生物医学数据不在互联网上,”他说。 “这一切都不完整,被锁定了。” 基因组经常在硬盘驱动器中移动并由联邦快递卡车运送。

Haussler 是全球基因组学与健康联盟的创始人和技术领导者之一,该联盟成立于 2013 年,将自己与 W3C 进行比较,W3C 是致力于确保 Web 正常运行的标准组织。 也因其笨拙的首字母缩写词 GA4GH 而闻名,它获得了大量成员,包括像谷歌这样的主要技术公司。 迄今为止,其产品包括协议、应用程序编程接口 (API) 和用于在 Web 上移动 DNA 的改进文件格式。 但它解决的真正问题大多不是技术问题。 相反,它们是社会学的:科学家不愿意共享基因数据,并且由于隐私规则,将人们的基因组放在互联网上被认为具有法律风险

但压力越来越大,需要使用技术同时研究许多基因组,并开始将遗传信息与医疗记录进行比较。 这是因为科学家认为他们需要对一百万个或更多基因组进行分类,以解决可能涉及单个流氓 DNA 字母的案例(如诺亚的案例),或者发现涉及复杂基因组合的常见疾病的遗传学. 目前没有任何一个学术中心能够获得如此广泛的信息,或者有足够的财力来收集信息。

Haussler 和联盟中的其他人认为,解决方案的一部分是可以将广泛分散的数据联合起来的点对点计算机网络。 例如,他们的标准允许研究人员向其他医院发送查询,这些医院可以选择他们愿意分享的信息级别以及与谁分享。 这种控制可以缓解隐私问题。 将复杂性提高到新的水平,API 还可以调用数据库来执行计算——例如,重新分析它们存储的基因组——并返回答案。

我遇到豪斯勒的那天,他穿着一件褪色的夏威夷衬衫,坐在圣地亚哥一家酒店游泳池旁的塑料草坪椅上开会。 我们俩都在那里参加了世界上最大的遗传学家年度聚会之一。 他告诉我,他担心基因组学正在远离使基因组计划如此强大的开放方法。 Haussler 希望,如果人们的 DNA 数据能够被更广泛地访问,医学可能会受益于推动 Web 众多商业方面的同一种“网络效应”。 另一种选择是,这些重要信息最终将被孤立在美国医院记录系统的灾难性大杂烩中,其中很少有人可以共享信息。

快速行动的一个论点是基因组数据的数量正在爆炸式增长。 最大的实验室现在可以以每小时两个的速度对人类基因组进行高度抛光。 (第一个基因组需要大约 13 年。)粗略计算表明,今年用于 DNA 测序的快速机器将能够在全球范围内产生 85 PB 的数据,是 2019 年的两倍,依此类推。 相比之下,Netflix 持有的所有电影原版都占用 2.6 PB 的存储空间。

“这是一个技术问题,”波士顿初创公司 Curoverse 的 CEO Adam Berrey 说,该公司正在使用联盟的标准为医院开发开源软件。 “您拥有世界上数以亿计的数据,没有人愿意移动这些数据。 那么你如何一次一起查询呢? 答案不是移动数据,而是移动问题。 没有哪个行业会这样做。 这是一个极其困难的问题,但它有可能改变人类的生活。”

今天,科学家们广泛地参与了一个项目,这个项目实际上是记录每个人类基因的每一个变异,并确定这些差异的后果是什么。 个体人类在大约 300 万个 DNA 位置上存在差异,或者说每 1,000 个遗传字母中就有一个。 这些差异中的大多数都无关紧要,但其余的可以解释很多事情:例如,像诺亚这样令人心碎的疾病,或者发生青光眼的几率高于平均水平。

所以想象一下,在不久的将来,你不幸患上了癌症。 医生可能会要求对您的肿瘤进行 DNA 检测,因为他知道每种癌症都是由特定突变推动的。 如果可以查看与您的肿瘤具有相同特定突变的其他人的经验,以及这些人服用的药物和寿命,那么该医生可能对如何治疗您有很好的了解。 基因组学中正在展开的灾难是,尽管已经收集了大量这种挽救生命的信息,但无法访问。 “限制因素不是技术,”DNAnexus 的首席医疗官 David Shaywitz 说,DNAnexus 是一家拥有多个大型基因数据集合的生物信息学公司。 “关键在于人们是否愿意。”

去年夏天,豪斯勒的联盟推出了一个基本的 DNA 搜索引擎,称为 Beacon。 目前,Beacon 搜索了大约 20 个以前公开并实施了联盟协议的人类基因组数据库。 Beacon 仅对单一类型的问题提供是或否的答案。 例如,您可以问:“您的基因组中是否有任何基因组在 1 号染色体的 1,520,301 位上有一个 T?” “这真的只是最基本的问题:你见过这种变体吗?” 豪斯勒说。 “因为如果你真的看到了一些新东西,你可能想知道,这是世界上第一个患有这种疾病的病人吗?” Beacon 已经能够访问数千人的 DNA,包括谷歌在线发布的数百个基因组。

Global Alliance 的联合创始人之一是 David Altshuler,他现在是 Vertex Pharmaceuticals 的科学主管,但直到最近还是麻省理工学院-哈佛博德研究所的副主任,该研究所是美国最大的学术 DNA 测序中心之一。 我拜访 Altshuler 布罗德办公室的那天,他的白板上贴满了显示家庭遗传遗传的图表,以及用蓝色大字母写的“Napster”这个词——这是对 1990 年代著名的破坏性音乐共享服务的引用。 Altshuler 想要连接大量基因数据有他自己的原因。 作为一名学术研究员,他一直在寻找糖尿病等常见疾病的遗传原因。 这项工作是通过比较受折磨和未受折磨的人的 DNA 来进行的,试图找出最常出现的差异。 在以这种方式烧掉无数研究经费后,遗传学家意识到没有简单的答案,没有常见的“糖尿病基因”或“抑郁基因”。 事实证明,常见的疾病不是由单一的、确凿的缺陷引起的。 相反,科学家们了解到,一个人的风险是由数百甚至数万个 DNA 代码中的罕见变异的组合决定的。

这造成了巨大的统计问题。 去年 7 月,在一份列出 300 位作者的报告中,布罗德研究了 36,989 名精神分裂症患者的基因。 尽管精神分裂症具有高度遗传性,但科学家确定的 108 个基因区域仅能解释一个人患该疾病的风险的一小部分。 Altshuler 认为,大型基因研究仍然是“破解”这些疾病的好方法,但他认为可能需要数百万个基因组才能做到。

按照数学计算的方式,共享数据不再是可有可无的,无论研究人员是在试图解开常见疾病还是极罕见疾病的原因。 南加州大学领导一个研究阿尔茨海默氏症科学的联盟的研究员亚瑟·托加 (Arthur Toga) 说:“科学的开展方式将发生巨大变化,这只是因为信噪比需要它。” . “仅靠 10,000 名患者无法获得结果——您将需要更多。 科学家们现在将分享,因为他们必须这样做。”

当然,隐私是共享的障碍。 人们的 DNA 数据受到保护,因为它可以像指纹一样识别他们——而且他们的医疗记录也是私密的。 某些国家/地区不允许出于研究目的导出个人信息。 但是 Haussler 认为点对点网络可以避免其中的一些担忧,因为数据不会移动并且可以对其访问进行门控。 超过一半的欧洲人和美国人表示他们对分享基因组的想法感到满意,一些研究人员认为患者同意书应该是动态的,有点像 Facebook 的隐私控制,让个人决定他们将分享什么以及与谁分享——然后改变主意。 “我们的成员希望自己做决定,但他们并不担心隐私。 他们生病了,”大型患者倡导组织遗传联盟的负责人莎伦·特里 (Sharon Terry) 说。

无法正确共享数据的风险是基因组革命可能会破裂。 一些研究人员表示,他们看到了这种情况已经发生的迹象。 诺亚基因组测序研究小组的负责人 Kym Boycott 说,当该小组在 2010 年采用测序作为研究工具时,立即取得了成功。 两年多来,即 2011 年至 2013 年,加拿大遗传学家网络发现了 146 种疾病的确切分子原因,解决了 55% 的未确诊病例。

但是,Boycott 说,成功率似乎正在下降。 现在剩下的是像诺亚这样更棘手的案件,而且他们得到解决的频率只有其他案件的一半。 “我们不再有两个患有相同疾病的患者了。 这就是我们需要交流的原因,”她说。 “我们需要更多的患者和系统的分享来获得 [success rate] 备份。” 1 月下旬,当我询问 MatchMaker Exchange 是否已经产生任何匹配时,她表示反对,说软件全面运行可能需要数周时间。 至于诺亚,她说,“我们还在等着把他解决掉。 这对这个小家伙很重要。”