周伦 周伦

死磕大数据、智能硬件、基因检测、人工智能, 有趣有料,一切与科技有关

2016年11月3日,华大基因、阿里云、英特尔等行业巨头齐聚深圳国家基因库,举行了「漫步云端–BGI Online合作伙伴大会暨新版发布会」,三巨头将合力搭建分析和理解生命大数据的基础设施。

BGIA-Spotlight-Page-Banner-BGIonline1

为了说清楚BGI Online,让大家对BGI Online有更深入的认识,我必须先说说最近发生的一件刷朋友圈的大事。

前不久,360云盘突然发布了一条通知,「360云盘即将转型企业云服务,同时将在2017年2月1日关闭云盘,请及时下载和备份数据」,朋友圈瞬间炸了锅。自网盘出现以来,由于存储和分享极其便利,免去了随身携带大硬盘的麻烦,很多人已经养成了随手在网上存储照片、音乐、电影和文本的习惯,甚至有不少人的网盘里已经积攒了好几个T的文件。

以现在的网络传输速度,有些云盘用户想把资料全部下载完毕,估计要到猴年马月去了,更糟糕的是,他们还得花一笔「巨资」购买足够的硬盘。万幸的是,奇点糕一直使用的百度云非常坚挺,「百度网盘将一如既往地向用户提供稳定可靠的个人云存储服务」。奇点糕很庆幸选择百度终于对了一回。

前面说了那么多,你千万不要以为奇点糕给百度洗地来了(虽然很有嫌疑)。其实我主要是为了让大家进入一个语境,让大家回忆一下云服务给我们的日常生活带来的各种便捷。接下来,我要以此为基础,给大家介绍一个会对人类的健康产生革命性深远影响的「基因云」——BGI Online。

cloudcomputing

为什么要这么说呢?且看这个问题。现在非常火爆的免疫治疗药物PD-1抗体对70%的黑色素瘤患者有很好的疗效,剩下的患者为啥效果不好?这样的例子现在有很多啦,我就不一一列举了。当然啦,现在很多人都知道,这是因为基因嘛。那我再追问一下,请问是哪些基因呢?吃瓜观众:……

已经进入精准医疗时代了,现在不仅仅在追求精准诊断,还有精准用药啊。现在已经有很多药企开始收集包括基因组数据在内的各种患者数据,希望为药物找到更合适的患者群,提升药物效果,降低不良用药事件的发生,还可以为一些患者节省一笔不必要的开支。

今年,有两个研究团队开始深入的研究,对PD-1抗体药物最敏感的黑色瘤产生耐药性背后的原因。他们分别从转录组和全外显子层面探索了背后的原因,最终发现了一些影响PD-1抗体药物效果的重要靶点,现在他们在做的是将这些靶点与患者对药物的响应程度结合起来,做相关性分析,最终希望可以通过更多的基因,筛选出对PD-1抗体药物响应的患者。

当然,还有一些制药巨头,直接利用人体基因组数据寻找药物靶点。例如安进在今年5月18日,在医学四大期刊之一的《新英格兰医学杂志》发表文章,宣称他们找到了保护心脏的罕见基因突变(ASGR1)。携带ASGR1基因突变的人,患冠心病的风险降低35%,这是有史以来发现的降低冠心病风险最大的基因变异。目前新药的正在研发中。

听上去真的很厉害啊!但是这个发现的过程也是无比艰辛的。要知道,人体基因组数据是以G为单位计算的,一个人的数据就是好几部高清电影啊。要是处理一个两个人的数据也就算了。但是搞研究,可没这么干的啊。我就拿安进发现保护心脏的罕见基因突变(ASGR1)的过程给你看看。

99

安进的子公司deCODE先给2636名冰岛居民做了全基因组测序,从中发现了2530万个变异。他们随后将这2530万个变异输入到近40万在世以及去世居民的基因组数据库中。通过各种复杂的分析统计。他们发现ASGR1功能性失活(基因缺失一段)的人群,患冠心病的风险降低了35%左右。几十万人的基因组数据啊,多少个G你还算的过来么?

庆幸的是,这些数据都是储存在deCODE的服务器里。要是外包给第三方测完了。就有安进折腾的了。

「有个美国的大药厂跟华大有长期的合作,我们不断的测一些数据给他们,由于基因组数据很大,所以网络传输很麻烦,然后我们只能寄硬盘,拷了一块又一块硬盘。反正是几个T的硬盘,给他们拷了很多块。后来我们去他们那里参观,他们说,这一屋子硬盘都是你们寄给我们的。」华大股份研发中心副总监,BGI Online和大数据专项负责人金鑫博士,给奇点糕介绍了几年前那种原始的让人抓狂的数据交付方式,「这也带来一个问题,数据你是给他们了,但是他们还是需要把数据从硬盘里拿出来,再分析,再分配管理权限。」

在现在的网络基础建设水平下,且不说国与国之间的网络传输速度受限制,即使是城市之间的网络传输速度也不能满足基因组数据传输的需求。

最好的解决办法是什么?就是云啊!就如同360云盘和百度网盘给我们的生活带来便利一样,阿里云和亚马逊的AWS正在给精准医疗提供巨大的动力。然而,由于基因组数据的特殊性,华大基因先后与亚马逊和阿里云合作,在北美和中国发布了可以快速存储和交付数据的BGI Online。

4

「我们跟阿里云之间是有一个10GB的裸纤,我们现在传个上T的文件,十几分钟也就传完了。现在我们是直接将处理好的数据,按照特定的结构传到客户的账户里去。客户可以直接在线分配数据处理权限。」金鑫说。

如此一来,基因组数据的存储和交付的难题解决了。但是,基因组数据与图片、音频和视频文件是不同的,并不是存储在那里就完事儿了的。基因数据的价值不体现在读取的便捷性上,而是体现在分析和挖掘上,我们必须从几十万人的基因组数据里找到那些跟疾病有关的基因。

基因检测价值链的发展趋势
基因检测价值链的发展趋势

基因大数据的分析究竟有多难,反正每次想这个问题我的大脑都会宕机。

「我跟很多做计算和大数据的人交流过,基因数据跟当下很多人提到的大数据是不一样的。比如说,现在很多人提及的大数据是淘宝等电商平台产生的数据,如果有1000万人次同一个时间去打开了同一个页面,这就是淘宝在双十一面对的很大挑战。它是一个很高频次、很大量级的访问请求,它对于单个的个体、单次的访问来说,产生的数据量并不大。」金鑫说,「基因数据是反过来的,我们是低频次的,因为人不会天天测自己的基因数据,但是测出来的数据量很大,它是个低频次、高数据密度和高计算密度的这么一个数据特点。」

基因数据的分析究竟该如何去描述呢?这个一直让我大脑宕机的问题,在我看完吴军老师的著作《数学之美》里面关于《圣经》的一段描述之后,终于有了答案。吴军老师那段《圣经》的故事在《数学之美》第二版的第12页,我这里就不再赘述。我来讲我的故事。

假设我把收藏在牛津大学的古本《圣经》(我再假设这个古本翻译成中文之后,有30亿字)借出来了,然后让全中国14亿同胞每人抄一份。在抄的过程中,每个人都可以根据自己的经历和信仰(如果有的话),对《圣经》稍加修改(单个字的修改和增删,段落性增删,或者调换文本位置),但是修改幅度不能超过总文本的0.01%。好了,我们抄完之后,就会有14亿本含有30亿个汉字,且各不相同的《圣经》。

BGI Online 1.5新版发布现场
BGI Online 1.5新版发布现场

接下来我们就可以分析了。例如,我想知道处于叛逆期的孩子抄写的《圣经》有什么共同的特点,他们到底增删,或者修改了《圣经》的哪些关键信息。那我们就把1万个叛逆的孩子(当然,越多越好,分析所有人的数据最好)抄的《圣经》收集过来分析嘛。要分析这些数据,首先你得把所有的数据输到电脑里面去吧,然后你得有那么大的储存空间和计算能力吧。

我相信此时的分析思路很容易想象,但是你要是尝试去想过程,脑子估计肯定会宕机(千万不要尝试,理解了就好)。最后我们经过昏天黑地的分析,发现很多处于叛逆期孩子都把第X页的第X段删掉了。如果你想知道啃老一族抄写的《圣经》有什么共同的特点,方法也是一样的。

人体基因组数据的分析如出一辙,复杂程度可想而知。随着基因组数据的不断增加,数据的传输,计算机的存储和计算能力都面临极大的挑战。对于大部分研究机构和企业而言,如果你要跟上测序量的增长,你就要花费非常多的成本和代价去购买、维护和升级设备。

「因为基因的数据量太大,在目前的网络条件下,把所有这些数据在本地解决其实是最好的。但现在看起来是不太可能的。」金鑫说,「包括我们自己的业务,我们自己的科研需求,虽然华大自己也建了计算机集群,但是也经常会出现大家任务要排队的局面,而且要排很久,我听说过的最极端的例子是有人要排队等一个星期,这就无形的拉长了我们的交付周期。」

BGI Online平均年龄只有26岁的研发团队
BGI Online平均年龄只有26岁的研发团队

作为全球最大的基因测序企业,华大基因已经切实地感受到基因数据存储和分析的压力。当然,他们可以借助于超级计算机(简称超算)。目前我国的超算的能力已经处于世界前列。但是超算是一个封闭的系统,虽然所有人都可以租用,但是数据的转移是一个很大的限制条件。

此外,金鑫表示,「超算在大型科研项目方面有其明显的优势,我们跟超算也有非常好的合作。但是我们不只是希望这个计算能力我们能用,现在有很多的生物信息人员,他们都懂这个信息数据,我们希望把这个东西变成一种能力,这个能力可以附能给想要这个能力的人,无论它是一个小的实验室、小的创业团队,还是一个什么样的机构。只要他们有基因组数据,不管他们是做精准医学还是做农业育种,他们都可以利用这个计算能力分析数据。由于超算是一个封闭的系统,所以在这一点上超算很难做到。」

所以,在金鑫看来,如果我们可以把这个东西变成一种能力,能投放出去,那就是最好的。这个时候华大基因就将目光投向了开放的云计算。

「实际上最早的时候,我们在2011年前后就考虑过去做这种东西,但是当时做的非常辛苦。首先是因为当时整个云计算的基础设施并像今天这么好,而且当时这个概念也并没有被广泛接受,那个时候的网络环境等硬件条件,也不是特别支持这件事情。」金鑫说,「到了2014年和2015年的时候,我们考虑到云计算技术的发展趋势和国内接受程度在上升,尤其是国内的阿里也开始做,然后非常的明显这块肯定是在未来的计算中占重要的一席之地。所以我们在14年的时候,开始做基于云计算的架构,就是BGI Online,2015年4月份先在北美亚马逊的云计算服务上提供出来的。2016年3月份,发布了国内版本,国内用的是阿里云。」

有了强大的存储和计算能力之后,BGI Online的用户如何在BGI Online上完成数据的分析呢?既然是为了方便用户分析数据,金鑫团队已经将目前常用的基因数据分析软件内置到BGI Online上了,而且还搭建了比较成熟和通用的流程。

可以排成一个元素周期表的各种生物信息软件
可以排成一个元素周期表的各种生物信息软件

当然用户也可以根据自己的需求,搭建个性化的流程。所有模块之间的连接脚本已经设计并优化好,所以搭建过程要比线下简单。它其实就是一个多元化的界面,就跟拼积木一样,你要输入什么形式的文本,第一步想如何分析,第二步要如何分析,依此类推,你只需要把各个模块拉到一起,然后连接起来就好了。

BGI Online上模块化的数据处理流程
BGI Online上模块化的数据处理流程

据了解,原本需要数周时间才能完成的千人基因组分析,在BGI Online上经过4次鼠标点击,在22个小时之内完成。

近日,卫计委发布了《国家卫生计生委办公厅关于规范有序开展孕妇外周血胎儿游离DNA产前筛查与诊断工作的通知》,该文件申明,废止此前无创产前筛查与诊断试点机构相关规定,正式取消无创产前筛查与诊断试点。

这意味着之前只对100多家医院和检验所开放的无创DNA产前筛查与诊断彻底打开了。从原则上讲,所有具有产前检测资质的医院和所有具有产前检测资质的医学检验所今后都可以开展无创DNA产前筛查与诊断。基因检测服务终于迎来一个新的发展阶段,我们即将迎来以基因数据为代表的生命大数据的井喷。

「以后肯定会到人人检测,我们平时在跟大家聊的时候就说到,我们很有可能是最后一代出生的时候没有个人基因组数据的人。」金鑫说,「BGI Online要做的事情就是为不同规模的研究人员和机构提供基因组学的数据分析能力,让他们通过一根网线就能获得数据分析能力。我们希望在不久的未来,我们获取基因数据的计算能力就如同获取电力一样简单。」

奇点分享微信

推荐阅读

发送