过是根据基因编码而成的肽链,是一串或几串氨基酸残基而已。”
“但是问题就出在这个地方,知道蛋白质的化学信息并不能告诉我们它的生物学功能到底是什么,它到底象征什么功能,我们又应当如何去应对?这几件事之间还有着很大的鸿沟。也就是说,虽然已经测定了化学信息,但我们对于这些基因在生理上到底会有什么功能其实仍旧一无所知。”
“这是因为蛋白质的肽链会折叠,在空间中形成奇异的结构。人类基因组计划测序的时候,不论测量什么基因,其本质是差不多相同的任务类型。但在蛋白质当中,目前并没有什么发现什么办法能够适用于大部分蛋白质,面对不同的蛋白质很可能需要更换方法,这也是为什么我们人类的蛋白质数据库每年增长的速度大约只有一万左右的主要原因。”
一是方法并不通用,二是有用这些方法也不是特别的方便,所需的设备和操作手法有很高的门槛,并且非常耗时。
“但现在,我们有了阿尔法fold,这个数据库涵盖了整个蛋白质宇宙,我们已经迈入数字生物学的全新时代!在未来,预测蛋白质结构就如同使用搜索引擎一样简单,它将几乎涵盖了地球上所有已进行过基因组测序的生物体。”
阿尔法fold与围棋这种一下子就能够被理解的事情区别不小,节目当中主持人花费了不少的时间和精力在介绍这个任务的背景、难点还有意义。
不过在结尾处的总结和吹捧稍微有些用力过猛,孟繁岐不得不切入进来稍微解释一下。
“人工智能毕竟还是数据驱动的一种新技术,目前阿尔法fold是基于已有的十几万测定结果去构造人工智能模型,我们已经对二十多种模式的生物进行了尝试。”
“由于AI技术是从已知的数据当中学习规律,所以针对从未出现过的结构和现象,那可能阿尔法fold是没有办法预测的。就像是在加减法的题目上学出来的AI很难自己掌握乘除法一样。AI或许可以总结出一些新的东西,但绝不可能总结出所有未出现的知识内容,那样的难度实在太高了。”
“我们计划在今年年底公布人类的全蛋白质结构,这个大概是百万千万的级别。未来的两到三年之内,我们公布2亿多条全生物预测结果,所有曾经被人类测序的蛋白质,我们都会去一一做预测。根据目前的统计结果,大约有百分之35左右会是高度准确的。”
孟繁岐实话实说,基于人类已有的十七八万去预测两个亿,当然不可能做到基本全部准确。
这里他说的高准确度,是指基本上超过百分之99.9的符合程度。唯有这个级别的预测结果,才能够如同大家所想的那样,完全取代目前的测量方式。
余下的,多多少少还是会有一些误差,能用,但需要科研人员自己谨慎判断。
不过,百分之35已经是非常优秀的高精确度比例了。这意味着两个多亿当中,至少能有七千多万条结果是和实际情况基本上没有差别的。
相比现在人类已经掌握的数量,十几万来说,这仍旧是几百上千倍的进步。
“孟,你实在是太谦虚了,即便是三成左右的高精确度比例,人类按目前的速度也得需要七千年才能得到这些结果。可现在,两三年之内我们就能做到。”
孟繁岐的解释并没有让主持人和现场的听众失去热情,这两个数字实在是天差地别。
>> --