「这将改变医学,改变研究,改变生物工程,」生物学家 Andrei Lupas 这样评价 Alphabet 旗下的 DeepMind 最新推出的蛋白质结构预测 AI——AlphaFold 2。
「它将改变一切。」最后这句话直接被《自然》杂志用作封面标题。
Lupas 之所以这么说,因为他本人花了十年时间,用尽各种实验方法也没能弄清楚一种蛋白质折叠后的形状,但借助 AlphaFold 2 后,他在半个小时内就看清了那团彩色的,像是被手掌捏出特定形状的「珠子项链」。
蛋白质会折叠成特别的三维形状,很像「珠子项链」|视觉中国
知道「珠子项链」折叠后的三维形状至关重要,因为它决定了蛋白质如何工作。开发新药的科学家要是能知道蛋白质的形状,或许就能帮助他想出可以与蛋白质结合的分子。分子一旦和蛋白质结合,就能改变它,从而治愈疾病。
以新冠为例,科学家一直在试图研究新冠病毒表面的刺突蛋白是如何与人类细胞中的受体相互作用的。而像老年痴呆症这种由错误折叠的蛋白质引起的疾病,人们一旦看清了蛋白质的结构,就能在现有的药物中快速匹配治疗或者尝试新的疗法。
尽管学界都知道蛋白质结构至关重要,但要弄清楚却不是件容易的事情,如今人工智能的成熟应用给了预测蛋白质结构另一种可能。
在有着「蛋白质奥林匹克竞赛」之称的国际蛋白质结构预测竞赛(CASP)上,AlphaFold 2 最终击败其他人类选手,拿到了冠军。谈及这个 AI 模型预测的准确性,有的参赛者甚至沮丧地说,「我怀疑很多人会离开这个领域,因为核心问题可以说已经解决了。」
科技圈同样兴奋不已,Google CEO Sundar Pichai、斯坦福教授李飞飞和特斯拉 CEO 埃隆 · 马斯克第一时间在社交媒体上转发祝贺。
困扰了学界 50 年的难题1972 年的诺贝尔化学奖得主 Christian Anfinsen 最早提出,氨基酸(珠子)按照一定顺序排列,会让蛋白质(项链)形成一个固定的三维结构。而基于「珠子」的序列可以计算并预测「项链」会扭成什么形状。
蛋白质对生命体而言至关重要。几乎所有疾病,包括癌症、痴呆症都与蛋白质的功能有关。蛋白质的功能完全取决于它的三维结构形状,而蛋白质功能则关系着我们健康与疾病的一切。因此,了解了蛋白质的三维结构有助于人们设计新药、防治疾病,无论是遗传疾病还是感染疾病。
但蛋白质「项链」能折叠出数以亿计的形状,对其结构的预测就成了一件有着巨大挑战的难题。
1969 年,美国分子生物学家 Cyrus Levinthal 指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有 10^300 种可能构型。
现实中,目前人类只是试图破解一种蛋白质的形状就需要数年的时间,和昂贵的仪器设备。科学家们在实验室中一般使用诸如 X 射线晶体学(X-ray crystallography)和核磁共振光谱法(NMR spectroscopy)这样的传统技术确定蛋白质的三维结构,以了解蛋白质分子中每一原子的相对位置。
从 1994 年开始,每两年就会举办一次国际蛋白质结构预测竞赛(CASP),评审团会拿科学家团队用电脑所预测的蛋白质结构与使用实验室方法得出的三维结构结果进行比较。
例如,华盛顿大学的 David Baker 开发了一套名为「Rosetta」的计算机程序来预测蛋白质结构。他的思路是:如果能够穷尽两两氨基酸分子之间所有可能的位置及其对应的能量状态,就能得到蛋白质结构了。但现实挑战是,目前计算机的计算能力并不足以支撑这种穷举,一旦遇到复杂的蛋白质,这套程序就不适用了。
AlphaFold 和 AlphaFold 2 的分数对比|nature
2016 年以前,CASP 大赛中最高预测分数最高也只到了 40GDT 左右,离代表实验室结果的 90GDT 还有很大差距。美国时间 11 月 30 日,DeepMind 的 AlphaFold 2 在评估中的总体中位数得分达到了 92.4GDT。想比两年前的 AlphaFold,AlphaFold 2 刷新了记录,从 60GDT 一跃上升为 92.4GDT。
「在某种意义上,难题已经被解决了。」CASP 的共同创始人 John Moult 告诉《自然》。