DeepMind和EMBL发布最完整的人
蛋白质结构可以提供宝贵的信息,既可以用于推理生物过程,也可以用于实现基于结构的药物开发或靶向诱变等干预措施。经过数十年的努力,人类蛋白质序列中17%被实验确定的结构所覆盖。
DeepMind今天宣布与欧洲生命科学旗舰实验室、欧洲分子生物学实验室(EMBL)建立合作伙伴关系,以建立迄今为止最完整、最准确的人类蛋白质组预测蛋白质结构模型数据库。这将涵盖人类基因组表达的所有约2万种蛋白质,数据将免费公开提供给科学界。数据库和人工智能系统为结构生物学家提供了强大的新工具来检查蛋白质的三维结构,并提供了一个数据宝库,可开启未来的进步并预示着人工智能生物学的新时代。
AlphaFold于年12月被蛋白质结构预测关键评估(CASP)基准的组织者认可,作为解决50年来蛋白质结构预测重大挑战的解决方案,这是该领域的一个惊人突破。AlphaFold蛋白质结构数据库建立在这一创新和几代科学家的发现之上,从蛋白质成像和晶体学的早期先驱到数以千计的预测专家和结构生物学家,花了数年时间对蛋白质进行实验。
该数据库极大地扩展了蛋白质结构的积累知识,使研究人员可用的高精度人类蛋白质结构的数量增加了一倍多。加深对这些生命构成要素的理解,这些构成要素支撑着每一种生物的每一个生物过程,这将有助于使各个领域的科学家加快研究工作。
通过AlphaFold获得的数据的蛋白质结构上周AlphaFold的最新高度创新版本背后的方法论去年12月宣布的支持这些结构预测的复杂AI系统,其开源代码发表在《自然》杂志上。今天的公告与第二篇自然论文同时发表,该论文提供了构成人类蛋白质组的蛋白质的最完整图片,并释放了对生物学研究很重要的另外20种生物。
DeepMind创始人兼首席执行官DemisHassabis表示说:“我们在DeepMind的目标一直是构建人工智能,然后将其用作工具来帮助加快科学发现本身的步伐,从而促进我们对周围世界的理解。”“我们使用AlphaFold生成了人类蛋白质组最完整、最准确的图片。我们相信这是迄今为止人工智能为推进科学知识所做的最重要贡献,并且很好地说明了人工智能可以为社会带来的各种好处.”
有助科学家加速研究发现
根据蛋白质的氨基酸序列以计算方式预测蛋白质形状的能力,而不是通过多年艰苦、费力且通常成本高昂的技术通过实验确定它,已经帮助科学家在几个月内实现了以前需要几年时间的任务。
EMBL总干事EdithHeard表示,“AlphaFold数据库是开放科学良性循环的完美例子,”“AlphaFold是使用科学界建立的公共资源中的数据进行训练的,因此它的预测公开是有意义的。公开自由地分享AlphaFold预测将使各地的研究人员获得新的见解并推动发现。我相信AlphaFold确实是生命科学的革命,就像几十年前的基因组学一样,我很自豪EMBL能够帮助DeepMind实现对这一非凡资源的开放访问。”
AlphaFold已经被诸如被忽视疾病药物倡议(DNDi)和酶创新中心(CEI)等合作伙伴使用,推进了对拯救生命的治疗方法研究,正在使用AlphaFold帮助设计更快的酶,以回收一些污染最严重的一次性塑料。对于依赖实验性蛋白质结构测定的科学家来说,AlphaFold的预测有助于加速研究。例如,科罗拉多大学博尔德分校的一个团队发现使用AlphaFold预测来研究抗生素耐药性的前景,加利福尼亚大学旧金山分校的一个团队使用它们来增加他们对SARS-CoV-2生物学的理解。
AlphaFold蛋白质结构数据库
AlphaFold蛋白质结构数据库建立在科学界的许多贡献之上,以及AlphaFold复杂的算法创新,和EMBL-EBI在共享世界生物数据方面数十年的经验。DeepMind和EMBL的欧洲生物信息学研究所(EMBL-EBI)正在提供对AlphaFold预测的访问,以便其他人可以使用该系统作为工具来实现和加速研究,并开辟全新的科学发现途径。
EMBL副总干事、EMBL-EBI主任EwanBirney表示,“这将是自人类基因组映射以来最重要的数据集之一,”“让国际科学界可以使用AlphaFold预测开辟了许多新的研究途径,从被忽视的疾病到用于生物技术的新酶以及介于两者之间的一切。这是一个伟大的新科学工具,它补充了现有技术,将使我们能够推动我们对世界的理解的界限。”
除了人类蛋白质组之外,该数据库还推出了约35万个结构,包括20种具有生物学意义的生物,如大肠杆菌、果蝇、小鼠、斑马鱼、疟疾寄生虫和结核病细菌。对这些生物的研究一直是无数研究论文和众多重大突破的主题。这些结构将使各个领域的研究人员,从神经科学到医学能够加速研究工作。
AlphaFold的未来
随着继续投资于未来对AlphaFold的改进、数据库和系统将定期更新,在接下来的几个月中,计划将覆盖范围扩大到几乎所有科学已知的已测序蛋白质,这超过1亿个结构,涵盖大部分UniProt参考数据库。
研究人员在《自然》杂志论文中写道:
“在该论文中,我们通过将最先进的机器学习方法AlphaFold2大规模应用于几乎整个人类蛋白质组(人类蛋白质的98.5%),显着扩大了结构覆盖范围。得到的数据集覆盖了58%的残基,其中一个子集,即所有残基的36%具有非常高的置信度。
我们引入了通过构建AlphaFold模型开发的几个指标,并使用它们来解释数据集,识别强多域预测以及可能无序的区域。最后,我们提供了一些案例研究,说明如何使用高质量的预测来生成生物学假设。
重要的是,我们正在通过由欧洲生物信息学研究所托管的公共数据库免费提供我们的预测。我们预计常规的大规模高精度结构预测将成为重要工具,允许从结构角度解决新问题。”
参考:
转载请注明:http://www.abuoumao.com/hyfw/1900.html