利用 AlphaFold2 扩大结构生物学
Posted: Sat Jan 25, 2025 4:14 am
成为结构生物学领域的一个转折点,解决了蛋白质结构问题。这个问题已经存在几十年了,源于这样的观察:蛋白质结构几乎可以由其氨基酸序列 (或一级结构) 唯一地决定。这意味着存在一个通用的设计定律,如果已知蛋白质序列,就可以用它来模拟蛋白质的三维结构。尽管计算机能力越来越重要,但这种设计定律仍然未知。更令人担忧的是,与其他一些基于模板的方法(如同源性建模)相比,基于第一性原理的方法在历史上一直缺乏性能,这似乎违背了经验观察到的蛋白质折叠的确定性。
通过 AlphaFold2,DeepMind 提供了一个令人信服的论据,即从头预测蛋白质结构是可能的,并且深度学习模型可以以某种方式捕捉到上述设计规律。AlphaFold2 在 CASP14 上与其竞争对手相比的表现引起了极大的炒作(图 1),一些该领域的高层人士如 John Moult(CASP 联 巴林手机数据 合创始人)声称蛋白质结构预测问题在一定程度上得到了解决[1]。此后,AlphaFold2 源代码和模型权重已发布,这促使大多数研究小组将其纳入他们的研究中(图 2),并具有一些可能的下游应用,如经验模型细化 [4]、分子动力学等。此外,还出现了一些基于深度学习的具有可比性能的竞争算法,如 RoseTTAFold [5](Baker Lab)或 ESMFold [6](Meta)。如今,我们有足够的后见之明来了解蛋白质结构预测在多大程度上改变了研究方式。
图 1 - Google Trends 衡量的 AlphaFold 随时间变化的关注度(2023 年 2 月 21 日)。第一个峰值对应于 CASP14 会议周,而第二个峰值对应于模型的公开发布。改编自 Google Trends。
图 2 - Scopus 测量的原始 AlphaFold2 手稿 [3](不要与原始 AlphaFold 论文混淆)的引用次数(2023 年 2 月 21 日)。不同数据库之间的数字可能不同。例如,Google Scholar 索引了 8783 次引用(2023 年 2 月 21 日)。改编自 Scopus。
通过 AlphaFold2,DeepMind 提供了一个令人信服的论据,即从头预测蛋白质结构是可能的,并且深度学习模型可以以某种方式捕捉到上述设计规律。AlphaFold2 在 CASP14 上与其竞争对手相比的表现引起了极大的炒作(图 1),一些该领域的高层人士如 John Moult(CASP 联 巴林手机数据 合创始人)声称蛋白质结构预测问题在一定程度上得到了解决[1]。此后,AlphaFold2 源代码和模型权重已发布,这促使大多数研究小组将其纳入他们的研究中(图 2),并具有一些可能的下游应用,如经验模型细化 [4]、分子动力学等。此外,还出现了一些基于深度学习的具有可比性能的竞争算法,如 RoseTTAFold [5](Baker Lab)或 ESMFold [6](Meta)。如今,我们有足够的后见之明来了解蛋白质结构预测在多大程度上改变了研究方式。
图 1 - Google Trends 衡量的 AlphaFold 随时间变化的关注度(2023 年 2 月 21 日)。第一个峰值对应于 CASP14 会议周,而第二个峰值对应于模型的公开发布。改编自 Google Trends。
图 2 - Scopus 测量的原始 AlphaFold2 手稿 [3](不要与原始 AlphaFold 论文混淆)的引用次数(2023 年 2 月 21 日)。不同数据库之间的数字可能不同。例如,Google Scholar 索引了 8783 次引用(2023 年 2 月 21 日)。改编自 Scopus。