繼 2017 年 AlphaGo 擊敗前世界第一圍棋選手柯潔之後,2020 年 AlphaFold 2 的橫空出世,讓人工智能(AI)再次成功出圈。
2 年之後,如今的 AlphaFold 又怎樣了?
今年 7 月,DeepMind 與 EMBL-EBI(歐洲生物信息研究所)利用 AlphaFold 幾乎預測出了地球上的所有已知蛋白質,超過 100 萬個物種的 2.14 億個蛋白質結構,堪稱生物學領域的一項重大飛躍,一度在國內外的社交媒體上引發熱議。
但是,作為“圈內人”的生命科學領域科學家們,卻對 AlphaFold 取得的成果褒貶不一。
上個月,美國藥物發現化學家 Derek Lowe 就給 AlphaFold 潑了一盆冷水。在一篇題為“Why AlphaFold won’t revolutionise drug discovery”的文章中,Lowe 寫道,AlphaFold 的整個計算技術都建立在尋找已知結構的類比上,在沒有可比較結構的情況下,AlphaFold 就無計可施了。
(來源:Twitter)
如今,來自麻省理工學院、哈佛大學和 Broad 研究所的研究團隊,在一項新研究中再次揭示了 AlphaFold 局限性。
研究團隊希望能夠利用 AlphaFold(預測出的)結構找到與特定細菌蛋白結合的藥物。但他們發現,AlphaFold 在這一方面表現得並不好。“事實上,它們的預測比偶然性好不了多少。”
相關研究論文以“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”為題,已發表在科學期刊 Molecular Systems Biology 上。
麻省理工學院教授、論文通訊作者 James Collins 說: “諸如 AlphaFold 這樣的突破正在擴大計算機藥物發現工作的可能性,但是這些發展需要與作為藥物發現工作一部分的建模其他方面的進步相結合。”
準確性不足
在過去的幾十年裡,很少有新的抗生素被研發出來,主要原因是目前篩選潛在藥物的方法過於昂貴和耗時。一個有前途的新策略是使用計算模型,從而更快、更便宜地進行新藥研發。
此前,AlphaFold 已經從它們的氨基酸序列中準確地預測了蛋白質結構,這項突破讓致力於尋找新抗生素的科學家感到興奮。
據介紹,這項新研究是 Collins 實驗室最近發起的抗生素-人工智能項目(Antibiotics-AI Project)的一部分,該項目的目標是利用人工智能發現和設計新的抗生素。
在此次工作中,研究團隊利用 AlphaFold 生成的蛋白質結構,探索了現有模型是否能夠準確預測細菌蛋白與抗菌化合物的相互作用。
如果答案是肯定的,科學家們就可以使用這種類型的模型進行新化合物的大規模篩選,而這些化合物可以靶向於之前不能靶向的蛋白質。這將使研發出具有前所未有作用機制的抗生素成為可能,是解決抗生素抗藥性危機的關鍵任務。
為了測試這一策略的可行性,Collins 團隊決定研究 296 種來自大腸桿菌(E. coli)的必需蛋白質與 218 種抗菌化合物的相互作用,其中包括四環素(Tetracyclines)等抗生素。
他們使用分子對接模擬分析了這些化合物如何與大腸桿菌的蛋白質相互作用,根據它們的形狀和物理性質,來預測兩個分子結合在一起的強度。
這種模擬已經成功地應用於針對單個蛋白質靶標篩選大量化合物的研究中,來確定可以實現最佳結合的化合物。但是,當他們試圖針對許多潛在目標篩選多種化合物時,預測的準確性要低得多。
通過將模型產生的預測與實驗室實驗中獲得的 12 種必需蛋白質的實際相互作用進行比較,研究團隊發現,模型的假陽性率與真陽性率相似。這就表明,該模型無法一致地識別現有藥物與其靶標之間的真正相互作用。
圖 | 細胞中復雜的蛋白質網絡(來源:Cellsignal)
此外,研究團隊借助常用於評估計算模型的測量方法 auROC 發現,模型表現出的性能也比較差。
對此,Collins 表示:“我們利用這些標準的分子對接模擬,得到了一個大約為 0.5 的 auROC 值,這一數字表明,模型的表現並不比隨機猜測的表現更好。” 當研究團隊對實驗確定的蛋白質結構使用這種建模方法時,他們發現了類似的結果。
Collins 說:“AlphaFold 預測的結構似乎與實驗確定的結構大致相同,但如果我們要在藥物發現中有效和廣泛地使用 AlphaFold,我們需要在分子對接模型方面做得更好。”
更好的預測
對於以上結論,研究團隊表示,AlphaFold 模型性能差的一個可能原因是,輸入模型的蛋白質結構是靜態的,然而在生物系統中,蛋白質是動態的,它們的構型經常會發生變化。
為了提高建模方法的成功率,研究團隊使用其他 4 個機器學習模型進行了預測。這些模型是根據描述蛋白質和其他分子如何相互作用的數據進行訓練的,能夠在預測中加入更多信息。
“機器學習模型不僅學習已知相互作用的形狀,還學習已知相互作用的化學和物理特性,然後利用這些信息重新評估對接預測,” 論文共同一作 Felix Wong 說,“數據顯示,這些額外的模型可以幫助我們得到更高的真陽性和假陽性的比率。”
然而,研究團隊表示,在這種類型的模型被用來成功識別新藥之前,還需要進一步的改進,一個可能的方法是在模型訓練中加入更多的數據,包括蛋白質的生物物理和生化特性及其不同構象,以及這些特征如何影響它們與潛在藥物化合物的結合。
Collins 認為,隨著進一步的進展,科學家或許不僅可以利用人工智能產生的蛋白質結構發現新的抗生素,而且還能發現治療包括癌癥在內的各種疾病的藥物。
“我們樂觀地認為,隨著建模方法的改進和計算能力的增強,這些技術將在藥物發現中變得越來越重要。然而,我們還有很長的路要走。”
參考鏈接:
https://www.embopress.org/doi/full/10.15252/msb.202211081
https://news.mit.edu/2022/alphafold-potential-protein-drug-0906
https://www.chemistryworld.com/opinion/why-alphafold-wont-revolutionise-drug-discovery/4016051.article