《Nature》三十種癌癥的“突變熱點”圖譜
對普通大眾來說,谷歌AlphaFold似曾相識,而這份相識來源于它的孿生兄弟——打敗圍棋高手的AlphaGo。AlphaFold隸屬于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯合創始人兼首席執行官Demis Hassabis表示:“Deep Mind的終極愿景是構建通用人工智能,用它來幫助我們更好地了解我們周圍的世界,加快科學發現的步伐。”目前,Deep Mind擁有員工1000名左右,成立以來幾無營收,儼然成為谷歌旗下最燒錢的公司。然而,Deep Mind已經與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競賽的領導者。基于AlphaFold,谷歌又一次“搞事情”,將其人工智能應用于人類科學中最棘手的領域—生物學。
2020年,在第14屆國際蛋白質結構預測競賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據基因序列預測了生命基本分子——蛋白質的三維結構,取得了中位分數為92.4(滿分100分),比第二名高25分,打敗了所有競爭對手。甚至可以分析X-射線晶體學很難解決的楔入細胞膜中的蛋白質結構,這是許多人類疾病的核心。CASP發起人之一穆爾特更是感嘆:“我從未想過在我的有生之年可以見證這一偉大。”2020年11月30日,Deep Mind宣布:“AlphaFold2成功解開了一個困擾人類長達50年之久的生物學難題——蛋白質折疊問題。”2021年7月15日,關于AlphaFold2的論文在Nature上發表[1],并在Github上將AlphaFold2的代碼開源[2],以及上線可搜索的物種蛋白質組數據庫[3]。中國科學院院士施一公認為:AlphaFold2是人工智能對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一。
研究成果AlphaFold2的論文在Nature上發表(圖源:Nature)
AlphaFold2厲害在哪里?顛覆醫學的技術突破
蛋白質是生物體內一切功能的執行者,我們身體內的任何功能,從催化化學反應到抵御外來侵略都是蛋白質作用的結果;我們能行走、運動靠的是肌肉中肌動蛋白的工作;我們身體的骨架是由蛋白質骨膠原加強的;細胞的正常分裂或癌變也是通過蛋白質調節控制的。具有完整一級結構的多肽或蛋白質,只有當其折疊形成正確的三維空間結構才可能具有正常的生物學功能。如果這些生物大分子的折疊在體內發生了故障,形成錯誤的空間結構,不但將喪失其生物學功能,還會引起各種疾病,如:肺氣腫、癌癥、老年癡呆、帕金森氏癥等。
蛋白質一般是由幾十到幾百個氨基酸脫水縮合組成的多肽鏈,蛋白質氨基酸有22種,常見的有20種。在肽鏈上一個具體的位置為什么出現特定的氨基酸而不是別的氨基酸,以及為什么與這一氨基酸前后相連的氨基酸也是固定的?這與分子生物學中心法則密切相關:“DNA轉錄RNA、RNA翻譯蛋白質。”具體來講,DNA上儲存的遺傳信息,也就是堿基序列首先轉錄到RNA上,再由RNA上的堿基序列編碼特定的氨基酸序列,以此構成蛋白質的物質基礎。后來人們發現三個堿基形成一個密碼子,對應編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質的一級結構。但是,此時的線性結構還必須折疊形成天然三維結構之后才能具備承擔活體生物所需的獨特功能。然而,50多年來科學家對蛋白質如何從一維結構快速、準確地折疊成具有生物功能的天然三維結構的認知依然非常有限,這就是生物學領域著名的蛋白質折疊難題。
分子生物學中心法則:DNA轉錄RNA、RNA翻譯蛋白質(圖源:[4])
蛋白質就像小巧精致的生物機器,而機器的結構決定了它的功能,因此揭示蛋白質的結構可以幫助我們理解蛋白質的功能。如果我們清楚蛋白質的結構,就能對其功能展開有根據的猜測。通過繪制大量蛋白質結構圖,我們可以解讀生命的生物學原理,并找到解決問題的根本方法。
目前開展蛋白質結構研究的主要途徑為借助實驗儀器解析蛋白質結構如:X-射線衍射、核磁共振技術、冷凍電鏡技術以及智能計算預測。諾貝爾化學獎得主Christian Anfinsen,在1972年曾提出,基于蛋白質的1D氨基酸序列可計算并預測蛋白質的3D結構。然而,3D結構在形成之前會有數以億計的折疊方式。有數據顯示,一個典型的蛋白質大約有10300種可能的構型,如果用實驗方法來計算所有可能的構型,可能花費的時間比宇宙都要長。通過實驗方法確定蛋白質結構是一項耗時且艱苦的工作,而AlphaFold2證明了人工智能可以在短短幾分鐘內準確預測蛋白質結構,并且精確到原子級。
表1. 開展蛋白質結構研究的主要途徑
開展蛋白質結構研究的主要途徑,數據來源:醫學與哲學雜志[5];
以新冠疫苗為例:它的研發基礎全在于我們繪制出了病毒表面用于入侵人體的細胞刺突蛋白的結構圖。不妨把刺突蛋白的三維結構看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設計出鑰匙,也就是藥物或疫苗,來反制病毒。蛋白質的三維折疊形狀以其一維的氨基酸序列為基礎。如果AI擅長發現那些復雜氨基酸序列構建立體形狀的模式(人類在這方面的能力較弱),那么它就有望替代那些成本極高的實驗室技術。
從實用性角度來看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們設計的幾乎所有的藥物都作用于蛋白質,如鑰匙開鎖般精確匹配,而此過程的第一步是確定哪把鑰匙開哪把鎖,用更專業的話說,就是尋找藥物靶標,即弄清楚藥物分子作用與何種蛋白結合。如果我們擁有可解碼蛋白質結構的人工智能,就可快速篩選成千上萬的新藥物靶標。
AlphaFold2多領域技術革命量身定制新蛋白
AlphaFold2對蛋白質結構的快速準確解析,可以使科學家們從頭制造蛋白質,即自然界中不存在的蛋白質,其特性可根據所需的應用進行調整。通過AlphaFold2的計算,預測蛋白質將如何折疊,它們的穩定構象是什么,可以開辟一個全新的生物學研究領域。
2020年1月下旬,DeepMind的科學家們使用AlphaFold2繪制了SARS-COV-2病毒的蛋白質結構圖——這些結構圖后來被實驗證實是準確的。隨后,世界各地的病毒學家開始使用AlphaFold2對新冠病毒進行研究。加利福尼亞大學舊金山分校(美國加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質。這種特殊蛋白質的結構和功能尚不清楚,但使用AlphaFold2的結果表明它具有鋅離子結合位點,表明這種蛋白質在RNA結合中起作用,這可能對進一步的研究產生影響。
在研究經費有限的項目中,AlphaFold2的免費資源是非常有幫助的。2021年6月,DeepMind與總部位于日內瓦的被忽視疾病藥物計劃(DNDi)建立新的合作伙伴關系。DNDi是一家非營利性制藥組織,在過去18年中一直致力于解決發展中國家一些最致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經取得了相當大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導致每20名患者中有1人死亡),成為治療該疾病的新標準。DNDi的藥物化學家和項目負責人Ben Perry 說:“我們找到了安全的處理辦法,并且適用于所有形式的疾病。”
DNDi和華盛頓大學、鄧迪大學和葛蘭素史克的一組傳染病研究人員發現了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質結合,這種寄生蟲會導致南美錐蟲病疾病。科學家想要研究這種蛋白質的結構,以準確了解藥物如何阻止寄生蟲發揮作用。在過去,這將是一項需要多年時間,且復雜而費力的實驗任務,但通過AlphaFold2,DNDi和他們的合作者已經獲得計算生成的對其結構的預測。現在可以利用這些知識來設計更多可以以不同方式與這種蛋白質結合并殺死克氏錐蟲的藥物。佩里說:“這可以讓我們比幾年前看起來更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質結構,你就可以設計多種候選藥物,這樣你就有很多目標可以用于臨床試驗。”
英國樸茨茅斯大學酶創新中心通過應用AlphaFold2設計了用于處理一次性塑料的蛋白質,這種蛋白質在自然界中并不存在。如果沒有AlphaFold2的幫助,這種蛋白質將很難被發現。
AlphaFold2應用于制藥領域存爭議算法仍需完善
AI結構預測的基本原理是將已知三維結構的蛋白質作為數據集進行大量訓練,輸入一個蛋白質的氨基酸序列推算其三維結構,并和該蛋白質的實驗結構比對,以此強化機器深度學習能力和對未知蛋白質結構的預測能力。簡言之,就是大數據+智能算法。AlphaFold2又進一步引入了新算法,而且在硬件上達到了16個TPU(tensor processing unit)級別,相當于100多個GPU(graphics processing unit)的計算機中央處理器,對所有17萬種已知蛋白質結構進行了算法訓練。
也就是說,此次AlphaFold2所取得的驚人成績完全離不開實驗生物學家已經弄清楚結構的蛋白質作為其比較或學習的模板。而且,AlphaFold2蛋白質結構預測也并非解決了所有問題,即使在競賽中,它明顯地在一種蛋白質上搖擺不定,這種蛋白質由52個小重復片段組成,它們在組裝時會扭曲彼此的位置。
所謂蛋白質結構預測也只是結構生物學研究的一個中間階段,是指無論是實驗結構解析還是 AI結構預測,其最終目的是理解生命機理。正如美國普林斯頓大學顏寧教授所講:“結構生物學的主語是生物學,是理解生命,是做出生物學發現。”從亞原子到原子再到分子層面依然是物理化學過程,為什么分子層面的蛋白質及其組成的生命具有了化學活性且能夠繁殖、演化?也就是說,分子層面的蛋白質發生了什么樣的變化以及是如何變化的?解答這些問 題才接近理解生命。
但是正如上文所言,理解蛋白質功能必須理解其結構,而結構解析目前遠遠超出了人類的認知能力。也正因如此,很多實驗生物學家將大量時間、精力投入到蛋白質結構實驗解析上,也正因為這一進程發展緩慢且困難重重,才促使人們另辟蹊徑,借助計算科學開展結構預測。在這個意義上說,實驗解析或算法預測是開展蛋白質功能研究及認識生命機理的工具和手段,但是不能說因為在這方面目前還非常困難且是當下結構生物學的主要工作,作為工具和手段的結構解析或預測就成為了生物學的目的。要言之,AI在蛋白質結構預測領域做出了驚人的成績,但這并不意味著AI明白地告訴了我們蛋白質折疊的過程與原理。
雖然AlphaFold2在CASP14上讓評委們大開眼界,并且已經被用于各種研究領域,但這只是此類計算技術的開始。某一蛋白質可能存在10300個構象,但蛋白質是如何在瞬間自發地折疊成正確的形狀,AlphaFold2仍無法對此做出解答。AlphaFold2目前代表了AI蛋白質預測的黃金標準,但隨著這項技術的發展和演變,這一基準將繼續提高。
準確預測蛋白質結構,在設計治療方法的過程中是有益的,它使研究人員能夠可視化目標蛋白質的形狀。然而,目前AlphaFold2的局限性意味著藥物設計領域仍未發生重大變化。預測較大的多域蛋白質復合物的形狀并了解所有氨基酸側鏈的位置對于設計藥物分子很重要:這些是AlphaFold2目前難以預測的領域。最近的一篇論文還強調,雖然AlphaFold2預測的結構數據可能會縮短早期的研究時間,但不太可能徹底縮短新藥從實驗室到患者的時間。
題圖來源:EXXACT,僅用于學術交流
參考資料:
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[5]趙云波。AI預測可以代替科學實驗嗎?醫學與哲學,2021。DOI:10.12014/j.issn.1002-0772.2021.06.04
官網:m.baichuan365.com | 微信服務號:iseebio | 微博:seebiobiotech |
商城:mall.seebio.cn | 微信訂閱號:seebiotech | 泉養堂:www.canmedo.com |
此文關鍵字:聚集體細胞突變
相關資訊
- 完美的“超級土豆”
- The Lancet:五種癌癥一發現就是晚期 早篩早診絕非空話!
- J immunol:IL-33調節抗腫瘤免疫反應機制
- FASTKIT ELISA Ver. III系列【過敏原檢測試劑盒】 - 「西寶生物」
- 聚乙二醇試劑套裝 (PEG Reagent Packs) - Nanocs---PEG修飾劑(16)
- 糖尿病研究ELISA試劑盒 - - 疾病診斷及研究系列(2)
- 2015年西寶生物“幸運大轉盤”中獎名單
- 3pRNA是產生毒性T細胞免疫反應的最佳疫苗佐劑
- Cell:古老的酶AMCase保護哺乳動物免受肺部疾病
- Science子刊:中美科學家開發微米機器人精準治療腸道癌癥
新進產品
同類文章排行
- 清除人體內衣原體感染的關鍵鑰匙
- iScience:一種對抗遺傳性神經系統疾病的潛在途徑
- 真的有可以中和所有已知COVID-19毒株的抗體?
- 細胞“廢物”使抗癌的免疫細胞恢復活力!
- 男性注意!這種食品攝入過多會導致結直腸癌
- 無路可退!主食中的農藥殘留,可誘發阿爾茨海默病
- Cell出乎意料新發現:原來是這種“瀕死體驗”讓癌細胞惡化
- 研究發現,冠狀病毒的形狀會影響其傳播
- Science Advances新突破:快速高效生產人體免疫細胞的新方法
- 《Nature Genetics》確定10個克羅恩病相關基因