去年,DeepMind 在一項預測蛋白質結構的比賽中大勝,展示了其預測蛋白質結構的「超能力」。DeepMind 日前就發佈數據庫,當中幾乎包含所有人體中蛋白質的三維結構。這些蛋白質結構數據,是由去年展示的蛋白質折疊系統 AlphaFold 計算得出。數據庫免費開放,對許多領域的科學家來說是極大的突破和便利,很可能構成生物學和醫學新發展的基礎。
AlphaFold 蛋白質結構數據庫是 DeepMind、歐洲生物資訊研究所和其他機構的合作項目,由數十萬個蛋白質序列和 AlphaFold 預測的結構組成,並計劃增加過百萬項資料,以建立「世界蛋白質大全」。
在 90 年代末和 00 年代初,科學家致力排列出人類基因組測序。全球各地的科學家和組織一同努力,歷時多年,最後完成的基因組,對於診斷和了解無數的疾病,以及開發藥物和治療方法大有幫助。而接下來的其中一個重要項目,就是了解人類的蛋白質組。
蛋白質組棘手之處,在於它要複雜得多。DNA 由少數熟悉的鹼基(bases)組成,但在蛋白質中有 20 種氨基酸(其中每個氨基酸包含基因中的幾個鹼基)。單就鹼基數目而言,實在量多而雜亂,不過這些序列不是簡單的編碼,而是編碼扭曲和摺疊的組合。
AlphaFold 現時已預測出 98.5% 的人類蛋白質組結構。AlphaFold 亦找出其他 20 種生物的蛋白質組,如酵母和大腸桿菌,合共約 35 萬個蛋白質結構。所有這些資料,將收錄進可自由瀏覽的數據庫,任何研究人員都可以簡單輸入序列或蛋白質名稱,檢索出其 3D 結構。
DeepMind 行政總裁 Demis Hassabis 形容,數據庫猶如 Google 搜索欄,可像 Google 搜索般找出蛋白質結構。用戶可透過 3D 形式檢視和放大蛋白質結構、查詢基因序列。這些蛋白質數據亦與其他數據庫連接,因此用戶可以立即查看相關的基因、其他具相關功能的蛋白質等等。
得悉蛋白質結構,其中一個可派上用場的領域是藥物研究。要檢查疾病問題根源的蛋白質既昂貴又耗時,特別是一些較少人患上的疾病,所需資源往往要與常見疾病如癌症等研究競爭。如果能夠簡易地調用 10 種健康蛋白質的結構和相同的 10 種突變版本,便能加快藥物研發,否則可能需要多花以年計的實驗工作。
科技媒體 TechCrunch 報道指,AlphaFold 和蛋白質組數據庫的影響,普羅大眾在短時間內也許難以感受得到,但仍能預視其將啟發短期和長期的重大突破。然而,這並不意味著蛋白質組的奧秘已完全解開。
蛋白質存在的環境和系統,有可能改變蛋白質的構成,如分解和重組,或對其他元素和蛋白質產生反應。事實上,AlphaFold 對自己預測的大量人類蛋白質,僅給予中等可信度,當中可能是測出「無序」(disordered)的蛋白質,這些蛋白質變化太大,無法確定更靜態的形式。Hassabis 表示,AlphaFold 正著手處理這些難題。