艾未未的被挖掘,以分類(lèi) 癲癇發(fā)作和預測是否乳腺癌可能轉移,但其唯一的醫療應用程序的遠。在一份計劃于5月份在國際學(xué)習代表會(huì )議上發(fā)表的學(xué)術(shù)論文中,麻省理工學(xué)院的CSAIL科學(xué)家描述了一種“計算”分解鏈狀氨基酸鏈段如何決定蛋白質(zhì)功能的系統。他們相信它可以用來(lái)改善蛋白質(zhì)工程 - 即設計具有某些功能的新酶或蛋白質(zhì)。

我希望將結構邊緣化,”CSAIL計算和生物學(xué)研究組的研究生,該論文的共同作者特里斯坦·貝普勒在一份聲明中說(shuō)。“我們想知道蛋白質(zhì)的作用,知道結構對此非常重要。但是,我們能否預測僅給出其氨基酸序列的蛋白質(zhì)的功能?動(dòng)機是遠離特異性預測結構,轉向[發(fā)現]氨基酸序列如何與功能相關(guān)。“
正如Bepler及其同事所解釋的那樣,蛋白質(zhì)的行為 - 包括上述氨基酸鏈,每個(gè)都通過(guò)肽鍵緊密連接 - 很難用機器學(xué)習來(lái)預測。(也就是說(shuō),谷歌的DeepMind在十二月份使用AlphaFold取得了令人矚目的成就。)只記錄了數以萬(wàn)計的數百萬(wàn)個(gè)三維折疊蛋白質(zhì)形狀,并且氨基酸序列通常具有相似的結構,因此很難區分小說(shuō)并重復結果。
因此,論文的作者采用了不同的方法:將預測的蛋白質(zhì)結構直接編碼為表示。具體而言,他們在開(kāi)源蛋白質(zhì)結構分類(lèi)(SCOP)中培訓了大約22,000種標記蛋白質(zhì)的AI系統)數據庫,并為每一對計算得分,表明兩者在結構上有多接近。然后,他們提供了模型隨機對蛋白質(zhì)和嵌入(即,數學(xué)表示)他們的氨基酸序列,從中學(xué)習預測他們的3D結構可能有多相似。最后,他們讓模型比較兩個(gè)相似性得分,以確定哪些成對的嵌入共享蛋白質(zhì)結構,并構建它以同時(shí)預測“內容圖”,表明每個(gè)氨基酸與蛋白質(zhì)結構中的其他氨基酸的距離。
所有這些工作的結果?一個(gè)端到端的系統,給定氨基酸鏈作為輸入,為蛋白質(zhì)中的每個(gè)氨基酸位置產(chǎn)生嵌入 - 嵌入其他模型可用于預測所述氨基酸的功能。在一項實(shí)驗中,研究人員訓練了一種模型來(lái)比以前的方法更準確地預測跨膜和非跨膜片段。
“我們的模型允許我們將已知蛋白質(zhì)結構的信息傳遞給結構未知的序列。使用我們的嵌入作為功能,我們可以更好地預測功能并實(shí)現更有效的數據驅動(dòng)蛋白質(zhì)設計,“Bepler說(shuō)。“從高層次來(lái)說(shuō),這種類(lèi)型的蛋白質(zhì)工程是目標。因此,我們的機器學(xué)習模型使我們能夠從相對較少的已知結構中學(xué)習蛋白質(zhì)折疊的“語(yǔ)言” - 最初的“圣杯”問(wèn)題之一。
