病毒會(huì)“逃跑” “語(yǔ)言”露馬腳:
病毒可能比人們想象得更狡猾,它能不斷偽裝自己,逃避“疫苗獵人”的追捕。
一直以來(lái),研制對(duì)抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困難,原因之一是這些病毒的變異非常迅速。這使得它們可以通過(guò)一種被稱為病毒逃逸的過(guò)程,避開(kāi)特定疫苗產(chǎn)生的抗體。
美國(guó)麻省理工學(xué)院研究人員現(xiàn)在設(shè)計(jì)了一種計(jì)算病毒逃逸的新模型。該模型基于最初用來(lái)分析語(yǔ)言的模型,可以預(yù)測(cè)病毒表面蛋白的哪些部分更容易發(fā)生突變,從而使病毒能夠逃逸,也可以識(shí)別出不太可能發(fā)生突變的部分,使它們成為新疫苗的良好靶標(biāo)。
“病毒逃逸是個(gè)大問(wèn)題?!甭槭±砉W(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室教授Bonnie Berger說(shuō),“流感病毒表面蛋白和HIV病毒包膜表面蛋白的病毒逃逸是造成目前沒(méi)有通用疫苗的主要原因。這兩種疾病每年都會(huì)導(dǎo)致數(shù)十萬(wàn)人死亡?!?/p>
在1月15日發(fā)表在《科學(xué)》上的一項(xiàng)研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標(biāo)。研究人員還將該模型用于研究最近在英國(guó)和南非出現(xiàn)的新冠病毒新變種。研究人員說(shuō),尚未經(jīng)過(guò)同行評(píng)審的相關(guān)分析發(fā)現(xiàn),這些病毒的基因序列應(yīng)該被進(jìn)一步調(diào)查,以確定它們是否有可能逃脫現(xiàn)有疫苗的影響。
病毒也有語(yǔ)言
不同類型的病毒以不同的速度發(fā)生基因突變,HIV和流感是突變最快的病毒之一。
“HIV和流感病毒突變得很快,這是它們復(fù)制生物學(xué)的結(jié)果。例如,HIV和流感遺傳物質(zhì)復(fù)制的機(jī)制容易出錯(cuò),從而導(dǎo)致突變?!痹撗芯客ㄓ嵶髡?、麻省理工學(xué)院生物工程助理教授Bryan Bryson在接受《中國(guó)科學(xué)報(bào)》記者采訪時(shí)表示。
為了讓這些突變促進(jìn)病毒逃逸,它們必須幫助病毒改變其表面蛋白質(zhì)的形狀,這樣抗體就不能再與它們結(jié)合。然而,這種蛋白質(zhì)不會(huì)發(fā)生使其失去功能的變化。
Berger、Bryson以及研究生Brian Hie等人,決定使用一種被稱為語(yǔ)言模型的計(jì)算模型對(duì)這些標(biāo)準(zhǔn)進(jìn)行建模。這種模型來(lái)自自然語(yǔ)言處理(NLP)領(lǐng)域,最初被設(shè)計(jì)用來(lái)分析語(yǔ)言模式,特別是某些單詞同時(shí)出現(xiàn)的頻率。然后,這些模型就可以預(yù)測(cè)哪些單詞可以用來(lái)完成一個(gè)句子,比如要補(bǔ)全“薩莉在()中吃了雞蛋”,NLP模型可能預(yù)測(cè)“早餐”或“午餐”。
“我們對(duì)NLP語(yǔ)言模型的最新進(jìn)展感到興奮,這些模型可以通過(guò)訓(xùn)練原始文本來(lái)理解人類語(yǔ)言。于是,我們認(rèn)為,由于病毒最豐富的數(shù)據(jù)只是原始的病毒序列,我們也可以通過(guò)訓(xùn)練語(yǔ)言模型從病毒序列數(shù)據(jù)集中學(xué)習(xí)非常復(fù)雜的模式。”Bryson說(shuō)。
當(dāng)這種模型應(yīng)用于生物信息,如基因序列時(shí),語(yǔ)法類似于確定特定序列編碼的蛋白質(zhì)是否具有功能的規(guī)則,語(yǔ)義意義類似于蛋白質(zhì)是否能夠呈現(xiàn)新的形狀,幫助它逃避抗體。因此,使病毒能夠逃脫的突變必須保持序列的語(yǔ)法性,但同時(shí)能以一種有用的方式改變蛋白質(zhì)的結(jié)構(gòu)。
用序列訓(xùn)練模型
“如果病毒想要逃離人類的免疫系統(tǒng),又不想讓自己因突變而死亡或無(wú)法復(fù)制,換句話說(shuō),它既想保持健康,又想充分偽裝自己,以便不會(huì)被人體免疫系統(tǒng)檢測(cè)到?!盚ie說(shuō)。
為了模擬這一過(guò)程,研究人員訓(xùn)練了一個(gè)NLP模型來(lái)分析基因序列中的模式,該模型可以預(yù)測(cè)具有新功能但仍遵循蛋白質(zhì)結(jié)構(gòu)生物學(xué)規(guī)則的新序列。這種建模的一個(gè)顯著優(yōu)點(diǎn)是它只需要序列信息,這比獲得蛋白質(zhì)結(jié)構(gòu)容易得多。
此外,該模型可以在相對(duì)少量的信息上進(jìn)行訓(xùn)練——在這項(xiàng)研究中,研究人員使用了6萬(wàn)條HIV序列、4.5萬(wàn)條流感序列和4000條冠狀病毒序列。
“語(yǔ)言模型非常強(qiáng)大,因?yàn)樗鼈兛梢詫W(xué)習(xí)這個(gè)復(fù)雜的分布結(jié)構(gòu),并從序列變化中獲得一些對(duì)功能的洞見(jiàn)?!盚ie告訴記者,“我們?cè)诿總€(gè)氨基酸位置都有大量的病毒序列數(shù)據(jù),模型通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)氨基酸共現(xiàn)和共變的這些特性?!?/p>
一旦該模型被訓(xùn)練,研究人員能使用它來(lái)預(yù)測(cè)冠狀病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列變化,這些蛋白或多或少可能產(chǎn)生逃逸突變。
“發(fā)現(xiàn)看似不相關(guān)的科學(xué)分支之間的聯(lián)系,可能會(huì)發(fā)展出來(lái)加速一個(gè)分支研究的新方法。該研究提供了一個(gè)此類聯(lián)系的示例。作者們發(fā)現(xiàn)了病毒與自然語(yǔ)言之間的相似之處,進(jìn)而提出了一種識(shí)別突變的強(qiáng)大新方法,這種突變可以使病毒通過(guò)中和抗體而逃脫識(shí)別。”未參與該研究的美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館Teresa M. Przytycka等人在相關(guān)評(píng)論文章中指出。
知己知彼 阻斷逃逸
對(duì)于流感,該模型揭示了最不可能發(fā)生突變和產(chǎn)生病毒逃逸的序列是在HA蛋白的莖部。這與最近的研究一致,研究表明,針對(duì)HA莖部的抗體可以提供幾乎全面的保護(hù),以對(duì)抗任何流感毒株。
在對(duì)HIV的研究中,研究人員發(fā)現(xiàn),該蛋白的V1-V2高變區(qū)域有許多可能的逃逸突變,這與之前的研究結(jié)果一致,他們還發(fā)現(xiàn)了逃逸概率較低的序列。
該模型對(duì)冠狀病毒的分析表明,被稱為S2亞基的刺突蛋白的一部分最不可能產(chǎn)生逃逸突變。但新冠病毒變異的速度仍是一個(gè)問(wèn)題,因此目前部署的抗擊新冠肺炎大流行的疫苗將在多長(zhǎng)時(shí)間內(nèi)保持有效尚不清楚。
“目前,對(duì)于新冠病毒,我們認(rèn)為我們的模型可以迅速標(biāo)記出與以前看到的病毒序列有本質(zhì)區(qū)別的新序列,以便在實(shí)驗(yàn)室進(jìn)行進(jìn)一步測(cè)試?!? Berger告訴《中國(guó)科學(xué)報(bào)》,“你可以想象,模型能檢查每一個(gè)新序列,而改變超過(guò)一定閾值的序列就需要在實(shí)驗(yàn)室中進(jìn)行進(jìn)一步研究?!?/p>
初步證據(jù)表明,這種病毒的變異速度不像流感或HIV那么快。然而,研究人員最近發(fā)現(xiàn)了新加坡、南非和馬來(lái)西亞出現(xiàn)的新突變,他們認(rèn)為應(yīng)該對(duì)潛在的病毒逃逸進(jìn)行調(diào)查。
研究人員認(rèn)為,我們面臨的問(wèn)題仍然是新冠病毒的變異速度有多快。
“該病毒種類繁多,控制其復(fù)制的生物機(jī)制因人而異,所以盡管它們有共同的特征,人們?nèi)孕枰獙?duì)每種病毒進(jìn)行專門研究,以了解它們的突變率。”Bryson說(shuō),“我們最好的見(jiàn)解將來(lái)自于動(dòng)物感染模型,其中完整的免疫反應(yīng)是存在的,因此我們可以理解總的免疫壓力是如何影響病毒突變率的。之后,我們需要對(duì)新冠病毒感染者的病毒進(jìn)行測(cè)序,以識(shí)別感染這些人的病毒中存在的突變?!?/p>
此外,研究人員現(xiàn)在正與其他人合作,利用他們的模型確定癌癥疫苗的可能目標(biāo),從而刺激人體自身免疫系統(tǒng)摧毀腫瘤。他們說(shuō),它還可以用于設(shè)計(jì)小分子藥物,這種藥物可能不太可能引發(fā)結(jié)核病等疾病的耐藥性。
相關(guān)論文信息:https://doi.org/10.1126/science.abd7331
https://doi.org/10.1126/science.abf6894
返回黃鶴樓動(dòng)漫,查看更多。