模型应用|语言模型竟能追踪病毒
病毒可能比人们想象的更狡猾 , 它能不断伪装自己 , 逃避“疫苗猎人”的追捕 。
【模型应用|语言模型竟能追踪病毒】一直以来 , 研制流感、艾滋病疫苗之所以如此困难 , 原因之一便是这些病毒的变异非常迅速 。这使得它们可以通过一种被称为病毒逃逸的过程 , 避开特定疫苗产生的抗体 。
美国麻省理工学院研究人员现在设计了一种计算病毒逃逸的新模型 。该模型基于最初用来分析语言的模型 , 可以预测病毒表面蛋白的哪些部分更容易发生突变 , 从而使病毒能够逃逸 , 也可以识别出不太可能发生突变的部分 , 使它们成为新疫苗的靶标 。
“病毒逃逸是个大问题 。”麻省理工学院计算机科学与人工智能实验室教授Bonnie Berger说 , “流感病毒表面蛋白和HIV(艾滋病病毒)包膜表面蛋白引发的病毒逃逸是造成目前没有通用疫苗的主要原因 。这两种疾病每年都会导致数十万人死亡 。”
在1月15日发表于《科学》的一项研究中 , Berger及同事确定了流感、HIV和新冠病毒疫苗的可能目标 。研究人员还将该模型用于研究最近在英国和南非出现的新冠病毒新变种 。研究人员说 , 尚未经过同行评审的相关分析显示 , 这些病毒的基因序列应该被进一步调查 , 以确定它们是否有可能逃脱现有疫苗的影响 。
病毒也有语言
不同类型的病毒以不同速度发生基因突变 , HIV和流感是突变最快的病毒之一 。
“HIV和流感病毒突变得很快 , 这是它们生物学复制的结果 。例如 , HIV和流感遗传物质的复制机制很容易出错 , 从而导致突变 。”该研究通讯作者、麻省理工学院生物工程助理教授Bryan Bryson接受《中国科学报》采访时表示 。
为了让这些突变促进病毒逃逸 , 病毒必须改变其表面蛋白质的形状 , 这样抗体就不能再与它们结合 。然而 , 这种蛋白质不会发生使其失去功能的变化 。
Berger、Bryson以及研究生Brian Hie等人 , 决定使用一种被称为语言模型的计算模型进行建模 。这种模型来自自然语言处理(NLP)领域 , 最初被设计用来分析语言模式 , 特别是某些单词同时出现的频率 , 以预测哪些单词可以用来完成一个句子 , 比如要补全“萨莉在()中吃了鸡蛋” , NLP模型可能预测“早餐”或“午餐” 。
“我们对NLP语言模型的最新进展感到兴奋 , 这些模型可以通过学习原始文本理解人类语言 。于是 , 我们认为 , 由于病毒最丰富的数据是原始的病毒序列 , 我们也可以通过训练语言模型从病毒序列数据集中学习非常复杂的模式 。”Bryson说 。
当这种模型应用于生物信息 , 如基因序列时 , 其语法类似于确定特定序列编码的蛋白质是否具有功能 , 语义类似于确定蛋白质是否能够呈现新的形状 , 帮助它逃避抗体 。因此 , 使病毒能够逃脱的突变必须保持序列的语法性 , 但同时能以一种有用的方式改变蛋白质的结构 。
用序列训练模型
“病毒想要逃离人类的免疫系统 , 又不想因突变而死亡或无法复制 , 换句话说 , 它既想保持健康 , 又想充分伪装自己 , 以防被人体免疫系统检测到 。”Hie说 。
为模拟这一过程 , 研究人员训练了一个NLP模型分析基因序列中的模式 , 该模型可以预测具有新功能但仍遵循蛋白质结构生物学规则的新序列 。这样建模的一个显著优点是它只需要序列信息 , 这比获得蛋白质结构容易得多 。
推荐阅读
- 面试自我介绍加分技巧(面试自我介绍加分的方法)
- 苹果微信怎么加应用锁(苹果微信加应用锁怎么做)
- 汉语言学是学什么的(汉语言学学习的课程介绍)
- 失眠发朋友圈的语言(有关失眠发圈的话语介绍)
- 高情商的感谢语言(高情商的感谢的句子精选)
- 皖北|语言文化,饮食习惯相似的皖北与苏北,为什么没有选择“在一起”
- 苹果炉石传说总提示前往应用商店怎么办(苹果炉石传说怎么下载)
- 伤害人的语言说说心情(语言伤人的说说心情)
- 论文合著|每个月消失一种,本世纪末1500种语言或不再使用
- 微信如何查看授权的应用有哪些(怎么查看微信授权哪些应用)