新病毒|超十万种新病毒藏身旧基因数据

现实告诉人们 , 仅仅一种病毒就能使世界经济陷入瘫痪 , 导致数百万人死亡 。而病毒学家估计 , 目前仍存在数万亿种未知病毒 , 其中许多是致命的 , 可能引发下一次疫情大流行 。
最近 , 通过对数量空前的现有基因组数据进行筛选 , 科学家发现了10万多种新病毒 , 其中包括9种冠状病毒和300多种与丁型肝炎病毒(可导致肝衰竭)有关的病毒 。日前 , 相关成果发表于《自然》 。
2020年初 , 加拿大计算生物学家Artem Babaian想知道 , 除了引发新冠肺炎疫情的病毒之外 , 现有的基因组数据库中还有多少种冠状病毒 。因此 , 他和超级计算机专家Jeff Taylor搜集了云基因组数据 。这些数据被存储在全球序列数据库中 , 由美国国立卫生研究院研究所上传 。截至目前 , 该数据库包含了16拍字节的存档序列 。
为了筛选大量数据 , Babaian和Taylor设计了一套专门用于搜索云数据的计算机工具 。该方法速度足够快 , 每天可以处理100万个数据集 , 每个数据集的计算成本不到1美分 。他们最终发现了近13.2万个RNA病毒的部分基因组 。
新数据库并没有每种新病毒的完整序列 , 但研究人员可以利用部分序列来构建家谱 , 从而揭示不同病毒之间的关系 , 以及它们是如何进化的 。他们还可以利用数据库找出特定病毒的发现地点和宿主 。
【新病毒|超十万种新病毒藏身旧基因数据】“我们已经把这个数据库变成了一个巨大的病毒监控网络 。”Babaian说 。团队已经创建了一个公共存储库 , 存储开发的工具及相应结果 , 以方便其他人使用 。(文乐乐)

    推荐阅读