在过去的14年里,科学家们一直在Addgene网站上寻找质粒。现在,科学家们开始将Addgene视为一个庞大的数据集。Addgene文库中有超过65000个质粒,每个质粒都经过测序验证,这使得该文库成为一个方便的序列数据来源。
麻省理工学院的一组科学家利用这些数据来了解合成生物学和DNA合成的趋势。他们在《自然通讯》上发表了一篇论文,宣布了一种新的生物信息学工具只要看基因的序列,就可以预测一个基因是天然的还是合成的.
麻省理工学院合作进行基因分类
这项调查始于尼尔·汤普森,他是麻省理工学院计算机科学和人工智能实验室的研究科学家,也是哈佛大学创新科学实验室的客座教授他想看看新的工具如何推动合成生物学的创新。汤普森说:“合成生物学,特别是DNA合成的能力,进化得如此之快,这是一个非常好的机会来研究它,看看当技术变化真的很快时会发生什么。”
为了做到这一点,汤普森联系了麻省理工学院合成生物学工程研究联盟的实验室。这就是Aditya Kunjapur当时他是麻省理工学院的一名研究生。该研究小组与当时来自TU München的访问研究生菲利普·芬斯塔格(Philipp Pfingstag)一起构建了一个算法,可以预测一个基因是合成的还是天然的,准确率高达97.7%。
将基因分为天然的或合成的
但是你怎么知道一个基因是合成的还是天然的呢?答案就在密码子使用的偏见不同的生物。不同的物种对它们使用的密码子有不同的偏好;即使两个物种编码相同的蛋白质,它们的基因序列也可能有或大或小的差异,这取决于这些物种的亲缘关系有多密切。如果一个基因完全像从一个生物体转移到另一个远亲生物体那样,这个基因可能不会很好地表达,因为这些不同的密码子使用偏见。但是,如果一个基因的序列被“优化”,使其更接近宿主有机体,它可能更有效地表达蛋白质。
为了将基因序列划分为天然的或合成的,研究人员查看了内在属性(GC含量或稀有密码子百分比)和比较属性(序列一致性百分比和查询覆盖率百分比),这些属性可以通过与参考序列数据库的比较确定。通过一系列模拟和机器学习,他们创建了一个分类器,在173个已知合成和自然基因的测试集中,预测一个基因是自然的还是合成的准确率为97.7%。
在设计和优化算法时,他们发现GC含量和稀有密码子百分比并不是很好的预测指标。许多生物体之间的GC含量差异不大,DNA合成公司的GC含量往往在一个狭窄的范围内工作。稀有密码子也不是很好的预测因子,因为它们就是:稀有。Kunjapur说:“自然界中有很多基因没有稀有密码子,也有很多基因有稀有密码子,有时它们会以我们还不太了解的方式有意地调节表达。”百分数序列的一致性则是另一回事——研究小组发现,天然基因和合成基因之间的百分数序列一致性可以清楚地预测该基因是合成的还是天然的。他们发现85%以下的序列同一性与合成序列相关。
然后,研究人员使用他们的分类器来识别Addgene数据库中的合成序列和自然序列。他们显示出从远亲生物体中寻找基因的趋势正在增长。2006年,在Addgene储存的基因中,合成的不到1%。但9年后,超过20%的基因是合成的。他们还发现Addgene库中最常见的表达系统是哺乳动物,但唯一基因序列的最大来源是变形菌纲——基因从变形菌纲转移到哺乳动物表达载体的频率最高。更广泛地说,他们的数据显示,自然基因序列越长,在实验室中转移到另一种生物的可能性就越小。
预测工程DNA的起源实验室
这并不是研究人员唯一一次使用Addgene作为大数据集。Alec a . K. Nielsen和Christopher a . Voigt最近也发布了一个工具(在Addgene质粒数据集上训练过)来预测工程DNA的起源实验室.这两个小组都开发出了强大的工具,在监测意外或有意的工程生物释放方面具有实际应用价值。“(有机体)是经过设计的吗?”它是从哪里来的?它是做什么的?这些都是人们希望通过生物监测工具来回答的问题。在生物工程和合成生物学迅速发展的时代,预测起源实验室和合成基因与自然基因是必不可少的和互补的工具。
参考文献
留下你的评论