用SnapGene的特征数据库识别序列元素

客人的博客

客人的博客2017年12月21日

本文由SnapGene的客座博主Aline和Benjamin Glick贡献。

SnapGene是为了满足需求而创建的。虽然生物医学研究人员每天都可以使用软件工具来操纵DNA序列，但许多人发现这些工具不足以规划、可视化和记录他们的程序。克隆策略设计中可预防的错误使实验推迟了几天甚至几周。底漆的设计是精心手工完成的。质粒构建的记录往往不完整或不存在。在21世纪，许多分子生物学家不知道他们所使用的DNA分子的完整序列或性质。

SnapGene的创建是为了通过良好的软件设计来缓解这些问题。但是是什么让软件变得好呢?幸运的是，这个问题已经被人机交互(HCI)方面的专家彻底回答了，我们也严格遵守了HCI原则。对于每一个任务，我们都设想用户想要做什么，并尽可能直观和轻松地实现他们的目标。我们将最重要的控制放在前端和中心位置，并在需要时提供专门的控制。SnapGene被设计成易于使用和令人愉快。具有这些品质的软件开发是一个持续进行的过程，包括响应客户反馈的迭代改进。

这种方法的一个例子是SnapGene用于检测共同特征的算法。这种算法实现了SnapGene最受欢迎的功能之一，即注释原始质粒序列并显示常用基因和控制元素的能力。开发这个工具需要创建一个通用特性的数据库，并设计识别特性的规则，即使匹配不完美。

SnapGene特性数据库

共同特征的来源是我们收集的受欢迎的质粒序列．这些质粒包含抗生素耐药性标记和复制起源等特征，但由于遗传漂变和来自不同微生物菌株的基因的使用，特征序列存在广泛的异质性。事实证明，把一个特征的每一个变体都分类是不切实际的。相反，我们识别了常见的变异，然后制作了一个检测算法，可以容忍偶尔的不匹配或插入。经验检验表明，在检测参考特征时，要求至少96%的序列一致性是合理的规则。对于可能用于合成融合基因的编码序列特征，即使在特征的开头或结尾有一两个密码子缺失，也需要进行检测。随着基因合成的日益普及，许多研究人员现在使用密码子优化版本的共同编码序列特征，所以我们的检测系统被加强，允许搜索一个完美的蛋白质序列匹配，即使DNA序列已经改变。

质粒控制元件的识别

编码序列特征的定义相对简单，但对于启动子和转录终止子等控制元件，其边界不太明显。我们发现在商业质粒中注释的控制元件的边界是不一致的，有时是明显错误的。为了做到严谨，我们深入研究了原始文献，其中一些已有几十年的历史，以提供可靠的特征注释。

即使付出了大量的努力，这种算法也有局限性。例如，如果序列差异超过阈值，它可能会错过一个共同特性。这个问题可以通过向数据库中添加更多的变体来解决。另一个限制是，由于容忍不匹配，我们的算法可能会不准确地注释特征。最好的例子是荧光蛋白，它们通常有密切相关金宝搏app下载的版本，但性质不同。为了防止错误识别，我们增加了新的荧光蛋白变体数据库。

DNA特征识别的未来

下一个通用特性是什么?我们计划继续更新特性数据库。为Addgene.org上的质粒图谱提供动力与SnapGene服务器是有用的，因为它帮助我们找到需要添加到数据库中的共同特征。我们将通过Addgene网站填补质粒中的任何共同注释空白。此外，还有两项倡议正在筹备中。首先，既然SnapGene支持“Collections”，这是DNA和蛋白质序列的共享数据库，下一步是增强Collections，以便一组或组织可以从定制共同特征的共享数据库中注释他们的序列。第二，客户要求一种方法来注释新测序的细菌或病毒株的基因组。我们正在研究一种方法，让SnapGene用户通过我们的错配容错检测算法，将参考菌株的特征应用到新测序的菌株，从而加快注释过程。

许多最好的想法来自于与软件用户的接触。我们欢迎任何使用通用功能的人提供建议SnapGene或者是免费的SnapGene查看器配套产品。如果你还没有使用SnapGene，你可以下载一个免费试用．如果您注意到我们的数据库丢失了一个特性，或者您看到了以一种新的方式利用共同特性检测的机会，请联系我们在snapgene.com．

非常感谢来自SnapGene的嘉宾博客Aline和Benjamin Glick !

Ben Glick是SnapGene的总裁和首席科学家，也是芝加哥大学的分子遗传学和细胞生物学教授。他是Addgene的早期存款人，他构想了SnapGene，因为他需要它用于自己的实验室。