使用BLAST验证质粒的提示

由Jason Niehaus

杰森Niehaus

科学家从冰箱里取样本这篇文章于2017年12月4日更新。

在Addgene,我们持续使用NCBI提供的基本局部比对搜索工具(BLAST)。BLAST帮助我们将我们库中质粒的测序结果与已知的参考序列进行比较,例如将质粒存放在我们这里的实验室提供的完整质粒序列或NCBI众多数据库中的其他条目。

随着我们的资料库多年来不断增长(我们现在有超过60000个质粒!),作为我们质量控制过程的一部分,我们分析的测序结果数量也在稳步增长。在繁忙的一周,我们可能需要分析超过200个质粒,作为质量控制过程的一部分。因此,我们的团队优化了BLAST网页浏览器界面的使用,使其尽可能高效。

如果你发现自己经常BLAST网站验证质粒或者验证你的新克隆,试试这些技巧,充分利用你的时间和序列!你可能也会喜欢看看我们的质量控制流程随着下一代测序的引入而改变!

订阅质粒博客!

选择BLAST项目

在现有的5个BLAST程序中,我们主要使用标准核苷酸BLAST (blastn)、标准蛋白BLAST (blastp)和翻译BLAST (blastx)。NCBI有一个很棒的BLAST入门指南,其中包括对不同的BLAST程序、数据库和BLAST搜索页面元素的简单解释。

在Addgene,我们使用blastn来识别Sanger序列中的任何差异,如错配、缺失或插入。我们使用blastp或blastx将我们的测序结果与蛋白质序列进行比较,以检查开放阅读框(ORFs),并确定任何核苷酸差异的潜在影响。blastp和blastx程序的优化方式不同,您可能希望根据您想要验证的信息选择一个(或同时选择两个)。我们将在下面深入研究这些差异。

优化blastn搜索

标准核苷酸爆炸页面,要做的第一个决定是是否将Sanger测序结果与单个已知参考序列或BLAST序列数据库进行比较。如果您知道预期的核苷酸序列,勾选“对齐两个或多个序列”复选框,并将参考序列粘贴到出现的主题序列框中。比对两个核苷酸序列可能是执行BLAST搜索最快的方法,与其他类型的BLAST搜索相比,可以节省您的时间。

blast排列多个序列

如果您不知道结果的确切参考序列,请从下拉菜单中选择BLAST序列数据库之一。通常,我们使用默认的核苷酸数据库“nucleotide collection (nr/nt)”,因为它包含了GenBank、EMBL、DDBJ和PDB序列的组合,可能是最全面的搜索。

blastn数据库选择

省时提示#1:如果你知道你的测序结果应该匹配的物种,在有机体框中输入通用或科学名称。这一小段信息可以显著减少blastn、blastp和blastx搜索的等待时间!

blastn生物选择

现在,在你点击BLAST按钮之前,考虑Program Selection参数,因为这将影响执行搜索的时间以及整体对齐结果。默认设置是“优化高度相似序列(megablast)”,这是非常快的,当您的序列和引用/数据库序列之间的身份≥95%时工作得最好。[如果我们95%的结果都是正确的,我们的QC过程将是没有问题的,而且更快!]

由于Sanger测序反应是不完美的,而且接近反应开始或结束的序列通常是不可靠的,我们建议对blastn使用“Somewhat similar sequences (blastn)”程序,这样你就可以从你的结果中提取几乎每一个可靠的碱基对。

blastn程序选择

这个选项不如megablast快,但可以返回更长的对齐,以与您的排序跟踪文件进行比较。与megablast不同,常规的blast程序使用更小的单词大小和更低的对不匹配和对齐间隙的评分惩罚。如果你对爆破项目的不同感到好奇,请查看爆炸帮助网页

优化blastx搜索

一旦你使用爆破为了确定Sanger测序结果的可靠部分,并注意到核苷酸序列中任何潜在的不匹配或缺口,您可以运行翻译爆炸(blastx)搜索以检查预期的orf、突变或截断。blastx的一个主要优势是,你不必为你的测序结果决定一个读取帧——blastx会在数据库中检查所有6个可能的帧。另一个好处是,当观察blastx结果时,ORF中出现的帧移突变很明显。

blastx数据库选择

当使用blastx在Addgene,我们使用默认的“非冗余蛋白序列(nr)”数据库,因为它包含最多的蛋白质序列。就在BLAST按钮下面,你可能已经注意到“算法参数”链接。点击这个链接查看高级BLAST选项和我们建议的blastx定制。类似于核苷酸序列,蛋白质通常有重复或高度同源的区域,默认情况下在标准blastx搜索中被忽略。忽略重复区域的比对可能会令人困惑,比如当你试图验证一个基因的起始蛋氨酸时,blastx的结果是从一个更远端的氨基酸开始比对的。我们始终在未检查“低复杂度区域”过滤器的情况下运行blastx搜索,以便将这些区域包含在搜索中,以最大限度地提高对齐长度。虽然这个建议不是绝对正确的,但我们发现删除这个默认设置可以节省分析时间。

低复杂度过滤器

节省时间的技巧#2:blastx搜索天生就比blastn或blastp慢,这是由于在将核苷酸序列翻译成所有六个可能的阅读框架时需要额外的搜索。如果您知道预期的蛋白质序列,请使用“对齐两个或多个序列”选项,以大大减少等待搜索结果的时间。

优化blastp搜索

这取决于测序结果,我们经常选择标准蛋白和blastx搜索以验证质粒中预期的蛋白序列。如果您知道为您的测序结果选择哪个阅读框,并且可以轻松地翻译它,我们建议使用blastp而不是blastx。主要的优点是节省时间,但附加的好处是,blastp搜索在默认情况下不会过滤低复杂度区域,这意味着您不必记住调整任何blastp算法参数。我们使用默认的评分矩阵BLOSUM62,但是您可能想检查其他矩阵看看是否有另一个对你的搜索更有利。

blastp数据库选择

省时提示#3:请注意,可用的蛋白质数据库不太可能有一个你最喜欢的基因融合到一个表位标签或融合蛋白的确切条目。如果您的测序引物被选择来确认标签或融合蛋白在框架内,我们建议使用带有“对齐两个或多个序列”选项的blastx,并将您预期的蛋白序列粘贴到受试者序列框中。

爆炸的替代品

根据您的测序结果和所需的分析,BLAST可能并不总是您的最佳选择。对于BLAST无法处理的复杂序列比对,Clustal是我们对核苷酸或蛋白质序列的成对或多重序列比对的常用选择。我们也使用用于比对多个蛋白质序列,特别是用于比较不同的异构体。除了我们的最爱,还有一些序列对齐工具可用。

尝试这些资源列表的替代BLAST:

爆破快乐!

您对使用BLAST来确认您的质粒测序结果有什么建议或者对我们的建议有什么意见吗?在这里分享你的想法,以帮助其他实验室加快他们的质粒和克隆验证步骤,并腾出更多的时间来使用你的质粒!

点击下载Addgene's plasmids101电子书


所有BLAST图像都是修改后的屏幕截图NCBI BLAST网站

额外的Addgene博客的资源:188博金宝官网

在Addgene.org上的资源

主题:分子生物学协议和提示质粒

留下你的评论

分享科学变得更容易了……订阅我们的博客

订阅
Baidu