如何保存生物信息学分析的实验笔记

客人的博客


这篇博文由客座博主Kate Palozola贡献蓝色基因在电脑前

传统的实验室笔记对生物信息学来说是不够的。所有种类的生物学家都在使用计算方法来分析大数据集(包括我自己),我们面临着找到最好的系统来记录这些类型的分析及其结果。我们擅长使用“传统的”实验室笔记本记录湿实验室实验;然而,跟踪计算工作带来了一系列新的挑战。计算分析的一个挑战是跟踪为什么你在做你该做的事。另一个常见的挑战是跟踪什么有效,什么无效。仔细的文件将保持您的任务,并将防止您迷失在广泛的信息学单词。

我是一名分子生物学家,几年前我的导师和我决定做一个大规模的rna序列分析时,我开始为我的论文项目编码。我从来没有在命令行上与计算机交互过,所以真的是从头开始。幸运的是,我们实验室的一位研究生和数据分析师主动教了我Python这是一种受到生物学家青睐的编程语言。几乎一开始,我就意识到我需要一个系统来跟踪我不断生成的文件。

我很快发现,没有一种方法可以保存一个虚拟的生物信息学实验室笔记本。事实上,有无数的方法,每个人都能找到自己的方法。在这里,我只是简单地列出了对我有用的方法,希望对刚刚开始学习的人有所帮助。这里建议的实践一开始可能看起来很乏味,特别是因为您想深入到计算中,但它们将在您执行一个又一个分析时很好地为您服务……

点击这里向Addgene博客投稿188博金宝官网

把每一项分析都当作实验室的湿实验

我使用文本编辑器TextWrangler为了记录以下内容,这些内容随后会打印到我的物理实验室笔记本上,以及从分析中生成的任何数字:

  • 目标:在开始之前,简要说明分析的目标,包括启发您执行此分析的其他分析的背景。为每个分析都有一个明确的、具体的目标,这将帮助你在未来找到相关的信息。
  • 方法:简要概述您将采取的帮助您计划分析的方法。没有必要进入很多细节-细节将在您运行的脚本中。相反,您可以在这里概述用于执行每个任务的逻辑和脚本以及输入文件。
  • 结论:一定要为你的分析写一个简短的结论,即使你的结论是“这个方法并不理想,因为……”为每个分析或任务都写一个结论,可以防止你在未来重复工作或犯类似的错误。

保持组织

目录样本表

  • 在顶部目录中建立一个目录:目录是计算机中的文件系统,只是文件夹的另一个名称。例如,Desktop目录包含您在桌面上看到的文件夹和文件。所有分析的主目录或文件夹的位置由您决定,但应该包含一个目录,列出可以在每个文件夹中找到哪些实验。这可以是一个简单的.txt文档。记录所有分析的名称、日期和位置(见上文)。
  • 给每个实验一个单独的目录:除了输出文件,您还可以在这里存储任何powerpoint、excel或其他与项目相关的文件。

样本读我的文本文件

  • 自述:txt文档是无价的。在每个实验的顶部目录,立即写一个文本文档,其中至少有目录内容的简要描述。这可能是也可能不是您记录目标、方法和结论的地方(参见上面)。
  • 将原始文件放在单独的文件夹中:您经常会在多个分析中使用相同的数据文件。不要每次使用这些文件时都将它们复制到您的工作目录(您当前工作的文件夹),而是将它们留在它们自己的文件夹中。这样做将确保您实际上在所有分析中使用相同的数据。对于脚本也是如此。

命名约定

  • 给每个实验一个数字:数字是一种简短、简单的命名文件的方法,以便您知道哪些文件放在一起。我也喜欢用数字系统而不是用日期作为标签,因为我经常在一天内做多个项目。例如,不要将文件命名为“output”,而是将文件命名为“1_output”,以便您知道该文件是实验1中执行的分析的输出。
  • 使用camelCase:camelCase,文件名中第一个单词之后的每个单词都以大写字母开头,单词之间不以空格分隔。包含多个单词的文件名应该用camelCaseFormat命名,因为每个单词之间的空格会使准确调用文件变得困难。
  • 版本控制你常用的脚本:如果您为单一用途编辑通用脚本,请将脚本保存为originalName_descriptionOfEdit,并将其保存在运行该脚本的相同目录中。这种技术会留下进一步帮助您跟踪确切更改的痕迹。或者,您可以简单地在方法部分中记录关于临时使用的编辑。只是要确保原始代码保持完整!

做笔记

  • 在你的脚本中注释:关于给定代码行的功能的注释对于刚刚开始编写代码的人来说非常有用,它有助于澄清代码的角色。
    • #这是一个python, R, perl和ruby的注释
    • //这是c++和Java中的注释
  • 命令行历史:通过记录所有输入的命令来跟踪命令行历史,对于仍然在学习基础的初学者来说是很有用的。然而,这些笔记占用了很大的空间,而且不会告诉你为什么你做了什么或者有什么结果,所以尽量不要这样做。

这些是我在自己的研究中试图遵循的简单规则。再次强调,其中一些可能不适用或不适合你。找到一个能做到这一点的系统的最好方法是通过试验和错误,并向他人征求建议。在下面的评论中加入你的建议吧!


非常感谢我们的客座博主Kate Palozola!


凯特Palozola凯特·帕洛佐拉目前是宾夕法尼亚大学的一名研究生。她对科学传播和表观遗传学特别感兴趣。在推特上关注她@kc_palozola

Addgene博客上的额外资源188博金宝官网

更多资源请访问Addgene.org

主题:其他杂项

留下你的评论

分享科学变得更容易了……订阅我们的博客

订阅
Baidu