这篇文章Jim Woodgett贡献。
公共科学图书馆(PLOS)今年早些时候宣布了其数据访问和共享政策,引起了轰动。自3月初以来,这家开放获取出版商要求作者附上一份说明,说明读者可以将支持《公共科学图书馆》出版物中报告的研究的数据放在哪里。这项政策并不是一夜之间公布的,而是研究人员和出版商协商的结果。尽管如此,最初的发布引起了一场风暴,因为该组织没有回答多少数据是必要和合理的问题。公共科学图书馆有澄清了他们的数据共享政策最近宣布,在申报后处理的16000份稿件中,只有一小部分(<1%)的作者就政策的范围征求意见。故事结束了吗?不完全是。
公共科学图书馆关于数据访问的政策是一个正式的声明,许多其他期刊和一些资助机构(如维康基金会、NIH数据共享政策,等等),并建立在科学出版物必须包含足够的信息(或链接到信息)的原则,以评估得出的结论的准确性。与公共科学图书馆政策的主要区别是,这些数据的访问是在提交手稿时进行的。其基本原理包括提高审稿人(以及一旦发表的任何人)检测假设中可能出现的错误、使用不恰当的统计方法、遗漏某些数据等的能力。
该政策实施后引起的轩然大波包括许多反对意见和关切。也许最不吸引人的是那些想要更多时间挖掘自己数据的研究人员,一些较小的实验室认为,更大、资源更好的团队将收获和重新分析他们的数据,而对最初的贡献者的认可有限。这在某种程度上是可能的——但这就是出版的代价。谁能说最初的数据生成实验室已经有效地收集了他们自己的数据?一个不同的(也许是同样贫困的)实验室可能会使用不同的或新颖的工具和假设,揭示出发起者没有注意到的发现,不管他们有多少时间。可以说,根据这项政策,数据生成器可能会在数据发布之前保留更长的时间。但出版有强大的动机,比如优先、认可和“生产力”,所以这是不可能的。通常情况下,原始科学家及其同事有权提前数月或数年查看自己的数据。在某些情况下,通常是涉及基因组筛查的联盟,数据流是如此丰富,以至于原始信息可以同时提供给所有人,包括生成器。这种做法似乎不会伤害原始的研究人员,即使他们偶尔被殴打,因为有太多的分析可能。 Most scientists are, however, privileged in having exclusive access to data and enjoy reasonable time to make sense of it, with their decision to publish setting the clock for others to dive in.
使数据可访问的真正成本
研究人员对数据政策提出了一个更合理的担忧,他们担心如何使底层数据易于获取,以一种其他人可以理解的形式组织起来,并平衡此类数据可能被访问的频率。除此之外,策略还要求数据对匿名请求是可用的。这意味着支持的数据集必须在逻辑上注释和安排,就像在实际发布中一样,而不需要与数据作者进行交互。在某些类型的研究中,原始数据需要大量的存储空间。例如,老鼠行为遗传学家可以通过视频跟踪多个动物在不同场合的运动,产生大量的数据。当发表时,这些数据通常被压缩成一组统计评估值。然而,为了评估实验的解释,需要访问每个单独的视频。值得赞扬的是,该组织随后澄清了政策意图,并提供了FAQ列表进一步解释此政策.事实上,现在很少有作者质疑应该包含什么内容,这表明他们采取了务实的做法(尽管可能会有不同的作者选择在其他地方提交)。因此,科学界的大多数人并不反对提供数据,但仍然担心这可能需要额外的工作。
因此,如果访问数据很重要,那么应该包括哪些数据?
我们应该认识到,以可共享的形式存储数据确实是一项重要的工作。我们的数据记录标准是高度可变的,通常留给个别研究人员。然而,准确和可理解的数据组织对于高效的科学至关重要。我们在数据注释和归档方面的改进可能会改善研究。发表的内容通常只是实际执行内容的一小部分。虽然没有人建议所有数据都以可检索的格式存储,但我们很少保留任何形式的“原始”数据,这些数据可以由实际作者以外的人解析。相反,选择的图像被认为是具有代表性的,或者统计变化被计算并放置在图例中。广泛报道的复制实验数据的困难可能是,至少部分是由于我们对如何获得结果的编目不足,而这本身就是增加数据可访问性和方法细节的合理动机。出版商也对这一问题做出了贡献,他们要求越来越精简的方法描述、图例和数字数量的限制,许多都有多个复杂的面板。
公共科学图书馆本身还没有最终确定必要数据需求的定义,可能也不会这样做(鉴于数据类型无穷无尽,称之为“西西弗斯任务”)。相反,公共科学图书馆似乎将数据共享的范围留给了个人作者。最低限度地,原始但足够注释的数据,用于创建图表和表格的论文是在范围内。对于图像,支持已发表材料的示例数量是实用性的一个因素(给定图像大小),但图像应该未经处理并采用捕获格式。这就引出了另一个专有数据格式的问题。许多仪器以需要特定的(昂贵的)软件的格式存储原始数据,这些软件随着时间的推移而发展,使得以前的格式不再受支持/可读。作者或他们的宿主机构是否希望提供导出到通用文件类型的格式的数据?数据应该存档多长时间?
简化数据访问
上面提到的一些问题可以通过SlideShare、Figshare和Dataverse等在线服务来缓解。就像Addgene帮助DNA试剂一样,这些资源可以减轻数据存储和分发的负担。我认为日记本身应该承担储存的主要责任。如果数据集太大而不能转移到期刊存储库,那么它们很可能太大而不能被其他人检索。其他新的数据计划也正在生根发芽。自然出版集团最近推出了名为《科学数据》的出版物,它的目标是作为一个同行评议的“科学价值”数据集资料库。可能很快就会出现其他能够有效搜索和提取信息的数据存储库。
再往前看一点,期刊可能会鼓励作者将数据集与他们的结果数据结合起来。与其提供一个“死胡同”的数字或表格,还不如点击已发布的图表,揭示潜在的数据,并允许其他“动态”分析。通过触摸界面,这变得更加直观,查看者更有可能想要操纵他们查看信息的方式。我们已经习惯了出版物呈现的是一种精致的、标准的、通常是有限的数据观点。除了提高数据收集和解释的准确性外,发布完整的数据,而不仅仅是单一的数据投影,可以在现有已发表数据的基础上产生和扩展想法。
数据共享的重要性
这个课题对我的实验室很重要的原因有三。首先,我们依靠许多其他实验室教我们如何做实验和理解他们的数据。同样,我们也想帮助别人理解我们。改善获取数据的途径可以促进传播,特别是对那些可能因不得不与更资深的同事接触而感到害怕的年轻研究人员。其次,科学是高度技术性的,这有一种自然的、尽管是无意的、不利于透明度的倾向。这使得科学受到精英主义的指责,科学家们也躲在我们的术语和深奥知识背后。公众对科学的信任和资助如果被认为是在黑暗中进行的,就不会得到满足。最后,数据是我们的原始产品。如果我们对游戏的发行方式不感兴趣,我们就有可能不得不满足发行商和资助者善意但不切实际的要求。
显然,确保我们的数据可复制并对他人有用符合我们的利益,加强这些属性的努力应该受到欢迎。然而,期望也必须是合理的,对数据类型敏感,并尽可能使作者和读者都感到方便。使有效的数据共享成为规范,应该为研究开辟新的机会,并增加透明度,而不是增加需求。
感谢我们的客座博主!
Jim Woodgett是加拿大多伦多西奈山医院Lunenfeld-Tanenbaum研究所的研究主任,他在那里研究与人类疾病有关的蛋白-丝氨酸/苏氨酸激酶。他的业余时间都花在努力提高GSK-3的α亚型达到与β亚型相同的(应得的)高度。在推特上关注他@jwoodgett.
更多关于数据共享的讨论:
- 公共科学图书馆数据共享政策讨论
- 美国科技政策办公室(OSTP)备忘录
- 增加获得联邦资助的科学研究成果的机会(2013年2月22日)
- 增加获得联邦资助的科学研究成果的机会(2013年2月22日)
- 谁将为公众获取研究数据付费?——弗朗辛·伯曼和文特·瑟夫(《科学》,2013年8月)
- PLOS的大胆数据政策——大卫·克罗蒂(《学术厨房》)
阅读更多Addgen188博金宝官网e博客文章关于科学共享
留下你的评论