如何公开自己的数据?

如何公开自己的数据?

Wei LiuWei Liu

前言

经过了漫长的数据整理和文章审稿过程,由我主要负责管理的大型公开心理-影像数据库(Southwest University Longitudinal Imaging Multimodal (SLIM) Brain Data Repository)与对应的介绍论文即将在《Scientific Data》上发表。该数据库包括了581名大学生在大学4年期间的3次磁共振记录的大脑数据及其心理行为变量,所耗费的磁共振扫描时间超过1000小时,行为实验时间超过3000小时。

(链接在这里:fcon_1000.projects.nitrc.org

1000小时的磁共振扫描实验加上3000小时的行为实验耗费了巨大的人力和财力上。为什么我们要公开如此庞大的数据?这其中需要做的工作又有哪些?我将在这篇文章中尽可能的介绍,希望对于也想公开自己研究数据的朋友有所帮助,共同为公开可重复的的研究环境有所贡献。

(1)为什么要公开数据

【1】 有效减少在数据采集,数据分析和数据报告中的学术不端行为

公开数据(以及研究计划本身)可以有效的减少学术不端行为。最简单的来说:既然可以公开原始数据,基本上说明与之有关的研究的数据并不是伪造的。(心理行为研究的数据其实也比较好伪造,但是基因和影像数据的伪造那就真的是技术活了。。。)再比如说:一些研究者会在数据报告的过程中会选择不报告一些自己不好解释的结果,但是数据一旦公开,网络上的每个人都可以自己探索这个数据库,那么,那些“非期望”的结果将会变得无所遁形。

【2】 为他人提供教育及研究所需的数据

教育方面:我们在学习某些数据分析方法的时候,有时候最头疼的在于没有第一手的数据可以练习。比如我经常听朋友说起,不去开始学习磁共振分析的一个理由就是自己没有数据。随着现在公开的数据库越来越多,能够自由下载的磁共振数据简直是几个硬盘都装不完。

研究方面:每个人可以利用公开的数据库发表自己的论文,只需要在致谢里面有所表示就可以了,使得本来需要数十万经费来进行的研究变得只需要电费就可以了。公开数据使得以前相当依赖于资金的研究变得触手可及,去年甚至有利用公开数据库(Human Connectome Project)发表的Science论文。

【3】 发表论文,获取引用数和国际影响力

我在和别的研究者讨论数据共享的时候,有一些人表示:我自己的数据,不留着自己发论文,要给别人用,我图个啥?其实,最直接的来说,可以发表一篇介绍你公开数据库的SCI论文,而且一般来说如果你的数据库足够优质,使用的人多,这篇文章的引用数会比较高,从而给实验室带来的国际影响力加成也是不容忽视的。

【4】 为自己研究的诚信提供支撑

(这一条真是实实在在的好处了。)如果在你投稿的论文里面申明所用的数据都已经公开,大部分时候会给审稿人留下较好的印象。大家会觉得你的研究编造以及滥用数据的可能性比较小,毕竟都大方的把数据都共享出来了,要查你的破绽简直是分分钟的事情。

(2)公开数据的渠道

【1】 数据共享平台

一般来说,自己架构数据共享平台难度比较大。(对于行为数据可能还好,对于神经影像,由于原始数据很大,没有专业平台,用户下载会有困难,所以可以使用业内常用的共享平台。

神经科学领域:(1)NeuroMorpho.org ; (2)Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI) ; (3)OpenfMRI;

社会科学领域:(1)Harvard Dataverse ; (2)UK Data Service ReShare ; (3)openICPSR;(4)Open Science Framework

其他领域可以查询NGP集团的推荐,基本所有的科研领域都有对应的数据共享平台 (Recommended Data Repositories

【2】 期刊

把数据共享以后,如果想发表对应文章同志,可以开始挑选期刊了。比较著名的有Nature Publication Group旗下的Scientific Data以及Elsevier 旗下的Data in Brief。其中Scientific Data 会在2017年收获第一个影响因子,预计不会低于3.0。

(3)具体实施步骤

【1】 与数据所有人沟通(通常是导师)

首先,我们要做的是和数据的所有人进行沟通,这个人通常是你的导师,或者是实验室的大导师。不要以为是自己收集的数据,所有权就是自己噢,擅自公开的话,导师连杀你的心都有。

沟通过程可能会有困难。这个时候,大家不妨少谈理想,多说说公开数据的实际好处。(比如增加国际影响力,增加自己实验室的诚信值等等)

【2】 按照有关的国际标准整理数据

得到了所有人的许可以后,第一个步骤就是整理数据。整理数据第一步就是隐私保护和匿名化。简单来说,需要你从头到尾把自己的数据检查一遍,有没有可能泄露被试隐私的东西。所有可以让第三方追溯到被试身份的信息都需要抹去。比如在磁共振数据中,被试的姓名,年龄,身高,体重等等会自动写入数据的底层,这个时候需要使用专业的软件来抹去这些底层信息。对于磁共振数据还有一个重点就是被试的面部特征也会被记录下来(也就是说,你可以看到被试长什么样子)。这个时候,需要使用特殊的工具抹去扫描的面部信息,防止被试被人认出来。

当所有隐私信息都被抹去以后,可以在网络上搜索学界公认的公开数据储存格式和方法。神经影像数据的存储方式可以登录此网站查看Brain Imaging Data Structure

【3】 联系数据共享平台进行数据上传和网页设计

数据都整理好了以后就可以上传了。这个时候需要和对应的数据平台联系(当然有的是全自动上传),在一个安全稳定快速的网络条件下上传数据。一般遇到了什么问题都是有专人解决的。

同时,可以对自己数据库的页面进行一些个性化的设计,包括数据库的logo等等。这个过程一般数据平台可以自动完成,或者有专人协助你。

【4】 数据库介绍文章的写作和投稿

数据库介绍文章的写作和一般的论文写作区别较大,主要包括以下几个重要部分

清晰描述:描述数据库的数据包括哪些部分,使用什么工具收集的,对应的任务或者问卷提供相应的参考文献

数据结构:主要介绍他人下载的数据包里面的各个文件夹是什么意思,包含哪些文件,文件名使用了简称的,更需要详细说明文件名具体是什么。

质量控制:为了让使用者相信你的数据是可靠的,需要报告一些质量控制的指标。比如说问卷的信度,效度,内部一致性;磁共振数据的信噪比,被试头动参数等等。

可能用途:如果把自己的数据库当做一个产品的话,这个部分你就要开始销售产品了。可以说说自己的数据库和别人的数据库相比有什么优势,可以用来做什么分析,可能解决的科学问题有哪些。

(4)已公开数据库的维护

【1】 与使用者的沟通

一般的方式是需要留下管理人员的电子邮箱信息,或者创建一个论坛。这样一来,当用户有使用上的问题时候,可以及时得到反馈和帮助。同时借此可能扩展实验室的外部联系与合作

【2】 不断完善他人使用所需要的辅助信息

通过和用户的沟通,我们可能会意识到有些用户需要的信息,我们并没有在数据共享的时候给出。这个时候,我们需要在网页上定时更新这些信息或者删去有误的信息。

文章被以下专栏收录
3 条评论
推荐阅读