历经千难万险,终于来到了激动人心的文章发表,伴随着文章发表,如何上传数据,上传到数据库怎么选择,全英文看不懂怎么办等种种问题不禁让人忧虑。
在我们还在发愁如何在全英文+无人求助的情况下将组学数据上传至NCBI中时,大量国际期刊中出现了GSA编号(GSA:CRAxxxxxx),Genome Sequence Archive(GSA)这个更加便捷安全且操作简单的 “中国制造”组学数据归档库出现在大家的视野中。
GSA是由中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准,在功能上等同于NCBI的SRA,EBI的ENA和DDBJ的DRA。自上线以来,截止2023年4月中旬,GSA已接收近24.45P的数据递交,已成为Elsevier、Wiley、Taylor & Francis、Cell及Springer Nature出版集团指定的核酸数据归档库,并获得领域内国内外主流期刊的认可。
图1.GSA数据库封面
下面话不多说,和小编一起将组学数据上传至GSA吧!!(超详细步骤!!!!)
一、账号注册
首先进入网站进行账号注册:
https://ngdc.cncb.ac.cn/sso/login?service=https://ngdc.cncb.ac.cn/gsub/login
填写邮箱、单位等基本信息后即可完成注册。
图2.账号注册
二、填写数据相关信息
基本的数据信息填写,可以分为以下三步:
图3.数据上传简图
(1)创建BioProject
登陆账号后,点击BioProject后再点击BioSample,依次填写下述信息:
提交者信息(注意要用英文填写);
基本信息(即项目的基本情况);
项目类型(项目数据类型及样本范围);
出版信息(选填);
概览&提交(检查无误后提交)。
图4.BioProject概述
(2)创建BioSample
BioSample是描述样本相关的基本信息,依次填写:
提交者信息(与BioProject提交者信息保持一致);
基本信息(设置与BioProject一致的发布日期);
样本类型(根据组学数据类型进行选择);
图5.BioSample概述
样本属性。
这里我们以植物样本属性填写为例,如图下载模版文件,表格中绿色列为必填项,灰色列为非必填项,可以为空。填写后的表格上传至此页面进行校验,校验通过后,在⑤概览&提交进行检查后,可提交审核。
图6.样本属性填写
(3)创建GSA
点击Genome Sequence Archive,新建GSA,填写如下信息:
提交者信息;
基本信息填写与BioProject保持一致,样本信息选择已经创建好GSA相关的BioSample信息。
图7.GSA创建
元数据信息需下载模板文件进行填写(模板文件分为Experiment,run两个表格),其中绿色为必填项,run文件中的File name需为包括后缀的完整文件名,如A_1.fa.gz,fastq仅支持gzip和bzip2压缩格式;BAM格式无需压缩,可以直接上传;PacBio sequel或Ion Torrent系列测序仪可上传tar格式。还需保证MD5 checksum正确无误。
图8.元数据表格填写
Tips:
MD5值可以校验数据是否完整,是一个32个字符的字母数字字符串。
Linux系统的用户可通过运行md5sum计算MD5值:Windows用户需下载第三方程序计算MD5值。
三、GSA数据上传
数据上传支持Aspera、Ftp、邮寄三种方式,如果有服务器的话,推荐使用Aspera进行数据上传(选择上传方式后,网站都附有详细的操作说明)。
(1)FTP
图9.FTP数据上传
(2)Asprea--推荐
在服务器使用官网提供的命令行,修改数据文件的绝对路径即可一键上传。
图10.Asprea数据上传
在数据上传并审核通过后,会显示提交后状态,这样我们的数据就上传成功了。
图11.上传成功图
行百里者半九十,数据的上传就是文章发表的最后一步;同时所有组学分析的基础都是原始数据,因此存储好原始数据,提前做好数据上传的准备工作,表格按要求填写,可以为文章发表提供助力。