中国基因网您的位置:首页 >医学 >

GA4GH流媒体API为现代基因组数据处理的未来奠定了基础

全球基因组学与健康联盟(GA4GH)的大规模基因组学工作流已宣布其htsget协议的八个新实施,该协议于2017年10月发布,用于在线访问大规模基因组测序数据而无需使用文件传输。本周在线发表在Bioinformatics期刊上的论文中报告了协议和互操作性测试。

GA4GH流媒体API为现代基因组数据处理的未来奠定了基础

解决诸如癌症和糖尿病等常见疾病的基石是能够比较数千个个体的基因组序列以识别复发的遗传变异。由于没有任何一个机构可以自行积累这样的数据集,因此组织跨越传统边界共享信息至关重要。

从历史上看,这是通过使用标准化文件格式完成的:在一个机构生成的文件可以下载并与其他机构的文件集成,因为它们使用相同的格式。

自21世纪后期以来,这种方式运作良好,当时这些格式是作为国际1000基因组计划的一部分开发的,它们实现了可互操作的序列分析工具和管道的全球生态系统。

但这个领域正在发生变化。基因组学正在从研究工作转向在常规临床护理中更广泛实施的工作;数据集将如此之大,以至于当前的系统孤立文件系统模型将不足以实现全局共享和协作。

EMBL-EBI主任,GA4GH主席Ewan Birney表示,“在未来五年内将提供包含数亿甚至数十万个序列的数据集,并且共享这样大小的文件是不现实的。”“用户必须下载太字节大小的文件才能访问基因组序列的一小部分数据。”

与此同时,世界正在发生变化 - 从电影到财务数据,无数领域正在从传统的基于文件的数据存储和处理方法转向更现代,大数据,基于云的方法。基因组学必须效仿,但并非不牺牲当前使数据可互操作的标准。

“我们不会试图取代现有的文件格式,”EMBA-EBI的EGA团队负责人和档案基础设施的负责人,GA4GH大规模基因组工作流及其htsget任务团队的共同主席Thomas Keane说。“这样做需要调整每一种生物信息学工具,以处理目前与这些格式兼容的数据。”

相反,htsget为研究人员提供了一致的协议,以访问存储在不同存储库中的数据 - 无论是基于大型公共云还是更传统的基础架构。它还包括强大的安全和身份验证机制,这是敏感数据的关键。

它可以有效地用于非常大的数据集,并且因为它使用现有的标准来传输数据,所以它可以很容易地集成到当前的管道和分析方法中。用户可以使用htsget仅下载他们感兴趣的基因组序列的子部分而不是整个文件,或者他们可以将整个基因组下载为分布在多个不同机器上的一系列“数据切片”。

“我们认为这是未来的桥梁,”GA4GH htsget团队规范维护人员Mike Lin说。“这是将当前基于文件的管道和存储库升级为更具互操作性,基于API的架构的渐进途径 - 这一直是GA4GH的基本愿景。”

Lin将于7月24日主持网络研讨会,介绍协议并回答有关广大社区实施的问题。欢迎任何有兴趣了解htsget以及如何在生物信息学管道中实施该计划的人士参加。在这里注册。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。