音讯 为什么hadoop非常适合基因组测序

为什么hadoop非常适合基因组测序

目录:

Anonim

临床基因组学是一门引人入胜的主题,人们在研究前沿技术以处理快速,准确的结果。 市场上有许多基因组测序仪,它们正在产生PB级的序列数据,而测序的增长将在不久的将来产生EB级的数据。 在这里,Hadoop是处理复杂基因组学工作流程的理想平台。 Hadoop可以存储和分类大量信息,还可以进行有意义的分析。 (要了解它真正需要多少数据,请阅读了解位,字节及其倍数。)

基因组学的现状与未来

如今,基因组作图已达到发展的顶峰。 与基因组学产业相关的许多人都充满了好奇心,随着新机遇的出现,时刻需要更好的技术。 基因组测序是一项非常重复且占用大量资源的任务。 仅在2013年,就产生了大约15 PB的数据,仅由2, 000个定序器产生。 这个令人jaw目结舌的数量包括300 KB测序的人类基因组数据。 以这种数据生产速度,可以估计到2018年,将生产大约1 EB的数据。 这是由于定序器的增长,每次运行将产生越来越多的数据。 另一个原因是功能强大且低成本的基因组测序仪的问世。 自2008年以来,这些机器的价格一直在稳步下降。 这是因为强大的下一代机器已进入市场。

基因组作图行业的需求

复杂的算法用于处理从人类基因组收集的数据。 然后,需要存储此信息。 将来可能会对其进行审查以与原始数据进行比较。 处理和存储100 GB数据的任务并不是很困难,特别是当您使用测序中心使用的强大机器进行处理时。 研究表明,这种数据量仅需大约1, 000个CPU小时即可处理,因此非常容易。 以这种技术进步的速度,很明显,基因组产业将在短短几秒钟内很快处理成千上万兆的数据。

为什么hadoop非常适合基因组测序