技术详细介绍
随着二代测序技术在生命科学研究领域的广泛应用,生物学家们正面临生物大数据处理、分析的挑战,同时生物大数据也将成为生命科学领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。高通量测序技术的发展,推动序列数据的迅速增长,普通实验室也可以达到PT级生物测序数据量,如此大规模的数据的有效存储、高效分析、共享利用,都是我们面对的难题,对高性能计算也提出了严峻的挑战。目前已测序的物种也只是一小部分而已,已完成测序的物种相关数据的分析也不深入。在算法优化、软件并行化、流程自动化、大规模数据存储、处理及深度分析等层面,有亟待的工作需要广泛开展。针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等特点,云计算提供了一种有效的解决途径,云架构下的平台搭建,存储、计算软件开发,工作流框架正在不断发展完善,并在未来的生物大数据分析、存储方面发挥着重要作用。Docker 是 PaaS 提 供 商 dotCloud 提 供 的 一 款 基 于 LXC(LinuX Contai-ners)开源项目。生物大数据也具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)的“4V”大数据特点,Docker的便捷、高效的特点适应了生物大数据发展的需求,所以Docker生物云计算平台是应对生物大数据的最佳方案,本文Docker技术为基础进行了深入研究和探讨其在生物大数据分析方面的应用开发,并将开发的ubuntu14.04biodocker生物云计算平台应用于松材线虫的高通量测序数据个性化分析中,为分析、处理高通量测序产生的生物大数据提供一种方法和思路。
随着二代测序技术在生命科学研究领域的广泛应用,生物学家们正面临生物大数据处理、分析的挑战,同时生物大数据也将成为生命科学领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。高通量测序技术的发展,推动序列数据的迅速增长,普通实验室也可以达到PT级生物测序数据量,如此大规模的数据的有效存储、高效分析、共享利用,都是我们面对的难题,对高性能计算也提出了严峻的挑战。目前已测序的物种也只是一小部分而已,已完成测序的物种相关数据的分析也不深入。在算法优化、软件并行化、流程自动化、大规模数据存储、处理及深度分析等层面,有亟待的工作需要广泛开展。针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等特点,云计算提供了一种有效的解决途径,云架构下的平台搭建,存储、计算软件开发,工作流框架正在不断发展完善,并在未来的生物大数据分析、存储方面发挥着重要作用。Docker 是 PaaS 提 供 商 dotCloud 提 供 的 一 款 基 于 LXC(LinuX Contai-ners)开源项目。生物大数据也具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)的“4V”大数据特点,Docker的便捷、高效的特点适应了生物大数据发展的需求,所以Docker生物云计算平台是应对生物大数据的最佳方案,本文Docker技术为基础进行了深入研究和探讨其在生物大数据分析方面的应用开发,并将开发的ubuntu14.04biodocker生物云计算平台应用于松材线虫的高通量测序数据个性化分析中,为分析、处理高通量测序产生的生物大数据提供一种方法和思路。