期刊简介
本刊是由中国航天科工集团公司主管, 由航天科工集团十七所主办。它是仿真技术领域的综合性科技期刊。98年起已列入国家科技部中国科...【详细查看】
过刊浏览
信息公告
- 17/11深圳航天工业技术...
- 17/11中国航天科工集团...
- 17/11中国航天建设集团...
- 17/11关于集团公司改制...
- 17/11关于中国航天科工...
- 17/11中国航天科工集团...
- 17/11中国航天科工集团...
基于Spark的基因短序列比对模型
【出 处】:
【作 者】:冯晓龙 高静
【摘 要】针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行。通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对。计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析工作相兼容。实验结果证明计算模型具有较好的稳定性和可扩展性,在Spark集群上取得了优秀的加速比。