技术详细介绍
1. 课题来源与背景 大数据已经成为推动信息产业发展的重要支柱,国内外学术界和工业界纷纷提出了各种通用的大数据系统和平台。然而通用平台在安全监控、金融风控、互联网应用等特定领域中,对包括海量历史数据和海量实时数据的混合时态大数据融合处理的功能和性能仍然难以满足业务需求。 课题组基于多年来在数据库和分布式系统方面的研究基础,在多项国家和省部级项目的支持下,研发了新型的海量混合时态数据并行处理关键技术及应用,解决了在大数据安全监控领域的实时大数据分析的诸多技术挑战。 2. 研究目的与意义 针对现有并行处理平台和框架计算表达力弱、可扩展性差、缺乏有效数据探索手段等缺点,基于Actor模型并行理论的突破,研发新的同步、异步相混合的并行处理平台,同时支持离线式的批量大数据处理和实时流式大数据分析,提供可视化编程接口、流立方体等关键性大数据处理技术。课题研究成果将极大推动异构大数据并行计算的基础研究和应用,对建立符合我国国情的大数据生态圈具有重要意义。 3. 主要论点与依据 主要研究了Amdahl理论中并行处理的瓶颈问题以及多时态混合的情况下的异构数据处理模型。并行处理最大的性能瓶颈同时也是阻碍任何并行系统达到线性可扩展特性的根本在于机器间的信息同步,而Actor模型则提供灵活的同步、异步混合执行模式,从根本上降低了同步的需求。另一方面,Actor模型提供多种执行策略,支持多时态的异构数据处理,综合历史数据分析结果和数据流处理结果,实时分析、预测大数据趋势和事件。课题组充分研究Actor模型的特征,并以其为理论基础研发了新型的并行处理引擎epiC。面向各种应用,课题组以epiC作为核心构建了完整的并行数据分析平台,该平台能同时支持批量数据处理和实时流数据处理,提供强大的接近线性可扩展的计算能力,支持计算密集型和数据密集型分析。以epiC为核心,课题研发了大数据批量分析平台和实时流处理平台,在网易、银联商务、连连支付、平安银行、快钱等单位获得了广泛应用。 4. 创见与创新 创新性技术一:epiC并行处理引擎 传统的并行处理引擎难以达到线性可扩展性,即无法通过增加N个计算节点来达到增强N倍计算能力。这主要是因为其计算模型复杂,造成了同步代价过高。为此,课题组研发了新型的支持多时态异构大数据并行处理的epiC 引擎,其兼容流行的MapReduce、Pregel的并行处理引擎,性能超过谷歌MapReduce十倍,是谷歌Pregel的两倍以上;同时支持批量同步并行、批量异步并行、实时异步并行、实时混合模式并行等多种并行处理模型;引擎提供数据动态划分、逆向缓存、基于SLA的调度等优化技术。epiC研究成果位于国际领先地位,并获得了国际数据库顶级会议VLDB 2014年的最佳论文奖,是该会议创办 30 多年来中国大陆学者首次获奖。在该领域获发明专利授权3项,软件著作权1项, 发表学术论文 10 篇。 创新性技术二:面向混合时态大数据的可视化分析技术 大数据平台和技术面向的是开发人员,而最终大数据的结果面向的则是行业专家,这其中存在认知上、技术上的代沟。为了解决这种大数据应用代沟,课题组面向批量处理的可视化大数据分析技术,提供直观的交互方式,将复杂的大数据分析转化为可视化的数据探索;研发了可视化编程语言,能直观的描述数据分析任务;创新的采用了计算竞标方式的查询优化策略,将任务自动优化为多个epiC工作流进行调度处理;处理结果通过实时渲染技术和自动报表匹配技术返回给用户。在该领域获发明专利授权4项,发表学术论文 5 篇。研究成果获得国际顶级会议SIGMOD 2015最佳论文提名。 创新性技术三:大数据实时流立方技术 监控类大数据分析应用对实时处理的要求极高,目前的处理技术往往采用批量式的处理方式,无法提高实时分析结果。本课题面向实时处理的流立方技术,提供毫秒级的大数据分析处理支持,数据吞吐量达到每秒10GB以上;支持多种分析聚合操作的并行、串行操作,支持自定义分析算子和重构算子;基于算子的闭包特性,提供面向特定应用的分析模型定义工具,模型通过编译为流立方算法,自动分发到节点上进行并行处理。在该领域获发明专利授权3项,软件著作权3项,发表学术论文 5 篇。研究成果获得国际顶级会议ICDE 2012优秀论文奖。 5. 社会经济效益 该成果在互联网领域广泛应用,为网易云音乐、考拉海购等业务系统提供技术支撑,保障了上述业务的快速增长。在金融领域,该成果应用于银联商务、连连支付、平安银行等十多家单位的实时信用评估、风控反欺诈等关键业务。成果直接服务用户累计达数十亿人次,近三年新增产值5亿元,新增利润2.2亿元。 成果的研究工作在VLDB、ICDE、SIGMOD、TKDE等大数据领域的顶级国际学术会议和期刊上发表,获得VLDB 2014最佳论文奖、ICDE 2012优秀论文奖、SIGMOD 2015最佳论文奖提名,大大提高了我国在大数据领域研究的国际影响力。
1. 课题来源与背景 大数据已经成为推动信息产业发展的重要支柱,国内外学术界和工业界纷纷提出了各种通用的大数据系统和平台。然而通用平台在安全监控、金融风控、互联网应用等特定领域中,对包括海量历史数据和海量实时数据的混合时态大数据融合处理的功能和性能仍然难以满足业务需求。 课题组基于多年来在数据库和分布式系统方面的研究基础,在多项国家和省部级项目的支持下,研发了新型的海量混合时态数据并行处理关键技术及应用,解决了在大数据安全监控领域的实时大数据分析的诸多技术挑战。 2. 研究目的与意义 针对现有并行处理平台和框架计算表达力弱、可扩展性差、缺乏有效数据探索手段等缺点,基于Actor模型并行理论的突破,研发新的同步、异步相混合的并行处理平台,同时支持离线式的批量大数据处理和实时流式大数据分析,提供可视化编程接口、流立方体等关键性大数据处理技术。课题研究成果将极大推动异构大数据并行计算的基础研究和应用,对建立符合我国国情的大数据生态圈具有重要意义。 3. 主要论点与依据 主要研究了Amdahl理论中并行处理的瓶颈问题以及多时态混合的情况下的异构数据处理模型。并行处理最大的性能瓶颈同时也是阻碍任何并行系统达到线性可扩展特性的根本在于机器间的信息同步,而Actor模型则提供灵活的同步、异步混合执行模式,从根本上降低了同步的需求。另一方面,Actor模型提供多种执行策略,支持多时态的异构数据处理,综合历史数据分析结果和数据流处理结果,实时分析、预测大数据趋势和事件。课题组充分研究Actor模型的特征,并以其为理论基础研发了新型的并行处理引擎epiC。面向各种应用,课题组以epiC作为核心构建了完整的并行数据分析平台,该平台能同时支持批量数据处理和实时流数据处理,提供强大的接近线性可扩展的计算能力,支持计算密集型和数据密集型分析。以epiC为核心,课题研发了大数据批量分析平台和实时流处理平台,在网易、银联商务、连连支付、平安银行、快钱等单位获得了广泛应用。 4. 创见与创新 创新性技术一:epiC并行处理引擎 传统的并行处理引擎难以达到线性可扩展性,即无法通过增加N个计算节点来达到增强N倍计算能力。这主要是因为其计算模型复杂,造成了同步代价过高。为此,课题组研发了新型的支持多时态异构大数据并行处理的epiC 引擎,其兼容流行的MapReduce、Pregel的并行处理引擎,性能超过谷歌MapReduce十倍,是谷歌Pregel的两倍以上;同时支持批量同步并行、批量异步并行、实时异步并行、实时混合模式并行等多种并行处理模型;引擎提供数据动态划分、逆向缓存、基于SLA的调度等优化技术。epiC研究成果位于国际领先地位,并获得了国际数据库顶级会议VLDB 2014年的最佳论文奖,是该会议创办 30 多年来中国大陆学者首次获奖。在该领域获发明专利授权3项,软件著作权1项, 发表学术论文 10 篇。 创新性技术二:面向混合时态大数据的可视化分析技术 大数据平台和技术面向的是开发人员,而最终大数据的结果面向的则是行业专家,这其中存在认知上、技术上的代沟。为了解决这种大数据应用代沟,课题组面向批量处理的可视化大数据分析技术,提供直观的交互方式,将复杂的大数据分析转化为可视化的数据探索;研发了可视化编程语言,能直观的描述数据分析任务;创新的采用了计算竞标方式的查询优化策略,将任务自动优化为多个epiC工作流进行调度处理;处理结果通过实时渲染技术和自动报表匹配技术返回给用户。在该领域获发明专利授权4项,发表学术论文 5 篇。研究成果获得国际顶级会议SIGMOD 2015最佳论文提名。 创新性技术三:大数据实时流立方技术 监控类大数据分析应用对实时处理的要求极高,目前的处理技术往往采用批量式的处理方式,无法提高实时分析结果。本课题面向实时处理的流立方技术,提供毫秒级的大数据分析处理支持,数据吞吐量达到每秒10GB以上;支持多种分析聚合操作的并行、串行操作,支持自定义分析算子和重构算子;基于算子的闭包特性,提供面向特定应用的分析模型定义工具,模型通过编译为流立方算法,自动分发到节点上进行并行处理。在该领域获发明专利授权3项,软件著作权3项,发表学术论文 5 篇。研究成果获得国际顶级会议ICDE 2012优秀论文奖。 5. 社会经济效益 该成果在互联网领域广泛应用,为网易云音乐、考拉海购等业务系统提供技术支撑,保障了上述业务的快速增长。在金融领域,该成果应用于银联商务、连连支付、平安银行等十多家单位的实时信用评估、风控反欺诈等关键业务。成果直接服务用户累计达数十亿人次,近三年新增产值5亿元,新增利润2.2亿元。 成果的研究工作在VLDB、ICDE、SIGMOD、TKDE等大数据领域的顶级国际学术会议和期刊上发表,获得VLDB 2014最佳论文奖、ICDE 2012优秀论文奖、SIGMOD 2015最佳论文奖提名,大大提高了我国在大数据领域研究的国际影响力。