当前位置: 首页>>动态-科研与学科建设>>正文

我院青年教师在Apache Spark优化方向取得系列优秀研究成果
2020-12-06 09:57 文/杨聪敏 杨沁 

Apache Spark是目前最重要的大数据分布式计算平台之一。近日,南华大学计算机学院特聘副教授付仲明与合作者在国际期刊《Parallel Computing》上发表论文《ImRP: A Predictive Partition Method for Data Skew Alleviation in Spark Streaming Environment》、实验师何梦思与合作者在国际期刊《IEEE Transactions on Knowledge and Data Engineering》(简称TKDE)上发表论文《IncGraph: An Improved Distributed Incremental Graph Computing Model and Framework based on Spark GraphX》。 Parallel Computing》属于CCF B类期刊,包括并行计算机系统的理论和应用内容,涵盖了高速计算的所有方面。TKDE属于CCF A类期刊,是知识与数据工程方向公认的顶级学术期刊。

ImRP: A Predictive Partition Method for Data Skew Alleviation in Spark Streaming Environment》是由付仲明博士(南华大学计算机学院),唐卓教授(湖南大学),杨黎博士(长沙理工大学)和李肯立教授(湖南大学)、李克勤(美国纽约州立大学)共同合作完成。在Spark Streaming计算环境中,默认的分区方法很容易在中间数据分配中导致reduce任务的负载不平衡,针对数据偏斜可能会因为负载不平衡而严重降低作业性能的问题,论文提出了一种改进的范围分区器(ImRP),以减轻Spark Streaming中流作业的偏斜。与以往的工作不同,ImRP不需要对输入数据进行任何预运行采样,而是根据通过先前批处理估计的中间数据分布生成数据分区方案,其中采用了预测模型EWMA(指数加权移动平均值)。为了减轻数据偏斜,ImRP提出了一种最佳计算分区边界的新颖方法,以及一种在语义允许的情况下分割边界键簇的机制。此外,ImRP均衡Reduce任务之间的负载时会考虑集成的分区大小和计算环境的异构性。与其他分区策略相比,ImRP通过减轻数据偏斜,可以显着减少流作业的执行时间,尤其是在输入批次的偏斜度严重的情况下。

IncGraph: An Improved Distributed Incremental Graph Computing Model and Framework based on Spark GraphX》是由唐卓教授(湖南大学),何梦思硕士(南华大学计算机学院),付仲明博士(南华大学计算机学院)和杨黎博士(长沙理工大学)共同合作完成。针对传统迭代图形算法在动态图形数据发生变化时导致大量计算机资源和性能浪费的问题,论文提出了一种支持动态图增量迭代计算的模型。与传统的迭代方式不同,该模型通过重用前一个图的结果来执行图算法,利用之前计算的顶点状态可以立即更新当前迭代中未计算的顶点状态,加速整个迭代过程,并对图中变化的部分进行计算。在增量迭代计算中,论文提出一种增量更新方法来加速图算法的迭代过程,可以有效地处理迭代图算法在动态图上的增量处理。此外,论文还提出一种改进的分布式计算环境下增量迭代计算模型,以优化迭代图算法在动态图上的计算,并从理论和实验上验证了模型的性能优势。

学者介绍:

付仲明,南华大学引进优秀人才,计算机学院特聘副教授,于2015年在兰州理工大学计算机与通信学院获学士学位,于2020年在湖南大学信息科学与工程学院获博士学位(导师为唐卓教授)。博士研究期间所属超级计算与云计算研究团队(负责人李肯立和李克勤教授(IEEE Fellow))。现为中国计算机学会CCF会员、IEEE会员。主要研究方向为大数据与云计算、分布式并行处理及分布式框架MapReduceHadoopSpark)性能优化,包括任务调度、负载均衡和资源分配等。在IEEE TPDSIEEE TCCIEEE TKDEThe Journal of Grid ComputingParallel Computing等国际著名期刊发表论文多篇,并担任国际知名期刊The Journal of Supercomputing审稿人。

何梦思,南华大学计算机学院实验师,于2017年在湖南师范大学获得计算机学士学位,于2020年在湖南大学信息科学与工程学院获硕士学位。研究方向为分布式框架上迭代算法优化。研究期间发表国际顶级期刊IEEE TKDECCF A类)论文一篇及国际会议IEEE ISPACCF C类)论文一篇。

                                        

                                            付仲明老师                                                             何梦思老师

上一条:我院本科生陈鑫以第一作者在中科院SCI二区期刊上发表学术论文
下一条:我院田纹龙老师在《IEEE Transactions on Dependable and Secure Computing》发表论文
关闭窗口
快速通道

地址:中国 湖南 衡阳 常胜西路     
雨母校区:湖南省衡阳市蒸湘区衡祁路228号南华大学雨母校区计算机学院     
电话:0734-8282473     邮编:421001

版权所有:南华大学计算机学院