“数据科学应用技术”专辑导读
2017年6月,第十一届夏季达沃斯论坛以“第四次工业革命将带来什么?”为主题,探讨了如何以创新引领经济转型升级.在全球经济漫长的低迷中,全球经济新动能正在孕育,亮点频现:以数字化、网络化和机器自组织为标志的第四次工业革命正蓬勃兴起,大数据无疑已成为新一轮科技和工业革命的基础性资源.作为战略资源的大数据已成为社会生产的新要素,正在深刻变革我们的科技、产业和管理,为引领经济和社会新常态提供了强力的支撑.当前,各种智能终端和移动互联网蓬勃发展,各种各样的数据呈爆炸式增长,致使数据的采集、传输和存储都发生了翻天覆地的变化.这种变化使得科学研究在经历了实验科学、理论科学和计算科学之后,步入了数据密集型科学时代.在这种背景下,数据科学作为新兴的交叉学科油然而生.数据科学交叉学科旨在运用统计、数据挖掘和机器学习的方法,快速、准确地获取大数据中的有价值信息,实现深度理解、敏锐发现与精准决策.因此,数据科学学科的发展是第四次工业革命的先进生产力之一.
数据采集、数据存储计算能力和提取数据价值的能力是大数据应用的三大要素,也是数据科学这门学科的研究对象.因此,数据科学是涉及数据的全生命周期,包括数据采集、分析管理和可视化.它在各行各业中有着广泛的应用,包括电子商务、金融、医疗、生物技术、教育、旅游、交通和农业等.无论是工业界还是学术界,越来越多的国内外专家和学者已经意识到数据科学技术的研究和应用是推动和引领经济和社会新常态的关键因素,他们相继开展了大量的相关研究,也取得了许多有价值的研究成果,但依然存在很多问题亟待解决.
正是在这样的大背景下,2016年9月,华东师范大学数据科学与工程学院(以下简称数据学院)宣布成立.其前身可追溯到2012年下半年成立的“华东师范大学云计算和大数据研究中心”,该中心的基本思路是为了践行“协同创新”这一重要理念;随后,为集聚华东师范大学与大数据相关的学科优势,推进学校的“学科交叉”战略,支持学校优势学科的发展,2013年9月成立了华东师范大学数据科学与工程研究院,成为全国高校第一个大数据研究院.认真梳理在3年实践中的学习、认识和体会之后,加上Info Sys为数据学院成立专门进行了捐赠,2016年9月华东师范大学正式批准成立数据学院.2017年3月17日,教育部公布2016年度普通高等学校本科专业备案和审批结果,数据学院获批新增数据科学与大数据技术(专业代码:080910T)专业.学院依托本校软件工程、计算机技术、教育学、人口学、地球科学等方面的独特优势,瞄准国际前沿领域,对接国家重大需求,培养新型复合型工科人才,研发具有中国特色的大数据技术和应用系统.
数据学院顺应应用驱动创新、开放成就创新的潮流,立足应用,顺应潮流,稳步推进学科交叉,渐渐形成了可持续的创新生态.当前,数据学院联合西北工业大学、中国人民大学、交通银行共同承担了国家863课题“基于内存计算的数据管理系统研究与开发”;与合肥工业大学、中国科学技术大学和西安交通大学等单位一起联合攻关国家重点研发计划项目“大数据知识工程基础理论及其应用研究”;与中国人民大学和东北大学共同承担了国家自然科学基金重点项目“面向物联网搜索的隐私保护理论和关键技术”;与中国人民大学和中科院计算所共同承担了国家自然科学基金重点项目“大数据管理系统评测基准的理论与方法”;与东北大学和中山大学共同承担了国家自然科学基金重点项目“基于超云平台的社会化移动网络大数据管理与分析关键技术研究”;在校企合作方面,学院与欧冶云商成立了“华师大-欧冶产业互联网大数据与区块链实验室”;学院联合中国人民大学和印孚瑟斯成立了“数据科学联合实验室”;与珍岛信息技术有限公司成立了“智慧营销联合实验室”.在这些科研项目的支持下,经过多年研发,沉淀了一批研究结果,为了更好地总结成果,同时促进国内相关研发人员的交流,特此组织《华东师范大学学报(自然科学版)》“数据科学应用技术”专辑.专辑采用邀稿和征稿相结合的方式组织稿件,所有收到的稿件通过通讯评审,最终确定录用稿件20篇,分为数据管理、大数据分析、用户行为分析、位置服务和应用系统等5个专栏.
数据管理专栏共收录了5篇论文,这些工作主要探讨了各类不同数据管理系统中连接算子优化、负载均衡和列存储等问题.在连接算法优化方面,徐石磊等人分析了Ocean Base中嵌套循环连接、哈希连接、半连接等算子执行的优缺点,充分利用并行优化思想对Ocean-Base数据库中的嵌套循环连接、哈希连接、半连接等算子进行了改造;陈明珠等人考虑到分布式数据流管理系统面临的数据倾斜、无边界与不可预知性,在Storm系统中设计并实现了Join-Matrix的连接算子,使得该算子具备良好的通用性;张敬伟等人总结了评论数据分析与应用的特征,设计了基于同构Redis集群环境的数据平衡存储模型,以“负载与访问性能相平衡”为原则,充分挖掘异构Redis集群中节点的性能差异,提高了集群的整体查询效率;张晗等人提出了支持列存储数据管理系统的一种新物化策略,基于该策略在分布式数据管理系统CLAIMS上设计并实现了列存储引擎;于洋等人基于布谷鸟过滤器在分布式系统Ginkgo上设计并实现了分布式外连接算法,通过布谷鸟过滤器对数据进行筛选和分配的同时,提高执行的并行度,使得查询性能得到大幅提升.
大数据分析是大数据价值发现的关键,也是辅助决策的基础,该栏目共录用了4篇论文,专注于介绍大数据价值发现的技术综述和相关分析技术的最新研究成果.郁可人等人介绍了基于神经网络的分布式词向量构建方法、优化方法及训练方法;金丽娇等人从语义表示和语义匹配角度梳理总结了基于卷积神经网络的自动问答系统技术;肖垚等人验证了真实在线广告平台上点击率预测的最佳方案;田秀霞等人通过有效融合门限密钥共享方案和Laplace噪音干扰算法提出了一种实现电力公司分时电价计费的同时保护用户隐私的方法.
用户行为分析主要应用于精准营销、客户流失发现和异常检测等问题,该栏目共有5篇论文.陈雷慧等人对当前热门的跨领域推荐技术进行了系统的总结和梳理;袁培森等人实现了多个搜索引擎食品安全信息查询相关的结果集成,而且能够根据用户的偏好实现结果的个性化排序;潘松松等人使用随机森林方法分病种进行特征选择,随后通过基于CBLOF的方法以及改进的CBLOF方法检测医疗欺诈行为;王珊蕾等人以用户偏好和隐变量的特定含义为约束,提出了一种基于贝叶斯网络的用户偏好生成方法;周兰凤等人综合考虑用户主观评分和商品客观评分,提出了一种结合情境预过滤、社会网络理论以及专家意见的混合协同过滤推荐方法.
位置服务是智慧城市、社交网络和应急救灾等问题的核心技术,该栏目共录用4篇论文.王婧等人形式化定义了基于正则表达式的限制性路径规划问题并设计了通用的解决框架,基于该框架提出了路径规划算法BCRP和优化的路径规划算法ICRP;杨姿等人提出了一种基于k-泛化的个人时空数据隐私保护方法,该方法不仅提高了数据可用性,而且增强了数据安全性能;吴涛等人提出了一种基于实时路况的两阶段载客热门区域实时推荐算法;王艺霖等人提出了一种基于时空近邻性的站点恢复算法和基于历史数据的刷卡站点恢复方法.
应用系统是大数据应用的接口,该栏目共有2篇论文,分别介绍了我校新版研究生系统开发的成果.李彦斌等人介绍了基于开源框架的新一代研究生信息系统的设计及实现细节;史兵等人介绍了基于日志收集与分析的运维系统的设计方案及基于交互式仪表盘的运维实现.
专家和学者从不同的角度,对各自正在研发的数据科学应用相关领域的核心技术、系统架构和最新研究进展等进行了介绍,对数据科学应用技术的难点和挑战及发展趋势进行了分析和展望.
最后在专辑出版之际,谨在此衷心感谢提供优质稿件的各位作者和参与稿件评审的各位专家学者,特别感谢华东师范大学学报编辑部自然科学版各位老师的辛勤工作和大力支持,正是他们冒着酷暑不辞辛苦地加班才让本专辑得以顺利出版.希望本专辑为大数据应用技术的研发提供一个窗口,并推动相关领域的研究进展和应用实施.