“数据系统”专辑导 读

2023-03-04 15:34
关键词:数据系统数据管理异构

《“十四五”数字经济发展规划》指出数据要素是数字经济深化发展的核心动力.数据系统负责了数据采集、清洗、标注、脱敏、分享等环节的全生命周期管理,已经成为数字经济时代的关键基础设施.随着各行各业数字化转型的深入,企业或组织数据采集的规模越来越大,数据系统需要进一步降低存储和计算成本,实现降本增效.面对开放环境,数据系统需要同时支持大规模关键业务处理和实时分析.数据分享能够打破数据孤岛,实现价值分享,数据系统需要从底层提供原生的隐私计算能力.为了快速发掘和充分利用数据价值,数据系统还需要为上层人工智能应用提供全面支持.面对上述需求,亟需研究和推出数据系统的新技术.

《华东师范大学学报(自然科学版)》2023 年第5 期推出的“数据系统”专辑,呈现了国内外数据管理和分析系统的前沿研究成果,探讨如何更好地利用新型硬件提升数据系统的存储和计算能力、如何实现数据系统对多模态数据的有效存储和管理等问题.本刊选登的工作还包括支持实时业务处理和实时数据分析的新型数据系统架构、数据驱动的机器学习系统的构建方法、数据分析的行业应用案例等内容.专辑采用邀稿和征稿相结合的方式组织稿件,所有稿件均通过了通信评审,最终确定录用稿件16 篇,并将其分为数据库系统、数据学习系统以及数据分析3个专栏.以下分别对3 个专栏做简要介绍.

数据要素的高质量供给离不开高性能、易扩展数据基础设施的支撑.数据库系统专栏共录用5 篇论文.《基于持久化内存和共享缓存架构的高性能数据库》探讨了云原生场景下的高性能数据库,设计并实现了基于持久化内存和共享缓存架构的数据库系统,解决了云原生数据库持久化速度慢,缓存目录高延迟以及时间戳性能瓶颈问题.《数据同步机制自适应优化的HTAP 数据库原型系统》分析了HTAP 应用对数据一致性的多样化需求,构建了新鲜度与性能权衡的代价模型,实现了一个顺序一致性同步与线性一致性同步自适应切换的HTAP 数据库原型系统.《面向存算分离架构的混合粒度缓存策略》探讨了基于存算分离架构的分析型数据库中的缓存机制,通过对象和块构成的混合缓冲区解决计算层和存储层数据存取粒度不匹配的问题,进一步提升缓存利用率.《存算分离架构下Part 元数据的单独管理策略》分析了大型分析型数据库中的Part 元数据管理问题,通过分布式键值数据库高效管理大规模Part 元数据,提升了存算分离架构下大规模数据库的弹性能力.《基于模糊测试生成多样化的数据库隔离级别测试案例》针对数据库系统的隔离级别测试问题,设计结构化的测试输入结构,将测试空间拆分成并发事务组合和并发事务执行交互模式两个子空间进行搜索,能够生成更加多样化的案例,提升了隔离级别测试的覆盖率.

通过机器学习,企业可以快速挖掘数据的价值,提升自身的智能化水平.数据学习系统专栏共录用6 篇论文.《FeaDB:基于内存的多版本在线特征存储》探讨了数据驱动的人工智能应用的特征管理环节,聚焦低延迟特征检索问题,开发了基于内存的多版本在线特征存储FeaDB,提升了特征集版本检索效率.《支持隐私保护的端云协同训练》针对数据学习中的数据安全与隐私保护问题,利用端侧设备和云侧服务器的优势,设计了一个基于FederatedMachineLearning 与MobileNeuralNetwork 的端云协同训练方法FedMNN,并通过实验验证了端云协同训练的有效性.《基于openGauss 的异构算子加速技术》探索如何使用GPU 加速openGauss 的OLAP 处理过程,实现了基于分块读取和按键分发的CPU-GPU 协同并行方案,兼容向量化引擎的异构算子加速技术,原型系统显著减少了GPUScan算子的I/O 时间,提升了分析型查询的性能.《基于UI 图像的Web 前端代码自动生成》针对现有代码生成工作对于UI 图像特征捕捉能力弱,生成代码的准确性较低的问题,提出了基于SwinTransformer的Encoder-Decoder 模型image2code,使得从UI 图像生成Web 前端代码具有更好的表现.《异构编码联邦学习》针对异构联邦学习中掉队设备导致的训练低效问题,提出了异构编码联邦学习系统,提高了系统的训练效率,加快了多掉队者场景下的异构联邦学习训练速度,并且提供一定级别的数据隐私保护.《基于并行深度森林的配用电通信网络异常流量检测》针对配用电通信网络异常流量检测效率低,检测精度不足的问题,通过针对性的特征提取方法和分类算法考虑配用电网络通信特点,显著提升网络异常流量检测性能.

近年来人工智能和硬件技术的快速发展为各行各业的数据价值释放带来了新机会.数据分析专栏共录用5 篇论文.《基于Autoformer 的电力负荷预测与分析研究》探讨了智能电网中的电力负荷精准预测问题,论文基于自相关机制的预测模型Autoformer,对负荷数据集进行了领域相关的特性分析,通过针对性优化网络结构和训练参数实现了周期灵活的负荷预测.《基于空间域和频率域方法的烟雾检测》针对工业应用中烟雾检测既要保证低误检率,同时也要尽可能降低漏检率的问题,论文提出了一种新的烟雾检测方法,分别在空间域和频率域进行烟雾检测,实现了误检率和漏检率的良好平衡.《基于DataFabric 的多模数据管理方法》探讨了政府和企业数字化演进过程中产生的多模数据管理面临的挑战,分析了DataFabric 数据管理技术和方法针对该挑战的解决方案,论文提出了基于时序指标的多模多源数据的异常监测方法,通过联合使用DataFabric 的技术提升异常检测性能.《新型电力系统中基于人工免疫和隐马尔可夫的网络安全态势评估》首先分析了高级量测系统对网络信息基础设备的依赖.针对存在的网络安全问题,论文提出了基于隐马尔可夫模型结合人工免疫算法去评估高级量测系统的网络安全态势,能够更加准确地捕获和发现系统中存在的安全缺陷.《基于残差网络和深度可分离卷积增强自注意力机制的窃电识别》在ResNet 残差网络结构的基础上,将2D 卷积神经网络与DSCAttention 深度可分离卷积增强的自注意力机制相结合,用于促进窃电用户的正确分类,与其他窃电分类模型相比,论文设计的模型具有更好的性能表现.

本专辑的出版正值华东师范大学数据科学与工程学院成立七周年之时,也是学院前身“数据科学与工程研究院”成立10 周年纪念之日,谨以此专辑为数据科学与工程学院贺岁,并对长期关心与支持数据科学与工程学院发展的各位同仁表示最衷心的感谢.最后在专辑出版之际,谨在此诚挚感谢提供优质稿件的各位作者和参与稿件评审的各位专家学者,特别感谢《华东师范大学学报(自然科学版)》编辑部各位老师的辛勤工作与大力支持.希望本专辑为数据系统新技术的研发提供一个窗口,助力数字基础设施优化升级,推进高质量数据要素供给和产业数字化、智能化转型.

猜你喜欢
数据系统数据管理异构
企业级BOM数据管理概要
试论同课异构之“同”与“异”
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
基于Spark的高速收费站大数据系统的设计与实现
基于计算机软件开发技术的物联网数据系统
非均匀采样数据系统的新型模型描述方法
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术