基于正则约束的学术著作信息采集方法的研究

2021-06-14 05:13毕雪
电子乐园·上旬刊 2021年6期
关键词:信息采集高效

毕雪

摘要:随着社会不断进步,集中体现研究成果的学术著作的数目以指数形式快速增长。本文拟采用稀疏模型,针对海量的著作信息,设计正则约束策略并联合稀疏重建算法,实现对学者信息的有效采集。

关键词:正则约束; 稀疏模型;信息采集;高效

1 引言

科学知识具有显著的长期可积累性、可继承性,任何新的科学技术都是在原有科学技术的基础上分化、衍生出来的,即是对原有科学技术的发展。各学科的研究成果和学者的学术积累可由学术著作直接体现。因此,对这种承担重要学术传播功能和作用的学术文献的相关信息进行数据采集和分析具有重要的意义。

然而,学术著作通常篇幅大、出版和使月周期长、电子化程度较低。这些因素造成对学术著作数据的采集和分析都比较困难。与此同时,有关著者的基本信息包括姓名、项目支持情况、所在单位、学者类型等基本情况不能直接从著作本身准确获取。因此,如何有效获取学术著作的数据是一个亟待解决的问题。考虑到学术著作数目较多,提出基于正则约束的稀疏模型的采集方法,实现对学者信息、学术著作的高效匹配,从而实现对学术著作相关信息的采集和分析。

2 基于正则约束的学术著作信息采集模型

根据学者信息与学术著作的匹配问题的实际情况,即立足于海量的、不同类别的著作,著作者的信息--学者的姓名和单位具有稀疏性。与此同时,基于稀疏性或可压缩性的先验特性,Donoho[1]和Candès [2]等提出信号采样和重建的理论—压缩采样。因此本文提出将稀疏重建模型引入到学术著作信息采集,公式如(1)所示:

3 仿真结果分析

仿真环境为:待重建的信号维度是5000,对应共有5000个学者信息,稀疏度K的范围为210至300,即有210至300名学者的信息需要被采集。仿真结果如表1所示,模型所使用的观测矩阵为满足约束等距性质的随机矩阵,当稀疏度为210至300的情况下,成功重建的概率为100%以上。

4 结语

在这个信息爆炸的时代,如何有效提取和采集有用信息是亟待解决的问题,特别是对承担重要学术传播功能和作用的学术文献的相关信息进行数据采集和分析具有重要的意义。本文从信息本身稀疏的角度出发,将信息采集问题视为一个欠定问题。下一步,我们将进一步结合深度学习探讨该问题。

参考文献

[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548.

[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509.

[3] Liu Y, Haldar JP. PALMNUT: An Enhanced Proximal Alternating Linearized Minimization Algorithm With Application to Separate Regularization of Magnitude and Phase. IEEE Trans. Comput. Imaging 2021;7:530–518 doi: 10.1109/TCI.2021.3077806.

[4] Bi, X.; Leng, L.; Kim, C.; Liu,X.; Du, Y.; Liu, F. Constrained Backtracking Matching Pursuit Algorithm for Image Reconstruction in Compressed Sensing. Appl. Sci. 2021, 11, 1435.

[5]劉亚新,赵瑞珍.用于压缩感知信号重建的正则化自适应匹配追踪算法. 电子与信息学报. 2010,32(11):2713-2717.

助理研究员,项目资助编号:SCAA16B10,四川学术成果分析与应用研究中心,西华大学重点项目资助Z1520908,四川省教育厅资助项目17ZB0416,教育部春晖计划项目资助Z2017075

猜你喜欢
信息采集高效
基于Internet的网络化交通信息采集系统
如何提高卷烟零售市场信息采集的有效性
如何实现小学语文课堂教学的高效化
为小语课堂“瘦身”,为学生语文素养增“肥”
提高提问的有效性, 构筑高效的语文课堂
打造务实、创新、高效的语文课堂
高校三维动画课程教学方法研究