基于深度学习的电子文本自然语言处理系统

2018-03-22 11:44赵栋材周雁
电子技术与软件工程 2018年3期

赵栋材 周雁

摘 要 电子文本自然语言处理是新时代发展的产物,在计算机科学领域发展中占据重要地位。传统的电子文本自然语言处理系统花费成本较高,人工投入较大,已经不能满足目前提出的要求。基于深度学习设计了电子文本自然语言处理系统,分别对系统的硬件、软件进行设计,硬件部分由数据采集器、数据合成器和数据处理器3部分组成,由SIFT算法实现软件部分的计算。通过对比实验证明给出的系统能够有效处理自然语言,而且工作效率很高,具有很好的发展前景。

【关键词】深度學习 电子文本 自然语言 语言处理系统

步入二十一世纪之后,计算机行业得到迅速发展,自然语言处理(NLP)是计算机科学领域研究的一个重要方向。在处理自然语言时要运用到语言学、数字学与计算机学等多个学科,并将其融合到一起进行研究。自然语言是人们在日常生活中应用的语言,和语言学紧密相关,但是也不完全相同。具体来说,自然语言处理是一种计算机系统,能够有效实现自然语言通信。综上所述,本文基于深度学习设计了电子文本自然语言处理系统,分别对系统的硬件、软件进行设计,通过实验验证了所给系统的可行性。

1 基于深度学习的电子文本自然语言处理系统硬件设计

基于深度学习对电子文本自然语言处理系统硬件部分进行设计,硬件由数据采集器、数据合成器和数据处理器3部分组成,系统硬件的功能如下:由数据采集器对电子文本的信息进行采集,然后由数据合成器筛选出无用信息,合成有用信息,最后利用数据处理器处理自然语言信息,至此完成整个自然语言处理过程。基于深度学习的电子文本自然语言处理系统硬件部分总体设计框架图如图1所示。

数据采集器的采集芯片为英国Frocdema公司研发的ROM芯片,通过逻辑总线连接内部结构,利用A/D、D/A转换器转换数据。采集后的数据会深入到硬件中,将采集到的信息进行集成处理,利用VHDL执行操作命令,大大保证了系统的可靠性。

数据合成器选用法国Tnmlced公司研发的dacem合成器。Tnmlced公司历经五年时间研发了此款合成器,又经过一年的时间试用,虽然是一款新型合成器,但是工作稳定性极高,与市面上的其它合成器相比,dacem合成器合成能力至少能够提高2倍以上。Dacem合成器内部拥有12位DSP指令,通过6级整数流水线去执行命令,效率极高。处理器同时具有读/写两个操作部件,共同实现合成工作。

数据处理器是自然语言处理系统硬件的核心部分,处理器内部选用美国Intel公司研发的Loihi1547人工智能处理芯片。此款芯片内核为2.5V,控制总线工作频率为72MHZ,支持处理148类自然语言,对语言的处理能力能达到15位,芯片分为运行、休眠和停止三种状态,工作耗时短,需要的成本很低,在非工作状态系统进入休眠模式,不会造成功率的浪费。

2 基于深度学习的电子文本自然语言处理系统软件设计

基于SIFT算法对本文提出的电子文本自然语言处理系统进行软件设计。在处理自然语言中,处理设备需要选用链路质量确定模式,当RSSI达到最大网络模式时接入,还要考虑通信场强强度是否均衡。SIFT算法如下所示:

公式(1)中,G(x,y)为高斯函数,计算过程如下:

(x,y)代表自然语言的尺度坐标,σ表示语言类别,尺度不同对应的语言精度也不同。由公式可知,当G(x,y)=70时,自然语言处理系统处理能力最强,传递速率最高,工作性能最稳定

3 实验研究

为了测试本文设计的电子文本自然语言处理系统是否具有实际可操作性,与传统的电子文本自然语言处理系统进行了对比,设计实验,实验参数如下:电源电压限定在220V以内,电源模式为三相四线制,系统最大负载电阻为10Ω,最小负载电阻为5Ω,电感串联为20mA,系统工作时长2h。

传统系统和本文设定的电子文本自然语言处理系统都能实现自然语言的智能处理,但是本文设计的系统处理能力始终高于传统系统。尤其是到后期时,传统的系统已经无法进行语言处理,但是本文设定的系统工作效率依然极高,工作时不会消耗过多的成本,产生的噪音很小,有效降低工作人员的劳动强度。

4 结束语

通过本文的探讨分析可以了解到传统的电子文本自然语言处理系统局限性较大,本文基于深度学习设计的语言系统,硬件部分由数据采集器、数据合成器和数据处理器3部分组成,在短时间内处理不同类型的语言。利用SIFT算法计算出语言换算频率,有效实现软件系统设计。通过与传统系统进行对比实验显示的结果可知,本文设计的系统工作稳定性更强,在工作时产生的噪声更小,消耗成本很低,工作效率高,是未来的必然发展方向。

参考文献

[1]任柏青.基于深度学习的智能中文文本检校方法[J].现代电信科技,2017,47(04):55-58.

[2]崔萌,张春云.基于不同语料的词向量对比分析[J].兰州理工大学学报,2017,43(03):112-116.

作者简介

赵栋材(1976-),男,四川省南充市人。硕士研究生。副教授,硕士生导师。研究方向为自然语言处理。

周雁(1981-),女,广东省高州市人。硕士研究生。副教授,硕士生导师。研究方向为语音处理、嵌入式系统。

作者单位

西藏大学信息科学技术学院 西藏自治区拉萨市 850000