智能阅读器
——迅搜

2020-12-14 14:29黄鑫皓张旭烨许璟倩谌鸿淼
电声技术 2020年4期
关键词:阅读器树莓语音

黄鑫皓,张旭烨,许璟倩,谌鸿淼

(华北理工大学 人工智能学院,河北 唐山 063210)

智能交互电子阅读器可以根据用户的问题,通过语音输入的方式,快速为用户解答问题。智能交互电子阅读器的主要研究内容在于语音识别和语音生成的实现。基于LCS(Longest Common Subsequence)算法与LSTM(Long Short-Term Memory)算法的精准答案搜索功能,最后将算法集成到树莓派中,构建一款智能交互电子阅读器。

1 项目研究的目的和意义

近年来,随着我国社会经济的迅速发展,九年义务制教育的实施以及实行扩大普通高校本专科院校招生人数的政策,国民受教育程度大幅提升。学习是世界上唯一一种稳赚不赔的投资。在生活中,我们需要在电子书刊中获取知识,而电子书刊中的知识是海量的,包括不同的专业,不同程度,不同的方向。大多情况下我们只需要一些片段来解决自己的问题,所以在海量知识中获取需要的部分是待解决的问题。智能阅读交互技术可以很好地解决这个问题。说话总比打字快,用户只需要说出自己想要解决的问题,智能阅读交互技术可以精确,智能的检索并组合出用户所需要的内容,而不是像百度和其他搜索引擎一样一搜一大堆,然后需要用户一个一个网站找。

2 项目实现的具体目标

(1)更快捷的语音输入,能够精确地识别出用户所说的话(此系统还可以打字输入),更能听懂用户的需求的语音播报,可以跟用户“交流”的语音搜索。

(2)更智能的检索系统,对用户提出的问题进行更精确的相似度对比分析,综合合并出多种解决方案。

3 项目研究技术路线及可行性

3.1 研究技术路线

(1)语音识别与语音生成功能

在语音识别与语音生成方面,目前已有较为成熟的API接口,项目采用百度提供的人工智能API实现语音识别功能,采用微软提供的Win32com库实现语音生成功能。

(2)基于LCS算法与LSTM算法的答案检索功能

LCS算法的主要思想是分析两个不同文本的最大公共字串来计算这两个文本的语义相似度[1],在智能电子阅读器的快速搜索模式中,通过LCS算法计算用户给出的问题与文档中可被使用文本的语义相似度[2],从而选出最优答案。相较于LSTM算法,LCS 算法具有更高的效率,但准确率精度较低。

LSTM算法是深度学习领域中最适合处理长文本序列的一种算法,目前已广泛应用于自然语言处理,在智能电子阅读器的精准搜索模式中,通过LSTM算法可以计算出用户所给出的问题与文档中可被使用文本的语义相似度[3],从而选出最优答案[4]。相较于LCS算法,LSTM算法具有更高的准确率,但速度较慢。

3.2 可行性分析

本项目的硬件平台采用树莓派,并扩展了外接LED显示屏,能够满足相应功能对于处理速度的要求;界面设计采用了ZLG/GUI图形用户界面[5]。在树莓派上成功移植了ZLG/GUI,用于系统所有界面设计;各传感器模块可以直接采购和自行设计。该项目摒弃了传统的理念,有效地将树莓派、LED显示屏和深度学习算法结合在一起,大大提高了可行性[6]。并且改项目实用性比较强,可以跟上现在人工智能大数据的快速发展[7]。

另外在语音识别这一块,本项目通过获取token,把需要识别的语音信息、语音数据、token等发送给百度的语音识别服务器,获取到对应的文字。因为服务器支持REST API,我们可以用任何语言来实现客户端的代码,这里我们将采用的是python。

该项目有效地将智能阅读交互软件,语音交互系统和树莓派结合在一起,并且包含阅读文本及语音播放功能,可以使使用者在阅读过程中更加方便、迅速地找到自己所不理解部分的答案如果产品投入市场,肯定会受到广大阅读人士的喜爱。其不仅有阅读的功能,并且大大节约了查找文献资料的时间。使用及携带方便,作品大小合适,方便携带,在阅读器的基础上增加语音查找及语音反馈功能,对阅读者带来了许多的便利,可以有效地解决诸多问题。

4 结语

智能交互阅读器实现了更快捷的语音输入,能够精确地识别出用户所说的话(此系统还可以打字输入),更能听懂用户的需求的语音播报,可以跟用户“交流”的语音搜索。更智能的检索系统,对用户提出的问题进行更精确的相似度对比分析,综合合并出多种解决方案。在日常生活中带来了许多便利,方便携带,易于查询。

猜你喜欢
阅读器树莓语音
The Magna Carta
Winner Takes All
魔力语音
基于树莓派的骑行智能头盔设计
基于MQ3与MP3的价廉物美的酒驾语音提醒器
数字滤波在语音信号降噪中的应用
对方正在输入……
黄金水果红树莓
e络盟率先推出第三代树莓派
年度睡姿大盘点(下)