支持语音合成的PubMed生物医学文献检索系统设计与实现

2018-06-06 00:48:40
中华医学图书情报杂志 2018年12期
关键词:音频文件百度音频

文献检索是科研人员了解研究方法、科学问题与科学假设的重要途径。随着移动互联网技术的飞速发展,知识服务的个性化需求越来越引起广大领域专家的重视。因此,如何利用文献实现个性化信息与知识服务,增强互动交流,提升用户体验,辅助科研工作者更好地完成科研工作,提高科研效率与水平,是知识服务模式转型与领域研究的新内容。

当前,云计算、大数据与人工智能等新兴技术正快速推动着各行各业的信息化发展,将这些新方法新技术应用于生物医学文献信息与知识服务具有重要意义,是医学信息学、图书馆信息服务领域的一项热点内容[1]。本文拟通过整合PubMed E-utilities[2]接口与百度AI开放平台的语音合成应用程序编程接口(Application Programming Interface,API),构建一个支持音频播放的生物医学文献检索系统,在传统文献服务的基础上实现文献的音频转化与播放功能,方便及时关注最新研究进展,帮助科研人员利用碎片化时间进行文献跟踪学习。

1 系统需求分析

1.1 文献阅读的移动化

科研工作者通过日常阅读文献跟踪领域最新研究进展,以便提出新的科学假设。面对呈指数级增长的海量文献,尽管传统文献信息检索系统能够帮助科研人员快速查找文献,但对于特定主题或特定领域的文献,通常搜索得到的候选文献集的数量仍然庞大,很难实现对大量候选文献的精读。在移动互联网时代,人们的阅读方式正从以往的使用个人电脑查询与阅读科技文献资料逐渐向移动APP阅读模式转变,移动APP的普及更适合用户利用碎片化时间快速浏览[3]。

移动APP使用户对科技文献资源阅读查询更加方便快捷,且不受场所地域的限制,可以随时随地获取想要的信息资源[4]。

目前许多科技情报与知识服务类移动APP、微信公众号均提供了科研咨询与热点研究资讯推送的功能[5],支持用户快速地查找并下载国内外文献。部分应用还对国外最新文献提供了人工智能自动翻译的服务,流畅支持跨语言阅读[6]。然而,人工阅读文献需要投入大量时间,如何通过手机端获得更好的文献阅读体验,提高阅读效率与知识服务质量,是未来移动互联时代科技文献管理与服务发展的必然趋势。

1.2 语音合成在文献阅读中的应用

语音合成是一种通过机械的、电子的方法产生人造语音的技术。如文语转换(Text To Speech,TTS)是目前语音合成最常见的应用之一,可以实现将计算机产生的或外部输入的文字信息转化为语音输出,或将文本文件或者网页转换成自然语音输出[7]。TTS应用不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性,是新媒体时代个性化信息服务的重要内容。现代图书馆可以利用TTS语音合成技术将图书期刊资源转化为有声读物,既为中老年读者提供了利用图书馆的有效途径,又为解决知识人群用眼过度、普遍近视的社会问题提供了一种新的阅读方式[8]。

目前语音合成技术已经具有了较成熟的应用,国内外均有语音合成技术研究与开发平台,如百度、腾讯、科大讯飞等科技公司提供的语音合成开放平台,可以很方便地辅助程序开发者构建一些语音合成的应用。通过将文献内容从文本转化为语音,借助于手机等移动设备,科研人员从单纯的文献阅读转化为文献读与听相结合的模式,实现随时随地收听。通常大部分文献只需对摘要进行简单浏览,这种通过听音频泛读的方式可以节约科研人员的时间,提升用户移动阅读体验。

2 系统设计

系统总体设计架构如图1所示。

图1 系统架构设计

以PubMed文献数据库作为数据源,搭建一个支持音频播放的生物医学文献检索系统。系统主要基于关键词检索,用户输入关键词,系统通过调用接口E-utilities获取到PubMed Citations信息,然后调用百度AI开放平台的语音合成API,对摘要文本进行语音合成,生成相应的音频流。前端利用HTML5 audio标签定义与呈现,audio 元素支持播放声音文件和音频流;移动端利用微信公众平台,通过回复音乐消息实现文献音频回复。另外,系统提供音频文件下载功能,用户可以将文献音频保存至本地。

2.1 PubMed E-utilities的接口调用与数据解析

PubMed E-utilities是NCBI 提供的访问PubMed数据库的免费开放的应用程序调用接口,主要包括eSearch、eFetch等8 个接口。通过调用E-utilities接口,可以实现数据的批量下载,供科研人员进行二次开发,方便数据资源的高效使用[9]。系统的文献检索功能主要通过调用eFetch和eSearch接口实现,支持主题关键词、作者等信息作为查询条件的检索功能[10]。eSearch接口对用户输入查询进行响应,根据查询条件从PubMed数据库中找出符合条件的唯一标识符(Unique Identifiers,UIDs);eFetch接口接受eSearch返回的UIDs列表,进一步抽取相应的PubMed Citations数据记录,再解析提取所需对应字段的文本内容。

2.2 开放语音合成平台

百度为开发人员提供了一个优质免费的语音技术开放平台,方便开发者构建语音合成应用。百度语音合成服务平台提供了离在线语音合成软件开发工具包Android SDK(Software Development Kit)、IOS SDK以及REST API SDK,开发人员通过接口调用将文本转换为可以播放的音频文件。使用百度语音技术服务首先需要注册成为百度开发者,笔者按要求填写开发者信息并完成百度开发者的注册后,服务调用的基本过程见图2。

图2 百度语音合成服务的调用

2.3 移动社交平台扩展

微信公众平台是基于微信社交环境下针对企业、媒体或个人用户提供信息服务的自媒体平台。它提供的一种全新的个性化信息服务,能帮助用户实现免费快速的即时文字、图片、语音和视频交流[11]。微信是国内用户使用最频繁的移动社交平台之一。由于微信公众号语音消息有时长限制,为了方便手机移动端用户获得PubMed文献音频,将PubMed文献音频设为音乐消息类型(图3)。将音频文件上传到服务器,获得唯一的音频文件MediaID与MUSIC_Url地址,包装生成音乐消息,通过音乐消息回复实现音频推送。此外,微信公众平台消息接口也支持语音识别功能,申请开通语音识别功能后,可进一步实现语音搜索功能。

3 系统实现

系统实现主要包含文献检索、语音播放与音频文件下载3个功能模块。

3.1 文献检索

文献检索策略与PubMed 数据库基本检索功能类似,支持PubMed 检索中最常用的字段限定,如Title、Author name等。用户输入关键词“tumor cancer”,点击“GO”按钮进行文献检索,在结果输出页面中,用户可以通过点击“标题”超链接前往PubMed数据库中对应条目的页面(图4)。

图3 微信音乐消息结构

图4 文献检索与音频播放

3.2 语音播放

系统通过接口E-utilities获取到PubMed的文献摘要,再调用百度AI开放平台的语音合成API,对摘要文本进行语音合成,生成相应的音频流;然后利用HTML5 audio标签定义与呈现,audio 元素支持播放声音文件和音频流。如图4所示,在整个搜索结果显示页面中,通过audio元素实现音频播放功能,用户点击音频播放图标,即可在浏览文献的同时边听边读。

3.3 音频下载与移动语音搜索

3.3.1 音频文件下载

为方便用户存储已合成的文献音频,系统提供了音频文件下载功能,点击“下载”图标,即可将音频文件保存到本地,而且文件自动以文献对应的PMID命名(图5)。

3.3.2 音频消息回复

为了向移动社交平台扩展,笔者申请开通了微信公众号。系统对摘要文本进行语音合成后,将生成相应的音频文件动态存储在服务器,用户关注公众号后发送文献PMID,公众号即可回复对应的文献音频消息(图6)。公众号开通语音识别后,用户发送语音消息给公众号时,微信公众号平台会在推送的语音消息XML数据包中自动增加一个Recognition字段,用来表示识别出的文本内容。系统解析抽取Recognition字段内容,然后将其作为eSearch接口参数,从而实现语音化搜索。

图5 将音频文件保存到本地

图6 音频消息回复与语音搜索

4 结语

移动互联网技术的创新与发展不断改变着人类的阅读习惯。文献阅读作为科研工作的重要组成部分,移动阅读模式正逐渐成为科研工作者阅读文献的常用方式。本文通过将语音合成技术引入文献检索服务中,从而扩展与延伸了传统的文献检索与阅读服务,实现了文献服务向移动端转移,突出了移动社交性,提高了阅读效率,是移动互联时代文献服务与知识服务的一种新尝试。近年来,语音合成技术已基本解决了语音清晰度方面的问题,语音合成技术的应用也越来越普遍,但仍需进一步提升其自然度和表现力。随着AI等技术的不断改进与创新,未来支持AI技术的移动APP阅读模式必将成为重要的科技文献服务方式。

猜你喜欢
音频文件百度音频
Robust adaptive UKF based on SVR for inertial based integrated navigation
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
百度年度热搜榜
青年与社会(2018年2期)2018-01-25 15:37:06
音频分析仪中低失真音频信号的发生方法
电子制作(2017年9期)2017-04-17 03:00:46
基于Android手机的音频文件取证技术研究
Pro Tools音频剪辑及修正
人间(2015年8期)2016-01-09 13:12:42
百度遭投行下调评级
IT时代周刊(2015年8期)2015-11-11 05:50:22
提取APP中的音频文件
电脑爱好者(2015年5期)2015-09-10 07:22:44
数字水印在音频文件篡改检测中的应用