百度大脑全新14项语音开放能力软硬一体推动产业落地

2019-12-27 13:15

中国科技财富 2019年12期

文／本刊记者史诗

11月28日，百度大脑宣布语音能力引擎日均调用量已经超过100亿次，应用规模业界第一，为开发者提供了覆盖云、端、芯的全栈全场景语音开放能力，推动智能语音技术在各行业落地应用。

在当天举行的百度大脑语音能力引擎论坛上，百度大脑语音引擎全新发布和升级了14大产品内容，包括基于百度鸿鹄语音芯片的4款硬件模组、开发板及3大场景解决方案，升级了语音自训练平台、呼叫中心语音解决方案等。来自家电、农业、医疗等行业的合作伙伴代表也在现场分享了百度大脑语音技术赋能的成果。

百度首席技术官王海峰博士出席论坛并致辞，他表示：“AI技术的进化和产业赋能正向循环，相互促进，AI在应用场景中不断进化。百度的语音技术基于深度学习和产业应用加速突破，已应用到百度App，百度地图、小度音箱，百度输入法等百度产品，更通过AI开放平台赋能众多产业伙伴。百度大脑语音能力每天的调用量已经超过100亿。”

现场，百度语音首席架构师贾磊正式提出基于复数CNN网络的语音增强和语音识别一体化端到端建模技术，该方法抛弃了数字信号处理学科和语音识别学科的各种先验假设，消除学科间壁垒，直接端到端进行一体化建模。相较于传统基于数字信号处理的麦克阵列算法，错误率降低超过30%。目前该方法已经被集成到百度最新发布的百度鸿鹄芯片中。

据悉，百度从2012年起就开始把深度学习用于中文语音搜索，成为全世界最早把深度学习技术落地工业化产品的企业之一。百度大脑目前已开放了云、端、芯包含语音识别、语音合成等全栈语音引擎能力，并广泛应用于金融、政务、文娱等多种行业和场景。百度AI技术生态部总经理喻友平表示，百度大脑语音能力引擎的应用规模已达到业界第一，同时一直在积极拓展语音能力引擎生态链的建设。

针对智能硬件设备，百度大脑重磅发布基于百度鸿鹄语音芯片的4款硬件模组、开发板，以及智能家居、智能车载、智能IoT设备3大端到端软硬一体远场语音交互场景解决方案，具备交互效果优异、软硬一体快速应用、广泛兼容集成门槛低等优点。同时，在语音识别领域，全面升级短语音识别、实时语音识别能力，发布音频文件转写能力，升级可零代码提升业务术语识别率的语音自训练平台，以及呼叫中心语音解决方案；在语音合成方面，全新发布6个在线语音合成精品音库和5个离线语音合成精品音库。丰富的语音能力，助力智能硬件、互联网、呼叫中心等领域智能化升级。

论坛上，来自家居、金融、医疗、农业、公益等领域的合作伙伴，登台分享与百度大脑合作的细节，以及如何以语音技术助力自身完成智能化升级。

创维AIoT研究院产品经理李凯介绍：“大屏IoT的行业痛点在于信息检索难和设备控制操作复杂，通过增加语音交互能力，重构了整个AIoT设备生态的交互体验。双方在电视方面的合作成果已落地在10个电视芯片型号、2500万台电视上，助力中端及高端产品线提升了产品溢价能力。”在下一代远场语音方案中，百度鸿鹄语音芯片为创维产品带来了高性价比硬件、整合优化的软件算法等价值，双方将基于百度鸿鹄芯片展开多项产品的合作。

瓴岳科技信贷运营总监宋力现场分享了百度大脑语音技术在贷后领域的应用，依托百度大脑呼叫中心实时语音识别等AI服务对用户语音的准确识别，瓴岳打造了降本提效的智能机器人。通过贷后智能机器人、智能语音质检的应用，贷后人力投入降低61.47%，有效实现了合规和高效的运营体系，提高了客户体验。

北京子杰宝贝科技有限公司项目经理肖云峰在会上展现了语音技术在医疗领域的应用：“我们开发的智能录入系统在百度大脑语音自训练平台进行语音识别模型训练，识别率从80%提升至95%以上，包括医疗专业生僻词的识别，而很多厂商模型识别率都达不到这个要求。该系统有效降低了医护人员的工作强度，提升了临床护理效率。”

而在农业领域，也遇到了农业作物专业词汇语音识别率低的行业问题，对此华智生物信息技术主任龙晓波表示：“得益于百度大脑语音自训练平台使用简单、准确率高、可拓展等优点，经多次迭代我们的农业结构化性状数据语音识别准确率从71.09%提升至98.75%，采集一个测试田地性状信息从300人工时降低到160人工时，工作效率提升了一倍。”

善行智能联合创始人黄小瑰介绍了基于百度大脑语音等技术打造的小Q智能导盲眼镜，帮助盲人生活出行，为失能人群提供智能化的帮助。现场还发布了“因AI而声”公益计划：百度大脑将为提供公益性服务的公司或组织，提供语音技术免费、专属语音技术支持等福利，为特殊群体带去便利和帮助，让AI有温度。

百度大脑开放平台是国内服务规模最大的AI开放平台，目前已开放228项AI能力，拥有超过150万的开发者用户。与会人士认为，此次百度大脑语音技术能力的全新发布和升级，为开发者和企业提供了更加完善的全栈语音引擎能力，将帮助更多用户高效打造具备语音交互能力的特色应用与产品，加快语音技术在各行各业的应用落地进程。