李明轩
摘 要:随着信息技术的应用,人工智能和多媒体技术已经得到了蓬勃发展,通过现代多媒体技术,人们能够对一些原本抽象的事物具有更加具体的了解,通过人工智能,使得多媒体技术更加智能化。因此,本文主要阐述了人工智能技术在数字多媒体中的应用基础和应用功能,并对数字化智能多媒体技术的进一步发展进行了展望。
关键词:人工智能;数字化;多媒体;信息技术
中图分类号:TP37-4 文献标识码:A 文章编号:1671-2064(2018)19-0042-02
近些年来随着人工智能技术的研究与发展,人工智能正加速改变各个行业的发展方向,这其中多媒体技术将可能是受益最明显的应用领域之一。神经网络相关算法问题得到解决,人工智能技术在最近几年得到了快速的发展,而人工智能技术在多媒体领域的渗透,使这项技术获得了新的突破。当下图片、长视频、短视频、直播、AR等各种媒体形式占据着互联网,在媒体内容和形式都非常丰富的今天,如何辨识、解析这些内容,并通过人工智能反馈是目前所有科技巨头关注的焦点,其中人工智能技术将在图像识别、语音语义识别、同声传译、字幕识别等多媒体应用场景有更深的应用与挖掘。
本文结合当下热点问题—人工智能技术,针对其在多媒体技术中的应用情况,阐述人工智能技术在多媒体领域的应用基础和技术手段,并从人工智能分类功能和私有化应用角度进行了深入探讨,以此拓展对信息技术的应用理解。
1 数字化智能多媒体技术基础
通俗一点讲,人工智能就是大数据+机器学习。这跟人的思维很像,当想要获取知识的话,需要很多的原材料,比如通过观察外边的世界,去阅读各种书籍,或者请教老师、他人等。对于计算机来说也是这样的原理,它需要获取大量的数据去做训练,在大量数据里边抽取出有用的信息,构成它的知识库。
1.1 多媒体数据是人工智能的基础
数据是人工智能技术实现的基础,在多媒体技术平台中,数据处理是如何操作的呢?首先,多媒体对象存储、直播云、媒体工厂每天会产生大量的原始数据,比如对象存储每天新增的图片会超过10亿张,但是这些原始数据并不一定是对计算机友好的,例如直播数据,里面有传输的协议、音视频的交错,还有各种编码在里面,这样的原始删去数据对机器学习来说是不友好的。就需要预处理的平台对原始数据进行处理,譬如图片压缩、音频提取与声道、采样率归一化、视频抽帧等,这些预处理的功能目前采用镜像部署的方式在弹性计算平台上运行计算,目前有的平台可以做到超过10000个虚拟节点在做这个事情。
仅有数据还是不够的,需要将数据打上标签,让计算机知道这个东西是什么,然后它通过数据标签去训练和学习,认识这一类的事物。目前打标签有多种形式,如人工标注、关键字主动抓取等,对于难于标注的语音类的数据,同时也会采用融合第三方的数据。可见,数据是人工智能的基础,未来在人工智能这个领域,数据层面的竞争也将会非常激烈。
1.2 机器学习是智能多媒体的手段
人工智能的另外一个重要环节机器学习,它解决的主要是两类问题,一是分类,二是回归。
分类目前应用得比较广泛,也相对成熟一些,如图片的分类,给出一张图片,识别这个图片是小猫还是小狗;或是对文字内容的分类,比如让计算机去分析一篇文章到底是体育类的还是经济类的等等。回归则是数学的概念,它處理的问题也是偏数学方向的,输入和输出都是数字类型的。据了解,目前有些团队在做类似股票预测的场景,像这种场景依赖的变量非常多,而且本身系统非常复杂,难度比较大。
2 人工智能在数字多媒体中的应用
在当下这个超级信息时代,分类和回归在媒体方面的应用十分广泛,如内容审核、人脸识别、自动标签、字幕识别、同声传译等。
2.1 内容审核
目前大多数的平台对用户都是开放的,用户可以上传图片、视频等。开放本身是好事,使得内容更加丰富,但会涉及到很多网络监管问题,在国家和政府对网络内容的监管要求越来越严格的背景下,很多平台机构会专门成立内容审核部门,采用人工审核的方式,对用户上传内容进行全量审核。这项工作如果完全依赖人力的话将是一项巨大的工程,且审核团队的工作枯燥乏味。
目前,比如UCloud的UMAI平台支持图片与视频的涉黄、暴力等内容识别,通过调用UMAI接口来对内容做预处理,可以将占比为绝大多数的正常内容过滤掉,而只留下极少数判定为疑似不健康的内容,需要审核团队进行进一步的复查,这样极大地减少了人工审核的工作量。
2.2 人脸识别
现在人工智能在人脸识别这块应用较为广泛,如身份认证、手机刷脸、系统登录等;另外是人脸的搜索,比如在一段视频里快速确定有没有出现某个关键人物,或一个图片集里有没有包含这样的人。人脸识别主要的流程一般如下,首先对这个图片进行人脸的检测,然后提取关键点,包括眼睛、鼻子、嘴巴、耳朵、轮廓等,切分处理以后,再给到卷积网络提取特征,最后再做人脸识别,目前在公司考勤、政治任务识别方面已有相关的应用。
2.3 自动标签
针对用户自主上传的图片,自动标签则发挥出重要作用。用户在上传图片的时候,往往只会标注一到两个关键词,对图片进行描述,而图片里边包含的大量其他的内容和信息,是没办法检索出来的,因为现在很多后台的搜索是基于关键字的。通过计算机视觉的场景识别功能,可以很好地将图片的隐藏信息挖掘出来,让图片有更多的关键字,能够被更多的场景检索出来,发挥其作用。
2.4 字幕识别
字幕识别的应用非常直接而实用,例如身份证、发票、名片的识别,可以减少手写录入的工作量,而类似视频字幕识别这种,则可以帮助计算机更好地去理解视频的内容。
2.5 同声传译
随着企业走出国门的需要,利用人工智能实现同声传译可以帮助跨国公司、员工进行不同语种间的交流。在视频直播这一块,可以在视频直播传输前,把里面的音频提取出来,做切片处理以后,把语音识别出来,经过翻译系统后输出字幕并打上时间戳,播放终端拿到字幕和视频数据后,做一次时间戳同步,在播放端进行展示。
当然,该系统的实现主要有两个难点:一是它需要经过两次计算机的识别,第一次是语音的识别,第二次是翻译,这会有一个误差的累积;二是这种场景的实时性要求比较高,比如说字幕的翻译有点滞后,视频数据又需要比较低的延迟,这样体验会非常不好。
2.6 私有化部署
以上主要聚焦于公有多媒体技术云平台的人工智能的应用,而实际上由于政策、保密等工作需要,有多媒体技术并不能直接存放到公共云平台上,在内部也有不少服务器、视频采集设备等硬件资源,希望能够直接利用上。针对这样的需求,通常需要采用私有化部署的方案。
比如UCloud平台是通过部署两件事去实现私有化部署的方案:第一是实现云平台组件化,平台内部可以集成很多种功能,比如直播、存储、录制、截图等,将这些功能剥离开,做成各种组件的形式。这样有一个好处,组件可以灵活搭配,用户需要什么功能就部署什么組件,如果对某些功能有个性化需求,只要简单修改对应组件的功能就可以了。第二是提供训练好的模型,事先利用公共平台数据训练好的模型,并根据客户需要部署到客户的私有环境中进行应用。
实际上类似的私有化部署在自动考勤系统等场景已经有成熟的应用,相关人工智能公司也在不断挖掘更多可应用的场景,希望运用人工智能技术改变日常的工作与生活方式。
3 结语
人工智能在多媒体技术的应用有着十分广泛的空间,如智能数字化多媒体教学软件的实现,使得教学系统实现人性化,且具有更强的适应性,以及采用人工智能识别技术实现入侵系统的智能化管理,给社会管理提供智能技术手段。相信,随着人工智能技术在数字化信息领域的不断发展与深入应用,将会推动信息技术的快速革新,为社会技术进步带来新的动力。
参考文献
[1]黄梦.计算机多媒体音像压缩技术的研究及应用前景探析[J].计算机光盘软件与应用,2014,(4):207-207.
[2]人工智能与多媒体结合的产物—数字视频入侵式报警系统[N].中国信息导报,1997.
[3]王立刚.关于智能多媒体教学软件的研究[J].边疆经济与文化,2006,(3):154-159.
[4]杨润华,杨汉祥,谢锦平. 基于MPEG4的多用途智能多媒体监控系统[J].电子技术,2002,(11):30-34.