杨宏民 国家广播电视总局五七三台
如今,媒体融合已成为趋势,媒体融合平台的搭建为媒体内容管理和服务提供了新的渠道和思路,而全媒体内容库是其关键部分,有利于全媒体资源的统筹管理。全媒体内容库的作用主要体现在全媒体信息的共享、检索和调用方面,使平台所有媒体资源获得更深层次的开发利用,还能对全媒体运营、策划以及生产等起到有力支撑作用。如今,各类新媒体发展迅速,网络环境更加复杂,如何帮助用户获取有价值的媒体内容,优化媒体内容服务流程,搭建行业可视化模型库成为需要解决的问题。面对庞大的全媒体内容,用户仅依靠传统分类、搜索等功能很难得到有用信息,需要借助更加智能化的工具提高检索效率,挖掘价值内容。要依据用户需求,提供精准服务,在确定用户目标的情况下应借助搜索工具帮助其快速、准确的得到目标内容,若用户对自身需求也不确定时,应体现全媒体内容智能服务特点,主动智能分析客户需求,帮助客户逐步明确并得到所需内容。全媒体内容库的开发利用要兼具数据分析和可视化功能,特别是诸多可视化分析工具的应用,实现了更加便利、直观、高效的内容库分析功能,优化了用户体验。
从多媒体类型上划分全媒体内容有视频、音频、图像以及文本等形式,对于不同的内容对象其特征往往需要从多个角度分析,如何准确的提取出内容特征是了解和利用全媒体内容的关键。
1.文本特征提取
对于多媒体中的文本信息来说,其特征主要为词性、词义、关键词以及包含的情感等,为了更准确、快速的提取文本特征,这里需要用到自然语言处理技术。
2.图像特征提取
对于图像来说,既包含图片中文本信息的提取,又包含图像特有的背景、人物、物体等信息的特征描述,将人工智能应用于内容库中图像特征分析,可对图像特征以文字的形式予以描述。为了挖掘图像的更深层的特征,更好理解图像表达的内容,应从不同维度生成图像相关的不同特征向量,并通过特征向量的对比、分析以及计算,可准确把握图像内容。
3.音频特征提取
在全媒体内容库中,音频媒体的分析处理也需要借助人工智能技术,为了获取音频特征,可有两条途径:一是进行音频语音的智能识别,并将其转化为文本形式,然后再利用文本特征提取方法挖掘音频内容,该方法局限于人类语言内容的音频;二是从声乐特征的角度进行分析,提取音频中所包含的声纹特征、音调、音色等。音频特征提取之后的分析计算有助于音频媒体中内容的把握。
4.视频特征提取
对视频来说,可以概括为以上三类媒体类别的综合体,需借助智能处理技术意义分析,所包含内容层次更多如场景、人物、声音以及文字等。为获取视频特征,需要对视频中出现的所有信息进行分类识别,可采用分帧处理或者单独提取音频和文本的方式处理,视频特征的分析计算也是必须的。
由于全媒体内容特征数量庞大,若对特征信息准确分类和快速提取,需要利用好“标签”的概念,对于多媒体内容的特征以标签的形式进行描述,可描述的内容不固定可以是选题、报道等。标签与分类不属同一概念,以某个全媒体内容来说,所属分类的维度有限,通常只能简单分为几类,相对来说比较固定,而对于标签来说,则不存在数量限制,可从各个维度进行表述并自由添加。鉴于标签的特征,面对日益庞大的全媒体内容,可将标签用于内容管理中去,通过多维度管理更能提高多媒体数据利用效率。要针对多媒体内容进行特征分析,选取有代表性的、明显的内容特点并将其设定为标签,多重维度的标签有助于媒体内容的准确定义以及海量内容的有效挖掘。内容标签的设置大大提高了目标内容的快速提取,对全媒体内容挖掘带来极大便利,而且标签的作用还体现在多媒体内容的管理方面,可以更加高效的进行组织和整理。面对未知的全媒体内容,若要发掘其中有价值的内容,在人工智能技术支持下,标签为客户提供了探索发现的钥匙。借助于内容标签,全媒体内容特征更直观的展现在用户面前,更易发现用户所需求的内容,这体现了标签的使用价值。
为了将全媒体内容库中的不同媒体形式的内容进行可视化展示,常用方法有:2D/3D 图表、数据列表、地图分布、数据模型等,当采用多维数据分析时,若要达到可视化效果则要求掌握信息不同维度数据间的内在联系,并对其分布情况以曲线图、柱状图或者雷达图等形式表达出来。这里着重对标签云技术进行分析,其主要用于文本媒体内容的可视化应用。其整体形式就是预先对某文本信息所包含的关键词进行提取,然后将其以特定顺序进行排列,最终呈现在我们面前。还要对这些关键词予以区别,区分标准主要是出现频次和重要程度,并对关键词的字体大小、颜色进行调整,给予高频次和高重要性的标签更加醒目的标记。
探索工具的应用对于发掘全媒体中有价值内容有很好的辅助效果,而且工具的应用降低了内容挖掘的难度,只需掌握简单的操作方法,就能更直接的发掘全媒体内容潜在的关联,发现更多内容价值。下面对各类探索分析工具进行介绍:
1.内容分布分析工具,能够利用全媒体内容的标签和属性等信息自动完成相关内容的分布分析工作,并具有可视化功能设计,方便使用者对内容分布有更清晰的认识;2.热点内容挖掘工具,对于各类社会热点问题,工具可在热点的基础上深入发掘其他相关信息,并且还具有领域分类功能,可依据客户对时政、体育、娱乐等不同喜好有选择性的挖掘热点信息;3.内容关联性挖掘工具,能够在大量媒体信息中心发现其潜在的关联并以不同专题的形式将其融合成,如人物专题。利用可视化功能对内容关联性挖掘结果进行直观展示,有利于提高选题、决策等有效性;4.词云分析工具,主要用于标签数据的可视化展示,帮助使用者更好掌握各关键词间的联系,提高标签数据的利用价值;5.情感分析工具,主要针对的是网络推文的评论信息及其他舆情相关信息,在智能识别技术支持下可更精确的发掘媒体内容中所表达的情感信息,并进行智能判断,实现更高价值的应用;6.数据分析与仿真工具,通过对多维数据交互关联分析,利用统一的关系/空间/时间/统计等数据分析模式,同时嵌入各种自定义业务仿真计算模型,支持对阈值模型/评估模型/预测模型等,再利用大量分析算法,还可扩充开发新的分析模型,适应行业业务需求。
处理引擎所具备的处理功能有:1.内容筛选,就是在信息数据分析的基础上对全媒体内容的保密性和重要性进行分级处理;2.内容过滤,出于减少重复、垃圾、广告等信息的考虑,对无价值信息进行过滤,还要检测上传视音频的重复性,避免相同文件二次入库;3.内容审核,主要是对上传多媒体文件进行敏感信息监测,将带有敏感因素的内容自动过滤掉,也可交于人工审核;4.识别并转换字幕,当在视频素材中包含字幕时,应将其自动转换为文本形式;5.人脸检测功能,既是可以智能检测图像、视频等中的人脸部分,还能自动识别人的信息;6.标签提取功能,主要是能够智能识别多媒体文件中包含的人物、背景、物品等信息,设置不同的标签内容;7.格式转换功能,就是能够将全媒体内容库中的素材按照需求进行格式的转换,方便特定单位使用。
内容挖掘所具备功能主要有:1.分类,主要是根据内容中所包含的信息、数据、标签等按照不同分类进行划分;2.聚类,指的是可根据数据内容的相似性自动进行聚焦,这期间涉及到内容信息、标签、属性等信息的提取,并且是经由自动聚类技术实现的,聚类过程是可控的,可对目标范围进行约束;3.自动关联,可有目的的使信息素材自行集合,素材间存在相似、相关等关系,通过信息的自动关联可方便使用者挑选和使用,而且还可通过调节关联分析灵敏度达到用户需求的目的;4.实体名提取,主要是全媒体内容中存在的如节目名、演员名、歌手名等进行提取;5.情感分析,主要就是对网络舆情中存在的代表个人所表述的情感的分析;6.提取标签,就是根据内容中所包含的数据、文本等挖掘具有特征代表性的词语并将其设置为标签。
为了提高可视化效果,利用好HTML5及CSS3 编程开发工具,使展现在用户面前的画面更加形象和生动,还能更好表达其潜在的规律及联系,给予用户更加优质的全媒体内容可视化体验,提高可视化实用效果。
综上所述,媒体融合发展使得庞大的多媒体资源的价值挖掘和可视化应用成为目前所面临的主要问题,对不同种类多媒体素材进行特征提取,可帮助人们掌握网络舆情。通过对内容设置标签,有利于发掘内容潜在联系。全媒体内容库的建设有助于平台媒体资源的有效整合和管理,提高信息检索和分析效率,对媒体融合发展提供支持。