夏 畅
新华报业传媒集团 江苏省 南京市 210092
新华日报自成立以来,珍贵有价值的音视频内容总量持续增多。因此,如何最大化的挖掘媒体资源内在价值,为经营及采编部门提供高质量服务,深度研究AI智能新技术在媒体资源系统中的应用,是目前亟需解决的问题。
近年来,随着新媒体的发展,音视频等非结构化数据量突增,传统媒资编目技术已经?无法满足现阶段需求。通过引入大数据及AI智能技术,全面汇聚集团媒体资源,解决海量音视频、图片等资源的长期保存管理问题,集团以智能数据中台为基础,媒资管理平台为核心,建设新一代智能媒资业务平台。
智能媒资业务平台采用对象存储+软件平台的方式搭建,分为基础设施层、资源服务层、应用层。其中,基础设施层采用虚拟服务器+对象存储+核心数据库搭建,智能数据中台和媒资管理平台部署在新华报业集团内部私有云平台上,海量音视频等非结构化数据存储在对象存储中。资源服务层包含媒资服务、公共服务、快速加工服务三大模块。最上层为应用层,提供多种资源入库、筛选整理、资源管理、资源调用、资源处理以及资源交换等业务应用模块。图1为系统总体架构图。
图1 系统总体架构图
平台整体采用服务分层架构,保证了系统访问的可靠性与安全性,避免了内部核心服务对外直接暴露从而带来的安全隐患。用户访问使用应用层,由应用层对内访问调用资源服务层,再由资源服务层最终访问数据库、基础计算资源与对象存储等,由此实现智能媒资业务平台的链路访问安全与数据访问安全。
平台设计使用微服务体系,充分对模块间、服务间关联关系解耦合,保证了系统的高吞吐性、高安全性,根据业务负载情况按需动态灵活扩展某些服务的弹性伸缩机制,整体设计特点如下:
微服务架构让持续部署成为可能,大大减少应用交付周期。
单个服务可以各自进行扩展,且可根据需要部署到合适的基础资源上,弹性更灵活、资源利用更高效。
业务创新便捷,可根据需求独立修改单个服务满足创新需求,避免应用整体改动带来的复杂性。
高可靠性与容错性,单个服务的故障并不会让整个系统瘫痪,容错机制能够保障可用服务的正常运行。
智能媒资平台在软件架构上也同时采用了服务分层架构,保证了系统访问的可靠性与安全性,避免了内部核心服务对外直接暴露而带来的安全隐患。用户访问使用的是应用层,由应用层对内访问调用核心服务层,再由核心服务层最终访问数据库、基础计算资源等,由此实现媒资业务平台的链路访问安全与数据访问安全。
智能数据中台,为上层业务应用提供统一的人工智能能力,包含人脸识别、语音识别、OCR处理、语义分析等人工智能引擎,进而提供多种新技术编目方式,并且能随着技术的进步不断更新编目数据,不断增加新型编目类型。
采用人工智能、对象存储等技术,实现媒体资产从内容汇聚到生产、审核、管理等全流程的智能处理,包括自动编目、内容分析匹配、自动唱词、自动摘要、自动标签、自动水印、快速索引、校对审核、媒资百科、主动推送、互联网访问等新功能,提升内容产生效率和实时度,为各类节目资料的分类管理提供自动化技术手段。主要功能如下:
2.1.1 人工智能预处理
支持集成丰富的预处理组件,包括全格式文件支持、智能转码、音频提取、图片抽帧、关键帧提取等,根据不同类型的任务需要进行智能化预处理。
2.1.2 语音识别
可将媒体包含的语音音频自动转换为文本,同时可以查看语音识别结果的文本。支持具备把语音转写为文字信息的语音识别功能。
2.1.3OCR识别
支持常用文件格式:包括但 不 限 于tiff、bmp、jpg、png等图像格式和mp4、wmv、mxf、avi、flv等视频格式。对常见中英文、标点符号等文本内容及楷体、宋体等多种常用字体均可识别。
2.1.4 文字校对
对重点词、敏感词进行专业校对,也可自定义用户库、错误库、重点词监控库等,校对标准符合全国科学技术名词审定委员会标准。
2.1.5 自动视频水印
具备最新的视频水印技术,支持对音视频等数字内容产品的版权提供保护,针对低码率内容资源使用显式水印,实现新媒体发布的同时对盗版行为起到警示作用。
媒资管理平台汇聚文字、图片、音视频等资源。通过引入AI智能技术,实现音视频资源从入库、编目、存储、技审、出库等全流程的管理,支持以文字、图片、音视频为检索条件以及根据业务、用户群体特征提供个性化高效检索服务,也可以对用户操作界面进行不同权限的灵活配置。
2.2.1 媒资汇集
突破传统媒资管理的局限性,实现音视频、图片等各类媒资的自动汇聚、快速上载、批量导入、智能处理、长期保存管理和便捷调用,满足对各类资源向多渠道分发和调用的业务需求。支持处理高清、4K超高清视音频,提供对现有历史资源提供数字化、规范化加工处理服务,完成初级编目,包括资源的分类、栏目信息等标注。能够根据不同的账号权限使用智能媒资业务平台。
2.2.2 智能检索
支持根据不同业务用户群体的特点提供个性化检索服务。打通现有媒体资源的数据交互,做到统一检索,实现图文搜索和以图搜图等多维度检索、智能检索等,并结合知识图谱功能,对检索结果中的相关词条以及词条的知识图谱进行展示,向业务人员提供基于媒资内容的智能推荐,全面提升媒资素材的检索效率。
2.2.3 大数据辅助
采集央视、省电视台等重点频道数据,通过大数据和人工智能技术,进行语音、文字、图像、场景自动识别,实现视频内容的快速查找,建立人脸库、场景库等,支持以图搜图,为新闻内容生产提供辅助。
智能媒资业务平台中存放着各种类型的数据,传统的关系型数据库无法满足现在、未来快速检索的业务需求。因此,数据库平台建设采用关系型数据库+非关系型数据库结合的方式,其中:
MySQL数据库:关系型数据库,存放所有完备的系统数据,作为核心数据库。
Redis缓存数据库:存放数据较小且访问频次很高的数据,例如入库参数、编目类配置、系统参数等,便于数据快速调用,优化用户访问系统以及内部流程处理时间效率。
MongoDB文件存储数据库:非关系型数据库,存放系统的人脸特征数据、标签数据等,便于快速调用。
针对资源入库、编目、访问等业务,系统对数据库进行写操作:
若发生配置信息、用户信息等变化,系统会同时写入MySQL与Redis,保证数据的一致性和同步性。
若资源入库,则写入MySQL任务相关信息、资源记录,以及编目数据等。
若存在AI的识别处理,则将AI结果写入MongoDB。针对用户登录、检索等业务,系统对数据库进行读操作。
若查询配置信息、用户信息等,系统会优先从Redis读取,一旦读不到或Redis无法访问,则从MySQL进行读取。
若显示资源详情,例如展示页面,则从MySQL读取编目信息,同时从MongoDB读取AI结果数据。
数据库平台流程图如图2所示。
图2 数据库平台流程图
通过新一代智能媒资业务平台的建设,可以看到以下几点价值。
平台使用面更广更宽,传统纸媒及新媒体部门均可使用,通过智能技术的引入,丰富了搜索字段,编目能力提升明显,人脸、语音等搜索方式也更加多样化和便捷化。
采编人员结合采用传统编目+智能编目的方式,缩短了编目时间,对后续审核环节等流程的效率提升也很显著。
对于编目审核、使用详细区分,配置不同权限,通过智能技术对敏感音视频自动标记,确保系统安全性及合规性。
建设智能媒资业务平台,对集团已有的珍贵档案进行统一保存,为外部单位提供不同时期、不同场景下的各种音视频素材,提高版权收益。
本文介绍了新一代智能媒资业务平台的总体架构及技术特点,引入AI技术,建设从高清视频、直播、制作、入库,到音视频、图片等媒资的分类、检索、管理、审核、分发等全流程一体化的专业视频生产发布综合平台,实现“一库打尽、服务内外、互联互通”,形成一套完整的音视频管理体系和开放服务平台,为集团各媒体、外部合作媒体等提供全流程服务,对媒体行业搭建智能媒资库平台起到了很好的探索实践意义。