论如何通过DPI大数据分析构建视频资源特征库

2020-07-10 02:50唐蓉
科学与信息化 2020年12期
关键词:视频特征大数据

唐蓉

摘 要 随着互联网业务的蓬勃发展,宽带网络和移动互联网的用户规模和流量规模急剧扩张,用户对上网的感知要求也越来越高。不断改善用户的互联网体验、了解用户真实的上网感知已是各运营商的重要工作目标。本文讨论以全用户的真实上网访问日志为数据源,利用HDFS大数据分布式存储和MapReduce大数据处理技术,运用统计建模方法,构建基于流量标签化的视频特征库,为后期开展质量分析和优化提升提供帮助。

关键词 DPI;大数据;视频;特征

运营商传统保障用户上网感知、提升网络资源质量的方式,主要依赖于拨测技术。通过在省网、城域网以及地市家客、集客等各个层级的探针,在一定程度上模拟用户上网访问行为,访问某些网络资源,可检测到相应的内容网络的质量指标情况。存在不足的是,拨测始终是模拟用户行为,而非用户真实的上网访问日志,数据覆盖不全,拨测效率低,不能针对具体的ICP内容进行精细化拨测,因此不能代表用户的真实访问情况[1]。

目前,DPI采集技术在运营商网络里大量覆盖,同时,DPI检测的是全用户的真实上网访问日志,能通过对DPI采集到的数据进行分析与处理,可真实、有效地对用户的上网感知进行评估,并定位质差。

本系统基于DPI探针采集到的用户全量的上网访问记录并按规范合成响应的XDR话单数据,利用HDFS大数据分布式存储和MapReduce大数据处理技术,运用统计建模方法,实现对用户真实上网访问记录情况的有效解读,对用户上网感知的保障、提高本省内容满足率和节约网间结算成本等方面提供直观有效的支撑方案。

系统功能架构如图1所示:

包括链路、采集、分析三个层次。分析平台功能主要包括视频资源库、视频资源质量可视化、视频告警視图、视频资源深度分析以及管理中心五大分析模块。

视频资源库模块基于XDR话单分析本省用户的视频资源情况,并根据剧集资源特征,提取XDR话单中视频剧集特征码,按照各视频ICP不同的视频剧集资源唯一识别规则,对提取到的视频剧集特征码进行基因重组,构建可以在现网访问的网址信息,通过Python爬虫技术,建立视频剧集特征码和视频剧集名称具有一一对应关系的视频剧集资源库。

系统通过HTML页面分析技术分析Top视频网站的视频剧集特征,同时挖掘该特征在XDR话单中的存在形式,并从话单中提取出来;利用视频剧集特征基因重组技术,将需爬取视频剧集名称的视频剧集特征按照其网站的规律,对视频剧集特征进行重构,构建出一个可以在现网访问的网址信息;再通过Python爬虫技术,结合HTML语言文本还原技术,爬取现网数据,并建立视频剧集特征码和视频剧集名称具有一一对应关系的本地热门视频剧集资源特征库。有效的识别是管控的基础,本地热门视频剧集资源特征库的建立使视频业务识别领域的识别粒度更细了一个层次。

本系统的热门视频资源特征库的建立,为网间视频资源的识别与管控提供了有力支撑。利用热门视频资源库,分析用户在网间出口的上网日志数据,获取网间流量中的热门视频资源,通过本系统的对外数据传输接口,定期将热门视频资源信息传输至缓存系统,供缓存系统进行缓存。针对不符合缓存系统缓存规则的热门视频资源,本系统可提供热门视频资源的详细信息,如uri、流量数据等,共缓存系统进行缓存分析或强制缓存。从而达到提升用户上网视频质量感知的目的。

参考文献

[1] 陈先灏.DPI技术应用发展研究[J].无线互联科技,2015(21):37-38.

猜你喜欢
视频特征大数据
抓特征解方程组
基于IPv6组播技术校园网络视频服务设计
基于大数据背景下的智慧城市建设研究
春天来啦(2则)
抓特征 猜成语
不存在的特征