互联网流量中PCDN业务识别模型算法研究及政策思考

2024-03-12 05:34马蕴颖王晟寰
广东通信技术 2024年2期
关键词:服务提供者日志流量

[马蕴颖 王晟寰]

1 引言

PCDN(Peered Content Delivery Network),即对等内容分发网络,是一种基于P2P技术的内容分发网络,通过利用边缘网络海量碎片化闲置资源而构建的低成本内容分发网络服务。它可以让用户从彼此的计算机中直接获取所需的内容,而不需要通过中心化的服务器进行传输,即部分内容从用户设备上获取,减少了对中心服务器的访问需求。

由于使用PCDN技术的带宽价格便宜,所以此部分流量在互联网流量中的占比越来越大。如何识别和分析此类业务,并进行有效监管,是随着技术发展出现的新课题。本文从实际应用出发,研究和探索了一条通过流量关键信息采集来识别PCDN业务的方法,同时对如何在政策上予以规范进行了思考和建议。

2 PCDN业务现状

在PCDN业务所涉及的各个环节中,提供网络接入的基础电信运营商,和最终服务的互联网内容提供商与正常的CDN业务相同。不同在于提供PCDN上行流量的用户,和PCDN调度平台。

2.1 用户端

典型的用户端包括以下几种。

(1)网盘优化

宽带用户在使用网盘时,可以看到类似提示:在“优化速率模式"下,将电脑端的空闲上传带宽组建成特有的传输通道,为使用电脑端下载并进入此传输通道的文件速率进行优化。本网盘将通过智能化的传输控制,优先用户的上网使用,不影响上网体验。

此类应用虽然没有明确说明采用PCDN技术进行速率优化,且名称可能有所不同,但事实上是使用PCDN。

(2)各类路由宝、赚钱宝

某视频网站在2014年曾推出一款称作“XXX路由宝”的智能路由器,除了基本的上网功能外,该路由器还可以共享上行带宽给其他用户使用,每个用户按照贡献的上行带宽大小获得奖励,可在商城兑换现金和礼品。

此类产品目前成为了PCDN业务的主要形态,互联网大厂以及PCDN平台均推出类似产品。个人用户进行相应设置后实现躺着赚钱的目标。

2.2 平台端

现有的PCDN平台有很多,包括网心云、云端、聚沙、派享云、明赋云等,为腾讯、B站等有互联网流量需求的客户,提供长视频、短视频、直播类流量业务加速服务。其主要的计费方式如表1所示,对终端配置的要求及参考价格如表2所示。

表1 PCDN平台计费方式示例

表2 PCDN服务类型、配置、价格示例

部分有技术实力的CDN平台可综合使用CDN及PCDN,组成混合的调度策略。质量要求高的采用CDN,成本要求高的采用PCDN。总之,PCDN已逐步成为CDN厂家不可或缺的选项。

综合以上现状可以将PCDN业务总结为,家宽用户占运营商的便宜,PCDN平台占家宽用户的便宜。由于PCDN带宽价格低,有需求有市场。家宽用户每月可以赚取几十元额外收入。PCDN运营商将低价带宽卖给内容服务商,降低了这些互联网公司采购带宽的成本,因此PCDN的呈现出高速增长的态势。

3 PCDN业务识别模型数据采集基础

运营商为了对PCDN业务进行管理,需要在互联网流量中识别出PCDN,为此探索了一套流量采集和识别PCDN业务的模型。

3.1 PCDN流量采集方法

为了对PCDN流量进行分析识别,需要对城域网的流量进行整体采集,即在城域网MAN周边采集互联网流量,如图1绿色区域位置。[1]采集的数据包含Netflow数据,BGP路由表信息,以及设备物理端口的SNMP信息。这些数据将经过传输电路收集到PCDN业务识别平台。

图1 PCDN流量采集模型示意

3.2 PCDN业务识别关键信息采集方法

AAA信息是PCDN业务识别的关键信息,通常每个区域都有单独的AAA服务器,需要将所有AAA日志全部采集到流量平台,以便通过宽带账号的上下行流量作为识别PCDN的重要条件。

DNS信息是PCDN业务识别的关键信息,通常每个区域都有单独的DNS,可以是一个或者多个。需要将所有DNS日志信息全部采集到流量平台,以便通过AAA中的IP地址识别是否存在代理行为。

用于PCDN业务识别的关键信息采集模型如图2所示。

图2 PCDN业务识别关键信息采集模型示意

3.3 PCDN业务识别模型数据库架构

采集到互联网流量采集平台的数据是海量的,根据DNS/AAA和Netflow数据量大小及计算特点,使用了不同的数据库,如图3所示。

图3 PCDN业务识别数据库架构

(1)DNS/AAA数据处理架构

DNS和AAA数据都需要被用来识别PCDN业务。由于DNS数据量大,每天达到上百T,来自DNS的流量首先进入Hadoop存储离线集群,加工结果进入Flink进行计算,然后输出到Clickhoue分布式数据库。

AAA数据量相对小,类似DNS数据先进入Hadoop集群,然后进入Flink进行计算,最后通过Clickhoue计算得到账号、流量等分析结果。

(2)Netflow数据处理架构

Netflow数据用于互联网流量的统计识别,为了掌握PCDN的流量情况,需要将来自网络的Netflow流量数据传输到消息中间件Kafka中。这是因为Netflow流量数据非常大。大数据分析过程中瞬时间大量数据,使用Kafka作为缓冲,不能及时处理的数据将存入Kafka中队列等待。然后使用Flink对Kafka流量进行流量分析计算。最后,相关数据进入Clickhoue进行流量计算结果输出。[1]

4 PCDN业务识别模型算法

4.1 PCDN业务识别基本方法

(1)通过AAA日志计算宽带用户单位时间内使用的流量,如果上行流量过大或者上下行比例过大,即判断存在PCDN可能性。首先根据AAA日志中的上行字节、下行字节计算出该段时间内该用户的流量。AAA日志主要字段如表3所示。

表3 AAA日志主要字段

(2)根据(1)筛选上行流量过大的用户,核查AAA日志中访问的目的端口为特殊端口的宽带用户,如35120等端口。例如根据表4 AAA日志记录,筛选出上行流量过大的IP 123.1.1.1:

表4 AAA日志整理示例

(3)核查该IP在DNS中的交互次数;

(4)通过DNS日志筛选与AAA日志中上下线信息一致的域名记录。例如,对123.1.1.1,筛查DNS日志得到表5。

表5 DNS日志整理示例

发现123.1.1.1作为www.yuncloud.com的信息源对222.1.1.1提供了服务,可以判断用户123456abcd提供了PCDN业务。

4.2 PCDN识别辅助方法

除了以上基本方法外,由于目前PCDN技术不断发展且越来越隐蔽,很多请求不再通过DNS服务器,因此在DNS日志中找不到相应记录。为此,还可以通过源、目的端口是否离散,目标IP是否为家宽地址,以及特定的PCDN特征域名进行辅助识别。

4.3 识别效果

根据目前系统已经实现的识别情况统计,PCDN流量约占城域网总流量的20%,各区域情况有所不同。如果考虑到识别不出的部分,估算PCDN的流量占比可能不低于30%。

5 PCDN业务政策思考

PCDN业务是近10年以来迅速发展起来的业务形态,尚无相关的法律法规规范。由于此业务已经在互联网流量中的占比越来越大,到了需要规范发展的阶段。下面从涉及到PCDN业务链条的各个环节论述目前存在的问题和建议。

5.1 用户端

个人客户存在安全隐患和法律风险。

一是网络安全风险。PCDN依赖网络中其他节点提供内容分发服务,这增加了与未知节点通信的风险。内容通过其他用户的设备传输,个人的数据可能会在其他设备上被传输和缓存。个人数据不仅能被平台访问,还可能被其他用户访问、窃取或篡改,存在安全风险。

二是存在的法律风险。根据2000年9月25日颁布的《互联网信息服务管理办法》[2]第四条:国家对经营性互联网信息服务实行许可制度;对非经营性互联网信息服务实行备案制度。未经许可或者未履行备案手续的,不得从事互联网信息服务。

个人客户显然没有互联网信息服务许可和备案,却从事了互联网信息服务获取了收益。尤其是,如果涉嫌非法内容传播、数据隐私泄露等,还可能承担相应的法律风险。

5.2 PCDN平台

PCDN平台存在违规行为。因为根据2021年2月国家互联网信息办公室发布的《互联网信息服务管理办法(修订草案征求意见稿)》[3],第十三条:互联网网络接入服务提供者为互联网信息服务提供者提供接入服务,应当要求互联网信息服务提供者提供相应许可证件或者备案编号;互联网网络接入服务提供者应当查验,不得为未取得合法许可证件或者备案编号的互联网信息服务提供者提供服务。用户利用互联网从事的服务依照法律、行政法规以及国家有关规定需要取得相应资质的,应当向互联网信息服务提供者提供其具有合法资质的证明文件。互联网信息服务提供者应当查验用户的证明文件,不得为未取得合法资质的用户提供服务。

对照此条款,PCDN平台无论是作为互联网网络接入服务提供者,还是互联网信息服务提供者,它不得为未取得合法许可证件或者备案编号的互联网信息服务提供者,或者为未取得合法资质的用户提供服务。实际情况是,PCDN平台不仅为未取得合法资质的用户提供服务,并且不少软件在用户不知情的情况下擅自修改了用户的配置,窃取用户的上行带宽用作PCDN,显然涉嫌违规。

5.3 运营商

当前形势下,运营商在PCDN产业链中是受害者。因为缺乏法规支持,虽然采取了一定整治措施,但是总体效果不理想。

运营商作为通信网络的建设者和运营者,投入了大量的成本,目的是保障互联网的健壮性和先进性。因为现有各项法规尚无对PCDN的规范,运营商在管理上显得较为困难。一方面,在平台端,无论是互联网大厂还是PCDN平台,均有相应的ICP、ISP许可证,因此从法律法规上无法认定PCDN平台违规。另一方面,在终端方,即便通过本文第二部分的方法识别出PCDN家宽用户,由于缺乏普通用户使用PCDN用于经营的实际证据,不能彻底杜绝普通家宽用户薅羊毛的做法。

5.4 通信主管部门

通信主管部门需要尽快出台相应的法规,对CDN业务进行规范。通过规范鼓励合规CDN业务,杜绝不合规PCDN业务。否则,长此以往将会为通信行业的整体发展带来负面影响,即当增量不增收的局面越演越烈后,最终会导致网络质量下降,劣币驱逐良币的结果。更为严重的是,PCDN存在潜在的安全风险,涉及非法内容传播、数据隐私泄露等问题。因此,为了保证互联网网络的清洁,保障网络建设者的正当权益,杜绝安全隐患,通信主管部门需对PCDN业务制订相应的法律法规。

建议将CDN业务提供者(含正常CDN及PCDN)与互联网网络接入服务提供者(运营商)、互联网信息服务提供者(头条、腾讯等内容源)区分开,独立出来作为互联网网络内容分发服务提供者进行规范。建议明确互联网网络内容分发服务提供者可开展内容分发业务,向互联网信息服务提供者提供服务。禁止其采用PCDN技术,即利用家庭宽带的空闲上行带宽进行内容分发。这样才能根除CDN服务商提供PCDN平台的念头,从而净化网络环境。

综上所述,如果能够在法律法规层面进行规范,内容分发服务商就会让CDN业务回归正常发展轨道。如果PCDN平台可以逐步退出,个人客户也就没有了薅运营商羊毛的途径。运营商也就能将精力和资源更多地集中在正常的网络建设、运营上,从而为广大普通用户及内容服务商营造更加健康的网络安全的环境。

猜你喜欢
服务提供者日志流量
冰墩墩背后的流量密码
一名老党员的工作日志
张晓明:流量决定胜负!三大流量高地裂变无限可能!
网络服务提供者的侵权责任研究
寻找书业新流量
扶贫日志
论网络服务提供者刑事责任的归责模式一一以拒不履行网络安全管理义务罪为切入点
游学日志
论网络服务提供者的侵权责任
网络服务提供者第三方责任的立法审视