P2P文件污染与防御

2011-03-14 06:44黄志华张振宇龚金辉黄晓辉
网络安全技术与应用 2011年8期
关键词:声誉信任污染

黄志华 张振宇 龚金辉 黄晓辉

1新疆大学信息科学与工程学院 新疆 830046

2上海交通大学电子工程系 上海 200240

0 引言

Peer-to-Peer(P2P)文件共享系统是目前最为流行的内容分发方式,具有结构简单,扩展性好的特点,但由于缺乏中心管理机构和安全机制,P2P用户行为及其共享的内容缺乏监管。为了保护版权,一些污染公司(如Overpeer,Retspan等)向P2P网络中注入污染内容保护版权文件,使得P2P面临严重的内容安全威胁。文献[1]显示在kazaa网络中80%的流行文件副本受到内容或元数据污染,同样在overnet和FastTrack上也有50%-90%不等的流行文件被污染。文件污染不仅浪费了有限的网络带宽资源,还会降低用户下载内容的质量,打击用户使用文件共享系统的积极性。本文从网络安全的角度讨论P2P文件共享系统的污染及防御。

目前P2P文件污染研究主要集中在三个方向:文件污染策略分析,文件污染建模,文件污染防御。本文对三个方向的研究现状进行总结,并分析每个研究方向面临的问题。

1 文件污染策略

P2P中的文件污染问题首先由Liang等提出,此后引起了学术界的广泛研究。目前常用的文件污染策略有内容污染,元数据污染和索引污染。

1.1 内容污染

内容污染的目标是使网络中传播的文件内容不可用,通过在污染目标中增加白噪声,略去一些内容或用一些新内容取代部分或全部目标内容的方式降低目标文件质量。内容污染分为版本污染和副本污染。

1.2 元数据污染

元数据是用来描述共享内容信息的数据,一个共享文件的元数据通常包括文件名,文件大小和文件描述(标题,演唱者,专辑名,关键词),文件描述用来匹配用户的查找请求。

元数据污染破坏文件的元数据而不是文件内容,将一个文件的元数据用其他与文件不相关的元数据代替,例如,用与文件内容无关的关键词描述文件,使用户无法根据关键词找到期望的文件。元数据污染使用户花费下载时间和带宽却得到错误的文件,增加了无效的网络流量。

1.3 索引污染

在P2P文件共享系统中,用户通过关键词查找下载内容,分布式索引结构可提供快速查找。索引信息包括版本标识,文件提供者位置以及文件关键词标识。版本标识通过对共享内容进行哈希计算而获得,关键词标识通过对每个关键词哈希而获得。当用户提交查询请求时,系统对提交的关键字进行哈希,并在索引结构中找到匹配的关键词标识及相应的文件版本标识及文件所在位置。

索引污染直接攻击P2P网络的索引记录。由于存储索引信息的节点很少验证索引信息的真实性,攻击者可以在索引表中插入大量虚假记录,这些记录使用户无法找到目标文件。索引污染的代价小,但污染效果惊人,它通常导致用户经过漫长的等待却毫无收获。虽然不增加流量,但会降低用户使用系统的信心。

2 文件污染建模

由于 P2P网络规模庞大,文件污染的研究很难在实际P2P网络中进行,建模是污染传播研究的重要方法。目前的污染模型主要有两种:流行病学模型和用户行为模型。流行病学模型通过状态转移分析污染文件数量的变化,而用户行为模型侧重分析用户行为对污染传播的影响。

2.1 流行病学模型

流行病学模型在生物学中用来建模疾病在一个种群中的传播,Thommes第一次将流行病学模型(又称为SIR模型)引入到P2P污染建模中,并通过对eDonkey的测量获得模型参数的参考值,研究发现在不考虑用户行为多样性的条件下,污染文件投放的初始数量是影响用户感染率的关键因素。该模型将所有用户分为三种状态:敏感态(susceptible),感染态(infected),恢复态(recovered)。并用一组方程描述每个状态节点数量的变化规律。所有用户在三种状态之间转换,转换条件如图1所示。

图1 流行病学模型

文献[6]用流行病模型研究了 eDonkey系统中的文件分发及污染对分发的影响,并讨论了用户的自私行为对文件分发的影响。文献[7]在流行病学模型中考虑了服务提供者声誉和用户选择策略对污染传播的作用,发现节点的上传和下载容量、用户加入和离开及选择服务提供者的策略都会对污染传播产生影响。文献[8]研究了文件流行度,文件共享比和用户对污染的认知度对污染传播的影响。

流行病模型通常假设所有用户的行为是同构的,获得的下载性能也相同,即用户下载污染文件的概率与用户本身的行为无关,只与污染文件的数量有关。但实际的P2P网络中,为了提高服务的公平性,常常采用激励机制为不同的用户提供分化服务(例如BiTtorrent中的tit-for-tat策略),当用户行为不同时,下载污染的概率是不相同的。所以,假设用户行为同构(即所有用户下载污染的概率相同)并不符合实际的网络用户行为,无法体现P2P网络服务的公平性,基于同构用户行为的污染模型并不能准确反映出实际网络的污染传播规律,更加精确的污染模型有待进一步研究。

2.2 用户行为模型

由于P2P网络中的每个用户既是服务消费者又是服务提供者,用户行为对P2P系统的性能有关键作用。从用户行为的角度建模污染传播,能更好地反映用户行为的动态,多样的特征。

Dumitriu等发现内容污染的有效性依赖用户行为,在合作的用户环境中,污染很难得逞,而当用户不愿共享、不删除污染文件和在收到污染文件后很快放弃下载都会有利于污染的传播。Lee等通过实验测量了真实用户对污染文件的感知度并将结果应用到提出的分析模型,发现用户感知文件污染是影响污染动态性的关键因素。Kumar等提出用非线性微分方程建立污染模型,研究用户对流行版本的偏好、重下载的概率及自私行为对污染传播的影响。

以上研究表明,用户行为对污染传播有关键作用,但目前基于用户行为的污染模型同样不够精确,没有考虑用户行为的异构性,无法描述不同行为的用户在采用分化服务的P2P网络中可以获得完全不同下载性能的特征。另外,在采用激励机制的P2P网络中,下载性能会随着用户行为的改变而变化,目前的模型主要针对一个主题的下载而建立,无法描述下载性能的变化规律。

2.3 其他模型

以上模型都是针对一种污染策略建模,文献[11]提出一个统一模型,研究在同一个网络同时施加内容污染和索引污染时两种策略的相互影响。研究发现作为影响用户选择的两个因素,两种污染方式能相互抑制,索引污染会降低内容污染攻击的影响力,这说明单独对某一种污染方式建模是不够的,应该在模型中考虑不同污染的相互影响。

3 污染防御机制

由于P2P网络中没有可信的第三方,P2P用户无法通过传统的第三方权威验证的方法验证内容或交易方的可信度。目前的污染防御研究主要针对内容污染和索引污染展开。

3.1 基于声誉的防御

声誉系统记录每个节点的交易历史,并用声誉表示其他节点对该节点的综合评价。声誉是所有第三方节点推荐及其推荐可靠性的聚合,高声誉节点提供的服务更可靠。由于P2P规模庞大,节点自己的交易经验有限,声誉是判断陌生节点可靠性的重要方法。

现有的声誉机制分为节点声誉,对象声誉和混合声誉。文献[13]分析了声誉系统的设计要求并比较了主要的声誉建立机制。

节点声誉根据节点之间的历史交易为每个节点计算一个客观或主观的声誉值,服务请求节点根据声誉值选择服务提供者。EigenTrust和Scrubber及XRep等都属于节点声誉机制。对象声誉是指根据节点对下载文件的评价为每个文件建立声誉,并根据评价的相似度或评价者与评价收集者的相关性来估计评价的可靠性。Credence是最著名的对象声誉系统。对象声誉和节点声誉有各自的优缺点,Costa等将对象声誉与节点声誉相结合,获得快速收敛和识别污染的能力。

P2P声誉机制自提出以来得到广泛的研究,但真正应用到实际 P2P网络中发挥作用的声誉系统却很少,目前只有Credence真正实现并有试验评估。由于声誉的主要目的在于防止用户的自私和恶意行为,我们分析声誉机制无法得到应用的原因主要有以下几点:

(1) 声誉模型对于用户行为的假设过于理想化。比如,多数声誉系统假设用户愿意合作共享经验和提供反馈,但Kazaa中只有1%左右的用户提供了评价;Eigentrust假设P2P网络中有预先可信任的节点,Costa假设评价者对内容或节点的评价都是诚实的。这些假设在P2P网络中是不现实的。

(2) 声誉机制实现的复杂度太高,文献[17]研究了可靠性与声誉成本的折衷,发现高可靠性的声誉需要中心节点管理声誉,面临扩展性和下载瓶颈的问题,而分布式管理则需要牺牲部分可靠性。

(3) 声誉系统通常假设节点之间会有重复交易,并能以此建立可靠的直接信任关系,但 Piatek等测量了 1000个bittorrent蜂群发现节点之间的重复交易率非常低,不到 1%的用户交易次数超过 1,这说明用于计算声誉的用户评价和推荐大部分基于单次交易,与声誉系统的假设不符。

(4) 声誉系统自身也面临安全问题,文献总结了针对声誉系统的攻击及防御策略,包括女巫攻击,刷白攻击,诽谤攻击等。这说明声誉系统虽然能降低污染风险,但会带来新的安全问题。

为了使声誉系统能应用到实际网络中,我们认为,建立贴近现实网络的模型是必要的。由于 P2P网络由用户行为驱动,详细研究 P2P网络用户行为的特征及建模是必要的。

3.2 基于信任的防御机制

信任是施信方对受信方在给定环境和时间内提供满意服务的意愿和能力的信仰。信任是主观的、私人的,同时也是动态的、不对称的关系。信任的建立方法有很多,上节的声誉也是建立信任的一种方法,但除了声誉,节点之间还可以通过其他方式建立信任。文献[21-22]提出利用交易节点间的信用来建立信任,上传使信用增加,下载使信用减少,当A从B的下载多于A给B的上传量时,B对A的信用减少为0,B将不再为A提供服务,但A可以为B提供服务还债使信用恢复。

文献[23]总结了主要的信任模型,将现有模型按照计算方法分为模糊逻辑、生物启发,解析表达和贝叶斯网络四类。模糊逻辑可以用接近人类认知的方式表达信任,声誉和推荐,但受到条件概率的限制;生物启发机制对动态网络有高的适应性和可扩展性,但容易错判,可能使节点选择一个恶意节点作为最信任的节点而放弃好节点;用解析式表示信任易于理解,但不能考虑所有可能的因素;贝叶斯网络表达多方面信任,但是当变量之间不是相互独立时,计算复杂太高。信任模型与声誉模型一样面临诸多挑战,用户行为的不确定性、网络的动态变化性以用户身份的匿名性都给信任研究带来了新的挑战。

3.3 其他防御机制

Liang等提出用黑名单方法找到包含污染者的IP地址范围,不需要下载和分析文件内容,可以降低带宽压力,但需要使用爬虫工具收集P2P网络的元数据,需要中心架构分析数据,受到costa提出的扩展性,容错性和安全问题的挑战。关于索引污染防御,文献提出用建立多个索引拥有者的冗余机制防止索引污染,文献[27]提出通过用户合作过滤索引,防御DHT结构P2P中的污染。文献[28]根据文件的平均保留时间检测虚假文件。

4 总结与展望

本文对P2P文件共享系统中的文件污染进行研究,总结P2P文件污染研究的发展方向及现状,并分析了每个研究方向面临的问题。内容安全是P2P文件共享系统生存的基础,在P2P流量占据60%以上网络流量的今天,P2P文件污染研究具有重要意义。我们下一步工作将重点研究P2P用户行为的特征,探索污染防御的新方法。

[1]J. Liang, R. Kumar, Y.J. Xi, K.W. Ross, Pollution in P2P file sharing systems [C]. Proc. of IEEE Infocom 2005.

[2]J. Liang, N. Naoumov, K.W. Ross, The index poisoning attack in P2P file sharing systems [C]. Ieee Infocom Ser. 2006.

[3]U. Lee, M. Choi, J. Cho, M.Y. Sanadidi, M. Gerla, Understanding pollution dynamics in p2p file sharing [J]. UCLA CSD Techical Report. 2005.

[4]N. Christin, A.S. Weigend, J. Chuang, Content availability, pollution and poisoning in file sharing peer-to-peer networks [C]. ACM E-Commerce Conference. 2005.

[5]R. Thommes, M. Coates, Epidemiological models of peer-topeer viruses and pollution [C]. Proc. of IEEE Infocom. 2006.

[6]K. Leibnitz, T. Ho feld, N. Wakamiya, M. Murata, On pollution in eDonkey-like peer-to-peer file-sharing networks [C]. Proc. of GI/ITG MMB. 2006.

[7]Q. Gu, K. Bai, H. Wang, P. Liu, C.H. Chu, Modeling of pollution in p2p file sharing systems [C]. Proc. of IEEE CCNC. 2006.

[8]J.P. Mao, Y.L. Cui, J.H. Huang, J.B. Zhang, Analysis of Pollution Disseminating Mode of P2P Network [C]. Proc. of International Symposium on Intelligent Information Technology Application. 2008.

[9]E.K. D.Dumitriu , A.Kuzmanovic, I.Stoica and W.Zwaenepoel, Denial-of-service resilience in peer-to-peer file-sharing systems [C]. Proc. of ACM SIGMETRICS. 2005.

[10]R. Kumar, D.D. Yao, A. Bagchi, K.W. Ross, D. Rubenstein, Fluid modeling of pollution proliferation in P2P networks [C]. Proc. of the Joint International Conference on Measurement and Modeling of Computer Systems. 2006.

[11]C. Shi, D.Y. Han, X.Y. Hu, Y. Yu, A unified model of pollution in P2P networks [C]. Ieee International Symposium on Parallel & Distributed Processing. 2008.

[12]E. Chang, T. Dillon, F.K. Hussain, Trust and reputation for service-oriented environments [M]. John Wiley & Sons. 2006.

[13]L. Mekouar, Y. Iraqi, R. Boutaba, Reputation-based trust management in peer-to-peer systems: taxonomy and anatomy [M]. Handbook of Peer-to-Peer Networking. 2010.

[14]K. Walsh, E.G. Sirer, Experience with an object reputation system for peer-to-peer filesharing [C]. USENIX Association. 2006.

[15]C. Costa, J. Almeida, Reputation systems for fighting pollution in peer-to-peer file sharing systems [C]. In: 7th IEEE International Conference on Peer-to-Peer Computing. 2007.

[16]N. Curtis, R. Safavi-Naini, W. Susilo, X^ 2Rep: Enhanced Trust Semantics for the XRep Protocol [J]. Lecture Notes in Computer Science. 3089. 2004.

[17]M. Gupta, M.H. Ammar, M. Ahamad, Trade-offs between reliability and overheads in peer-to-peer reputation tracking [J]. Computer Networks. 50. 2006.

[18]M. Piatek, T. Isdal, A. Krishnamurthy, T. Anderson, One hop reputations for peer to peer file sharing workloads [C]. USENIX Association. 2008.

[19]K. Hoffman, D. Zage, C. Nita-Rotaru, A survey of attack and defense techniques for reputation systems [J]. ACM Computing Surveys (CSUR). 42.2009.

[20]R. Aringhieri, E. Damiani, S.D. Di Vimercati, S. Paraboschi, P. Samarati, Fuzzy techniques for trust and reputation management in anonymous peer-to-peer systems [J]. J.Am. Soc. Inf. Sci. Technol. 57. 2006.

[21]A. Nandi, T.W. Ngan, A. Singh, P. Druschel, D. Wallach, Scrivener: Providing incentives in cooperative content distribution systems [C]. ACM/IFIP/USENIX 6th International Middleware Conference. 2005.

[22]M. Gupta, P. Judge, M. Ammar, A reputation system for peer-to-peer networks[C]. Proc. of the 13th International Workshop on Network and Operating Systems Support for Digital Audio and Video(NOSSDAV). 2003.

[23]F.G. M¨¢rmol, G.M. P¨¦rez, State of the Art in Trust and Reputation Models in P2P networks[M]. Handbook of Peer-to-Peer Networking. 2010.

[24]J. Liang, N. Naoumov, K.W. Ross, Efficient blacklisting and pollution-level estimation in P2P file-sharing systems[J]. LNCS, 3837. 2005.

[25]C. Costa, V. Soares, J. Almeida, V. Almeida, Fighting Pollution Dissemination in Peer-to-Peer Networks[J]. Applied Computing, 1.2007.

[26]Z. Cai, R. Chen, J. Feng, C. Tang, Z. Chen, J. Hu, A holistic mechanism against file pollution in peer-to-peer networks [C]. SAC 2009.

[27]K. Shin, D.S. Reeves, Winnowing: Protecting P2P Systems Against Pollution Through Cooperative Index Filtering [J]. J Netw Comput Appl.

[28]Q. Feng, Y. Dai, Lip: A lifetime and popularity based ranking approach to filter out fake files in p2p file sharing systems [C]. Proc. of IPTPS. 2007.

猜你喜欢
声誉信任污染
短期与长期声誉风险的不同应对
Top 5 World
坚决打好污染防治攻坚战
坚决打好污染防治攻坚战
审计师声誉与企业融资约束
审计师声誉与企业融资约束
嘤嘤嘤,人与人的信任在哪里……
声誉树立品牌
对抗尘污染,远离“霾”伏
信任