胡细玲,付达杰
(江西财经职业学院,330000)
计算机网络用户的偏好和话题趋势预测方法探究
胡细玲,付达杰
(江西财经职业学院,330000)
目前网络技术的发展十分迅速,且其发展的趋势也在逐渐增强,这使得互联网对人们的生活产生了巨大的影响。网民是互联网上的媒体,是其信息传播的主力军,所以网民的行为习惯对互联网的环境的形成和变化起到重要作用,网民对话题的喜好会直接性的影响到网络话题发展的趋势,对网民进行话题偏好的预测,能够促使网络话题的发展朝着良性的方向去发展。在现如今庞大的网络信息之中去搜索信息,其难度十分大,提高对信息的搜索效率,需要强大在搜索引擎之外,还要对网民的信息偏好进行分析,根据网民的偏好,针对性的提供服务。本文首先从计算机网络背景进行介绍,然后从计算机网络用户偏好进行研究,最后对互联网话题发展趋势预测展开详细的分析。
用户行为模式;用户偏好;话题趋势预测
1.1 用户偏好的定义
用户偏好意思是指用户的兴趣爱好。网民的偏好可以从网民的关注以及所浏览的帖子当中了解。在微博当中,可以从微薄用户的信息之中了解到微博网络话题的发展。本文就以新型网络社交平台微博为例,根据微博用户的关注以及用户所发表的信息等,分析出微博用户的兴趣,从而了解微博用户的偏好,通过这些方式来了解网络话题的发展趋势,并对其进行预测。
1.2 用户相似度
微博用户的话题、话题单词以及状态单词等相似度可以体现出两个微博用户之间的相似程度和微博用户之间状态以及话题的相似度。
微博之中有一个十分特别的功能叫做热门话题,绝大数微博用户都会使用到这一功能,用户们会使用此功能对热门的话题提出自己的观点和想法。在此过程当中,由于微博用户众多,其用户的个人的背景会差异较大,所以用户之间的立场会相差甚远,以及用户之间的网络习惯也会有很大的差异。在实际过程当中,微博用户所关注的话题,会对自身产生一定影响,用户在微博当中发表自己的想法和观点所使用的词汇会发生变化。对于在微博当中经常谈论话题的用户来说,他们会对与同一话题发表多次的评论,与此同时该用户对其话题的理解也逐渐深入,用户会对原有的观点发生改变并修正其原因的观点,就是通过这样的过程使得微博用户对该话题的词汇进行累积,在这个话题当中所使用到的词汇组建成为一个词库,如果是关系较为密切的用户,那么在同一个话题的词库当中,其词汇的相似度会十分之高,那么就可以通过对用户词库的相似度来判断用户之间在话题观点上的相似度。
1.3 状态相似度
微博用户对一条状态的所呈现出的感兴趣程度就是用户的状态偏好,倘若用户感兴趣这条状态,用户就会主动去转发或者发表此状态的感受等信息。通常用户对一条状态的兴趣程度是有不同情况之分,第一种是用户曾经所发表过的状态或者是相同相近与此类状态,用户还是会对其状态保持一定的兴趣;第二种是当前时间段最为热门的话题状态,用户无论是处于什么行业或者什么阶层都会接收到这样的状态,无论用户是主动或者被动,总之,总是会被用户所收到。
在此,需要更加清楚的了解到用户和状态之间的关系,此过程当中需要了解到用户的偏好状态,并且了解它们的关系,因为用户与状态之间存在着许多问题,如两者之间的属性是不同,不能放在一起进行计算,状态是可以通过词汇进行组合而成,而用户则需要则较为麻烦,需要使用其他的词汇进行集合表示。
1.4 偏好模型的推荐方法
网络用户的偏好是预测其话题趋势的重要手段之一,因此使用偏好模型的方法对话题趋势预测有一定程度的帮助。本文将使用偏好模型的方法来对微博用户的话题趋势进行研究。
微博用户数据我们使用XML文件的,起XLM文件偏好数据的表现形式是特征向量形式:
PA=(A1,A2,A3,…,AN)
特征向量与特征向量之间是有些许的联系,常规的计算特征向量联系所使用的工具通常是余弦相似性,本文将运用余弦的特性来对微博用户的偏好特征进行计算,其余弦相似性的原理是:对于两个不同的微博用户,倘若两个用户之间的偏好数据十分相近,就表示这两名用户的余弦相似性会非常之大;这就代表着,我们可以把微博用户偏好数据相似度的问题进行形象的数学转换,转换成为数学问题上的特征向量,其夹角越小,则余弦函数值越大,其用户之间的相似度也就越高;其两个向量之间X和Y的余弦相似度的公式为
如果对使用计算相似性的特征向量的数据十分充足,那么可以通过使用微博用户偏好之中的关键词即可得到一定准确性的相似性;不过,倘若对使用计算相似性的特征向量的数据较为有限时,那么使用余弦函数的特征向量计算相似度其准确度难以保障。例如:“黄晓明的演艺事业越来越好”和“小明出演何以笙箫默”。在这两条微博中,其数据会显示没有一致的关键词,这就说明,在使用的余弦函数特征向量计算出来的相似性是依靠关键词的微博用户偏好数据。这两条微博并没有得到预想的相似度结果,但是用户们都知道这两条微博中的“黄晓明”和“小明”是代表同一个人,因此问题需要得以解决。在此暂且暂停使用余弦函数特征向量计算相似度这一方法,先将微博用户的原有的一维特征向量转变成为多维的特征向量,然后使用用户的偏好矩阵来替代用户原有的偏好特征向量,使用这种方法来提高相似度的精准性。LDA的话题模型的优点在于对用户偏好向量模型进行改进,LDA话题模型有三大元素分别是词汇、话题和文档,用数学的角度来看,文档就是词汇的一个集合,有多个词汇来组成一个话题;当LDS话题模型获得全部话题后,会将相同话题的关键词进行合并,通过模型得到偏好举证,利用这样的方法来解决偏好数据偏少带来的问题。
2.1 预测技术的意义
算机网络话题发展趋势预测具有很强的目的性,其目的是使用信息技术等方法,根据过去发生的话题信息和目前的数据信息,对未来的某一段时间网络话题发展趋势进行预测,;如其话题传播范围、话题传播时间以及话题信息量等。对于计算机网络话题趋势预测会触及到多方面的知识和技术,其中就包含着概率学、统计学、信息传播知识等。
现代社会经济的快速发展离不开预测技术的发展,预测技术是一项跟人们有着密切联系的技术,尤其是在石油价格、股票价格以及国际金价等情况,这些方面的预测对国家的经济发展起着重大的作用;在对于气象预报、山洪预报、地震预测等方面,预测技术直接影响着人们的生活甚至生命安全保障。此类的预测技术都是许多的预测手段,计算机网络信息发展趋势预测也是预测技术的组成部分,对于计算机网络话题发展趋势方法研究需要借鉴这些预测方法。
2.2 实践序列预测法
使用时间序列的预测方法是最为常见的预测方法,时间序列将信息数据以一定的方法按照时间的顺序或者倒序进行统计,根据时间形成一个完整的序列。时间序列分析方是对信息数据进行定量预测,是基于计算机网络话题发展过程中随机性以及计算机网络话题发展的延续性,使用时间序列分析的方法,对网络话题发展的规律进行系统化分析,并预测其网络话题发展趋势的各种变化。
2.3 互联网话题发展趋势的预测方法
网络用户是互联网信息的制造者和传播者,其信息的传播程度、传播途径、用户行为等复杂的因素,构建成为一个十分复杂的系统,到目前为止并没有人能够对其进行科学的定义,并无法精准的描述这一繁琐的系统。所以,对于繁琐复杂的系统进行信息发展采取有效的预测,需要全面的去看待问题,不能够将注意力只放在微观的事物上面,还需要宏观的去看待问题所在。就跟人类社会一样,是一个复杂繁琐的系统,互联网对信息传播与人类社会信息传播相似都具有一定的延续性。在不受到外部事物的干扰时,当前时刻的话题的形成是由前一段时间话题所演变而成,所以说话题发展是具有延续性,并不是凭空产生的偶然现象,所以对于计算机网络话题发展趋势预测可根据前一个时刻的信息数据进行分析预测。
对于计算机网络用户的上网偏好、行为模式的研究,以及对计算机网络话题发展趋势预测研究,有助于了解到我国计算机网络和现实社会关系,以及关系的变化。探寻计算机网络用户的行为特征,了解计算机网络用户对信息的传播情况,真正的了解到计算机网络的实质,其有着十分重大的意义。
[1] 张彦超.社交网络服务中信息传播模式与舆论演进过程研究[D].北京交通大学2012.
[2] 熊菲.互联网用户行为分析及信息演化模式研究[D].北京交通大学2013.
Research on the method of computer network user's preference and topic trend forecast
Hu Xiling,Fu Dajie
(Jiangxi Vocational College of Finance and Economics,330000)
The development of network technology is very fast, and the trend of its development is gradually increasing,hich makes the Internet have a tremendous impact on people's lives.nternet users is the media,s the main force of information dissemination,o the behavior of the Internet users of the Internet environment and the formation and change plays an important role in the topic of Internet users will directly affect the trend of the development of the Internet.ow the huge network information to search information,hich is very difficult to improve the search efficiency of information,he need to search engines,ut also to the users of information preferences for analysis,ccording to the preferences of Internet users,argeted to provide services.n this paper,e first introduce the background of computer network,nd then study the preference of Internet users.inally,e analyze the development trend of the Internet.
user behavior pattern;ser preference;opic trend prediction
【基金】 江西省自然科学基金项目“网络信息资源个性化推荐若干关键技术研究”(20142BAB207030)