一种基于动态步长的微博搜索排序算法

2016-05-27 03:45:05张妍琰姚远张娜

湖北大学学报(自然科学版) 2016年3期

关键词：步长文档排序

张妍琰,姚远,张娜

(河南城建学院计算机科学与工程学院,河南平顶山 467036)

一种基于动态步长的微博搜索排序算法

张妍琰,姚远,张娜

(河南城建学院计算机科学与工程学院,河南平顶山 467036)

摘要：微博搜索主要是计算文档与查询词之间的相关性，通过统计方法确定词量的权重，再用向量空间模型计算相关度.然而使用词量搜索方法，搜索精度并不高，检测到某条微博的信息含量有限，难以保证用户查询的关注度.针对这一问题，提出基于动态步长的微博搜索排序算法.该算法的主要实现过程:首先对微博已有的特征进行分析，然后用信息熵的方法计算微博信息含量，不使用词量为计算单位，而以词性为单位计算微博的相关度.最后把动态步长加入到ListNet排序算法中，并用Armijo-Goldstein准则对步长进行优化.通过仿真实验表明，本算法排序效果更优.

关键词：微博;搜索排序;ListNet算法; Armijo-Goldstein准则;特征值;动态步长

0引言

微博(microblogging或microblog;又称微博客)是一种基于用户关系信息分享、传播以及获取平台，用户可以通过电脑、手机文字(通常少于140字)更新信息，并实现即时分享.微博允许任何人阅读或者只能由用户选择的群组阅读，与传统博客相比，微博具有“短、灵、快”等特点.国外微博典型代表网站是Twitter，巴黎分析公司Semiocast 发布消息称截至 2012年7月1日，Twitter 用户总数为 5.17 亿[1].国内主流的互联网公司大都提供微博服务，例如新浪、腾讯、搜狐等，其中最典型的代表是新浪微博[2].截止2012年12月31日，新浪微博注册用户突破5.03亿，增长73%.2012年12月，日均活跃用户数在4 620万，同比增82%，其中有75%的活跃用户通过移动终端登录微博.Twitter(非官方称:推特 )是一家美国社交网络(social network service)及微博客服务的网站，是全球互联网上访问量最大的十个网站之一，截至2012年3月，Twitter 共有1.4亿活跃用户，Twitter 被形容为“互联网的短信服务”，与其相比，截止到2012年底Facebook的每月活跃用户数为6亿.2006年，博客技术先驱blogger创始人埃文·威廉姆斯(Evan Williams)创建了新twitter界面兴公司Obvious推出了Twitter服务，支持33种语言版本，截止2014年，其年盈利额超过5亿美金.研究表明:在Twitter中有31%的微博为转发微博[4],而在新浪微博中转发比例则高达 47.8%[5].Twitter 用户输入关键字进行搜索，可以得到按照时间排序的微博列表[6].

文献[7]中证实信息在微博网络传播过程中两级传播理论的存在.Twitter用户和新用户与在对热门话题的喜好上有着很大的差别[8].图片在照片分享网站Flickr中的传播传播过程可以分为3个阶段:线性增长期、激增期和衰亡期[9].Meij等人提出一种基于语义链接(semantic linking)的方法[10].Efron研究了基于标签(Hashtag)的微博搜索方法[11].Zhao等人探索了一种加权多元素的排序算法[12].这些微博排序算法在提取特征上创新度不够，大多基于传统Web方法提取特征(如微博长度、TF值等)，对于基于列表学习的排序应用上有限.上述算法最大的不足表现为:对于多特征微博海量数据搜索排序的适应性和训练出模型的良好性没有得到足够的验证.这些特征在研究中都具有良好的表现[13]，但对于微博排序发挥的作用有限，微博具有与Web网页不同特性[14]，需要根据微博自身特征进行探索.因为微博的简短性和随意性，当微博信息含量类似，当前的搜索算法返回的是一种列表式的搜索结果，未对用户感兴趣的内容排序.

直接特征提取是微博特征提取的主要方法，直接特征包括微博的词项长度、微博中是否包括标签@、微博中是否包括标签#[15]、用户发博文数量等，用户权威度可以作为微博特征之一.Kwak等人研究了Twitter的拓补结构和作为一个新平台的影响力[16].Kwak等[15-16]人为了研究Twitter影响力的决定因素，他们利用PageRank算法[17]以及用户粉丝的数量对用户进行排序，研究结果表明:粉丝数量不是用户影响力的唯一决定因素.Cha等人探索了3 种影响因素:入度(即一个用户的粉丝数量)、转发数(即微博被转发数量)和提及数(即提及某人名字次数)[18].研究表明:在信息传播过程中，用户影响力与其粉丝数量呈弱相关.目前的微博搜索是一种基于传统网页的克隆式搜索，最大的不足是没有深度挖掘微博本身的特征，用以适用于微博的排序.

Chen等人[19]针对微博文本的海量性和话题发散性特征，提出了一种基于动态伪相关反馈思想的微博话题提取方法.Zhang 等人[20]采用 NMF 方法进行基于用户关系的社区发现，并把 AT 模型用于兴趣社区发现，然后在Tweets和Delicious上进行了验证.Fan等人[21]提出了一种影响力扩散模型并将其用于在线网络论坛中意见领袖的发现.Zhang等人[22]通过对新浪微博,研究发现，微博系统具有很强的名人效应.

针对上述研究，我们提出基于动态步长的微博搜索排序算法，深度分析微博中的直接特征，研究直接特征中的词性信息量，在现有的ListNet排序算法基础上加入动态步长，用Armijo-Goldstein准则优化动态步长，最后把改进后的排序算法应用于微博搜索排序中.

1微博特征的提取与建模

1.1微博特征分析微博的直接特征只需经过简单计算或者直接提取就能够取得，已有的研究中提取到的大部分特征都是直接特征，对直接特征进行总结分析，得到了微博的一些直接特征:

1) 用户权威度:通过粉丝数量和好友数量之间的比率进行判断.

2) 微博转发次数:转发次数越多，说明大家对于微博内容的兴趣度越高.

3) 关键词是否是话题以及关键词在微博中的位置:Efron M[11]实验结果表明:搜索话题关键词比普通词性能效果更好.美国EE.Baxendale 调查结果显示:段落的论题是段落首句的概率为85%，是段落末句的概率为7%[23].

4) 微博的长度、微博发布时间.

5) 用户相互关注的数量、@用户的数量.@标签表明博主让指定的用户看见微博并评论.

6) 微博内容包含表情的数量.丰富的表情可以吸引更多大众的兴趣度.

1.2模型的建立现有的微博大多只提供基于关键词(字)的搜索方式，在应用上存在一些不足，该方式的搜索引擎主要依靠全关键词(字)匹配方式提升微博匹配度，如果关键词(字)不恰当则导致匹配度不高，微博信息返回较少或者返回海量式的微博信息(模糊匹配的结果).分析其原因可总结为3个方面:第一，简单建立在网页搜索基础上的克隆，这种简单的克隆方式本身缺乏对微博特征的深度挖掘，导致没有合适的微博排序算法.第二，匹配方式决定了微博搜索引擎的结果精度，基于关键词(字)匹配模式容易导致微博信息返回极少或返回海量微博数据(可能含有一些垃圾数据).第三，微博本身的特性，主要表现为简短性和随意性，如果不同微博含有的信息内容量大致相同，返回的搜索结果并未把用户感兴趣的内容放置靠前，就失去了用户的关注度.针对这3方面的原因，我们用词性为单位计算微博的相关度.

词性指以词的特点作为划分词类的根据，现代汉语的词可以分为实词和虚词两大类，细分为12类，其中实词包含名词、动词、形容词、数词、量词、代词，虚词包含副词、感叹词、介词、连词、助词、拟声词.在文本标识中虚词没有贡献，在文本分析时可以剔除没有用处的虚词，可采用停用词的方式来实现对虚词的消除.因此，把实词进行三级分类，名词和动词为一级，形容词为二级，数词、量词和代词为三级，并且所占贡献权重依次降低，分别用s1,s2,s3表示.

(1)

假设发布微博的数目为M，单位时间内转发的比例为常数，记为R，单位时间内微博信息含量为N.在t时刻累积转发次数的函数为y(t)，于是单位时间内的转发的微博数为y′(t),则在t时刻有:

R=y′(t)/y(t)

(2)

此一阶微分方程的通解为:

y(t)=CeRt

(3)

其中C为常数，单位时间内微博信息含量N是可计算的，是一个常数，于是令C=N.随着时间的推移，微博的转发比例将随时间变化，设为R(t).代入公式(3)中有:y(t)=NeR(t)t

(4)

公式(4)表明:当微博信息含量一定时，微博转发比例越高，微博累积的数量也会增加，公众关注度就高.或当微博转发比例一定时，微博信息含量越高，微博累积的数量也会增加，公众关注度就高.

2ListNet排序算法的改进

信息检索常用的排序模型有BM25[24],语言模型(language model,简称LM)[25]和PageRank[17]等.这些模型在预测未知查询时可能会导致过度拟合，排序学习最显著的特点能集合大量特征和判别训练.因此可以利用机器学习技术自动地建立有效的排序模型[26].现有的排序方法主要可分为3大类:列表排序法、对排序法、点排序法.点排序法采用一对一的训练模型，即一个查询对应一个文档进行训练.对排序法是在点排序法的基础上提出来的，它以查询对应的文档作为训练模型，其目的是准确找到输入实体对等级的差异，这导致训练时间可能较长，训练模型变得比较复杂.在对排序法的基础上又提出了列表排序法，它以查询对应文档的序列作为训练模型，此方法的排序性能更优.因此，我们把列表排序方法应用到微博搜索排序中，根据微博的特征，对微博搜索进行更好地排序.

2.1ListNet排序算法ListNet排序算法是一种典型的基于列表排序的学习方法，它定义了一种Listwise的损失函数，该损失函数用构造模型计算得到的文档排序和真正文档排序之间的差异表示，ListNet排序通过最小化损失函数实现.文献[27]实验结果表明:ListNet 算法比基于对排序方法的 RankNet、Ranking SVM 和 RankBoost 算法具有更好的效果.ListNet算法排序主要包含以下过程:

1) 把文档排序列表转换成概率分布.

2) 利用梯度下降原理来构造模型.

3) 选取交叉熵来衡量由模型训练出的文档排序和真正文档排序之间的差异.

4) 最小化这个差异值来完成排序.

ListNet算法主要使用两个概率模型来计算损失函数组合概率[27]和Top-K概率[27].

2.1.1组合概率假设待排序的文档数为n，用n=<π(1),π(2),…,π(n)，>表示一种排列组合，其中，π(i)表示排在第i个位置的文档，φ(·)是一个严格的递增且恒为正的单调函数.则排序组合n的概率为[27]:

(5)

其中，Sπ(i)表示文档在第i个位置的得分.组合概率的计算复杂度为O(n!)，当文档的数量较多时，计算量明显变太大，所以ListNet选用了另一种概率:Top-K概率.

2.1.2Top-K概率样本序列(j1,j2,…,jk) (k

(6)

n个文档中排在前k个文档(j1,j2,…,jk)的Top-K概率计算方法为[27]:

(7)

Ωk中的不同组合共有n!/(n-k)!种，这远远低于组合概率(n!种).

(8)

(9)

ListNet算法采用神经网络计算文档的得分，选取φ(x)=exp(x)，利用梯度下降的方法实现最小化损失函数和更新神经网络的参数ω.ω的迭代公式如下[27]:

(10)

2.2ListNet算法的不足ListNet算法采用的是梯度下降算法，最大的不足就是收敛速度慢，因为ListNet算法每迭代一次都要遍历一次全部的样本集，并且每次迭代过程中都需要使用复杂的梯度公式，这导致ListNet算法训练需要花费较长的时间.ListNet算法伪代码见算法1.

算法1.ListNet算法

输入:训练集{(x(1),y(1)),…,(x(n),y(n))}

输出:神经网络模型

Begin:

初始化参数ω

fori=1 tondo{

输入查询q(i)的x(i)到神经网络;

用当前ω值计算得分列表z(i)(f(ω));

使用公式(10)计算梯度Δω;

更新ωk+1=ωk-α×Δω;

}//End- For

End

算法1在迭代过程中从首查询到末查询都需要进行严格的遍历，该算法的执行时间直接取决于训练集的规模，如果训练集过大，这种遍历方式就不太实用了.基于以上不足，对算法中的梯度做了改进以降低遍历的时间复杂度.

2.3改进后的ListNet算法对ListNet算法的改进主要针对梯度下降的步长优化，因此采用Armijo-Goldstein准则[28]来计算.

(11)

(12)

在ListNet算法的基础上，构建一个近似的目标函数，该目标函数为:

f(ω)=ρω2+L(y(i),z(i))

(13)

对目标函数求导得到它的梯度为:

(14)

(15)

算法2.I-LN算法

输入:查询和对应的文档集合n

输出:神经网络模型

参数:迭代次数MAX,β∈(0,1),ρ∈(0,0.5)

Begin:

初始化参数ω

formax=1ToMAXdo{

forj=1Tondo{

输入查询;

计算z(x(j),y(j));

用Armijo-Goldstein准则计算αk;/*对步长进行优化*/

更新ωk+1=ωk-αk×ωk;

}//End-For

End

3评价指标

(16)

对于类似ListNet排序算法的搜索结果评价指标比较很多，如常见的有ERR[29](expected reciprocal rank)、NDCG(normalized discount cumulative gain) 、 P@n (Precision at Position)和MAP (mean average precison)[30-31]等等.本仿真实验采用ERR作为评价指标，因为ERR适合计算多相关度问题[29].ERR 在计算用户对当前文档的满意度时,则需要考虑之前文档的相关性以及用户找到该相关文档的努力[32].ERR的计算公式如公式(16)[29]所示，其中，y∈{0,…,ymax}.当n值增大时，ERR的值开始变小.

4实验

4.1验证性测试为了验证改进后的ListNet算法准确度，采用不同的样本集进行训练和测试.LETOR数据集是微软亚洲研究院(MSRA)为了训练排序算法性能而设计的.本实验采用的数据集是LETOR4.0数据集，包含MQ2007和MQ2008.MQ2007和MQ2008以Gov2的网页集作为原始数据集，每个都含有46个特征值，其中MQ2007有1 700个查询，MQ2008有800个查询.表1是MQ2007和MQ2008数据体的具体数据[33].

表1　MQ2007和MQ2008

在实验中用样本集MQ2007和MQ2008进行训练学习，用最小化损失函数使得模型的参数最优.改进后的ListNet算法用到的参数有迭代次数MAX、β、ρ.用T1、T2分别表示MQ2007数据集和MQ2008数据集，采用组合交叉验证的方式求解最优参数，验证方式具体为:T1为训练样本集，T2为验证样本集；T2为训练样本集，T1为验证样本集；T1和T2同时为训练样本集，T1为验证样本集；T1和T2同时为训练样本

表2　交叉验证样本集的划分

集，T2为验证样本集.总共训练4次，对4次训练的结果取平均值，以保证求解参数的可信度.样本交叉验证的划分见表2.

文献[34]对β和ρ两个参数的取值进行了实验测试，当ρ∈(0.2,0.5)和ρ∈(0.1,0.5)时实验结果较为理想.我们在验证性测试过程中对ρ和ρ取值范围和文献[34]一样，经过反复测试对参数β和ρ取平均值实验效果较为理想，ListNet算

表3　算法参数设置

法和I-LN算法训练结果参数见表3.

4.2对比实验分析1) ERR值的比较

本实验平台为IBM台式机，配置为:Intel Core i7 CPU，主频3.5 GHz，内存4 G，操作系统WIN 7.首先用新浪(sina)微博进行关键词搜索，然后利用新浪提供的API工具爬取了前100条返回结果，最后分别计算他们的ERR值，结果如图1所示.在取前10个微博的ERR值作对比分析，结果如图2所示.由图1和图2可以看出，ListNet算法和I-LN算法取得的排序结果都优于新浪搜索算法，I-LN算法明显优于这两种算法.

2) 微博词性的分析

对前10个微博中的取8个词性进行分析，具体有:名词为ng、动词为vg、数词为mg、形容词为adj、量词为qg、代词为cg、字符串为sg、网址为url.分别对这8个词性出现的次数统计，结果如图3所示.从图3可以看出，名词、动词和数词占有很高的比例，其他的词性占有比例相对较少.

图1　训练算法的ERR值对

图2　前10个微博的ERR值对

图3　微博词性的统

图4　微博词性的权

为了进一步检验相关度，用文档逆频率计算微博中词性的权重，在通过词性的权重来计算信息熵，最后通过求解信息熵可以得到微博中的词性信息量，信息熵的计算见公式(8)所示.从图4可以看出，简单的名词累积并没含有充分的信息量，信息量不是依靠简单的词频累加.词性的权重越大，信息含量也越大，微博排序越靠前，刚好验证了本文中的排序思想.

5总结

微博搜索一般采用词量的搜索方法，导致其搜索精度并不高.我们采用了一种基于词性权重计算微博信息量的方法，先对微博已有的特征进行分析，把动态步长加入到基本的ListNet算法中，再用Armijo-Goldstein准则对步长进行优化.虽然本文中微博搜索排序算法具有更好地表现，但也存在一些不足，未对用户的关注度进行预测分析，这将是我们未来研究的重点.

6参考文献

[1] Sina Tech.The numbers of registered users of twitter is over 500 million:rank only second to Facebook[EB/OL].http://tech.sina.com.cn/i/m/2012-07-31/00387445367.shtml.

[2] Liu X H,Wei F R,Duan Y J,et al.Semantic search of microblogs[J].Journal of Shandong University (Natural Science),2012,47(5):39-42.

[3] PhoenixNet.The numbers of registered users of sina microblog is nearly 500 million,75% of active users login in with mobile terminals[EB/OL].http://tech.sina.com.cn/i/2012-02-06/ 15246687778.shtml.

[4] Asur S,Huberman BA,Szabó G,et al.Trends in social media:Persistence and decay[C].Adamic LA,Baeza-Yates RA,Counts S.Proc of the 5th Int’l AAAI Conf.on Weblogs and Social Media.Menlo Park:The AAAI Press,2011：434-437.

[5] Wang C X,Guan X H,Qin T,et al.Who are active? An in-depth measurement on user activity characteristics in sina microblogging[J].Proc of the GLOBECOM Piscataway:IEEE,2012:2083-2088.

[6] Nagmoti R,Teredesai A,De Cock M.Ranking approaches for microblog search[C].Proc of the 2010 IEEE/ACM Int’l Conf on Web Intelligence-Intelligent Agent Technology (WI-IAT),New York:IEEE Press,2010:153-157.

[7] Wu S,Hofman J M,Mason W A,et al.Who says what to whom on Twitter[C].Srinivasan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R.Proc of the 20th Int’l Conf on World Wide Web,New York:ACM Press,2011:705-714.

[8] Yu L,Asur S,Huberman B A.What trends in Chinese social media[C].Proc of the 5th SNA-KDD Workshop’11 (SNA-KDD 2011),New York:ACM Press,2011:81-87.

[9] Cha M,Mislove A,Gummadi KP.A measurement-driven analysis of information propagation in the flickr social network[C].Proc of the 18th Int’l Conf on World Wide Web,New York:ACM Press,2009:721-730.

[10] Meij E,Weerkamp W,Rijke M D.Adding semantics to microblog posts[C].Adar E,Teevan J,Agichtein E,Maarek Y.Proc ofthe 5th ACM Int’l Conf on Web Search and Data Mining,New York:ACM Press,2012:563-572.

[11] Efron M.Hashtag retrieval in a microblogging environment[C].Crestani F,Maillet S M,Chen H H,Efthimiadis E N,Savoy J.Proc of the 5th ACM Int’l Conf on Web Search and Data Mining,New York:ACM Press,2012:563-572.

[12] Zhao L L,Zeng Y,Zhong N.A weighted multi-factor algorithm for microblog search[C].Zhong N,Callaghan V,Ghorbani A A,Hu B.Proc of the 7th Int’l Conf of AMT 2011,BerlSpringer-Verlag,2011:153-161.

[13] Nagmoti R,Teredesai A,De Cock M.Ranking approaches for microblog search[C].Proc of the 2010 IEEE/ACM Int’l Conf on Web Intelligence-Intelligent Agent Technology (WI-IAT),New York:IEEE Press,2010:153-157.

[14] Teevan J,Ramage D,Morris MR.#TwitterSearch:A comparison of microblog search and Web search[C].King I,Nejdl W,Li H.Proc of the 4th ACM Int’l Conf on Web Search and Data Mining,New York:ACM Press,2011:35-44.

[15] Efron M.Information search and retrieval in microblogs[J].Journal of the American Society for Information Science and Technology,2011,62(6):996-1008.

[16] Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media[C].New York:ACM Press,2010:591-600.

[17] Lawrence P,Sergey B,Rajeev M,et al.The PageRank citation ranking:Bringing order to the web[R].Technical Report,StanfordUniversity,1999.

[18] Cha M,Haddadi H,Benevenuto F,et al.Measuring user influence in Twitter:The million follower fallacy[C].Proc of the 4th Int’l AAAI Conf on Weblogs and Social Media,Menlo Park:AAAI Press,2010:10-17.

[19] Chen Lin,Chun Lin,Lin Z Y,et al.Hybrid pseudo relevance feedback for microblog retrieval[J].Journal of Information Science,2013,39(6):773-788.

[20] Zhang Z F,Li Q D,Zeng D,et al.User community discovery from multi-relational networks[J].Decision Support Systems,2013,54(2):870-879.

[21] 樊兴华,赵静,方滨兴,等.影响力扩散概率模型及其用于意见领袖发现研究[J].计算机学报,2013,36(2):360-367.

[22] 张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安：西安交通大学学报,2013,47(4):124-130.

[23] 杨乐.基于同义词词林的自动文摘系统的研究[D].天津：天津大学,2007.

[24] Stephen R,Hugo Z,Michael T.Simple BM25extension to multiple weighted fields[C].Grossman D,Gravano L,Zhai C X,Herzog O,Evans D A.Proc of the 13th ACM Int’l Conf on Information and Knowledge Management,New York:ACM Press,2004:42-49.

[25] Gao J F,Nie J Y,Wu G Y,et al.Dependence language model for information retrieval[C].Sanderson M,Jarvelin K,Allan J,Bruza P.Proc of the 27th Int’l ACM SIGIR Conf on Research and Development in Information Retrieval,New York:ACMPress,2004:170-177.

[26] Qin T,Liu T Y,Xu J,et al.LETOR:A benchmark collection for research on learning to rank for information retrieval[J].Information Retrieval,2010,13(4):346-374.

[27] Cao Z,Qin T,Liu T Y,et al.Learning to rank:From pairwise approach to listwise approach[C].Ghahramani Z.Proc of the 24th Int’l Conf on Machine Learning,New York:ACM Press,2007:129-136.

[28] Armijo L.Minimization of functions having Lipschitz continuous first partial derivatives[J].Pacific Journal of Mathematics,1966,16(1):1-3.

[29] Chapelle O,Metzler D,Zhang Y,et al.Expected reciprocal rank for graded relevance[C].Cheung D,Song I Y,Chu W,Hu X H,Lin J.Proc of the 18th ACM Conf on Information and Knowledge.

[30] Jarvelin K,Kekalainen J.IR evaluation methods for retrieving highly relevant documents[C].management,New York:ACM Press,2009:621-630.

[31] Jarvelin K,Kekalainen J.Cumulated gain-based evaluation of IR techniques[J].Jounal of ACM Trans on Information Systems,2002,20(4):422-446.

[32] Niu S Z,Guo J F,Lan Y Y,et al.Top-k learning to rank:Labeling,ranking and evaluation[C].Hersh W,Callan J,Maarek Y,Sanderson M.Proc of the 35th Int’l ACM SIGIR Conf on Research and Development in Information Retrieval,New York:ACM Press,2012:751-760.

[33]Tie-Yan Liu,Jun Xu,Tao Qin,et al.LETOR:Benchmark Dataset for Research on Learning to Rank for Informaiton Retrival[DB/OL].LR4IR，2007.

[34] 郑悦洁.一种基于随机梯度下降的ListNet排序算法[D].广州：中山大学,2011.

(责任编辑赵燕)

A microblog search sort algorithm based on dynamic stepsize

ZHANG Yanyan,YAO Yuan,ZHANG Na

(Institute of Computer Science and Engineering,Henan University of Urban Construction,Pingdingshan 467036,China)

Abstract:Microblog search is mainly calculation the relevance between the document and query,these weight of words are determined by the statistical method,and the relevance degree is calculated by vector space model.However,searching by words is not enough accuracy,the information content of microblog unit detection through this method is limited,thus inadequate to show the true attention paid by users in their query.Aiming to this problem,we proposed a sort algorithm for microblog search based on dynamic stepsize.The main process of algorithm:firstly,the existing features of microblog were analyzed.Secondly,the information content of microblog were calculated by using information entropy method,words were not as the calculating unit,but calculation the relevance of microblog based on part of speech.Finally,the dynamic stepsize was introduced to the ListNet sort algorithm,and it was optimized by Armijo-Goldstein principle.The simulation experiment results show that the algorithm sort effect is better.

Key words:microblog;search sort;ListNet algorithm;Armijo-Goldstein principle; eigenvalue; dynamic stepsize

中图分类号:TP391.6

文献标志码:A

DOI:10.3969/j.issn.1000-2375.2016.03.016

文章编号:1000-2375(2016)03-0258-09

作者简介：张妍琰(1981-)，女，硕士，讲师，E-mail:yanyanschool@163.com

基金项目：国家自然科学基金(61202248)资助

收稿日期:2015-11-18