李慧+闫琰
摘要:在大数据环境下,农户在互联网中获取指导农业生产的信息更加困难,随着“一带一路”国家发展战略的全面展开,广大农民对农业信息服务的需求有增无减。针对传统推荐系统不能反映用户兴趣迁移、推荐精度不高等问题,提出来基于组合模型的农业信息推荐系统,提高农业信息推荐的自适应性和准确性。系统结合云计算技术提出一种基于Hadoop+Nutch的全网农业信息数据仓库构建方法,通过纳入时间权重、情景变更和兴趣迁移的优化向量空间模型构建了自适应性的用户兴趣模型,以及借助组合神经网络提高推荐精度提出了组合推荐算法。最后通过评价召回率、准确率等指标表明,基于组合模型的推荐系统可大幅提高推荐准确性和鲁棒性。
关键词:农业信息大数据;推荐系统;自适应兴趣模型;组合推荐算法
中图分类号: C931.6;S126文献标志码: A文章编号:1002-1302(2017)17-0209-06
通信作者:闫琰,博士,主要从事农业经济理论与政策研究。E-mail:yanyannewgirl@163.com。随着全球农业市场化、国际化进程加快,农业信息市场流通环节增多、信息海量且分散凌乱,农业信息更多以非结构化数据的形式出现。海量的农业信息呈现出大数据的特征:数据量大(volume)、处理速度快(velocity)、数据类型多(variety)、价值大(value)、精确性高(veracity)[1]。目前,我国已建成的农业类网站超过4万个,2015年中央一号文件更是强调要“支持电商、物流、商贸、金融等企业参与涉农电子商务平台建设”。然而我国当前农业信息服务开展的困境是农户很难在农业信息大数据中获取需要的信息。因此,亟需可以对农业大数据进行整合分类后根据农户兴趣进行推荐的信息服务体系,以解决农民信息技术能力有限和大数据之间的矛盾。但是我国农村地域广阔、农业信息时效性敏感、农业信息分类繁杂,农户兴趣随着时间和情景的改变也会迁移,因此传统的推荐系统已经不能满足农户对海量农业信息的特殊需求。本研究针对上述问题,首先通过云计算技术构建了基于Hadoop+Nutch的全网农业信息整合和分类数据仓库[2],充分考虑时间权重、情景变更和兴趣迁移等因素后,优化向量空间模型,构建了自适应性的用户兴趣模型,最后提出了1种借助组合神经网络提高推荐精度的组合推荐算法,并通过召回率和准确率评价了系统推荐性能。
1基于组合模型的农业信息情景感知推荐系统设计
基于组合模型的农业信息推荐系统由4个子系统构成:全网农业信息整合和分类子系统、情景自适应实时用户兴趣模型、组合神经网络推荐优化子系统以及推荐内容可视化子系统。首先,系统通过全网农业信息整合和分类子系统获取全网农业信息并对海量的数据进行整合和分类,通过特征提取技术建立特征索引,然后通过自适应用户兴趣模型子系统对用户的兴趣进行建模,再通过组合神经网络推荐优化子系统将用户感兴趣的内容进行个性化推荐,同时根据用户反馈训练神经网络以提高系统推荐的准确性,最后将推荐的内容在推荐内容可视化子系统友好地展示给用户。本系统的优点在于不仅能为目标农户提供检索信息的功能,同时可以将与其检索内容相关的内容一并推送给目标农户。农户提交请求后,系统将输入转化成特征向量,通过特征的权重连接输出和输入。系统通过组合推荐算法将最终输出计算值大于预设阈值的页面推送给目标农户。系统技术路线见图1。
1.1全网农业信息整合和分类子系统
全网农业信息整合和分类子系统的主要作用是为整个体系提供信息源,通过整合和分类为推荐服务奠定基础。面对数量庞大,数据结构多元化的全网农业信息,全网农业信息整合和分类子系统采用分布式搜索引擎Nutch完成对繁杂信息的聚合,依托云计算平台Hadoop完成对海量数据的存储与处理[3]。
1.1.1分布式农业信息获取对农业大数据进行聚合检索采用分布式搜索引擎的开源搜索引擎Nutch的优点是利用其开源性,可查看并改进其源代码,有利于在此基础上进行系统二次开发和整合。具体的实现过程如下:首先,对当前有代表性的农业权威网站(如收购商类、政府官方农业信息类网站以及农业技术类网站等)进行归纳整理,生成1个源URL文件作为开启搜索任务的种子。然后,将Nutch搜索引擎分布式地部署到Hadoop云计算架构中,启动各个节点虚拟机的Nutch进程开启分布式农业信息抓取任务。同时,对获取的农业信息进行结构化分析,分类获取HTML源里的有用信息。最后根据各个页面按照主题和关键词聚类,创建时空逻辑关联,通过HDFS分布式存储建立农业信息分类数据仓库。
1.1.2农业归档信息预处理与特征提取对数据仓库中的农业信息网页需要进行预处理和特征提取,以构建结构化数据。该部分主要工作有过滤重复链接、HTML解析、中文分
词+过滤停用词+词性标注、基于Text Rank算法構建关键词图、通过转移概率矩阵确定词权、按照词权排序并生成关键词序列。
1.1.2.1过滤掉重复链接该步骤的目的是为了清除抓取页面的外链和镜像,其作用是确保每个网页源只有一个,将重复的连接删除以减少系统资源的消耗。
1.1.2.2HTML解析为了获取抓取网页链接地址、title、content等网页详细信息,系统采用HTML解析模块来实现上述功能,为对文本特征提取准备源数据,在系统中具体是通过改写并调用HTMLparser类来实现HTML内容解析工作。
1.1.2.3中文分词通过对比各个中文分词软件的特点后,本系统采用中国科学院开发的ICTCLAS中文分词系统,该系统是基于隐马尔科夫模型算法开发而来,具有很强的中文识别区分能力。在分词的同时,需要过滤停用词和词性标注。将HTML转化为文本(记为txt)之后,将文本txt作为输入,按照标点将txt划分为不同的语句Seni,即txt={Sen1,Sen2,…,Senn},最后对每一个语句Seni,进行中文分词+过滤停用词+词性标注得到词语Wodi,j集合,即Seni={Wodi,1,Wodi,2,…,Wodi,m}。endprint
1.1.2.4基于Text Rank算法[4]构建关键词图将Seni={Wodi,1,Wodi,2,…,Wodi,m}作为候选关键词集,并建立候选关键词图G=(V,E),V是由Wodi,j组成的节点集合,EV×V,通过共现关系构造两点之间的边。给定权重指数wij代表 G=(V,E)中的结点vi指向结点vj的权重。vi∈V,用IS(vi)表示所有指向点vi的点集,用OS(vi)代表所有vi所指向的点集。可通过如下公式计算vi的分值S(vi)[5]:
S(vi)=(1-d)+d×∑vi∈IS(vi)wji∑vk∈OS(vk)wjkS(vj)。
式中:d为[0,1]之间的阻尼系数(常取0.85),表示从G特定点v指向其他任意点的概率。
关键词图中用点与点之间的线段长度代表转移概率,用结点v到指向的结点vi的实线代表它们之间的转移概率,用结点vi指向结点v的虚线代表vi跳转至v的转移概率。点与点之间转移概率可以通过权重衡量,而权重与指向词语v的词语数量和其频度有关。用wtc(vi,vj)代表vi的覆盖影响力转移到vj的权重,wtf(vi,vj)代表vi的频度影响力转移到vj的权重。令|V|=n,则所有词的初始分值为S0={1n,1n,…,1n}。
词语之间的影响力转移矩阵WT为
WT=w11w12…w1n
w21w22…w21
wn1wn2…wnn。
式中:权重wij代表第j个词语的影响力转移到第i个词语的权重,其计算方式为
wji=c×wtc(vi,vj)+f×wtf(vi,vj)。
式中:c代表覆盖影响力占整体影响力比重的权重,f表示频度影响力占整体影响力的权重,c+f=1。
再经过迭代公式迭代至收敛时可得到所有词语的分数,其中迭代公式为
Si=d×WT×Si-1+(1-d)×S0。
得到第i个网页的特征向量:Pi=(Wodi,1,Resi,1>,
1.2情景自适应实时用户兴趣模型子系统
1.2.1向量空间模型本研究采用向量空间模型(vector space model,VSM)来表征用户兴趣,将用户的特征项通过向量的方式来表征,其表征方式为Uvsm={(t1,w1),(t2,w2),…,(tn,wn)},其中ti為其中的一个特征项,wi为该特征项的赋值权重。通过比较2个用户特征向量可定量地衡量其相似度,通常较为简易高效的向量相似度量化方式是计算向量余弦夹角[6],即:
SM(Ui,Uj)=∑nk=1(Wk,Ui×Wk,Uj)∑nk=1w2k,Ui×∑nk=1w2k,Uj。
式中:wk,Ui代表特征项tk占的权重。权重的确定可通过 TF-IDF[7] 方式获取也可以根据Text Rank算法获取。
1.2.2用户兴趣模型用户的兴趣可从3个层面获取,分别是农户主动提供的兴趣关键词信息(自定义标签兴趣)、农户网页浏览行为(浏览行为兴趣)以及当无法获取任何用户兴趣信息时人工给定的兴趣。其中农户主动提供的关键词可用于全网农业信息数据仓库获取阶段,增强搜索的目的性与准确性。
用户的浏览行为表现为点击特定网页的频率、停留时间和特殊动作(如打印、保存等),通过挖掘浏览器端的浏览日志可以获取用户的浏览行为从而得出用户兴趣。用IT(p)表示用户对网页p的兴趣程度,来量化用户的浏览行为。其中,Save(p)为保存网页p,Print(p)为打印网页p,Click(p)为点击网页p,Stay(p)表示在网页p的停留时间。
功能函数F表示各个行为对浏览量化产生的影响,具体的:
IT(p)=w1[Save(p)or Print(p)]+w2Click(p)maxa∈K{Click(a)}+w3Stay(p)/Size(p)maxa∈K{Stay(a)/Size(a)}。
式中:w1为衡量保存和打印行为的权重,只要用户发送打印或者保存行为则Save(p)or Print(p)=1,否则为0;w2为衡量用户点击行为的权重,用户点击行为表示为点击网页p的频率占用户点击最多的网页次数之比;w3为衡量用户浏览时间的权重,用户浏览网页p的时间与网页p大小之也存在一定关系。其中,3个权重通过熵值法来确定:首先,将用户的每条浏览记录中的3种行为(编号0,1,2)的次数表征成1个n×3 的矩阵R=(rijn×3),rij表示第i条件记录中发生j种行为的次数。然后,通过rij′=max(rij-rij)maxi(rij)-mini(rij)对所有数值进行标准化。接着,通过Hj=-1ln3∑irij′∑irij′ln(rij′∑irij′),j=1,2,3且rij′∑irij′=0时令rij′∑irij′ln(rij′∑irij′)=0,来计算各个行为的熵值。最后,通过wj=1-Hj3-∑iHj,j=1,2,3来确定各个权重。
人工给定兴趣时,通过本系统默认提供的主题信息有收购商信息(包括超市、农批市场、加工商等)、政策指导与行情预测信息、良种信息、种植信息等。为保证统计结果的客观性,采用调研大量农户的选择习惯,通过共现原则,挑选出一批有代表性的网页,通过农业归档信息预处理与特征提取的方式进行特征提取,作为默认的用户兴趣模型。
1.2.3实时情景自适应用户兴趣模型用户的兴趣模型与用户所处的情景息息相关,通常影响用户兴趣迁移的情景有时间情景(如不同月份、季节与节气)、地理情景(所处的不同行政区划和省份)以及作物分类情景(如不同的作物品种)。时间情景可通过浏览日志的时间来确定,地理情景和作物分类情景可通过用户的输入确定(通过移动端的定位功能可获得准确地理情景)[8]。
综合以上3种情景,对现有的用户兴趣模型进行优化。(1)时间优化。随着时间的推移,用户对特定项目的兴趣度会有衰退,因此,本研究将时间权重与遗忘因子引入用户兴趣中,将用户兴趣模型更新为IT(p)′=θ-log2h(Dp)θ-log2h(Ds)×IT(p)。其中Dp为用户浏览网页p的时间跨度,Ds为用户使用推荐系统的时间跨度,K=e-log2h(t-T)为遗忘因子[9],h为遗忘半衰期(一般取7 d)。通过有用户的浏览记录,利用进行时间优化的IT(p)对用户浏览历史进行排序,从中选取Top-m个网页,并进行分词和特征提取,通过wbj=∑mk=1IT(k)′SM(j,k)来衡量用户对页面k的基于浏览习惯的兴趣度。(2)情景优化。用户的兴趣与用户所处的情景紧密相关,农户的兴趣也随着不同的情景(如时间情景、地点情景、作物分类情景)而发生变化。用户的兴趣模型都应与同期特定的情景信息一起存档,构建情景-兴趣数据库。在向用户推荐新的项目时先通过情景识别将当前情景与历史情景-兴趣数据进行对比,计算情景相似度并纳入兴趣相似度计算中。每个情景可通过Context(T)=(Cit,C2t,…,Cnt)来表示,其中Cit表示t时期的特定情景属性,历史存档的情景信息可表示为Context{H}=(Context(T1),Context(T2),…,Context(TN))。情景的相似度可同过如下公式计算:Similarity(Context(T),Context{H})=Count(Cit)+Count(C2t)+…+Count(Cnt)nN来计算,其中Count(Cit)为第i个情景属性在历史数据库中出现的次数。情景模式中各个情景项的权重计算方式为
wcj=Similarity(Context(T),Context{H})×mM。
式中:m为情景项出现的次数。本研究将时间情景属性分为T1、T2、T3、T4 4种,地理情景分为L1、L2、L3、L4、L5 5种,作物分类情景分为B1、B2、…、B12这12种,因此在推荐时将农户的情景表示为21维的向量C。
综上所述,农户情景自适应实时用户兴趣度模型可表示为wTj=αwzj+βwbj+γwcj。其中,wzj为用户自定义的特征值权重,wbj为浏览行为的特征值权重,wcj为情景特征值权重,α、β、γ为权重系数,且权重系数满足α+β+γ=1,经过多次方针试验可得到合理的权重系数值。
1.3组合神经网络推荐优化子系统
组合神经网络推荐优化子系统分为2个阶段进行,第1个阶段是通過朴素推荐方法向用户推荐信息,第2个阶段是通过组合神经网络结合用户的反馈进行推荐算法的训练,以期得到更好的推荐结果。
1.3.1朴素推荐阶段采集农户的情境信息,利用wzj=SM(j,V),其中j为候选推荐页面,V为用户对自定义的兴趣标签赋的权重向量,进行页面的初始推荐,当农户的有一定的浏览记录时,利用IT(p)′计算已浏览网页的兴趣度并排序,选取Top-m个页面,结合情境信息,通过wTj计算候选推荐页面的兴趣度,将所有候选推荐页面排序,选取Top-N个网页推荐给农户。算法见表1。
1.3.2组合神经网络推荐优化阶段在经过朴素推荐之后,利用用户的反馈信息训练组合神经网络,组合推荐网络由BP[10]算法以及SOM[11]算法组成,训练样本是用户对推荐结果的反馈和评价。对于有反馈的任一页面p,通过分词和特表1朴素推荐算法
输入:目标农户u,农户的情境数据和自定义标签数据,农户u访问过的农业信息资源集合Su。输出:目标农户u的Top-N篇推荐文档集合。(1)采集农户情境信息,形成向量U,采集农户浏览资源集合Su。如果集合Su非空集,转入(3)。(2)利用wbj计算农户情境与待推荐网页的相似度,得到初始推荐,转入(6)。(3)利用Web客户端日志挖掘和服务器端日志挖掘,获取批量客户的浏览行为,并进行标准化处理,借助熵权法,得到目标农户u的行为权值。(4)读取目标农户u访问的每个资源i∈Su的行为数据,利用IT(p)′得到基于行为的最近邻居集合C。(5)标准化处理集合C中每一篇文档的兴趣度值,代入wTj计算得出待推荐网页与农户情境和浏览行为相匹配的相似度。(6)将排序靠前的N篇文档推荐给农户。
征提取可获得其特征向量t(p)及其用户的评分s(p)。页面的特征向量和用户反馈的评分构成了样本Sample(p)=[t(i),s(i)],通过全部样本可构建一个可供训练和测试的样本集。BP神经网络的输入因子应为产品的特征向量,输出因子为用户对产品的偏好(评分)。对于待推荐产品,在提取其产品特征后,将产品特征向量作为输入。首先将页面特征向量作为BP神经网络输入,用户反馈的信息作为BP神经输出,通过前4个预测第5个页面的推荐结果,依次执行,直至所有项目都有预测值,并将BP神经网络的预测值作为SOM网络的输出对SOM网络继续训练,以期获得高准确性的组合神经网络推荐算法。算法的实现如图2所示。
第1部分的BP神经网络由3个层次构成,即输入层、中间层和输出层,输入层用来Input页面的特征数据,中间层为农户对这些产品特征的喜好程度数据,输出层输出评分值。因此BP神经网络结构构建如下:第1层为Input层,输入变量是网页页面的特征向量,输入层神经元数量应该与网页页面的特征向量维数一致;第3层为Output层,是为用户对该网页的评分,设定神经元个数为1;隐含层每个节点被用来代表农户对某个特征值的喜好程度,设置隐含层神经元数量与网页页面特征向量维数一致。
在BP神经网络中,第k层中的第j个节点的总输入为Ikj则有Ikj=∑i Wjik,k-1Ojk-1;Okj=f(Ikj);
引入层与层之间的误差Ekj,权值的调整为
Δwki=-ηEwki;δki=EI=EOf′(Ikj)。endprint
所以对于输出层单元有ΔWmjk+1,k=-ηδmk+1Ojk和δmk+1=(Ojk+1-dm)f′(Ikj),对于中间层单元有ΔWmjk+1,k=-ηδmkOjk-1;δki=EI=EOf′(Ikj)。
本研究中的输出函数为f(x)=1/(1+e-x),于是有f′(Imk+1)=Omk+1(1-Omk+1);f′(Imk+1)=Ojk(1-Ojk)。
为了使结果更加精确,须要在权重调整中加入一个动量因子α,则有ΔW(t+1)=-η-ηδmkOjk-1+αΔW(t)。
α取值一般在0.7~1.0。通过基于经验来训练BP神经网络网络就可使之拥有映射INPUT AND OUTPUT的能力[11]。
第2部分的实现是通过SOM算法来实现,SOM算法结构是由全互连方式连接输入层和输出层组成,SOM算法的特点是通过权值连接所有INPUT节点到所有OUTPUT节点。假如INPUT样本为X=[X1,X2,…,Xn]T,OUTPUT神经元i与INPUT神经元连接的权值为Wij=[Wi1,Wi2,…,Win]T,则神经元i的OUTPUT为Oi=∑nj=1 WijXj=WTiX。SOM算法规定:Ok=max(Oi)。则权值表达式化为
Wij(t+1)=Wij(t)+η(xi-xb)Oi(t)。
式中:xi为输出节点的输入向量,xb为输出节点的阈值向量,O为输入节点的输出向量,η为学习系数,且0<η<1,(t)=η(0)(1-t/T),t表示当前迭代的次数,T为整个迭代的次数。
组合神经网络在线训练的算法见表2。
2试验结果及分析
2.1云环境试验环境的构建
在构建云计算试验环境时采用Hadoop 0.2版本,由于Hadoop在运行时需要JDK支持,因此选用jdk1.6.0_24。
2.2试验数据及设计
首先,需要为系统的源信息的抓取提供种子站点,为了满足种子站点选取的统计规律性,大量选取相关农业信息类网站,然后统一归纳总结,最终得到1份种子站点的列表。种子站点主要包括收购商类、农业信息政府官方网站类以及农业信息技术与种子信息类网站。然后,启动虚拟机软件并且启动Nutch,以便实现抓取任务。然后输入源信息抓取指令“bin/nutch crawl url.txt -dir crawtest -depth 3-threads 4>&crawl.log”,系统便开始了抓取过程。指令中,url.txt存放的是种子站点,同时还存储在数据库中,以便后續更新;depth 3表示爬行深度为3层;threads 4表示启动4个线程同时抓取;crawl.log中记录抓取日志信息,日志记录系统运行状态。
然后,要构建测试文本库。测试文本的选取规则与构建农户兴趣模型时的规则类似。相关部分还是以供应信息、需求信息、政策指导与行情预测、良种信息、种植技术等几个主题为中心,不相关部分则是排除这些主题的其他主题,如财经、教育、体育及娱乐等等;两部分各为100篇测试文本。同时选取50名农户测试者,通过代理系统,自动获取测试对象6个月的浏览行为和对评价的反馈。最后获取了50名测试对象在这6个月的47 819条有效浏览记录和2 300条反馈评价信息。将记录分为训练集和测试集,选取最后1月的数据作为测试集,前5个月的数据作为训练集。利用分词系统采用ICTCLAS,通过情景自适应实时用户兴趣模型子系统构建用户兴趣模型,通过朴素推荐向用户推荐网页,再通过组合神经网络推荐算法根据用户反馈提升推荐精度。
2.3评价指标
通过召回率和准确率来评价推荐的效果,参照表3通过
2.4结果分析
首先,根据用户的浏览行为记通过熵值法确定了用户浏览行为的3个权重系数,w1(保存和浏览行为的权重系数)为0.43,w2(点击行为的权重系数)为0.22,w3(停留时间的权重系数)为0.35。然后通过改变Top-N中的N取值,以步长为5从10取值到30,同时改变权重因子α、β、γ,选取有代表性的5组来测试推荐系统,通过3个评价指标来验证不同N和权重因子对推荐结果的影响。试验结果如图3所示。
试验证明,随着N的增加,推荐精度和准确性都有所提高。通过使用基于自适应的情景感知用户兴趣模型,推荐在召回率和准确性上都有很大改善,同时随着β、γ取值的增高,推荐召回率和准确性都有所提升,说明推荐结果受到用户浏览行为和情景的影响。
最后将2 300条用户反馈评价记录分成2个部分,前 2 000 个作为训练样本,后300个当作测试样本。通过测试推荐结果召回率和准确率随着神经网络阈值变化的结果如表4所示。
从表4可知,在实验室小数据量的测试环境下,当阈值范围在0.012附近时,查全率可以达到77.5%,查准率可以达到78.3%,达到了系统有效性的实用范围。
3结束语
为了改变传统的农户信息获取方式,满足农户对农业信息产销信息的个性化需求,本研究提出了1种在云计算环境下基于Hadoop和Nutch技术,使用混合推荐算法设计并实现了针对农业信息产销信息领域的个性化农业产销信息推荐系统,并根据农户个性化需求构建了农户兴趣模型,该系统能根据不同的农户需求推荐个性化的信息,最后对农业信息个性化推荐系统进行了测试,分析系统的查全率与查准率指标,以及利用云计算将会给推荐系统性能带来的影响。未来工作包括进一步设计和完善云环境下个性化农业信息产销信息推荐系统,研究与应用相关的数据获取与预处理技术,以及结合云
参考文献:
[1]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013,50(1):146-169.
[2]谢桂兰,罗省贤. 基于Hadoop MapReduce模型的应用研究[J]. 微型机与应用,2010,29(8):4-7.endprint
[3]邵秀丽,刘彬,张涛. 基于Nutch的垂直搜索引擎的设计和实现[J]. 计算机工程与设计,2011,32(2):539-542,548.
[4]Mihalcea R,Tarau P. TextRank: bring order into texts[J]. IEEE Trans on Knowledge and Data Engineering,2007,19(3):355-369.
[5]夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术,2013,29(9):30-34.
[6]赵华茗. 分布式环境下的文档相似度研究与实现[J]. 现代图书情报技术,2011,27(增刊1):14-20.
[7]路永和,李焰锋. 改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作,2013,57(3):90-95.
[8]Lee S K,Cho Y H,Kim S H. Collaborative filtering with ordinal scale-based implicit ratings for mobile music recommendations[J]. Information Sciences,2010,180(11):2142-2155.
[9]于洪,李转运. 基于遗忘曲线的协同过滤推荐算法[J]. 南京大学学报(自然科学版),2010,46(5):520-527.
[10]张月琴,刘翔,孙先洋. 一种改进的BP神经网络算法与应用[J]. 计算机技术与发展,2012,22(8):163-166.
[11]杨黎刚,苏宏业,张英,等. 基于SOM聚类的数据挖掘方法及其应用研究[J]. 计算机工程与科学,2007,29(8):133-136.
[12]张岩,郭松,赵国海. 基于Hadoop的云计算试验平台搭建研究[J]. 沈陽师范大学学报(自然科学版),2013,31(1):85-89.
[13]Egghe L. The measures precision,recall,fallout and miss as a function of the number of retrieved documents and their mutual interrelations [J]. Information Processing and Management,2008,44(2):856-876.赵宏才,赵晓杰,张兴波,等. 基于专家系统的黄瓜园区无线智能监控系统研究[J]. 江苏农业科学,2017,45(17):215-218.
doi:10.15889/j.issn.1002-1302.2017.17.057endprint