刘应洁,杨政
(1.云南电网有限责任公司,昆明 650032;2.云南电网有限责任公司电力科学研究院,昆明 650217)
科技创新管理系统是基于云南电网公司科技创新管理系统中的项目评审历史信息和专家库信息,通过语义提取、智能推荐、专家检索网络爬虫等技术进行研究,并针对科技评审专家通过智能分词和语义解析技术[2]生成专家关键词,实现评审专家的智能推荐和合理选定。
目前检索技术主要有限制检索、布尔检索、截词检索、词位检索等技术。限制检索:通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如字段限制、匹配度限制、时间限制等;布尔检索:是数据库检索最基本的方法,是用逻辑“与”、“或”、“非”等算符对相关信息进行定性选择;截词检索:在检索词的适当位置进行截断,可以防止漏检、节省输入字符;词位检索:又称位置算符检索,利用算符限定两个检索词之间的位置关系,或限定检索词在数据库记录中的位置,弥补了布尔检索只是定性选择的限制,从而提高查准率。
随着云南电网科技项目、成果申报规模的扩大,科技专家在科技项目立项评审、中期检查、结题验收以及科技成果的网络评审、专家投票、专业组表决等环节发挥着重要作用[3]。上述的搜索技术,只能让相关人员指派专家或根据评审目标的专业从系统中进行机械地选取专家,无法快速准确选定合适评审专家,从而导致专家评审不熟悉的技术领域,影响科技评审结果的客观性和公正性[4]。因此,使用智能检索技术遴选科技评审专家是有必要的。
依托于云网大量专家信息,以数据 + 算法+ 系统为核心,结合云网在输变配、营销、电能计量、通信等多方面深厚的数据技术积累,为科技评审工作提供合适的专家推荐服务。主要从以下几个方面进行智能推荐技术的研究:
2.1.1 内容分析
1)根据专家的元数据、内容以及与内容相关的行为综合进行分析;
2)提供不同的语义处理模型的训练功能,对专家进行自动处理,形成专家的专业、标签等要素;
3)提供专家的相关行为的分析,得出指定专家在特定时间和特定地域的流行度。
2.1.2 智能配置
1)提供数据处理规则的编辑、管理功能;
2)针对不同的分析内容,面向数据处理训练可以配置不同的算法;
3)提供算法的参数配置功能;
4)提供多类别的推荐专家列表;
5)针对不同类别的推荐专家列表,提供配置权重的功能灵活控制推荐专家列表内容。
网络爬虫是遵循http 协议, 检索Web 文档的软件。网络爬虫是一个功能强大的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分[5]。通用网络爬虫随着网络的迅速发展,网络上充斥着大量的有用或垃圾数据,人员无法进行快速有效的筛选,这就需要搜索技术来自动进行提取。网络爬虫可以帮助用户检索信息,帮助用户方便的搜集互联网上的相应信息。但是,通用网络爬虫也存在着一定的局限性:
1)用户的需求不一样,检索的目标内容不同,通用网络爬虫的检索结果包含大量的干扰内容;
2)通用网络爬虫的目标是尽可能大的网络覆盖率[6-7],但服务器资源是有限的,这就限制了网络数据的获取量;
3)网络上的数据类型复杂,网络资源类型的不断增多,图片、音视频、压缩包、加密数据等不同格式数据越发庞大,通用网络爬虫往往对这些类型的数据识别率不高,造成检索结果缺少和偏差;
4)通用网络爬虫一般是基于关键字进行检索,往往无法满足用户需求。
专家检索网络爬虫技术可以很好的解决通用网络爬虫的问题,该技术可以定向抓取网络上专家资源,根据需要的技术领域,有选择地抓取网络上的信息内容,获取所需的专家信息。
与通用网络爬虫相比,专家检索网络爬虫追求检索结果的准确性,而不是网络的大面积覆盖,从而为云网科技评审工作补充专家资源。
专家智能检索技术应用的关键是现有专家数据的完整和准确,通过联系云网各公司各部门相关负责人搜集专家信息,并联系专家本人确认、补充相关信息,形成了一套高质量的专家信息。把搜集到的专家基础信息、擅长领域、工作经历结合评审历史信息进行智能分词、语义分析等过程后,生成专家标签,再把这些信息存储在系统里面,当需要的时候可以通过信息检索器来寻找相应的专家;通过专家检索专用网络爬虫技术,抓取网络上的相关专家信息,经过筛选后进入专家库,对现有专家进行补充。
本文成果应用于云网科技创新管理平台,有效的解决了科技评审工作分配专家过程中存在的工作繁琐、专业不熟悉等问题。
专家智能推荐技术及专家检索网络爬虫技术的研究不仅具有实际应用价值,也同样具有广泛的学术意义。在现有专家信息、项目评审历史数据的基础上,进行深入挖掘,与定量研究方法相结合,提出专家智能检索方法,满足目前云网范围内科技项目及科技成果评审工作的公平公正、合理科学的要求,从而促进云网科技的创新和现代化管理的需要,这在当前具有十分重要的意义和推广应用价值。