浮肖肖
(新乡医学院 图书馆,河南 新乡 453003)
推进科技成果转化是过去数十年科技体制改革的主线之一,但每年见诸报端的依然是我国科技成果转化慢、转化难、转化率不高。根据国家知识产权局《2019年中国专利调查报告》显示,我国高校专利产业化率仅为3.7%,科研单位专利产业化率仅为18.3%,远低于国际平均水平。供需信息的准确匹配是科技成果转化精准服务的基础,对技术商业化价值实现与企业创新能力提升具有重要推动作用[1]。而精准识别企业的真实技术需求是精准实现科技成果转化的第一步,是实现技术转移供需信息精准匹配的前提。精准识别企业的真实技术需求,并为其准确匹配科技成果是技术转移精准服务的前提和基础。
企业的技术需求通常是行业秘密,因此企业在交易平台所填写的需求信息通常是笼统概括,并不能实际切中企业的真实技术需求。目前国内关于技术供需匹配多是根据企业在交易网站提交的需求文本来分析企业的技术需求。翟东升[2]通过分析技术需求文档的文本特征和需求内容特征挖掘潜在的技术研发伙伴;何喜军[3]通过对技术供需双方文本词频特征、相关性特征和语义特征进行匹配,开展线上技术供需信息匹配;杨德林[4]采用文本表示模型和余弦相似度理论对交易网站上供需双方的文本进行相似度计算。上述研究更多的是根据企业在交易平台提供的需求文本信息这单一数据源为准为企业寻求相匹配的成果技术,但企业的技术需求实际上是企业的商业机密,企业在交易网站所提供的需求文本只是模糊表达企业的技术需求,并不能准确展现企业的真实技术需求。如今的大数据时代,大数据为识别用户需求提供了新的方法,分析用户在网站的浏览历史、收藏记录、留言信息等碎片化的行为数据收集整理分析挖掘,可直接或间接反映用户的兴趣、态度等信息,完整重构用户的需求。通过数据挖掘企业在交易网站的行为数据,可以更精准了解企业的真实技术需求。
目前的研究更多从宏观方面分析技术供需匹配的方法、路径,且仅根据需求文本作为匹配标准,无法总体全面的识别企业的真实需求。笔者尝试勾勒出面向技术需求的企业用户画像,综合、立体、全方位的展示企业的真实技术需求,并根据企业的真实技术需求进行匹配,为企业推荐适合的科技成果,以提高科技成果转移效率,创造出更多的价值。
用户画像是真实用户的虚拟代表,是将用户的真实数据通过各种数据挖掘方法绘制出的虚构角色。用户画像能帮助理解用户的需求、行为和目标,能利用标签刻画不同面目的真实用户,从而为精准解决其业务难题提供解决途径。用户画像在电子商务、管理经济、情报分析等领域均有广泛应用。京东、淘宝、Amazon等购物网站根据用户的浏览、收藏、下单等行为分析用户需求并向用户推荐商品;今日头条、抖音等新闻社交平台也会根据用户的关注频道、关注用户、阅读浏览主题等对用户进行精准推荐;黎丹雨[5]依据用户在电商网站中点击停留等行为数据构建用户画像,根据用户标签和物品特征匹配度为用户推荐合适的物品;刘海[6]等认为通过对网上消费者浏览、点击、评论等行为信息能反映消费者的偏好。交易网站中用户的技术需求其实就是用户对成果的兴趣,借鉴用户画像的方法识别企业的技术需求,为企业推荐合适的成果,提高技术转移效率。
基于上述分析,笔者采用用户画像技术来为企业用户推荐合适的科技成果。通过获取企业用户在交易网站的技术需求记录和其在网站的信息搜索记录和行为数据,建立企业用户的技术需求画像模型,识别企业真实的技术需求,根据企业用户的技术需求标签和科技成果的技术特征进行匹配,为企业推荐满足其需求的科技成果,构建切合企业技术需求的精准服务模式,为精准实施技术转移提供基础。
用户画像系统有效汇总了企业在交易网站中的行为数据及其需求文本数据,通过对数据进行挖掘和统计分类,构建企业技术需求的用户画像模型,最后围绕画像模型为企业提供精准服务。
文中企业用户画像数据主要来源是企业在技术交易平台填写的技术需求和其在交易平台的浏览历史、页面时间、信息检索等过程中产生的各类行为数据,如用户基本信息、需求文本数据等。围绕上述维度提取企业用户的需求标签特征。由此构建多维标签体系的企业用户技术需求画像模型。①用户基本信息标签。主要描述企业用户的基本情况的指标,如企业名称、所属行业、企业规模、企业法人、企业地址等。 ②企业显性技术需求标签。包括企业在交易平台填写的需求文本数据。 ③企业隐性技术需求标签。主要描述企业交易平台的检索内容、页面浏览等行为数据。其中企业用户通过关键词对感兴趣的内容进行检索,该关键词体现了用户的技术需求兴趣;企业用户浏览网页的时间节点、页面停留时间长短则显示用户对该内容的兴趣程度;阅读内容体现用户对技术资源的兴趣主题和所属领域;收藏是用户对感兴趣的内容进行收藏;通过分析企业用户在交易网站的浏览、阅读和收藏的科技成果,抓取这些科技成果的技术特征,可以构建出企业用户自身的隐性技术需求标签。
面向技术需求的企业用户画像标签是对企业用户技术需求相关抽象表象经过数理分析后形成更形象、更容易理解的信息,是多种企业所需多种技术特征的集合。通过不同维度标签的建立,可以进一步挖掘企业用户显性技术需求和隐性技术需求的向量集合,为后续企业用户成果推荐打好基础。根据上述企业用户技术需求标签的形式化表示方法,构建了面向技术需求的企业用户画像概念模型,具体如图1所示。
图1 面向技术需求的企业用户画像概念模型
根据面向技术需求的企业用户画像模型,笔者设计了基于画像模型的技术转移精准推荐模式,如图2所示。
图2 基于用户画像的成果推荐流程
利用用户画像方法实施技术转移精准服务的实现路径为:①从交易网站中抓取技术需求文本数据并采用TextRank方法提取关键短语。②根据企业在交易网站的行为数据,分析其浏览收藏的科技成果构建企业隐性技术需求向量集合。③从成果摘要中提取技术特征短语,形成该项科技成果的特征标签,其中每一个科技成果都是由数个技术特征构成的向量集合。④基于技术供需双方的技术特征集合对双方匹配度进行计算,并为企业推荐与其需求相匹配的成果。
交易网站中企业技术需求文本通常都是口语化有余而专业化不足,且其中包含大量的非结构化语言,建立语料库进行语义相似训练是当前的主要研究点。笔者选取国家知识产权局专利数据库中的术语文本和百度百科文本作为原始语料库。
4.1.1 采用TextRank提取企业显性技术需求标签。 利用信息采集工具或网络爬虫工具获取企业在交易网站的技术需求文本数据(包括技术需求名称、需求简介、所属领域等),选取国家知识产权局专利数据库中的术语文本和百度百科文本作为原始语料库,对供需文本的标题和内容部分进行噪音过滤、分词、去停用词等预处理,然后利用TextRank算法提取企业技术需求文本关键短语,从而得到有关企业显性技术需求的标签合集。TextRank提取关键短语的算法如下: ①将需求文本分割成数个句子,对每个句子进行预处理,保留有意义词性的词组,即待选关键词。②构建无向无权关键词图G=(V,E),V为所有待选关键词集合,E为所有邻接关键词关系集合。关键词vi和vj之间连线的权重为wij,任意点vi的得分公式如下:
(1)
p∈[0,1]为特定点到其他点的概率,常规取值0.85[15]。③根据公式(1),循环迭代计算每个节点的得分,选取得分较高的作为关键词。
笔者选取上述结果中的关键词集合为企业显性技术需求的技术特征词组向量集合,即企业显性技术需求标签合集。
4.1.2 企业隐性技术需求标签的挖掘。 大数据挖掘企业隐性的技术需求是解决企业具体真实技术需求的关键。对于企业用户来说,企业的真实技术需求隐藏于企业的行为中。企业在交易网站通过浏览网站所发布的科技成果的内容来获取信息,其动态操作信息可以有效展示企业技术需求兴趣,因此分析企业用户在交易网站的浏览、阅读和收藏的科技成果,抓取这些科技成果的标签,构建出企业用户隐性技术需求标签。笔者通过成果交易网站后台获取用户的行为数据,利用Python、网站日志等技术爬取用户的行为数据,对行为数据进行聚类关联等预处理,最后根据关注的成果技术特征标签,组建企业用户的隐性技术需求标签。
企业在交易网站的行为数据主要包括浏览、停留时长等,其各自所代表的兴趣程度各不相同。用户点击某一科技成果但是其停留时间很短,可能是用户误点。对于企业隐性技术需求挖掘有用的是那些用户点击浏览且停留时间较长的成果。为了更好区分不同行为数据产生的价值,本文采用引入时间因子来进行评价。定义用户u对成果i兴趣程度的计算方法为:
(2)
其中,t为用户对某项科技成果i的浏览时长,为用户在交易网站的浏览总时长。W值越大,表示该用户对成果的兴趣度越高。通过计算用户对不同科技成果的兴趣程度的得分,将得分排序最高的成果的技术特征作为该企业用户的隐性技术需求特征。
科技成果文献是规范的结构化文本,文中描述技术功效的句子主要集中在文本摘要部分,可以此形成该项科技成果的特征标签。从成果摘要中提取技术特征短语的流程,如图3所示。
图3 技术特征短语的流程
从成果摘要中抽取含有技术特征词语或短语的句子,将句子根据标点符号(逗号、句号、顿号、分号等)分割成较短的单句。对单句进行过滤要经过两个过程,首先通过编写正则表达式过滤掉只含字母或数字等非目标单句,然后根据科技成果文本中对其技术领域、背景、方案等提取特征线索词(特征线索词不含技术特征、功能的含义),如应用、提高、良好等,通过上述两个步骤能迅速定位成果摘要中技术特征目标句。之后选取中科院分词系统ICTCLAS对目标句子进行中文分词和词性标注,过滤掉没有意义的词组,最终形成该科技成果的技术特征短语集合,即该科技成果的技术特征标签合集。
供需双方的技术特征匹配是实现技术转移的关键一个环节,是为企业推荐合适科技成果的前提。通过比较供需双方的技术特征匹配相似度的大小,可以寻求出最满足企业技术需求的科技成果。
文中对技术供需双方的匹配不仅要依据企业技术需求文本,还要分析企业在交易网站浏览收藏的技术成果的技术特征,综合企业显性和隐性的技术需求特征来对企业进行技术成果匹配推荐。根据面向技术需求的企业用户画像提供完整的企业技术需求标签,以此和技术成果进行匹配,得到最适合企业技术需求的科技成果,将该科技成果推荐给企业。例如我们对企业用户A实施精准推荐服务。通过企业技术需求用户画像提供的企业的完整技术需求标签,找到企业真正的技术需求。笔者采用余弦相似度算法计算企业用户技术需求与科技成果的相似度。
对企业用户A进行科技成果推荐。技术成果数据库中共n个科技成果,计算企业用户A的技术需求与科技成果Q的相似度,我们使用余弦相似度算法:
假设企业用户A的技术需求向量A={A1,A2,…,An},科技成果Q的技术特征向量Q={Q1,Q2,…Qn},计算两个向量的夹角余弦值来表示两者的相似度,余弦值越接近1,两个向量的相似度越高,可求得技术需求A和科技成果Q的相似度:
(3)
sim(A,Q)代表企业A技术需求和对比科技成果Q之间的相似度,该值接近1,则此对比科技成果与企业用户的技术需求相似度越高。计算每个企业用户与科技成果的相似度大小,并进行从高到低的排序,则排名靠前的为与企业技术需求相似度最高的科技成果,将排名靠前的科技成果推荐给企业用户。
技术转移服务最本质的要求在于满足每个用户的切实技术需求。笔者引入“用户画像”的理念和技术方法,通过对企业需求文本和其企业特征等一系列相关数据通过融合分析等 手段挖掘企业用户的技术需求的技术特征合集,绘制出基于技术需求的企业用户画像,并借助画像特征计算用户技术需求和科技成果资源的相似度,从而实现企业用户技术需求和供给方科技成果资源的精准匹配,对企业进行有针对性和专业性的精准个性化推荐服务。在分析企业技术需求文本的基础上,创新性的根据企业用户在交易网站的浏览、停留时长等行为数据发掘企业用户的隐性技术需求,为识别企业真实技术需求,提高技术供需匹配效率,实施精准技术转移服务提供参考依据。
笔者为识别企业真实技术需求提供了一种新的路径,但也有很多不足和缺陷,在供需双方匹配识别中只考虑了企业技术需求和科技成果在技术方面的匹配,但未考虑企业是否有时是转化该项成果的能力,本文没有考虑企业的经济实力和科研实力方面,而这些也都是科技成果转化的重要一环,一定程度上会影响技术转移实施的成功率。这些都是未来研究中需要重点解决和完善的方面。