黄葆春
国家知识产权局专利局自动化部 北京 100088
硬科技概念正在被人们所熟知,具有较高技术门槛和技术壁垒的硬科技越来越受到资本的关注。硬科技类型企业具有高技术壁垒、高研发投入、高学历的管理层以及低营销投入的特点。硬科技行业将是未来一段时间内的投资热点。
随着科创投资时代的来临,科学技术对投融资事件的影响越来越大,所有投资机构都在努力发现具有高新技术的公司和研发团队。对科技资源进行检测,分析评价科学技术发展的状态和趋势,选择合理优先投资的科技领域、合理配置投资资金、有效开展科创投资的方法和途径已经成为国内投资机构普遍关注的热点。投融资数据是资本的表现形式,专利文献是技术创新成果的表现形式。随着科技、资本与产业融合发展,投融资数据与专利文献之间相互参考与相互作用的价值日益凸显,两者之间的有效链接除了有助于用户便捷、高效的获取科技文献信息外,还能加强技术创新成果和资本之间的联系,有助于实现科创投资的目的。然而,当前的文献服务体系中,投融资数据与专利文献资源表现出明显的局部有序但整体无序的孤岛特征,目前,研究人员也进行了一些关于海量信息分析及机会发现的研究[1]。传统的研究主要是基于情景分析法[2]、德尔菲法[3]、AHP(层次分析法)[4]等方法进行信息分析和结论演绎。上述方法基于非系统过程,并依靠专家的主观意见。为了克服上述方法的缺陷,研究者提出了一些系统性的客观的方法,例 如FUSE(Foresight and Understanding from Scientific Exposition)[5],CUBIST(Combining and Uniting Business Intelligence with Semantic Technology)[6],用于技术管理的文本挖掘软件(VantagePoint)[7],KISTI的信息分析和科学技术领域机会发现的InSciTe[8,9],任智军等探索了基于数据挖掘的技术机会发现[10]等。但国内学者大都局限于将投融资数据或者专利数据进行单独研究,将结论进行综合分析,这样以单一视角和不全数据进行的分析得到的结果相对比较片面。
因此,投融资数据和专利数据的融合分析对于理解资本和技术之间的联系、提高实现科创投资和技术创新方向有着重要的意义,而且大量的实证研究也表明这两种资源的集成揭示分析有助于理解技术发展趋势、产业资本技术关系等。因此,研究如何进行投融资数据和专利数据整合,同时改变现有数据孤岛式的深加工的加工方式,形成投融资数据和专利数据整合理论和方法是具有重要实际意义的。本文提出一种新的研究方法,将投融资数据和专利两种异构化的数据进行融合对比,然后分析与挖掘可以得到更加全面多元化的分析结果,文章最后使用了最近10年投融资数据和专利数据对本方法进行了实证研究,结果也相对比较理想。
目前投融资数据与专利数据整合实践研究的很少,更多的是进行论文和专利的整合,任智军等研究了论文与专利整合数据的研究,通过两类数据中都共同存在的人名数据字段将两类资源进行整合[11],赖院根提出了通过分类体系之间的映射关系实现期刊论文与专利文献在领域层面的对接,利用主题词表,建立期刊论文与专利文献在主题层面的链接[12]。目前尚无对投融资数据与专利数据整合研究,因此本文提出一种以融资企业为基础融合专利的整合策略,从信息资源整合的角度入手,通过企业名称为核心将两类资源进行整合,使得投融资数据与专利数据变得集中有序储存。
首先,基于大规模投融资数据和专利文献数据收集和整理。在数据收集整理阶段要对各种类型(中国专利著录项目及全文数据、DOCDB专利著录项目、投融资数据、工商数据)数据进行归并整理。
图1 投融资数据与专利数据整合
其次进行数据整合,数据整合分成三个部分:
(1)数据抽取:先将投融资数据中的被投企业从简称得到企业的全称,然后将企业全称获取相关的工商数据,同时根据企业全称利用申请人获取专利数据;
(2)数据清理与加工:基于投融资数据自底向上构建投资赛道,把所有在融企业标引到投资赛道中,同时采用前期研究积累中已有的针对专利文献的IPC抽取工具对IPC进行提取,并将IPC数据进行中文标引和改写。
(3)数据导入:将加工好的数据导入到投融资和专利整合数据库。
最后,本文选取最近10年投融资数据和专利数据进行实证研究,进行投融资数据和专利的整合,从信息资源整合的角度入手,通过挖掘其理论深度,把无序分散的资源集中起来,把无序的资源变为有序,使之有效实现投融资数据和专利数据的知识化组织、方便后继的分析与挖掘。
在投融资数据和专利数据整合基础上,对新融资企业进行标注和度量,然后利用分类算法对新融资企业进行投资赛道分类,对投融资数据和专利数据融合程度进行分析,研究投融资和专利两种数据之间存在的相互影响和排斥关系,从而探索资本和技术之间的发展规律,确定科创投资方向。基于投融资数据和专利数据挖掘科创投资方向的首要问题是识别在融企业所在投资赛道,本文采用的方法则是利用在融企业特征做分类,在分类的基础上,进一步进行企业聚类并标注聚类名称,企业聚类的结果就是科创投资方向,具体如图2所示。
图2 科创投数据和专利数据投资方向识别模型图
分类和聚类的基础是企业技术和产品特征,企业技术特征是全面刻画企业技术信息的系统性方法,基于工商、投融资和专利等多维数据可以更加全面了解企业的真实情况,也为后续科创投资方向识别算法提供有力支持,通过多样化的产品标签,更加清晰地标识了企业技术和产品的多种属性等。其企业技术特征如下表1所示:
表1 企业技术特征
有了企业技术特征我们就可以使用分类算法进行产业的分类,分类算法使用fasttext[13],在分类之后,我们可以对产业下的赛道进行聚类,聚类赛道作为投资方向,基于聚类的投资方向识别模型说明如下:
(1)从投融资数据和专利整合数据库中抽取投融资特征和专利关键词。
(2)利用投融资指标和关键词作为特征进行分类。
(3)在每个分类里面,采用KMeans聚类算法[14](sklearn kmeans[15])进行融资企业聚类。
(4)根据聚类结果将每个类别作为投资方向。
在得到研究方向后,需要对研究方向进行标注,研究方向的标注主要通过科技术语。互信息是表示两个变量之间关联程度有用的度量,因此可以通过关键词与研究方向的互信息来进行研究方向的标注。在对共同研究方向投融资数据和专利聚类后,具有相同研究方向的投融资数据和专利聚为一类,这些投融资数据和专利在关键词上具有共性,提取这个共性词汇就是对研究方向的标注。由于与同一个研究方向上互信息最大的关键词不只一个,因此共同研究方向标注有可能由一组词汇组成。基于互信息的研究方向描述的算法如下:
(2)根据聚类结果,利用互信息公式计算每个关键词与所有类别的互信息,MI公式如下所示
(3)对MI进行规划化处理。
(4)分类别统计最大互信息值及对应的主关键词。
投资趋势走向分析是根据最新的投资方向和技术发展趋势进行分析和挖掘的结果,它们可能创立一个新投资赛道或改变某个老投资赛道。投资趋势走向代表了一个新的投资赛道或者投资方向,被用来找到未来科创投资的技术领域和投资趋势。投资趋势走向分析对于投资方向研究意义重大:一方面,投融资与专利包括了资本和技术,在最新被投资企业所在的新技术赛道热点,最有可能涌现新兴投资趋势。另外,新投资方向也会推动资本投资趋势和技术发展,吸引投资机构和商业公司转向研发,从而提高投资机构投资走向与专利的产出和提高技术创新水平有着重要的意义。由于资本是技术创新的催化剂,因此在投资趋势走向是非常必要的,本文研究的投资趋势走向分析是指在研究最近刚刚出现有新的投资方向或者由冷变热的投资方向,投资趋势走向分析模型采用的是基于聚类的离群点检测算法[16]。基于聚类的离群点检测算法如下所示:
(1)计算现有投资分类或者聚类的质心;
(2)计算被投企业到最近质心的距离;
(3)计算各对象到它的最近质心的相对距离;
(4)与给定的阈值作比较,超过阈值即认为是离群点;
(5)对离群点企业进行聚类,找到新的投资方向。
为验证基于投融资数据与专利数据整合数据的投资方向发现模型的可行性,本文选择了最近10年投融资数据和专利数据进行实例研究,在互联网上采集投融资数据和专利局专利下载获取了数据,利用投融资数据与专利数据整合之后构建了投融资专利整合数据库,然后对投资赛道进行投资方向分析和新兴投资方向分析。
投融资数据与专利整合数据中抽取10家融资企业的投融资和专利整合数据见表2。
表2 投融资和专利整合
(续表2)
(续表2)
(续表2)
利用标注算法投资方向识别及标注方法对2020年投融资数据与专利整合数据进行识别之后,得到融资企业6043家,并通过第2.3节中公式(1)对化学药的类别进行了标注,结果如表3所示。从表3可以看出,投资方向为“色谱柱、药品包装,化学药药学理论,崩解剂,化学药制备设备”等10个方向。
表3 投资方向标注
根据第3.3节中新兴技术术语的识别方法,2020年投融资数据对2020年新兴投资方向识别,识别出植物肉、射频滤波器、液态储氢、内窥镜和手术机器人等5个新兴投资方向,具体如表4所示。
表4 新兴投资方向识别表
本文提出了一种基于投融资数据与专利数据整合的分析与挖掘的研究方法,构建了基于投融资数据与专利数据整合的分析与挖掘知识挖掘模型,从投融资与专利共同研究方向和新兴技术发现两个方面来揭示投融资与专利关系,最后,我们对最近10年投融资数据和专利数据进行了实例验证,加强技术创新成果和资本之间的联系,为科创投资等提供了一个新的研究思路。下一步的工作将在本文提出的模型基础上,进行基于投融资和专利整合的企业融资预测研究。