数据驱动模式下的科技资源生态系统精准服务

2019-12-02 14:05方少亮
电子技术与软件工程 2019年14期
关键词:供需精准特征

文/方少亮

1 数据驱动的背景

大数据是信息化发展的新阶段,随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。IT时代的技术发展,降低了信息处理成本,事务处理更有效率。互联网时代,主要解决了空间问题,降低了交互成本。大数据时代,聚焦在如何解决信息爆炸问题,如何降低寻找知识的成本。马云在世界互联网大会曾说过:第一次技术革命释放了人的体力,第二次技术革命释放了人的距离,这次技术革命将会释放人的大脑。在信息时代,主要的模式为业务驱动,也就是通过业务特征→专家驱动→以人为主,属于业务经验型,关键的瓶颈就是人。而在数据时代,主要的模式为数据驱动,数据驱动意味着以数据为核心,将数据资产梳理清楚,对之进行集成、共享、挖掘,从而发现问题,驱动创新。数据是最客观的,是最清晰的,数据能够帮助管理者化繁为简,透过复杂繁芜的流程看到业务的本质,更好地优化决策。数据驱动的表现主要是数据特征→数据驱动→以数为主,核心解决的就是如何从数据中挖掘知识,降低寻找知识的成本。

2 科技资源生态系统

科技资源是指从事科技活动的人力、物力、财力以及组织、管理、信息等硬、软件要素的总称,它不仅包括仪器、设备等,还包括实验材料、实验方法、科学实验数据和科技人才。科技资源生态系统指在一定的空间内,科技资源与各种创新主体构成的统一整体,在这个统一整体中,科技资源与各创新主体之间相互影响、相互制约,并在一定时期内处于相对稳定的动态平衡状态。创新主体可以包括科技资源的拥有方、服务方、需求方等,具体可以是高等学校、科研院所、企事业单位、创新创业团队、孵化器等主体。随着我国科技创新投入不断增加,科技资源总量不断增长,科技资源的分布也逐渐出现分布不平衡、利用不充分、供需不对接等问题。如果能通过数据衍生新的业务模式,可以提高科技资源利用率,科技资源需求方能更精准找到拥有方,科技资源生态中各创新主体,如科研人员、科技资源、平台、企业,可以通过数据来驱动主体之间的协同。然而,现阶段科技生态系统还尚未形成相互促进、相互繁荣的局面,生态系统内的数据链并未真正连接,生态化水平还有待提高。主要体现在:

(1)数据量过于杂乱庞大,无法从众多数据中挖掘有效数据,进行数据与业务的相关性分析。

(2)生态系统内数据未经梳理,各领域跨度较大,难于促成供需双方的有效衔接,导致科研成果转化困难、专家人才与资源相互脱节等问题出现。

(3)各数据链接弱关联,数据过于分散不适合中心化,各服务平台相互独立,数据驱动过程较为困难。

3 建立科技资源数据工厂

针对上述问题,本文引入数据工厂的概念和方法,将从事科技活动的人力、物力、财力以及组织、管理、信息等硬、软件要素和仪器、设备、实验材料、实验方法、科学实验数据和科技人才等复杂庞大的数据进行数据精炼,形成统一的数据场景,包括数据模型、指标体系、数据标签和算法特征。科技资源数据工厂为用户提供一站式的科技资源生态系统精准服务,让用户通过实时数据汇聚、智能数据精炼、数据服务三个步骤轻松完成科技资源数据资产沉淀和对外服务,帮助用户降低寻找科技资源的成本、挖掘科技资源数据价值、提高科技资源的利用率。

3.1 科技资源数据工厂设计

科技资源数据工厂的设计,主要包括数据对象设计、数据对象开发、元数据获取和管理、数据质量管理、基于元数据血缘图进行数据处理任务调度等模式和内容。

数据对象设计。通过将开发过程中共性化的、技术化的操作固化在数据工厂中,将个性化的、业务化的信息开放给开发人员填写,从而构建数据处理过程从数据输入(外部表)、数据加工、到数据输出(明细数据、报表)各环节的开发模板,并且能够根据业务变化进行动态调整;系统管理员可制定管理规范、技术规范,将规范固化在开发模板中。

数据对象开发。通过可视化的标准IDE环境进行数据对象开发,开发模板由数据对象设计后自动生成,开发人员只需按模板填充相关的业务元数据和技术元数据即可完成开发,技术代码由平台统一实现。

元数据获取和管理。模板化的开发使得开发过程即为填写元数据的过程,如果元数据未填充或填充不完整,平台可以不允许开发人员提交,达到元数据强制前向获取。

数据质量管理。通过开发框架提供的数据对象设计功能,在设计阶段即对数据在哪个阶段需要进行哪些质量检查进行定义,设计好的数据质量检查要求会固化在开发模板中,可强制开发人员必须填写,并作为开发的一部分并落实到数据处理过程,规则出错可中断调度运行。

基于元数据血缘图进行数据处理任务调度。通过可视化的标准IDE环境,开发人员开发生成了程序任务和元数据信息,平台可通过任务的元数据信息自动生成任务的元数据血缘分析图,并将此元数据血缘图的依赖关系作为调度的逻辑,形成基于元数据血缘图的调度。

3.2 建立实时试错的数据探索环境

基础数据准备完成之后,数据分析师可基于已有的数据进行数据探索,探索的结果如果满足需求,可固化为数据生产线,进行日常调度加工。数据分析师在数据探索过程中缺乏的数据加工能力,可自行进行数据加工能力的设计,并提交给IT技术人员进行实现,主要包括数据语义化、数据加工组件化、数据探索的实时试错、探索结果固化等环节。

数据语义化:从数据申请开始,提供数据申请能力,数据分析师可在数据工厂中选择需要进行数据分析或探索的数据。对于待分析的数据,可通过查看数据或其他用户对该数据的定义,理解数据的作用,并定义自己的数据语义。数据语义化之后,数据分析师在做数据探索时,可通过搜索功能,直接找到自己需要的数据。

数据加工组件化:加工组件采用业务模型驱动的设计和开发方式,组件为数据加工的具体能力,将加工能力组件化之后,不懂技术的用户,只需填写相关业务信息,便可完成指定的数据加工。组件通常由数据分析师进行设计,IT技术人员进行开发实现。组件设计完成后,通过数据工厂,直接转换成开发模板,开发人员根据模板,完成组件开发,数据分析师可在数据探索过程中,直接使用该组件。

数据探索的实时试错:数据语义化和加工能力组件化之后,数据分析师可在数据工厂提供的数据探索设计区,通过拖拉、配置的方式,进行数据的探索。组装数据生产线后,可直接进行数据的加工分析,并进行数据结果查看。

探索结果固化:对于数据探索的结果,如果满足业务需求,可固化为生产线,进行日常调度生产。

4 生态系统精准服务

通过建立科技资源数据工厂,有效对数据进行整理和分析,但对于科技资源生态系统来讲,还存在各领域跨度较大、难于促成供需双方的有效衔接的问题。通过混合数据源融合检索,面向公众提供全面深入的检索服务;研究供需对接技术,面向交易主体提供对接服务;研究精准推荐技术,从信息层面实现精准推送。从而多方面促进生态系统服务的精准高效化,促进科研成果转化、解决各科研人才、企业与资源精准对接和服务等问题。

4.1 混合数据源融合检索方法

基于混合数据源融合的资源检索方法将不同来源的科技资源数据通过数据清洗、归一化处理、特征提取等方式进行多源数据集成,然后根据不同的特征维度进行分层次的相似度排序,最后根据用户行为进行混合排序,最终达到智能检索的目的。在具体实现方面,首先构建资源库,将资源库由各地区资源共享平台所汇聚的NOSQL与SQL数据库资源和通过网络爬虫所获取的深网数据构成。针对深网数据源,进行ICTCLAS分词,去停用词,形成文本组合,每项文本具有来源类型标识。针对数据库资源,进行字段内分词、多字段组合、去停用词,形成文本组合。然后将两类数据存入二次数据库,以供后续的检索,提交检索效率,当最新数据添加时,进行增量存入二次数据库。根据检索词与文本相关性进行分层排序,按领域、地域、行业等特征维度进行分层计算,分别得到各层面的排序后文本集合,进行特征维度分层检索。将各层次的排序结果列表进行智能混合排序,根据用户行为,分析各维度的重要性,按权值比重进行,基于cookie的混合排序,得出最后的检索结果。

4.2 供需对接技术

基于用户数据(用户行为、用户需求、用户类型特征)的科技资源供需对接技术,重点在于供需双方的需求内容分析。首先通过科技资源供需双方基本特征实例建立科技资源语义分析索引,该索引运用了科技语义分析方法,该方法遵从一般的学科分类方法,以学科类别为基础,对应用领域、硬件条件、成果转化能力等描述性信息用自然语言处理方法,将表面的研究方向、领域类别与深层的科技资源数据信息相对应,将深层信息关联起来建立一套科技资源语义分析索引;然后,根据科技资源语义分析索引及供需双方特征数据模型分别对供需双方建立经验模型,该模型旨在构建供需需求数据库并对科技资源语义分析索引进行深度优化,同时,随着供需双方基础的不断扩充,科技资源语义分析索引不断完善,需求经验模型深度不断增大,使得模型更加符合供需用户的需求思维习惯。

除了用户需求内容之外,还需针对用户类型进行分析,完成用户在科技资源供需对接中的角色定位。首先,根据用户基础数据对用户进行分类,将用户基础数据按照数据属性进行分类,对不同属性的数据进行聚类分析,得到用户数据特征值,对聚簇进行线性回归分析得到不同特征值对应权重,根据特征值及权重构建用户基础分类模型;其次,对用户的行为进行分析,用户行为分析方法是一种基于互联网的日志抓取分析方法,分析的结果反馈给用户数据库,通过多元模糊评价方法对特征进行细分,并对不同用户的特征权重进行调整,增强用户数据库的伸缩性。这样通过两方面分析得到的结果建立用户特征模型,该模型包括科技资源分析索引、需求特征匹配模型、用户角色定位方法、用户习惯分析模型等。在实际应用中,可以根据应用场景、业务类型为每个用户定向构建用户画像,以便快速完成供需用户匹配。通常,在科技资源供需对接中,需要了解供需双方的基本信息及资源供求匹配度,根据用户角色类型分别为供需双方进行定位,其次再进行资源对接。比如,供需双方用户发起资源对接请求,从用户特征库及日志特征库中查询相关用户信息,查询成功则完成用户特征匹配进而完成供需资源对接;若查询失败,则请供需双方提供用户信息以查询相似用户特征,进而完成用户匹配及供需资源对接工作。

4.3 精准推荐技术

基于上述用户特征模型及科技资源语义分析方法构建供需对接索引,该索引是以用户特征为核心,将供需双方的特征关系相匹配,以此为基础,根据需求经验模型得到科技资源与供需用户特征的关系,从而建立供需对接索引。为了更好的完成科技资源搜索与推介,首先,根据供需对接索引、用户类型特征库、用户需求特征库、科技资源关键词库、科技资源特征库建立科技资源搜索方法,该搜索算法在进行资源查找时首先要进行需求匹配及用户角色定位,根据用户角色及需求匹配度完成用户特征与科技资源匹配,完成科技资源搜索。同时根据用户搜索行为及匹配结果建立供需匹配评价模型,用于优化供需对接方法。其次,根据用户行为特征及用户类型建立科技资源推介算法,用于科技资源定向推介。

5 应用前景

从科技生态系统中数据产生与汇聚层、数据组织与管理层、数据分析与发现层、数据应用与服务层进行关键技术的研究,以数据驱动为核心,采用工厂化数据处理和管理模式,采用工具化、流程化、自动化的手段开展数据处理和管理活动,推动传统的技术基础设施平台向生态系统精准服务平台转变;采用精准推荐技术和供需对接技术促进生态系统的精准高效化。本文的研究将服务于国家大数据战略,研究成果主要应用于科技创新与服务领域,科技行业的发展与众多领域、行业息息相关,科技创新将各行业主体紧密关联,通过科技+人才/企业主体+科技金融构成了创新服务的生态系统。研究成果将有效促进我国科技资源拥有方与科技资源需求方的精准对接,降低科技创新活动中寻找科技知识与需求的成本,精准快速的实现科技资源的供需对接。研究成果应用于科技资源共享服务平台,有助于资源平台更好地为中小微企业科技创新活动提供资源与技术服务,为青年科技工作者、科研院校等的科研工作提供基础支撑,为政府科技资源配置提供数据支撑,为社会民生发展提供科技资源专题化服务。

猜你喜欢
供需精准特征
供需紧张局势拉动煤炭价格上涨
供需略微宽松 价格波动缩窄
精准防返贫,才能稳脱贫
如何表达“特征”
油价上涨的供需驱动力能否持续
我国天然气供需呈现紧平衡态势
不忠诚的四个特征
精准的打铁
抓住特征巧观察
精准扶贫二首