朱小平
(安徽国防科技职业学院 经贸管理学院,安徽 六安 237011)
随着互联网技术的飞速发展,全球开始广泛流行电子商务模式.中国的电子商务在全球电子商务蓬勃发展地推动下,产业规模也得到了快速扩张.据中国电子商务研究中心监测数据显示,截止到2016年12月,2016年中国电子商务交易额22.97万亿元,其中B2B 市场交易额16.7万亿元,网络零售市场交易额5.3万亿元,生活服务电商交易额9 700亿元.电子商务服务企业直接从业人员超过305万人,由电子商务间接带动的就业人数,已超过2 240万人.大数据环境下电子商务的非地域性、虚拟性以及交易及时性特点所带来的网络交易诚信问题严重制约了中国电子商务的健康发展,导致国内电子商务信用信息的发展严重滞后[1].如何快速有效地从互联网大数据中获取可靠的电子商务信用信息,成为电子商务健康发展亟须解决的关键问题.本文基于Drupal平台,针对电子商务信用信息碎片化、海量化的特点,通过引入关联数据(Linked Data),构建了电子商务信用信息服务框架,并实现了信用信息关联数据的发布与语义查询,为电子商务信用信息服务提供实践参考.
2006年,万维网的发明者Tim Berners-Lee在Linked Data一文中提出关联数据的概念.关联数据是一种轻量级的语义网实现技术[2],其主要目的在于采用资源描述框架(Resource Description Framework,RDF)数据模型,将互联网上数据描述格式不统一的结构化和非结构化数据转换为格式标准、统一的结构化数据,从而实现数据的关联、发现、再利用.关联数据定义了一种URI使用规范,并不是一个全新的技术,其完全建立在现有的HTPP、URI、HTML等Web技术之上.
关联数据中最重要的概念就是“RDF三元组”.RDF三元组由主语-谓词-宾语作为基本数据模型.其中主语可以是使用URI表示的实体资源,也可以是不具有命名空间的空白节点.根据关联数据原则[3],主语应尽可能地使用URI表示及使用RDF进行编码.一方面,URI的开放性使得互联网上所有关联数据成为一个整体,另一方面,关联数据本身的语义特征增强了异构数据的网络共享能力.
1.2.1关联数据在电子商务信用信息共享中的作用
随着市场经济的发展,信用机构向多元化发展.目前商业信用信息主要分散于各中央银行、商业银行、投资银行、专业信用机构等类型信用机构的数据库中.在电子商务信用信息服务中引入关联数据,主要作用表现在以下两个方面:
(1)信用信息资源的整合与共享:由于信用机构的多元化以及信用信息的分散化,交易主体要想获取交易对象全面完整的信用信息并不是容易的事.关联数据可以实现将不同数据结构类型的信用资源进行关联,并以结构化的图式结构进行集中存储,从而实现资源的整合与共享,如图1所示.进行信息服务时从一个URI实体开始,关联数据搜索引擎可以遍历出所有的相关信息.
(2)信用资源的语义关联,用户个性化服务:信用资源通过采用基于RDF的关联数据技术发布后,增强了不同形态数据间的语义描述能力,扩展了资源间的联接关系.语义关联后的信息资源经过综合处理后可以发现更多用户需要但处理前还没发现的信用信息,可以为用户提供更加个性化的信用信息服务.
1.2.2基于关联数据的电子商务信用信息发布步骤
基于关联数据的电子商务信用信息发布主要包含:数据采集、关联数据发布、数据整合三个步骤,如图1所示.
图1 电子商务信用信息关联数据处理流程图
(1)数据采集:按照数据源分,基于关联数据的电子商务信用信息服务平台数据源由两部分组成:本地数据和关联开放数据(Linking Open Data,LOD). 本地数据包括没有经过关联处理的结构化数据、半结构化数据和非结构化数据,主要来源为相关信用机构和电子商务平台.LOD来自于关联数据开放网络.本文所描述的数据采集主要是针对本地数据.
(2)关联数据发布:根据不同的数据源,关联数据的发布也分为两类.一类是将采集到的本地非关联数据按照关联数据的发布规则将其发布为关联数据,另一类是将采集到的关联数据,经过消费后产生的新的关联数据重新发布到LOD云图中.
(3)数据整合:数据整合的目的是将数据结构不一致以及具有歧义的本地关联数据集与LOD数据云图中的数据源整合成格式统一、语义一致的面向电子商务信用信息服务的特定关联数据集.然后利用数据挖掘技术实现对用户的个性化服务.
电子商务信用信息服务框架由数据层(Data Layer)、数据融合处理层(Data Integration and Storage Layer)、数据服务层(Data Service Layer)、应用层(Application Layer)组成.如图2所示.
图2 电子商务信用信息服务框架图
(1)数据层:数据层是整个电子商务信用信息服务框架的基础,负责基础数据的采集与关联发布.如1.2.2节所述,数据层采集的主要是本地不同结构的数据和LOD开放关联数据网络中有关电子商务信用信息的关联数据.数据层为数据融合处理层提供数据源服务.
(2)数据融合处理层:数据层提供的数据是来自不同数据源的异构数据,对于相同数据在不同数据源中其语义也不尽相同,因此这些数据并不能直接为用户提供个性化服务.需要对数据层提供的数据进行消歧同构化融合处理.数据融合处理层通过本体映射、实体识别等的融合处理,最终形成针对电子商务信用信息服务的关联数据集.
(3)数据服务层:数据服务层通过数据清洗、分类聚合、数据挖掘等操作,完成用户个性化需求挖掘与分析,为用户提供个性化定制服务.
(4)应用层:应用层直接面向用户,为用户提供资源发现和访问服务.如为用户提供信用评级、信用调查、信用报告、信用认证等个性化服务.用户可以利用应用层提供的关联数据浏览器、搜索引擎以及应用程序实现无障碍检索、浏览服务.应用层同时将用户消费结果形成新的数据源并反馈到数据层,实现数据的再生,通过数据的再生能够为用户提供更加精准的个性化服务.
本体的目标是捕获相关领域的知识[4].电子商务信用信息服务本体的构建就是提炼电子商务信用领域知识的共同理解,确定该领域内共同认可的词汇[5].本文设计的电子商务信用信息本体构建由实体与属性选择模块和关联关系构建模块组成.
(1)实体与属性选择模块:实体是客观世界中存在的且可互相区分的实物[6],既可以是客观存在的实体,也可以是抽象虚拟的概念.电子商务活动中与信用信息有关的实体主要包含个人、商家、政府机构、征信机构,然后通过各个实体间的关系将电子商务信用领域的实体进行关联.如商家与工商、税务等政府机构的关联是通过商家在上述政府机构中完成国家规定的法定义务所形成的基础信用实现的.属性是描述实体特征的数据,用来描述区别于其他实体的特征.例如,商家的属性包含法人代表、地址、商家类型、信用等级、税务机构代码等属性;个人包含姓名、性别、身份证号码、信用评分等属性;税务机构包含机构代码、机构名称、机构地址、联系电话等属性.
(2)关联关系构建模块:使用本体构建工具Protégé构建完成的关联数据,然后利用本体构建工具根据类与类、类与子类、类与实例间的关系建立相应的关联关系.以政府机构为例,构建其本体,本体片段如图3所示.
图3 本体片段
Drupal是使用PHP语言编写的开源内容管理框架,在其诞生之初便引入了RDF关联数据的设计.本文以基于Drupal平台为例说明电子商务信用信息关联数据的发布.
2.3.1Drupal内容类型与RDF三元组映射关系
RDF三元组通过“实体-属性-值”的形式表示.实体使用URI唯一识别互联网对象;属性用来描述实体通用性特征,其名称值也可以使用URI表示;三元组的值既可以使用通用值表示,也可以使用URI描述.使用Drupal定义的每一个内容类型均描述了RDF三元组中的一个实体.在内容类型中发布一条记录,又称为节点(Node).每一个节点都有标题、作者、发布日期等属性组成.Drupal内容类型与RDF三元组对应关系如下表所示:
Drupal内容类型与RDF三元组映射关系
2.3.2创建RDF映射模块
内容类型向RDF映射由Drupal提供的RDF Mapping API实现.Drupal中任何内容类型使用该API均可以实现RDF的映射.以电子商务信用信息服务平台中的税务机构国税内容类型为例,内容类型国税可以映射到实体mo:stateTax;字段可以映射到:mo:stateAdd和mo:stateName等.
(1)创建“国税”内容类型:内容类型的创建通过Drupal的hook_install钩子函数实现.
$rdf_stateTax = array(
'type' => 'stateTax’,
'name' => $t('StateTax '),
'base' => 'node_content',
);
$content_type = node_type_set_defaults($rdf_ stateTax);
node_type_save($content_type);
定义stateTax相关字段,以税务机构地址字段为例.
array(
'state_Add' => array(
'field_name' => state_Add,
'type'=> 'text',
),
);
(2)使用RDF Mapping API完成RDF映射
'stateTax' => array(
'type' => 'node',
'bundle' => 'state_Tax',
'mapping' => array(
'rdftype' => array('v: stateTax'),
再次,建立有效的储气能力和有序的储气调峰市场机制。我国天然气储气调峰系统是一个以地下储气库和LNG储罐为主,以管网互联互通为支撑的多层储气调峰机制。我国计划到2020年形成供气企业不低于其年销售量的10%、地方政府不低于保障行政区域3天日均消费量的储气能力。加快完善全国管网,对接全国天然气消费区和生产区的多气源、跨区域协同保障管网体系,形成管道气和LNG调峰保供的协调发展。
'address' => array(
'predicates' => array('dc:add', 'v:name'),
),
'state_Date' => array(
'predicates' => array('v:stateDate '),
),
'state_Num' => array(
'predicates' => array('v:stateNum'),
'type' => 'rel',
),
……
),
),
其中,“state_Num”机构代码实现了与其他实体的关联.
本文提出的基于关联数据的电子商务信用信息服务模型,一方面,可以有效提高信用信息资源的利用率;另一方面,关联数据技术的引入,使得各个分散的电子商务信用信息资源融入开放的共享网络平台,然后结合数据挖掘、云计算等大数据处理技术,能够为用户提供快捷的个性化服务.
参考文献:
[1] 高劲松,梁艳琪,李珂,等.面向关联数据的电子商务信用信息服务模型研究[J]. 现代图书情报技术,2014(6):8-16.
[2]夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012(1):49-57.
[3]游毅,成全.基于关联数据的科研数据资源共享[J].情报杂志,2012,31(10):146-151.
[4]马雨萌,刘凤红,黄金霞.STKOS中领域本体模型框架研究[J].图书情报工作,2015,59(3):119-125.
[5]张前进.基于在线资源开放课程的智能学习系统本体构建研究[J].大理大学学报,2016,1(12):14-17.
[6]申晓敏.基于关联数据的电子商务知识挖掘模型[D].石家庄:河北科技大学,2016.