西藏智慧畜牧业领域大数据融合:概念、架构与技术

2018-09-26 11:30赵尔平党红恩刘炜
软件导刊 2018年7期
关键词:知识库

赵尔平 党红恩 刘炜

摘 要:目前大数据融合技术都是在静态单模态数据集上进行的,没有关注大规模数据的多源、异构、不确定和跨语言特性,而西藏畜牧业领域大数据是多源、异构、跨语言的多模态数据。为此,给出西藏畜牧业领域大数据融合技术架构,提出属性聚类的异构数据源模式对齐,基于领域特征的多模态实体链接,面向开放模式实体语义关系挖掘的大数据融合技术,以及基于多模态特征的知识表示和建模、面向领域的深度知识发现与预测、特定领域特征普适机理凝练的知识融合技术。

关键词:大数据融合;知识融合;知识库;智慧畜牧业

DOI:10.11907/rjdk.181019

中图分类号:TP3-0

文献标识码:A 文章编号:1672-7800(2018)007-0001-04

Abstract:With present, big data fusion technology was based on static and single-mode data set, without paying attention to the characteristics of multi-source, heterogeneity, uncertainty and cross-language in large-scale data. Big data in Tibet animal husbandry was multi-modal data of multi-source,heterogeneity and cross-language. In this paper we proposed a heterogeneous data source pattern alignment to develop big data fusion technology in Tibetan animal husbandry field based on attribute clustering, the domain-oriented multi-modal entity linking and open-oriented entity semantic relation mining; we further proposed knowledge representation and modeling based on multi-modal features, domain-oriented deep knowledge discovery and forecast, general mechanisms concision based on the specific-domain features .

Key Words:big data fusion; knowledge fusion; knowledge base; wisdom animal husbandry

0 引言

西藏草原位于海拔4 000~5 000m高原,草原面積居我国五大牧区之首。多年来由于过度放牧、病虫灾害、缺乏科学管理等原因,草原退化面积达2 346.67万hm2之多,这种状况威胁着西藏生态环境保护和畜牧业发展。为此,西藏各级政府采取各种科学措施对气候、草原、牲畜、牧场、牲畜围栏数、草原植被沙和病虫等自然灾害进行科学检测。例如,西藏草原生态卫星遥感监测系统借助卫星遥感长时间序列获取西藏七大草原植被长势、草原利用、生态状况等动态变化数据;ChinaFLUX当雄观测站对青藏高原高寒草甸和湿地、羌塘草原生态系统的水、碳、氮循环进行实时检测;西藏高寒草地气象灾害和牧草长势监测系统2016年正式投入运行,实时检测和采集西藏高寒草地气象灾害、湿度、温度、病虫害、鼠灾、日植被指数、牧草长势等动态变化指数数据;中科院西藏地区集中养殖场信息管理系统通过温度、湿度、RFID、GPS、压力、光学等传感器等实时检测和管理集中养殖场牲畜,收集海量数据,对畜产品进行追踪溯源。近几年,“互联网+”智慧畜牧业正在快速发展,例如西藏“农牧管家”云服务平台于2015年上线,为牧民提供科技、市场、文化、医疗、卫生、气象等服务。这些检测与服务系统必将产生海量大数据。以拉萨、林芝、日喀则三地为中心的西藏互联网数据中心建成,可为各系统实现互联互通和云数据交互提供网络服务与保障。

但是西藏畜牧业领域大数据是割裂的、多源异构的多模态数据,这些数据源既有结构化的关系型数据、半结构化数据,又有非结构化数据,如文本、图像、传感器数据等。而这些多源、异构的领域大数据只有融合起来才能发挥最大价值。多源、异构大数据融合引起了学术界和企业界普遍关注。

1 数据融合概念及研究现状

虽然数据产生方式变得越来越多样化,但是数据之间却存在着错综复杂的关系,呈现出大规模数据关联、交叉和融合的局面[1]。数据融合是指利用计算机技术对数据源的信息自动预处理,自动分析及综合,使数据变为知识,从而完成所需的决策和评估任务。大数据融合问题近年来引起了广泛关注,学术界和工业界争相提出解决方法,比如,面向开放领域的知识库(Knowledge Base,KB)技术[2]、关联数据(Linked Data)集成技术[3]、大数据集成技术[4]等。这些技术在结构化、半结构化与非结构化等各种类型的数据处理上形成优势,并被广泛使用。

基于领域特征的数据融合技术有实体连接研究和实体语义关系挖掘等。例如图像语义信息提取与实体连接,必须在统一地理坐标系中获取图像表示的语义信息,然后在语义信息中提取实体。利用图像分割算法和机器深度学习抽取图像中的标题语义,从标题语义中抽取实体并聚类,然后把实体连接到维基百科知识库获取图像标题知识[5]。抽取图像中带名称的对象的名字,对文本中词性标注、句法分析、指代消解和实体识别,使得文本中的实体和图像上检测到的实体链接起来[6]。这些技术适用于西藏冰雪覆盖变化遥感图像数据中提取实体信息。命名实体识别采用监督或者半监督的学习对实体抽取人名、地名、机构名等6类名词,例如SACRF[7]采用人工与机器自动相结合方式进行标注训练语料,抽取命名实体。命名实体消歧是指把多个别名的实体或代表不同含义的同名实体映射到特定领域知识库获取正确解释,通常采用相似度、重合度方法实现。实体语义关系研究方法有基于名字词典技术、语义数据模型的Web数据连接工具集、深层结构语义模型、分类挖掘模式、实体、实体属性和实体间关系图的分析方法[8]。

目前,知识库有维基百科(Wikipediapedia)、Freebase、YAGO、Mi-crosoft's Satori和谷歌知识图谱(Google′s Knowledge Graph),以及百度和搜狗等关联数据库。知识库构建技术有DeepDiv[9]是利用统计推理与机器学习与数据库技术结合构建知识库。构建跨语言的关联数据有助于提高现有关联知识库的覆盖率,但是跨语言数据关联方面的研究非常少。苏永浩等[10]利用跨语言实体链接模型( RSVM) ,基于候選链接分类排序原理实现,借助汉英词典和WordNet中的集合( Synset) 计算文本中的名词相似度。知识表示与建模对知识分析、推论、融合起到重要作用,为后续知识融合提供方便,最常用知识表示为三元组RDF(Resource Description Framework),RDF图用其携带的3种信息——描述性属性、语义关系和语义图结构。此外,面向领域的深度知识发现与普适机理凝练、知识融合依然缺乏对知识资源中存在的关系普适化,要从理性或直觉中建立问题模型,通过对数据呈现的现象进行概括性描述或者归纳学习得到普适模型,然后将模型与数据结合提供适当的泛化能力,比如,“谷歌大脑”可以通过深度学习无监督地辨别任何猫[11]。人的智力能透过现象看到本质,只有发现大数据所呈现出的普遍现象背后的普适原理,才能对客观世界产生更大的影响。

但是现有大数据融合方案大多没有充分考虑大规模复杂关联数据多源性、异构、不确定和跨语言等特性,即现有研究成果大都是基于静态的、单模态数据集上的数据融合技术研究。

2 畜牧业领域大数据特征

西藏畜牧业领域各种监测与管理系统物理上相互隔离,数据库采用分布式存储,它们产生的海量数据具有多源异构、时空敏感、信息缺失、碎片化、动态流式等特性,从而不能直接互联和数据共享。具体分析这些检测与服务系统产生的大数据,存在以下几个问题:

2.1 海量数据存在多源异构

数据体积庞大,数据存在多源性、异构性。例如西藏草原生态卫星遥感监测系统是对观测数据分析后的文本数据;西藏冰雪覆盖变化监测系统是大量图像数据和文本数据;ChinaFLUX通量观测系统不带显示空间信息的关系型数据;西藏高寒草地气象灾害监测和牧草长势监测系统及中科院西藏地区集中养殖场信息管理系统是利用不同类型传感器实时采集数据,数据具有时空特性,这两个系统都是带有时空信息的关系型数据库;“农牧管家”云服务平台、西藏农牧科技云平台等都是结构化和半结构化Web数据。智慧畜牧业检测与服务互联互通、信息整合与共享存在数据多源异构问题。

2.2 数据孤立堆积、价值取向单一

西藏畜牧业领域大数据在监管部门内孤立堆积,未能共享,缺乏深层语义信息挖掘与数据高度融合。例如牧草长势、植被指数、病虫害和鼠灾等数据不能被养殖场集中管理系统共享,仅供政府部门统计草原生态指数。又如冰雪检测数据可以预测草原湿度、牧草长势,而牧草长势可以预测鼠兔繁殖和鼠灾,牧草长势决定集中养殖场牲畜围栏数等,这些孤立数据之间存在关联关系和深层语义信息未被挖掘出来,造成不同系统检测大数据价值取向单一。

2.3 数据未能转化领域知识

西藏畜牧业领域大规模数据存在多源、异构、异质、孤立、跨语言、缺乏融合与普适机理凝练等缺点,海量大数据未能转化为领域知识和知识库,从而没有最大化发挥大数据价值。以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化、普适化为主要特征的大数据价值最大化发挥的关键在于数据融合(data fusion)[12]。2012达沃斯世界经济论坛发布的大数据报告,探讨了面对新数据产生方式下如何通过数据融合技术更好地利用数据产生良好的社会效益[13]。由此可见,通过数据融合可使西藏畜牧业领域物理上相互隔离、多源、异构和异质大数据能够融合到统一的数据平台上。这些大数据缺乏普适机理凝练,牲畜数据不仅与疾病数据存在知识关系,也与藏药存在隐喻知识关系,例如藏草药与其可以治疗牲畜疾病存在知识关系。通过大数据融合技术使得畜牧业领域大数据转化为领域知识,构建领域知识库让牧民透明访问,为牧民提供便捷服务。多源、异构、跨语言数据融合技术是西藏智慧畜牧业领域亟待解决的问题,融合这类数据成为有效的分析数据集具有挑战性。

3 西藏智慧畜牧业大数据融合

本文旨在利用西藏畜牧业领域现有气象、冰雪覆盖、草原、牲畜、鼠灾、病虫害、集中养殖场信息管理系统实时采集的多源异构数据进行融合,利用维基百科藏文版(https://bo.Wikipediapedia.org/Wikipedia/)、维基百科汉文版(https://zh.Wikipediapedia.org Wikipedia/)及互联网知识进行融合,构建西藏畜牧业领域知识库,方便西藏牧民通过西藏“农牧管家”云服务平台、西藏农牧科技云等畜牧业服务平台透明访问畜牧业有关的信息和科普知识,西藏智慧畜牧业大数据融合技术框架如图1所示。

4 大数据融合核心技术

4.1 属性聚类的异构数据源模式对齐

现有模式对齐方法都没有解决关联数据源模式对齐过程中的结构非匹配问题,即现有方法要求两个关联数据库的结构必须完全一致。对于结构化数据源可以利用聚类算中的K-MEANS算法划分法把每个数据源属性划分为K簇进行属性聚类,实现模式对齐;同时利用平均值法实现元组数据对齐。非结构化数据源尽管数据源是异构的,但是同一领域数据具有关联性,实体类型和结构具有相似性,利用深度学习对齐技术在逻辑层面完成对齐,以解决关联数据库结构的非匹配问题。

4.2 基于领域特征的多模态实体链接

4.2.1 遥感图像语义信息提取与实体连接

西藏草原卫星遥感监测系统产生大量长时间序列遥感图像数据,需要提取它的语义信息,语义信息中包含牧草长势、覆盖度动态变化以及植被干旱指数、草原退化、沙化指数。对遥感图像数据进行处理,提取其归一化差分植被指数NDVI(Normalized Difference Vegetation Index)、草原干旱指数GDI(Grassland drought index)、沙化差分指数DDI(desertification defference index)、草原退化指数等。从语义信息中识别实体和实体属性信息,挖掘实体间的语义关系,然后把实体关联到领域知识库。

4.2.2 领域特征命名实体识别与消歧

借助领域特征实现命名实体识别功能,利用畜牧业领域特征,人工抽取典型领域特征实体名并构建领域实体字典。例如抽取西藏所有草原名称、西藏地名、牧区名、雪山名、湖泊名、牲畜名、植物名和藏药名等。人工构造已知实体别名字典以及实体名与其别名的关联关系。利用实体字典、别名字典与机器学习结合方法,实现未知实体名和别名的识别与抽取。

西藏畜牧业领域实体歧义性比较少,但也有一些,例如 “螃蟹甲”是生长在西藏特有的多年生草本植物,是一种藏区中草药,能治感冒咳嗽、支气管炎,同时“螃蟹甲”又是地名(武汉市内一座小山);“雪莲花”既指西藏中草药名字又是歌曲名字,存在实体名称歧义性问题。命名实体消歧时充分利用高原、雪山、藏族、雪顿节、象雄文明等地域特征和高寒草原、藏羚羊、鼠兔、冬虫夏草等领域特征为前提条件,利用聚类方法计算歧义实体上下文之间的相似度进行消歧。主要思路就是使用知识库计算实体间的语义联系,利用它更好地衡量歧义实体上下文之间的相关度,从而消歧。

4.3 面向开放模式的实体语义关系挖掘

识别新实体间的语义关系及实体属性信息可以提高大数据理解和分析的准确率,并且可以用于对关联数据库或知识库扩充。已有一些研究成果还存在不足:一方面,传统关系抽取或者开放领域中的关系抽取通常是针对某些特定类型集合的实体及其语义关系,比如需要预先定义实体类型和关联类型或领域相关的种子实例、种子模式,这样做仅能覆盖部分概念类型,会严重影响抽取关系的覆盖率,尤其是大规模知识抽取。但是西藏畜牧业大数据具有多模态特征,使得实体类型以及实体之间语义关系的类型繁多。所以需要在开放模式下对实体语义关系进行抽取,以提高抽取关系的覆盖率。另一方面,现有实体语义关系抽取方法基本都是针对单个句子,不能抽取位于多个句子中实体对间的语义关联性,并且抽取到的关系质量参差不齐。但是,西藏畜牧业领域数据不仅规模大,且带有长时间序列特征,所以可利用长时间序列特征抽取位于多个句子中的实体对间的语义关联性,筛选高价值量关系,以提高抽取关系的召回率。

4.4 基于领域特征的知识融合技术

4.4.1 基于多模态特征的知识表示与建模

知识表示与建模对知识分析、推论、融合、完全甚至决策有着至关重要的作用,它不仅是把机器不易读的数据转化为机器可理解的形式,还能增强准确性。西藏畜牧业大数据是一种多源、离散分布的数据,以图像、关系数据、三元组和文本为主,每种数据独立分析和应用局限性大,多种模态数据联合使用可以互补优缺。但是目前已有的知识表示学习方法多是基于元组或者基于文本,对于元组—文本、元组—图片、元组—关系数据联合的情况较少。其实,单纯基于元组的表示学习方法缺乏语义,单纯基于文本的方法对歧义性较为敏感,而文本、图片和关系数据对语义信息的挖掘、消岐与补全有重要意义,可以有效辅助知识表示学习。所以,本文拟针对西藏畜牧业大数据中实体与关系的自身特点建立知识表示空间,比如嵌入表示为低维稠密的向量空间,实现知识迁移,为后续的深度知识发现和普适模式发现奠定基础。

4.4.2 面向领域的深度知识发现与预测

为了更好地挖掘大数据中潜在的价值,服务于西藏畜牧业,首先需要挖掘隐含知识,寻找潜在知识关联,进而作出预测和决策,主要包含以下3种:①关系型深度知识,如气候变化与牧草产量的关系、牧民位置与生产水平的关系;②数据分布型深度知识,如积雪分布特征、牧场分布特征、牧民居住特征等;③性质型深度知识,如局部封闭世界、长时间序列等。其次采用潜在语义分析、统计推断等技术提取数据特征,基于深度学习技术构建分析预测模型,并利用商务智能理论、计量经济模型和集成学习方法构造决策模型。

4.4.3 西藏畜牧业领域特征的普适机理凝练

当前知识融合依然缺乏对知识资源中存在的关系普适化,并且只有发现大数据所呈现出的普遍现象背后的普适原理才能对客观世界产生更大影响。对西藏畜牧业大数据呈现的现象进行概括性描述或者归纳学习得到普适模型,并将模型与数据结合提供适当的泛化能力,进而得出具有西藏鲜明区域特色的普适机理。例如西藏雪深呈四周山地雪深大、中部腹地雪深小的空间格局[14],而雪深与降水、牧草产量、牲畜围栏数呈正相关。

5 结语

本文以西藏畜牧业领域大数据为研究对象,分析大数据融合技术现状与存在的问题:该领域大数据特征及因缺乏融合使得這些数据未能发挥最大价值。介绍了大数据融合概念,给出该领域大数据融合技术框架,提出适合该领域大数据融合的技术与方法、基于西藏畜牧业领域特征的知识融合技术与方法,并对这些技术和方法进行详细论述。

参考文献:

[1] SUCHANEK F, WEIKUM G. Knowledge harvesting in the big-data era[C]. Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data,2013:933-938.

[2] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD),2014:601-610.

[3] SMIRNOV P A, KOVALCHUK S V. Linked-data integration for workflow-based computational experiments[J]. Communications in Computer & Information Science.2014,46(8):175-183.

[4] DONG X L, SRIVASTAVA D. Big data integration[C].Proceedings of Data Engineering (ICDE), 2013 IEEE 29th International Conference on,2013:1245-1248.

[5] LYDIA W, IOANA H. Understanding the message of images with knowledge base traversals[C]. Proceedings of The 2nd ACM International Conference on the Theory of Information Retrieval(ICTIR ‘16),2016:199-208.

[6] REBECKA W, LINUS H, AGNES T, et al. Visual entity linking: a preliminary study[C]. Proceedings of Workshops at the Twenty-Eighth AAAI Conference on Artificial Intelligence(AAAI-14),2014:46-49.

[7] 钟志农,刘方驰,吴烨,等.主动学习与自学习的中文命名实体识别[J].国防科技大学学报,2014,36(4):82-88.

[8] MICHAL H, ONDREJ P, MARIA B. Detecting identical entities in the semantic web data[C]. Proceedings of the 41st International Conference on Current Trends in Theory and Practice of Computer Science(SOFSEM 2015),2015:519-530.

[9] CHRISTOPHER D, ALEX R, CHRISTOPHER RE. Deepdive: declarative knowledge base construction[J].SIGMOD Record,2016,45(1):60-67.

[10] 苏永浩,张驰,程文亮,等. CLEQS——基于知识图谱构建的跨语言实体查询系统[J].计算机应用,2016,36(s1):204-206.

[11] YOSHUA B. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.

[12] 孟小峰,杜治娟.大數据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):1-16.

[13] WORLD E F. Big data, big impact:New possibilities for international developent[R/OL]. https://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development.

[14] 白淑英,史建桥,沈胃寿,等.近30年西藏雪深时空变化及其对气候变化的响应[J].国土资源遥感,2014,26(1):144-151.

(责任编辑:何 丽)

猜你喜欢
知识库
汉语近义词辨析知识库构建研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
美国高校机构知识库开放获取政策调查
杭锦旗地区辫状河定量地质知识库建立及应用
高速公路信息系统维护知识库的建立和应用
基于全方位服务机制建设机构知识库研究
基于Drupal发布学者知识库关联数据的研究
卫星状态智能诊断知识库设计方法
基于决策技术和粗糙集理论的诊断知识库构建研究
全球开放存取知识库发展现状分析与启示