基于中华民族文化知识图谱的网络空间建设

2020-11-12 09:28:54孟佳娜于玉海李佳宜
大连民族大学学报 2020年5期
关键词:结构化网络空间图谱

刘 爽,孟佳娜,于玉海,杨 辉,李佳宜

(大连民族大学 计算机科学与工程学院,辽宁 大连 116650)

党的十八大以来,习近平总书记对铸牢中华民族共同体意识做出了一系列重要论述。在2019年9月召开的全国民族团结进步表彰大会上[1],习近平总书记要求“以铸牢中华民族共同体意识为主线,把民族团结进步事业作为基础性事业抓紧抓好”。随着互联网的蓬勃发展以及知识的爆炸式增长,虚拟空间与现实世界深度融合,网络空间已成为广大人民群众生活的一个重要组成部分。面对数字化、互动性、个性化的新媒体时代,铸牢中华民族共同体意识不仅应该涵盖物理空间,还应涵盖虚拟化的网络空间。要铸牢网络空间的中华民族共同体意识,必须发挥大数据挖掘、云计算、知识图谱技术的优势,整合网络资源,丰富中华民族文化互联网传播内涵,满足公众文化需求,实现价值引领、文化传承,繁荣社会主义文化建设事业,培育中华民族认同感,为铸牢网络空间的中华民族共同体意识提供支持。

1 铸牢网络空间的中华民族共同体意识的重要意义

网络空间作为广大人民群众赖以生存的第五空间,其在铸牢中华民族共同体意识中发挥着不可替代的重要作用,现从以下三点加以阐述。

1.1 巩固和强化中华民族共同体意识教育

中国自古以来就是一个多民族国家,各族人民密切交往、相互依存、休戚与共,形成了中华民族“多元一体”的格局,共同推动了国家发展和社会进步。在网民规模达8.54亿,互联网普及率达61.2%,手机网民规模达8.47亿,移动互联网接入流量达553.9亿GB的新情况[2]下,必须巩固和强化网络空间的中华民族共同体意识教育。特别是青年一代不仅是国家的未来,也是网民的主力军,必须加强青少年获取的网络信息的导向性教育作用,加大价值认同、文化认同、网络引领、国家认同、政治认同、民族认同、文化自信的互联网资源供给,贯穿网络空间中华民族共同体意识教育全过程,实现网络空间的中华民族共同体意识培育的引领作用。依托统一的开放式、交互式、多层级的大数据采集处理云平台,采用“云+端”的解决方案,全方位监测网络传播大数据,满足民众个性化、碎片化文化需求,实现网络文化传播的价值引领、文化传承、实践教育等多重功效。

1.2 建设和铸牢意识形态网络阵地

2016年7月1日,习近平总书记在庆祝中国共产党成立95周年大会上的讲话[3]时指出:“文化自信,是更基础、更广泛、更深厚的自信。在5000多年文明发展中孕育的中华优秀传统文化,在党和人民伟大斗争中孕育的革命文化和社会主义先进文化,积淀着中华民族最深层的精神追求,代表着中华民族独特的精神标识。我们要弘扬社会主义核心价值观,弘扬以爱国主义为核心的民族精神和以改革创新为核心的时代精神,不断增强全党全国各族人民的精神力量。”网络空间是意识形态斗争的重要阵地[4],要在对中华民族共同体意识科学分析和智慧传播的基础上建设和铸牢意识形态的网络阵地,强化广大民众的民族归属感,培育政治认同感,强化党的领导和政治引领功效,增强社会主义主流意识形态的网络凝聚力。在网络文化传播过程中要牢固树立以中华文化为底蕴的网络文化意识,提升中国网络文化的影响力,丰富网络文化传播内涵,增强文化创新力,增强文化传播吸引力,增强社会主义核心价值观、中华民族认同感、归属感的凝聚力,为我国网络文化传播提供强有力的智力支持,实现当代中国更加坚定的文化自信。

1.3 引领和营造绿色网络空间

关于网络空间,习近平总书记强调网络治理要交流、合作、共赢[5],他指出:“网络空间是亿万民众共同的精神家园。网络空间天朗气清、生态良好,符合人民利益。网络空间乌烟瘴气、生态恶化,不符合人民利益。”在网络空间、互联网信息传播过程中引发的反动思潮影响、民族分裂言论、危害国家、民族安全、国家利益的言论、行为必须采取有效的治理措施,确保网络舆论的正确性、导向性,打造绿色网络空间。可以采用多学科融合的思路[6],引入大数据、深度学习神经网络的最新技术进行网络文化传播大数据分析,实现分析的精准性、实时性,分析识别涉及分裂活动、恐怖主义、反华、散布谣言、攻击政府等非正常文化传播文字、图片、视频信息,及时发现及时预警,采取有效治理措施,保证网络舆论的正确引导。构建以社会主义核心价值观、文化自信、国家认同、政治认同、民族认同为主流的中国特色社会主义网络文化,巩固和强化民族认同感,深入挖掘铸牢中华民族共同体意识的时代内涵和发展空间,铸牢网络空间的中华民族共同体意识。

2 构建承载文化自信的中华民族文化知识图谱

2.1 构建目的

建立在社会主义文化基础上的文化自信与中华民族共同体意识,是中国各民族共同创造的精神财富。中国民族地区和少数民族的文化资源,不仅是中华文化的瑰宝,也是世界文化艺术的瑰宝。借助互联网大数据技术,充分利用互联网中优秀的民族文化、民族团结等数字化资源,建立基于互联网传播的中华民族文化数字化资源知识图谱,在此基础上采用融合语义相似度的协同过滤推荐算法实现数字化资源的智能搜索和精准推送,强化民族归属感、文化认同感、政治认同感、共筑网络智慧家园。

2.2 中华民族文化知识图谱构建流程

为了传播和弘扬中华少数民族文化,本文采用如下流程构建了中华民族文化知识图谱。

(1) 基于Hadoop的互联网大数据采集。基于Hadoop集群环境的数据采集系统,利用分布式网络爬虫进行数据抓取,以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对数据进行统一存储管理。然后根据采集的数据,通过检索的形式分类数据,进行一个深层次的数据分析工作。总体分为底层、中层、上层三个层次,其中底层计算引擎提供海量数据存储和高速计算能力;中层大数据工作台为数据资产的开发、管理、挖掘、服务化提供工具;上层应用通过各种形式发挥数据的价值。采用Hadoop实现对BMO域数据的全面接入、融合、处理及统一建模,并引入爬虫、流计算等技术实现对互联网数据的处理和实时业务支撑。该系统分为五层架构,分别是数据源层、数据获取域、数据域、数据应用域、数据管理域。

(2) 中华民族文化数字化大数据知识图谱搭建。根据民族领域的规则和定义对要构建的知识图谱进行设计。再经过数据获取、数据处理后,使用基于深度学习的命名实体识别方法将部分结构化数据进行知识抽取,删除重复数据后获得实体和关系。经过知识融合,将数据导入Neo4j图数据库中,构建出包含多个实体的少数民族艺术资源数字化知识图谱。

知识图谱构建主要包括知识建模,知识抽取、知识融合、知识存储四部分[7]。其中知识建模指少数民族艺术资源数字化知识图谱的结构设计,包括实体定义、关系定义、属性定义及事件定义等等。知识抽取指原始数据的获取和数据处理。其数据类型主要包括结构化/半结构化/非结构化数据。对半结构化数据采用爬虫技术+包装器+正则表达式。对非结构化数据采用命名实体识别、关系抽取等方法。知识融合分为模式层的融合以及数据层的融合,模式层的融合指概念、概念的上下位、概念的属性这些统一;数据层的融合是将不同数据来源的相同实体的不同表达形式进行融合,采用实体对齐、指代消解等实现实体的合并、实体属性与关系的合并等。知识存储中使用Neo4j图数据库进行数据存储。

具体实现细节为:经上一步大数据采集的数据包括结构化数据、半结构化数据和非结构化数据。针对不同的数据采取不用的方式进行处理,针对结构化数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的数据转换为RDF数据;针对半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等,可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素;针对非结构化的数据(例如网页中的文本数据),需要抽取的知识包括实体、关系、属性。对获取的数据进行处理。数据清洗主要包括去停用词、去网页标签、清理无效值和缺失值以及分词等操作。对于非结构化数据,清洗完成后需要对数据进行标注以方便下一步中进行实体识别和关系抽取操作。将爬取的网页中信息框内格式为“属性-属性值”的半结构化数据处理成构建知识图谱所需要的“实体-关系-实体”或“实体-属性-属性值”这样的三元组形式。将得到的实体关系三元组数据进行存储,这里采用Neo4j图数据库存储中华民族文化数据三元组。采用前端技术HTML/CSS/JavaScript和 Django web框架将知识图谱进行可视化展示,并结合图查询语言实现智能搜索功能。

(3) 智能问答系统构建。在问答系统中融合基于双向长短时记忆循环神经网络+条件随机场的命名实体识别技术、关系检测技术、短文本分类技术,并采用基于字-词编码的问句实体识别方法,提高实体边界的预测率,提高实体检测率;在问句分类中,选用TextCNN与注意力机制Attention相结合算法来提高分类的准确率。这里采用一种在问句分类模型中融入知识图谱中实体和关系的三元组信息的分类方法,分为四个模块。第一个模块是问句实体识别,采用基于字词编码的Bi-LSTM+CRF神经网络模型实现;第二个模块是图谱映射与相似度计算,包括将问句中识别的实体映射到知识图谱中,再利用余弦相似度和DP编辑距离两个指标来筛选与问句匹配较高的三元组;第三个模块是问句分类,使用TextCNN将问句意图与知识库关系进行映射,同时在输入层和卷积层之间加入attention层有效解决提取信息时忽略非连续词间的相关性问题;第四个模块是构建答案,根据模块三得到的问句类型结合模块一识别出的实体,生成Cypher语句在图数据库中查询答案。

本文根据民族知识的特点、已构建的中华文化民族知识图谱内容和用户习惯提问的问题,自定义了29类问题模板,并且根据不同的提问方式和不同的查询目标构造了一个含有5 000条样本数据的自然语言问句数据集。其中70%数据作为为训练集,30%数据作为测试集。实验过程中为了证明本文采用的TextCNN-Attention分类器的有效性,将其与MultinomialNB和textcnn两种方法进行了实验结果对比。评价指标采用查准率、查全率和F1值,结果分析见表1。

表1 模型结果分析 /%

从实验结果数据可知,采用TextCNN-Attention分类器的问答结果查准率、查全率和F1值均高于其它两种方法。

2.3 可视化分析效果

Hadoop平台采集的大数据经分析、处理之后,把复杂的多模态信息通过计算处理成计算机能够结构化表示的知识,所表示的知识采用Neo4j图数据库进行数据存储,可以通过编程绘制展现给用户,为网络空间海量知识提供有效组织、管理和理解的技术手段,为快速信息检索提供便利。实验中使用的数据来源于百度百科和民族网,经过大数据采集处理后,得到19类实体,分别是:民族名称、别称、人口数、分布地区、民族属性、语言、语族、语系、文字、信仰、节日、建筑、文学、医学、音乐、舞蹈、工艺美术、饮食、图腾、民族人物、民族风景、民族禁忌、民族简介。基于双向长短时记忆网络-条件随机概率的命名实体识别方法识别出实体节点6 712个,关系10 740个。

已搭建的中华民族文化知识图谱部分节点可视化效果如图1。

利用知识图谱可视化结果可以进行民族文化互联网传播大数据分析。检索系统主要包括实体查询、实体可视化展示、实体百科类检索查询等功能。让用户能更加便捷、轻松的获得到所需数据,并采用图文并茂、音频、图像、视频、影像多种方式的直观可视化结果返回给用户。基于知识图谱的智能搜索结果如图2。

3 创新发展网络空间的中华民族共同体意识建设

创新实践路径,采用多学科融合的方式,多学科联动,协同推进,协同创新,多学科聚力网络空间铸牢中华民族共同意识。以网络空间的铸牢中华民族共同意识为核心,实现思想政治教育、计算机学科、新兴交叉学科多学科融合,兼具学理性和实践性,各学科在加强、深化铸牢中华民族共同体意识建设中相互借鉴,在交叉融合中守正创新;深入挖掘铸牢中华民族共同体意识的时代内涵和发展空间,避免单一学科的局限性。

从网络空间的中华民族共同体意识多模态数据出发,充分利用大数据深度学习技术,实现海量数据的分析和处理,较好地解决数据稀疏问题,建立跨模态的中华民族共同体意识分析模型,构建中华民族共同体意识垂直领域知识图谱,发挥示范性引领作用,实现靶向聚焦精准,按需提供资源,坚定文化自信,建设和巩固意识形态斗争的网络阵地,营造健康的网络空间,强化网络空间的中华民族共同体意识,共筑网络智慧家园,为铸牢中华民族共同体意识提供支持。

猜你喜欢
结构化网络空间图谱
促进知识结构化的主题式复习初探
绘一张成长图谱
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
共建诚实守信网络空间
公民与法治(2020年4期)2020-05-30 12:31:20
网络空间并非“乌托邦”
传媒评论(2018年8期)2018-11-10 05:22:26
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
网络空间安全人才培养探讨
主动对接你思维的知识图谱
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
基于软信息的结构化转换