互联网社区中网络化知识实体抽取研究

2022-04-21 07:03王怀波郑勤华
开放学习研究 2022年2期

王怀波 郑勤华

(1.北京师范大学 系统科学学院,北京 100875;2.北京师范大学 远程教育研究中心,北京 100875)

一、引言

伴随着互联网的出现,人类出现了一个全新的空间——信息空间(潘云鹤,2018)。在这样一个全新的、足够开放的信息空间里,其所具有的信息贡献草根化、信息生产众筹化、信息选择个性化、各类关系网络化以及信息与行为的可量化等特征,改变了教与学的过程,改变了知识的生产和传播方式,继而改变了知识的内涵(陈丽,逯行,郑勤华,2019)。加拿大的Siemens(2005)、美国的戴维·温伯格(2014)、瑞士的安德烈·焦尔当(2015),国内学者陈丽、逯行和郑勤华(2019)、刘和海、李少鹏和王琪(2016)以及王竹立(2019)等均对此类互联网中新知识及其特征加以描述。陈丽团队将此类知识界定为网络化知识,即在互联网环境中由群体智慧汇聚生成并不断发展变化的信息、认识、技能、价值观和态度。此类知识不是传统知识的网上搬家,也不是简单的信息共享,而是群体智慧汇聚、协同创生并且不断更新发展的一类新知识,具有结构网络化、贡献群体化、内容经验性、生产传播同流程的动态发展等特征(王怀波,陈丽,2020)。

专业社区通常是群体自由表达、相互共享、协同创造知识的重要场所(Chen, Y. J., & Chen, Y. M.,2012),社区中留存下来的共同创生的内容蕴含着大量的网络化知识。海量庞杂的数据以及结构不再固定的网络化知识让传统模式化的知识抽取方式不再奏效,为此,如何借助计算机的快速处理和分析优势,设计形成一套适合在互联网专业社区中进行知识抽取的框架,协助新知识抽取与挖掘,以支撑回答互联网时代新知识“怎么提”的现实性问题被摆在眼前。

二、知识抽取的相关研究

知识抽取是指通过借助计算机从不同来源、不同结构的数据中提取知识并存入到知识库中。当前关于知识抽取研究的方法主要集中在以自然语言处理技术为主的知识抽取。

常见的知识抽取方法包括基于机器学习的方法和基于深度学习的方法。基于机器学习的知识识别算法包括改进的隐马尔科夫(HMM)、条件随机场(CRF)等模型。如徐元子、张迎新和刘登第(2016)采用semi-Markov CRFs模型针对评论描述随意的特点,从评论语句中识别出片段粒度的知识实体。随着深度学习的迅速发展,出现了基于深度学习的实体识别和基于注意力机制、迁移学习机制等实体识别方法。基于深度学习知识识别算法主要包括深度神经网络模型(DNN)、卷积神经网络(CNN)、基于词向量的双向长短时记忆神经网络模型(BiLSTM)。例如:崔竞烽、郑德俊、王东波和李婷婷(2020)借助实验验证BiLSTM、BiLSTM-CRF和BERT等深度学习模型在特定领域中实体识别的结果,并通过与CRF模型识别结果对比,证实BERT模型在特定领域中命名实体识别的效果更优。赵丰、黄健和张中杰(2020)构建了一种基于卷积神经网络和注意力机制(Attention Mechanism)的实体识别模型,用以解决中文实体依赖分词效果和速度慢等问题。实验表明模型效果提升了2%~8%,且速度达到了主流模型的1.4~1.9倍。Liu、Jiang和Song(2014)提出了一种两阶段获取经验隐性知识的方法,首先将经验丰富的工程师对话记录下来,以自然语言处理的方式(NLP)获取默会知识,然后运用关键图算法(KGA)获取经验知识的核心内容。还有人提出了一项发现虚拟社区中知识进化过程的技术,用以发现隐藏在专业虚拟社区中经验知识进化的过程,从而辅助社区人员快速检索并获取经验知识(Chen, Y. J., & Chen, Y.M., 2012)。

随着互联网中基于本体的知识表征普及,有研究者尝试借助本体思想抽取知识。例如:Lee、Chen和Jian(2003)开发了一种基于本体的网络新闻自动摘要机制,利用模糊理论和神经算法形成的agent机制,从网络新闻中自动检索并总结重要句子,将其转化为标签化的知识。Li、Jiang、Song和Liu(2017)采用本体方法将工程类知识表征为EEK=,其中EP表示工程问题,PC表示问题情境,PS表示问题解决方案,E表示问题解决的有效性,C表示贡献者,T表示时间,FA表示知识之间的相互关系,并借助所设计的具体方法(条件随机场获取关键词表征EP,时间戳转换时间T等)完成对知识的抽取。

在以上所述的知识抽取中,基于机器学习、深度学习的知识抽取探索为知识的抽取提供了一些有效的途径,尤其是针对底层的技术实现和优化迭代,而基于本体的知识抽取的一些探索为这类经验性知识抽取提供了具体的思路。然而,当下知识实体抽取方法存在重技术轻应用,重单点突破缺整体设计等问题。尤其针对教育领域缺乏具体的实际案例与导向作用。因此,为了解决关于此类经验性知识抽取的现实问题,本文提出一种人机协同的网络化知识实体抽取框架,通过汇聚、整合、切词、抽取、过滤与统一实现对网络化知识实体的抽取。

三、网络化知识实体抽取框架

文本作为互联网传播的主流形式,蕴含着大量的信息与知识(Dey, 2001)。通过文本可以更清楚地了解当前用户所做的事情,以及在做这些的过程中创生了哪些知识,因此也成为当下知识抽取的主要来源(Song, Jiang, & Liu, 2016; Li et al., 2017;Chen, Y. J., & Chen, Y. M., 2012; 俞琰,陈磊,赵乃蠧,2019;王萌,符雅茹,牟智佳,2021)。借助自然语言处理技术进行知识抽取时,通常要经过分词、词性标注和语义分析等基础性文本处理工作,随后借助制定的规则从中抽取出概念、属性及其相关关系等知识要素,最后将所抽取的知识存入知识库中(冯青文,2017;郭玉娟,胡韧奋,2019)。考虑到网络化知识强调知识的境域化特征,需要将语境这一关键要素纳入网络化知识抽取工作中。通常来说境域化是指网络化知识出现的特定的语境,由该知识点所在言语活动的上下文组成。一个完整的讨论空间通常具有同一个语境意义,为此需要在原本分词、词性标注等基础性文本处理工作之前完成对原始数据的语义整合与拆分。另外,由于表述习惯、拼写错误、名称变体以及缩写等因素,知识实体会出现一个实体对应多个表象的现象。如此形成的实体,既不符合实体唯一性的要求,也会出现大量数据冗余,并且会影响后续知识的应用(董志强,刘永年,魏丽华,2017)。为此,有必要在原本知识实体抽取的基础上加入实体的统一。

依据上述分析,笔者构建了网络化知识实体抽取框架,如图1所示。整个框架包括三个环节:数据采集与处理、分词与实体抽取和实体过滤与统一。

图1 网络化知识抽取框架

(一)数据采集与处理

数据采集与处理是指根据一定的研究目标将相互关联的分布式异构数据采集汇聚到一起,最终让用户看到更加真实、准确、可靠的数据。此阶段包括两个部分,首先是数据采集与汇聚,将采集到的不同业务系统数据,按照研究需要进行统一汇聚,并对问题数据进行清洗,以保证数据的打通和规范。其次是数据处理与整合,即根据知识实体抽取的需要将数据依据特定的规则进行整理与合并,以满足研究的需要。

1. 数据采集与汇聚

数据汇聚阶段主要任务是通过业务数据库抽取和社区平台前端埋点的采集方法获得并汇聚所需原始数据。数据汇聚库是依照数据汇聚标准建立的机构综合数据库,建立数据汇聚库的主要目的是按照统一的标准来集中汇聚不同业务系统的数据。通过数据汇聚库一方面可以建立数据分析应用与业务系统的缓冲地带,避免数据分析对日常教学与管理可能造成的影响;另一方面,建立统一的数据汇聚规范,可以消除不同业务系统数据库之间的差异,将来自不同业务系统的数据进行整合与打通,让后续数据分析业务可以基于统一的数据结构展开。在数据进入数据汇聚库之前还需完成数据清洗工作,以确保数据汇聚库的规范性和有效性。

2. 数据处理与整合

数据整合阶段的主要任务是通过对汇聚的数据按照具体研究开展需要进行拆分和整合。知识实体抽取离不开语义单元的划分,将原始的文本数据拆分成独立的语义单元,能够在很大程度上保证抽取知识实体的独立性。以往关于知识抽取通常对所汇聚的文本内容直接合并进行分词与抽取,如此操作在简化流程的同时也丢失了一些知识。基于此,本研究针对交互文本中的结构,设计话题分类规则。分类的规则具体如下:每一个主题帖(如发布的博客或发布的案例等)可视为独立的语义单元;直接针对主题帖开展的评论或回复与该主题帖视为同一个语义单元;直接针对评论的回复内容,与被评论的帖子共同视为新的语义单元。

(二)分词与实体抽取

网络化知识实体抽取是指借助自然语言处理方法将隐藏在原始数据中的知识实体识别、筛选和统一。此阶段包括文本分词、实体识别两个部分,首先是文本分词,将整合后的文本数据切分成单独的词汇,以服务于后续知识实体抽取。其次是实体识别,结合关键词抽取、词语组合和命名实体识别等多路径,识别文本中的知识实体。

1. 文本分词

词作为汉语中最小的可独立活动的语义单位,是自然语言处理系统中最基本的操作单元和不可替代的知识载体。中文分词(Chinese Word Segmentation, CWS)是中文信息处理的关键环节,其分词精度与效果直接影响中文信息处理技术后续工作的实用性和有效性。当前主流的分词工具包括百度NLP、阿里NLP、腾讯文智等互联网企业自主研发的中文分词系统;斯坦福分词器、北大pkuseg、清华THULAC、哈工大LTP、中科院PyNLPIR等研究机构研发的中文分词系统;还有jieba分词、Hanlp分词器、SnowNLP等开源分词工具。不同的分词工具背后的原理和适用的情境并不相同。例如:jieba分词是概率语言模型,将分词转化成有向无环图(DAG)中的最大概率路径查找问题,实现对文本的分词,支持用户词典定义,支持自定义停用词①;pkuseg主要基于经典的CRF模型,将中文分词视为序列标注问题,通过给每个汉字打上标签{词首B,词中M,词尾E,单字符词S}及其四词位汉语组合,实现对中文词的切割,同时pkuseg为细分领域分词提供预训练模型②。选择合适的中文分词工具是开展知识实体抽取的关键。通常来说选择分词工具除了需要考虑工具适用情境、是否支持自定义词典之外,还需考虑分析工具的精准率、召回率和调和平均值等技术参数。

2. 关键词抽取知识实体

基于关键词抽取知识实体,是将知识实体转换为通用的关键词抽取问题,而在计算机领域关键词抽取本质上是通过评估文本集中相对重要的字词达到抽取的目的。当前主流的思路包括将关键词提取问题转化成统计问题的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)和将关键词抽取问题转化到图模型中词的排序处理的TextRank(Mihalcea & Tarau, 2004)。为了得到更为精准的抽取结果,关键词抽取离不开去停用词和自定义词典两个步骤。前者过滤掉文本中无意义的语气词、标点符号以及连接词等;后者则强化某些特定的专有名词,如“互联网+”等。

3. 组合词抽取知识实体

在文本分词中,由于受限于分词工具训练的样本、词典的完整性以及算法本身的准确性,在分词过程中可能存在对本领域关键词切断的现象,如关键词“互联网+教育”在分词时通常会被简单切割成“互联网+”“教育”两个关键词,而丢失原词。因此为了尽可能保证后续知识实体抽取的准确性,有必要对被切分的词语依据语法特征进行重新组合。词语组合形成词组,也称为短语,是一种大于词而又不成句的语法单位。从结构上,词语组合需符合汉语语法上的搭配规则,即物理位置相邻的两个孤立的词能够构成特定的关系,如主谓关系、动宾关系等;从词性上,知识实体属于名词性短语;从语义上,组合的词语在表意上需完整单一、指向性强,在语义上有较强的完整性;从统计上,在真实文本中流通性、可重用性强,并非临时性的组合结构,具有一定的统计意义。

4. 命名实体抽取知识实体

命名实体识别(Named Entity Recognition,NER),是指识别出句子中命名实体的边界和类别的任务。命名识别是自然语言处理和信息检索领域的传统任务,其识别结果决定了后续关系抽取任务以及知识图谱构建的成效(Habibi, Weber, Neves,Wiegandt, & Leser, 2017)。一般来说,命名实体分为三大类(实体类、时间类及数字类)和七小类(人名、机构名、地名、时间、日期、货币及百分比)(吴丹,何大庆,陆伟,2012)。就命名实体识别的研究结果来看,时间类和数字类的实体因其具有相对明确的规则,因而相对容易识别,而对于实体中的组织名、人名、地名以及专有名词,其所具有的开放性和发展性导致这类实体在识别上有一定困难,存在如实体边界、消除歧义等问题(张晓艳,王挺,陈火旺,2005)。

(三)实体过滤与统一

1. 知识实体过滤

由于知识点具有专业相关性,在通用的实体抽取或组合词抽取过程中,难免包含一些非知识点的词语,为此需要对抽取候选库中的实体进行过滤。知识实体与一般性字词不同,通常在特定文件中频繁出现,而在总的文件集中很少出现。为此可以通过借助TF-IDF统计方法衡量词语在专业中的重要性,以此判断所收取的知识实体在原文档中的重要程度。考虑到知识的专业属性特征,仅凭TF-IDF算法无法完成更为精细的实体过滤,为此还需要以专家主观赋权的方法作为辅助,最终通过综合客观TFIDF计算结果与专家主观赋权分值形成网络化知识实体的整体重要性判断Wj,并筛选网络化知识实体(见公式)。

2. 知识实体统一

由于表述习惯、拼写错误、名称变体以及缩写等因素,网络化知识实体会出现一个实体对应多个表象的现象。如此形成的实体,既不符合实体唯一性的要求,也会出现大量数据冗余,为此需要统一实体表象(董志强,刘永年,魏丽华,2017)。当前实体统一的主流方法包括无监督、有监督和基于图的实体统一方法。在无监督中主要包括基于规则的方法和基于相似度计算两类。如综合属性、上下文、关系等多维相似度的整体式实体统一算法研究实现对多源异构实体的统一(范威振,陈占芳,刘燕龙,2019)。相似度计算无序制定规则因此成为当下实体统一的主要思路。实体统一中首先需要对实体进行分布式词向量计算,较为典型的包括谷歌公司早期的Word2vec,以及后来推出的训练语言模型BERT(Bidirectional Encoder Representations from Transformers)(Devlin, Chang, Lee, & Toutanova,2019);随后在此基础上开展词向量的距离计算,常见的距离相似度计算包括余弦相似度(Cosine Simility)、欧氏距离(Euclidean Distance)以及马氏距离(Mahalanobis Distance)等(谷重阳,徐浩煜,周晗,张俊杰,2018);接着过滤距离相近的实体,实现实体的第一步统一;最后,借助领域专家标注方法,对机器统一后的实体,进行二次标注,形成最终的实体库。

四、基于cMOOC专业社区网络化知识实体抽取

“互联网+教育:理论与实践的对话”是国内首门基于联通主义理论开发的cMOOC课程,课程以“开放、共享、互动、创新”为指导,面向“互联网+教育”领域全体人员,开展理论与实践的对话。由于cMOOC课程并无固定的内容,平台中所有内容均为参与者共同构建,具有典型的互联网开放社区的特征。研究以课程平台第二期课程中的主题四“消费驱动的教育供给侧改革”为案例,在网络化知识抽取框架下,开展知识实体抽取应用与验证。

(一)cMOOC数据采集与处理

研究整理所获取的13张原始数据表,包括跟帖、行为日志、话题、讨论、评论、评论点赞、文章(周报、博客、案例、资源)、文章点赞数、文章分类、文章浏览、文章收藏、用户基本信息和个人自我介绍等。最终形成4篇周报、138篇博客、42篇案例、54篇资源、1 416条评论信息。同时研究依据话题分类原则,将采集的数据按话题进行整理,最终形成525条话题分类的文本数据。

(二)话题文档分词与实体抽取

1. 分词工具选择

为了选择合适的中文分词工具,本研究针对北大pkuseg、清华THULAC、哈工大LTP、中科院PyNLPIR以及jieba分词、Hanlp分词器、SnowNLP等常用的中文分词工具进行分析测试实验。研究以Ubuntu18.04.2 LTS作为测试环境,修改ownthink在github上共享的中文分析性能对比代码③,结合第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试④(楚尚武,2017)。数据集包括台湾“中央研究院”提供的as数据集、香港城市大学提供的cityu数据集、北京大学提供的pku数据集以及微软研究院提供的msr。从准确率测评对比来看,哈工大的LTP、北大的pkuseg以及PyNLPIR三个工具在四个数据集中F值的平均表现较好(分别为90.499、90.111、87.867)。考虑到pkuseg有针对网络领域的数据提供个性化的预训练模型,而研究所抽取的大量知识实体也蕴藏在网络中,因此研究最终选择北大pkuseg作为文本处理的工具。

2. 关键词抽取

考虑到TF-IDF需要事先对多篇语料库进行训练,而TextRank则仅利用单篇文档本身的信息即可实现关键词抽取,为此本部分重点采用TextRank对前面去停用词的结果进行关键词抽取。抽取的关键词将存入网络化知识实体候选库中,作为后续知识实体筛选的来源之一。研究主要基于letiantian发布在github上的TextRank4ZH⑤,作为关键词抽取的实现工具。其中,为了跟前面的切词工具统一,研究将代码中使用的jieba分析工具替换为pkuseg。

关于最终关键词的个数筛选,本研究做出如下规定,即以独立句子为基准,规定每个句子最多一个关键词。由此在tr4w.get_keywords()中将关键词数设为句子总数,以此抽取更具代表性的关键词。

研究最终将基于TextRank获取的关键词作为候选知识实体更新到cmooc_doc_list数据表中(见下页表1),同时存储到网络化知识实体的候选库Entity_Candidate中。

表1 关键词抽取结果示例

3. 词语组合

在结构类型和词性组合上,研究参考黄伯荣主编的《现代汉语》中的基本短语,包括主谓短语、动宾短语、偏正短语、中补短语和联合短语(黄伯荣,廖序东,2011)。其中重点考虑具有名词属性的主谓短语、偏正短语和联合短语,同时考虑到实际组词中存在动宾组合的知识实体(如变革路径等),因此加入动宾短语;另外还补充同位短语和方位短语等其他短语。表2为基本短语组合的结构和词性组合规则,在词性组合中考虑到最终抽取的知识实体在语义上具有明确指代性,因此删除其中涉及到代词词性组合的短语。

表2 基本短语组合

相似研究中,台湾学者Tseng和Chen(2002)提出的关于汉语形态分析的规则为本研究在具体操作层面提供了指导。该规则后来在其他人的研究中不断发展,逐渐形成相对成熟的词语组合规则⑥(Lee et al., 2005; Chen, Y. J., & Chen, Y. M., 2012)。

为此研究在pkuseg词性集的基础上,结合《现代汉语》中基本短语组合、早期关于词性组合的相关研究,提出如表3双词组合和表4三词组合的组合原则。其中n为普通名词、nz为专有名词、ns为地方词、a为形容词、d为副词、v为动词、vn为动名词、m为数词、p为介词、c为连词、f为方位词等。

表3 基于词性组合的名词性短语原则(双词组合)

表4 基于词性组合的名词性短语原则(三词组合)

研究最终将通过双词组合和三词组合形成的组合词语作为候选知识实体更新到cmooc_doc_list数据表中(见表5),同时存储到网络化知识实体的候选库Entity_Candidate中。

表5 组合词数据存储表(示例)

4. 命名实体识别

借助命名实体识别方法,可以自动抽取出cMOOC课程平台中博客、资源、讨论等文本内容中所包含的态度、观点和价值观等具有语义特征的专有实体名词,有助于网络化知识图谱的构建和网络化知识演化规律的探究。研究依据pkuseg训练模型中专有名词(nz)以及专家词库中的命名实体(ner),将文本中涉及到的实体抽取出,并作为候选知识实体更新到cmooc_doc_list数据表中(见表6),同时存储到网络化知识实体的候选库Entity_Candidate中。

表6 命名实体识别抽取结果示例

(三)实体过滤与统一

1. 知识实体过滤

研究通过主观打分和客观计算,共同完成对主题四“消费驱动的教育供给侧改革”所抽取的实体重要性计算任务。研究需通过设定Wj的阈值,以进一步过滤在客观计算中分值较低且在主观判断上不属于知识的实体。为此研究将低于均值两个标准差以外的数据视为不符合,进行删除。

通过Wj值分布曲线绘制发现,Wj呈现出一种长尾分布,极少数的Wj值较高,大多数的值偏低。对数变换(Log transformation)是一种特殊的数据变换方式,它可以将长尾分布的数据转化成为接近正态分布,从而更便捷地发现数据之间的关系。为此研究需要将Wj的原始分布曲线进行对数转换。转换后的Wj呈现出正态分布,符合研究所需(见图2)。

图2 取对数后的Wj分布(横轴为Wj对数转换后的数值,纵轴为Wj的密度分布)

取对数后Wj分布的均值、众数、标准差等统计量结果详见表7。依据95%的置信空间,研究选择置信下限即M-2S所在点对应的数值作为网络化知识实体筛选的过滤点。通过对过滤点的自然数的转换,找到对应的过滤值0.007094,并在此基础上完成对网络化知识实体候选词的过滤。研究共删除5 761个词(其中非0的实体共344个),剩余14 169个实体(包括不同文档中的重复实体),结果如图3所示。

表7 取对数的Wj分布的均值、众数、标准差等统计量

图3 人机协同过滤后的实体候选库示例

2. 知识实体统一

为了计算网络化知识实体的相似度,首先需要对实体进行分布式词向量计算,随后在此基础上开展词向量的距离计算。分布式词向量是一种将词之间的相似性转换为词所在空间向量的相似性计算。

1)BERT计算词向量

在词向量构建方面,研究使用谷歌在2018年提出的BERT预训练模型⑦,为抽取的实体赋予词向量。在具体计算中,以BERT-base为基础开展训练和计算。该模型隐层节点数为768,有12个自注意力头部和12个Transformer块。为了使模型拥有足够的上下文信息,仅掩盖了10%的单词,且对每个训练样本反复取样20次,每次取128个词例(杨晨,宋晓宁,宋威,2020)。在此基础上,研究通过BERT计算将知识实体转变成向量形式,以便后续开展相似度的计算。

2)cos计算实体词之间的相似度值

在计算出实体词向量之后,研究采用余弦距离公式计算知识实体在向量空间中的相似度。

3)设定阈值过滤同义实体

在经过余弦相似度计算之后,研究采用经验值选择方法,将相似度0.95的词界定为具有相似语义实体,并进行归类。表8呈现了网络化知识实体初步统一后的结果,最终形成5 731个实体词。

表8 初步统一后的实体词(示例)

为了确保网络化知识实体抽取更加科学,研究针对上述由机器筛选过滤后的知识实体,从独立性、具有表征意义的角度,进行人工筛选。具体来说,研究通过选定从事教育供给侧改革研究的领域内专家,从实体是否具有独立性、是否具有表征意义的角度,开展协商讨论,最终形成包含4 792个相互独立的网络化知识实体(见表9)。

表9 最终统一后的实体词(示例)

五、结语

知识是教育实践的核心内容,知识本质的变化,也在影响着教育实践的方向,而在这个过程中厘清知识、获取知识成为关键所在。在本研究开展之前,知识工程领域关于知识抽取的研究多数集中在具有明确逻辑关系的知识层面,并没有直接可供参考的抽取框架来抽取此类具有经验性、境域化、动态变化的网络化知识。为此在本研究中,针对互联网专业社区中网络化知识实体抽取,创新性地提出一套包含“数据采集与处理-分词与实体抽取-实体过滤与统一”的抽取框架,是对以往知识工程中知识抽取方法的拓宽。同时,考虑到知识抽取流程中的各个环节,涉及较为繁琐和复杂的数据搜集、处理和分析过程,研究所提出的抽取框架本质上是将此类重复繁琐的工作进行有效封装,让教育领域研究者仅需通过简单的方式即可快速地得到分析结果,从而将更多的精力集中在解读和分析层面上。此外,这种融合人机协同的半自动抽取的方法能够抽取网络化知识实体,有效地解决现阶段对互联网时代专业社区中知识实体内容抽取的问题,形成特定领域的知识图谱,回答“是什么”的现实诉求,也为个性化教与学提供知识根基(陈丽,郭玉娟,高欣峰,谢雷,郑勤华,2019)。

然而,专业社区中的知识实体抽取仍然需要重点考虑以下内容:虽然网络化知识中对知识的界定相对宽泛,但知识本身还是有别于一般的数据和信息,如何界定挖掘的结果是否满足知识实体需求成为横亘在研究者眼前的现实问题,为此可以通过人工抽检的方式对最终抽取的结果进行信度的验证。另外对于抽取的实体结果,如何区分哪些属于信息、哪些属于态度、哪些属于价值观、哪些属于命题以及哪些属于定理,需要在现有实体抽取框架的基础上进一步完善和补充。

注释

① https://github.com/fxsjy/jieba

② https://github.com/lancopku/PKUSeg-python

③ https://github.com/ownthink/evaluation

④ http://sighan.cs.uchicago.edu/bakeoff2005/

⑤ https://github.com/letiantian/TextRank4ZH

⑥ http://ckipsvr.iis.sinica.edu.tw/papers/category_list.pdf

⑦ https://github.com/google-research/bert#pre-trained-models