自然语言处理技术在建筑工程中的应用研究综述

2020-09-01 15:01李晓瑶邓逸川
图学学报 2020年4期
关键词:领域文本建筑

王 煜,邓 晖,李晓瑶,邓逸川,2

自然语言处理技术在建筑工程中的应用研究综述

王 煜1,邓 晖1,李晓瑶1,邓逸川1,2

(1. 华南理工大学土木与交通学院,广东 广州 510640;2. 亚热带建筑科学国家重点实验室,广东 广州 510640)

自然语言处理(NLP)可以将建设领域非结构化文档转化为结构化信息,方便相关从业人员对建设项目进行高效的日常管理。近年来,NLP相关算法得到了广泛的发展,但NLP技术在建设领域中的研究还处于初级阶段。通过调研近十年关于NLP在建筑工程的相关文献,对国内外技术与应用层面的研究进行了梳理。介绍了NLP的技术发展、常用方法及相关开源工具实现的功能;并重点从统计分析工具、应用系统和其他3方面对NLP在建筑领域各阶段的应用进行总结。此外,对建设领域NLP应用存在的问题进行了讨论,总结原因并从技术、建筑业和政府3个方面提出了未来展望。

自然语言处理;工程管理;技术研究;应用研究;信息挖掘

1 概述

1.1 背景

自然语言处理(natural language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向[1],该技术的开发主要有2个目的:使机器自动化进行语言处理和改善人机交流。NLP技术具有将非结构化的文本转化为结构化信息的特点[2],并允许计算机通过机器学习[3]理解人类语言。从基础性的语义相似度、依存句法分析,到应用性的人机互动、报告分析,NLP在各领域都展现出了巨大的应用前景,如医学病理报告分析、工程合同管理、金融问答系统等。

随着建设项目的施工工艺及规模日趋复杂,日常报告文档大量的增加,工程师无法在有限的时间内掌握所有必要的知识[4]。非结构化的文件降低了工程师以完整的形式获取、分析和重用相关信息的效率,从而导致由于不及时或不充分决策的项目性能降低[5]。因此学者提出可以利用NLP技术将无结构化的风险信息、索赔信息、合同信息等(专家经验、风险案例库、施工图纸、施工组织方案和其他项目文件)转化为结构化知识,从而利用计算机对施工日常文档进行隐性知识挖掘,以便工程师在广泛的工作范围内高效率地对潜在信息进行管理。例如KIM和CHI[6]提出一个利用NLP技术的建筑事故风险知识管理系统,其可根据用户意图检索合适的案例,并自动分析施工事故案例中的隐性知识,达到高效的风险管理。目前在建设领域,国外关于NLP技术的研究和应用较多,而国内相关研究较少[7-9]。在文献综述方面,国内外多见于NLP相关算法的现状及发展[10],而在建设领域系统中的综述研究较少[11],国内未见相关文献梳理。因此本文对NLP技术在建设工程管理中的应用进行了总结与归纳,为后续的研究提供了有力的支持。

1.2 文献数据来源

本文在Web of Science (WoS),美国土木工程师协会(the American Society of Civil Engineers,ASCE),Engineering Village2 (EV2)等国外知名的数据库中,以“NLP”,“natural language processing”,“text mining”,“construction management”等为主题词,收集了2010–2020年近10年间国外NLP在工程管理中应用的相关文献。同时在知网(CNKI),万方等国内常用的数据库中,通过对“自然语言处理”、“信息挖掘”、“建筑工程”等主题词查询同期关于NLP在工程管理中的相关研究,如图1所示。

图1 2010–2020年中外相关文献统计

NLP在建设工程文档中的研究逐年递增,尤其在2017年文献数目迅速上涨,说明学者对NLP在建设领域中的应用越来越重视。在建设领域中NLP可以将非结构化文件转化为结构化信息,提高工程师决策效率,对于工程领域的文件管理有很大的潜力,因此NLP在该方面的研究工作还需进一步深化完善。

1.3 综述内容

本文通过对国内外文献进行了NLP技术简介和在建设领域的应用分析。在技术方面对NLP的开源工具进行了梳理,并对其主要功能进行了简介;在应用方面,从统计分析工具和应用系统研究入手,并对应用领域进行总结。因此,本文从技术和应用2方面对NLP在建设领域应用研究的文献进行了梳理并对目前研究的问题进行总结,最后在此基础上提出未来NLP在建设领域的发展方向。

2 技术层面

2.1 自然语言发展

NLP提出于20世纪50年代,最早研究的工作是机器翻译[12]。然而,由于当时对自然语言复杂性的低估以及NLP理论和技术的缺乏,使得该领域的研究进展缓慢。直到20世纪70年代和 80年代,机器学习相关算法的引入才彻底改变了NLP技术。近年来,机器学习技术在各个方面都取得了显著的成绩,同样在语义分析、文件聚类等NLP任务上也有所突破。

根据NLP分析的深度和水平,可将其分为词法、句法和语义分析[1]3类。词法分析是指词级间的分析,包括分词(以词为单位切分句子)、词性标注(将单词词性标记为名词,动词等)、词义标注(确定多义词在语境中的意思)、命名实体识别(识别文章中人名,地名等实体)等。句法分析是指句子中的词序分析,根据单词组合和句子中每个单词形成的语法关系的短语形式可以称为句法分析,一般依赖于句法结构树、依存关系图对句法结构化形式进行描述。语义分析是一种理解语言含义的方法,其用于理解人类语言的形态元素,还可用于理解上下文含义,常见的方法为语义消歧和浅层语义分析。随着机器学习的广泛应用,近年也出现一些通过机器学习方法获取语义信息的研究。

2.2 NLP常用方法

NLP常用方法(表1)主要有基于规则、统计和深度学习的方法。

表1 NLP常用方法

基于规则方法需要技术人员手动编写知识表达,从而调用规则进行算法的开发,并根据不断地迭代调整规则改进效果,成本较低。且随着信息的增多,编写的规则无法涵盖所有的知识,对技术人员要求极高,单一的基于规则的方法无法满足实际的需求。基于统计的方法被逐渐使用,学者尝试建立大量的语料和词库,让机器根据概率模型学习文本特征,训练得到语言模型,如常见的隐马尔可夫(hiden Markov model,HMM),K邻近(k-nearest neighbor,KNN),支持向量机(support vector machine,SVM),朴素贝叶斯(naive Bayes,NB),条件随机场(conditional random field,CRF)等。到一定程度后,由于数据的稀疏问题,基于统计的机器学习准确率很难再度提高。随着深度学习方法的提出,特征值高维稀疏问题通过神经网络得以解决,自然语言处理水平进一步提高。深度学习是一种基于特征学习的方法,通过多个隐含层的非线性处理,得到数据的分布式特征值表示。常见的模型有将词映射到低维空间分布的词向量(Word2vec)[17]卷积神经网络(convolutional neural networks,CNN)[18]、长短期记忆(long short-term memory,LSTM)[19]、Transformer[20]等特征提取器和预训练模型(bidirectional encoder representations from transformers,BERT)[21]。随着计算机科学的发展,NLP方法推陈出新,建筑行业也应多引入NLP技术,加快智能化建筑行业的发展。

2.3 NLP开源工具

随着科技的发展,许多 NLP开源工具应运而生。本文通过文献的整合,列举出8种开源NLP工具及其功能表现,见表2。

表2 NLP开源工具及可实现的功能

NLP开源工具作为开放源代码软件,可以被公共使用,国外OpenNLP[22],NLTK[23],CoreNLP[24],spaCY[25]作为NLP开源工具被广泛应用到各种研究中。SONG和CHAMBERS[30]将具有可扩展性和丰富的功能的Stanford CoreNLP系统应用于处理大量文本数据中,并在文中演示了如何使用CoreNLP对一组摘要进行共词分析。ZHANG等[31]应用NLTK系统对建筑工地事故记录进行分块和词性标记等预处理工作。LIN等[32]应用NLTK系统对工程数据进行词性标注,方便后续关键词和约束的获取,并利用IFC实现BIM数据库的检索信息。可以看出NLP开源软件多被应用于文件预处理阶段,进一步的功能实现还需要结合其他技术,并在其基础上进行修改、开发[33]。

对于国内的NLP开源软件ICTCLAS[29],FudanNLP[26],Pkuseg[27],LTP[28]分别是由中国科学院计算技术研究所、复旦大学、北京大学,哈工大社会计算与信息检索研究中心设计开发,这些开源软件已被国内外研究机构和企业使用,广泛适用于各个领域。ICTCLAS中文分词系统被使用,对建筑工程质量验收规范[34]和煤矿安全领域文档[35]进行了分词及词性标注,为后续知识提取打下基础。李解[36]借助哈工大LTP系统对事故调查报告中语句进行词性、依存关系的标注,进而对领域知识元进行抽取。可见国内NLP开源软件在建设领域的应用,也多用于文本预处理阶段。

国内外对于NLP开源软件的实现功能大致相同,多用于实现分词、命名实体识别、词性标记、情感分析、依存关系解析等功能。从中可以看出我国近几年在NLP开源软件的研究已取得一定的成果。

3 应用层面

在建筑研究中对NLP的研究可分为:统计分析工具和应用系统2类。使用NLP作为应用系统的研究可以细分为:①文档分类(text classification);②信息检索(information retrieval);③文本信息自动提取(information extraction)的研究,见表3。

表3 NLP相关应用

根据表3可知,在建设领域中NLP技术多用于统计分析、应用系统和其他,因此本文从这 3方面进行相关的分析梳理,最后从建设工程各阶段NLP实际应用进行总结。

3.1 统计分析

NLP可以通过词频逆文档(term frequency- inverse document frequency,TF-IDF)、主题模型(latent dirichlet allocation,LDA)等技术对文档中的关键词进行提取并进行数量的统计。然而,对于词频的统计只是研究的基础,进一步的研究还需结合其他技术,如人工神经网络(artificial neural network,ANN),SVM,KNN和NB进行协助。WILLIAMS和GONG[37]将在建项目中文本统计的关键词与数值数据结合起来,通过神经网络训练模型、预测成本,避免项目的成本超支。雷坤等[38]通过TF-IDF统计施工合同纠纷中最常见的事故原因,从而在制度和合同设计等方面给与相关防控建议。林佳瑞和张建平[39]通过词频分析、提取关键词并进行共线关系分析,对BIM相关政策的演变和发展趋势进行分析。除了对单词频率统计之外,还可以对文本进行情绪的统计分析[40-44]。近年来也有学者通过NLP分析公众的情绪,对大型工程执行提出更好的战略决策。大型工程项目管理对公众参与的要求较高,情绪分析是评估公众对项目意见的有效工具。文献[40-41]利用NLP对工程进行舆情分析,自动解读公众对三峡工程的实际情绪态度,为项目管理中的公共关系问题提供更好的决策。此外一些学者也将情绪分析应用到建筑后评价中。与传统方法相比,基于NLP技术的后评价可以减少因样本随机性而带来的不准确。马越[42]提出用大数据代替调查问卷,通过提取关键词来判别客体的态度,对建成环境进行后评价。王烟[43]利用NLP技术对文本进行情感分析,为建筑后评价提供新的思路方法。但文本关键词提取和统计对领域词汇要求程度高,建筑行业NLP技术发展速度较慢,没有统一的专业词库,是现存问题之一。

3.2 应用系统

3.2.1 文本分类

在NLP中,自动分析文档内容并根据分析结果确定一段文档类别的过程称为自动文档分类(ADC)[45]。类别通常由预定义标签表示,该标签是指文本字段的类别或概念[46]。文本分为手动和自动2类,分别是根据手工分类规则和机器学习技术进行的[13]。传统上,通过领域专家或其他相关人员的分析手动进行文本分类已有很高的准确性,但是该过程是劳动密集型且耗时[47]。因此将NLP和机器学习等其他技术用于文本自动分类已引起了广泛的关注[48]。

基于NLP的文本分类在施工安全[31,49-50]和合同管理方面[16,50]研究较多,运维管理阶段[51-52]研究较少。ZHANG等[31]采用文本挖掘对施工事故报告进行分析,并利用多种机器学习手段对事故原因进行分类。文献[50]基于文本相似性对建筑项目文件进行了聚类,提高施工安全管理的效率。在合同管理中,通过语义的机器学习文本分类算法将不同合同条款自动分为预定义的类别(环境、安全、健康等)。文献[16]提出了一种基于语义的机器学习文本分类算法,用于支持自动化合规检查(automated compliance check,ACC)结构的一般条件分类子句,将多标签分类问题转化为一组二分类问题。在运维阶段,ZHONG等[52]提出了运用NLP技术和CNN对质量投诉评价进行分类管理。通过NLP的文本自动分类,为进一步的文本分析和规则提取提供了充足的准备。

3.2.2 信息检索

信息检索(information retrieval, IR)是指从信息资源集合中提取有用信息的过程和活动[54]。IR研究主要分为2类:使用本体(或同义词库)的研究和使用NLP的研究[6]。以本体为中心的IR,检索准确度较高,但要花费大量的人力才能预先确定单词与构建本体之间的关系。因此,学者在此基础上引入了NLP技术,其中向量空间模型(vector space model,VSM)和Word2vec较为常用。基于VSM技术的IR,根据关键字的内容及出现频率自动比较文本相似度。Word2vec基于机器学习自动学习相邻单词之间的关系并分析其语义关系达到IR的目的。在建设领域NLP技术多用于检索争议事件的解决方法(alternative dispute resolution,ADR),相关事故案例或相似的标准和准则。

文献[55-56]建立了建筑安全事故库,利用VSM和余弦相似度技术,通过关键字有效地检索替代性争议解决方法。ZOU等[57]提出了风险案例检索系统框架,该框架结合了VSM和语义查询扩展2种NLP技术,并能自动检索出排名前10的相似案例。文献[6,58]同样利用NLP技术,开发了语义搜索系统,根据具体需求检索合适的事故案例,并自动提取安全风险因素或隐性知识。在风险案例自动检索的过程中,不仅可以找到相似的事故信息进行知识推理,同时对施工安全案例数据库也进行了扩充。在设计方面,YU和HSU[59]利用经典的VSM并开发了基于内容的CAD文档检索系统,以根据给定的查询来辅助CAD图纸的管理和文档的快速检索。SHEN等[60]利用文本挖掘技术检索最相似的绿色建筑案例,为新项目提供辅助决策。

3.2.3 信息提取

信息提取(information extraction,IE)旨在识别和提取结构化信息,例如特定类的实体和关系[61]。IE的一般过程为:训练阶段和部署阶段[62]。在训练阶段,规则由领域专家或学习系统提取[14],因此IE可以分为基于规则的方法和机器学习方法。在建设领域中,IE多用在合同安全分析上,也有少部分研究规范或其他方面。

在合同管理方面,LEE等[62]提出了一个基于规则的合同风险自动提取模型,利用依存语法、三元组(svo)、if-then规则自动检测出合同中的风险条款,为施工企业的合同管理决策提供支持。该模型的准确率和查全率可达81.8%。MARZOUK和ENABA[63]同样应用NLP技术对建设工程合同信息进行分析,不同的是其将项目对应关系进行可视化分析,助于项目各方明确自己的义务。对于法律法规管理文献[64-67]通过对规范条款的语义、语句分析,不断完善建筑法规信息自动化合规性检查技术。对于安全管理,文献[15]使用基于规则的方法从非结构性伤害报告中确定了与事故相关的前兆。在其他方面,文献[68]根据Word2Vec,句法规则和聚类分析自动对语义相似的单词进行分类,以解决运输资产管理术语的不一致问题。以上是基于规则的监督学习,考虑句法、语义或句子中的词序。现机器学习在建设领域信息提取方面研究较少,KIM和CHI[6]基于规则和CRF方法自动提取事故案例的隐性知识,精度分别为93.75%和84.13%。可以看出在无大量数据训练的情况下,非监督学习IE的准确率低于基于规则的准确率。

3.3 其他

除上述常见的应用外,NLP的其他一些应用也被建设领域学者所探讨,如知识图谱(knowledge graph)的应用和自动生成[69]、问答系统(question answering system)的生成等。王丹和宫晶晶[70]利用知识图谱对国内安全领域研究进行可视化分析,对2005–2016年间的相关文献进行梳理,对研究的前沿和发展进行分析。学者们利用同样的方法对建筑信息模型(building information modeling,BIM)[71-74],计算机视觉在建设领域应用[75],绿色建筑[76]、装配式建筑[77]等研究现状进行了可视化文献总结。基于NLP的问答技术在建设领域自动问答系统研究较少,如对建筑质量问答系统的开发[53],为建筑人员的决策提供帮助[78]。

基于以上几个方面的应用分析,可以发现NLP技术在建筑行业这样的信息密集型产业,主要的目的是对冗杂非结构化知识进行整理。通过将文本信息转化为结构信息,方便建筑从业人员或非专业人员在短时间内对专业知识和隐性知识进行掌握,减少了大量因文档管理而花费的人力和时间。

3.4 工程应用阶段

基于NLP技术可以在建筑全生命周期各个阶段中应用,以结构化的形式表达项目要求,为工程管理人员决策管理提供便利,见表4。

表4 NLP工程应用阶段

在设计阶段,学者通过NLP技术获得相似案例,为新项目提供辅助决策,如YU和HSU[59]的图纸设计及绿色建筑的方案规划[60]。JUNG和LEE[79]将NLP应用于BIM用途分类,并对原有案件的设计协调、冲突检测进行学习。在投标过程中,为了在决策前充分了解项目的不确定性,LEE和YI[80]提出了利用NLP建立风险预测模型,对投标前非结构化文本进行挖掘并预测风险。在施工过程中,NLP技术被广泛应用。多用于对合同风险管理[14,63]、施工安全合规检查[64-67]、风险案例检索[55-58]、风险前兆提取[15]等合同管理及安全管理,在成本[37]和索赔管理方面应用较少。NIU和ISSA[81]通过NLP对文本实体和关系提取,并将提取的三元组与领域本体映射,探索了基于本体的NLP在建筑索赔法律分析领域的应用。NLP技术不仅可以对大量的数据和模糊数据进行高效处理,同时也可以克服数据量的不足[82],因此在运维阶段,NLP技术可以高效处理大量建筑质量投诉信件[52-53]和主观性较强的建筑后评价[42-43]。

随着NLP技术进一步的发展,对于工程设计、施工和运维阶段的问题可以进一步帮助工程师进行高效的数字化管理,从而避免工程中经济和时间的损失。

4 讨论与展望

4.1 问题总结

在建筑业中,基于NLP技术将非结构化信息转化为结构化数据的研究,旨在为建筑从业人员决策提供辅助。在技术上可以通过NLP技术和NLP开源软件对建筑业文件进行处理,机器学习、领域本体、BIM等技术也被使用助力于建筑业文件的处理;在应用上通过自动化或半自动化的文件分类、IR、IE可以对招标价格确定、合同文件核对、进度信息提取,相似安全案例推理、质量投诉处理和建筑后评价等方面进行一定的帮助。

尽管NLP对建筑业的文件管理效率具有重要的意义,但其整体的技术和应用研究深度不足,还处于初级阶段。通过文献基础调研,总结出以下的相关问题。

(1) 建筑领域词库通用性差。现阶段没有针对建筑业领域的词库,已有的词库中的专业术语并不适用于建设领域。文件预处理对词典的质量和数据量具有高度依赖[56],这一点将影响文本数据分词及词性标注等步骤,如合同审核和后评价情感分析。现阶段需要对专业领域词汇较为了解的专业人员对建设领域词库进行构建。

(2) 规则的制定有限。基于规则的信息提取方法,对所需信息提取制定所有可能的规则是困难的。为了定义这样的规则,需要收集用于信息提取的所有可能的数据,并且需要开发所有可能的规则。这一点是困难的,且前期需要大量的工 作[61]。但考虑到建筑行业的特点,某些数据不易访问,如合同数据。因此很难大量收集特定的 数据。

(3) 在NLP方面的机器学习研究有待提高。NLP监督类学习与训练数据的质量、数量和平均性有很大的关系,且要实验不同的学习率调整模型,有研究表明NLP非监督学习准确率小于监督类学习准确率[5]。同时NLP深度学习训练模型与地区性语言也有关,同一模型无法处理不同国家间的文本信息,因此无法进行有效的迁移学习。

(4) NLP在建设领域研究中多用于施工阶段,在设计、招投标、运维等工程其他阶段应用较少。NLP可以加强施工文档自动化管理,有较大的应用潜力。因此应在建筑全生命周期加大基于NLP应用的研究力度,以提升建设领域文件的管理效率。

4.2 未来展望

(1) 开发普遍适用于建筑业各方面的文本的通用规则。技术人员可以引入本体、知识图谱技术等新技术,建立一套适用于建筑业各方的逻辑规则,从各类型的非结构化文档中自动获取结构化信息,实现IR和IE等目的。建立建设领域词库,并进行词库共享。领域词库是实现NLP将文本转化为结构信息的基础,为了减少基础工作的重复性,提高操作效率,构建通用的建设领域词库是必要的。随着研究的不断深入,词库应同时进行扩充,从而实现词库的复用。

(2) 实现建筑行业与互联网行业合作。建筑业的管理者可以设立信息自动化部门引进高精尖技术人才或与互联网行业合作,实现建筑文件自动化管理。开发基于NLP技术用于建筑行业案例检索、决策辅助、问答系统等功能,提高建筑工程管理的效率,节约相关文件管理成本。顺应时代的进程,从建筑业全生命周期加快智能化的发展进程。

(3) 推广NLP在建筑行业中的最佳实践。NLP现在多用于金融、法律和医学行业,帮助进行金融风险分析、法律案例搜索、判决预测、医疗案例检索和分析诊断的辅助。建筑行业在各个阶段也会产生大量的数据,需要NLP的辅助来进行施工风险案例的检索和建筑施工细节问答等,而NLP在建筑业还没有具体的实例。因此呼吁政府规划加快建筑业自动化的进程,NLP等人工智能技术落地的政策。

5 结 论

本文通过调研近十年关于NLP在建设领域应用的相关文献,对NLP的技术层面和应用层面进行了整理和总结。列举了NLP技术相关的常用方法和开源工具,并从统计分析工具、应用系统和其他3个方面对NLP应用方面进行介绍,其中包括词频统计、情绪分析、文本分类、IR、IE、知识图谱和问答系统等,并对建筑工程各阶段NLP应用情况进行总结。此外,本文最后对建筑领域NLP应用存在的问题进行了讨论,并提出一些展望。NLP在建筑领域科研层次已取得了初步的进展,但国内研究较少且在工程实际中没有落实。若能加快国内应用研究和落实进度,基于NLP技术的工程信息管理将为建筑业带来更大的效益。本文为NLP技术在工程管理建设领域中的后续应用研究提供了一些启发。

[1] TIWARY U S, SIDDIQUI T. Natural language processing and information retrieval[M]. New York: Oxford University Press, 2008: 3-21.

[2] PONS E, BRAUN L M M, HUNINK M G M, et al. Natural language processing in radiology: a systematic review[J]. Radiology, 2016, 279(2): 329-343.

[3] CHOPRA D, JOSHI N, MATHUR I. Mastering natural language processing with python[M]. Birmingham: Packt Publishing Ltd, 2016: 2-3.

[4] XING X J, ZHONG B T, LUO H B, et al. Ontology for safety risk identification in metro construction[J]. Computers in Industry, 2019, 109: 14-30.

[5] NEDELJKOVIĆ Đ, KOVAČEVIĆ M. Building a construction project key-phrase network from unstructured text documents[J]. Journal of Computing in Civil Engineering, 2017, 31(6): 04017058.

[6] KIM T, CHI S. Accident case retrieval and analyses: using natural language processing in the construction industry[J]. Journal of Construction Engineering and Management, 2019, 145(3): 04019004.

[7] 付文幸. 基于自然语言处理的隐患分析系统的设计与实现[D]. 武汉: 华中科技大学, 2018. FU W X. The design and implementation of hidden hazard analysis system based on natural language processing[D]. Wuhan: Huazhong University of Science and Technology, 2018 (in Chinese).

[8] 王学敏. 自然语言处理技术在项目文档管理中的应用研究[D]. 北京: 北京邮电大学, 2019. WANG X M. Research on application of NLP in project document management[D]. Beijing: Beijing University of Posts and Telecommunications, 2019 (in Chinese).

[9] 吴松飞. 集成本体与自然语言处理的BIM建筑施工过程安全风险检查研究[D]. 广州: 华南理工大学, 2018. WU S F. Integrating ontology and NLP for automated construction process safety rule checking in 4D BIM[D]. Guangzhou: South China University of Technology, 2018 (in Chinese).

[10] 王飞, 陈立, 易绵竹, 等. 新技术驱动的自然语言处理进展[J]. 武汉大学学报: 工学版, 2018, 51(8): 669-678. WANG F, CHEN L, YI M Z, et al. Advances in natural language processing under new technology driven[J]. Engineering Journal of Wuhan University, 2018, 51(8): 669-678 (in Chinese).

[11] DI GIUDA G M, LOCATELLI M, SCHIEVANO M, et al. Natural language processing for information and project management[M]. Cham: Springer, 2020: 95-102.

[12] 薛蕊, 马小宁, 李平, 等. 自然语言处理关键技术在智能铁路中的应用研究[J]. 铁路计算机应用, 2018, 27(10): 40-43, 48.XUE R, MA X N, LI P, et al. Nature language processing techniques and its applications in intelligent railway[J]. Ralway Computer Application, 2018, 27(10): 46-49, 48 (in Chinese).

[13] MAHFOUZ T. Unstructured construction document classification model through support vector machine (SVM)[C]//International Workshop on Computing in Civil Engineering 2011. Reston, VA: American Society of Civil Engineers, 2011: 126-133.

[14] MOENS M F. Information extraction: algorithms and prospects in a retrieval context[M]. Heidelberg: Springer Science & Business Media, 2006: 1-8.

[15] TIXIER ANTOINEJ P, HALLOWELL M R, RAJAGOPALAN B, et al. Automated content analysis for construction safety: a natural language processing system to extract precursors and outcomes from unstructured injury reports[J]. Automation in Construction, 2016, 62: 45-56.

[16] SALAMA D M, EL-GOHARY N M. Semantic text classification for supporting automated compliance checking in construction[J]. Journal of Computing in Civil Engineering, 2013, 30(1): 04014106.

[17] BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with subword information[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 135-146.

[18] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask[C]//The 25th International Conference on Machine Learning. New York: The ACM Digital Library, 2018: 160-167.

[19] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[EB/OL]. [2019-11-25]. https://doi.org/10. 18653/v1/N16-1030.

[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach: NIPS, 2017: 5998-6008.

[21] 李舟军, 范宇, 吴贤杰. 面向自然语言处理的预训练技术研究综述[J]. 计算机科学, 2020, 47(3): 162-173. LI Z J, FAN Y, WU X J. Survey of natural language processing pre-training techniques [J]. Computer Science, 2020, 47(3): 162-173 (in Chinese).

[22] The Apache Software Foundation. The apache OpenNLP library is a machine learning based toolkit for the processing of natural language text[EB/OL]. (2018-05-01) [2019-11-21]. https://opennlp.apache.org/.

[23] NLTK Project. Some simple things you can do with NLTK[EB/OL]. (2019-09-04) [2019-11-10]. https:// www.nltk.org/.

[24] Stanford University. Stanford CoreNLP natural language software[EB/OL]. [2019-12-11]. https://stanfordnlp. github.io/CoreNLP/.

[25] Emory University and Yahoo! Labs. Industrial-Strength natural language processing[EB/OL]. [2019-11-01]. https://spacy.io/.

[26] QIU X P. 中文自然语言处理工具包Toolkit for Chinese natural language processing[EB/OL]. [2020-03-21]. https://github.com/FudanNLP/fnlp.

[27] LUO R, XU J, ZHANG Y, et al. PKUSEG: a toolkit for multi-domain Chinese word segmentation[EB/OL]. (2019-06-27) [2019-11-01]. https://arxiv.org/abs/1906. 11455.

[28] 哈工大社会计算与信息检索研究中心. 语言云(语言技术平台云)基于云计算技术的中文自然语言处理服务平台[EB/OL]. (2019-12-08) [2019-12-12]. http://www. ltp-cloud.com/. Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology. Language cloud (language technology platform cloud) Chinese natural language processing service platform based on Cloud Computing Technology[EB/OL]. (2019-12-08) [2020-03-21]. http://www.ltp-cloud.com/ (in Chinese).

[29] 张华平. NLPIR-ICTCLAS汉语分词系统[EB/OL]. (2019-1014) [2020-03-21]. http:// ictclas.nlpir.org/. ZHANG H P. NLPIR-ICTCLAS Chinese word segmentation system[EB/OL]. (2019-1014) [2020-03-21]. http:// ictclas.nlpir.org/ (in Chinese).

[30] SONG M, CHAMBERS T. Text mining with the stanford CoreNLP[M]//Measuring Scholarly Impact. Cham: Springer International Publishing, 2014: 215-234.

[31] ZHANG F, FLEYEH H, WANG X R, et al. Construction site accident analysis using text mining and natural language processing techniques[J]. Automation in Construction, 2019, 99: 238-248.

[32] LIN J R, HU Z Z, ZHANG J P, et al. A natural-language-based approach to intelligent data retrieval and representation for cloud BIM[J]. Computer-Aided Civil and Infrastructure Engineering, 2016, 31(1): 18-33.

[33] GALITSKY B. Machine learning of syntactic parse trees for search and classification of text[J]. Engineering Applications of Artificial Intelligence, 2013, 26(3): 1072-1091.

[34] 胡海盟. 建筑工程质量验收规范知识建模与抽取研究[D]. 武汉: 华中科技大学, 2014. HU H M. Construction quality acceptance knowledge modeling and extraction[D]. Wuhan: Huazhong University of Science and Technology, 2014 (in Chinese).

[35] 王宇. 煤矿安全事件本体构建及其查询扩展的研究与应用[D]. 北京: 北京工业大学, 2015. WANG Y. Event ontology in coal mining safety field and its application in query expansion[D]. Beijing: Beijing University of Technology, 2015 (in Chinese).

[36] 李解. 城市轨道交通施工安全风险管理知识支持机制及方法研究[D]. 徐州: 中国矿业大学, 2018. LI J. Research on the mechanism and method of knowledge support for construction safety risk management of urban rail transit[D]. Xuzhou: China University of Mining and Technology, 2018 (in Chinese).

[37] WILLIAMS T P, GONG J. Predicting construction cost overruns using text mining, numerical data and ensemble classifiers[J]. Automation in Construction, 2014, 43: 23-29.

[38] 雷坤, 孙峻, 喻大严. 基于语义检索的建设工程施工合同风险研究[J]. 建筑经济, 2019, 40(2): 106-110. LEI P, SUN J, YU D Y. Research on the risks of construction contract based on semantic retrieval[J]. Construction Economy, 2019, 40(2): 106-110 (in Chinese).

[39] 林佳瑞, 张建平. 我国BIM政策发展现状综述及其文本分析[J]. 施工技术, 2018, 47(6): 73-78. LIN J R, ZHANG J P. Review and exploratory text mining of building information modeling policies in China [J]. Construction Technology, 2018, 47(6): 73-78 (in Chinese).

[40] JIANG H C, LIN P, QIANG M S. Public-opinion sentiment analysis for large hydro projects[J]. Journal of Construction Engineering and Management, 2015, 142(2): 05015013.

[41] JIANG H C, QIANG M S, LIN P. Assessment of online public opinions on large infrastructure projects: a case study of the Three Gorges Project in China[J]. Environmental Impact Assessment Review, 2016, 61: 38-51.

[42] 马越. 大数据支持下的建成环境使用后评价发展研究[J]. 中外建筑, 2017(10): 71-74. MA Y. Research on the development of post occupancy evaluation of building environment with the support of big data[J]. Chinese and Overseas Architecture, 2017(10): 71-74 (in Chinese).

[43] 王烟. 自然语言处理技术在建筑使用后评价中的应用[J]. 南方建筑, 2019(1): 82-87. WANG Y. The application of natural language processing technology in building POE[J]. South Architecture, 2019(1): 82-87 (in Chinese).

[44] LV X, EL-GOHARY N. Stakeholder opinion classification for supporting large-scale transportation project decision making[C]//ASCE International Workshop on Computing in Civil Engineering 2017. Reston, VA: American Society of Civil Engineers, 2017: 333-341.

[45] SALTON G, MCGILL M J. An introduction to modern information retrieval[J]. Information Processing & Management, 1963, 19(6): 402-403.

[46] ZHOU P, EL-GOHARY N. Ontology-based multilabel text classification of construction regulatory documents[J]. Journal of Computing in Civil Engineering, 2016, 30(4): 04015058.

[47] MANNING C D, RAGHAVAN P, SCHÜTZE H. Introduction to information retrieval[M]. New York: Cambridge University Press, 2008: 852-853.

[48] JORDAN M I, MITCHELL T M. Machine learning: Trends, perspectives, and prospects[J]. Science, 2015, 349(6245): 255-260.

[49] TANG S, GOLPARVAR-FARD M N. Joint reasoning of visual and text data for safety hazard recognition[C]//ASCE International Workshop on Computing in Civil Engineering 2017. Reston, VA: American Society of Civil Engineers, 2017: 450-457.

[50] AL QADY M, KANDIL A. Automatic clustering of construction project documents based on textual similarity[J]. Automation in Construction, 2014, 42: 36-49.

[51] ZHOU P, EL-GOHARY N M. Ontology-based, multi-label text classification for enhanced information retrieval for supporting automated environmental compliance checking[C]//American Society of Civil Engineers 2014 International Conference on Computing in Civil and Building Engineering Orlando. Florida: Computing in Civil and Building Engineering, 2014: 2238-2245.

[52] ZHONG B T, XING X J, LOVE P, et al. Convolutional neural network: deep learning-based classification of building quality problems[J]. Advanced Engineering Informatics, 2019, 40: 46-57.

[53] 汪旭. 建筑质量投诉文本分类与知识问答系统研究[D]. 武汉: 华中科技大学, 2018. WANG X. Research on complaints’ classification and question answering system of construction quality knowledge[D]. Wuhan: Huazhong University of Science and Technology, 2018 (in Chinese).

[54] RICARDO B Y, BERTHIER R N. Modern information retrieval: the concepts and technology behind search[M]. New Jersey: Addi-son-Wesley Professional, 2011: 4-7.

[55] FAN H, LI H. Retrieving similar cases for alternative dispute resolution in construction accidents using text mining techniques[J]. Automation in Construction, 2013, 34: 85-91.

[56] FAN H Q, XUE F, LI H. Project-based as-needed information retrieval from unstructured AEC documents[J]. Journal of Management in Engineering, 2015, 31(1): A4014012-1-10.

[57] ZOU Y, KIVINIEMI A, JONES S W. Retrieving similar cases for construction project risk management using natural language processing techniques[J]. Automation in Construction, 2017, 80: 66-76.

[58] MOON S, KIM T, HWANG B G, et al. Analysis of construction accidents based on semantic search and natural language processing[C]//Proceedings of the 35th International Symposium on Automation and Robotics in Construction (ISARC). München Deutschland: International Association for Automation and Robotics in Construction (IAARC), 2018: 1-6.

[59] YU W D, HSU J Y. Content-based text mining technique for retrieval of CAD documents[J]. Automation in Construction, 2013, 31: 65-74.

[60] SHEN L Y, YAN H, FAN H Q, et al. An integrated system of text mining technique and case-based reasoning (TM-CBR) for supporting green building design[J]. Building and Environment, 2017, 124: 388-401.

[61] HOBBS J R, RILOFF E. Information extraction[M]. 2nd ed. Boca Raton: CRC Press, 2010: 515-530.

[62] LEE J, YI J S, SON J. Development of automatic-extraction model of poisonous clauses in international construction contracts using rule-based NLP[J]. Journal of Computing in Civil Engineering, 2019, 33(3): 04019003.

[63] MARZOUK M, ENABA M. Text analytics to analyze and monitor construction project contract and correspondence[J]. Automation in Construction, 2019, 98: 265-274.

[64] ZHANG J, EL-GOHARY N. Automated regulatory information extraction from building codes: Leveraging syntactic and semantic information[C]//American Society of Civil Engineers Construction Research Congress 2012. Reston, VA: American Society of Civil Engineers, 2012: 622-632.

[65] ZHANG J, EL-GOHARY N. Extraction of construction regulatory requirements from textual documents using natural language processing techniques[C]//International Conference on Computing in Civil Engineering. Reston, VA: American Society of Civil Engineers, 2012: 453-460.

[66] ZHANG J S, EL-GOHARY N M. Automated information transformation for automated regulatory compliance checking in construction[J]. Journal of Computing in Civil Engineering, 2015, 29(4): B4015001-(1-16).

[67] ZHANG J S, EL-GOHARY N M. Semantic NLP-based information extraction from construction regulatory documents for automated compliance checking[J]. Journal of Computing in Civil Engineering, 2016, 30(2): 04015014-(1-14).

[68] LE T, DAVID JEONG H. NLP-based approach to semantic classification of heterogeneous transportation asset data terminology[J]. Journal of Computing in Civil Engineering, 2017, 31(6): 04017057-(1-14).

[69] LENG S, HU Z Z, LUO Z, et al. Automatic MEP knowledge acquisition based on documents and natural language processing[C]//The 36th CIB W78 2019 Conference: IT in Design, Construction, and Management. Newcastle: Northumbria University, 2009: 800-809.

[70] 王丹, 宫晶晶. 基于知识图谱的国内建筑安全领域可视化研究[J]. 工程管理学报, 2016, 30(6): 43-48. WANG D, GONG J J. Visualization research in China building safety analysis based on mapping knowledge domain[J]. Journal of Engineering Management, 2016, 30(6): 43-48 (in Chinese).

[71] 陈奕宇, 王泽根. 建筑行业的聚焦点: 国内BIM研究的知识图谱分析[J]. 美与时代: 城市版, 2016(9):18-20. CHEN Y Y, WANG Z G. The focus point of construction industry: knowledge map analysis of BIM research in China[J]. Beauty and Times: City, 2016(9): 18-20 (in Chinese).

[72] 邓逸川, 吉嘉, 吴松飞, 等. 基于社交网络分析的中国BIM学术影响力分析[C]//第三届全国BIM学术会议论文集. 北京: 中国建筑工业出版社数字出版中心, 2017: 316-322. DENG Y C, JI J, WU S F, et al. Analysis of the academic influence of BIM in China based on social network analysis[C]//The Third BIM Academic Conference. Beijing: China Building Industry Press Digital Publishing Center, 2017: 316-322 (in Chinese).

[73] 李骁. 基于知识图谱的建筑信息模型知识体系框架研究[D]. 重庆: 重庆大学, 2016. LI X. Study on building information modelling body of knowledge (BIMBOK): a knowledge map approach[D]. Chongqing: Chongqing University, 2018 (in Chinese).

[74] 朱记伟, 蒋雅丽, 翟曌, 等. 基于知识图谱的国内外BIM领域研究对比[J]. 土木工程学报, 2018, 51(2): 113-120.ZHU J W, JIANG Y L, ZHAI Z, et al. Comparative research of BIM based on mapping knowledge domains at home and abroad[J]. China Civil Engineering Journal, 2018, 51(2): 113-120 (in Chinese).

[75] ZHONG B T, WU H T, DING L Y, et al. Mapping computer vision research in construction: developments, knowledge gaps and implications for research[J]. Automation in Construction, 2019, 107: 102919.

[76] 张琳, 陈立文, 曹江红, 等. 基于CiteSpace软件的绿色建筑知识图谱分析[J]. 山东建筑大学学报, 2018, 33(3): 26-31.ZHANG L, CHEN L W, CAO J H, et al. Visualizing analysis of green building knowledge mapbased on Citespace software[J]. Journal of Shandong Jianzhu University, 2018, 33(3): 26-31 (in Chinese).

[77] 黄亚江, 李卓敏, 张子晨, 等. 基于CiteSpace文献计量法的国内装配式建筑研究可视化知识图谱分析[J]. 项目管理技术, 2019, 17(3): 40-47.HUANG Y J, LI Z M, ZHANG Z C, et al. Visualizing analysis of green building knowledge mapbased on CiteSpace software[J]. Project Management Technology, 2017, 17(3): 40-47 (in Chinese).

[78] KOVACEVIC M, NIE J Y, DAVIDSON C. Providing answers to questions from automatically collected web pages for intelligent decision making in the construction sector[J]. Journal of Computing in Civil Engineering, 2008, 22(1): 3-13.

[79] JUNG N, LEE G. Automated classification of building information modeling (BIM) case studies by BIM use based on natural language processing (NLP) and unsupervised learning[J]. Advanced Engineering Informatics, 2019, 41: 100917.

[80] LEE J, YI J S. Predicting project's uncertainty risk in the bidding process by integrating unstructured text data and structured numerical data using text mining[J]. Applied Sciences, 2017, 7(11): 1141.

[81] NIU J, ISSA R R A. Rule-based NLP methodology for semantic interpretation of impact factors for construction claim cases[C]//2014 International Conference on Computing in Civil and Building Engineering Orlando. Reston, VA: American Society of Civil Engineers, 2014: 2263-2270.

[82] WAZIRI B S, BALA K, BUSTANI S A. Artificial neural networks in construction engineering and management[J]. International Journal of Architecture, Engineering and Construction, 2017, 6(1): 50-60.

A review of natural language processing application in construction engineering

WANG Yu1, DENG Hui1, LI Xiao-yao1, DENG Yi-chuan1,2

(1. School of Civil Engineering and Transportation, South China University of Technology, Guangzhou Guangdong 510640, China; 2. State Key Laboratory of Subtropical Building Science, Guangzhou Guangdong 510640, China)

Natural language processing (NLP) can transform unstructured documents in the construction field into structured information, which is convenient for relevant practitioners to carry out daily management of construction projects. In recent years, NLP-related algorithms have been widely developed, but pertinent research in the construction field is still in its infancy. Through examining the past-decade literature on NLP in construction, the past research conducted on the technical level and application level at home and abroad was sorted out.The development, common methods and the open source tools of NLP were outlined. More importantly, the application of NLP in various stages of construction was summarized from the perspectives of statistical analysis tools, application systems and three other aspects. In addition, the extant problems of NLP in the construction field were discussed and future prospects were proposed from the three aspects of technology, construction industry and government.

natural language processing; construction management; technology research; application research;text mining

TP 391

10.11996/JG.j.2095-302X.2020040501

A

2095-302X(2020)04-0501-11

2020-03-24;

2020-05-13

13 May, 2020

24 March, 2020;

广东省自然科学基金项目(2018A030310363, 2017A030313393);广州市科技计划项目重点项目(20181003SF0059);亚热带建筑科学国家重点实验室自主课题(2017KB12)

Natural Science Foundation of Guangdong Province (2018A030310363, 2017A030313393); Key Project of Guangzhou Science and Technology Plan Project (20181003SF0059); Independent Project of State Key Laboratory of Subtropical Building Science (2017KB12)

王 煜(1996–),女,黑龙江哈尔滨人,硕士研究生。主要研究方向为建筑信息模型、自然语言处理。E-mail:ywang_scut@163.com

WANG Yu (1996–), female, master student. Her main research interests cover BIM, NLP. E-mail: ywang_scut@163.com

邓逸川(1989–),男,广东河源人,助理教授,博士。主要研究方向为建筑信息模型、计算机视觉。E-mail:ctycdeng@scut.edu.cn

DENG Yi-chuan (1989–), male, assistant professor, Ph.D.His main research interests cover BIM, CV. E-mail: ctycdeng@scut.edu.cn

猜你喜欢
领域文本建筑
电子战领域的争锋
文本联读学概括 细致观察促写作
《北方建筑》征稿简则
将现代科技应用于Hi-Fi领域 Perlisten S7tse
关于建筑的非专业遐思
建筑的“芯”
作为“文本链”的元电影
2020 IT领域大事记
领域·对峙
基于doc2vec和TF-IDF的相似文本识别