冉茂杨
(重庆电子工程职业学院,重庆 401331)
在现今这个信息爆发的时代,机械智能化极大地改变了各个行业的工作模式,智能化的机械在市场上也备受欢迎,其在简化机械操作难度的同时增加了机械的功能,可减少机械生产的成本。现在机械制造商为了抢占更大的市场,在产品生产成本、质量和功能之间找到一个平衡。在收割机控制系统设计阶段,需要确定收割机的外形、功能和结构等方面,收割机的生产成本基本是在设计阶段控制的[1-3],因此在设计阶段采取何种技术和工具至关重要。在将设计产品变为实体产品过程中需要通过不断地调整以达到产品优化。收割机的使用者不是机械专业人员,需要通过自然语言类[4-10]来表现本人对收割机的功能要求,为了将使用者的要求输入收割机,需要设计一个实现人机交流的智能接口,该接口可以将自然语言信息转变为设计专业信息表示方法。基于自然语言理解的机械设计可以帮助制造商快速地理解使用者的需求,生产出满足使用者需求的收割机。依靠语言理解系统建立知识库,根据不同领域的知识经验建立的知识库可以在各种产品生产阶段提供使用需求分析,并在使用阶段实现人机交互。以英语语音理解的名词聚类为基础的收割机控制设计可以更好地帮助企业打开海外市场,增加企业的收益。
用于收割机控制设计的英语语言理解比较简洁且易于归纳,使得英语语言理解在收割机控制中的应用易于实现,在以前的研究经验中,语言理解与机械设计已实现比较简单的结合[11-14],本文基于英语语言理解建立一个名词聚类模型,将该模型应用于收割机控制设计中,实现英语语言理解与收割机的人机交互(见图1),提高收割机的智能化程度,为以后收割机向智能化发展奠定良好基础。
图1 英语语言理解人机交互Fig.1 English language understanding of human-computer interaction
语言作为最复杂的符号表现,可以表示各种实物、状态或概念。语言是由语法,词汇组成的一个体系,具有语法、语用、语义的特征。自然语言是指人们在日常生活中使用的语言,是通过自然随文化演化出来的,汉语、英语等就属于自然语言。除了自然语言外还有一种是世界语,这种语言是为了某些特定的目的而设计出来的,属于人造语言,即计算机中的编程语言。自然语言是人们交流的媒介,是非常复杂的系统,将自然语言用于人工智能中是需要处理的最大的问题之一。自然语言理解(Natural Language Understanding )也被称之为人机对话,自然语言理解作为人工智能的一个分支,在研究计算机人机交互问题中,使机械控制系统可以理解且分析自然语言的语义,以便计算机控制体统可以执行使用者的指令。自然语言能够并机械正确理解执行就必须面临以下问题:
1)机械能否正确理解识别用户语言的内容。
2)语言有时存在多义词,计算机能否分析语言的语义,并将语义词进行分类。
自然语言理解最初的应用是在计算机语言翻译领域[15],到了后期,随着各PC的快速普及,出现了在各种机械设备中语言人机交互接口。在国内,自然语言理解的研究对象是汉语,因为汉语是意合语,语义和语法比较难以理解,本文研究的英语语言理解在研究阶段已非常成熟,英语语言理解在收割机控制中应用技术已得到广泛推广。
在任何有意义的文本中的句子和段落之间是有关联的,它总是围绕某个事件,将事件的本质通过句子或段落来表述的,这是有意义的文本的统一性特点,这种现象被称集聚的属性。集聚性通过语义、回指和链接联系来实现的。为了理解文本的含义,就必须进行分析文本中每个句子的关联性,即需要进行篇章集聚的研究。篇章可大体分为说明文、议论文、记叙文,因为说明文和议论文是围绕名词,故篇章中的说明文和议论文的研究对研究名词聚类有重大意义。
篇章作为自然语言最高级单位,要理解篇章的核心意思,可以通过提取篇章中有关联性的名词或动词,将这些词汇合在一起可达到理解篇章核心意思的目的,这种方法称为聚类。根据提取词性的不同,可分为名词聚类和动词聚类:名词聚类在于理解文本的核心意思;动词聚类则是用于分析文本的链接。聚类的度量可根据描述属性来确定。聚类的目的就是理解文本核心意思,提取的词可达到理解的目的。本文研究的是英语语言理解名词聚类,对名词的基本性质可以根据形态来确定词类,易于在后期建立名词知识库。
知识是指将有关联的信息聚集在一起形成的信息结构。在这个不断进步的复杂世界,每时每刻都在产生出新的信息,有些信息可以用表征实物来表示,有些无法用语言进行描述,人类还可用视觉进行相关记忆;但是,计算机需要输入这些知识时就需要人类将其以简洁抽象的符号来表示。在人类世界中,知识的表示可以用语言来陈述;在机械领域,需要将知识转换为转移符号来表示。知识表示是研究机械表达知识的可行性办法,也是知识库建立的核心工作。良好的知识表示需要准确的表示概念。不同的知识表示方法根据其侧重点有其各自的优劣,好的知识表示方法应能有效地组织知识为系统提供有效推理帮助,且具有良好的知识结构,提高解答能力,并易于理解。
知识表示是建立知识库的研究重点,且需以不同的知识表示方法简化知识库,节省知识库的存储空间,提高知识库的搜索能力。
1)格语法:由美国语言学家菲尔墨提出,以动词为中心,讨论语法结构与语义之间的关系,将参与动词动作的个体称为语义格。格语法由3部分组成:基本规则、词汇部分和转换部分。格语法可将语法与语义结合分析,深入研究句子的语法结构,正确理解句子的意思,但该方法不能确定短语内部关系。
整合数据的主要步骤为:①获得每一个算法模型在给定10万大小的训练集下的近似最优参数值。②将10万待预测的数据喂给训练好的算法模型,并获得相应的预测结果。③将所有预测结果进行整合,提取出所有算法预测结果都一致的数据。④合并初始的训练集和“没有分歧”的预测结果集。这相当于集成了不同学习算法所训练好的模型。需要指出的是,此时“被集成”的算法,在原理上必须“更严格”的不同。当然,作为提升效果的代价,时间成本将会大幅增加。
2)本体论:属于哲学的分支,比较统一的定义是指 “共享概念模型的形式化规范说明”。本体论包含4个层次的含义: 概念化(Concetuliation)、明确(Explicit)、形式化(Formal)及共享(Share)。本体论是理解本质,与其他方法不在一个层次,表示实体的本质特征。
3)语义网络:其是人工智能最重要的表示形式,将概念与语义之间的关系用网络图来表示。网络图中的节点表示实体、属性、概念等,弧则表示语义关系。该表示方法适合复杂的知识理解领域,在处理上比较麻烦。可简洁地表示出实体概念、属性与实体的因果关系。
4)概念从属理论:以语义优先处理,摒弃语法分析,需要将知识分解为简单的原语,很多情况则无法表示。
5)谓语逻辑:采用逻辑公式进行描述知识,可以将逻辑论证符号化,具有很好的严密性,更接近自然语言的知识表示方法。其可通用于多种领域,规范了事物结构的标准表示形式;但效率比较低,逻辑公式多时会爆炸。
6)IF-THEN:使用最多的表示方法,指一旦前提条件满足,就可以执行相应的操作或得到结论,由约束规则、数据库、控制系统组成。该方法易于表达,具有统一性、通用型等优点,但不够直观且效率低。
7)框架表示法:将知识进行结构化,框架之间可通过属性关系相连形成框架网络。框架表示法具有框架结构层次分明,可进行修改补充,但不便表示过程性的知识,没有逻辑性,如果存在多层继承现象易产生知识多义性。
名词可以理解出一个概念,名词聚类进行文本中名词之间的关联,达到一个有概念组成的树状结构:
将文本的名词进行概念聚类需要考虑到概念与属性、继承的关系聚类,根据名称概念的关联性将概念连接。
动态名词是以动态的方式来理解名词的概念。以动态名词表示模板:
槽名 注释
标识 用来唯一标识动态名词
对象 用于表示一个概念实例的对象
词名 用于表示一个概念实例的名词
属性 概念抽象方面的外延关系
词性 记录名词分类
父 概念实例的隶属
以句子关系表示模板:
槽名 注释
标识 存放唯一核心词
核心词 核心词的施加对象
类型 核心词的词性
相关标识 存放核心词的所有属性名词
本文考虑聚类是主要针对概念的,名词聚类需要处理文本中的名词概念,在前期就已经得到需要概念,也称为概念的实例。名词聚类实现流程如图2所示。
英语语言理解的名词聚类在收割机控制设计中的应用的实现,首先要为收割机建立知识库系统。
图2 名词聚类实现流程Fig.2 Noun clustering implementation process
该系统能够表示收割机的核心意思,如:
(assert(词义(词名 Harvester)(描述 Harvesting, threshing, and transporting grain to the transporter's machinery at once)(功能One-time harvesting and threshing)(性质Realize the integration of harvest ) ))。
(assert(概念从属树 (树名Harvester)(标识Harvester00)(子节点标识 10 Harvester 11 Harvester 12 Harvester)(当前节点Harvester)(子节点Side-mounted harvester Backpack Harvester Hand-held harvester Horizontal harvester Vertical harvester)(分类标准)))。
(assert(名词(词名Harvester)(词性Static inheritance class)(父not)(树根Harvester)(所有属性(create $ Harvesting, threshing, commissioning, variable speed))))。
将使用者的需求输入,系统对英语语言进行切词、 词法分析、 词义分析及理解得到使用者的需求信息,将信息转变输出为:
(动态名词(标识 *01111100)(对象 )(词名Side-mounted harvester)(名词属性Harvesting, threshing, commissioning, variable speed ) (词性noun)(父harvester))。
(动态名词(标识 *01121100)(对象 )(词名Harvesting)(名词属性)(词性noun)(父 not))。
(动态事件(标识 **01121101)(事件名Harvesting)(时间 nil)(地点 nil)(结果)(实施对象Header)(已理解)(未理解)(事件标识)))
根据设计的名词聚类模型将收割机控制集聚,以收割机控制的名称属性聚类,在知识库中读取,通过聚类模型判断分析,作出决策并输出需求信息。这种方法为收割机设计提供了人机交互的智能接口,提高收割机的智能化水平。
在分析英语语言理解的名词聚类在收割机控制中应用的基础上,着重分析了名词聚类的过程、名词知识库的建立及聚类模型的建立,将该语言理解处理系统应用于收割机控制中,将自然英语语言为表示的用户需要转换为收割机理解语言。对英语语言形式表达的使用者需求进行分析,并将分析结果转化为收割机控制设计参数,为后期的设计生产提供支持。