文|吉林建筑科技学院 孙恒
当前,随着时间的推移,建筑的设计与施工越来越复杂,再加上现代科技与物质技术的飞速发展,使建筑设计的研究也由静态到动态的发展[1]。现如今,大量新的建筑被建造出来,庞大的信息也随之更新,使得建筑设计者需要从海量数据中获取其所需要的信息,不仅增加了信息获取的难度,也使得海量数据资源利用价值受到负面影响[2]。当前,在许多方面,数字技术的发展都取得了很好的效果。同时,它也在潜移默化地促进着建筑业的发展。不仅在设计上,在施工、经营等方面也能够充分展现其对建筑行业发展的促进作用。但由于数字化技术的局限性,使得其在建筑设计领域中应用未能实现,大部分建筑设计者仍然在使用传统工作方式。同时,目前,我国建筑规划中关于设计数据、经验积累等方面尚不完善,无法满足数据挖掘的需求[3]。因此,针对上述诸多问题的存在,引入双语(中文、英文)信息技术,开展对中外建筑设计数据挖掘的相关研究。
为向后续数据挖掘提供更加充分的数据资源,对中外建筑设计数据通过爬虫技术进行数据采集,实现了准确的、大覆盖范围的、大存储量的数据自动采集,其中采集范围包括中外建筑本身的设计信息,如建造日期、规模、建设工程概况等。并建立数据库,为后续操作提供依据。建筑设计数据库是基于可扩展的建筑设计中的相关信息构建而成[4]。根据扩展元模型的逻辑,对输入到数据库当中的中外建筑设计数据进行组织、描述和存储。通过对数据库的建立,能够在极大程度上为建筑设计决策提供更具实体化的数据模型,并存储可扩展的建筑设计战略产生所需的信息。由于中外建筑设计数据本身存在冗余度低、独立性强以及可扩充性强等特点。因此,能够为后续建筑师、业主和用户之间的共享提供便利条件[5]。在实际应用中,可将建筑设计形态数据、空间数据、环境心理数据等数据按关系数据模式进行数据结构化处理。以中外建筑设计数据中的属性数据为例,其数据库的基本结构如表1 所示。
按照上述格式,完成对其他不同属性数据库的建立。将用于描述物的基本元数据称为物元数据,对数据库当中得到物元数据用M 表示,一维物元是以某一物Om为对象,构成如下述公式表示的有序三元组:
公式中,cm表示特征值;vm表示以物Om为对象的关于特征值的量值。对于多维物元而言,其包含的特征有:cm1,cm2,……,cmn,除此之外,还应当包含对应的量值,因此其表达式为:
具体而言,将其代入到中外建筑设计当中,一维物元M1可表示为:M1=(窗户,形状,圆形)。该方法采用了基于可扩展的基本元素表示方法来表示数据,便于后续对其进行识别和挖掘。可扩展模型使数据的格式一致,而数据化的转化则使数据变成可被计算机识别的数据。建筑是一种从宏观到微观的物质元素及其构成的复合结构。在应用数据挖掘技术时,由于特殊的条件和操作的原因,无法挖掘出每个物元和其特征量,所以可以选择若干个物元进行挖掘。在一个范围较大的物元当中,通常都会包含多个小物元,例如在建筑当中包含多个立面,并且在同一个立面上也能够存在多个窗台及窗户。因此,在实际应用中,数据类型划分的越详细,则后续分析能够越全面,挖掘和计算的精度也会随之提升。
表1 中外建筑设计数据资源属性数据库基本结构
在完成对中外建筑设计数据资源数据库的建立后,将其作为基础,利用双语信息技术,实现对双语资源的抽取。从双语网页当中挖掘双语资源,将其看作是信息抽取。在这一过程中,将数据库当中包含的数据进行结构化处理,并变化成表格的形式[6]。将原文本输入到提取模块,以固定的形式输出信息。从不同的文件中提取出信息点,并以相同的格式进行整合。以统一格式整合的信息,其优点在于便于核对和对比。在抽取过程中,以Dom 树叶子节点为单位小片段,便于提高抽取的精度。图1 为以Dom 树叶子节点为单位的双语资源基本结构图。
将图1 所示的结构作为双语资源提取的规则,在提取的过程中,增加一个序列概念,令下述表达式为一个项集:
公式中in,为项目,n 的取值为1,2,……,m。在数据库当中包含上述项集共s 个,针对s 的元组数目支持度进行计算。
图1 以Dom 树叶子节点为单位的双语资源基本结构图
图2 中外建筑形态构成相容可拓数据挖掘示意图
公式中,support(s)表示序列s 的支持度;A 和B 表示抽取条件。通过上述计算得出最小支持度为smin,若某一序列s 的支持度>smin,则称s 为频繁序列,将其提取用于后续挖掘。针对汉语与外语双语提取时,符合外语和汉语特征的信息可以被直接提取,而双语片段中仅出现某一语言特征的情况较少。针对这一问题,在外语特征集合中存在两个及以上元素同时出现时,需要考虑到语言特征的优先级问题。分别定义外语和汉语的单词的优先级顺序,优先级从高到低。以分隔符区分部分为单位,当多个部件包含单一语言特征时,以高优先权的部件为其语言信息。顺序主要考虑到外语特有的特征,用于表示外语单词以及外语发音等。
针对中外建筑设计数据资源的挖掘需要解决其差异对比与相互依存关系同时存在的问题。数据资源可能是元素矛盾也可能是构成矛盾。针对不同的矛盾问题,对其进行相容可拓数据挖掘。通常情况下,建筑形态的组成是不协调的,即在建筑的设计中,形态元素与现有的环境不相适应。针对建筑物形态相容的问题,采用可扩充数据挖掘技术,将物体形态元素或现有条件转化为可拓形式,并对其进行相应的相容性分析,以此获得相关的建筑形状信息,从而帮助建筑设计者做出相应的决策[7]。图2 为中外建筑形态构成相容可拓数据挖掘示意图。
图2 中,F(xn)表示相容度函数,n 的取值为1,2,3。F(xn)的表达式为:
公式中,r(x)表示中外建筑设计数据所有子集之集;ir(x)表示某一目标元素子集。根据上述公式,计算得出提取到的设计数据资源与对应目标元素的相容度,根据具体数值划分可拓数据资源类别,完成对中外建筑设计数据的挖掘。由于建筑空间的特殊性,可拓数据挖掘技术在每个建筑中都具有独特的定义,即使是同样的两个空间,在内部的布置和使用上也会有所不同。因此,传统的可扩展数据挖掘方法不能完全复制传统的方法,应将其分类,并挖掘出可以提升创意水平的关键要素。在使用功能相近或类似的房间中,其空间特征的相似性较大,但差异较小。两者之间的相似之处在于满足这种使用需要,而差异性则是不同于其它建筑空间的创新之处。可拓数据挖掘技术可以从建筑空间数据中提取创新性的知识,从而发掘创意的新视角,帮助建筑师在继承传统建筑的同时,创造出新的空间。对未来建筑空间的解读,就是对建筑空间发展的趋势进行梳理与预测。在建筑设计案例库的基础上,利用可扩展数据挖掘技术,可以从海量的历史资料中获得相关的信息,并对其进行预测,从动态的空间数据中发掘规律,寻求空间创新的突破口。
从中外双语资源中挖掘实验所需的数据,采用正确率、召回率以及F-测试度三个指标实现对基于双语信息的数据挖掘方法(实验组)、基于大数据的数据挖掘方法(对照组A)和基于区块链的数据挖掘方法应用性能进行衡量。下述为三个指标的计算公式:
公式中,j 表示数据挖掘结果的正确率;m 表示正确挖掘结果数量;M 表示总挖掘结果数量;h 表示召回率;W 表示所下载网页当中总的翻译对数;F 表示测试度,即以正确率和召回率为依据的测试结果量化数值。在需要进行数据挖掘的中外建筑设计数据资源中,人为引入建筑专业术语125对和标准外语单词355 个。在实验过程中,分别设置两种数据挖掘条件,一种为提取规则匹配双语对,另一种添加一次规则后匹配双语对。针对两种条件下,三种挖掘方法的各项指标进行计算,并将计算结果绘制成曲线图。其中,图3 为三种挖掘方法在提取规则匹配双语对条件下的正确率j指标对比图。
图4 为三种挖掘方法在添加一次规则后匹配双语对条件下,召回率h 指标对比图。
图5 为两种条件下,三种挖掘方法的综合测试度F 指标的对比结果。
结合上述三组对比结果可以看出,实验组无论是正确率j、召回率h,还是综合测试度F 的指标数值均明显高于另外两组对对照组的挖掘方法。具体而言,实验组的正确率、召回率和综合测试度的数值均随着双语对数的增加而增加,最低数值也超过了96%,而另外两组对照组挖掘方法的各项指标均低于实验组挖掘方法的最低值,相差较大。
因此,综合实验结果以及具体分析得出,本文提出的方法在实际应用中能够有效提高对中外建筑设计数据挖掘的正确率、召回率以及综合测试度,且三种指标的最低数值也超过了96%,达到提升中外建筑设计数据利用价值的目的。
本文基于双语信息技术的应用优势,将其应用到对中外建筑设计数据挖掘当中,提出了一种全新的数据挖掘方法。通过将该数据挖掘方法与另外两种挖掘方法对比得出,新的挖掘方法综合性能明显更高。将新的数据挖掘方法应用于实际,可为建筑设计者提供更科学和合理地获取设计数据资源的方法,进而促进设计者的设计效率。由于时间限制,本文研究有待在今后继续深入探究,例如,对数量不断增加的挖掘数据需要为其建立空间更大的数据库等,以此实现对数据挖掘的进一步完善。
图3 三种挖掘方法相同条件下正确率j 对比图
图4 三种挖掘方法相同条件下召回率h 对比图
图5 三种挖掘方法综合测试度指标F 对比图