毕硕本,闾国年,裴安平,孙懿青
(1.南京信息工程大学计算机与软件学院,江苏南京 210044;2.南京师范大学地理科学学院,江苏南京 210097; 3.南京师范大学文物与博物馆学系,江苏南京 210097)
姜寨一期文化遗迹属性数据的关联规则挖掘研究
毕硕本1,闾国年2,裴安平3,孙懿青2
(1.南京信息工程大学计算机与软件学院,江苏南京 210044;2.南京师范大学地理科学学院,江苏南京 210097; 3.南京师范大学文物与博物馆学系,江苏南京 210097)
在基于Ap rio ri算法的单维布尔关联规则基础上,以姜寨遗址主要遗迹的属性数据为研究对象,利用该算法对姜寨一期文化遗迹的属性数据进行了关联挖掘分析。首先进行房屋遗迹属性的关联挖掘,然后进行土坑葬等的属性数据挖掘,找到了聚落遗址属性数据之间隐含的关系,为聚落考古遗址的资料分析提供了一种新技术。
Ap rio ri算法;数据挖掘;聚落考古;姜寨遗址
利用史前聚落半坡类型姜寨遗址的田野考古发掘资料进行数据挖掘研究,目的在于通过对聚落遗址属性数据的挖掘,找到遗址资料内部的规律,发现考古学知识。面对遗迹、遗物属性数据库等多维属性数据挖掘的需要,本文运用经典的Ap rio ri算法,挖掘和发现大量数据中感兴趣的关联规则。为了便于数据挖掘和提取有用的知识,先对原始数据进行了必要的预处理,并将结果存入挖掘数据库中,然后利用这些数据,运用Ap rio ri关联算法,得到了一系列隐藏在原始资料中的规则。
资料来源于《姜寨——新石器时代遗址发掘报告》(上、下册)[1]。基于属性的数据挖掘采用房屋布局情况及其相对层位表、第一期房屋登记表、灶坑登记表、窖穴登记表、土坑墓登记表、瓮棺葬登记表以及有关一期文化的图片资料,包含837张图片的图像。
Ap rio ri算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其将关联规则挖掘算法分解为两步[2,3]:
(1)找到所有支持度大于最小支持度的频集,含有k个项的频集称为k-项集。
(2)使用上述频集产生期望的规则。对于每个频集 A,若 B⊆A、B≠Ф,且Confidence(B→(AB))≥设定的最小置信度(minconf),则构成关联规则B→(A-B)。本文只考虑规则的右边只有一项的情况。如果给定一个频集 Y=I1,I2,…,Ik,k≥2, Ij∈I,则只包含集合{I1,I2,…,Ik}中的项的规则最多有 k条。这种规则形如 I1,I2,…,Ii,Ii+1,…,Ik→Ii,1≤i≤k,其中,只有那些置信度大于用户给定的最小置信度的规则被保留。该算法为了生成所有频集,使用了递归方法,伪代码为:
输入:D,最小支持度minsup;
输出:Result=所有的频集及其支持度。
对整个遗址的所有房屋按照分别给定的最小支持度与最小置信度,按分组、房屋时代、房屋形制等情况[4],与有关属性基于 Ap rio ri进行关联数据挖掘,得到了多种组合的关联规则,分析如下:
2.1.1 房屋分组与门朝向的关联规则(最小支持度为6%,最小置信度为15%) 规则1 分组:北组,门向:南,记录数:11个;支持度:8.66%,置信度:52.38%。规则2 分组:东组,门向:西,记录数:11个;支持度:8.66%,置信度:32.35%。规则3 分组:南组,门向:北,记录数:17个;支持度:13.39%,置信度:40.48%。规则4 分组:西组,门向:东,记录数:11个;支持度:8.66%,置信度:61.11%。上述规则表明,无论房屋处于哪个房组,其门都朝向中心洼地。
2.1.2 房屋时代与房屋面积的关联规则(最小支持度为6%,最小置信度为15%) 规则1 分时:晚期,面积分类:小房子,记录数:12个;支持度: 9.45%,置信度:66.67%。规则2 分时:早期,面积分类:小房子,记录数:31个;支持度:24.41%,置信度:79.49%。规则3 分时:中期,面积分类:空,记录数:11个;支持度:8.66%,置信度:15.94%。规则4 分时:中期,面积分类:小房子,记录数:53个;支持度:41.73%,置信度:76.81%。上述规则说明,无论早、中、晚期,都以小房子居多,但部分中期房屋没有关于面积的原始数据。
2.1.3 房屋形制与居住面结构的关联规则(最小支持度为6%,最小置信度为15%) 规则1 形制:半地穴,居住面结构:红烧土硬面,记录数:9个;支持度:7.09%,置信度:20%。规则2 形制:半地穴,居住面结构:青灰色硬面,记录数:10个;支持度: 7.87%,置信度:22.22%。规则3 形制:地上,居住面结构:红烧土硬面,记录数:11个;支持度:8.66%,置信度:15.28%。规则4 形制:地上,居住面结构:路土面,记录数:24个;支持度:18.9%,置信度: 33.33%。上述规则说明,无论房屋形制为地上还是半地穴,居住面结构都有红烧土硬面的情况,而在地上房屋中,居住面结构多为路土面;半地穴房屋中,青灰色硬面与红烧土硬面数量大体相当。
对整个遗址的所有土坑墓按照分别给定的最小支持度与最小置信度,按葬式、墓向等情况[4],分别与有关属性进行了关联数据挖掘,得到了多种组合的关联规则。
2.2.1 葬式与有关属性的关联数据挖掘
(1)葬式与头向(最小支持度为7%,最小置信度为15%)。规则1 葬式:仰身直肢,头向:西,记录数: 65个;支持度:36.72%,置信度:45.14%。规则2 葬式:仰身直肢,头向:西偏南,记录数:27个;支持度: 15.25%,置信度:18.75%。上述规则表明,葬式为仰身直肢,头向多为向西,但向西偏南的也占较多的比例。
(2)葬式与有无随葬器物(最小支持度为6%,最小置信度为25%)。规则1 葬式:空,随葬器物:有,记录数:16个;支持度:9.04%,置信度:72.73%。规则2 葬式:仰身直肢,随葬器物:无,记录数:45个;支持度:25.42%,置信度:31.25%。规则3 葬式:仰身直肢,随葬器物:有,记录数:99个;支持度: 55.93%,置信度:68.75%。上述规则说明,主流葬式为仰身直肢,而且有随葬器物的先民居大多数;但无随葬器物的,葬式也是仰身直肢的先民占较大的比例。
2.2.2 墓向与有关属性的关联数据挖掘
(1)墓向与葬式(最小支持度为6%,最小置信度为30%)。规则1 墓向:270,葬式:仰身直肢,记录数:42个;支持度:23.73%,置信度:82.35%。该规则说明,墓向为270、葬式为仰身直肢的姜寨一期先民占很大比例,支持度明显较大。
(2)墓向与性别、年龄(最小支持度为6%,最小置信度为30%)。规则1 墓向:270,性别:男,年龄:15~50岁,记录数:19个;支持度:10.73%,置信度:79.17%。规则2 墓向:270,性别:女,年龄:15~50岁,记录数:13个;支持度:7.34%,置信度: 92.86%。该三维关联规则说明,墓向为270,性别无论男、女,均支持度较高,表明姜寨遗址的主体墓向为270;同时说明墓向为270的先民多为15~50岁的成年人。
对整个遗址的所有窖穴按照给定的最小支持度与最小置信度,按形状与形制(最小支持度为6%,最小置信度为15%)进行了关联数据挖掘,得到了该种组合的关联规则,并分析如下:规则1 形状:方形,形制:台阶式,记录数:65个;支持度:21.74%,置信度: 79.27%。规则2 形状:圆形,形制:袋状,记录数:49个;支持度:16.39%,置信度:32.24%。规则3 形状:圆形,形制:锅底状,记录数:23个;支持度: 7.69%,置信度:15.13%。规则4 形状:圆形,形制:台阶式,记录数:47个;支持度:15.72%,置信度: 30.92%。规则5 形状:圆形,形制:筒状,记录数: 32个;支持度:10.7%,置信度:21.05%。以上规则说明,无论窖穴的形制为袋状、锅底状、台阶式、筒状,形状大多为圆形,形制为台阶式的窖穴有少量的方形。
对整个遗址的所有灶坑分别按照给定的最小支持度与最小置信度,按灶底面颜色与灶壁结构(最小支持度为6%,最小置信度为15%)分别与有关属性进行关联数据挖掘,得到两种组合的关联规则,并分析如下:规则1 灶底面颜色:空,灶壁结构:红烧土硬面,记录数:84个;支持度:32.18%,置信度: 61.31%。规则2 灶底面颜色:青灰色,灶壁结构:硬面,记录数:97个;支持度:37.16%,置信度: 86.61%。以上规则说明,灶底面颜色为青灰色且灶壁结构为硬面的较多,灶壁结构为红烧土硬面的灶坑略少于青灰色硬面的灶坑。
本文将数据挖掘的关联分析方法引入史前聚落考古研究,对姜寨遗址一期文化的遗迹、遗物进行设计并建立了属性数据库,按照属性数据挖掘的要求进行了数据预处理,运用Ap riori关联算法,对各类遗迹的属性数据库进行了关联数据挖掘,分别提取了其关联规则,找到了属性数据之间隐含的关系,得到了不同于考古学家的对姜寨遗址的新认识,为进一步分析和认识中国史前聚落提供了一个定量化分析的范例。同时,聚落考古中单遗址数据挖掘的方法可以提供考古工作者一种新的研究手段,可以快速、灵活地按照研究需要,对考古学资料进行任意的关联分析,从而挖掘需要的关联规则,为考古学研究提供了一个实用、方便的平台。
[1] 西安半坡博物馆,陕西省考古研究所,临潼县博物馆.姜寨[M].北京:文物出版社,1988.
[2] 苏新宁,杨建林,邓三鸿,等.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.
[3] KAN TARDZIC M.闪四清,陈茵,程雁,等(译).数据挖掘:概念、模型、方法与算法[M].北京:清华大学出版社,2003.
[4] 毕硕本.聚落考古中空间数据挖掘与知识发现的研究——以史前聚落半坡类型姜寨遗址为例[D].南京师范大学,2004.
Study on Data M in ing in First Period of Jiangzhai Site Based on the Association Algorithms
B IShuo-ben1,LV Guo-nian2,PEIAn-ping3,SUN Yi-qing2
(1.School of Com puter&Sof tw are,N anjing University of Inform ation Science&Technology,N anjing 210044;
2.School of Geography Science,N anjing N ormal University,N anjing 210097;
3.School of Cultural Relic&M useum,N anjing N ormal University,N anjing 210097,China)
In this paper,the association analysismethod of data mining into the research of p rehistoric settlement archeology is introduced,the p roperty database of remains and remnants in the first cultural period of the Jiangzhai site are designed and established.This attribution data are used to do datamining in order to getmo re useful know ledge.The archaeologicalmaterial include the housing layout circum stances table and the house relative ho rizon table w hich is in the document of Jiangzhai,and five kindsof forms in the schedule,such as the housing registration form,hole-stove registration fo rm,cellar-cave registration form, earth pit registration fo rm and funerary urn registration fo rm.In the paper,the data p retreatment was done.First,w ith the Ap riori association method,association data mining was done on the house group,house era,house structure and shape to all the houses in Jiangzhai site acco rding to the given minimal suppo rt and minimal confidence,after got the combined association rules,their p roperty was exp lained.Then,taking the same treatment,association datamining was done on burial style,head direction to all earth pits,on shape and structure to all cellar-caves,and on shape,ground colo r to all hole-stoves,and then the achieved combined association rules were exp lained.In brief,acco rding to the association data mining and analysis about the first period culture of Jiangzhai site,the hiding relations after the trace p roperty data were found,and new sight about Jiangzhai site wasmade for archaeologists.The study set an examp leof quantitative analysis about the analysis and research of the p rehisto ric settlement in China.
Ap rio ri algo rithm;data mining;settlement archaeology;Jiangzhai site
K928.72;TP311
A
1672-0504(2010)01-0048-03
2009-05-19;
2009-07-17
江苏省教育厅青蓝工程项目(0702);江苏省教育厅计划指导项目(06KJD520121)
毕硕本(1965-),男,教授,硕士生导师,从事计算机软件、地理信息系统、空间数据挖掘、智能计算等研究。发表论文近50篇,获软件著作权4项。E-mail:bishuoben@163.com