领域知识和聚类的关联规则深层知识发现探讨

2016-03-18 13:58
贵阳学院学报(自然科学版) 2016年4期
关键词:数据挖掘技术人员关联

穆 俊

(滇西科技师范学院 信息工程学院,云南 临沧 677000)

领域知识和聚类的关联规则深层知识发现探讨

穆 俊

(滇西科技师范学院 信息工程学院,云南 临沧 677000)

随着信息技术的发展,社会各个领域对于数据准确度的要求越来越高。在计算机系统数据采集中,进行深层知识体系的开发与建设,技术人员应该强化数据挖掘效率的提高。在知识和聚类信息的采集与整理活动中,提升数据信息采集的平均准确率。开展数据信息的深度挖掘,技术人员应该对不同的数据处理算法进行比较,从而找到最优化的数据挖掘方法,确保数据采集活动符合知识聚合、分离的相关规则。本文从领域知识深层开发的技术细节展开讨论,提出几点有利于提升数据知识挖掘准确性的可行性建议。

领域知识;关联规则;深层分类;有效聚合

一、基于领域知识的关联规则进行聚类过程分析

基于领域知识的关联规则进行聚类分析,严格按照关联规则进行数据信息聚类,能够显著降低技术人员的工作强度,从而提高信息抓取的准确度和最终效率。按照关联规则进行深层知识发掘,便于分析规则之间的联系。新规则的迅速定位和有序的存储,能够显著提升数据挖掘的针对性,从而服务于深层知识体系的建设。

将传统情报研究方法与新型的数据挖掘技术与系统相结合,从而完善规则标准下知识聚合信息领域中的应用。在知识发现系统中,技术人员应该做好web深度挖掘工作,推行数据挖掘通道的可视化建设,在文本挖掘的活动中开展更加深入的知识聚类和分类处理,显著改善空间数据挖掘活动中的粗糙集细化分类现状。加强自组织特征映射的技术挖掘工作,技术人员应该提升信息的置信程度。从原始关联规则库存中,进行有关规则下的数据聚类处理。技术人员应该正视关联规则聚类的整体情况,按照大类存储的关联规则进行提炼,提炼后的关联规则,可以作为领域知识库内部规则存储的数据评选根据。在信息数据规则筛选活动中,我们按照各个大类存储的关联规则进行发现,能够快速进行信息数据的挖掘,实现对于整体关联数据层的协调开发。在数据挖掘活动中,严格按照规则进行筛选,并且严格按照规则处理方法进行存储,实现数据挖掘通道的可追溯性要求。

二、领域知识和聚类的关联规则深层知识发现探讨

(一)计算机应用数据分类整理方式优化

在计算机应用环境下开展数据的挖掘与分析,工作人员应该对传统的数据分类整理方式进行优化。在领域知识体系的深度开发活动中,完善计算机的知识发现系统,从而显著提升信息处理的效率。根据计算机领域知识和聚类的关联规则进行深层体系的判断,通过进行规则意外度的计算,判断冗余规则出现的概率,将计算机数据系统中的冗余信息进行摘除,保留符合板块需要的有效信息,从而显著提升数据挖掘的准确性。

我们根据计算结论对意外度进行分析,从而将冗余规则的数据挖掘效率提高到合理的水平。在冗余规则信息挖掘活动中,工作人员应该认真计算结论的意外度,并且根据意外度比例的大小,进行数据信息挖掘阈值的判断。如果计算的结论中意外度比较大,那么我们可以判断出这种数据规则是意外规则,如果通过计算我们发现数据信息的结论意外度不大,我们便可以判断这种规则属于合理范围的一种规则,并且不属于意外规则。我们将计算表达式AC(R1)为第一次冗余规则判断,并且将 AC(R2)表示为第二次的冗余规则判断。通过对AC(R1)和AC(R2)的意外规则情况进行分析,我们能够准确找到关联规则中数据框架是否包含对方没有的属性。计算条件综合的意外程度,技术人员需要对冗余规则进行深度研究。确保计算机系统中数据信息挖掘活动中知识聚合合乎规则所需要,并且要定期对计算条件的综合意外程度进行评估,通过综合分析计算条件的准确程度,对计算机数据信息置信度和意外度进行综合评估。

(二)指定层次关联规则挖掘流程的优化

基于领域知识的聚类关联规则深度优化活动,技术人员应该在指定层次进行关联规则挖掘流程的优化。对计算机抓取工具采集的数据进行关联规则算法的分析,技术人员应该按照科学的挖掘流程进行信息分析系统升级处理。

在关联规则算法的具体应用活动中,我们能够建立一个效率更高的正向反馈信息模式。技术人员根据数据后缀对应的XML文件进行关联文件的挖掘,对应的文件应该符合用户已知规则的需要。技术人员应该对数据库中的全体信息进行筛选和挖掘,从而更加准确地找到符合已知规则的所有数据信息。工作人员对数据对应的文件聚类效应进行分析,主要是在规则框架的规范之下,进行数据信息意外度的计算。如果计算机信息库领域知识内的意外度大于或者等于阈值,那么这一种类的数据信息完全超出了用户已知规则的需要,如果继续使用将会出现难以识别的现象,应该及时地对其进行删除处理。如果在关联规则算法的约束之下,数据库信息资料的意外度小于阈值,那么我们可以将其进行保留和存档处理,并且要按照层次的不同,将各个种类的数据信息进行编辑,从而由低层次到高层次完成最终的规则集的制定工作。

(三)规则半径数据采集密度控制与分析处理

基于当前关联规则领域知识的数据挖掘工作,技术人员应该对领域知识规则聚类过程进行深度分析。我们在数据信息库中输入预先设定好的关联规则库,并且根据规则的半径进行规则要求范围内的数据监测和检索处理。

根据一定的半径要求确定数据信息处理的范围,并且要选择任何一类没有加上分类的标签规则,根据具体的规则确定标准范围之内规则R在半径E和阈值MINPIs直接亲密度可达到的所有规则。确定规则在半径和阈值的直接关联程度,技术人员应该从规则分类的角度出发,给出知识聚合的固定方法。确定规则R的直接密度应该达到规则数的要求,并且确保规则的直接密度等于或者大于阈值,从而形成一种新型的数据采集与分析处理类型。在领域知识和聚类分析活动中,技术人员需要对数据库中的信息进行分拣,可以采用抽样实验的方法,对数据的正确性进行检验。取出任何一种规则的数据进行检验,并且判断这种类型的数据是否为核心规则要求下的知识,将和新规则临近领域内的规则加到新类数据中去,从而直接输出聚类结果。在这种数据关联层分析活动中,技术人员运用核心规则的分析方法,能够有效地实现数据信息的规律,完成对于计算机数据信息库整理,从而显著提升关联规则下深层知识维护的效率。

(四)信息库覆盖度提高和可靠性建设

我们以关联规则数据分析系统的总体结构进行分析,技术人员应该依托总控平台对数据进行挖掘和整理。以web挖掘系统为数据信息浅层处理的第一工具,在互联网环境中对web文本挖掘系统进行完善,并且利用web挖掘工具对用户访问和数据挖掘模式进行补足。在领域知识数据分析的总体结构中,技术人员需要不断开展web结构挖掘系统的维护工作,及时地弥补数据结构挖掘系统中可能会产生的漏洞。

强化KDK系统和KDD系统的升级实验,从而在当前的互联网环境下打造一个工作效率更高的多媒体信息挖掘系统。我们对当前关联规则下的各种领域知识聚类算法进行对比,发现不同的聚类算法信息数据处理的效率不相同。其中,层次聚类分析活动中的政治与社会领域的数据挖掘准确率最高,接近百分之百,而教育类别的数据挖掘准确度相对较低。教育行业的数据受到冗杂信息的影响比较大,教育行业的数据包括家庭教育背景下产生的各类数据、素质教育辅导环境下的数据,以及考试聚焦主体类别的各种数据信息等。对教育行业的数据进行知识点的聚合分析,技术人员应该采用中性点聚类算法,对数据的有效性进行深度维护,从而显著提升关联规则下的数据抓取效率。航空航天类型的算法聚集结果比较乐观,近年来世界大国都在开展航天与航空实验,各种类型的基础数据比较丰富,在数据挖掘与聚合的过程中,有大量可以参考的依据。因此,随着世界航空航天技术的提高,相关行业的数据信息将会更加丰富,信息库功能也会更加的强大。

(五)数据挖掘中客观结构优化和资源整合

针对内容挖掘的工作,应该从分析文本语义入手,进行分类标准下的数据信息挖掘。应该从结构化、非结构化和半结构化数据语义分析三个层面进行数据提炼,建立一个完整的任务相关映射。

在结构挖掘活动中,技术人员应该根据学习资源推荐情况,进行领域知识内的行为偏好分析,并且采用后台资源整合的方法,将所挖掘到的信息进行智能化整合与推送,建立更加直接的数据处理映射反应链。对用户使用记录进行挖掘,技术人员应该依据在线教育领域知识的特点,进行行为模式的识别,从而做好数据挖掘系统分类。在计算机远程数据信息处理的过程中,技术人员应该使用科学手段实现模拟量数值的采集。我们以电力信息监控为例,在数据采集的过程中,在模拟电路开关断开和闭合两种状态下,实现数值信息译码和控制。其中,A/D转换芯片主要负责监控启动地址的数据波动情况,针对输入缓冲器在LOR输入地址中的数据波动情况,由CPU实现数据的集中处理。根据监控系统数据设计的模拟量控制进行模拟多路开关信息采集比较。

三、不同领域的知识聚类和关联规则标准下的数据挖掘探究

(一)领域数据挖掘的准确度研究

在领域知识数据录入和维护的过程中,工作人员应该从设备数据的采集和原始数据修复展开工作,从而实现常规化录入信息的真实度和准确度建设。

利用音频挖掘系统,对多媒体信息源进行音频数据的变轨处理,提升音轨音质,实现高保真音频质量维护。在视频数据挖掘活动中,技术人员应该采用更加先进的工具,开展多媒体信息源的分类整理,满足不同类型视频链接和信息拓展的需要。对图形挖掘系统和图像挖掘系统的功能进行升级,采用虚拟现实技术,显著提升图片的可识别程度。利用web工具进行聚合知识挖掘,技术人员应该依据知识发现综述与基本理论进行系统研发和数据挖掘的相关研究。在基于聚类的关联规则要求之下,利用后处理算法进行深层知识的发现与整理,技术人员应该根据不同领域知识的特点,进行针对性较强的聚类处理,从而服务于行业决策的制定。在教育领域开展在线学习数据挖掘工作,工作人员应该从学习行为数据源进行分析,从而实现数据信息挖掘模式的分类。在线学习数据挖掘领域中,技术人员应该从web内容挖掘、web结构挖掘和web使用记录挖掘三个方面进行评估,通过评估学习行为判断在线教育模式的动态数据,从而把握在线教育市场的基本容量信息。

(二)领域数据的深度挖掘功能实现

在电子商务领域开展数据挖掘工作,技术人员应该考虑到市场波动情况对于领域知识聚类的影响。数据采集面应该更加宽广,信息的来源包括各种市场数据信息,在选择预处理转换方式上,应该以关联规则的标准需要为主。在数据仓库内部进行深度数据挖掘,显著提升电子商务数据挖掘的系统性,建立模式规则模型与图表。这些图表应该包括电子商务每天的下单量和实际成交量等信息,并且要对知识聚类的关联规则进行解释,后一步要对电子商务数据挖掘的准确性进行评价,从而提炼出具有代表性的知识板块。在电子商务平台的升级与完善活动中,强调采集各个商务平台市场销售的决策支持分析治疗,从而作出更加精准的商业评估,服务于客户对在线商务市场的管理工作。在医疗大数据板块进行数据的聚类分析,技术人员应该做好数据挖掘的结构化处理,在聚类的基础上,按照不同的科室进行信息分类。医疗大数据的主要技术分析工作,包括支持向量机和随机森林数据系统等等,通过对医疗作业市场环境进行分析,建立更加可靠的医疗大数据预警引擎控制系统。

四、结论

采用多媒体信息挖掘系统,对计算机关联规则下的数据进行深度挖掘。技术人员需要积极引进国外先进的数据处理技术,并且要重视硬件升级工作。采用内存量更大的硬盘支撑大数据的高速运转处理活动,并且在多媒体信息源的分析活动中,技术人员应该做好渠道的拓宽工作,针对不同类型的数据信号进行规则性建设,从而显著提升领域知识聚合效率和数据信息的可识别程度,减少计算机系统挖掘活动中出现的数据错误现象。

[1]毛宇星,陈彤兵,施伯乐,等.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2987.

[2] 黄海超.基于领域知识的半监督聚类算法研究[D].北京:北京化工大学,2009.

[3] 潘海为,谭小雷,韩启龙,等.领域知识驱动的医学图像关联模式挖掘算法[J].黑龙江大学自然科学学报,2009,26(5):585-590.

[4] 董俊.基于KDD的领域本体构建若干关键问题研究[D].南京:南京邮电大学,2010.

[5] 李兰涛.基于聚类分析和关联规则的痹证医案处方用药规律研究[D].北京:中国中医科学院,2011.

[6] 程平,陈珊.大数据时代基于DBSCAN聚类方法的审计抽样[J].中国注册会计师,2016,(4):76-79.

[7] 张焱.知识发现在金融反洗钱领域中的应用研究[D].合肥:合肥工业大学,2004.

[8] 杭小树,张友华,袁红春,等.一个综合知识发现与知识求精系统--XFKDRS[J].模式识别与人工智能,2002,15(3):334-338.

Association rules clustering deep domain knowledge and knowledge discovery Discussion

MU Jun

(School of Information Science&Engineering,DianXi Science and Technology Normal University,Lincang,Yunnan 677000,China)

With the development of information technology, all areas of society for data accuracy have become increasingly demanding. In the computer system data acquisition, development and construction of deep knowledge, technical personnel should be strengthened to improve the efficiency of data mining. In the collection and sorting activities of knowledge and information in the cluster, lifting the average accuracy of data collection. Conduct data mining depth, technical personnel should be different data processing algorithms are compared in order to find the most optimal method of data mining, data collection activities to ensure compliance with knowledge of the polymerization, separate rules. From the development of deep domain knowledge of the technical details to discuss, make a few points will help improve the accuracy of the data knowledge mining feasibility proposal.

domain knowledge; association rules; deep classification; effective polymerization

2016-08-28

云南省教育厅科学研究基金重点项目:“行动规则挖掘的建模与算法研究 ”(项目编号: 2014Z137)。

穆俊(1979-),男,云南临沧人,副教授、硕士。主要研究方向:计算机应用和软件理论,数据挖掘。

TP311.13

A

1673-6125(2016)04-0009-04

猜你喜欢
数据挖掘技术人员关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
越南农业管理和技术人员线上培训
我国首批正高级船舶专业技术人员评出
探讨人工智能与数据挖掘发展趋势
企业技术人员能力评价的探索
“一带一路”递进,关联民生更紧
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
一种基于Hadoop的大数据挖掘云服务及应用