本文介绍了数据挖掘的基本概念﹑现状及前景,提出了关联规则的分类方法、数据挖掘语言分类的方法。对数据挖掘的方法和一些经典算法进行了探讨和研究,对算法优化的问题也提及了一下,以及数据挖掘的应用。介绍了单维的数据挖掘。提出根据信息熵划分属性值区间或集合、自动生成与人机交互相结合确定层次结构的方法。在此基础上,将多维多层多数据类型问题转化为受约束的一维单层布尔型问题。直接生成频繁模式的FPT Gen算法进行了扩展,实现了有效挖掘多维多层关联规则的新算法MDML FPT Gen。
数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
以下将主要从挖掘任务和挖掘方法的角度,着重讨论数据抽取、分类发现、聚类和关联规则发现四种非常重要的发现任务。