KDD是一个多步骤的处理过程,分为问题定义、数据抽取、数据预处理、数据挖掘以及知识评估等基本阶段。
首先准确地界定所选取数据源和抽取原则,将多数据库运行环境中的数据进行合并处理达到世界集成的目的,然后设计存储新数据的结构和准确定义它与源数据的转换和装载机制,作为元数据被存储起来。
数据预处理是进行数据分析和挖掘的基础,对源数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪声数据进行平滑,对丢失的数据进行填补,清楚“脏”数据。
数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。
不管是自己建立的挖掘模型还是改进已有的模型都必须要进行验证,其中最常用的方法就是样本学习。
先用一部分数据建立模型,然后再用剩下的数据测试和验证这个模型。
数据挖掘是一个反复的过程,不断产生、筛选和验证,才能得出有意义的结论。
根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求,并将发现的知识以用户能了解的方式呈现。
阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程,再整个知识发现的过程中包括很多处理阶段。
Usama M. Fayyad等人给出的阶梯处理过程的九个处理阶段:数据准备、数据选择、数据预处理、数据缩减、KDD目标确定、挖掘算法确定、数据挖掘、模式解释、知识评价。
螺旋处理过程模型强调领域专家参与的重要性。
G. H. John提出的螺旋处理过程模型阶段:定义问题、抽取数据、清洗数据、数据工程、算法工程、运行挖掘算法、分析结果。
以用户为中心的处理模型着重对用户进行知识发现的整个过程的支持。
整个处理过程分为下面一些步骤:任务发现、数据发现、数据清洗、模型开发、数据分析、输出结果生成。
OLAM(联机分析挖掘)的概念是OLAP的发展(联机事务处理),J. W. Han提出OLAM概念,并把其分为若干抽象层次:
L0层:数据集,包括了相关的数据库和数据仓库等。
L1层:形成支持OLAP和OLDM的多维数据集,它是对相关数据的综合和多维化处理。
L2层:是OLAP和OLDM的应用层,包括相互关联并协同工作的OLAM引擎和OLAP引擎。
L3层:是一个用户接口层,承担用户请求的理解与挖掘结果的结束与表达。
基本过程:从一个或多个数据库、数据仓库以及像Web这样的其他信息存储源进行数据抽取,抽取出来的数据作为备选数据进行下一步的数据清洗等数据预处理,得到适合挖掘的目标信息,进行数据挖掘、模式评估得到需要的知识。
粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段。
独立的知识发现软件出现在数据挖掘和知识发现技术研究的早期,这类软件要求用户必须对具体的数据挖掘技术和算法有相当的了解,还要手工负责大量的数据预处理工作。
这类集成软件属于通用辅助工具范畴,可以帮助用户快速完成知识发现的不同阶段的处理工作。
这种方法的核心是针对特定的应用提供完整的数据挖掘和知识发现解决方案,发现的知识可靠性也比较高。
(1)Quest:使用Client/Server结构进行设计的一种多任务KDD系统。
(2)DBMiner:多任务数据挖掘系统,把关系型数据库和数据挖掘功能集成在一起,由图形用户界面、DBMiner引擎和通信模块构成。
I-MIN(强度挖掘):此模型把KDD分为IM1至IM6等步骤处理:
IM1:KDD项目的计划阶段,确定企业挖掘目标、选择知识发现模式、编译知识发现模式得到元数据。
IM2:KDD的预处理阶段。
IM3:KDD的挖掘准备阶段。
IM4:KDD的数据挖掘阶段。
IM5:KDD的知识表示阶段。
IM6:KDD的知识解释与使用阶段。
根据功能和侧重点不同,数据挖掘语言可以分为三类:数据挖掘查询语言、数据挖掘建模语言、通用数据挖掘语言。
DBMiner系统中的数据挖掘查询语言是这类挖掘语言的典型代表,其由数据挖掘原语组成。
数据挖掘原语用来定义一个数据挖掘任务,用户使用数据挖掘原语与数据挖掘系统通信。
这些原语包括五类:任务相关数据原语、被挖掘知识的种类原语、背景知识原语、兴趣度测量原语、被发现模式的表示和可视化原语。
预言模型标记语言是这种数据挖掘建模语言,PMML是一种基于XML的语言,用来定义预言模型,其提供了一个灵活机制来定义预言模型的模式,同时支持涉及多个预言模型的模型选择和模型平衡。
通用数据挖掘语言有以上两类语言的特点,微软推出的数据挖掘语言OLE DB for Data Mining (DM),是一个通用数据挖掘语言中最具代表的尝试,其扩充了SQL的语言语法,使得商业分析和开发人员只要调用单一确定的API(应用程序接口)函数即可实现数据挖掘功能。
这里介绍DMQL数据挖掘语言顶层语法的直观印象。
{DMQL}::=<DMQL_Statement>;{DMQL_Statement}
<DMQL_Statement>::=<Data_Mining_Statement>
|<Concept_Hierarchy_Definition_Statement>
|<Visualization_and_Presentation>