王朝百科
分享
 
 
 

KDD

王朝百科·作者佚名  2009-11-05  
宽屏版  字体: |||超大  

KDD

引言知识发现(KDD:Knowledge Discovery in Databases)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。

数据库知识发现(knowledge discovery in databases,KDD)的研究非常活跃。该术语于1989年出现,Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。在上面的定义中,涉及几个需要进一步解释的概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”。数据集是一组事实 F(如关系数据库中的记录)。模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集凡上作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。过程在KDD中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。

由于知识发现是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。除了 KDD外,主要还有如下若干种称法:“数据挖掘”(data mining),“知识抽取”(information extraction)、“信息发现”(in1ormation discovery)、“智能数据分析”(intelligent data analysis)、“探索式数据分析”(exploratory data analysis)、“信息收获”(Information harvesting)和“数据考古”(data archedogy)等等。其中,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献中)、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。

1.KDD基本过程(the process of the KDD)作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文<From Data Mining to knowledge discovery>中总结出了KDD包含的5个最基本步骤(如图).

1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用遇我们的KDD工程中.

2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在

的错误以及缺失信息.

3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.

4: data mining: 应用数据挖掘工具.

5:interpretation/ evaluation: 了解以及评估数据挖掘结果.

KDD
KDD基本过程

2.常用KDD过程模型 (KDD process model)随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD5个基本步骤, 各种不同的KDD过程模型

在此基础上发展以及完善起来.整体来说,KDD过程模型包含"学术模型"(academic research model)以及"

工业模型"(industrial model)两大类. 常见的KDD过程模型有:

1996 年Fayyad等人提出的 "9 步骤模型"(nine-steps model).

1999 年 european commission 机构起草的CRISP-DM 模型. (cross-industry standard process for

data mining)

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如何用java替换看不见的字符比如零宽空格&#8203;十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
感谢员工的付出和激励的话怎么说?
 干货   2023-06-18
 
>>返回首页<<
 
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有