王朝百科
分享
 
 
 

数据挖掘研究中心

王朝百科·作者佚名  2010-06-21  
宽屏版  字体: |||超大  

数据挖掘研究中心

科研宗旨全面贯彻绵阳市“科技兴市”和绵阳师范学院“科研强校”战略,充分整合数学与信息人才资源优势,适应学院快速健康发展的需要,及时了解和把握国内外数据挖掘理论和应用的最新动态,同时开展数据挖掘前沿领域的研究和相关产品的开发,于2005年7月成立“数据挖掘”研究中心。争取在5-10内把该中心打造成:

(1)产品研发基地:瞄准国际、国内极具潜力的应用行业,开发适销对路的数据挖掘产品,为相关应用行业解决知识发现的难题,同是为中心带来稳定的收入来源。

(2)人才培养基地:作为国内科研院所研究型人才及企事业单位应用型人才培养的摇篮。

(3)应用推广基地:及时跟踪企事业单位的应用需求,一方面将项目的研究成果推广到企事业,另一方面,根据企业发展的需求,为他们定制数据挖掘产品,为企业的科技研发与技术创新提供国内外专利数据挖掘与数据分析服务。

(4)学科前沿基地:及时跟踪数据挖掘方面的国际前沿领域。

科研队伍杜先云应用物理及计算数学博士(教授)

何红洲 计算机软件与理论博士(副教授)

李俐玲 副教授

数据挖掘概念数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

数据挖掘能做什么1)数据挖掘能做以下六种不同事情(分析方法):

· 分类 (Classification)

· 估值(Estimation)

· 预言(Prediction)

· 相关性分组或关联规则(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可视化(Description and Visualization)

· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

2)数据挖掘分类

以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘

· 直接数据挖掘

目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

· 间接数据挖掘

目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。

· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

3)各种分析方法的简介

· 分类 (Classification)

首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例子:

a. 信用卡申请者,分类为低、中、高风险

b. 分配客户到预先定义的客户分片

注意: 类的个数是确定的,预先定义好的

· 估值(Estimation)

估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

例子:

a. 根据购买模式,估计一个家庭的孩子个数

b. 根据购买模式,估计一个家庭的收入

c. 估计real estate的价值

一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

· 预言(Prediction)

通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

· 相关性分组或关联规则(Affinity grouping or association rules)

决定哪些事情将一起发生。

例子:

a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

b. 客户在购买A后,隔一段时间,会购买B (序列分析)

· 聚集(Clustering)

聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

例子:

a. 一些特定症状的聚集可能预示了一个特定的疾病

b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群

聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

· 描述和可视化(Des cription and Visualization)

是对数据挖掘结果的表示方式。

应用领域金融数据挖掘

企业数据挖掘

智能数据挖掘

营销数据挖掘

会计数据挖掘

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如何用java替换看不见的字符比如零宽空格​十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
感谢员工的付出和激励的话怎么说?
 干货   2023-06-18
 
>>返回首页<<
 
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有