FP-growth

王朝百科·作者佚名  2010-09-28  
宽屏版  字体: |||超大  

2000年,由Han Jiawei等人提出了一种新的频繁项集挖掘算法FP-growth,它彻底地脱离了Apriori算法必须产生候选项集的传统方式,建立了基于FP-tree结构的不产生候选项集的思想,开辟了关联规则挖掘的新思路。

Han等人用一种压缩的数据结构(FP-tree)存储关联规则挖掘所需的全部数据信息,通过对源数据库的两次扫描,将数据信息存到这种结构里,避开了产生候选项集的步骤,极大的减少了数据交换和频繁匹配的开销,并且将数据库频繁模式的挖掘问题转化成挖掘FP-tree的问题。因此,在挖掘效率上FP-growth算法明显优于Apriori算法,特别是在稠密数据库中,频繁项集的长度很大的情况下,FP-growth算法的优势越明显。FP-growth算法的缺点是需要递归生成条件数据库和条件FP-tree,因此内存开销大,它也只能挖掘单维的布尔关联规则。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有