FP-growth
2000年,由Han Jiawei等人提出了一种新的频繁项集挖掘算法FP-growth,它彻底地脱离了Apriori算法必须产生候选项集的传统方式,建立了基于FP-tree结构的不产生候选项集的思想,开辟了关联规则挖掘的新思路。
Han等人用一种压缩的数据结构(FP-tree)存储关联规则挖掘所需的全部数据信息,通过对源数据库的两次扫描,将数据信息存到这种结构里,避开了产生候选项集的步骤,极大的减少了数据交换和频繁匹配的开销,并且将数据库频繁模式的挖掘问题转化成挖掘FP-tree的问题。因此,在挖掘效率上FP-growth算法明显优于Apriori算法,特别是在稠密数据库中,频繁项集的长度很大的情况下,FP-growth算法的优势越明显。FP-growth算法的缺点是需要递归生成条件数据库和条件FP-tree,因此内存开销大,它也只能挖掘单维的布尔关联规则。