数据挖掘基础（三）：关联规则

本文最后更新于 8 个月前，文中所描述的信息可能已发生改变。

加载中... 浏览

关联规则关注的是：哪些事情经常一起发生。它不是预测某个类别，而是发现数据项之间的共现关系。

1. 什么是关联规则

经典例子是购物篮分析。

如果很多用户买了啤酒，也会买尿布，就可能得到一条规则：

txt

买啤酒 -> 也可能买尿布

在实际场景中，关联规则可以用于：

关联规则常见三个指标：支持度、置信度、提升度。

支持度 看规则出现得多不多。

txt

支持度 = 同时包含 A 和 B 的记录数 / 总记录数

置信度 看买了 A 的人中有多少也买 B。

txt

置信度 = 同时包含 A 和 B 的记录数 / 包含 A 的记录数

提升度 看 A 对 B 是否真的有促进关系。

txt

提升度 = 置信度 / B 本身出现的概率

提升度大于 1，说明 A 和 B 之间可能存在正相关。

两个商品经常一起出现，不代表它们有强关联。

如果 B 本身就是热门商品，那么很多东西都会和它一起出现。

这时只看置信度容易误判，所以要结合提升度。

关联规则的重点不是“同时出现”，而是“是否比随机情况更值得关注”。

Apriori 是经典关联规则算法。

它的基本思想是：

如果一个项集是频繁的，那么它的子集也应该是频繁的。

通过这个性质，可以减少大量无意义组合的搜索。

关联规则适合发现“同时发生”的模式。

可以先记住：

它常用于推荐和组合分析，但结果仍然需要业务解释，不能只看算法输出。

加载评论中...