本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
关联规则关注的是:哪些事情经常一起发生。 它不是预测某个类别,而是发现数据项之间的共现关系。
1. 什么是关联规则
经典例子是购物篮分析。
如果很多用户买了啤酒,也会买尿布,就可能得到一条规则:
txt
买啤酒 -> 也可能买尿布在实际场景中,关联规则可以用于:
- 商品推荐。
- 套餐组合。
- 页面行为分析。
- 交叉销售。
- 风险行为组合识别。
2. 三个核心指标
关联规则常见三个指标:支持度、置信度、提升度。
支持度 看规则出现得多不多。
txt
支持度 = 同时包含 A 和 B 的记录数 / 总记录数置信度 看买了 A 的人中有多少也买 B。
txt
置信度 = 同时包含 A 和 B 的记录数 / 包含 A 的记录数提升度 看 A 对 B 是否真的有促进关系。
txt
提升度 = 置信度 / B 本身出现的概率提升度大于 1,说明 A 和 B 之间可能存在正相关。
3. 不要只看共现
两个商品经常一起出现,不代表它们有强关联。
如果 B 本身就是热门商品,那么很多东西都会和它一起出现。
这时只看置信度容易误判,所以要结合提升度。
关联规则的重点不是“同时出现”,而是“是否比随机情况更值得关注”。
4. 常见算法
Apriori 是经典关联规则算法。
它的基本思想是:
如果一个项集是频繁的,那么它的子集也应该是频繁的。
通过这个性质,可以减少大量无意义组合的搜索。
5. 小结
关联规则适合发现“同时发生”的模式。
可以先记住:
- 支持度:规则是否常见。
- 置信度:A 发生时 B 出现概率多大。
- 提升度:A 是否真的提升了 B 的出现概率。
它常用于推荐和组合分析,但结果仍然需要业务解释,不能只看算法输出。
留言板