数据挖掘基础(三):关联规则

本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

关联规则关注的是:哪些事情经常一起发生。 它不是预测某个类别,而是发现数据项之间的共现关系。

1. 什么是关联规则

经典例子是购物篮分析。

如果很多用户买了啤酒,也会买尿布,就可能得到一条规则:

txt
买啤酒 -> 也可能买尿布

在实际场景中,关联规则可以用于:

  • 商品推荐。
  • 套餐组合。
  • 页面行为分析。
  • 交叉销售。
  • 风险行为组合识别。

2. 三个核心指标

关联规则常见三个指标:支持度、置信度、提升度。

支持度 看规则出现得多不多。

txt
支持度 = 同时包含 A 和 B 的记录数 / 总记录数

置信度 看买了 A 的人中有多少也买 B。

txt
置信度 = 同时包含 A 和 B 的记录数 / 包含 A 的记录数

提升度 看 A 对 B 是否真的有促进关系。

txt
提升度 = 置信度 / B 本身出现的概率

提升度大于 1,说明 A 和 B 之间可能存在正相关。

3. 不要只看共现

两个商品经常一起出现,不代表它们有强关联。

如果 B 本身就是热门商品,那么很多东西都会和它一起出现。

这时只看置信度容易误判,所以要结合提升度。

关联规则的重点不是“同时出现”,而是“是否比随机情况更值得关注”。

4. 常见算法

Apriori 是经典关联规则算法。

它的基本思想是:

如果一个项集是频繁的,那么它的子集也应该是频繁的。

通过这个性质,可以减少大量无意义组合的搜索。

5. 小结

关联规则适合发现“同时发生”的模式。

可以先记住:

  • 支持度:规则是否常见。
  • 置信度:A 发生时 B 出现概率多大。
  • 提升度:A 是否真的提升了 B 的出现概率。

它常用于推荐和组合分析,但结果仍然需要业务解释,不能只看算法输出。

留言板

加载评论中...
机器学习基础:模型在学习什么
数据挖掘基础(二):聚类任务
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1