数据挖掘基础(二):聚类任务

本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

聚类和分类很像,但关键区别是:聚类没有提前给好的标签。 它要做的是从数据自身发现分组结构。

1. 什么是聚类

聚类是把相似的样本放到同一组。

比如:

  • 根据消费行为划分用户群体。
  • 根据浏览习惯识别不同兴趣人群。
  • 根据地区指标划分城市类型。
  • 根据文本内容聚合相似文章。

这些场景里,我们一开始并不知道具体类别,而是希望算法帮我们发现结构。

2. 聚类和分类的区别

角度分类聚类
是否有标签没有
任务目标预测已知类别发现潜在分组
学习类型监督学习无监督学习

分类像考试有标准答案;聚类像把一堆东西按相似程度整理归类。

3. 相似度很重要

聚类的核心是“相似”。

但相似怎么定义,取决于特征。

比如用户画像中,可以用:

  • 年龄。
  • 消费金额。
  • 访问频率。
  • 活跃天数。
  • 偏好品类。

不同特征会影响聚类结果。

所以聚类前的数据标准化、特征选择非常重要。

4. 常见算法

常见聚类算法包括:

  • K-Means。
  • 层次聚类。
  • DBSCAN。

K-Means 比较常见,它需要预先指定簇数量 K。

DBSCAN 则能发现任意形状的簇,也能识别噪声点。

初学阶段先理解:算法不同,适合的数据形态也不同。

5. 小结

聚类适合回答:

数据里是否天然存在一些相似群体?

它常用于用户分群、内容聚合、异常发现等场景。

聚类结果不是绝对答案,而是一种分析视角。最后还需要结合业务解释每个簇到底代表什么。

留言板

加载评论中...
数据挖掘基础(三):关联规则
数据挖掘基础(一):分类任务
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1