数据挖掘基础(一):分类任务

本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

分类任务是数据挖掘和机器学习里非常基础的一类问题。 它的目标是根据已有特征,判断一个样本属于哪个类别。

1. 什么是分类

分类就是把对象分到预先定义好的类别里。

比如:

  • 邮件是垃圾邮件还是正常邮件。
  • 用户是否会流失。
  • 商品评论是好评还是差评。
  • 图片里是猫还是狗。
  • 交易是否存在风险。

这些问题的共同点是:类别是提前知道的。

2. 分类需要什么数据

分类任务通常需要带标签的数据。

比如用户流失预测:

特征标签
最近登录时间、消费次数、客服投诉次数是否流失

模型通过历史样本学习特征和标签之间的关系,再对新样本做预测。

这里的标签就是答案。

没有标签时,通常就不是监督分类,而可能是聚类等无监督任务。

3. 常见分类模型

常见分类模型包括:

  • 逻辑回归。
  • 决策树。
  • 随机森林。
  • 朴素贝叶斯。
  • 支持向量机。
  • 神经网络。

初学时不用急着背公式,可以先理解它们都在做一件事:

根据训练数据学出一个分类规则。

4. 分类不只是准确率

分类任务不能只看准确率。

比如欺诈交易识别,真实欺诈样本很少。

如果模型把所有交易都判断为正常,准确率可能很高,但完全没有业务价值。

所以还要看:

  • 精确率。
  • 召回率。
  • F1 值。
  • 混淆矩阵。

评价指标要结合业务风险。

5. 小结

分类任务可以这样理解:

txt
输入样本特征
-> 模型判断类别
-> 输出预测标签

它适合解决“属于哪一类”的问题。

学习分类时,重点不是只会调用模型,而是要理解标签、特征、评价指标和业务目标之间的关系。

留言板

加载评论中...
数据挖掘基础(二):聚类任务
数据治理基础:元数据、血缘、权限与标准
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1