数据挖掘基础（一）：分类任务

本文最后更新于 8 个月前，文中所描述的信息可能已发生改变。

加载中... 浏览

分类任务是数据挖掘和机器学习里非常基础的一类问题。它的目标是根据已有特征，判断一个样本属于哪个类别。

1. 什么是分类

分类就是把对象分到预先定义好的类别里。

比如：

这些问题的共同点是：类别是提前知道的。

分类任务通常需要带标签的数据。

比如用户流失预测：

特征	标签
最近登录时间、消费次数、客服投诉次数	是否流失

模型通过历史样本学习特征和标签之间的关系，再对新样本做预测。

这里的标签就是答案。

没有标签时，通常就不是监督分类，而可能是聚类等无监督任务。

常见分类模型包括：

初学时不用急着背公式，可以先理解它们都在做一件事：

根据训练数据学出一个分类规则。

分类任务不能只看准确率。

比如欺诈交易识别，真实欺诈样本很少。

如果模型把所有交易都判断为正常，准确率可能很高，但完全没有业务价值。

所以还要看：

评价指标要结合业务风险。

分类任务可以这样理解：

txt

输入样本特征
-> 模型判断类别
-> 输出预测标签

它适合解决“属于哪一类”的问题。

学习分类时，重点不是只会调用模型，而是要理解标签、特征、评价指标和业务目标之间的关系。

加载评论中...