本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
分类任务是数据挖掘和机器学习里非常基础的一类问题。 它的目标是根据已有特征,判断一个样本属于哪个类别。
1. 什么是分类
分类就是把对象分到预先定义好的类别里。
比如:
- 邮件是垃圾邮件还是正常邮件。
- 用户是否会流失。
- 商品评论是好评还是差评。
- 图片里是猫还是狗。
- 交易是否存在风险。
这些问题的共同点是:类别是提前知道的。
2. 分类需要什么数据
分类任务通常需要带标签的数据。
比如用户流失预测:
| 特征 | 标签 |
|---|---|
| 最近登录时间、消费次数、客服投诉次数 | 是否流失 |
模型通过历史样本学习特征和标签之间的关系,再对新样本做预测。
这里的标签就是答案。
没有标签时,通常就不是监督分类,而可能是聚类等无监督任务。
3. 常见分类模型
常见分类模型包括:
- 逻辑回归。
- 决策树。
- 随机森林。
- 朴素贝叶斯。
- 支持向量机。
- 神经网络。
初学时不用急着背公式,可以先理解它们都在做一件事:
根据训练数据学出一个分类规则。
4. 分类不只是准确率
分类任务不能只看准确率。
比如欺诈交易识别,真实欺诈样本很少。
如果模型把所有交易都判断为正常,准确率可能很高,但完全没有业务价值。
所以还要看:
- 精确率。
- 召回率。
- F1 值。
- 混淆矩阵。
评价指标要结合业务风险。
5. 小结
分类任务可以这样理解:
txt
输入样本特征
-> 模型判断类别
-> 输出预测标签它适合解决“属于哪一类”的问题。
学习分类时,重点不是只会调用模型,而是要理解标签、特征、评价指标和业务目标之间的关系。
留言板