监督or半监督or无监督-模型训练论坛-模型训练-社区 | AheadAI
幻灯片-社区 | AheadAI
图标卡片
这是一个图标卡片示例
原创作品
这是一个图标卡片示例
灵感来源NEW
这是一个图标卡片示例
系统工具 GO
这是一个图标卡片示例

监督or半监督or无监督

1. 监督学习模型

定义:监督学习使用标注数据进行训练,即每个输入样本都对应一个已知的正确输出(标签)。模型的目标是学习输入与输出之间的映射关系。

优点:

  • 准确性高: 因为使用了标注数据,模型通常能取得高预测性能。
  • 目标明确: 直接优化任务相关的指标(如分类准确率、回归误差)。
  • 收敛快: 由于目标明确,模型的收敛速度通常较快。

缺点:

  • 数据标注成本高: 大量高质量的标签数据通常需要手动生成。
  • 过拟合风险: 如果数据量不足,模型可能记住训练集而不能泛化。

常见模型:

  1. 分类任务:
    • 支持向量机(SVM)
    • 决策树(Decision Tree)
    • 神经网络(如 CNN、RNN、Transformer)
  2. 回归任务:
    • 线性回归(Linear Regression)
    • 支持向量回归(SVR)
    • 随机森林回归

2. 半监督学习模型

定义:
半监督学习同时使用 少量有标签数据大量无标签数据 进行训练。它试图通过无标签数据补充学习信息,从而提高模型性能。

优点:

  • 降低标注成本: 只需少量有标签数据即可启动训练,节省人工成本。
  • 充分利用无标签数据: 在许多实际场景中,无标签数据丰富且容易获取。
  • 改善泛化能力: 借助无标签数据,模型更易捕获数据分布特征。

缺点:

  • 依赖无标签数据质量: 如果无标签数据分布与目标分布差异过大,可能会引入噪声。
  • 算法复杂度较高: 半监督方法通常需要更复杂的训练策略,如生成式模型或一致性正则化。

常见模型:

  1. 生成式方法:
    • 自编码器(Autoencoder)
    • 生成对抗网络(GAN)
  2. 一致性方法:
    • Pi Model
    • Mean Teacher
  3. 图模型:
    • 图神经网络(Graph Neural Networks, GNN)

3. 无监督学习模型

定义:
无监督学习使用未标注的数据进行训练,目标是从数据中发现模式、结构或潜在分布。例如,聚类或降维任务。

优点:

  • 无标签依赖: 无需人工标注,直接利用数据。
  • 探索性强: 适合发现数据隐藏的结构或规律。

缺点:

  • 目标不明确: 没有标签,难以直接衡量任务效果。
  • 应用场景有限: 仅适合某些特定任务(如聚类、降维、密度估计)。
  • 难以评估: 缺乏明确的评估标准。

常见模型:

  1. 聚类:
    • K-means
    • 层次聚类(Hierarchical Clustering)
    • DBSCAN
  2. 降维:
    • 主成分分析(PCA)
    • t-SNE
    • 自编码器(Autoencoder)
  3. 密度估计:
    • 高斯混合模型(GMM)

 

三者的具体区别:

特性 监督学习 半监督学习 无监督学习
训练数据 大量标注数据 少量标注数据 + 大量无标签数据 大量无标签数据
目标 学习输入与输出的映射关系 利用无标签数据改善学习效果 发现数据中的模式和分布
适用场景 分类、回归、目标检测 数据稀缺的分类/回归问题 聚类、降维、密度估计
标注成本
算法复杂度
泛化能力 较强(依赖数据质量) 较强(依赖无标签数据质量) 较弱
模型代表 SVM、神经网络、随机森林 自编码器、Mean Teacher K-means、PCA、t-SNE

 

请登录后发表评论

    没有回复内容