分类

监督/无监督/半监督

  • 监督学习(Supervised Learning)
    监督学习使用带有标签的数据进行训练,模型通过学习输入数据与标签之间的映射关系来预测新的未知数据的标签。
  • 无监督学习(Unsupervised Learning)
    无监督学习使用没有标签的数据,模型试图发现数据中的内在结构或模式。常见任务包括聚类和降维。
  • 半监督学习(Semi-Supervised Learning)
    半监督学习结合了监督学习和无监督学习的特点,使用少量带标签的数据和大量未标记的数据进行训练。

其他

  • 强化学习(Reinforcement Learning)
  • 强化学习是一种基于反馈的学习方法,模型通过与环境交互,根据采取的动作获得奖励或惩罚信号,并据此优化策略以最大化累积奖励。典型应用包括游戏AI、机器人控制等。
  • 深度学习(Deep Learning)
    深度学习是机器学习的一个子领域,主要依赖于神经网络,尤其是深层神经网络,用于处理复杂的数据如图像、语音和文本。常见的模型包括卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等。

机器学习任务

  • 回归(Regression)
    回归任务的目标是预测一个连续值输出,例如房价、气温等。常用的回归算法包括线性回归(Linear Regression)、岭回归(Ridge
    Regression)和决策树回归(Decision Tree Regressor)。
  • 聚类(Clustering)
    聚类是一种无监督学习任务,其目标是将数据划分为具有相似特征的群组。常见的聚类算法包括K均值(K-Means Clustering)、层次聚类(
    Hierarchical Clustering)和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。
  • 分类(Classification)
    分类任务旨在预测离散的类别标签,例如垃圾邮件检测或图像识别。常见算法包括逻辑回归(Logistic Regression)、支持向量机(SVM)
    、随机森林(Random Forest)和神经网络(Neural Networks)。
  • 降维(Dimensionality Reduction)
    降维用于减少输入变量的数量,同时保留尽可能多的信息。典型方法有主成分分析(PCA, Principal Component Analysis)
    和t分布邻域嵌入(t-SNE)。
  • 生成(Generation)
    生成任务旨在创建新的数据实例,例如文本生成、图像生成等。深度学习中的生成对抗网络(GANs, Generative Adversarial Networks)
    和变分自编码器(VAEs, Variational Autoencoders)广泛应用于此类任务。

回归

常见算法

  • 线性回归 (Linear Regression) 建立输入特征与连续输出之间的线性关系模型。
  • 岭回归 (Ridge Regression) 在线性回归基础上加入L2正则化项,防止过拟合。
  • Lasso 回归 (Lasso Regression) 使用L1正则化的线性回归方法,可以进行特征选择。
  • 决策树回归 (Decision Tree Regressor) 基于树结构对数据进行分割,每个叶子节点代表一个预测值。
  • 梯度提升树 (Gradient Boosting Regressor) 如 XGBoost、LightGBM 等,通过迭代优化残差提升模型性能。

聚类

常见算法

  • K均值 (K-Means Clustering) 将数据划分为K个簇,每个簇由离中心最近的数据点组成。
  • 层次聚类 (Hierarchical Clustering) 构建树状结构表示数据的层次化聚类关系,分为凝聚型和分裂型。
  • DBSCAN 基于密度的聚类算法,能够发现任意形状的簇,并识别噪声点。
  • 均值漂移 (Mean Shift) 非参数聚类技术,基于核密度估计寻找数据点的收敛区域。
  • 谱聚类 (Spectral Clustering) 利用图论方法对数据相似性矩阵进行分解实现更复杂的聚类。

分类

常见算法

  • 逻辑回归 (Logistic Regression) 尽管名称中有“回归”,但它实际上是一个分类算法,常用于二分类问题。
  • 支持向量机 (SVM, Support Vector Machine) 通过寻找一个最优超平面来最大化不同类别数据之间的边界,适用于线性与非线性分类。
  • 随机森林 (Random Forest) 基于多个决策树的集成学习方法,通过投票或平均提高预测准确率并减少过拟合。
  • 神经网络 (Neural Networks) 模仿人脑神经结构的模型,特别适合处理高维数据如图像和文本。
  • K近邻算法 (K-Nearest Neighbors, KNN) 基于距离度量进行分类,预测结果依赖于训练集中最近的K个邻居样本。
  • 朴素贝叶斯 (Naive Bayes) 基于贝叶斯定理并假设特征之间相互独立的概率分类器。

本站总访问量