统计学习及监督学习概论

统计学习 statistical learning

  • 构建概率统计模型并运用模型对数据进行预测与分析的学科。

  • 特点

  • 学习定义

  • 统计学习对象: 数据 提取特征,模型,发现知识,对数据分析与预测,基本假设,同类数据有一定统计规律性。

  • 统计学习的分类

    • supervised learning
    • unsupervised learning
    • reinforcement learning
  • 统计学习方法:

  • 统计学习方法步骤

    1. 得到有限的训练数据集合
    2. 保含所有可能的模型的假设空间,即学习模型的集合
    3. 确定模型选择的准则即学习的策略
    4. 实现求解最优模型的算法,即学习的算法
    5. 通过学习方法选择最优模型
    6. 利用学习的最优模型对数据进行预测或分析

监督学习

labled data

本质是学习输入到输出的映射的统计规律。

输入空间、特征空间、输入空间

instance,feature vector,feature space。

问题分类

  • 回归
  • 分类
  • 标注问题
    输入变量与输出变量均为变量序列的预测问题

联合概率分布

理论

假设空间

监督学习的模型可以是概率模型或者非概率模型。有条件概率P(Y/X)或者决策函数(decision function)Y = f(X)表示,随具体学习方法而定。

问题的形式化

Screen-Shot-2020-02-05-at-12.53.56
分为学习和预测两过程。
argmax vs y=f(x)

无监督学习

无标注数据 本质是学习数据中的统计概率或潜在结构。模型对数据聚类,降维,或概率估计。

Screen-Shot-2020-02-05-at-12.54.53

强化学习

智能系统与环境的连续互动中学习最优行为策略的机器学习问题

半监督学习与主动学习

更接近监督学习

new learning

概率模型vs 非概率模型

  • 决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
  • 感知机、支持向量机、k近邻、AdaBoost、潜在语义分析、神经网络
  • 逻辑斯谛回归

相互转换,区别呢?
概率模型的代表概率图模型。如贝叶斯网络、马尔可夫随机场、条件随机场。

线性模型 vs 非线性模型

  • 感知机、线性支持向量机、k近邻、k均值、潜在语义分析
  • 核函数支持向量机、AdaBoost、神经网络(深度学习)

参数化模型 vs 非参数化模型

参数化模型假设模型参数的纬度固定。

  • 感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型
  • 决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

按算法分类 online vs batch learning

online 可以是监督/无监督,强化学习有在线学习的特点。

按技巧分类

贝叶斯学习

  • 朴素贝叶斯
  • 潜在狄利克雷分配

核方法

  • 支持向量机、核PCA、核K均值

统计学习方法三要素

模型

策略

算法

模型评估与选择

正则化与交叉验证

泛化能力

生成模型与判别模型

Webmentions

Loading...

When you post a tweet with a link to this post it will automatically show up here! (refreshed every 30 minutes) 💯

A small favor

Was anything I wrote confusing, outdated, or incorrect? Please let me know! Just write a few words below and I'll be sure to amend this post with your suggestions.

Follow along

If you want to know about new posts, add your email below. Alternatively, you can subscribe with RSS.

More from 格物治用

实践、探索、思考.

View all posts