0%

《统计学习方法》笔记(一)

[toc]

统计学习

1.1 统计学习

​ 统计学习(statistical learning)是关于计算机数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科的一门学科,统计学习也成为统计机器学习(statistical machine learning)

1. 统计学习的特点:

  • 建立在计算机及网络上
  • 以数据为研究对象,是数据驱动的学科
  • 目的是对数据进行预测与分析
  • 以方法为中心统计学习方法构建模型并应用模型进行预测与分析
  • 统计学习是概率论,统计学,信息论,计算理论,最优化理论级计算机科学等多个领域的交叉学科,并在发展中逐步形成度独自的理论体系与方法论

    2. 统计学习的方法

    ​ 统计学习基于数据构建概率统计模型从而对数据进行预测和分析.
    ​ 统计学习由 监督学习(superevised learning),无监督学习(unsupervised learning),和加强学习(reinforcement learning)等组成.
    ​ 统计学习方法包括模型的假设空间,模型选择的准则以及模型学习的算法.
    ​ 统称为统计学习方法三要素,简称模型(model),策略(strategy),算法(algorithm)

1.2 统计学习方法分类

1.2.1 基本分类

​ 统计学习方法一般包括监督学习,无监督学习,强化学习.有时候包括半监督学习,
主动学习

1.监督学习

监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题.
​ 监督学习的本质是学习输入到输出的映射的统计规律

输入空间,特征空间和输出空间

​ 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space).输入与输出空间可以是有限元素的集合,也可以是整个欧式空间.输入空间与输出空间可以是同一空间,也可以是不同的空间,但通常输出空间远远小于输入空间
​ 每个具体的输入是一个实例(instance) ,通常由特征向量 (feature vector) 表示。
​ 这时,所有特征向量存在的空间称为特征空间 (feature space) 。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分:有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的.

2.无监督学习

无监督学习(unsupervised learning)是指从无标注数据中许学习预测模型的机器学习问题.无标注数据是自然得到的数据,预测模型表示数据的类别,转换或者概率.无监督学习的本质是是学习数据中的统计规律或潜在结构.

​ 同理,模型的输入和输出为输入空间和输出空间,他们都可以是有限和无限的.
​ 每一个输入是一个实例,由特征向量表示,,每一个输出是对输入的分析结果,由输入的类别,转换或概率.模型可以实现对数据的聚类,降维,概率估计.

3.强化学习

强化学习(reinforcement learning)是指智能系统在与环境的连续互动中许学习最优行为策略的机器学习问题.假设智能系统与环境的互动基于马尔可夫决策过程

​ 强化学习的马尔可夫决策过程是状态,奖励,动作序列上的随机过程,以后五元组<S,A,P,r,γ>组成

  • S 是有限状态(state)的集合

  • A 是有限动作(action)的集合

  • P是状态转移概率(transition probability) 函数:
    $$
    P(s’|s,a)=P(s_t = s’|s_t=s,a_t=a)
    $$

  • r是奖励函数(reward function):
    $$
    r(s,a)=E(r_{t+1}|s_t=s,a_t=a)
    $$

  • γ是衰减系数(discount factor) $γ∈[0,1]$

    未完待续…

4.半监督学习与主动学习

​ 半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高未标注数据的收集不需太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

​ 主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,往 往是随机得到的 ,可以看作是”被动学习” 主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。

1.2.2 按模型分类

1.概率模型与非概率模型

​ 统计学习的模型可以分为概率模型(probabilistic model)和非概率模型(non-probabilistic model)或者确定性模型。

​ 在监督学习中,概率模型取条件概率分布形式$P(y|x)$,非概率模型取函数形式$y=f(x)$,其中x是输入,y是输出。概率模型是生成模型,非概率模型是判别模型。

​ 在无监督学习中,概率模型取条件概率分布形式$P(z|x)$或$P(x|z)$,非概率模型取函数形式$z=g(x)$,其中x是输入,z是输出

​ 所以,概率模型和非概率模型的区别不在于输入与输出之间的映射关系,而在于模型的内在结构。

2.线性模型和非线性模型

​ 统计学习中,特别是非概率模型,可以和非为线性模型(linear model)和非线性模型(non-linear model).如果函数$y=f(x)$或$z=g(x)$是线性函数,则称模型是线性模型,否者称为非线性模型.

深度学习(deep learning)是复杂神经网络的学习,也是复杂的非线性模型的学习

3.参数化模型与非参数化模型

​ 统计学习模型又可以分为参数化模型(parametric model)和非参数化模型(non-parametric model)。参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画:非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

1.2.3 按算法分类

​ 统计学习根据算法,可以分为在线学习 (online learning) 与批量学习 (batch learning) 。在线学习是指每次接受个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。与之对应,批量学习 次接受所有数据,学习模型,之后进行预测。有些实际应用的场景要求学习必须是在线的。比如,数据依次达到无法存储,系统需要及时做出处理数据规模很大,不可能次处理所有数据;数据的模式随时间 动态变化,需要算法快速适应新的模式(不满足独立同分布假设)。 在线学习可以是监督学习,也可以是无监督学习,强化学习本身就拥有在线学习 的特点。以下只考虑在线的监督学习。

1.2.3 按技巧分类

  1. 贝叶斯学习

    ​ 贝叶斯学习(Bayesian learning),又称贝叶斯推理(Bayesian inference)(B站推荐),是统计学习,机器学习钟重要的方法.其主要发想法是在概率模型中的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,级后验概率,并应用这个原理进行模型的估计,以及对数据的预测.将模型,未观测要素级其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点.贝叶斯学习中页使用基本概率公式

    假设随机变量 表示数据,随机变量$\theta$表示模型参数。根据贝叶斯定理,可以用以下公式计算后验概率 $P(\theta|D)$:

    $p(\theta|D)=\frac{P(\theta)P(D|\theta)}{p(D)}$

    其中 $P(D)$ 是先验概率,$ P(D|\theta) $是似然函数。

    $P(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta$

    x为样本

    ​ 贝叶斯估计与极大似然估计在思想上有很大的不同,代表着统计学中频率学派和贝叶斯学派对统计的不同认识。其实,可以简单地把两者联系起来,假设先验分布是均匀分布,取后验概率最大,就能从贝叶斯估计得到极大似然估计。

  2. 核方法

    ​ 核方法 (kernel method) 是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算, 更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范 围更广泛。