2022.8.26 李航老师《统计学习方法》: 一. 统计学习及监督学习概论
本文目的就是为学者简化学习内容,提取我认为的重点 把书读薄
一. 统计学习及监督学习概论
习惯上,输入集合用 X X X, 输出用 Y Y Y;
【老羊理解】
我们可以看成函数 x -> y
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) . . . ( x 100 , y 100 ) } T=\lbrace(x_1,y_1),(x_2,y_2),(x_3,y_3)...(x_{100},y_{100})\rbrace T={(x1,y1),(x2,y2),(x3,y3)...(x100,y100)}
训练数据 我们好比通过100人 来判断是好人坏人,y就是输出
x
(
i
)
x^{(i)}
x(i)表示
x
x
x的第i个特征;
x
=
(
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
i
)
,
.
.
.
,
x
(
n
)
)
T
x=(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})^T
x=(x(1),x(2),...,x(i),...,x(n))T
好比来描述一个人:身高 体重 学历...那么可以分别代表人的第一个特征、第二个特征、第三个特征...
x
(
i
)
x^{(i)}
x(i) 与
x
i
x_i
xi 不同,
x
i
x_i
xi 表示多个输入变量中的第i个变量,即示例中第几个样本(人),如第i个人
x
i
x_i
xi
x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( i ) , . . . , x i ( n ) ) T x_i=(x^{(1)}_i,x^{(2)}_i,...,x^{(i)}_i,...,x^{(n)}_i)^T xi=(xi(1),xi(2),...,xi(i),...,xi(n))T
统计学习或机器学习一般包括监督学习、无监督学习、强化学习,有时还包括半监督学习,主动学习。
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题
标注数据, 也就是训练数据
x都有标记,即y

T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace T={(x1,y1),(x2,y2),...,(xN,yN)}
模型
(1)监督学习的模型可以是概率模型 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或非概率模型决策函数 Y = f ( X ) Y=f(X) Y=f(X);
(2)图中模型:
P
^
(
y
∣
x
)
,
y
=
f
^
(
x
)
\hat P(y|x), y=\hat f(x)
P^(y∣x),y=f^(x) 这种有帽子的是我们训练的模型估算出来的结果;
【老羊理解】
就是有两种呈现模式了:
一种是以概率形式存在的,好比x=3 的前提下,y=1的概率是0.2 y=0条件下 是0.7 其余条件是0.1
第二种是函数形式(非概率)存在 y=f(3)=1
预测系统
(1)在预测过程中,预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} xN+1, 由模型 y N + 1 = a r g m a x y P ^ ( y ∣ x N + 1 ) 或 y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\underset{y}{argmax}\hat P(y|x_{N+1}) 或 y_{N+1}=\hat f(x_{N+1}) yN+1=yargmaxP^(y∣xN+1)或yN+1=f^(xN+1)给出相应的输出 y N + 1 y_{N+1} yN+1。
(2)其中,
y
N
+
1
=
a
r
g
m
a
x
y
P
^
(
y
∣
x
N
+
1
)
y_{N+1}=\underset{y}{argmax}\hat P(y|x_{N+1})
yN+1=yargmaxP^(y∣xN+1) 这个意思就是在
x
N
+
1
x_{N+1}
xN+1输入前提下,输出最大概率的y类别
【老羊理解】
数据`x=3`,属于`0`类的概率为`0.8`;属于`1`类的概率为`0.2`;所以数据`x=3`属于`y=0`类
无标注的数据中学习预测模型的机器学习问题;

无监督学习通常使用大量的 无标注(没有y了) 数据学习或训练,每一个样本是一个实例。训练数据表示为
U
=
{
x
1
,
x
2
,
.
.
.
,
x
N
}
U=\lbrace x_1,x_2,...,x_N\rbrace
U={x1,x2,...,xN}
其中
x
i
,
i
=
1
,
2
,
.
.
.
N
x_i,i=1,2,...N
xi,i=1,2,...N,是样本
模型
(1)每个输出是对输入的分析结果,由输入的类别、转换和概率表示。模型可以实现对数据的聚类、降维或概率估计;
(2)图中类似:
P
^
(
y
∣
x
)
,
y
=
f
^
(
x
)
\hat P(y|x), y=\hat f(x)
P^(y∣x),y=f^(x) 这种有帽子的是通过我们训练的模型估算出来的结果;
(3)模型有,决策函数 Y = g ( X ) Y=g(X) Y=g(X)、条件概率分布 P ( Z ∣ X ) P(Z|X) P(Z∣X)、概率模型估计 P ( X ∣ Z ) P(X|Z) P(X∣Z);
发现数据集 X X X中的 纵向结构,输入空间是 X X X,输出空间为类别集合 Z = { 1 , 2 , . . . , k } Z = \lbrace1,2,...,k\rbrace Z={1,2,...,k}
模型有,决策函数 Y = g ( X ) Y=g(X) Y=g(X)(硬聚类)、条件概率分布 P ( Z ∣ X ) P(Z|X) P(Z∣X)(软聚类);
输入数据
训练数据
X
X
X定义:N个数据,每个数据有M维特征,所以输入矩阵如下:
[
x
1
(
1
)
x
2
(
1
)
.
.
.
x
i
(
1
)
.
.
.
x
N
(
1
)
x
1
(
2
)
x
2
(
2
)
.
.
.
x
i
(
2
)
.
.
.
x
N
(
2
)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
1
(
j
)
x
2
(
j
)
.
.
.
x
i
(
j
)
.
.
.
x
N
(
j
)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
1
(
M
)
x
2
(
M
)
.
.
.
x
i
(
M
)
.
.
.
x
N
(
M
)
]
M
N
聚类的理解:
我们现在有N个数据,如果每个数据一类,那么可以分N类,但现实中往往只是分Z类,Z << N,即聚类了
如图所示,每个数据的M维特征没有丢失,但最后输出,类别少了是Z

数据的横向结构;
模型 Y = g ( X ) Y=g(X) Y=g(X),g可以是线性的,也可以是非线性的
降维的理解:
我们每个数据有M维特征,但有的特征我们没有用,我们把特征减少到Z维,Z < M来降低数据的计算量。

训练数据由一个概率模型生成,由训练数据学习模型的结构和参数
其中x表示观测数据,可以是连续变量也可以是离散变量;
z表示隐式结构,是离散变量;当模型是混合模型时,z表示成分的个数,当模型是概率图模型时,z表示图的结构;
我也不是太理解 听说第二章讲的就是这个 到时候看看
是指智能系统在环境的连续互动中学习最优行为策略的机器学习问题。

在每一步t,观察一个状态(state)St与一个奖励(reward)rt,采取一个动作(action)at.
环境根据智能系统选择的动作,决定下一步t+1的状态
S
t
+
1
S_{t+1}
St+1,奖励
r
t
+
1
r_{t+1}
rt+1,动作
a
t
+
1
a_{t+1}
at+1
策略就是长期积累的奖励最大化。 强化学习过程中,系统不断地试错,最终达到最优策略的目的。
马尔科夫过程:是随机过程的经典代表。这种随机过程为随着时间进行演化的一组随机变量进行建模,假设系统在当前时刻的状态值至于上一时刻的状态值有关,与更早的时刻无关。
<
S
,
A
,
P
,
r
,
γ
>
<S,A,P,r,γ>
S 是有限状态(state)的集合;
A 是有限动作(action)的集合;
P 事状态转移概率函数:
P
(
s
′
∣
s
,
a
)
=
P
(
s
t
+
1
=
s
′
∣
s
t
=
s
,
a
t
=
a
)
P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a)
P(s′∣s,a)=P(st+1=s′∣st=s,at=a):就是t+1时刻的状态s'只与当前状态和动作有关
r r r 奖励函数(reward function) r ( s , a ) = E ( r t + 1 ∣ s t = s , a t = a ) r(s,a)=E(r_{t+1}|s_t = s, a_t = a) r(s,a)=E(rt+1∣st=s,at=a):就是当前状态和动作下,下一步奖励的期望。
【老羊理解,有错请指正】
- 我理解就是比如挖矿,当前位置是`A`,动作a我选向下,r(s,a)就是当前位置我往下走这个动作来到`B`,他有很多种收益情况{上,下,左,右};
-
- 我们看这个A->B 动作的收益,就是求落到B处,多种收益均值的期望

γ \gamma γ 衰减系数(discount factor):范围0~1,就是来 衰减 用的
(1) 价值函数 (value function)或者状态价值函数(state value function): 定义为策略 π \pi π从某一个状态s 开始的长期积累奖励的数学期望:
v π ( s ) = E π [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . ∣ s t = s ] v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma ^2r_{t+3}+...|s_t=s] vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+...∣st=s]
策略 π \pi π 定义为 :给定状态下动作函数 a = f ( s ) a = f(s) a=f(s) 或者条件概率 P ( a ∣ s ) P(a|s) P(a∣s)。
【老羊理解,有错请指正】
比我们从A点找宝藏,有N条路(图中给了3条)

我们从A点出发,往宝藏走。t+1是向下动作 或有一定概率是向下的动作 (1) 和 (6),那么t+2 就是(2)和(7)
A点的价值越低;A点价值就是从A点这个状态出发,之后发生所有一系列动作产生的期望;(2) 动作价值函数 (action value function)定义为: 策略
π
\pi
π的从某一个状态 s 和动作 a 开始长期的累计奖励的数学期望。
q π ( s , a ) = E π [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . ∣ s t = s , a t = a ] q_\pi(s,a)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma ^2r_{t+3}+...|s_t=s,a_t=a] qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+...∣st=s,at=a]
【老羊理解,有错请指正】
我理解就是A已经明确这个 **第一步动作是向右走(11)**,之后怎么走有很多走法,那么这个动作的价值 就是后面所有情况产生的价值期望
(1) 贝叶斯公式
P ( Y i ∣ X ) = P ( Y i , X ) P ( X ) = P ( Y i ) P ( X ∣ Y i ) ∑ j = 1 n P ( Y j ) P ( X ∣ Y j ) P(Y_i|X)=\frac{P(Y_i,X)}{P(X)}=\frac{P(Y_i)P(X|Y_i)}{\sum_{j=1}^nP(Y_j)P(X|Y_j)} P(Yi∣X)=P(X)P(Yi,X)=∑j=1nP(Yj)P(X∣Yj)P(Yi)P(X∣Yi)
理解:https://zhuanlan.zhihu.com/p/558329882
先验概率、
就是知道模型,也就是模型一些参数都知道,能把模型确定下来。
好比知道是正态分布,又知道参数
μ
,
σ
\mu,\sigma
μ,σ,然后得到的概率。
好比:经大数据统计,知道中国男人身高符合正态分布,那么我求一个男人170cm身高的概率,就是先验概率。
后验概率
某数据下模型的条件概率,也就是先知道数据 不知道模型啥样的的概率
好比:我抽了10000个中国成年男性测量身高,那么170cm身高在数剧里占到了20%,那么这个概率就是后验概率。
(2)最大似然估计和贝叶斯估计关系
两者思想上有很大不同,代表两个流派。但也能把两者简单的联系起来。
就是通过核函数公式 K ( x 1 , x 2 ) K(x_1,x_2) K(x1,x2)升维度,让原来二维不能线性分类的数据可线性分类

https://zhuanlan.zhihu.com/p/94614824
https://www.bilibili.com/video/BV1W7411N7Ag?p=4&share_source=copy_web&vd_source=54e0bc84c4ff2601c8e3d9cfa3f1422c