这篇文章在统计学的背景下对机器学习学习建模过程进行了解密。将带你了解如何对数据的假设使我们能够创建有意义的优化问题。事实上,我们将推导出常用的标准,如分类中的交叉熵和回归中的均方误差。
首先,让我们从一个基本问题开始:可能性和概率之间有什么区别?数据 x x x,通过概率 P ( x , θ ) P(x,\theta) P(x,θ)或概率密度函数 (pdf) P ( x , θ ) P(x,\theta) P(x,θ)连接到可能的模型 θ \theta θ 。
简而言之,概率密度函数给出了不同可能数值的发生概率。概率密度函数描述的是任何给定值的无限小的概率。我们在这里坚持使用pdf的符号。对于任何给定的参数集 θ \theta θ , P ( x , θ ) P(x,\theta) P(x,θ)旨在成为 x x x的概率密度函数。
似然 P ( x , θ ) P(x,\theta) P(x,θ)被定义为观察数据的联合密度,作为模型参数的函数。这意味着,对于任何给定的 x x x, p ( x = fixed , θ ) p(x=\operatorname{fixed},\theta) p(x=fixed,θ)可以被看作是 θ \theta θ的函数。因此,似然函数仅是参数 θ \theta θ的函数,数据保持为一个固定的常数。
我们将考虑的情况是,我们将考虑的情况是,我们要处理一个由 m m m个数据实例组成的 X X X集合 X = { x ( 1 ) , . . , x ( m ) } X= \{ \textbf{x}^{(1)}, . . , \textbf{x}^{(m)} \} X={x(1),..,x(m)},遵循经验训练数据分布 p d a t a t r a i n ( x ) = p d a t a ( x ) p_{data}^{train}(\textbf{x}) = p_{data}(\textbf{x}) pdatatrain(x)=pdata(x), p d a t a r e a l ( x ) p_{data}^{real}(\textbf{x}) pdatareal(x)是未知和更广泛数据分布的良好且具有代表性的样本。
这给我们带来了 ML 最基本的假设:独立同分布 (IID) 数据(随机变量)。统计独立性意味着对于随机变量 A 和 B,联合分布 P A , B ( A , B ) P_{A,B}(A,B) PA,B(A,B)
未完待续。。。。。最近比较忙,有空回来继续填坑