神经网络（九）无监督学习

神经网络（九）无监督学习

        有监督学习：建立映射关系 f:x->y

        无监督学习：从无标签的数据中学习有用的模式

一、聚类

        将样本中相似的样本分配给相同的类/簇

样本间距/相似性：L1、L2距离；余弦距离；相关系数；汉明距离

常见的聚类任务：图像分割；文本聚类；社交网络分析

①类/簇：可以理解为一组相似的样本，但是并无严格定义

②类内间距：样本间最大距离： $avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j\leq |C|}d_{ij}$

样本间最大距离： $dia(C)=\underset{1 \leq i<j\leq|C|}{max}d_{ij}$

③样本距离：样本间最短距离： $D_{pq}=min{d_{ij}|x^{(i)}\in C_p,x^{(j)}\in C_q}$

样本均值间距离： $D_{pq}=d_{\mu_p \mu_q}$

④聚类效果评价：外部指标

         JC系数= $\frac{\#TP}{\#TP+\#FN+\#FP}$ （TP除以总数）

     内部指标

1.K均值聚类

①确定K值，随后随机生成K个类中心

②根据点到类中心的距离，将空间划分为K个区域，同一个区域内划分为一个类

③根据划分重新计算每个类的类中心

④由新的类中心重新划分区域，随后重复③、④。直至收敛（类中心不再变化）

K均值聚类的目标函数

                         $E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2$ 其中 $\mu_i$ 为第 i 个簇的均值向量

K的选择：K为超参数。

K↑，平均半径↓。一般选择平缓段的K

类中心的初始化：

①大于最小间距的随机点\样本点

②K个相互距离最远的样本点

③K个等距网格点

优点：实现简单、时间复杂度低

缺点：K值的选择、主要适合凸集、初始值影响较大

2.层次聚类

通过计算不同数据点的相似度来创建有层次的嵌套聚类树

聚合过程：属于自底向上

①将每个样本分到单独的类

②通过迭代将其相似的不断聚合（计算两两类的距离，将距离最小的两个合并）

分裂过程：属于自顶向下

①将所有样本划分为同一个类

②通过迭代使其不断分裂（计算两两类的距离，找出两个距离最远的样本a，b，计算其他点到a,b的距离，将其划分到较近<比如dis(a)>的簇中）

优点：简单且便于理解

缺点：合并点/分裂点难以选择；不能撤销操作；不适合大数据；执行效率低

二、特征学习

目的：特征提取、去噪、降维、数据可视化

1.主成分分析

原始数据可能存在的问题：维度过高、冗余性过高(难以学习)；可以通过降维的方法解决

①线性投影：

②并满足：

③优化准则->最大投影方差：转换后数据的方差最大（尽可能保存原数据信息）

投影后的方差： $\sigma(X;w)=w^T\sum w$

目标函数： $\underset{w}{max}w^T\sum w+\lambda(1-w^Tw)$ 对目标函数求导=0可得 $\sum w=\lambda m$

最小重构误差

2.编码与稀疏编码

                  $x=\sum_{m=1}^{M}z_ma_m=Az$

过完备：基向量个数远大于其支撑空间维度，这种基向量一般不具备独立、正交等性质

稀疏编码：原始向量中的特征由少数基向量加权构成

                         $L(A,Z)=\sum_{n=1}^N(||x^{(n)}-Az^{(n)}||^2+\eta \rho(z^{(n)}))$

                                 $\rho$ 为稀疏性衡量函数， $\eta$ 是一个超参数，用以控制稀疏性强度

交替优化：

优点：降低后续计算量、可解释行强、便于特征选择

3.自编码器

目标函数：重构错误 $L=\sum_{n=1}^N||x^{(n)}=f\bigcirc g(x^{(n)})||^2$

稀疏自编码器：给自编码器的隐藏层单元加上稀疏限制

                         $L=\sum_{n=1}^N||x^{(n)}-{x}'^{(n)}||^2+\eta\rho(Z)+\lambda||W||^2$

降噪自编码器：通过引入噪声来增加编码鲁棒性的自编码器

4.自监督学习

自监督学习依旧是X->Y的映射学习(而非类聚)

通过人为对X的扰动，进行学习（比如旋转图像）

三、密度估计

1.参数密度估计

先假设随机变量服从某种分布，再通过训练样本来估计分布的参数

最大似然估计： $logp(D;\theta)=\sum_{n=1}^Nlogp(x^{(n)};\theta)$

        存在的问题

        ①模型选择问题：如何选择密度函数

        ②不可观测变量问题：难以准确估计数据的真实分布

        ③维度灾难问题：样本随维度增加而指数增加；样本不足时会出现过拟合

2.非参数密度估计

不假设随机变量服从某种分布，通过样本空间的划分来估计近似数据的概率密度

原型公式： $p(x)\approx \frac{K}{NV}$

其中：K为落入R中的样本数量；N为训练样本；实质上是由 $P=\int _Rp(x)dx$ 推导而来

①直方图法

②核密度估计

③K近邻方法

优势：非参数密度估计不需要保留整个训练集，便于计算和存储

四、半监督学习

1.区别

监督学习：提供任务相关的标签（打标签费时费力且数量有限）

无监督学习：不用打标签，数量充足（但仅限于特殊任务）

2.模式

自训练

先使用监督学习训练模型

                        再使用模型进行分类

                        最后将这个簇标注后混合原来的数据集再次用于模型训练

协同训练

采用n种不同的方式训练分类器，让这些分类器互相分对方的数据

相关阅读:
SSM毕业设计管理系统
 STM32CubeMX学习笔记(2)--DSP库的使用
 mybatis小记
 python开发环境安装问题集合
 Kotlin前置检测判断check，require，requireNotNull
1149. 文章浏览 II
mysql(创建和管理表)
TorchDrug教程--预训练的分子表示
 python一键去PDF水印，只需十行代码，超级简单...
【牛客 - 剑指offer】JZ21 调整数组顺序使奇数位于偶数前面(一) 三种方案 Java实现

原文地址：https://blog.csdn.net/weixin_37878740/article/details/126578136

最新文章

攻防演习之三天拿下官网站群
 数据安全治理学习——前期安全规划和安全管理体系建设
 企业安全 | 企业内一次钓鱼演练准备过程
 内网渗透测试 | Kerberos协议及其部分攻击手法
 0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常，环境问题解决方案
 leetcode hot100【LeetCode 279. 完全平方数】java实现
 OpenWrt下安装Mosquitto
AnatoMask论文汇总
 【AI日记】24.11.01 LangChain、openai api和github copilot

热门文章

十款代码表白小特效一个比一个浪漫赶紧收藏起来吧！！！
奉劝各位学弟学妹们，该打造你的技术影响力了！
五年了，我在 CSDN 的两个一百万。
Java俄罗斯方块，老程序员花了一个周末，连接中学年代！
面试官都震惊，你这网络基础可以啊！
你真的会用百度吗？我不信 — 那些不为人知的搜索引擎语法
 心情不好的时候，用 Python 画棵樱花树送给自己吧
 通宵一晚做出来的一款类似CS的第一人称射击游戏Demo！原来做游戏也不是很难，连憨憨学妹都学会了！
13 万字 C 语言从入门到精通保姆级教程2021 年版
 10行代码集2000张美女图，Python爬虫120例，再上征途

一、聚类

1.K均值聚类

2.层次聚类

二、特征学习

1.主成分分析

2.编码与稀疏编码

3.自编码器

4.自监督学习

三、密度估计

1.参数密度估计

2.非参数密度估计

①直方图法

②核密度估计

③K近邻方法

四、半监督学习

1.区别

2.模式