• 神经网络(九)无监督学习


            有监督学习:建立映射关系 f:x->y

            无监督学习:从无标签的数据中学习有用的模式

    一、聚类

            将样本中相似的样本分配给相同的类/簇

            样本间距/相似性:L1、L2距离;余弦距离;相关系数;汉明距离

            常见的聚类任务:图像分割;文本聚类;社交网络分析

            ①类/簇:可以理解为一组相似的样本,但是并无严格定义

            ②类内间距:样本间最大距离:avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j\leq |C|}d_{ij}

                                  样本间最大距离:dia(C)=\underset{1 \leq i<j\leq|C|}{max}d_{ij}

            ③样本距离:样本间最短距离:D_{pq}=min{d_{ij}|x^{(i)}\in C_p,x^{(j)}\in C_q}

                                  样本均值间距离:D_{pq}=d_{\mu_p \mu_q}

            ④聚类效果评价外部指标

                             JC系数=\frac{\#TP}{\#TP+\#FN+\#FP}        (TP除以总数)

                                         内部指标

     

            1.K均值聚类

                    ①确定K值,随后随机生成K个类中心

                    ②根据点到类中心的距离,将空间划分为K个区域,同一个区域内划分为一个类

                    ③根据划分重新计算每个类的类中心

                    ④由新的类中心重新划分区域,随后重复③、④。直至收敛(类中心不再变化)

                    K均值聚类的目标函数

                            E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2        其中\mu_i为第 i 个簇C_i的均值向量

                    K的选择:K为超参数

                             K↑,平均半径↓。一般选择平缓段的K

                    类中心的初始化:

                            ①大于最小间距随机点\样本点

                            ②K个相互距离最远的样本点

                            ③K个等距网格点

                    优点:实现简单、时间复杂度低

                    缺点:K值的选择、主要适合凸集、初始值影响较大

            2.层次聚类

                    通过计算不同数据点的相似度来创建有层次的嵌套聚类树

                     聚合过程:属于自底向上

                            ①将每个样本分到单独的类

                            ②通过迭代将其相似的不断聚合(计算两两类的距离,将距离最小的两个合并

                     分裂过程:属于自顶向下

                            ①将所有样本划分为同一个类

                            ②通过迭代使其不断分裂(计算两两类的距离,找出两个距离最远的样本a,b,计算其他点到a,b的距离,将其划分到较近<比如dis(a)>的簇中)

                     优点:简单且便于理解

                     缺点:合并点/分裂点难以选择;不能撤销操作;不适合大数据;执行效率低

    二、特征学习

             目的:特征提取、去噪、降维、数据可视化

            1.主成分分析

                    原始数据可能存在的问题:维度过高、冗余性过高(难以学习);可以通过降维的方法解决

                    ①线性投影z=W^Tx

                    ②并满足W^TW=I

                    ③优化准则->最大投影方差:转换后数据的方差最大(尽可能保存原数据信息)

                            投影后的方差:\sigma(X;w)=w^T\sum w

                            目标函数:\underset{w}{max}w^T\sum w+\lambda(1-w^Tw)     对目标函数求导=0可得\sum w=\lambda m

                                          最小重构误差

            2.编码与稀疏编码

                     x=\sum_{m=1}^{M}z_ma_m=Az

                    过完备:基向量个数远大于其支撑空间维度,这种基向量一般不具备独立、正交等性质

                    稀疏编码:原始向量中的特征由少数基向量加权构成

                            L(A,Z)=\sum_{n=1}^N(||x^{(n)}-Az^{(n)}||^2+\eta \rho(z^{(n)}))

                                    \rho为稀疏性衡量函数,\eta是一个超参数,用以控制稀疏性强度

                     交替优化

                     优点:降低后续计算量、可解释行强、便于特征选择

            3.自编码器

                     目标函数:重构错误L=\sum_{n=1}^N||x^{(n)}=f\bigcirc g(x^{(n)})||^2

                    稀疏自编码器:给自编码器的隐藏层单元加上稀疏限制

                            L=\sum_{n=1}^N||x^{(n)}-{x}'^{(n)}||^2+\eta\rho(Z)+\lambda||W||^2

                    降噪自编码器:通过引入噪声来增加编码鲁棒性的自编码器

             4.自监督学习

                    自监督学习依旧是X->Y的映射学习(而非类聚)

                    通过人为对X的扰动,进行学习(比如旋转图像)

    三、密度估计

            1.参数密度估计

                    先假设随机变量服从某种分布,再通过训练样本来估计分布的参数

                    最大似然估计:logp(D;\theta)=\sum_{n=1}^Nlogp(x^{(n)};\theta)

                    存在的问题

                            ①模型选择问题:如何选择密度函数

                            ②不可观测变量问题:难以准确估计数据的真实分布

                            ③维度灾难问题:样本随维度增加而指数增加;样本不足时会出现过拟合

            2.非参数密度估计

                    不假设随机变量服从某种分布,通过样本空间的划分来估计近似数据的概率密度

                    原型公式p(x)\approx \frac{K}{NV}

                            其中:K为落入R中的样本数量;N为训练样本;实质上是由P=\int _Rp(x)dx推导而来

                    ①直方图法

                     ②核密度估计

                     ③K近邻方法

                     优势:非参数密度估计不需要保留整个训练集,便于计算和存储

    四、半监督学习

            1.区别

                    监督学习:提供任务相关的标签(打标签费时费力且数量有限)

                    无监督学习:不用打标签,数量充足(但仅限于特殊任务)

            2.模式

                    自训练

                            先使用监督学习训练模型

                            再使用模型进行分类

                            最后将这个簇标注后混合原来的数据集再次用于模型训练

                    协同训练

                             采用n种不同的方式训练分类器,让这些分类器互相分对方的数据

  • 相关阅读:
    MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s)
    高德Android高性能高稳定性代码覆盖率技术实践
    深入理解CSS之px,em和rem的区别(详解em的特性和细节)
    Kafka源码分析(四) - Server端-请求处理框架
    Apollo 应用与源码分析:Monitor监控-硬件监控-GPS
    抖音热搜榜:探索热门话题,引领潮流新风尚
    JavaScript预备知识
    系统架构设计:7 论企业集成架构设计及应用
    【2023年11月第四版教材】软考高项极限冲刺篇笔记(3)
    Zynq-Linux移植学习笔记之66- 国产ZYNQ通过裕太PHY8521连接国产交换芯片
  • 原文地址:https://blog.csdn.net/weixin_37878740/article/details/126578136