• 【机器学习】21天挑战赛学习/论文总结(第二周)


     活动地址:CSDN21天学习挑战赛

    学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:
    想系统/深入学习某技术知识点…
    一个人摸索学习很难坚持,想组团高效学习…
    想写博客但无从下手,急需写作干货注入能量…
    热爱写作,愿意让自己成为更好的人…

    目录

    🚀学习计划

    1,一周学习总结

    2,学习内容

    3,学习时间

    4,学习产出

    🚀学习/论文总结

    1,学习的收获

    1.CONVEX BICLUSTERING摘要

    2.CONVEX BICLUSTERING介绍

    3.双聚类的凸形式

    4.凸函数的定义

    5.COBRA解的性质


    🚀学习计划


    1,一周学习总结

    🔥🔥【机器学习】21天挑战赛学习目标

    1.CONVEX BICLUSTERING摘要

    2.CONVEX BICLUSTERING介绍

    3.双聚类的凸形式

    4.凸公式

    5.COBRA解的性质

    6.COBRA法双簇聚类估计

    2,学习内容

    • CONVEX BICLUSTERING摘要
    • CONVEX BICLUSTERING介绍
    • 双聚类的凸形式
    • 凸公式
    • COBRA解的性质
    • COBRA法双簇聚类估计

    3,学习时间

    晚上8:00开始

    4,学习产出

    💧💧【机器学习】21天挑战赛学习产出
    技术笔记 2篇
    CSDN技术博客 3 篇
    技术总结1篇

    🚀学习/论文总结


    1,学习的收获

    1.CONVEX BICLUSTERING摘要


    首先对于 CONVEX BICLUSTERING做一个描述,CONVEX是凸面的,所以我们很容易就知道CONVEX BICLUSTERING是一个凸双聚类。

    在双聚群问题中,我们寻求同时对观察结果和特征进行分组,虽然聚簇在从文本挖掘到协同过滤的广泛领域都有应用,但在高维基因组数据中识别结构的问题激发了这项工作。

    在这种情况下,双聚簇使我们能够识别仅在实验条件子集内共同表达的基因子集,我们给出了双聚类问题的凸公式(目标函数为凸),它具有唯一的全局最小值和一个保证识别它的迭代算法(COBRA)

    2.CONVEX BICLUSTERING介绍


     在双聚类问题中,我们试图同时对数据矩阵中的观察值(列)和特征(行)进行分组。这种数据有时被描述为双向的,或可转换的,以将行和列放在平等的基础上,并强调在行和列变量中揭示结构的愿望。

    双聚类用于广泛领域的可视化和探索性分析。

    在协同过滤中,它可以用于识别对产品子集有相似偏好的客户子群(霍夫曼和普济查,1999)

    🚀在这项工作中,我们专注于双聚簇来识别高维癌症基因组数据的模式

    🚀亚型发现可以作为一个双聚类问题提出,其中基因表达数据被划分成一个棋盘状的模式

    COBRA输出的结果保留了聚类树图的简单可解释性和可视化,并且与现有技术相比还具有几个关键优势:

    • 稳定性和唯一性:COBRA为凸规划产生唯一的全局最小化,该最小化在数据中是连续的。这意味着COBRA总是将数据映射到单个双聚类分配,并且这个解决方法是稳定的。
    • 简单性:COBRA采用单个调谐参数(a single tuning paramete)来控制双簇的数量;
    • 数据自适应性:COBRA允许一个简单而有原则的数据自适应过程,用于选择涉及凸矩阵完成问题的调整参数。

    3.双聚类的凸形式

    🌈🌈 双聚类的算法

    1.算法简介

           双聚类简单来说就是在数据矩阵A中寻找一个满足条件矩阵B1的子矩阵A1,而B1是条件矩阵B的一个子矩阵.

    2.算法常用的计算模型

           目前定义双聚类算法有四种比较广泛的方式:(括号中为sklearn官网的说法)

    2.1等值模型(常数值,常量行或常量列)

    2.2加法模型(低方差的子矩阵) 

    2.3乘法模型(异常高或低的值) 

    2.4信息共演模型(相关的行或列) 

    3.两种特殊的双聚类结果(sklearn官网有算法的) 

    3.1对角线结构

    3.2棋盘格结构

    4.双聚类的两种算法

            双聚类的算法有很多种,这里只介绍sklearn官网提供的两种算法,也就是上述两种特殊结构的算法。

    4.1光谱联合聚类(Spectral Co-Clustering)

            说明:因为我们不自己动手写算法,所以这里的公式就略过了。

    4.1.1 算法作用

           该算法找到的值高于相应的其他行和列中的值。每行和每列只属于一个双聚类,因此重新排列行和列中的这些高值,使这些分区沿着对角线连续显示。

    4.1.1 主要计算过程

          1)按照数学公式对矩阵进行预处理

          2)对处理后的矩阵进行行和列的划分,之后按照另外一个数学公式生产一个新的矩阵Z

          3)对矩阵Z的每行使用k-means算法

    4.1.2 sklearn中的函数

         1) sklearn.cluster.bicluster. SpectralCoclustering

         2)主要参数(详细参数)

           n_clusters :聚类中心的数目,默认是3

           svd_method:计算singular vectors的算法,‘randomized’(默认) 或 ‘arpack’.

           n_svd_vecs :计算singular vectors值时使用的向量数目

           n_jobs :计算时采用的线程或进程数量

      3)主要属性

           rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r

          columns_:二维数组,表示聚类的结果。

          row_labels_ :每行的聚类标签列表

          column_labels_ :每列的聚类标签列表

    4.2光谱双聚类(Spectral Biclustering)

    4.2.1 算法作用

          该算法假定输入的数据矩阵具有隐藏的棋盘结构,因此可以对其中的行和列进行划分,使得行簇和列簇的笛卡尔积中的任何双聚类的条目近似恒定。例如,如果有两个行分区和三个列分区,则每行将属于三个双聚集,而每列将属于两个双聚集。

          该算法对矩阵的行和列进行划分,使相应的blockwise-constant棋盘格矩阵能够很好地逼近原始矩阵。

    4.2.2 主要计算过程

         1)对矩阵进行归一化

         2)计算前几个singular vectors 值(奇异向量?总感觉这么翻译很别扭)

         3)根据这些singular vectors值进行排序,使其可以更好的通过piecewise-constant向量进行近似表示

        4) 使用一维k均值找到每个向量的近似值,并使用欧几里德距离进行评分

        5) 选择最佳左右singular vectors的一些子集

        6) 将数据投影到这个singular vectors的最佳子集并聚集

    4.2.3 sklearn中的函数

         1) sklearn.cluster.bicluster.SpectralBiclustering

         2)主要参数(详细参数)

           n_clusters :单个数值或元组,棋盘结构中的行和列聚集的数量

           method:把singular vectors值归一化并转换成biclusters的方法。默认值是‘bistochastic’。

        3)主要属性

           rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r

          columns_:二维数组,表示聚类的结果。

          row_labels_ :每行的分区标签列表

          column_labels_ :每列的分区标签列表

    这一部分为网上数据资料,仅供参考~~


    4.凸函数的定义

    对于一元函数f(xf(x),如果对于任意tϵ[0,1]均满足:f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2),则称f(x)f(x)为凸函数。

    同时如果对于任意tϵ(0,1))均满足:f(tx1+(1−t)x2)  

    凸函数的性质:

    定义在某个开区间C内的凸函数f在C内连续,且在除可数个点之外的所有点可微。如果C是闭区间,那么f有可能在C的端点不连续。

    一元可微函数在某个区间上是凸的,当且仅当它的导数在该区间上单调不减。一元连续可微函数在区间上是凸的,当且仅当函数位于所有它的切线的上方:对于区间内的所有x和y,都有f(y)>f(x)+f '(x)(y−x)。特别地,如果f '(c)= 0,那么c是f(x)的最小值。

    5.COBRA解的性质

    Cobra 既是一个可以创建强大的现代 CLI 应用程序的库,也是一个可以生成应用和命令文件的程序。有许多大型项目都是用 Cobra 来构建应用程序的,例如 Kubernetes、Docker、etcd、Rkt、Hugo 等。

    ​ Cobra 建立在 commands、arguments 和 flags 结构之上。commands 代表命令,arguments 代表非选项参数,flags 代表选项参数(也叫标志)。一个好的应用程序应该是易懂的,用户可以清晰地知道如何去使用这个应用程序。应用程序通常遵循如下模式:APPNAME VERB NOUN --ADJECTIVE或者APPNAME COMMAND ARG --FLAG,例如:

    kubectl get pod --all-namespace # get 是一个命令,pod 是一个非选项参数,all-namespace 是一个选项参数
    

    这里,VERB 代表动词,NOUN 代表名词,ADJECTIVE 代表形容词

    1、使用 Cobra 库创建命令

    ​ 如果要用 Cobra 库编码实现一个应用程序,需要首先创建一个空的 main.go 文件和一个 rootCmd 文件,之后可以根据需要添加其他命令。具体步骤如下:

    1.1、创建 rootCmd。

    mkdir -p newApp2 && cd newApp2
    

    通常情况下,我们会将 rootCmd 放在文件 cmd/root.go 中。

    1. var rootCmd = &cobra.Command{
    2. Use: "newApp2",
    3. Short: "newApp2 is a demo project",
    4. Long: `newApp2 is a demo project...`,
    5. Run: func(cmd *cobra.Command, args []string) {
    6. cmd.Help()
    7. },
    8. }
    9. func Execute() {
    10. if err := rootCmd.Execute(); err != nil {
    11. fmt.Println(err)
    12. os.Exit(1)
    13. }
    14. }

    还可以在 init() 函数中定义标志和处理配置,例如 cmd/root.go。

    1. import (
    2. "fmt"
    3. "os"
    4. homedir "github.com/mitchellh/go-homedir"
    5. "github.com/spf13/cobra"
    6. "github.com/spf13/viper"
    7. )
    8. var (
    9. cfgFile string
    10. projectBase string
    11. userLicense string
    12. )
    13. func init() {
    14. cobra.OnInitialize(initConfig)
    15. rootCmd.PersistentFlags().StringVar(&cfgFile, "config", "", "config file (default is $HOME/.cobra.yaml)")
    16. rootCmd.PersistentFlags().StringVarP(&projectBase, "projectbase", "b", "", "base project directory eg. github.com/spf13/")
    17. rootCmd.PersistentFlags().StringP("author", "a", "YOUR NAME", "Author name for copyright attribution")
    18. rootCmd.PersistentFlags().StringVarP(&userLicense, "license", "l", "", "Name of license for the project (can provide `licensetext` in config)")
    19. rootCmd.PersistentFlags().Bool("viper", true, "Use Viper for configuration")
    20. viper.BindPFlag("author", rootCmd.PersistentFlags().Lookup("author"))
    21. viper.BindPFlag("projectbase", rootCmd.PersistentFlags().Lookup("projectbase"))
    22. viper.BindPFlag("useViper", rootCmd.PersistentFlags().Lookup("viper"))
    23. viper.SetDefault("author", "NAME HERE ")
    24. viper.SetDefault("license", "apache")
    25. }
    26. func initConfig() {
    27. // Don't forget to read config either from cfgFile or from home directory!
    28. if cfgFile != "" {
    29. // Use config file from the flag.
    30. viper.SetConfigFile(cfgFile)
    31. } else {
    32. // Find home directory.
    33. home, err := homedir.Dir()
    34. if err != nil {
    35. fmt.Println(err)
    36. os.Exit(1)
    37. }
    38. // Search config in home directory with name ".cobra" (without extension).
    39. viper.AddConfigPath(home)
    40. viper.SetConfigName(".cobra")
    41. }
    42. if err := viper.ReadInConfig(); err != nil {
    43. fmt.Println("Can't read config:", err)
    44. os.Exit(1)
    45. }
    46. }

    1.2、创建 main.go。
    我们还需要一个 main 函数来调用 rootCmd,通常我们会创建一个 main.go 文件,在 main.go 中调用 rootCmd.Execute() 来执行命令:

    1. package main
    2. import (
    3. "{pathToYourApp}/cmd"
    4. )
    5. func main() {
    6. cmd.Execute()
    7. }

    需要注意,main.go 中不建议放很多代码,通常只需要调用 cmd.Execute() 即可。

    1.3、添加命令。

    ​ 除了 rootCmd,我们还可以调用 AddCommand 添加其他命令,通常情况下,我们会把其他命令的源码文件放在 cmd/ 目录下,例如,我们添加一个 version 命令,可以创建 cmd/version.go 文件,内容为:

    1. package cmd
    2. import (
    3. "fmt"
    4. "github.com/spf13/cobra"
    5. )
    6. func init() {
    7. rootCmd.AddCommand(versionCmd)
    8. }
    9. var versionCmd = &cobra.Command{
    10. Use: "version",
    11. Short: "Print the version number of Hugo",
    12. Long: `All software has versions. This is Hugo's`,
    13. Run: func(cmd *cobra.Command, args []string) {
    14. fmt.Println("Hugo Static Site Generator v0.9 -- HEAD")
    15. },
    16. }

    本示例中,我们通过调用rootCmd.AddCommand(versionCmd)给 rootCmd 命令添加了一个 versionCmd 命令。

    1.44、编译并运行。

    ​ 将 main.go 中{pathToYourApp}替换为对应的路径,例如本示例中 pathToYourApp 为github.com/marmotedu/gopractise-demo/cobra/newApp2。

    1. $ go mod init github.com/marmotedu/gopractise-demo/cobra/newApp2
    2. $ go build -v .
    3. $ ./newApp2 -h
    4. A Fast and Flexible Static Site Generator built with
    5. love by spf13 and friends in Go.
    6. Complete documentation is available at http://hugo.spf13.com
    7. Usage:
    8. hugo [flags]
    9. hugo [command]
    10. Available Commands:
    11. help Help about any command
    12. version Print the version number of Hugo
    13. Flags:
    14. -a, --author string Author name for copyright attribution (default "YOUR NAME")
    15. --config string config file (default is $HOME/.cobra.yaml)
    16. -h, --help help for hugo
    17. -l, --license licensetext Name of license for the project (can provide licensetext in config)
    18. -b, --projectbase string base project directory eg. github.com/spf13/
    19. --viper Use Viper for configuration (default true)
    20. Use "hugo [command] --help" for more information about a command.

    通过步骤一、步骤二、步骤三,我们就成功创建和添加了 Cobra 应用程序及其命令。

    2、使用标志

    Cobra 可以跟 Pflag 结合使用,实现强大的标志功能。使用步骤如下:

    2.1、使用持久化的标志。

    标志可以是“持久的”,这意味着该标志可用于它所分配的命令以及该命令下的每个子命令。可以在 rootCmd 上定义持久标志:

    rootCmd.PersistentFlags().BoolVarP(&Verbose, "verbose", "v", false, "verbose output")
    

    2.2、使用本地标志。

    也可以分配一个本地标志,本地标志只能在它所绑定的命令上使用:

    rootCmd.Flags().StringVarP(&Source, "source", "s", "", "Source directory to read from")
    

    --source标志只能在 rootCmd 上引用,而不能在 rootCmd 的子命令上引用。
    2.3、将标志绑定到 Viper。

    我们可以将标志绑定到 Viper,这样就可以使用 viper.Get() 获取标志的值。

    1. var author string
    2. func init() {
    3. rootCmd.PersistentFlags().StringVar(&author, "author", "YOUR NAME", "Author name for copyright attribution")
    4. viper.BindPFlag("author", rootCmd.PersistentFlags().Lookup("author"))
    5. }

    2.4、设置标志为必选。

    默认情况下,标志是可选的,我们也可以设置标志为必选,当设置标志为必选,但是没有提供标志时,Cobra 会报错。

    1. rootCmd.Flags().StringVarP(&Region, "region", "r", "", "AWS region (required)")
    2. rootCmd.MarkFlagRequired("region")

    3、非选项参数验证

    ​ 在命令的过程中,经常会传入非选项参数,并且需要对这些非选项参数进行验证,Cobra 提供了机制来对非选项参数进行验证。可以使用 Command 的 Args 字段来验证非选项参数。Cobra 也内置了一些验证函数:

    • NoArgs:如果存在任何非选项参数,该命令将报错。
    • ArbitraryArgs:该命令将接受任何非选项参数。
    • OnlyValidArgs:如果有任何非选项参数不在 Command 的 ValidArgs 字段中,该命令将报错。
    • MinimumNArgs(int):如果没有至少 N 个非选项参数,该命令将报错。
    • MaximumNArgs(int):如果有多于 N 个非选项参数,该命令将报错。
    • ExactArgs(int):如果非选项参数个数不为 N,该命令将报错。
    • ExactValidArgs(int):如果非选项参数的个数不为 N,或者非选项参数不在 Command 的 ValidArgs 字段中,该命令将报错。
    • RangeArgs(min, max):如果非选项参数的个数不在 min 和 max 之间,该命令将报错。

    使用预定义验证函数,示例如下:

    1. var cmd = &cobra.Command{
    2. Short: "hello",
    3. Args: cobra.MinimumNArgs(1), // 使用内置的验证函数
    4. Run: func(cmd *cobra.Command, args []string) {
    5. fmt.Println("Hello, World!")
    6. },
    7. }

    当然你也可以自定义验证函数,示例如下:

    1. var cmd = &cobra.Command{
    2. Short: "hello",
    3. // Args: cobra.MinimumNArgs(10), // 使用内置的验证函数
    4. Args: func(cmd *cobra.Command, args []string) error { // 自定义验证函数
    5. if len(args) < 1 {
    6. return errors.New("requires at least one arg")
    7. }
    8. if myapp.IsValidColor(args[0]) {
    9. return nil
    10. }
    11. return fmt.Errorf("invalid color specified: %s", args[0])
    12. },
    13. Run: func(cmd *cobra.Command, args []string) {
    14. fmt.Println("Hello, World!")
    15. },
    16. }

    4、PreRun and PostRun Hooks

    在运行 Run 函数时,我们可以运行一些钩子函数,比如 PersistentPreRun 和 PreRun 函数在 Run 函数之前执行,PersistentPostRun 和 PostRun 在 Run 函数之后执行。如果子命令没有指定PersistentRun函数,则子命令将会继承父命令的PersistentRun函数。这些函数的运行顺序如下:

    1、PersistentPreRun

    2、PreRun

    3、Run

    4、PostRun

    5、PersistentPostRun

    注意,父级的 PreRun 只会在父级命令运行时调用,子命令是不会调用的。

    Cobra 还支持很多其他有用的特性,比如:自定义 Help 命令;可以自动添加--version标志,输出程序版本信息;当用户提供无效标志或无效命令时,Cobra 可以打印出 usage 信息;当我们输入的命令有误时,Cobra 会根据注册的命令,推算出可能的命令,等等。


  • 相关阅读:
    【快速上手系列】使用MD5加密对密码进行加密
    150:vue+openlayers 多边形拐点用不同形状表示(圆形、三角形、矩形、正方形、星形...)
    无涯教程-Flutter - 安装步骤
    浅析重复线性渐变repeating-linear-gradient如何使用
    Java中的字符串转换工具类:StringUtils.camelToUnderline 方法详解
    读博准备路线图
    nginx代理无法访问后端服务
    吹爆,这份有思路有案例能落地的SpringCloud开发笔记
    学习如何读论文的一些磨刀不误砍柴工
    class的基本用法
  • 原文地址:https://blog.csdn.net/RL2698853114/article/details/126314577