• 数据挖掘实验(一)数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】


    一、数据规范化的原理

    数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

    1.1.最小-最大规范化

    1. clear;clc;
    2. A = [78 521 602 2863
    3. 144 -600 -521 2245
    4. 95 -457 468 -1283
    5. 69 596 695 1054
    6. 190 527 691 2051
    7. 101 403 470 2487
    8. 146 413 435 2571];
    9. new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
    10. new_mi = new(1);
    11. new_mx = new(2);
    12. % 计算每列的最小值和最大值
    13. min_vals = min(A);
    14. max_vals = max(A);
    15. % 对每个元素进行最小-最大规范化
    16. normalized_A = (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) + new_mi;;
    17. disp(normalized_A);

    MATLAB支持广播机制的,在进行矩阵运算时,可以自动扩展维度较小的矩阵,使其与维度较大的矩阵相匹配,从而实现逐元素的运算。

    在MATLAB中,要实现广播机制,需要满足以下条件:

    • 运算的两个矩阵相应维度的大小要么相同,要么其中一个为1。
    • 运算符必须是逐元素的运算符,如.*、./、.\、.^等,不能是矩阵乘法*或矩阵除法/。
    • 如果运算的两个矩阵都是列向量或者行向量,那么它们可以直接进行逐元素运算,无需扩展维度。

    disp函数是MATLAB中用于在命令行窗口中显示输出的函数。它可以显示各种类型的数据,包括数字、字符串、矩阵等。 

    1. A = [78 521 602 2863
    2. 144 -600 -521 2245
    3. 95 -457 468 -1283
    4. 69 596 695 1054
    5. 190 527 691 2051
    6. 101 403 470 2487
    7. 146 413 435 2571];
    8. new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
    9. new_mi = new(1);
    10. new_mx = new(2);
    11. B = mapminmax(A',new_mi ,new_mx)';
    12. fprintf("\n经过最小最大规范化后:\n");
    13. disp(B)

    Matlab有一个现成的函数可以实现最小-最大规范化,它就是 mapminmax() 函数

    [Y,PS] = mapminmax(X,YMIN,YMAX)

    其中X是要规范化的矩阵或向量,YMIN和YMAX是指定的区间端点(默认为-1和1),Y是规范化后的矩阵或向量,PS是一个结构体,包含了规范化所用的参数,如最小值、最大值、缩放因子等。如果要对另一个矩阵或向量应用相同的规范化参数,可以使用 mapminmax(‘apply’,X,PS) 函数。

    代码运行结果

    输入的新区间范围为[0,1]:

    1. 原数据:
    2. A =
    3. 78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571
    10. 请输入需要映射到的新区间。输入格式示例:[0,1]
    11. [0,1]
    12. 经过最小最大规范化后:
    13. B =
    14. 0.0744 0.9373 0.9235 1.0000
    15. 0.6198 0 0 0.8509
    16. 0.2149 0.1196 0.8133 0
    17. 0 1.0000 1.0000 0.5637
    18. 1.0000 0.9423 0.9967 0.8041
    19. 0.2645 0.8386 0.8150 0.9093
    20. 0.6364 0.8470 0.7862 0.9296

     1.2零-均值规范化

    1. clear;clc;
    2. %% 数据存入A
    3. A=[78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571];
    10. A_mean=mean(A); % mean求的是每列的均值
    11. A_std=std(A); % std求的是每列的标准差
    12. [n,m]=size(A);
    13. B=(A-A_mean)./A_std;
    14. fprintf("原数据:");
    15. disp(A);
    16. fprintf("经过零均值规范化后:");
    17. disp(B);
    代码运行结果
    1. 原数据:
    2. A =
    3. 78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571
    10. 经过零均值规范化后:
    11. B =
    12. -0.9054 0.6359 0.4645 0.7981
    13. 0.6047 -1.5877 -2.1932 0.3694
    14. -0.5164 -1.3040 0.1474 -2.0783
    15. -1.1113 0.7846 0.6846 -0.4569
    16. 1.6571 0.6478 0.6752 0.2348
    17. -0.3791 0.4018 0.1521 0.5373
    18. 0.6504 0.4216 0.0693 0.5956
    1. clear;clc;
    2. %% 数据存入A
    3. A=[78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571];
    10. B = zscore (A); % 沿每列计算标准差
    11. fprintf("原数据:");
    12. disp(A);
    13. fprintf("经过零均值规范化后:");
    14. disp(B);

    Matlab有一个现成的函数可以实现零-均值规范化,它就是 zscore() 函数1。这个函数可以计算一个数组或向量中元素的标准差,并返回每个元素的 z 分数,即对数据进行中心化和缩放处理,使其均值为 0,标准差为 1。

    1. Z = zscore (X) % 计算X沿第一个非单一维度的标准差
    2. Z = zscore (X,flag) % 指定标准差的类型
    3. Z = zscore (X,flag,'all') % 使用X中所有值的均值和标准差
    4. Z = zscore (X,flag,dim) % 指定沿哪个维度计算
    5. Z = zscore (X,flag,vecdim) % 指定沿多个维度计算
    6. [Z,mu,sigma] = zscore ( ___) % 还返回均值和标准差

     1.3小数定标规范化

    1. clear;clc;
    2. %% 数据存入A
    3. A = [78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571];
    10. mx = max(abs(A)); % 求每列绝对值最大的数mx
    11. len = floor(log10(mx))+1; % 求mx的位数len
    12. B = A ./ (10.^len); % 将A中每个元素除以10^len
    13. fprintf("原数据:\n");
    14. disp(A);
    15. fprintf("经过小数定标规范化:\n");
    16. disp(B);
    代码运行结果
    1. 原数据:
    2. A =
    3. 78 521 602 2863
    4. 144 -600 -521 2245
    5. 95 -457 468 -1283
    6. 69 596 695 1054
    7. 190 527 691 2051
    8. 101 403 470 2487
    9. 146 413 435 2571
    10. 经过小数定标规范化后:
    11. B =
    12. 0.0780 0.5210 0.6020 0.2863
    13. 0.1440 -0.6000 -0.5210 0.2245
    14. 0.0950 -0.4570 0.4680 -0.1283
    15. 0.0690 0.5960 0.6950 0.1054
    16. 0.1900 0.5270 0.6910 0.2051
    17. 0.1010 0.4030 0.4700 0.2487
    18. 0.1460 0.4130 0.4350 0.2571

  • 相关阅读:
    【Redis进阶】Redis单线程模型和多线程模型
    FFmpeg入门详解之11:H264BSAnalyzer简介
    Docker consul的容器服务更新与发现
    无人驾驶(移动机器人)路径规划之RRT与RRTStar算法及其matlab实现
    Vue面试专题终结篇:用大数据给50题重排座次,让学习更高效
    内核实战教程第五期 _ SQL 执行引擎的设计与实现
    JavaScript基础(6)_流程控制语句
    Leetcode2918. 数组的最小相等和
    leetcode473. 火柴拼正方形
    智能车联网安全发展形势、挑战
  • 原文地址:https://blog.csdn.net/qq_62377885/article/details/133522583