《MATLAB 神经网络43个案例分析》：第30章基于随机森林思想的组合分类器设计——乳腺癌诊断

1. 前言
2. MATLAB 仿真示例
3. 小结

1. 前言

《MATLAB 神经网络43个案例分析》是MATLAB技术论坛（www.matlabsky.com）策划，由王小川老师主导，2013年北京航空航天大学出版社出版的关于MATLAB为工具的一本MATLAB实例教学书籍，是在《MATLAB神经网络30个案例分析》的基础上修改、补充而成的，秉承着“理论讲解—案例分析—应用扩展”这一特色，帮助读者更加直观、生动地学习神经网络。

《MATLAB神经网络43个案例分析》共有43章，内容涵盖常见的神经网络（BP、RBF、SOM、Hopfield、Elman、LVQ、Kohonen、GRNN、NARX等）以及相关智能算法（SVM、决策树、随机森林、极限学习机等）。同时，部分章节也涉及了常见的优化算法（遗传算法、蚁群算法等）与神经网络的结合问题。此外，《MATLAB神经网络43个案例分析》还介绍了MATLAB R2012b中神经网络工具箱的新增功能与特性，如神经网络并行计算、定制神经网络、神经网络高效编程等。

近年来随着人工智能研究的兴起，神经网络这个相关方向也迎来了又一阵研究热潮，由于其在信号处理领域中的不俗表现，神经网络方法也在不断深入应用到语音和图像方向的各种应用当中，本文结合书中案例，对其进行仿真实现，也算是进行一次重新学习，希望可以温故知新，加强并提升自己对神经网络这一方法在各领域中应用的理解与实践。自己正好在多抓鱼上入手了这本书，下面开始进行仿真示例，主要以介绍各章节中源码应用示例为主，本文主要基于MATLAB2015b(32位)平台仿真实现，这是本书第三十章基于随机森林思想的组合分类器设计实例，话不多说，开始！

2. MATLAB 仿真示例

打开MATLAB，点击“主页”，点击“打开”，找到示例文件
在这里插入图片描述
选中main.m，点击“打开”

main.m源码如下：

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%功能：基于随机森林思想的组合分类器设计
%环境：Win7，Matlab2015b
%Modi: C.S
%时间：2022-06-20
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%% 基于随机森林思想的组合分类器设计

%% 清空环境变量
clear all
clc
warning off
tic
%% 导入数据
load data.mat
% 随机产生训练集/测试集
a = randperm(569);
Train = data(a(1:500),:);
Test = data(a(501:end),:);
% 训练数据
P_train = Train(:,3:end);
T_train = Train(:,2);
% 测试数据
P_test = Test(:,3:end);
T_test = Test(:,2);

%% 创建随机森林分类器
model = classRF_train(P_train,T_train);

%% 仿真测试
[T_sim,votes] = classRF_predict(P_test,model);

%% 结果分析
count_B = length(find(T_train == 1));
count_M = length(find(T_train == 2));
total_B = length(find(data(:,2) == 1));
total_M = length(find(data(:,2) == 2));
number_B = length(find(T_test == 1));
number_M = length(find(T_test == 2));
number_B_sim = length(find(T_sim == 1 & T_test == 1));
number_M_sim = length(find(T_sim == 2 & T_test == 2));
disp(['病例总数：' num2str(569)...
      '  良性：' num2str(total_B)...
      '  恶性：' num2str(total_M)]);
disp(['训练集病例总数：' num2str(500)...
      '  良性：' num2str(count_B)...
      '  恶性：' num2str(count_M)]);
disp(['测试集病例总数：' num2str(69)...
      '  良性：' num2str(number_B)...
      '  恶性：' num2str(number_M)]);
disp(['良性乳腺肿瘤确诊：' num2str(number_B_sim)...
      '  误诊：' num2str(number_B - number_B_sim)...
      '  确诊率p1=' num2str(number_B_sim/number_B*100) '%']);
disp(['恶性乳腺肿瘤确诊：' num2str(number_M_sim)...
      '  误诊：' num2str(number_M - number_M_sim)...
      '  确诊率p2=' num2str(number_M_sim/number_M*100) '%']);
  
%% 绘图
figure

index = find(T_sim ~= T_test);
plot(votes(index,1),votes(index,2),'r*')
hold on

index = find(T_sim == T_test);
plot(votes(index,1),votes(index,2),'bo')
hold on

legend('错误分类样本','正确分类样本')

plot(0:500,500:-1:0,'r-.')
hold on

plot(0:500,0:500,'r-.')
hold on

line([100 400 400 100 100],[100 100 400 400 100])

xlabel('输出为类别1的决策树棵数')
ylabel('输出为类别2的决策树棵数')
title('随机森林分类器性能分析')


%% 随机森林中决策树棵数对性能的影响
Accuracy = zeros(1,20);
for i = 50:50:1000
    %i
    %每种情况，运行100次，取平均值
    accuracy = zeros(1,100);
    for k = 1:100
        % 创建随机森林
        model = classRF_train(P_train,T_train,i);
        % 仿真测试
        T_sim = classRF_predict(P_test,model);
        accuracy(k) = length(find(T_sim == T_test)) / length(T_test);
    end
     Accuracy(i/50) = mean(accuracy);
end
% 绘图
figure
plot(50:50:1000,Accuracy)
xlabel('随机森林中决策树棵数')
ylabel('分类正确率')
title('随机森林中决策树棵数对性能的影响')
toc
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106

添加完毕，点击“运行”，开始仿真，输出仿真结果如下：

	Setting to defaults 500 trees and mtry=5

病例总数：569  良性：357  恶性：212
训练集病例总数：500  良性：319  恶性：181
测试集病例总数：69  良性：38  恶性：31
良性乳腺肿瘤确诊：36  误诊：2  确诊率p1=94.7368%
恶性乳腺肿瘤确诊：30  误诊：1  确诊率p2=96.7742%



时间已过 622.343231 秒。
1
2
3
4
5
6
7
8
9
10
11

在这里插入图片描述

3. 小结

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出。在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 “Random Forests” 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的"random subspace method"以建造决策树的集合。在视觉机器学习中0讲专栏中也有专门针对随机森林的仿真示例，文末链接可访问。对本章内容感兴趣或者想充分学习了解的，建议去研习书中第三十章节的内容。后期会对其中一些知识点在自己理解的基础上进行补充，欢迎大家一起学习交流。

视觉机器学习20讲-MATLAB源码示例（5）-随机森林（Random Forest）学习算法

相关阅读:
【强化学习】01—— 强化学习简介
 移动端中如何做单位的自适应
 人的本能和本性在游戏里表现无疑
 自然语言处理——英文文本预处理
 java面向对象的内存分析
 Java—类加载机制
 我希望你这辈子都不要专升本
 vector容器中push_back()和emplace_back()函数的区别
 Spring中Autowired注解到底怎么实现的
 WWW‘22 推荐系统论文之多任务与对比学习篇
原文地址：https://blog.csdn.net/sinat_34897952/article/details/125288182

《MATLAB 神经网络43个案例分析》：第30章 基于随机森林思想的组合分类器设计——乳腺癌诊断