随机森林评价变量重要性可以无条件信任吗？

很多生态环境类的文章会不加思考地利用随机森林对变量的重要性进行评价，似乎随机森林是万金油一般可以解决一切的变量重要性的问题，下面我们可以利用代码说明随机森林的局限之处。

1. 代码思路与实现：

生成三个自变量，x₁, x₂ ,x₃:每个自变量根据正态分布（mean = 0, sd = 1）随机生成100个数值;

x1 <- rnorm(100,mean = 0,sd = 1)
x2 <- rnorm(100,mean = 0,sd = 1)
x3 <- rnorm(100,mean = 0,sd = 1)
1
2
3

根据某一函数规则，将自变量转化为中间变量y₁, y₂, y₃。其中:
$\begin{aligned} &y_1 = 1.2x_1+0.3 \\ &y_2 = -x_2^2 + 0.8x_2 +0.2\\ &y_3=\left\{ \begin{aligned} &0.2 (x_3<0.5)\\ &2x_3+0.2(x_3\geq0.5) \\ \end{aligned}$

y1 <- 1.2*x1+0.3
y2 <- -x2^2 + 0.8*x2 +0.5
y3 <- ifelse(x3<0.5,0.2,2*x3+0.2)
1
2
3

生成最终的因变量： $y = y_1+y_2+y_3$

y=y1+y2+y3
1

2. 自变量与因变量的统计关系

在这里插入图片描述

3. 利用随机森林评价变量重要性

library(randomForest)
rf <- randomForest(y~.,data=df,importance=TRUE,ntree=5000)
importance(rf, scale = TRUE)
1
2
3

在这里插入图片描述
随机森林得到的结果是 $x_3$ 最为重要。 $x_1$ 与 $x_2$ 的作用相差不大。

4. 生成机理的角度： $y_1$ , $y_2$ , $y_3$ 与 $y$ 的关系

cor(y1,y)
[1] 0.4859979
cor(y2,y)
[1] 0.6067846
cor(y3,y)
[1] 0.6012034
1
2
3
4
5
6

可见， $y_2$ 与 $y$ 的相关性最大，联系最为紧密，因此实际上 $x_2$ 对 $y$ 的影响最大，这与随机森林的结果并不一致。

5.统计关系的角度： $R^2$

随机森林得到的结果是 $x_3$ 最为重要，但 $x_3$ 的 $R^2$ 低于 $x_1$ 的 $R^2$ ，与随机森林的结果也不相符。

6. 结论

虽然随机森林被广泛用于评价变量的重要性，但其结果并不一定能反映真实的变量重要性。理解过程的原理（专业知识确定自变量与因变量的函数关系，再利用统计方法来确定参数）依然是重中之重，不能过分依赖机器学习。随机森林可以作为探索数据的重要工具，但不能对其获得的结果无条件信任，或许其它机器学习算法应用于生态环境研究时也有同样的问题。

资源链接：随机森林评价变量重要性可以无条件信任吗？R分析与可视化代码

相关阅读:
文献阅读（44）—— 基于眼底照的近视深度学习算法和区块链平台，以促进人工智能医学研究：回顾性多队列研究
如何使用MATLAB写测试（3）combinatorial explosion? 参数化!
Request body too large. The max request body size is 30000000 bytes.
Android使用glide时报错“ ��: �޷��Fragment Glide.with(getContext()) ^ �Ҳ��and”
高忆管理：突破22万亿！五大保险巨头总资产创历史新高
设计模式——封装
Jmeter 入门从0-1 基础篇-实操
Word控件Spire.Doc 【页面设置】教程(5) 如何在 C# 中删除分页符
WHAT - reflect-metadata
机器学习概述

原文地址：https://blog.csdn.net/weixin_43367441/article/details/126718098