• R语言入门笔记2.5


    数据预处理

    R语言处理的数据多以数据框的形式出现。

    预备操作

    1. 数据查看
    1. > dim(x)
    2. [1] 16 3 #数据框有16行3列
    3. > names(x) #查看数据框的变量名
    4. [1] "X" "Z" "Y"
    5. > head(x,3) #查看前3行,若为-3则是查看后三行之外的数据
    6. X Z Y
    7. 1 140.1 37.0 2.25
    8. 2 151.5 38.5 3.00
    9. 3 161.2 42.1 3.25
    10. > tail(x,3) #查看后3行,若为-3则是查看前3行之外的数据
    11. X Z Y
    12. 14 149.5 39.7 2.75
    13. 15 159.6 44.5 3.00
    14. 16 162.5 45.0 3.20

    读取数据后可用attach载入数据框,即attach(x),由此可直接用列名,而不需再用$引用

    1. 数据筛选
    1. Which( )函数
    2. > a=c(2,3,4,2,5,1,6,3,2,5,8,5,7,3)   
    3. > which.max(a) #表示a序列中第几个是最大
    4. [1] 11
    5. > which.min(a)
    6. [1] 6
    7. > a[which.max(a)] #先算里面的函数
    8. [1] 8
    9. > which(a==2) #求哪些元素等于2
    10. [1] 1 4 9
    11. > a[which(a==2)]
    12. [1] 2 2 2
    13. > which(a>5)
    14. [1] 7 11 13
    15. > a[which(a>5)]
    16. [1] 6 8 7
    17. x<-read.table("li14.3.txt",header=T)
    18. x$gender[which(x$gender=="f")]="女"
    19. > y <- c(7,7,15,11,9,12,17,12,18,18,14,18,18,
    20. + 19,19,19,25,22,19,23,7,10,11,15,11)
    21. > n <- factor(rep(c("15%","20%","25%","30%","35%"),each=5))
    22. > d <- data.frame(y,n)
    23. > which(d[,2]=="15%") #求出第多少行满足条件
    24. [1] 1 2 3 4 5
    25. > mean(d[which(d[,2]=="15%"),1]) # 对数据框1-5行第1列求均值
    26. [1] 9.8

    修改变量名

    1. > names(x)
    2. [1] "X" "Z" "Y"
    3. > names(x)<-paste("x",1:3,sep="") #由此变量名全部修改
    4. > names(x)
    5. [1] "x1" "x2" "x3"
    6. > names(x)[3]<-"产量" #把第3列的变量名修改为"成绩"
    7. > names(x)
    8. [1] "x1" "x2" "成绩"

    删除变量

    给该变量赋予空值NULL即可,(指从数据集中删除)

    ug$GPA<-NULL

    排序

    1. > x[order(x$成绩),] #按成绩升序排列(默认)
    2. x1 x2 成绩
    3. 1 140.1 37.0 2.25
    4. 8 157.0 37.0 2.25
    5. > x[order(x$成绩,decreasing=T),] #按成绩降序排列
    6. x1 x2 成绩
    7. 7 170.5 54.5 3.50
    8. 3 161.2 42.1 3.25

    缺失值处理

    1. 缺失值识别
    1. > x$x2[3]<-NA
    2. > is.na(head(x$x2,3))
    3. [1] FALSE FALSE TRUE
    1. 缺失值排除
    1. > x_NA<-na.omit(x) #把缺失值所在行排除
    2. > x_NA
    3. x1 x2 成绩
    4. 1 140.1 37.0 2.25
    5. 2 151.5 38.5 3.00
    6. 4 172.8 46.5 3.25

  • 相关阅读:
    vue+vite项目静态文件引用丢失
    内网渗透 Metasploit(MSF)基础使用
    酷快讯:Eminem和Snoop Dogg无聊猿新MV加持后ApeCoin上涨22%
    《算法基础》基础数据结构
    Linux(Centos)服务器探索ffmpeg笔记 (命令行、Nvidia硬件加速、GPU、CPU、CUDA、h264_nvenc、过滤器、加水印)
    Spring高级
    netty websockt之断连重试
    MySQL进阶——存储引擎
    golang Io模型,socket,select
    如何在ubuntu环境下安装postgresql并配置远程访问
  • 原文地址:https://blog.csdn.net/weixin_49148532/article/details/136277218