一条龙-T检验+绘制boxplot

1.输入文件：
在这里插入图片描述

2.代码

#title:boxplot-5utr-cds-3tr-ATCG的百分比分布和T检验_封装函数版
rm(list=ls(all=TRUE))
setwd("E:/R/Rscripts/5UTR_ABD_TE")
library(tidyverse)
library(ggplot2)
# library(RColorBrewer)
library(patchwork)
library(dplyr)
library(tidyr)
library(openxlsx)
library(stringr)
dfutr5<- read.table(file="lijinonextended_5utr_ATCG.fasta",na.strings = "#N/A",sep="\t",header = TRUE)
dfcds<- read.table("lijinonextended_cds_ATCG.fasta",na.strings = "#N/A",sep="\t",header = TRUE)
dfutr3<- read.table("lijinonextended_3utr_ATCG.fasta",na.strings = "#N/A",sep="\t",header = TRUE)




reshape_data_frame <- function(df, id_column = NULL) {
  # 如果指定了ID列，则保留ID列，否则只处理核苷酸列
  if (!is.null(id_column)) {
    df_long <- df %>%
      pivot_longer(
        cols = c(A, T, C, G),
        names_to = "nucleotide",
        values_to = "percentage",
        id_cols = id_column  # 保留ID列
      )
  } else {
    df_long <- df %>%
      select(-Sequence_ID) %>%
      pivot_longer(
        cols = c(A, T, C, G),
        names_to = "nucleotide",
        values_to = "percentage"
      )
  }
  
  return(df_long)
}


# 调用函数，转换数据框，假设我们想保留Id列
# reshaped_df <- reshape_data_frame(df, id_column = "Id")
# print(reshaped_df)

# 如果不想保留Id列
dfutr5longer<- reshape_data_frame(dfutr5) %>% mutate(percentage1=percentage/100)
dfcdslonger<- reshape_data_frame(dfcds)%>% mutate(percentage1=percentage/100)
dfutr3longer<- reshape_data_frame(dfutr3)%>% mutate(percentage1=percentage/100)

##############################################
#######定义函数用于T检验
##############################################

perform_all_combinations_T_test <- function(df, group_column, score_column, df_name) {
  # 获取所有唯一的组
  unique_groups <- unique(df[[group_column]])
  
  # 生成所有可能的两两组合
  combinations <- combn(unique_groups, 2, simplify = FALSE)
  
  # 初始化一个空的数据框来存储结果
  results_df <- data.frame(Comparison = character(), 
                           Mean1 = numeric(), 
                           Mean2 = numeric(), 
                           Pvalue = numeric(), 
                           stringsAsFactors = FALSE)
  
  # 遍历每一对组合进行T检验
  for(combination in combinations) {
    group1 <- combination[1]
    group2 <- combination[2]
    
    # 提取两个组的指定Score值
    scores_group1 <- df[[score_column]][df[[group_column]] == group1]
    scores_group2 <- df[[score_column]][df[[group_column]] == group2]
    
    # 确保scores_group1和scores_group2不为空并且都是数值型
    if (length(scores_group1) > 0 && length(scores_group2) > 0 && 
        all(is.numeric(scores_group1)) && all(is.numeric(scores_group2))) {
      
      # 进行T检验
      t_test_result <- t.test(scores_group1, scores_group2)
      
      # 计算两个组的均值
      mean_group1 <- mean(scores_group1, na.rm = TRUE)
      mean_group2 <- mean(scores_group2, na.rm = TRUE)
      
      # 向结果数据框添加一行
      comparison_value <- paste(df_name, group1, "_Vs_", df_name, group2, sep="")
      new_row <- data.frame(Comparison = comparison_value,
                            Mean1 = mean_group1, 
                            Mean2 = mean_group2, 
                            Pvalue = t_test_result$p.value, 
                            stringsAsFactors = FALSE)
      results_df <- rbind(results_df, new_row)
    }
  }
  
  return(results_df)
}


# 调用函数的例子：
result5utr <- perform_all_combinations_T_test(dfutr5longer, "nucleotide", "percentage1", "5utr")
resultcds <- perform_all_combinations_T_test(dfcdslonger, "nucleotide", "percentage1", "cds")
result3utr <- perform_all_combinations_T_test(dfutr3longer, "nucleotide", "percentage1", "3utr")

# # 正确的调用方法
# t.test_result <- t.test(
#   dfutr5longer$percentage1[dfutr5longer$nucleotide == "A"],
#   dfutr5longer$percentage1[dfutr5longer$nucleotide == "T"]
# )
# 
# # 打印测试结果
# print(t.test_result)

###########################################################################
##绘制boxplot-自定义函数
##########################################################################
library(tidyverse)
library(ggplot2)
library(patchwork)

# 更新函数定义以包括x轴标题作为参数
create_grouped_boxplot <- function(data, group_var, score_var, x_label = "5'UTR",
                                   y_label = "Score", y_limits = c(0, 100), y_breaks = seq(0, 100, 20), 
                                   fill_values = c("#c59d94", "#afc7e8", "#dbdb8d", "#ff9896")) {
  data[[group_var]] <- factor(data[[group_var]], 
                              levels = c("A", "T", "C", "G"), 
                              labels = c("A", "U", "C", "G"), 
                              ordered = TRUE)
  
  p <-  ggplot(data, aes(x = .data[[group_var]], y = .data[[score_var]], fill = .data[[group_var]])) +
    # geom_violin(trim=FALSE,color="white") + 
    geom_errorbar(width = 0.1,size = 0.35,position = position_dodge(0.9),stat = "boxplot") +
    geom_boxplot(outlier.size = -1,width = 0.25,position = position_dodge(0.9),fatten = 1.2,size = 0.5) +
    theme_classic() +labs(y = y_label, x = x_label) +
    scale_y_continuous(limits = y_limits, breaks = y_breaks) +
    theme(
      strip.background = element_rect(colour = "black", fill = "#FFFFFF"),
      plot.title = element_text(hjust = 0.5, vjust = 1, lineheight = 1, color = "black"),
      panel.background = element_rect(fill = "white", colour = "black", linewidth  = 0.5),
      axis.title.y = element_text(size = 15, face = "bold", color = "black"),
      axis.title.x = element_text(size = 15, face = "bold", color = "black", vjust = 0.5, hjust = 0.5, margin = margin(t = 12)),
      axis.text = element_text(size = 13, face = "bold", color = "black")
    ) +scale_fill_manual(values = fill_values) +guides(fill = "none")
  
  return(p)
}
p1 <- create_grouped_boxplot(dfutr5longer, "nucleotide", "percentage", x_label = "5'UTR")
p2 <- create_grouped_boxplot(dfcdslonger, "nucleotide", "percentage", x_label = "CDS")
p3 <- create_grouped_boxplot(dfutr3longer, "nucleotide", "percentage", x_label = "3'UTR")
p4<-p1+p2+p3+plot_layout(nrow = 1,ncol = 3)
ggsave("boxplot-5utr-cds-3tr-ATCG的百分比分布和T检验.pdf",plot=p4,width=18,height=8)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156

3.输出结果：
在这里插入图片描述

相关阅读:
git使用小结
 01-Sentinel与spring-cloud的整合
 云原生【Docker】—— 认识 Docker、Docker 与虚拟机对比、Docker 组件
 网络安全—小白学习笔记
 278：vue+openlayer中根据半径、起始角度、中心点绘制弧线
 进程的内容
 深度强化学习第 5 章 SARSA 算法
 基于ASP.NET ZERO，开发SaaS版供应链管理系统
 二十、处理器调度（RR时间片轮转，MLFQ多级反馈队列，CFS完全公平调度器，优先级翻转；多处理器调度）
可用于智能客服的完全开源免费商用的知识库项目
原文地址：https://blog.csdn.net/weixin_44231554/article/details/138218933