这里不介绍Jaccard相似系数的定义了,最简单的例子
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3
那么如果你富集了几百个基因集,然后你想对这几百个基因集进行归类,肯定是根据基因集的相似性归类吧。比如都是3个基因集合,A通路是VIM IDO1 ITGB1 B是CD3 CD4 CD8 C是VIM ITHB1。那么肯定是A和C最像的,不过要怎么证明呢?
- library(GSVA)
- library(GSVAdata)
- library(GSEABase)
- library(limma)
-
-
- kegg <- getGmt("/home/data/ybk/genelist/c2.cp.kegg.v2023.1.Hs.symbols.gmt") ##186 gene sets
- reactome <- getGmt("/home/data/ybk/genelist/c2.cp.reactome.v2023.1.Hs.symbols.gmt") ##1569 gene sets
- var="KEGG_VIRAL_MYOCARDITIS"
- var2="REACTOME_MAPK_FAMILY_SIGNALING_CASCADES"
-
- geneIds(kegg[[var]]) # var="KEGG_VIRAL_MYOCARDITIS" 内的基因
- geneIds(reactome[[var2]])
这里的dat2是如果你有自测数据,那么限定一下你做计算的基因要在你的自测数