• 推荐几个细胞注释网站


    细胞注释是单细胞分析中很关键的环节,初期会比较痛苦,做多了才会悟出一些规律。

    我公众号早期写过几篇细胞注释相关的帖子:

    • 单细胞分析实录(7): 差异表达分析/细胞类型注释
    • SingleR如何使用自定义的参考集

    除了写代码,我其实也用过三个不错的网站去辅助单细胞数据的注释,自己用了很长时间,觉得确实不错,所以想推荐给大家。

    不包含CellMarker,主要是我个人觉得它不好用,经常输入一个marker,会出来好几种细胞类型,让人很难选择(也可能是我的用错了?)。比如我输入一个CPA3,它会显示:

    alt

    如果不熟悉这个基因就很难选了。(实际上这是Mast cells很典型的marker基因)

    再后来它的网站打不开,我就没怎么用了。

    下面介绍这三个网站,以一个实际分析中产生的表格为例(细胞类型已经被我mask掉了,能一眼看出来的算老手了,哈哈,那就假装不知道吧)

    alt

    PanglaoDB

    网址:https://panglaodb.se/search.html

    alt

    输入基因名之后(以第一个基因TPSAB1为例),就会出现一些统计信息:

    • 有多少 高表达该基因的cluster被注释成了对应的celltype
    alt
    • 在不同数据集中,该基因表达排名第几(越靠前越好)
    alt

    Enrichr

    网址:https://maayanlab.cloud/Enrichr/

    其实这是一个做富集分析的网站,非常好用。(不过大部分人都只熟悉clusterProfiler)

    我今年才发现这个网站上线了细胞注释的板块,整体不错。细胞注释有一种思路是仿照富集分析来做的,只不过把常用的通路基因集换成了细胞类型marker基因集

    用法很简单,丢进去差异基因就可以了。下面我复制粘贴示例表格的前100个基因(按照avg_log2FC排序,具体数量不固定,一般选几十上百就可以)

    alt

    点击Cell Types

    alt

    它给的参考数据库比较多,需要鉴别一下,这里我只列举了两个参考数据库。

    alt

    CellTypist

    网址:https://www.celltypist.org/

    alt

    用法很简单,按照要求上传文件即可(如果是免疫细胞,其他选项不用改;如果是非免疫细胞,还需要Select Model

    alt

    GitHub上面也有python命令行用法(写得很清楚),一般细胞数多了,我就用命令行去跑,速度也挺快:

    https://github.com/Teichlab/celltypist

    alt

    我个人觉得单细胞软件自动注释的结果好坏更取决于参考集的质量,比起软件本身。第三个工具免疫细胞注释结果比较准,非免疫细胞一般。

    我现在已经不用singleR注释免疫细胞了,主要是这个工具的命令行实在太简单了,基本一两行就OK。


    不管是用啥软件对每个cell自动注释,我都只是作为参考,最终注释会在cluster水平上重新定义。比如cluster0有99%的细胞注释成A,1%的细胞注释成B,若确认只有cluster0高表达A的marker基因(比如画小提琴图;这一步叫手动注释),最终这些细胞都会被注释成A。——(手动、自动相结合的注释策略)


    好啦,先介绍这些,我们下期再见!点击”阅读原文“,可以评论哦~

  • 相关阅读:
    如何开始学习量子机器学习
    使用 Hugging Face 微调 Gemma 模型
    XUbuntu22.04之安装pkg-config(一百九十二)
    LeetCode(力扣)37. 解数独Python
    Talend 用Jave 处理数据转换
    Redis——jedis的string类型使用
    Kubernetes技术与架构-网络 3
    京东滑块验证逆向分析与算法还原
    小游戏《羊了个羊》爆火,如何快速开始微信小程序开发?
    【狂神说Java】linux详解
  • 原文地址:https://blog.csdn.net/qq_38774801/article/details/127767761