深刻理解r-packet AUcell在单细胞分析中的作用
AUCell可以识别具有活性基因组(如签名、基因模块...)在单细胞RNA序列数据中。AUCell使用曲线下面积(AUC)来计算输入基因集的关键子集是否富含每个细胞的表达基因。所有细胞中AUC分数的分布允许探索特征的相对表达。因为评分方法是基于排名的,所以AUCell不受基因表达单位和标准化程序的影响。此外,由于单元格是单独计算的,因此可以很容易地应用于更大的数据集,并且可以根据需要对表达式矩阵进行分组。
也就是说,AUcell是分析感兴趣的基因集合是否在所有细胞中都有富集。原因很简单。我们来看看主要的分析内容。
AUcell的分析分为三个步骤:
1、建立排名
2、计算曲线下面积(AUC)
3、设置分配阈值
对于每个细胞,基因从最高值到最低值排列。具有相同表达值的基因被改组。因此,表达为“0”的基因随机排列在排序的末尾。重要的是检查大多数细胞至少具有将用于计算AUC(calcAUC()中的aucMaxRank)的表达的d/检测的基因的数量。AUCell_buildRankings()提供的直方图允许快速检查这种分布。plotGeneCount(exprMatrix)允许在构建排名之前仅获取图。
在这个地方,我们可以看到每个基因都是由高到低排序的,也就是说每个细胞中的每个基因都有一个排序,得到一个排序矩阵。
二、什么是ROC曲线?
ROC的全称是“受试者工作特性”曲线。根据学习者的预测结果,我们把阈值从0改为最大值,也就是一开始,我们把每个样本都预测为正例。随着阈值的增加,学习者预测的正样本数量越来越少,直到最后没有正样本。在这个过程中,每次计算两个重要量的值,分别作为横坐标和纵坐标作图,得到“ROC曲线”。
* * ROC曲线纵轴为“真阳性率”(缩写为TPR),横轴为“假阳性率”(缩写为FPR)。* *基于上一篇文章《错误率、精度、召回率和F1测量》表1中的符号,
显示ROC曲线的图形称为ROC图。图1给出了一个示意图。显然,对角线对应的是“随机猜测”模型,而点(0,1)对应的是预测所有正例为真例,所有反例为真反例的“理想模型”。
图1: ROC曲线和AUC面积
在实际任务中,ROC图通常是使用有限数量的测试样本绘制的。此时只能得到有限数量的坐标对(真病例率和假阳性病例率),无法生成图1中平滑的ROC曲线,只能画出图2所示的近似ROC曲线。绘制过程很简单:给定m+个正例,m-个反例,根据学习者的预测结果对样本进行排序,然后将分类阈值设置为最大,即所有样本都作为反例进行预测。此时真采样率和假阳性采样率都为0,在坐标(0,0)处标记一个点。然后依次将分类阈值设置为每个样本的预测值,即依次将每个样本划分为正例。让前一个标记点的坐标为
三、ROC曲线的意义
(1)主要功能
1的曲线。ROC可以很容易地找出任何阈值对学习者泛化性能的影响。
2.选择最佳阈值是有帮助的。ROC曲线越靠近左上角,模型的召回率越高。ROC曲线上最靠近左上角的点是分类错误最少的最佳阈值,假正例和假反例总数最少。
3.你可以比较不同学习者的表现。把每个学习者的ROC曲线画到同一个坐标上,直观的识别出优劣。左上角附近的ROC曲线代表准确率最高的学习者。
(2)优势
1.这种方法简单直观,通过图表可以观察分析方法的准确性,用肉眼即可做出判断。ROC曲线以图形的方式结合了真采样率和假正采样率,能够准确反映某个学习者的真采样率和假正采样率之间的关系,是检测准确率的综合代表。
2.在生物信息学方面的优势:ROC曲线没有固定的阈值,允许中间状态的存在,有利于用户结合专业知识,权衡漏诊和误诊的影响,选择更大的阈值作为诊断参考值。
四、AUC地区的由来
如果两条ROC曲线不相交,我们可以确定哪条曲线最接近左上角,哪条曲线代表学习者的最佳表现。然而,在实际任务中,情况非常复杂。如果两条ROC曲线相交,一般很难断言谁优谁劣。在许多实际应用中,我们常常希望将学习者的表现分成高低两个等级。这里介绍AUC区域。
在比较学习者时,如果一个学习者的ROC曲线被另一个学习者的曲线完全“包裹”,可以断言后者的表现优于前者;如果两个学习者的ROC曲线交叉,一般很难断言孰优孰劣。此时,如果需要比较,比较合理的判断依据是比较ROC曲线下面积,即AUC(ROC曲线下面积),如图1和图2所示。
动词 (verb的缩写)什么是AUC面积?
如图2所示,AUC可以用公式3估算。
不及物动词AUC面积的意义
AUC是衡量二元分类模型优劣的评价指标,表示预测的阳性病例排在阴性病例之前的概率。
看到这里,是不是很费解,根据AUC的定义和计算方法,怎么会和预测的阳性病例排在阴性病例前面的概率有关系呢?从定义和计算方法上很难理解AUC的含义。事实上,AUC与Mann-WhitneyU检验密切相关。从Mann-Whitney Ustatistics的角度来看,AUC就是从所有正样本中随机选取一个样本,从所有负样本中随机选取一个样本,然后根据你的学习者预测两个随机样本,预测正样本为正例的概率是p 1,预测负样本为正例的概率是P2,p 1 >;p 2的概率等于AUC,因此AUC反映了分类器的分类能力。按照这个解释,如果我们完全随机的对样本进行分类,那么AUC应该接近0.5。
此外,值得注意的是,AUC的计算方法考虑了分类器同时对正反例进行分类的能力,在样本不平衡的情况下仍能对分类器做出合理的评价。AUC对样本类别是否平衡并不敏感,这也是不平衡样本通常用AUC来评价学习者表现的一个原因。比如在癌症预测的场景中,假设没有癌症的样本为阳性病例,有癌症的样本为阴性病例,阴性病例的比例很小(约0.1%)。如果所有样本都预测为阳性病例,准确率可以达到99.9%。但是,如果使用AUC,所有样本都被预测为正例,TPR为1,FPR为1。在这种情况下,学习者的AUC值将等于0.5,这成功地避免了样本不平衡带来的问题。
最后我们在讨论:ROC曲线是否可以用来衡量多分类问题下的模型性能?
我的理解:ROC曲线在多分类中没有意义。只有在二元分类中正负同等重要时,ROC曲线才适合评价。如果真的需要在多分类问题中使用ROC曲线,可以转化为多个“一对多”问题。即把其中一个作为正例,其余的作为反例,画出多条ROC曲线。
回到我们信分析的第二步,AUC的计算。
为了确定基因组是否在每个细胞的基因排序顶部富集,AUCell使用了恢复曲线的“曲线下面积”(AUC)。
为了计算AUC,默认情况下仅使用排序中前5%的基因(即检查基因组或签名中的基因是否在前5%内)。这允许在更大的数据集上更快地执行,并减少排名底部的噪声的影响(例如,许多基因可能在0计数处结合)。要考虑的百分比可以用参数aucMaxRank修改。对于大多数细胞表达许多基因的数据集(例如过滤的数据集),或者这些数据集具有高表达值,增加该阈值可能是好的。检查AUCell_buildRankings提供的直方图,以估计该阈值在数据集中的位置。
这里我们深有体会。在对一个细胞进行测序后,我们得到下面的图片:
至于基因集的选择,可以用hallmark来研究肿瘤的特性。