探索变量间的关系:帮助研究者了解两个变量之间的线性关联。
预测和建模:为建立预测模型提供基础,通过已知变量预测未知变量。
数据筛选:在数据分析的预处理阶段,用于筛选出与研究目标高度相关的变量,排除无关或弱相关变量。
验证假设:在科学研究中,验证关于变量之间关系的假设。
比较不同组数据:比较不同组别中两个变量的相关性是否存在差异。
//////////
【Spearman相关性分析】
定义
一种用于衡量两个变量之间的单调关系(单调递增or单调递减or无单调性)强度和方向(正负)的一种统计分析方法,但不限于线性关系,它基于数据的秩次,计算秩次之间的相关性。
用途
处理不符合正态分布的数据:Spearman相关性分析比Pearson相关性分析更稳健。
分析有序数据:对于有序分类变量(如等级、名次等),Spearman相关性分析能有效评估其相关性。
应对异常值:对数据中的异常值不太敏感,能更准确地反映变量之间的总体关系。
探索非线性关系:可以发现变量之间的单调但非线性的关系。
学科研究应用:在医学、心理学、社会学等领域,常常用于分析各种指标之间的关联。
处理不符合正态分布的数据:Spearman相关性分析比Pearson相关性分析更稳健。
分析有序数据:对于有序分类变量(如等级、名次等),Spearman相关性分析能有效评估其相关性。
应对异常值:对数据中的异常值不太敏感,能更准确地反映变量之间的总体关系。
探索非线性关系:可以发现变量之间的单调但非线性的关系。
学科研究应用:在医学、心理学、社会学等领域,常常用于分析各种指标之间的关联。
2
结合具体案例怎么看?
【Pearson相关性分析】
①横坐标:TCR和RNA模型之间F1分数,是一种常用的评估模型性能的指标
②纵坐标:平均TCR贡献数
③不同颜色散点:6个不同样本组别
④r值和p值的含义:1)r=0.76,Pearson相关系数,两个变量之间具有较强的正线性关系。Pearson系数范围在【-1,1】之间,反映了变量之间的线性关系的强弱和方向。系数绝对值越接近1,则线性关系越强;系数为正,表示正相关;系数为负,表示负相关;系数为0,则表示不存在线性相关关系。2)P=1.26e-6<0.05具有显著的统计学意义,表明这种较强的相关性不太可能是偶然出现的
案例解读
本图说明平均TCR贡献与F1分数之间存在较强的正相关线性关系,即TCR贡献的变化可能会对模型的性能产生较大影响。
//////////
【Spearman相关性分析】
①纵坐标:变量1,NanoString技术检测到的CD3基因表达水平
②横坐标:变量2,IHC免疫组化技术检测出的CD3阳性细胞百分比
③表头:Nanostring技术和免疫组化检测CD3阳性细胞对比;n=54:有54个样本数据量
④R值和P值的含义:1)R=0.84,Spearman相关系数,两个变量之间具有较强的单调递增关系。Spearman相关系数的取值范围在【-1,1】之间。系数接近1,表示两个变量之间存在强单调递增关系;系数接近-1,则相反;系数接近0,表示两个变量之间不存在单调关系。2)P=1.5e-15,具有显著的统计学意义,表明这种较强的相关性不太可能是偶然出现的
案例解读
本图表示NanoString技术检测到的基因表达水平与IHC检测到的CD3阳性细胞百分比之间有较好的一致性。IHC的CD3阳性细胞百分比通常用于评估免疫细胞浸润情况,特别是T细胞的浸润程度。而NanoString技术可以同时检测多个基因的表达水平,提供更全面的基因表达谱信息。因此,两者的相关性提示NanoString技术在检测免疫相关基因表达方面具有一定的潜力,具有临床检测意义。
3
如何确定选用Pearson相关性分析还是Spearman相关性分析?
连续变量、满足线性关系、正态分布,选择Pearson相关性分析最恰当;
上述3条,有任意一条不满足,均必须使用Spearman相关性分析;
当数据为定序数据(有序/等级)的时候,必须使用Spearman相关性分析。
连续变量、满足线性关系、正态分布,选择Pearson相关性分析最恰当;
上述3条,有任意一条不满足,均必须使用Spearman相关性分析;
当数据为定序数据(有序/等级)的时候,必须使用Spearman相关性分析。
4
线性关系和单调关系有何区别?
线性关系是两个变量之间的关系,可以用一条直线表示,变化率恒定;
单调关系是指一个变量增加时,另一个变量始终增加(或始终减少),但变化率可能不恒定,图形可能是直线或者曲线;
所有的线性关系都是单调关系,但并非所有的单调关系都是线性的。
线性关系是两个变量之间的关系,可以用一条直线表示,变化率恒定;
单调关系是指一个变量增加时,另一个变量始终增加(或始终减少),但变化率可能不恒定,图形可能是直线或者曲线;
所有的线性关系都是单调关系,但并非所有的单调关系都是线性的。
5
什么是正态分布?
正态分布指数据样本中大多数数据集中在均值附近,离均值越远数据出现的频率越低。
6
相关性分析中的p值代表什么?
p<0.05——具有显著统计学意义,即可以认为变量之间存在真实的相关关系,不是偶然发生的。
p>0.05——不具有显著统计学意义,变量间的相关性很可能是由于随机因素造成的。
p<0.05——具有显著统计学意义,即可以认为变量之间存在真实的相关关系,不是偶然发生的。
p>0.05——不具有显著统计学意义,变量间的相关性很可能是由于随机因素造成的。
以上就是今天的所有内容啦,继续期待下期【文献读图】的精彩内容吧~
往期推荐
·【文献读图】一文看懂UpSet图!(附详细案例)
·【文献读图】一文读懂生存曲线!(附详细案例)
·【文献读图】一文读懂Co-IP!(附详细案例)
声明:本文提供的部分资料综合整理自网络。如有侵权,请联系我们删除~
数据分析工具不会用?数据挖掘无从下手?
与其花半年自学,磨个1年没结果
不如交给专业团队,最快10天出成果!
基础&临床
数据分析服务
8年服务经验,20000+成功案例
数据分析0失误率,成果真实有效
👇服务答疑环节👇
Q1
服务靠谱吗,分析师是否专业?
团队——「教授级」水平
一流服务团队,来自985/211顶尖院校
深耕医学生物领域,20+数据分析工具手拿把掐
结果——100%真实有效
尊重原始数据,最大程度挖掘有效结果
单位是否认可?放心!绝对认可!
隐私——密上加密
业务开展前期签署保密协议
个人隐私绝对安全
抢发SCI
评职称的要求达到了,心里美滋滋~
即刻咨询,抢占先机👇
Q2
多久能拿结果,数据会泄露吗?
速度比找课题还快!
3天定方案,10天拿结果
加快文章完稿,SCI发表不耽误
数据比锁保险箱里还保险!
正规企业,诚信经营!
数据泄露0发生,100%严格保密!
同事文章都投稿了,你还在犹犹豫豫?
即刻咨询,早定早享受👇
END返回搜狐,查看更多