​本文摘自电子工业出版社《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》。

SPSS中有多个模块中的多个指标反映变量间相关或关联程度,现简单介绍如下:

一、相关分析有关统计量及意义

(一)两个计量资料的相关分析

1、Pearson 相关系数

最常用的相关系数,又称积差相关系数,该系数的计算和检验为参数方法。r介于-1与1之间,r的正负值表示两变量之间线性关系的方向,即r>0为正相关、r<0为负相关、r=0为零相关。r的绝对值大小则表示两变量之间线性相关的密切程度,|r|越接近0,说明密切程度越低。r=0时,也可能会存在非线性关系,可通过散点图来确定。Pearson相关系数不适合描述两变量的非线性关系。适用条件如下:

(1)两变量呈直线相关关系,如果是曲线相关可能不准确。

(2)极端值会对结果造成较大的影响。

(3)两变量符合双变量联合正态分布。
2、Spearman 等级相关系数

可用于描述两个等级变量间关联程度与方向,其相关系数用rs表示。这类方法对原变量的分布不作要求,属于非参数统计方法,可用于不服从正态分布或不知道总体分布类型的连续性数据、结果不能用具体数字表示、半定量数据或等级资料的相关分析。检验效能较 Pearson 系数低。Spearman等级相关系数rs,rs介于-1与1之间,即rs>0为正相关、rs<0为负相关、rs=0为零相关。

4、偏相关

偏相关系数(partialcorrelation coefficient)在控制一个或多个附加变量的效应后,描述两变量间线性关系(linear relationship)。

3、距离相关

测量两个连续变量间的相似性(数值越大表示距离越近)或相异性(数值越大表示距离越远)。

4、各种相关矩阵

在SPSS的多个模块中都可以计算各种相关矩阵,如因子分析中,可计算相关矩阵行列式及逆矩阵、包含反影像的再生相关矩阵等。

(二)有序分类(双向有序)资料的相关

两个变量均为有序变量的情况,即双向有序资料。有序分类变量的相关性又称为一致性,即行变量等级高的列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致,均为非参数相关。

1、Kendall相关系数τb

系数符号表示关联方向,绝对值表示关联强度,绝对值越大则表示关联程度越强。系数值介于-1至1之间,但系数值-1和1只能在正方表(square table)中获得。

1、Kendall相关系数τc

系数符号表示关联方向,绝对值表示关联强度,绝对值越大则表示关联程度越强,系数值介于-1至1之间,但系数值-1和1只能在正方表中获得。

3、γ系数

γ法是两个有序变量的相联度量,γ系数G介于-1至1之间,G的绝对值越接近1时,表示两个变量间的关联程度越大,其绝对值越接近0,两变量间的关联程度越小。对于2维交叉表计算零阶γ系数(zero-order Gamma),3维或高维交叉表则计算条件γ系数(conditional gamma)。

4、Somers d统计量

两个有序变量间的相联度量,介于-1至1之间,绝对值接近1时,表示两个变量之间存在紧密的关系,接近0时表示关系很弱或没有关系。

(三)名义(双向无序)资料的相关

对于行变量和列变量均为名义数据(nominal data)(无内在顺序,如工人、农民等)的情况,即双向无序资料,

1、列联系数

属于独立性卡方检验,可用于描述两个分类变量之间的关联程度,系数值介于0至1之间,系数值越接近0,说明两个分类变量几乎没有关系,越接近1,说明关系越密切。

2、Φ系数和Cramer V系数

Φ系数和Cramer V系数均属于独立性卡方检验,可用于描述两个分类变量之间的关联程度,系数值越接近0,说明两个分类变量几乎没有关系,越接近1,说明关系越密切。Φ系数只适用于四格表资料,对于多行多列资料,只能采用Cramer V系数和列联系数。

3、Lambda(λ统计量)

反映用自变量值预测因变量值时误差成比例降低程度的相联度量,1表示自变量能完全地预测因变量,0表示自变量对于预测因变量没有帮助。

4、不确定系数

表示用一个变量值预测其他变量值时,误差成比例降低程度的相联度量,可计算对称或不对称不确定系数。如不确定系数为0.83表示如果知道一个变量值,那么在预测其他变量值时会将误差降低83%。

5、优势比和相对危险度

OR、RR 也是衡量两变量之间的相关程度的指标。

(四)名义资料与计量资料(单向有序)的相关

1、η系数

介于0至1之间的相联度量,0表示行变量(rowvariable)和列变量(columnvariable)间无关联性,接近1表示高度关联。系数适用于因变量为间隔尺度(interval scale)资料(等距资料),如收入等,自变量为有限数字的分类资料(如性别)。

(五)配对二分变量或等级资料的相关

1、Cohen κ系数

内部一致性系数,用于描述同一批研究对象两次定性观测结果的一致性,κ值考虑了机遇因素对一致性的影响。κ值仅可用正方表(m×m)资料,即两个变量具有相同分类值及分类数。κ介于-1至+1之间,一般认为,κ≤0.4,一致性较差;0.4<κ<0.75,一致性较好;κ≥0.75,一致性好,系数值最好接近0.90;κ<0时,一致性比偶然预期的还要弱,不过这种情况很少发生。

2、McNemar检验

二值变量(binary variable)的配对卡方检验。可用于对照组和处理组或实验干预前后的频数或比率是否有差异。配对资料变量的分类分为两类,如“是”或“否”,“阳性”或“阴性”,“有反应”或“无反应”。对于大正方表(R×R表,R≥2)将进行对称性McNemar-Bowker检验(McNemar-Bowker test of symmetry)。

(六)多个变量间的相关

1、Kendall W检验

该方法属于协调分析,W统计量又称协调系数(coefficientof concordance),表示多个指标间相互关联的程度,常用于评价不同评分者评分的一致性程度。每个个案是一名裁判员或评分者,每个变量是被裁判的一个指标或一个人。Kendall W统计量的范围介于0(完全不一致)到1(完全一致)之间。

2、Cochran Q检验

该方法与Friedman检验相同,是McNemar检验向多样本情况的延伸,用于检验完全随机区组设计的二分变量是否具有相同平均值的假设,Cochran’s Q统计量是近似卡方分布的。

(七)两组变量(多个变量与多个变量)间的典型相关

典型相关分析(CanonicalCorrelation Analysis)又称正则相关分析或典则分析,是研究两组指标(变量)间的一种多变量统计分析方法,其目的是寻找一组指标的线性组合与另一组指标的线性组合,使两者之间的相关达到最大(即两组典型变量的相关达最大值)。这两组指标多半是相同研究对象有关系的两组不同指标。这两组典型变量彼此之间的最大相关就是第1个典型相关,而线性组合的系数称为典型相关系数。接着典型相关分析将继续寻找第2组典型变量(与第1组无关联),以生成第2高的相关。典型相关分析会如此重复迭代寻找典型变量,直到配对的典型变量数等于两组原始变量中个数较少的那一个数时才停止。

还有还有,就是时间序列分析中自相关和交叉相关,还有很多很多……,就不再赘述了。