方差分析(前篇)《R语言实战》学习笔记(二十)

作者:分析和应用数据 / 公众号:Data-things 发布时间:2019-01-12

往期回顾
相关--《R语言实战》学习笔记(十四)
t检验和组间差异的非参数检验--《R语言实战》学习笔记(十五)
回归的多面性和OLS回归--《R语言实战》学习笔记(十六)
回归诊断--《R语言实战》学习笔记(十七)
异常观测值--《R语言实战》学习笔记(十八)
修正数据和模型--《R语言实战》学习笔记(十九)
一、术语速成
若观测数相等,则为均衡设计;若观测数不同,则称为非均衡设计。
仅有一个类别型变量,称为单因素方差分析;组内因子,同一组内测量,称为单因素组内方差分析;若不止一次被测量,则称为重复测量方差分析。
因子,称为主效应,交互部分称为交互效应;当包含两个甚至更多的因子时,便是因素方差分析设计,两因子称为双因素方差分析,三因子称为三因素方差分析。包含组内和组间因子,称为混合模型方差分析。
因变量的组间差异,称为混淆因素,若不感兴趣,则称为干扰变数;包含协变量,设计则为协方差分析;当变量不止一个时,则被称为多元方差分析,若协变量也存在,则为多元协方差分析。
二、ANOVA模型拟合
aov()函数
aov()函数的语法为aov(formula,data=dataframe)
R默认类型I(序贯型)方法计算ANOVA效应(顺序很重要!)
y~A+B+A:B 有三种类型的方法可以分解等式右边各效应对y所解释的方差。
类型Ⅰ(序贯型)
效应根据表达式中先出现的效应做调整。A不做调整,B根据A调整,A:B交互根据A和B调整。
类型Ⅱ(分层型)
效应根据同水平或低水平的效应做调整。A根据B调整,B依据A调整,A:B交互项同时根据A和B调整。
类型Ⅲ(边界型)
每个效应根据模型其他各效应做相应调整。A根据B和A:B做调整,A:B交互项根据A和B调整。
R默认调用类型Ⅰ,其他软件(比如SAS和SPSS)默认调用类型Ⅲ方法。
样本大小越不平衡,效应项的顺序对结果的影响越大。一般来说,越基础性的效应越需要放在表达式前面。具体来讲,首先是协变量,然后是主效应,接着是双因素的交互项,再接着是三因素的交互项。
car包中的Anova()函数(不要与标准函数anova()函数混淆)提供了使用类型Ⅱ和Ⅲ方法的选项,而aov()函数使用的是类型Ⅰ的方法。
三、单因素方差分析
gplots包中的plotmeans()可以用来绘制带有置信区间的组均值图形。
3.1 多重比较
TukeyHSD()函数提供了对各组均值差异的成对检验。TukeyHSD()函数与本章使用的HH包存在兼容性问题:若载入HH包,TukeyHSD()函数将会失效。使用detach("package::HH")将它从搜寻路径中删除,然后再调用TukeyHSD().
multcomp包中的glht()函数提供了多重均值比较更为全面的方法,既适用于线性模型,也适用于广义线性模型。有相同字母的组(用箱线图表示)说明均值差异不显著。
3.2 评估检验的假设条件
对于结果的信心依赖于统计检验时数据满足假设条件的程度。单因素方差分析中,我们假设因变量服从正态分布,各组方差相等。
R提供了一些可用来做方差齐性检验的函数。Bartlett检验(bartlett.test()函数),Fligner-Killeen检验(fligner.test()函数),和Brown-Forsythe检验(HH包中的hov()函数)。
方差齐性分析对离群点非常敏感。可利用car包中的outlierTest()函数来检测离群点。
接下来,我们会共同学习方差分析的剩余部分:单因素协方差分析、双因素方差分析、重复测量方差分析、多元方差分析、用回归来做ANOVA.
======长按关注======

关注分析和应用数据微信公众号,获取更多图文精彩内容


其他栏目