协方差分析_范文大全

协方差分析

【范文精选】协方差分析

【范文大全】协方差分析

【专家解析】协方差分析

【优秀范文】协方差分析

范文一:协方差分析 投稿:廖蔉蔊

第一节

协方差分析的意义

协方差分析有二个意义 , 一是对试验进行 统计控制,二是对协方差组分进行估计,现分述 如下。 一、对试验进行统计控制

为了提高试验的精确性和准确性 ,对处 理以外的一切条件都需要采取有效措施严加控 制,使它们在各处理间尽量一致,这叫试验控制。 但在有些情况下,即使作出很大努力也难以使试 验控制达到预期目的。

1

例如:研究几种配合饲料对猪的增重效果,希望 试验仔猪的初始重相同,因为仔猪的初始重不 同,将影响到猪的增重。经研发现:增重与初始 重之间存在线性回归关系。但是,在实际试验中 很难满足试验仔猪初始重相同这一要求。 这时可 利用仔猪的初始重(记为x)与其增重(记为y)的回 归关系,将仔猪增重都矫正为初始重相同时的增 重,于是初始重不同对仔猪增重的影响就消除了。 由于矫正后的增重是应用统计方法将初始重控制 一致而得到的,故叫统计控制。统计控制是试验 控制的一种辅助手段。经过这种矫正,试验误差 2 将减小,对试验处理效应

估计更为准确。若 y 的变异主要由x的不同造成 (处理没有显著效应),则各矫正后的 间将没有 显著差异(但原y间的差异可能是显著的)。若 y的 变异除掉x不同的影响外, 尚存在不同处理的显 著效应,则可期望各 间将有显著差异 (但原y 间差异可能是不显著的)。此外,矫正后的 和 原y的大小次序也常不一致。所以, 处理平均数 的回归矫正和矫正平均数的显著性检验,能够提 高试验的准确性和精确性,从而更真实地反映试 验实际。这种将回归分析与方差分析结合在一 起,对试验数据进行分析的方法,叫做协方差分 3 析(analysis of covariance)。

二、估计协方差组分 在第二章曾介绍过表示两个相关变量线性 相关性质与程度的相关系数的计算公式:

若将公式右端的分子分母同除以自由度 (n-1),得 (3-1)

4

其中 是x的均方MSx,它是x的 方差 的无偏估计量; 是y的均方MSy,它是y的 方差 的无偏估计量;

5

称为x与y的平均的离均差的 乘积和,简称均积,记为MPxy,即

(3-2)

6

与 均 积 相 应 的 总 体参 数 叫 协 方 差(covariance),记为COV(x,y)或 偏估计量,即 EMPxy= COV(x,y)。 于是,样本相关系数r可用均方MSx、MSy, 均积MPxy表示为: (3-3)

7

。统计

学证明了,均积MPxy是总体协方差COV(x,y)的无

相应的总体相关系数ρ可用x与y的总体标 准差 、 ,总体协方差COV(x,y)或 表

示如下: (3-4)

8

均积与均方具有相似的形式 , 也有相似 的性质。在方差分析中,一个变量的总平方和与 自由度可按变异来源进行剖分,从而求得相应的 均方。统计

学已证明:两个变量的总乘积和与自

由度也可按变异来源进行剖分而获得相应的均积。 这种把两个变量的总乘积和与自由度按变异来源 进行剖分并获得获得相应均积的方法亦称为协方 差分析。

9

在随机模型的方差分析中,根据均方MS 和期望均方 EMS的关系, 可以得到不同变异来 源的方差组分的估计值。同样,在随机模型的协 方差分析中,根据均积 MP 和期望均积 EMP 的 关系,可 得 到 不同变异来源的协方差组分的 估计值。有了这些估计值,就可进行相应的总体 相关分析。这些分析在遗传、育种和生态、环保 的研究上是很有用处的。 由于篇幅限制 , 本章只介绍对试验进行 统控制的协方差分析。

10

第二节

单因素试验资料的协方差分析

设有k个处理、n次重复的双变量试验资料, 每处理组内皆有n对观测值x、y,则该资料为具

kn对x、y观测值的单向分组资料,其数据一般

模式如表3-1所示。

11

表3-1 kn对观测值x、y的单向分组资料的 一般形式

12

表3-1的x和y变量的自由度和平方和的剖分参见 单因素试验资料的方差分析方法一节。其乘积和的剖分 则为: 总变异的乘积和SPT是xji与 离均差乘积之和,即: 和yji与 的

(3-5)

=kn-1

13

其中,

14

处理间的乘积和SPt是

的离均差乘积之和乘以n,即: (3-6)

处理内的乘积和SPe是 的离均差乘积之和,即:

(3-7)

15

=k(n-1) 以上是各处理重复数n相等时的计算公 式,若各处理重复数n不相等,分别为n1、 n2、…、nk,其和为 ,则各项乘积和与 自由度的计算公式为:

(3-8)

16

=SPT-SPt = -k =dfT-dft (3-9)

17

有了上述SP和df,再加上x和y的相应SS, 就可进行协方差分析。 【例3.1】 为了寻找一种较好的哺乳仔猪 食欲增进剂,以增进食欲,提高断奶重,对哺乳 仔猪做了以下试验: 试验设对照、配方1、配方 2、配方3共四个处理,重复12 次,选择初始条 件尽量相近的长白种母猪的哺乳仔猪48头 ,完 全随机分为4组进行试验,结果见表3-2,试作分 析。

18

表3-2 不同食欲增进剂仔猪生长情况表

(单位:kg)

19

此例,

=18.25+15.40+15.65+13.85=63.15

=141.80+130.10+144.80+133.80 =550.50 k=4,n=12,kn=4×12=48

20

协方差分析的计算步骤如下: (一)求x变量的各项平方和与自由度 1、总平方和与自由度

SST ( x )  

x

2

2 ij

x   kn

2

2

63.15 2  (1.50  1.85    1.10 )  48 63.15 2  84.8325  48

2

 1.75

dfT(x)=kn-1=4×12-1=47

21

2、处理间平方和与自由度

=k-1=4-1=3

22

3、处理内平方和与自由度

(二)求y变量各项平方和与自由度 1、总平方和与自由度

23

2、处理间平方和与自由度

3、处理内平方和与自由度

(三)

求x和y两变量的各项离均差乘积和与自由度 1、总乘积和与自由度

24

=kn-1=4×12-1=47 2、处理间乘积和与自由度

=1.64

25

=k-1=4-1=3 3、处理内乘积和与自由度

平方和、乘积和与自由度的计算结果列于表3—3。

表3—3 x与y的平方和与乘积和表

26

(四) 对x和y各作方差分析(表3—4) 表3—4 初生重与50日龄重的方差分析表

27

分析结果表明,4种处理的供试仔猪平均初 生重间存在着极显著的差异,其50 日龄平均重 差异不显著。须进行协方差分析,以消除初生重 不同对试验结果的影响,减小试验误差,揭示出 可能被掩盖的处理间差异的显著性。

28

(五) 协方差分析

1、误差项回归关系的分析 误差项回归关系分析的意义是要从剔除处理间差异 的影响的误差变异中找出50日龄重(y)与初生重(x)之间是 否存在线性回归关系。计算出误差项的回归系数并对线性 回归关系进行显著性检验,若显著则说明两者间存在回归 关系。这时就可应用线性回归关系来校正y值(50日龄重) 以消去仔猪初生重(x)不同对它的影响。然后根据校正后 的y值(校正50日龄重)来进行方差分析。如线性回归关系 不显著,则无需继续进行分析。

29

回归分析的步骤如下: (1) 计算误差项回归系数,回归平方和, 离回归平方和与相应的自由度 从误差项的平方和与乘积和求误差项回归 系数: (3-10) 误差项回归平方和与自由度 (3-11)

dfR(e)=1

30

误差项离回归平方和与自由度

=85.08-47.49=37.59 (3-12)

(2) 检验回归关系的显著性(表3—5) 表3—5 哺乳仔猪50日龄重与初生重的 回归关系显著性检验表

31

F 检验表明,误差项回归关系极显著,表明

哺乳仔猪50 日龄重与初生重间存在极显著的线 性回归关系。因此,可以利用线性回归关系来校 正y,并对校正后的y进行方差分析。 2、对校正后的50日龄重作方差分析 (1)求校正后的50日龄重的各项平方和及自由 度 利用线性回归关系对50日龄重作校正 ,并由 校正后的50日龄重计算各项平方和是相当 麻烦 的,统计学已证明,校正后的总平方和、误差平 方和及自由度等于其相应变异项的离回归平方和 及自由度,因此,其各项平方和及自由度可直接 由下述公式计算。

32

① 校正50日龄重的总平方和与自由度,即总离 回归平方和与自由度

(3-13)

= =47-1=46 ② 校正50日龄重的误差项平方和与自由度,即 误差离回归平方和与自由度

(3-14)

= =44-1=43 上述回归自由度均为1,因仅有一个自变量x。

33

③ 校正50日龄重的处理间平方和与自由度 =57.87-37.59=20.28 (3-15) =k-1=4-1=3 (2) 列出协方差分析表,对校正后的50日龄重进 行方差分析(表3—6)

查F值: =4.275(由线性内插法计 算),由于F=7.63> ,P<0.

01,表明对于校正 后的50日龄重不同食欲添加剂配方间存在极显著的差异。 故须进一步检验不同处理间的差异显著性,即进行多重 比较。

34

35

3、根据线性回归关系计算各处理的校正50日 龄平均重 误差项的回归系数 的影响,于是可用 均重计算公式如下: (3-16)

36

表示初生重对50 根据平均初生重的不同

日龄重影响的性质和程度,且不包含处理间差异 来校正每一处理的50日龄平均重。校正50日龄平

公式中: 为第i处理校正50日龄平均重; 为第i处理实际50日龄平均重(见表3—2); 为第i处理实际平均初生重(见表3—2); 为全试验的平均数,

为误差回归系数,

=7.1848

将所需要的各数值代入(3—16)式中,即可计算出 各处理的校正50日龄平均重(见表 3—7)。

37

38

4、各处理校正50日龄平均重间的多重比较 各处理校正50日龄平均重间的多重比较,即各种 食欲添加剂的效果比较。 (1) t检验 检验两个处理校正平均数间的差异 显著性,可应用t检验法: (3-17)

(3-18)

39

式中, 异;

为两个处理校正平均数间的差

为两个处理校正平均数差数标准误; 为误差离回归均方; n为各处理的重复数; 为处理i的x变量的平均数; 为处理j的x变量的平均数; SSe(x)为x变量的误差平方和 例如,检验食欲添加剂配方1与对照校正50日 龄平均重间的差异显著性:

40

=10.3514-12.0758=-1.7244 =37.59/43=0.8742 =1.52,

n=12

=1.28, SSe(x)=0.92

将上面各数值代入(3—18)式得:

于是

41

查t值表,当自由度为43时 (见表3—6误差 自由度),t0.01(43)=2.70 (利用线性内插法计算), |t| >t0.01(43),P<0.01 ,表明对照与食欲添加 剂1号配方校正50日龄平均重间存在着极显著的差 异,这里表现为1号配方的校正50日龄平均重极显 著高于对照。 其余的每两处理间的比较都须另行 算出 ,再进行t检验。

42

(2)最小显著差数法

利用t检验法进行 ,

多重比较,每一次比较都要算出各自的

比较麻烦。当误差项自由度在 20以上,x变量的 变异不甚大(即x变量各处理平均数间差异不显 著),为简便起见,可计算一个平均的 用最小显著差数法进行多重比较。 计算公式如下:

43

采 的

(3-19) 公式中SSt(x)为x变量的处理间平方和。 然后按误差自由度查临界t值,计算出最小显著 差数: (3-20)

44

本例x变量处理平均数间差异极显著,不满足 “x变量的变异不甚大”这一条件 ,不应采用此处 所介绍的最小显著差数法进行多重比较。为了便 于读者熟悉该方法,仍以本例的数据说明之。 此时 由 =43,查临界t值得:

于是

t0.05(43)=2.017,t0.01(43)=2.70 LSD0.05=2.017×0.4353=0.878 LSD0.01 =2.70×0.4353 =1.175

45

不同食欲添加剂配方与对照校正50日龄

平均 重比较结果:

多重比较结果表明: 食欲添加剂配方1、2、3号与对照比较, 其校正50 日龄平均重间均存在极 显 著的差异,这 里 表 现 为 配 方1、2、3号的校正50日龄平均重均极显著高于 对照。

46

(3) 最小显著极差法 当误差自由度在20以上,x变量的变异不甚 大,还可以计算出平均的平均数校正标准 误 ,利用LSR 法进行多重比较。 的计算公式如下:

(3-21)

47

然后由误差自由度

和秩次距k查SSR表

(或q表),计算最小显著极差: (3-22) 对于【例3.1】资料, 由于不满足“x变量 的变异不甚大”这一条件, 不应采用此处所介绍 的LSR法进行多重比较。为了便于熟悉该方法, 仍以【例3.1】的数据说明之。

48

此时

=0.8742,

n=12,

SSt(x)=0.83, SSe(x)=0.92,k=4,代入(10—21)式

可计算得:

SSR值与LSR值见表3—9。

49

50

各处理校正50日龄平均重多重比较

多重比较结果表明: 食欲添加剂配方3、2、1号的哺乳仔猪校正 5 0 日龄平均重极显著高于对照 ,不同食欲添加剂配 方间哺乳仔猪校正50日龄平均重差异不显著。

51

END

52

范文二:协方差分析 投稿:彭镗镘

第十章 协方差分析

第一节 协方差分析的意义

协方差分析有二个意义,一是对试验进行统计控制,二是对协方差组分进行估计,现分述如下。

一、对试验进行统计控制

为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这叫试验控制。但在有些情况下,即使作出很大努力也难以使试验控制达到预期目的。例如:研究几种配合饲料对猪的增重效果,希望试验仔猪的初始重相同,因为仔猪的初始重不同,将影响到猪的增重。经研究发现:增重与初始重之间存在线性回归关系。但是,在实际试验中很难满足试验仔猪初始重相同这一要求。这时可利用仔猪的初始重(记为x)与其增重(记为y)的回归关系,将仔猪增重都矫正为初始重相同时的增重,于是初始重不同对仔猪增重的影响就消除了。由于矫正后的增重是应用统计方法将初始重控制一致而得到的,故叫统计控制。统计控制是试验控制的一种辅助手段。经过这种矫正,试验误差将减小,对试验处理效应估计更为准确。若y的变异主要由x的不同造成(处理没有显著效应),则各矫正后的y间将没有显著差异(但原y间的差异可能是显著的)。若y的变异除掉x不同的影响外,尚存在不同处理的显著效应,则可期望各y间将有显著差异(但原y间差异可能是不显著的)。此外,矫正后的y和原y的大小次序也常不一致。所以,处理平均数的回归矫正和矫正平均数的显著性检验,能够提高试验的准确性和精确性,从而更真实地反映试验实际。这种将回归分析与方差分析结合在一起,对试验数据进行分析的方法,叫做协方差分析(analysis of covariance)。

二、估计协方差组分

在第八章曾介绍过表示两个相关变量线性相关性质与程度的相关系数的计算公式:

r

(x)(y)(x)2(y)2

若将公式右端的分子分母同除以自由度(n-1),得

r

(x)(y)/(n1)(x)(y)

2

2

(10-1)

其中

n1)



n1)

(x)2

n1n1

是x的均方MSx,它是x的方差x的无偏估计量;

y

2

(y)2是y的均方MSy,它是y的方差2的无偏估计量;

197

(x)(y)称为x与y的平均的离均差的乘积和,简称均积,记为MPxy,即

n1

(x)(y)MPxy==

n1

xy

(

x)(y)

n1

(10-2)

与均积相应的总体参数叫协方差(covariance),记为COV(x,y)或xy。统计学证明了,均积MPxy是总体协方差COV(x,y)的无偏估计量,即 EMPxy= COV(x,y)。

于是,样本相关系数r可用均方MSx、MSy,均积MPxy表示为:

r

MPxyMSxMSy

(10-3)

相应的总体相关系数可用x与y的总体标准差x、y,总体协方差COV(x,y)或xy表示如下:



COV(x,y)

xyxy

xy

(10-4)

均积与均方具有相似的形式,也有相似的性质。在方差分析中,一个变量的总平方和与自由度可按变异来源进行剖分,从而求得相应的均方。统计学已证明:两个变量的总乘积和与自由度也可按变异来源进行剖分而获得相应的均积。这种把两个变量的总乘积和与自由度按变异来源进行剖分并获得获得相应均积的方法亦称为协方差分析。

在随机模型的方差分析中,根据均方MS和期望均方EMS的关系,可以得到不同变异来源的方差组分的估计值。同样,在随机模型的协方差分析中,根据均积MP和期望均积EMP的关系,可得到不同变异来源的协方差组分的估计值。有了这些估计值,就可进行相应的总体相关分析。这些分析在遗传、育种和生态、环保的研究上是很有用处的。

由于篇幅限制,本章只介绍对试验进行统控制的协方差分析。

第二节 单因素试验资料的协方差分析

设有k个处理、n次重复的双变量试验资料,每处理组内皆有n对观测值x、y,则该资料为具kn对x、y观测值的单向分组资料,其数据一般模式如表10—1所示。

表10—1的x和y变量的自由度和平方和的剖分参见单因素试验资料的方差分析方法一

198

节。其乘积和的剖分则为:

总变异的乘积和SPT是xij与..和yij与的离均差乘积之和,即:

SPT(xij..)(yij..)xijyij

i1j1

i1j1

k

n

k

n

x..y..

(10-5) kn

dfT=kn-1 其中,x..xi.,y..yi.,..x,y 。

i1

i1

k

k

处理间的乘积和SPt是i.与..和i.与的离均差乘积之和乘以n,即:

1

SPtn(i...)(i.

ni1

k

xi.yi.

i1

k

xi.yi.

(10-6) kn

dftk1 处理内的乘积和SPe是xij与i.和yij与i.的离均差乘积之和,即:

1k

SPe(xiji.)(yiji.)xijyijxi.yi.SPTSPt (10-7)

ni1i1j1i1j1

k

n

k

n

dfe=k(n-1) 以上是各处理重复数n相等时的计算公式,若各处理重复数n不相等,分别为n1、n2、„、nk,其和为

n

i1

k

i

,则各项乘积和与自由度的计算公式为:

SPT

xijyij

i1j1i

kni

xi.yi.

n

i1

k

i

dfT=

n

i1

k

-1 (10-8)

SPt

x.y.x..y..x1.y1.x2.y2.

...kkk

n1n2nk

ni

i1

dftk1

SPe



i1k

k

x.y.x.y.x.y.

xijyij-1122...kk=SPT-SPt

n2nkn1j1

i

ni

dfe=

n

i1

-k =dfT-dft (10-9)

有了上述SP和df,再加上x和y的相应SS,就可进行协方差分析。

【例10.1】 为了寻找一种较好的哺乳仔猪食欲增进剂,以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:试验设对照、配方1、配方2、配方3共四个处理,重复12次,选择初始条件尽量相近的长白种母猪的哺乳仔猪48头,完全随机分为4组进行试验,结果见表10—2,试作分析。

此例,x..x1.x2.x3.x4. =18.25+15.40+15.65+13.85=63.15 y..y1.y2.y3.y4.=141.80+130.10+144.80+133.80=550.50 k=4,n=12,kn=4×12=48

199

协方差分析的计算步骤如下:

(一)求x变量的各项平方和与自由度 1、总平方和及自由度

SST(x)

2xij

x..263.15263.152222(1.501.85...1.10)84.83251.75 kn4848

dfT(x)=kn-1=4×12-1=47

2、处理间平方和与自由度

SSt(x)

1k2x..2163.1522222

xi.(18.2515.4015.6513.85)0.83 ni1kn1248

dft(x)=k-1=4-1=3

3、处理内平方和与自由度

SSe(x)=SST(x)-SSt(x)=1.75-0.83=0.92 dfe(x)=dfT(x)-dft(x)=47-3=44

(二)求y变量各项平方和与自由度

1、总平方和与自由度

SST(y)

2yij

2y..550.52550.52222(12.4012.00...11.00)6410.3196.76 kn4848

dfT(y)=kn-1=4×12-1=47

2、处理间平方和与自由度

SSt(y)

1

n

yi2.

2y..1550.5022222

(141.80130.80144.80133.80)11.68 kn1248

dft(y)=k-1=4-1=3

3、处理内平方和与自由度

SSe(y)=SST(y)-SSt(y)=96.76-11.68=85.08

200

dfe(y)=dfT(y)-dft(y)=47-3=44

(三)求x和y两变量的各项离均差乘积和与自由度 1、总乘积和与自由度

k

n

SPTxijyij

i1j1

x..y..

kn

63.15550.50

412

1.5012.401.8512.00...1.1011.0063.15550.50

732.508.25

412

dfT(x,y)=kn-1=4×12-1=47

2、处理间乘积和与自由度

1kx..y..

SPx.y.iikn t

ni1

163.15550.50

(18.25141.8015.40130.1015.65144.8013.85133.80)

12412=1.64

dft(x,y)=k-1=4-1=3

3、处理内乘积和与自由度 SPe=SPt=8.25-1.64=6.61 T-SP dfe(x,y)=dfT(x,y)-dft(x,y)=47-3=44

平方和、乘积和与自由度的计算结果列于表10—3。

表10—3 x与y的平方和与乘积和表

变异来源 处理间(t) 处理内(误差)(e) 总变异(T)

df 3 44 47

SS

0.83 0.92 1.75

SS

11.68 85.08 96.76

SP

1.64 6.61 8.25

(四)对x和y各作方差分析(表10—4)

分析结果表明,4种处理的供试仔猪平均初生重间存在着极显著的差异,其50 日龄平均重差异不显著。须进行协方差分析,以消除初生重不同对试验结果的影响,减小试验误差,揭示出可能被掩盖的处理间差异的显著性。 (五)协方差分析

1、误差项回归关系的分析 误差项回归关系分析的意义是要从剔除处理间差异的影响的误差变异中找出50日龄重(y)与初生重(x)之间是否存在线性回归关系。计算出误差项的回归系数并对线性回归关系进行显著性检验,若显著则说明两者间存在回归关系。这时就

201

可应用线性回归关系来校正y值(50日龄重)以消去仔猪初生重(x)不同对它的影响。然后根据校正后的y值(校正50日龄重)来进行方差分析。如线性回归关系不显著,则无需继续进行分析。

回归分析的步骤如下:

(1)计算误差项回归系数,回归平方和,离回归平方和与相应的自由度

从误差项的平方和与乘积和求误差项回归系数:

SPe6.61

byx(e)7.1848 (10-10)

SSe(x)0.92 误差项回归平方和与自由度

SSR(e)

SPe26.61247.49 (10-11) SSe(x)0.92

dfR(e)=1

误差项离回归平方和与自由度

SSr(e)=SSe(y)-SSR(e)=85.08-47.49=37.59 (10-12)

dfr(e)=dfe(y)-dfR(e)=44-1=43

(2)检验回归关系的显著性(表10—5)

表10—5 哺乳仔猪50日龄重与初生重的回归关系显著性检验表

变异来源 SS df MS F F0.01 误差回归 47.49 1 47.49 54.32** 7.255 误差离回归 37.59 43 0.8742 误差总和 85.08 44 F检验表明,误差项回归关系极显著,表明哺乳仔猪50 日龄重与初生重间存在极显著的线性回归关系。因此,可以利用线性回归关系来校正y,并对校正后的y进行方差分析。 2、对校正后的50日龄重作方差分析

(1)求校正后的50日龄重的各项平方和及自由度 利用线性回归关系对50日龄重作校正,并由校正后的50日龄重计算各项平方和是相当麻烦的,统计学已证明,校正后的总平方和、误差平方和及自由度等于其相应变异项的离回归平方和及自由度,因此,其各项平方和及自由度可直接由下述公式计算。

①校正50日龄重的总平方和与自由度,即总离回归平方和与自由度

'

SST

'

SST(y)SSR(y)SST(y)

2SP8.252T96.7657.85 (10-13) SST(x)1.75

dfT=dfT(y)-dfR(y)=47-1=46

②校正50日龄重的误差项平方和与自由度,即误差离回归平方和与自由度

'

SSe

SSe(y)SSR(e)SSe(y)

SPe26.61285.0837.59 (10-14) SSe(x)0.92

dfe'=dfe(y)-dfe(R)=44-1=43

上述回归自由度均为1,因仅有一个自变量x。 ③校正50日龄重的处理间平方和与自由度

SSe=57.87-37.59=20.28 (10-15) SStSST

dftdfTdfe=k-1=4-1=3

202

(2)列出协方差分析表,对校正后的50日龄重进行方差分析(表10—6)

查F表:F0.01(3,43)=4.275(由线性内插法计算),由于F=7.63>F0.01(3,43),P<0.01,表明对于校正后的50日龄重不同食欲添加剂配方间存在极显著的差异。故须进一步检验不同处理间的差异显著性,即进行多重比较。

表10—6 表10-2资料的协方差分析表

3、根据线性回归关系计算各处理的校正50日龄平均重

误差项的回归系数byx(e)表示初生重对50日龄重影响的性质和程度,且不包含处理间差异的影响,于是可用byx(e)根据平均初生重的不同来校正每一处理的50日龄平均重。校正50日龄平均重计算公式如下:

i.i.byx(e)(i...) (10-16)

公式中:i.为第i处理校正50日龄平均重;

i.为第i处理实际50日龄平均重(见表10—2); i.为第i处理实际平均初生重(见表10—2); ..为全试验的平均数,..

x..63.151.3156 kn48

byx(e)为误差回归系数,byx(e)=7.1848

将所需要的各数值代入(10—16)式中,即可计算出各处理的校正50日龄平均重(见表 10—7)。

表10—7 各处理的校正50日龄平均重计算表

4、各处理校正50日龄平均重间的多重比较

各处理校正50日龄平均重间的多重比较,即各种食欲添加剂的效果比较。 (1)t检验 检验两个处理校正平均数间的差异显著性,可应用t检验法:

t

i.j.Syi.j.

(10-17)

S

i.j.

2(i.j.)2

 (10-18) MSenSSe(x)

式中,i.j.为两个处理校正平均数间的差异;

203

S

i.j.

为两个处理校正平均数差数标准误;

为误差离回归均方; MSe

n为各处理的重复数; i.为处理i的x变量的平均数; j.为处理j的x变量的平均数; SSe(x)为x变量的误差平方和

例如,检验食欲添加剂配方1与对照校正50日龄平均重间的差异显著性:

.2.=10.3514-12.0758=-1.7244 1

=37.59/43=0.8742 n=12 MSe

1.=1.52,2.=1.28, SSe(x)=0.92

将上面各数值代入(10—18)式得:

2(1.521.28)2

S=0.87420.4477 1.2.120.92

10.351412.0758

3.85

0.4477

查t值表,当自由度为43时(见表10—6误差自由度),t0.01(43)=2.70(利用线性内插法计算),|t| >t0.01(43),P<0.01,表明对照与食欲添加剂1号配方校正50日龄平均重间存在着极显著的差异,这里表现为1号配方的校正50日龄平均重极显著高于对照。 其余的每两处理间的比较都须另行算出S..,再进行t检验。

于是 t

i

j

(2)最小显著差数法 利用t检验法进行多重比较,每一次比较都要算出各自的

S,比较麻烦。当误差项自由度在 20以上,x变量的变异不甚大(即x变量各处理平均..

i

j

数间差异不显著),为简便起见,可计算一个平均的..采用最小显著差数法进行多重比

i

j

较。..的计算公式如下:

i

j

i.j.

'SSt(x)2MSe

=1 (10-19)

nSS(k1)e(x)

公式中SSt(x)为x变量的处理间平方和。

然后按误差自由度查临界t值,计算出最小显著差数:

LSDt(dfe).. (10-20)

i

j

本例x变量处理平均数间差异极显著,不满足“x变量的变异不甚大”这一条件,不应采用此处所介绍的最小显著差数法进行多重比较。为了便于读者熟悉该方法,仍以本例的数据说明之。此时

S

'

i.j.

=

20.87420.83

10.4354

120.92(41)

由dfe=43,查临界t值得:t0.05(43)=2.017,t0.01(43)=2.70 于是 LSD0.05=2.017×0.4353=0.878

LSD0.01=2.70×0.4353=1.175

不同食欲添加剂配方与对照校正50日龄平均重比较结果见表10—8。

表10—8 不同食欲添加剂配方与对照间的效果比较表

食欲添加剂配方 204

校正50日龄平均重

对照校正50日龄平均重

差数

1 2 3

12.0758 12.1821 12.3398

10.3514 10.3514 10.3514

1.7244

**

1.8307

**

1.9884

**

多重比较结果表明:食欲添加剂配方1、2、3号与对照比较,其校正50 日龄平均重间均存在极显著的差异,这里表现为配方1、2、3号的校正50日龄平均重均极显著高于对照。 (3)最小显著极差法 当误差自由度在20以上,x变量的变异不甚大,还可以计算出平均的平均数校正标准误,利用LSR 法进行多重比较。的计算公式如下:

SSt(x)1 (10-21)

SS(k1)e(x)

然后由误差自由度dfe和秩次距k查SSR表(或q表),计算最小显著极差:

'MSe

=

n

LSRSSR (10-22)

对于【例10.1】资料,由于不满足“x变量的变异不甚大”这一条件,不应采用此处所介绍的LSR法进行多重比较。为了便于读者熟悉该方法,仍以【例10.1】的数据说明之。此时

MS'e=0.8742,n=12,SSt(x)=0.83,SSe(x)=0.92,k=4,代入(10—21)式可计算得:

=

0.87420.83

10.3078 120.92(41)

SSR值与LSR值见表10—9。

各处理校正50日龄平均重多重比较结果见表10—10。

配方3 配方2 配方1 对 照 多重比较结果表明:食欲添加剂配方3、2、1号的哺乳仔猪校正50 日龄平均重极显著高于对照,不同食欲添加剂配方间哺乳仔猪校正50日龄平均重差异不显著。

12.3398 12.1821 12.0758 10.3514

1.9884** 1.8307** 1.7244**

0.2640 0.1063

0.1577

习 题

1、何为试验控制?如何对试验进行统计控制? 2、什么是均积、协方差?均积与协方差有何关系?

205

3、对试验进行统计控制的协方差分析的步骤有哪些?

4、一饲养试验,设有两种中草药饲料添加剂和对照三处理,重复9次,共有27头猪参与试验,两个月增重资料如下。由于各个处理供试猪只初始体重差异较大,试对资料进行协方差分析。

(b=0.9832,线性回归关系极显著)。

5、四种配合饲料的比较试验,每种饲料各有供试猪10头,供试猪的初始重(kg)及试验后的日增重(kg)列于下表,试对试验结果进行协方差分析。

(b=0.0073,线性回归关系极显著)

206

范文三:协方差分析 投稿:余闃闄

协方差 协方差分析:

(一)协方差分析基本思想

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

协方差分析

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。

再例如,分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用,而不考虑生猪各自不同的身体条件(如初始体重不同),那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

(二)协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。

协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的变动受四个方面的影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量的影响。

方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量,它们是各均方与随机因素引起的均方比。

(三)协方差分析的应用举例

为研究三种不同饲料对生猪体重增加的影响,将生猪随机分成三组各喂养不同的饲料,得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响,于是收集生猪喂养前体重的数据,作为自身身体条件的测量指标。

协方差的实现方法:

1、分析原理

协方差分析是回归分析与方差分析的结合。在作两组和多组均数之间的比较前,用直线回归的方法找出各组因变量Y与协变量X之间的数量关系,求得在假定X相等时的修正均数,然后用方差分析比较修正均数之间的差别。

要求X与Y的线性关系在各组均成立,且在各组间回归系数近似相等,即回归直线平行;X的取值范围不宜过大,否则修正均数的差值在回归直线的延长线上,不能确定是否仍然满足平行性和线性关系的条件,协方差分析的结论可能不正确。

对于协变量的概念,可以简单的理解为连续变量,多数情况下,连续变量都要作为协变量处理。

2、问题

欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见下表。

3、统计分析

(1) 建立数据文件

变量视图:建立3个变量

3、统计分析

(1) 建立数据文件

变量视图:建立3个变量

数据视图:

先要分析两组中年龄与胆固醇是否有线性关系,且比较回归洗漱是否相等,比较粗略的做法是画散点图,选择菜单:图形 -》旧对话框 -》散点图,如图:

进入图形对话框:

将胆固醇、年龄、组分别选入Y轴、X轴、设置标记

点击确定开始画图

可以看出,大致呈直线关系。

更为精确的作法是检验年龄与分组之间是否存在交互作用,即年龄的作用是否受分组的影响。

接下来开始协方差分析,首先进入菜单:

进入对话框

将胆固醇选入“因变量”,组选入“固定因子”,年龄选入“协变量”,见图

:

点击右边“模型”按钮,在“构建项”下拉菜单中选择“主效应”,将“组”和“年龄”选入右边框中,然后在“构建项”下拉菜单中选择“交互”,同时选中“组”和“年龄”,一并选入右边的框中,见图:

点击“继续”按钮回到“单变量”主界面:

单击“选项”按钮,进入如下对话框:

选中“描述性分析”:

点击“继续”按钮回到主界面,单击“确定”即可

这是主要的统计分析结果,一个典型的方差分析表,解释一下:

1、表格的第一行“校正模型”是对模型的检验,零假设是“模型中所有的因素对因变量均无影响”(这里包括分组、年龄及他们的交互作用),其P

2、表格的第二行是回归分析的常数项,通常无实际意义。

3、表格的第三行、第四行是对组和年龄的检验,P均

4、表格的第五行是对分组和年龄的交互作用的检验,其P=0.935>0.05,说明分组和年龄无交互作用,也就是说,年龄对胆固醇的影响不随分组的不同而不同,这也是协方差分析的基本条件之一。这里是满足的。

范文四:方差分析与协方差分析 投稿:黄嗶嗷

方差分析

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

方差分析的作用

一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。

经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。 方差分析的分类及举例

一、单因素方差分析

(一)单因素方差分析概念理解步骤

是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差 分析得到答案。

单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。

单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。

(二)单因素方差分析原理总结

容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起

的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。

(三)单因素方差分析基本步骤

1、提出原假设:H0——无差异;H1——有显著差异

2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。

3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。

4、给定显著性水平 ,并作出决策

(四)单因素方差分析的进一步分析

在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。

1、方差齐性检验

是对控制变量不同水平下各观测变量总体方差是否相等进行检验。

前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不

能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。

SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。

2、多重比较检验

单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。

例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。

多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。

二、多因素方差分析

(一)多因素方差分析基本思想

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

例如:

分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

(二)多因素方差分析的其他功能

1、均值检验

在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种:

观测变量的均值(Deviation);

第一水平或最后一个水平上观测变量的均值(Simple); 前一水平上观测变量的均值(Difference);

后一水平上观测变量的均值(Helmert)。

2、控制变量交互作用的图形分析

控制变量的交互作用可以通过图形直观分析。

三、协方差分析

(一)协方差分析基本思想

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。

再例如,分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用,而不考虑生猪各自不同的身体条件(如

初始体重不同),那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

(二)协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。 协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的变动受四个方面的影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量的影响。

方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量,它们是各均方与随机因素引起的均方比。

范文五:方差分析与协方差分析 投稿:许緡緢

案例介绍 ANOVA ANCOVA

Q.He

Stat Consulting

1

Q.He

Stat Consulting

2

数据来源及说明

方差分析

Q.He

Stat Consulting

3

Q.He

Stat Consulting

4

方差分析 方差分析

因素( factor)也称为因子,每一因素至少有两个水平 ) 因子 (level) . 一个因素— — 单向方差分析 两个因素— — 双向方差分析 ANOVA与回归分析相结合— — 协方差分析(analysis of

covariance)

日常生活中经常发现,影 响一个事物的因素很多, 希望找到影响最显著的因 素.

如某种农作物的收获量受农作物品种, 肥料种类及数量等的影响.

目的:用这类资料的样本信息来推断各组间多个总体均 数的差别有无统计学意义 .

Q.He Stat Consulting 5 Q.He Stat Consulting 6

1

看哪一个影响大?并需要知道 起显著作用的因素在什么时候 起最好的影响作用.

方差分析的基本思想:把全部数据关于总均值的离差平方和 分解成几部分,每一部分表示某因素诸水平 或交互作用所产 生的效应,将各部分均方与误差均方相比较 ,从而确认或否 认某些因素或交互作用的重要性. 用公式概括为:

各因素引起 由个体差异引 起(误差)

总变异=组间变异+组内变异

种类:常用方差分析法有以下4种

方差分析就是解决这 些问题的 一种有效方法.

Q.He Stat Consulting 7

1, 单因素方差分析 2, 双因素方差分析 3, 多因素方差分析 4, 有交互因素方差分析

Q.He Stat Consulting 8

单因素方差分析

单因素方差分析

假定:数据满足正态性,独立性,同方差性. 要检验因素A对指标是否显著影响,就是检验假设: H0: 2=… = 1= k 接受H0:即认为来自同一总体,差异由随机因素所造成. 若拒绝H0:表明它们之间差异显著,差异有因素水平的改变 所引起. 做法:为了检验假设H0,要从总的误差中将系统误差和随机 误差分开.

yij i ij u

Q.He

Stat Consulting

9

Q.He

Stat Consulting

10

方差分解

SST yij y yij y i yi y

k ni k 2 ni 2 i j 1 1 i j 1 1 2

y y y y ij y i i y 2ij y i i y

k ni 2 i j 1 1 k ni

y y ij y i ni i y i j 1 1 i 1

k 2 2 SSE SSA

Q.He Stat Consulting 11 Q.He Stat Consulting 12

2

F检验

双因素简单可加模型

ylkr l lkr k e

Q.He

Stat Consulting

13

Q.He

Stat Consulting

14

双因素交互作用模型

多因素方差分析

ylkr l k lk lkr e

Q.He

Stat Consulting

15

Q.He

Stat Consulting

16

描述统计分析

Q.He

Stat Consulting

17

Q.He

Stat Consulting

18

3

Q.He

Stat Consulting

19

Q.He

Stat Consulting

20

Q.He

Stat Consulting

21

Q.He

Stat Consulting

22

Hedonic Regression Method (HRM)

The word hedonic refers to pleasure, and reflects the desirability or quality of non-priced aspects of the environment. E.g. The effect on residential home values of quiet, stable neighborhoods with fine views, low crime, easy commutes, and little smog. Rev

eals willingness to pay for environmental, health, safety, and community qualities. Can estimate a type of demand curve for a particular level of environmental and other qualities.

Q.He Stat Consulting 24

Q.He

Stat Consulting

23

4

Assumption

An

asset's value derives from the value of its different characteristics. The price of a house will therefore depend on the value the buyer places on both qualitative (e.g. heating type) and quantitative attributes (e.g. number of bedrooms).

Q.He Stat Consulting 25

Since the prices of these characteristics cannot simply be observed, hedonic regression estimates the implicit market value of a unit of each attribute by comparing sample house prices with the associated characteristics

Q.He

Stat Consulting

26

It is assumed that a house can be decomposed into characteristics such as number of bedrooms, size of plot, or distance to the city center. A hedonic regression equation treats these attributes (or bundles of attributes) separately, and estimates prices (in the case of an additive model) or elasticity (in the case of a log model) for each of them.

Q.He Stat Consulting 27

5

范文六:协方差分析应用 投稿:黄檪檫

协方差分析应用

主体间因子

1.00

饲料种类

2.00 3.00

N

表1 生猪体重协方差分析结果

表1中分别列出了各变差分解的情况、自由度、均方、F统计量的观察值及概率p值。为说明各数据,将单因素方差分析结果显示在表2中,以便比较。 表2 生猪体重单因素方差分析结果

在表2中:

.观察变量的总变量为2555.958,同单因素方差分析中的SST; 随机因素可解释的变差由原来的1238.375减少为227.615,这是由于排除了喂养前体重的影响造成的。其计算的基本思路是:由“方差分析中随机因素可解释变差的定义”可知,他们是各自观察值与各水平平均值的平方和。

为排除协变量对分析的影响,应首先在各水平内部将协变量的作用排除后,在计算随机因素可解释的变差。

计算步骤如下。

范文七:协方差分析及协变量 投稿:周郵郶

残差平方和

概念:

为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来 称为残差平方和,它表示随机误差的效应。

意义:

每一点的y值的估计值和实际值的差的平方之和称为残差平方和,而y的实际值和平均值的差的平方之和称为总平方和。

定义:

协方差是关于如何调节协变量对因变量的影响效应,从而更加有效地分析实验处理效应的一种统计技术,也是对实验进行统计控制的一种综合方差分析和回归分析的方法。

意义

当研究者知道有些协变量会影响因变量,却不能够控制和不感兴趣时(当研究学习时间对学习绩效的影响,学生原来的学习基础、智力学习兴趣就是协变量),可以在实验处理前予以观测,然后在统计时运用协方差分析来处理。

将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。

方差是用来度量单个变量 “自身变异”大小的总体参数,方差越大,该变量的变异越大;

协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,二个变量相互影响越大。

对于仅涉及单个变量的试验资料,由于其总变异仅为“自身变异”(如单因素完全随机设计试验资料,“自身变异”是指由处理和随机误差所引起的变异),因而可以用方差分析法进行分析;

对于涉及两个变量的试验资料,由于每个变量的总变异既包含了“自身变异”又包含了“协同变异”(是指由另一个变量所引起的变异),须采用协方差分析法来进行分析,才能得到正确结论。

方法

(一)回归模型的协方差分析

如果那些不能很好地进行试验控制的因素是可量测的,且又和试验结果之间存在直线回归关系,就可利用这种直线回归关系将各处理的观测值都矫正到初始条件相同时的结果,使得处理间的比较能在相同基础上进行,而得出正确结论。这一做法在统计上称为统计控制。

这时所进行的协方差分析是将回归分析和方差分析结合起来的一种统计分析方法,这种协方差分析称为回归模型的协方差分析。

(二)相关模型的协方差分析

方差分析中根据均方MS与期望均方EMS间的关系,可获得不同变异来源的方差分量估计值;在协方差分析中,根据均积MP与期望均积EMP间的关系,可获得不同变异来源的协方差分量估计值。

这种协方差分析称为相关模型的协方差分析。

残差平方和:

为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异 称残差,把每个残差的平方后加起来 称为残差平方和,它表示随机误差的效应。

回归平方和

总偏差平方和=回归平方和 + 残差平方和。

残差平方和与总平方和的比值越小,判定系数 r2 的值就越大。

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。

范文八:协方差分析的回归分析法 投稿:黄熲熳

f 3 |  。  6

第 1卷 第 2 5 期 

19 9 2年 6月 

报 

V O.5  N o.  11 . 2 l n. 9 2 u ,I 9  

J u na  fAu u t 1 tAg i o r l o   g s  s  r.Colg   l e e

协 方 差 分 析 的 回归分 析 法 

陈敬锋 樊 丽 淑 

(础 ) 基部  

摘 要

0a   l

本 文根据线性模 型参敷估 计和假设检验 的一般理论 ,给 出了以方差 

分析 为主要 目的和 回 归分析 为主要 目的 的协方 差分析 问题 的统一 的处理方 法一   回归分析 法.并以一个 实例说 明这种 方法的具体算 法.  

关 词 协 差 生 型 边 书 扫 运 、 』 键 方 分 撒 : 界 件: 描 算   拿 ‘   f  

— — — —

 

J  

考虑一般的协方差分析模型 

Y=   + : + e P~Ⅳ ( ‘   , 0 D    f) 1  

式中: ,为 n l的观 铡 向量 , 一 ( x     为 ×m 的已知矩阵 ,其 元索  i 皆为 0 1 为  或 ,   因子 效应 向量 .特 估 . z   构成 了模 型 的方 差 分析部分 .Z   ( 为 H  J ×P的 已知 实矩 

阵,口为 回归系数 ,z口为模 型的 回归分 析部 分.如果我 们把 Z的行 向盈 视为  随机向量 

的  个 独 立 的 观 铡 向量 的 话 , 只 要 月足 够 大 . 有 

一  

r ’  

L 』  

J ) () 0  ‘ n z ={ } (

, 

() 2 

以概率 1 立.这里  ( 成  )指以  的列 向量张成 的子空问 .   以方差分析为主要 目的 的协方差分析, 已有一套固定的算法,即通过对 瞄去 回归部分  }

所得到的纯方差分 析模型作方差分析时的各项平方和作适 当的修正 .以及 一些 跗加计算 而  完成 “ ,但 在不太多 的情况下 .协 方差 分析模 型 也以 回归分析为主要 日的,这 I ,上 述  ) 时

算法对参数估计和假设检验就不再凑效.   作 为线性 模型 , 方差分 析模型 中,我们 总假 设 z列满秩 而方差分 析部分 的 没汁矩    阵  是 列不满 秩 的.如果设置适 当的主 界 条件,加上条 件 () ! 上 2 .就 可 以用同归分析 帕方  法进 行计算 了.这 样,不管以方差分 析还是以回归分析 为主要 1的的协方差分 析,都可 以  3 巾回归分析 的程序 有效 地进 行计算 .边界 条件 的设置 .可参照巾 回归分析 的算 法处 理方差 

分 析 问题 的 方 法  .  

这 里以对新疆紫 泥泉牧场 牧草产 量与环境相关的研究为例 ’ .说 明  方差分析 的回归 

分析处理 的具体算法 。  

收藉 刚 鲫:I9 — 9 IO  l  9

・ 奉 例来 自

中 国科 学院 科学基金 舅 助项 日.    

报 

1 问题 及 模 型 

对 5 不刚坡 向的牧草 作 了 3 个 年观 测,分别得到 2 4或 2 个牧 草产盈数据 Y. f , 5 1 =1 '   2 ,… .   户 1 ,…, 。 里 玎 为 2 ,2   .这 . 4或 2 .并 取得每 个观 测样方的 5 环境l 标数  5 个 指 据 : 降 雨 皿 ( 内 累 汁数 ) 年   , 大 气 温 度  . 土 壤 含 水 扭  . 日Ji 数 ( 内 累 计  !埘 f 年 数)   及 土壤 温度 ( ~ l m 处 ) ” 5 Oc   ,假 没第 i 坡 向第 , 个 次观 测 数 据  有 如 下 结 构 :  

Y 1 =  +  J +  1   + … +  5   + £

j  f

() 3 

式 中: 为第 i 坡 向的效应 .口,… 。以 为 同归分析部分 的  ¨系数 , i   个 .   均位  为零 方差齐性,诸 i 柑互 独立 .写成 () 的矩阵形 式.有: 1  

Ⅸ   ( , C , … , C ) , 口一 ( ,   t - t , 口 ,… ,口 )   

12  1  4  

24  

0  

0   0  

I ”

0   0  

0  

0   0  

0  

1 ∞ ∞ X =  1 I ∞ 1.   2

0   1 ∞  0   0   0   0   0   0  

0   0  

I ”

0  

0   14    2

这 里 1 为 分 盈 全 是 I的 s 列 向量 。 其 秩 R ( 。 维 种

e ( I … 。 En) ‘ N( , zI )  :   , 55 ~ o  T2 . 3

=5 .z 为 1 3 2 ×5的 矩 阵 , 列 满 秩 .  

我 们 试 图通 过 对 数 据 的分 析 ,  

第一 。检验不同坡 rx 牧草产盘的影响是否显 著,即检验假 设   ̄. J ,L

:  

o I  

C t

z …   

,  

() 4 

c =0 式中: Ⅸ 。   c=I  

l r 1—  0 0I   1 0  0   一     l  

0 0     1   — 1   0   0  

I  

模型.  

0   1  

l  

0 0     0

—   J l  

这是 一 个 以方 差分 折 为主 要 I 的  方 差 分 折 问题 . 3的  

第二 ,产量与环境 因子的柳关性分析 .试 图从 5 个环境因子 中选 f与产量相关最好 的  “ 子集来 .如 果不同坡 向对牧草产量 的影响是不显著 的,则 模型 ()变 为单 纯的 回归分 折  1

Y=  1+ z  + e   () 5 

问题归结为一般 的同归 口变量的选择.如果坡向效应是显著的,则问题即以 回归分析为主  要 I帕 的协方差分析 问题 . t  

2 因子 效应 检验 的算 法 

由 于  r =5 可 设 边 界 条 件 如 Ⅸ =0 。即 划 去 X 的 第 二 列 得    。 t , .

模 型 () 为  I变

第 2期

胨敬 锋等 : 协 方差分 析纳 同归分 析法 

15 0 

r’ ; 这矩 ’ 满,回分・残平和   ZJ 时阵’) 秩作归析得差方  ‘)  l z 列

10 65 , 自由度 dc 2-1 = 13 这里 l 9 6 .6 f =1 3 0 1 , 0为矩 阵 (  。・ 的秩 , 以 下类 似 . z)  

当 , () 成立时 ,模 型变 为 ()   即 4 5 ,这是一个 纯 回归分 析模型 ,作 回归分 析,得  残 差 平 方 和  l= 24 02 , 自 由度 d m =13 =17 因而 有  I 36 . c 0 - r 2—6 1 , 。  

( s ̄ s

F- —

— — -

ss )     /(r d ., SS / df e   -

— —

i ) re f

~5  6.l  

而 概 率 P ( -1 <65 ) >09 ,   l .1 3  9 

被 拒 绝 .即 不 同 坡 向牧 草 产 量 有 显 著 差 异 . 这 

主要 是 因 为不 同坡 向 的植 物 种 的构 成 各 自不 同 .因 此坡 向效应 的差 异 是 收 显 著 的 .  

3 协 变 量 的选 择 

为作 牧草产量 与环境 指标 问的相关分 析,我们在保 留模 型的方差 分析部分 的条件下 ,   计算 5个环境 指标的所 有可能 子架的回归 .井从 中选 小最佳的协变量子集.   保 留模 型的方差分 析部分  ,设  表 l C 值表    ,

置边 界 条 件  =0 。变  为  ’ .以 协  变量 中 的 莱 一 子 架 构 成 模 型 中 的 回 归 

分 析部 分 .作 回归分 析,并 计算统 计  量 c 的位,得如下 的最 小  伍表. n  

这 里 与 纯 回 归 模 型 的 E变 量 选 择  I

所不 同的 即在于对 任一 协变量子集作  回归 ,总保 留方差 分析部分 的哑变 _ ,因而统 汁量  中的参数 ,总等于 X’ 盈 的秩加上协  变量 个数 。 由回归 自变量选择 的 c 准则 。 得最佳  变量子集  ‘ n     和  ) .这 时的残 差平  方和  =2 32 8 0 1. , 5  =1 3 7 1。进而作显 著性 检验,即在承认 不同坡 向对产量有  2- ;16 =13 5 】 ,得  2- =l8 显著 差异 的条件下 ,检验假 设  。 .  =0 : =   ,在这个假 设下,模型变成 了纯方差分 析模  型.作 回归分 析.得残 差平 方并  H=3 1 1 8 ”   63 . , 8 

( 6 3  8 2 3 2 8 /( 1 一 l6  …   3 1 18 — 0 1 . ) 1 8 5 1)

—— — —  丽  

7   —— 一 1

 

。  “

而概率 ,   . l 51) >09 .风 以极大 的概率被拒绝 . r 1 <4 . 6 7 ,9   这说 明牧草产 量除坡

向效应外 ,与  ” 和  有着较强 的相 关性 ,这个结论 与各 坡 向   的产量各 自与环境 因子所作相关分 析得 到的结论  基本一致 .进一步 考察 原始数据 ,发  现  ” 和  ” 的观 测位 是年 内的累加 伍 ,而 牧草产_ 的期望 , 在年 内也应 是 魈时 问递增  皿 的.因此 以上结粜是显然的 .可见这个结论并不能代特缚两次观测 问牧草产量增量与 环境  因子阔的相关性质 .   最后, 以   ” 和 

=2 3 25 . 0 1 .8  

为 协 变 量 , 作 如 同 第 二 日 中 的 因 子 效 应 检 验 , 得 

H = 2 0 51 ,   48 .   5 = 1 0 于 是 ,= 53 , 而 P ( 2, .9  

.  

= l6 】.  

I <53) >09 .说 明以 ” I - 6 9 , 9   和  为  变量,坡 向效应 仍是极显著 的.  

1   06

报 

l9 9 2年 

设脚 I 变量.与 

蜃一商棒成 

。  

设计矩阵.井计 算撵车  方肆 L  . 工  

缈变量所 对应 帕位置 为轴 心。  

对 L作扫捕 运算 .记 下 sm  s

l  

以方 差变量 所对应 帕 位霞 为轴 心,   对 L作扫 描运 算.记 Fs |  s  

工   作田 子教痈 帕显 著性 榆喻 

l 以方差变豆所时应的位    『 为轴心.对 L作扫捕运彝   

以二 进 制 敷的顺序 ,柞 所有 可能  变 

量 彳集 同归, 求  』 仕 蚺变 -  集 . 矗 甩  

上.  

以l 菇 壹 盛所 对应 的 位髓为 辅心 . 力  

对 L作 打捕运算 . 记下 殪差 下方 和 

' L   作 嘲于簸应 的显 著性 掩|  奄

I <建> 否 是 l  

铺    柬、 重考摸 及怯 新虑撮莽  l  

 

第 2栅 

陈敬 锋等 : 协方 差分 折的 回归分析 法 

17 0 

4 小

结 

在协变量数 目较多 或因子 的水平组合数较多 时.以上算法 的计算量是相 当大 的.但当  协 变量 的数 目和 因子 水平组合数都 不太多 时,可用如下 的流程进行计算 .这 里应 用了 回归  分 析中对样本协差 阵的扫描运算  的两个性质 ‘ :   

r “r  = r r “   T l u= I l T   

这 里 j 恒 等 变换 . 指  

、  

参 考 文 献 

1 王I桂 .   盐 线性 模型 的理论 及其 应用 . 徽 教育 出版 社.18 : 9 —4 5 安 97 30 0  2 陈敬锋 . 方差 分析 帕回归 分析 法. 八一 农学 院学报 .18,10】 7 -8  98   : 9 2 1 3 陈敬 锋.回归 白变盈 帕选择 : _ 则, 有 变显 子集 帕 回归 . c准 所 八一 农学 院学报 .19 .I( :1一 90 31 3   )

I  7

胡锋铎. 天山北坡低 山春秋牧场草地类型及其生产量动态与环境条件相关性曲韧步研究. 顼士论 

文 .18   98

5 胨 希i 王橙 如 近代 回归分 析 . 氘 安徽 教育 出版社 .18 : 7 2 1 9 71 - 0  9

Re r s i n Tr a me to   a y i  fCo a i n e g e so   e t n  fAn l sso   v ra c  

Ch nJn Fn   Fa   s   e  i g e g n Lihu

(De at n r a i Co re   p rme t B s   u ss) o c

Ab ta t A c o di g t  he g n r lt e r m  sr c  c r n  o t   e e a  h o e ln a   o e we gi e t c r g ̄ s i n i rm d 1 e   v  h  c so  

t c t n   o t c m o c  f a a y i o   o a l n ,  ̄ m m on t c t c t m e h d b t   0   r a me t t   h   d lo   n l s s r c v r a c a o     ra m n   t o   oh rr

a l sso   a t n c a d f rr g e s   n l ssa   rn i a  u p c A  o ke   x m p ci  nay i  fv ra c   n  o  e rs on a ay i  sp i cp lp r os i w r dc a l  s

g v n t   l ta et eUS   f h   c h d  ie  o i usr t h   eo t em t o . l Ke   o d   An l s   r o a a c ; o d r  on to s s c p o e a o   yW rs a y i o C v r n c b un a yc di n ; wc   p r t r s i i

范文九:第十章协方差分析 投稿:郑囌囍

第十章 协方差分析第一节 协方差分析的意义上一张 下一张 主 页退 出 协方差分析有二个意义 , 一是对试验进行 统计控制, 统计控制,二是对协方差组分进行估计, 二是对协方差组分进行估计,现分述 如下。 如下。 一、对试验进行统计控制 为了提高试验的精确性和准确性 ,对处理 以外的一切条件都需要采取有效措施严加控制, 以外的一切条件都需要采取有效措施严加控制, 使它们在各处理间尽量一致, 使它们在各处理间尽量一致,这叫试验控制。 但在有些情况下, 但在有些情况下,即使作出很大努力也难以 使试验控制达到预期目的。 使试验控制达到预期目的。上一张 下一张 主 页退 出 例如: 例如:研究几种配合饲料对猪的增重效果, 研究几种配合饲料对猪的增重效果, 希望试验仔猪的初始重相同, 希望试验仔猪的初始重相同,因为仔猪的初始重 不同, 不同,将影响到猪的增重。 将影响到猪的增重。经研发现: 经研发现:增重与初 始重之间存在线性回归关系。 始重之间存在线性回归关系。 这时可利用仔猪的初始重(记为x)与其增重 (记为y)的回归关系, 的回归关系, 将仔猪增重都矫正为初始 重相同时的增重, 重相同时的增重,于是初始重不同对仔猪增重的 影响就消除了。 影响就消除了。由于矫正后的增重是应用统计方 法将初始重控制一致而得到的, 法将初始重控制一致而得到的,故叫统计控制。 统计控制是试验控制的一种辅助手段。 统计控制是试验控制的一种辅助手段。经过 这种矫正, 这种矫正,误差将减小, 误差将减小,处理效应估计更为准 上一张 下一张 主 页 退 出 确。 ′ y 将回归分析与方差分析结合在一起, 将回归分析与方差分析结合在一起,对试验 数据进行分析的方法, 数据进行分析的方法,叫做协方差分析 (analysis of covariance)。 二、估计协方差组分 两个相关变量相关系数: 两个相关变量相关系数:r=∑ ( x − x )( y − y ) ∑ (x − x) ∑ ( y − y)22=SPxy SS x SS y除以df=(n-1)r=∑ ( x − x )( y − y ) /(n − 1) ∑ ( x − x )  ∑ ( y − y )  22(n − 1) (n − 1) 退 出上一张 下一张 主 页 ∑(x − x)2 n −12 σ 均方( 均方(MSx),它是方差 ),它是方差 x的无偏估计量; 计量;2 ( y − y ) ∑n −12 均方( 的无偏估 均方(MSy),它是方差 ),它是方差 σ y计量; 计量;∑ ( x − x )( y − y ) 为x与y的平均的离均差的乘积和, 的平均的离均差的乘积和,n −1简称均积,记为MPxy,MPxy是总体协方差 COV(x,y)的无偏估计量, 的无偏估计量,即 EMPxy=COV(x,y)。 协方差(covariance),记为COV(x,y) 或 σ xy 。 样本相关系数r可用均方MSx、MSy,均积 MPxy表示为: 表示为:r=MPxyMS x MS yCOV ( x, y )总体相关系数ρρ=σ xσ y=σ xy σ xσ y退 出上一张 下一张 主 页 均积与均方具有相似的形式 , 也有相似的 性质。 性质。在方差分析中, 在方差分析中,一个变量的总平方和与自 由度可按变异来源进行剖分, 由度可按变异来源进行剖分,从而求得相应的均 方。统计学已证明: 统计学已证明:两个变量的总乘积和与自由 度也可按变异来源进行剖分而获得相应的均积。 度也可按变异来源进行剖分而获得相应的均积。 这种把两个变量的总乘积和与自由度按变异来源 进行剖分并获得获得相应均积的方法亦称为协方 差分析。 差分析。上一张 下一张 主 页 退 出 第二节 单因素试验资料的协方差分析设有k个处理、 个处理、n次重复的双变量试验资 料,每处理组内皆有n对观测值x、y,则该资 料为具kn对x、y观测值的单向分组资料, 观测值的单向分组资料,其 数据一般模式如表所示。 数据一般模式如表所示。上一张 下一张 主 页退 出 表 观测值x、y的单向分组资料的一般形式处 理 观测指标 观测值 xij、yij(i=1,…k j=1,…n) x x11 x12 … x1j … x1n x1.处理1y y11 y12 … y1j … y1n y1.处理2x x21 x22 … x2j … x2n x2. y y21 y22 … y2j … y2n y2.… … … … … … … … … …处理kx xk1 xk2 … xkj … xkn xk. y yk1 yk2 … ykj … ykn yk.总和 平均数 协方差分析的模型和假定单因素方差分析的数学模型为 Yij = µ y + α i + ε ij 协方差分析的数学模型为 Yij = µ y + α i + β ( xij − xi ) + ε ij 此模型可写成以下形式: Yij − µ y + βxi = α i + βxij + ε ijSST ( y ) = SSt ( y ) + SS e ( y ) 平方和、自由度的剖分 SST(x)= SSt(x)+ SSe (x) SST(y)= SSt (y)+ SSe (y) SPT(xy)=SPt(xy)+SPe(xy) 【例1】 为了寻找一种较好的哺乳仔猪食 欲增进剂, 欲增进剂,以增进食欲, 以增进食欲,提高断奶重, 提高断奶重,对哺乳仔 猪做了以下试验: 试验设对照、 、配方1、配方 猪做了以下试验: 试验设对照 2、配方3共四个处理, 共四个处理,重复12 次,选择初始 条件尽量相近的长白种母猪的哺乳仔猪48头 , 完全随机分为4组进行试验, 组进行试验,结果见表, 结果见表,试作分 析。上一张 下一张 主 页 退 出 处理 指标对照 初重x 50日重y x配方1 y x配方2 y x配方3 y1.50 1.85 1.35 1.45 1.40观察 值 xij,yij12.40 12.00 10.80 10.00 11.00 11.80 12.50 13.40 11.20 11.60 12.60 12.50 141.80 11.821.35 1.20 1.45 1.20 1.40 1.30 1.15 1.30 1.35 1.15 1.35 1.20 15.40 1.2810.20 9.40 12.20 10.30 11.30 11.40 12.80 10.90 11.60 8.50 12.20 9.30 130.80 10.841.15 1.10 1.10 1.05 1.40 1.45 1.30 1.70 1.40 1.45 1.25 1.30 15.65 1.3010.00 10.60 10.40 9.20 13.00 13.50 13.00 14.80 12.30 13.20 12.00 12.80 144.80 12.071.20 1.00 1.15 1.10 1.00 1.45 1.35 1.15 1.10 1.20 1.05 1.10 13.85 1.1512.40 9.80 11.60 10.60 9.20 13.90 12.80 9.30 9.60 12.40 11.20 11.00 133.8 1.151.45 1.50 1.55 1.40 1.50 1.60 1.70总和18.25 1.52 Tx=63.15Ty=550.50k=4,n=12, kn=4×12=48 协方差分析的计算步骤如下: 协方差分析的计算步骤如下: (一)求x变量的各项平方和与自由度 1、总平方和与自由度SST ( x ) = ∑∑ xij − C x22 63 . 15 = (1.50 2 + 1.852 + Λ + 1.102 ) − 48 63.152 = 84.8325 − 48= 1.75dfT(x)=kn-1=4×12-1=47 2、处理间平方和与自由度SS t ( x ) 1 k 2 = ∑ Ti . − C x n i =12 1 63 . 15 = (18.25 2 + 15.40 2 + 15.65 2 + 13.85 2 ) − 12 48 = 0.83df t ( x ) = k − 1 = 4 − 1 = 33、处理内平方和与自由度SS e ( x ) = SS T ( x ) − SS t ( x ) = 1.75 − 0.83 = 0.92df e ( x ) = df T ( x ) − df t ( x ) = 47 − 3 = 44 (二)求y变量各项平方和与自由度 1、总平方和与自由度550 .52 550 .52 SST ( y) = ∑∑ y −Cy = (12.40 +...+11.00 ) − = 6410 .31− = 96.76 48 482 ij 2 2df T ( y ) = kn − 1 = 4 × 12 − 1 = 472、处理间和处理内平方和与自由度2 1 1 550 . 50 SSt ( y) = ∑ yi2. − Cy = (141 .802 +130 .102 +144 .802 +133 .802 ) − = 11.68 n 12 48df t ( y ) = k − 1 = 4 − 1 = 3SS e ( y ) = SS T ( y ) − SS t ( y ) = 96 .76 − 11 .68 = 85 .05df e ( y ) = df T ( y ) − df t ( y ) = 47 − 3 = 44上一张 下一张 主 页退 出 (三) 求x和y两变量的各项离均差乘积和与自由度 1、总乘积和与自由度 k n TxTy SPT = ∑∑ xij yij − = 1.50 × 12.40 + 1.85 ×12.00 kn i =1 j =163.15 × 550.50 + ... + 1.10 × 11.00 − 4 ×12 63.15 × 550.50 = 8.25 df T ( x , y ) = kn − 1 = 47 = 732.50 − 4 × 122、处理间乘积和与自由度TxTy 1 1 k = (18.25×141.80 +15.40×130.10 + SP xi . yi . − ∑ t = n i=1 kn 12 63.15× 550.50 15.65×144.80 +13.85×133.80) − = 1.64 4 ×12 df t ( x , y ) = k − 1 = 4 − 1 = 3上一张 下一张 主 页退 出 3、处理内乘积和与自由度SPe = SPT − SPt = 8.25 − 1.64 = 6.61df e ( x , y ) = df T ( x − v ) − df t ( x −v ) = 47 − 3 = 44表 x与y的平方和与乘积和表变异来源 处理间(t) df 3 SSx 0.83 0.92 1.75 SSy 11.68 85.08 96.76 SPxy 1.64 6.61 8.25处理内(误差)(e) 44 总变异(T) 47 (四) 对x和y各作方差分析 表 初生重与50日龄重的方差分析表x变量 变异 处理间 误差 df 3 SS 0.83 MS F SS y变量 MS F F值0.28 13.33** 11.68 85.08 96.763.89 2.02 1.93 F0.05=2.82 F0.01=4.2644 0.92 0.021总变异 47 1.75上一张 下一张 主 页退 出 分析结果表明, 分析结果表明,4种处理的供试仔猪平均初 生重间存在着极显著的差异, 生重间存在着极显著的差异,其50 日龄平均重 差异不显著。 差异不显著。须进行协方差分析, 须进行协方差分析,以消除初生重 不同对试验结果的影响, 不同对试验结果的影响,减小试验误差, 减小试验误差,揭示出 可能被掩盖的处理间差异的显著性。 可能被掩盖的处理间差异的显著性。上一张 下一张 主 页退 出 (五) 协方差分析 1. 首先分析50日龄重(y)与初生重(x)之间是否存在线性 回归关系, 回归关系,并对线性回归关系进行显著性检验。 并对线性回归关系进行显著性检验。 若存在显著的回归关系, 若存在显著的回归关系,可应用线性回归关系来 校正 y 值,然后根据校正后的 y 值(校正50日龄重)来进 行方差分析。 行方差分析。即在日增重组内( 即在日增重组内(误差) 误差)的变异中将出 生重的影响剔除去. 如x,y线性回归关系不显著, 线性回归关系不显著,则无需继续进行分 析。 (1) 计算处理内( 计算处理内(误差) 误差)回归系数,回归 平方和, 平方和,离回归平方和与相应的自由度b yx ( e) SPe 6.61 = = = 7.1848 SS e( x ) 0.92处理内( 处理内(误差) 误差)回归平方和与自由度SS R ( e ) SPe 6.612 = = = 47.49 SS e ( x ) 0.922 SPxy2df R ( e ) = 1(回归平方和: SS R = SS x = bSPxy = b 2 SS x )主 页 退 出 误差离回归平方和与自由度SS r ( e ) = SS e ( v ) − SS R ( e ) = 85.08 − 47.49 = 37.59df r ( e ) = df e ( v ) − df R ( e ) = 44 − 1 = 43(2) 检验回归关系的显著性 表 50日龄重与初生重回归关系显著性检验表 F检验表明, 检验表明,误差项回归关系极显著, 误差项回归关系极显著,表明哺乳 仔猪50 日龄重与初生重间存在极显著的线性回归关 系。因此, 因此,可以利用线性回归关系来校正y,并对校 正后的y进行方差分析。 进行方差分析。 这里的离回归平方和SSr(e)是在处理内平方和中 除去了由于回归所产生的平方和, 除去了由于回归所产生的平方和,是真正的随机误差 的平方和, 的平方和,因此它是y方差分析中的误差平方和。SS e ' = SS r ( e ) = SS e ( v ) − SS R ( e ) = 85.08 − 47.49 = 37.59df e ' = df r ( e ) = df e ( v ) − df R ( e ) = 44 − 1 = 43 2、对50日龄重总平方和进行矫正, 日龄重总平方和进行矫正,并进行方差分析 为了从50日龄重的总变异中将出生重的影响剔除 掉,可用总平方和与乘积和进行回归分析。 可用总平方和与乘积和进行回归分析。 (1) 校正50日龄重的总平方和自由度-- 日龄重的总平方和自由度--即总离 --即总离 回归平方和与自由度' = SST ( y ) − SS R ( y ) SST8.25 2 SPT = SS T ( y ) − = 96.76 − = 57.87 1.75 SST ( x )2df = df T ( y ) − df R ( y ) = 47 − 1 = 46' T退 出 (2)校正50日龄重处理内(误差) 误差)平方和与自由度 SSe′=37.59,dfe′=48。 (3)校正50日龄重的处理间平方和与自由度′ − SS e ′ = 57.87 − 37.59 = 20.28 SS t′ = SST df t′ = df T′ − df e′ = k − 1 = 4 − 1 = 3列出协方差分析表, 列出协方差分析表,对校正后y(50日龄重)进行 方差分析上一张 下一张 主 页退 出 表变异来源 处理间(t) 误 差(e) 总 和(T) df' 3 43 46协方差分析表SS' 20.28 37.59 57.87 MS 6.76 0.8742 F 7.63**校正50日龄重的方差分析F0.01(3,34)=4.275,由于F> F0.01(3,34) ,P<0.01, 表明对于校正后的50日龄重不同食欲添加剂配方 间存在极显著的差异。 间存在极显著的差异。故须进一步进行多重比 较。 3、各处理的校正50日龄平均重多重比较误差项的回归系数byx(e) 表示初生重对50日龄重影 响的性质和程度, 响的性质和程度,且不包含处理间差异的影响, 且不包含处理间差异的影响,于是可 用byx(e) 根据平均初生重的不同来校正每一处理的50日 龄平均重。 龄平均重。校正50日龄平均重计算公式如下: 日龄平均重计算公式如下:y i′ . = y i . − b yx(e) ( x i . − x..)byx(e)=7.1848上一张 下一张 主 页 退 出 处理 指标 平均对照 初重x 50日重y x配方1 y x配方2 y x配方3 y1.5211.821.2810.841.3012.071.151.15Tx 63 . 15 x .. = = = 1 . 3156 kn 48表 各处理的校正50日龄平均重计算表处理 对照 配方1 配方2 配方3b(x-x)校正y7.1848×0.2044=1.4686 7.1848×(-0.0356)= -0.2588 7.1848×(-0.0156)= -0.1121 7.1848×(-0.1656)= -1.189811.82-1.4686=10.3514 10.84+0.2558=12.0758 12.07+0.1121=12.1821 11.15+1.1898=12.3398 4、各处理校正50日龄平均重间的多重比较 (1) t检验 用于两两处理分别比较t=y i′ . − y ′j . S yi′ .− y ′j . 2 ( x i . − x j .) 2  ′ +  = MS e n SS e( x )    上一张 下一张 主 页 退 出S y .′ − yij.′ 例如, 例如,检验食欲添加剂配方1与对照校正 50日龄平均重间的差异显著性: 日龄平均重间的差异显著性: ′. − y2 ′ . =10.3514-12.0758=-1.7244 y1′ =37.59/43=0.8742 MS en=12x1 . =1.52, x 2 . =1.28, SSe(x)=0.92 2 (1.52 − 1.28) 2  S y .′ − y ′ . = 0.8742 ×  + = 0.4477  1 2 0.92 12 10.3514 − 12.0758 t= = −3.85 0.4477 df = 43上一张 下一张 主 页 退 出 查t值表, 值表,t0.01(43)=2.70 , |t| >t0.01(43),P<0.01 表明对照与食欲添加 剂1号配方校正50日龄平均重间存在着极显著的 差异, 差异,这里表现为1号配方的校正50日龄平均重 极显著高于对照。 极显著高于对照。 其余的每两处理间的比较都须 另行算出 S yi .′ − y j .′ ,再进行t检验。 检验。 end (2)最小显著差数法 利用t检验法进行多 重比较, 重比较,每一次比较都要算出各自的 S y .′ − y .′ ,比i j较麻烦。 较麻烦。当误差项自由度在 20以上, 以上,x变量的 变异不甚大(即x变量各处理平均数间差异不显 著),为简便起见, 为简便起见,可计算一个平均的S y .′ − yi j.′采用最小显著差数法进行多重比较。 用最小显著差数法进行多重比较。S yi .′ − y j .′ 的计 算公式如下: 算公式如下:上一张 下一张 主 页 退 出 S y .′ − yi′ j.=' 2MS e n  SS t ( x )  1 +   SS e( x ) (k − 1)  (10-19)公式中SSt(x)为x变量的处理间平方和。 变量的处理间平方和。 然后按误差自由度查临界t值,计算出最小显著 差数: 差数:LSDα = t α ( dfe ) S ′ y . −yij.′(10-20) 本例x变量处理平均数间差异极显著, 变量处理平均数间差异极显著,不满 足“x变量的变异不甚大”这一条件 ,不应采用此 处所介绍的最小显著差数法进行多重比较。 处所介绍的最小显著差数法进行多重比较。为了 便于读者熟悉该方法, 便于读者熟悉该方法,仍以本例的数据说明之。 仍以本例的数据说明之。 此时Sy′ ′ i. − y j.= 2 × 0.8742  0.83 1 + = 0.4354   12  0.92 × (4 − 1) 由 df e' =43,查临界t值得: 值得: t0.05(43)=2.017,t0.01(43)=2.70 于是 LSD0.05=2.017×0.4353=0.878 LSD0.01 =2.70×0.4353 =1.175上一张 下一张 主 页退 出 不同食欲添加剂配方与对照校正50日龄平 均重比较结果见表10—8。 表10—8 不同食欲添加剂配方与对照间的 效果比较表 多重比较结果表明: 多重比较结果表明: 食欲添加剂配方1、2、3号与对照 比较, 比较, 其校正50 日龄平均重间均存在 极 显 著的差异, 著的差异,这 里 表 现 为 配 方 1、2、3号的校正50日龄平均重均极 显著高于对照。 显著高于对照。 (3) 最小显著极差法 当误差自由度在20以上, 以上,x变量的变异不 甚大, 甚大,还可以计算出平均的平均数校正标准 S y 误 ,利用LSR 法进行多重比较。 法进行多重比较。 的计算公式如下: S y 的计算公式如下:MS n' eSy =  SS t ( x ) 1 +  SS e ( x ) ( k − 1)    (10-21)上一张 下一张 主 页退 出 然后由误差自由度 df e′ 和秩次距k查SSR表 (或q表),计算最小显著极差 ),计算最小显著极差: 计算最小显著极差:LSRα = SSRα S y(10-22)对于【例10.1】资料, 资料, 由于不满足“x变量 的变异不甚大”这一条件, 这一条件, 不应采用此处所介绍 的LSR法进行多重比较。 法进行多重比较。为了便于读者熟悉该 方法, 方法,仍以【例10.1】的数据说明之。 的数据说明之。上一张 下一张 主 页 退 出 此时MS =0.8742,' en=12,SSt(x)=0.83, SSe(x)=0.92,k=4,代入 (10—21)式可计算得: 式可计算得:Sy =  0.8742  0.83 1+ = 0.3078   12  0.92 × (4 − 1) SSR值与LSR值见表10—9。上一张 下一张 主 页退 出 表10—9 SSR值与LSR值表上一张 下一张 主 页退 出 各处理校正50日龄平均重多重比较结果见 表10—10。 表10—10 各处理校正50日龄平均重 多重比较表( 多重比较表(SSR法)上一张 下一张 主 页退 出 多重比较结果表明: 多重比较结果表明: 食欲添加剂配方3、2、1号的 哺乳仔猪校正 5 0 日龄平均重极显 著高于对照 ,不同食欲添加剂配方 间哺乳仔猪校正50日龄平均重差异 不显著。 不显著。上一张 下一张 主 页 退 出

范文十:协方差分析简介 投稿:冯莿菀

协方差分析简介

在许多研究中,两组或多组均数的比较还需要控制一些非研究因素的影响,这些非研究因素称为混杂因素(Confounding factor)。

为了帮助读者进一步理解分类自变量的线性回归的回归系数的特殊意义。先用下例说明自变量为二分类变量的直线回归中的回归系数检验与成组t检验之间的关系。

例12.7 为了评价控制饮食对糖尿病控制的作用,在坚持控制饮食的糖尿病人群和未控制饮食的糖尿病人群中各随机抽取30个对象,测量其空腹血糖如下

控制饮食组(group=1) 未控制饮食组(group=0)

6.6 7.3 7.2 7.3 7.4 6.5 7.3 6.4 7.2 7.7 6.8 6.3 7.1 7.8 7.2 7.7 6.7 7.2 6.8 8 6.9 6.6 7 7.4 7.7 7.1 7.1 7.8 6.4 7.4

7.7 7.7 7.2 6.9 7.6 7.4 7.9 6.9 7.5 6.9 8.4 7.2 7.2 7.1 7.8 7.4 7.4 8.4 7.6 7.9 6.9 7.9 7.2 7.5 7 7.2 6.7 7.1 7.3 7.6

数据格式

正态性检验和方差齐性检验的结果表明二组的资料都近似服从正态分布,并且方差齐性。成组t检验的Stata操作和结果如下

ttest y,by(group)

0.1144937。t值为2.5038,相应的P值为0.0151。

若设未控制饮食组(g=0)的空腹血糖总体均数为0,控制饮食组(g=1)的空腹血糖总体均数为0+,即饮食控制组的总体均数-未饮食控制组的总体均数=,因此两组总体均数相等对应就是=0。因此两组的空腹血糖总体均数可用下列表达式描述。

0group (1)

以空腹血糖为应变量y,以分组变量group为自变量,用线性回归对参数0和进行估计,相应的

Stata命令和主要结果如下

-.2866666,正好对应两组样本均数的差值,回归系数=0的t检验值为-2.5,正好对应成组t检验的值,相应的P值也相同。由此可知,t检验也可以用直线回归进行分析并且两分类变量为协变量的回归系数的意义就是两组均数的差值,并且不难证明:凡符合成组t检验条件的资料必定满足线性回归对资料的要求:残差正态和方差齐性。因此以下将通过一些例子介绍利用线性回归在校正一些混杂因素情况下对某两组均数进行比较,即协方差分析。

例12.8 治疗缺铁性贫血50人,随机分为二组:A组和B组,分别用两种不同的治疗方案对患者进行一个疗程的治疗,由此评价两种治疗方案的疗效。数据如下: 治疗前y0 318 316 A组 治疗后y1 492 485 g=1 治疗前y0 323 295

治疗后y1 483 461 治疗前y0 298 327 B组 治疗后y1 430 461 g=0 治疗前y0 345 321

治疗后y1 468 454

345 288 329 331 330 305 294 324 312 337 294 515 426 492 499 500 461 443 475 471 477 442 359 304 307 300 334 313 313 357 324 336 525 460 466 457 499 470 493 542 498 517 322 325 329 295 326 289 322 342 306 285 316 449 430 472 422 448 414 448 487 434 409 435 340 303 323 307 352 308 296 315 331 342 475 440 429 432 500 437 423 442 453 478

其中变量y0为患者在治疗前的红细胞数(万/l),y1为治疗后的红细胞数(万/l),group为分组变量,group=1表示A组和group=0表示B组,相应的Stata格式为

在临床研究中,通常以红细胞增加数作为效应指标评价,因此首先产生红细胞增加数的变量yd,相应的Stata命令如下: 若不考虑治疗前红细胞数(称为基线红细胞数)对增加数的影响,则参照上例的(1)式,对应可以写出相应的两组总体均数表达式:

d=d0+group (2)

其中d0为A组的红细胞增加数的总体均数,d0+为B的红细胞增加数的总体均数,为两组红细胞增加数总体均数之差。但是一般而言,基线红细胞数低的患者经治疗后的增加数可能要大于基线红细胞数较高的患者的增加数,所以要校正基线红细胞数对红细胞增加数的影响,并假定基线红细胞数与红细胞增加数成线性关系。因此在(2)式中增加基线红细胞数变量y0。

d=d0+1group+2y0 (3)

由(3)式可知,A组(group=0)的红细胞增加数的总体均数为d=d0+2y0,而B组 (group=1)的红细胞增加数的总体均数为d=d0+1+2y0,因此对于同一基线红细胞数y0情况,两组红细胞增加数的总体均数差异为1,故(3)式消除了不同基线红细胞数y0对两组总体均数差异的影响。1=0说明两组的疗效相同;1>0说明B组疗效优于A组;1

d0的估计值为50.0882828,1的估计值为34.01444,相应的P值

 在相同的基线红细胞数情况下,A组的红细胞增加数比B组平均高34.01444(万/l)

个红细胞数,并且差别有统计学意义。即:可以认为A组治疗方案的疗效优于B组治疗方案的疗效。

 2的系数估计值为0.2451717,并且差别有统计学意义,因此可以认为基线红细胞

数越高,治疗后的红细胞增加的幅度就越大。

用上述统计方法要求残差(实际观察值-预测值)满足正态分布、两组的残差方差齐性并且基线红细胞数y0与分组变量group无交互作用,故需要对上述条件进行检查,相应的Stata命令和检查结果如下:

态分布。

设检验交互作用的=0.05,交互作用项的系数为0.1784719,P值=0.259>>,故不能认为基线红细胞数与分组变量g有交互作用,根据上述检查结果表明本例资料满足上述协方差分析的条件,因此上述资料用协方差分析的方法是合适的,结果是可信的。

站点地图