附錄B 一元線性回歸分析
1 一元線性回歸方程
假設(shè)兩個變量x與y之間線性相關(guān),現(xiàn)由試驗獲得x和y 的一組樣本數(shù)據(jù)(xi,yi),記它們之間的線性關(guān)系如下:
yi=a+bxi+εi (i=1,2,……,n,n>2) (B-1)
式中,a、b為待定的估計量;εi為獨立、等權(quán)的正態(tài)偶然誤差N(0,σ2); xi為普通自變量,如有隨機性,則歸入 εi之中。
為求得a 和b,用線性最小二乘法,即令
(B-2)
其正則方程組為:
記
(B-3)
正則方程組可改寫為:
求得
(B-4)
由此獲得方程
(B-5)
稱為上述樣本(xi,yi) 的一元線性回歸方程,b稱為回歸系數(shù)。在笛卡爾座標系中,上式表示的是一條通過重心() 的回歸直線。b>0, 表明y 隨x 有線性增大的趨勢;b<0,表明y 隨x有線性減小的趨勢。
2 線性回歸效果檢驗
對任意一組樣本數(shù)據(jù),形式上都可按最小二乘法擬合出一條回歸直線。顯然,線性擬合的效果會有顯著與不顯著之分。以下,介紹用方差分析的方法來檢驗它。
測量值y?,y?,…,yn,之間的差異,是有兩個方面的原因引起的:一是自變量x 取值的不同;二是測量誤差等其他因素的影響。為了對(xi,yi)線性回歸的效果進行檢驗,必須將上述兩原因造成的結(jié)果分解出來。如圖B-1所示,將變量y 的n 個測值yi 與其平均值的偏離(yi-) 分解為由變量x 的不同取值引起的回歸偏離() 和由測量誤差等其他因素造成的剩余偏離()。并進一步用n個取值的偏離平方和來描述它們,分別記為Σ總、Σ回、Σ剩。
圖B-1 一元線性回歸直線方差分析
(B-6)
叫總偏離平方和。因為
可以證明,以上交叉項為零。
因此有
Σ總=Σ剩+Σ回
這樣就把總偏離平方和Σ總,分解為回歸平方和Σ回及剩余平方和Σ剩兩部分。回歸平方和Σ回反映了在y 總的偏離中因x 和y 的線性關(guān)系而引起y 變化的大小。剩余平方和Σ剩反映了在y 總的偏離中除了x 對y 線性影響之外的其他因素而引起y 變化的大小。 這些其他因素包括測量誤差x 和y不能用直線關(guān)系描述的因素以及其他未加控制的因素等。由式(B-2) 可知,回歸分析的要求就是應(yīng)使剩余平方和最小。即Σ剩愈小,回歸效果愈好。
由式(B-4)與式(B-5),可將Σ回寫成
(B-7)
而
Σ剩=Σ總-Σ回 (B-8)
由回歸平方和及剩余平方和的意義可知,一個線性回歸方程是否顯著,取決于Σ回及Σ剩的大小。若Σ回愈大而Σ剩愈小,則說明y與x 線性關(guān)系愈密切?;貧w方程顯著的檢驗,通常采用F 檢驗法。這里,需要構(gòu)造統(tǒng)計量
(B-9)
式中,v回為回歸平方和的自由度;v剩為剩余平方和的自由度。在假定剩余偏離εi服從獨立、等權(quán)正態(tài)隨機誤差分布的前提下,F是服從F(v回,v剩)分布的。
自由度是指獨立觀測值的個數(shù)。因Σ總中n個觀測值yi受平均值的約束,這就等于有一個測值不是獨立的,即失去一個自由度,余下自由度v總=n-1 。∑ 回中只有b是獨立變化的,即自由度v回=1。因此,自由度v剩=v總-v回=n-2。
將自由度代回式(B-9)有
(B-10)
在給定顯著性水平a下,查F分布的臨界值Fa(1,n-2) 。 將計算值F 與Fa(1,n-2)
比較,若
F>Fa(1,n-2) 則認為該回歸效果顯著;反之,則不顯著。
通常認為在a=0.01水平上顯著,即
F>F0.01(1,n-2)
是回歸高度顯著;
在α=0.05水平上顯著,即
F0.05(1,n-2)≤F≤F0.01(1,n-2)
是回歸顯著;
在α=0.10水平上顯著,即
F0.10(1,n-2)≤F≤F0.05(1,n-2)
是在0.1水平上顯著。 式(B-10)的分母
為剩余方差,于是得剩余標準差
(B-11)
它的意義是表征除了x 與y線性關(guān)系之外其他因素影響y值偏離得大小。
線性回歸效果的檢驗,可歸納為如下方差分析表,根據(jù)該表按照如下步驟進行檢驗:
(1)依序計算統(tǒng)計量:
Σ總= lyy
Σ回= blxy
Σ剩= Σ總-Σ回
表B-1 方差分析表
偏離 | 平方和 | 自由度 | 標準偏差 | 統(tǒng)計量F | 置信限Fa(1,n-2) | ||
a=0.0 | α=0.05 | α=0.1 | |||||
回歸 | Σ回= blxy | 1 | |||||
剩余 | Σ剩= Σ總-Σ回 |
n-2 | |||||
總和 | Σ總= lyy | n-1 | 顯著否 | 顯著否 | 顯著否 |
(2)按一定顯著水平α和自由度n-2 查 F 分布表,得到Fa(1,n-2) 的數(shù)值,比較統(tǒng)計量F與Fa(1,n-2)的大小,作出判斷結(jié)論。
3 回歸預(yù)測區(qū)間
在某個非試驗點x=x0處,按回歸方程y=a+bx 求得回歸值。,需要預(yù)報。偏離實際值y0有多大。這是要解決一個回歸預(yù)測的精度問題。
這里,為討論方便,仍假設(shè)測量值y及回歸值 均服從正態(tài)分布??蓸?gòu)造一個服從t 分布的統(tǒng)計量
(B-12)
在給定的置信水平p下,有如下的預(yù)測區(qū)間
(B-13)
式中
(B-14)
λ可查t 分布臨界值獲得。
式(B-13) 與(B-14) 表明,用回歸方程預(yù)測的偏差△除與p、n及S 有關(guān)外,還與觀測x 有關(guān)。當x 靠近x, △小;當x 遠離x 時,△就大。特別當x 在 x 附近,n 又足夠大時,可簡 化得y 的預(yù)測區(qū)間
(B-15)
λ可查t 分布臨界值獲得。