上課材料之六

  文件類別:其它

  文件格式:文件格式

  文件大?。?63K

  下載次數:78

  所需積分:3點

  解壓密碼:qg68.cn

  下載地址:[下載地址]

清華大學卓越生產運營總監(jiān)高級研修班

綜合能力考核表詳細內容

上課材料之六
第五章 多元線性回歸模型 在第四章中,我們討論只有一個解釋變量影響被解釋變量的情況,但在實際生活中, 往往是多個解釋變量同時影響著被解釋變量。需要我們建立多元線性回歸模型。 一、多元線性模型及其假定 多元線性回歸模型的一般形式是 [pic] 令列向量x是變量xk,k=1,2,的n個觀測值,并用這些數據組成一個n×K數據矩陣X, 在多數情況下,X的第一列假定為一列1,則β1就是模型中的常數項。最后,令y是n個觀 測值y1, y2, …, yn組成的列向量,現在可將模型寫為: [pic] 構成多元線性回歸模型的一組基本假設為 假定1. [pic] 我們主要興趣在于對參數向量β進行估計和推斷。 假定2. [pic] 假定3. [pic] 假定4. [pic] 我們假定X中不包含ε的任何信息,由于 [pic] (1) 所以假定4暗示著[pic]。 (1)式成立是因為,對于任何的雙變量X,Y,有E(XY)=E(XE(Y|X)),而且[pic] [pic] 這也暗示 [pic] 假定5 X是秩為K的n×K隨機矩陣 這意味著X列滿秩,X的各列是線性無關的。 在需要作假設檢驗和統計推斷時,我們總是假定: 假定6 [pic] 二、最小二乘回歸 1、最小二乘向量系數 采用最小二乘法尋找未知參數β的估計量[pic],它要求β的估計[pic]滿足下面的條件 [pic] (2) 其中[pic],min是對所有的m維向量β取極小值。 也即 [pic] [pic] (3) 滿足(2)式或(3)式的估計量[pic]稱為β的最小二乘估計,這種求估計量的方法稱 為最小二乘法(OLS)。 展開上式得 [pic] 或 [pic] 最小值的必要條件是 [pic] 設b是解,則b滿足正則方程組 [pic] 這正是我們曾分析的最小二乘正則方程組。因為X是滿秩的,所以[pic]的逆存在, 從而得到解是 [pic] 為了證實這確實是最小值,我們需要二階編分矩陣 [pic] 是一個正定矩陣。 我們現在來證明這個結果。對任意一非零向量c,令[pic],則 [pic] 除非[pic]的每一元素都為0,否則q是正的。但若[pic]為零的話,則X的各列的一個線性 組合等于0,這與X滿秩的假定相矛盾。 三、最小二乘估計量的統計特性 在本節(jié)中,我們對回歸量的兩種情況,即非隨機回歸量和隨機回歸量下分別作討論。 1、X非隨機回歸量 若回歸量當作非隨機來進行處理時,則將X當作常數矩陣處理就可導出最小二乘估計 量的各種特性??傻?[pic] (4) 若X是非隨機的,或[pic],則(4)中第二項的期望值是0。所以,最小二乘估計量是 無偏的,它的協方差矩陣是 [pic] [pic] [pic] [pic] [pic] 在前面的內容中,對K=2的特殊b是β的最小方差的線性無偏估計量。現在我們給出這 個基本結果的一個更一般的證明,令[pic]的另一個不同于b的線性無偏估計量,其中C是 一個K×n矩陣。若[pic]是無偏的, [pic] 這暗示著CX=I,并且[pic]。所以可以得到[pic]的協方差矩陣是 [pic] 現在令[pic],由假設知D≠0。那么,[pic] [pic] 于是[pic]是非負定矩陣。 則 [pic] [pic] [pic] 在展開這個四項和式之前,我們注意到 [pic] 由于上面最后一項是I,有DX=0,所以 [pic] [pic] [pic]的方差矩陣等于b的方差矩陣加上一個非負定矩陣。所以,[pic]的每個二次型 都大于[pic]的相應二次型。 利用這個結果可以證明高斯-馬爾科夫定理: 高斯—馬爾科夫定理: 對任意常向量w,古典線性模型中[pic]的最小方差線性無偏估計量是[pic],其中b是 最小二乘估計量。 2、X隨機回歸量 在這樣的情況下,為了得到最小二乘估計量特性更多的一般性,有必要將上面的結果 推廣解釋變量X是來自某種概率分布的情況中去。獲得b的統計特性的一個方便的方法是 ,首先,第一步求得對X的條件期望結果,這等同于非隨機回歸量的情況,第二步,通過 條件分布得到無條件結果。此論點的關鍵是,如果我們對任意X都可能得到條件無偏性, 我們就可以得到一個無條件結果。 因為 [pic] 所以,以觀測到的X為條件我們得到 [pic] 一個有用的方法是利用重期望定律 [pic] [pic] 因為由假定4有[pic],所以,b也是無條件無偏的,這樣, [pic]。 同樣,以X為條件的b的方差是 [pic] 為了求得確切的方差,我們使用方差分解公式: [pic] 由于對所有X,[pic],所以第二項為零,因此, [pic] 我們原來的結論要稍作改變,我們必須用其期望值E[(X′X)-1]來代替原來[pic]以得到適 當的協方差矩陣。 從上一段的結果可以合乎邏輯地建立高斯—馬爾科夫定理, 即對任何[pic],在X給定的條件下有 [pic] 但若這一不等式對一特定X成立,則必須成立: [pic] 即,若它對每一特定X成立,則它一定對X的平均值也成立。這暗示,[pic]≤[pic]。 所以,不論我們是否將X看作是隨機的,即無偏性和高斯—馬爾科夫定理都成立。 四、最小二乘估計量的統計推斷 迄今為止,在我們任一結果還未用到ε的正態(tài)性的假定6,但這一假定對構造假設檢驗 的統計量是有用的和必須的。 1、回歸系數的假設檢驗 我們先討論X非隨機變量時的情況。 在(4)中,b是干擾向量ε的一個線性函數,如果我們假定ε服從多重正態(tài)分布。 利用前面結果及前邊推導的均值向量和協方差矩陣來表示即 [pic] 這是一個多重正態(tài)分布,所以b的每一元素的邊際分布都是正態(tài)分布的: [pic] 令[pic]是[pic]的第k個對角元素,則 [pic] (5) 服從標準正態(tài)分布。若[pic]的統計推斷可以基于[pic]。然而[pic]仍要估計,所以 (5)式中Zk不是統計量。我們要得到[pic]的無偏估計量,才能作進一步的推斷。 按定義最小二乘殘差向量是 [pic] [pic] [pic] [pic] M是回歸分析中一個基本的n×n矩陣,你可以容易地驗證M既是對稱的(M=M′)又是冪等 的(M=M2)。 性質1:X′e=0和i′e=0 證明:由正則方程組,我們得到: [pic] [pic] 所以, i′e=0 由性質1及證明過程我們得到兩個推論: 推論1:[pic]和MX=0。 推論2:[pic]和Mi=0。 推論2成立是因為X′的第一行是(1,1,…,1)。 性質2:e和b互不相關。 [pic] [pic] 從幾何解釋來看這一性質是顯然的,e表示Y到子樣空間的垂線估計量,[pic]和e互相 垂直。 性質3:殘差e的均值向量和協方差陣分別是[pic] 證明:[pic] [pic] [pic] [pic] E(e)=0,暗示[pic]是y的無偏估計量。 性質4:[pic] 證明:最小二乘殘差是 [pic], 這是由于MX=0,[pic]的一個估計量將基于殘差平方和: [pic] 這個二次型的期望值是 [pic] 我們有 [pic][pic] 由于M是固定的,這就是 [pic] M的跡是 [pic] [pic] 所以, [pic], [pic]的一個無偏估計量是 [pic] (6) 回歸的標準誤差是s2,其平方根為s。利用s2,我們可以計算估計量b的估計協方差矩陣 : [pic] 通過利用s2替代[pic],我們導出替代(5)中zk的一個統計量。此量 [pic] 是一個標準正態(tài)向量[pic]的冪等二次型,所以,它服從自由度為秩(M)=跡(M)=n—K 的x2分布。(6)中的x2分布變量獨立于(4)中的標準正態(tài)變量,為了證明這一點,只 要證明 [pic] (7a) 獨立于[pic]就足夠了。我們知道標準正態(tài)向量x的一個線性式Lx和一個冪等二次型x ′Ax獨立的充分條件是LA=0,令[pic]等x,我們發(fā)現這里所需求的是[pic]。這確實成立 ,因為[pic]。 在推導回歸分析中許多檢驗統計量中起中心作用的一般性結果是: 若ε服從正態(tài)分布,最小二乘系數估計量b統計獨立于殘差向量e及包括s2在內的e的所 有函數。 所以,比率 [pic] [pic] (7) 服從自由度為(n—K)的t分布。這是我們作統計推斷的基礎。 線性約束檢驗 我們通常對含有不只一個系數的假設檢驗感興趣,我們可以利用一個類似于(7)中 的檢驗統計量。假定我們的假設是 [pic], (通常某些r將為零)左邊的樣本估計是 [pic] 若[pic]顯著異于q,則我們推斷樣本數據與假設不一致。與(7)一樣,將假設基于下式 是很自然的。 [pic] (7a) 我們需要[pic]的標準誤差的一個估計。由于[pic]是b的一個線性函數,且我們已估計出 了b的方差矩陣[pic],我們可用下式估計[pic]的方差。 [pic] (7)中的分母是這個量的平方根。若假設是正確的,我們的估計應該反映這一事實,至 少在抽樣變化性的范圍內如此。這樣,若前邊的t比率的絕對值大于適當的監(jiān)界值,則應 對假設產生懷疑。 2、隨機X及正態(tài)ε下的檢驗統計量 現在,我們考慮當X是隨機的,樣本檢驗統計量和推斷方法考慮(7)中檢驗[pic]的 t統計量: [pic] (8) 以X為條件,t|X服從自由度為(n—K)的t分布。然而,我們感興趣的是t的邊際(即無條 件)分布。正如我們所見,(7a)僅僅在以X為條件時b才是正態(tài)分布的,我們還沒有證 明它的邊際分布是正態(tài)分布的。類似地,當X是隨機的情況下,在給定X的條件下,我們 得到了(8)式的t統計量,我們還沒有證明t邊際分布也是以(n-K)為自由度的t分布 。事實上,t的邊際分布仍是以(n—K)為自由度的t分布,不論X的分布是什么,甚至不 論X是隨機的還是非隨機的或者是混合的。 這個令人迷惑的結果來自f(t|X)不是X的函數這一事實,同樣的原因可以用來推演不 論X是不是隨機的,通常用以檢驗線性約束的F比率都是有效的。 結論:若干擾項是正態(tài)分布的,我們可以在我們的過程中不加變化地進行檢驗和構造 參數的置信區(qū)間,而不去考慮回歸量是隨機的、非隨機的,還是它們的混合。 3、擬合優(yōu)度和方差分析 由方差分解公式,我們有:[pic]。我們用冪等矩陣M0來表示: [pic] [pic] [pic] 所以,[pic]和[pic] 進一步研究回歸平方和SSR與殘差平方和SSE,我們可以得到下面三個結論: a)在β=0的假設條件下,回歸平方和[pic]服從自由度為K-1的卡方分布x2(K-1); b)殘差平方和[pic]服從自由度為n-K的卡方分布x2(n-K); c)在β=0的假設條件下,[pic]服從F(k-1,n-k)分布。 證明:a)M0-M是冪等矩陣。先證明M0M+MM0=2M。 M0M+MM0 [pic] [pic] =2M 從而[pic] [pic] 所以,[pic]。 在β=0的假設條件下,[pic]才服從自由度為K-1的卡方分布x2(K-1)(為什么?) b)因為M是冪等矩陣而且[pic][pic] c)只要驗證[pic]即可。 事實上,[pic] [pic]。 和前一章的情況一樣,我們要對回歸模型的好壞,作出評價,決定系數[pic]就是對 模型擬合的一個度量,計算R2有兩個等價的方法。 決定系數[pic] 進一步推導和化解,我們可以得到R2另一個公式。 [pic],以及M0e=e(表示殘差已經具有零均值)和X′e=0。 [pic] 所以,[pic] [pic] [pic] [pic] 第一個方法度量了y的總變差中由回歸變差所解釋的部分,第二個是y的觀測值和由估 計的回歸方程所產生的預測值間的相關系數的平方。 當利用R2來比較不同的線性統計模型的擬合度時,存在一個嚴重的缺點,就是它的值 隨著解釋變量的增多而增大。為了克服這個缺點,我們可以用調整的R2來測度一個模型 的解釋能力,這個調整的R2被記[pic],它的表達式為 [pic] [pic] 這里[pic]的無偏估計量,(思考:當y服從正態(tài)分布時,[pic]的一個無偏估計量) 。[pic]不同的是,隨著解釋變量的增多,它的值可能變小,甚至要能取負值。 因為[pic] 所以,SSR=[pic] [pic] [pic] 我們得到了回歸方差的另一個表達式,請見多元線性回歸模型方差分析表。 表1 多元線性回歸模型方差分析 | |來源 |自由度 |均方 | |回歸 |[pic] |K-1 | | |殘差 |[pic] |n-K |s2 | |總 |[pic] |n-1 |[pic] | |[pic] | 4、回歸的顯著性檢驗 一個通常要檢驗的假定是回歸方程作為整體的顯著性,這是對除了常數項外所有常數 都為0的假設的聯合檢驗。若所有系數為0,則多重相關系數為0,所以我們可以將這一假 定的一個檢驗基于R2值上。統計量 [pic] 服從自由度為K-1和n-K的F分布,檢驗的邏輯是,F統計量是對我們強加所有斜率都是 0的這一約束時的擬合損失的一個度量(R2的全部),若F大,假設被拒絕。 五、預測 多元回歸環(huán)境下的預測結果與前一章中討論的那些本質是一樣的。假定我們希望預測 與回歸向量x0相應的y0值。它將是 [pic] ([pic],且 [pic] i=1,…,n) 由高斯—馬爾科夫定理知 [pic] 是y0的最小方差線性無偏估計量。 個體預測(Individual Prediction)誤差是 [pic] ([pic],且 [pic] i=1,…,n) 這個估計的預測方差是 [pic] [pic] 若回歸含有一個常數項,一個等價的表達式是 [pic] 其中X是X的不包含全為1的列的最后K-1列。這表明,和以前一樣,區(qū)間的寬度依賴 于x0的元素與數...
上課材料之六
 

[下載聲明]
1.本站的所有資料均為資料作者提供和網友推薦收集整理而來,僅供學習和研究交流使用。如有侵犯到您版權的,請來電指出,本站將立即改正。電話:010-82593357。
2、訪問管理資源網的用戶必須明白,本站對提供下載的學習資料等不擁有任何權利,版權歸該下載資源的合法擁有者所有。
3、本站保證站內提供的所有可下載資源都是按“原樣”提供,本站未做過任何改動;但本網站不保證本站提供的下載資源的準確性、安全性和完整性;同時本網站也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的損失或傷害。
4、未經本網站的明確許可,任何人不得大量鏈接本站下載資源;不得復制或仿造本網站。本網站對其自行開發(fā)的或和他人共同開發(fā)的所有內容、技術手段和服務擁有全部知識產權,任何人不得侵害或破壞,也不得擅自使用。

 我要上傳資料,請點我!
COPYRIGT @ 2018-2028 http://www.fanshiren.cn INC. ALL RIGHTS RESERVED. 管理資源網 版權所有