導航:首頁 > 股市基金 > 線性回歸評價指標

線性回歸評價指標

發布時間:2022-04-09 17:07:17

1. 回歸方程中的決定系數r2怎麼計算

回歸的決定系數=(總變化-無法解釋的變化)/總變化=(0.001497-0.000230)/ 0.001497=0.8464。

請注意,此方法得出的結果與我們先前獲得的結果相同。我們將在後邊多元回歸中再次使用這個方法:當存在多個自變數時,這種方法是計算確定系數的唯一方法。

決定系數(coefficient of determination,R2)是反映模型擬合優度的重要的統計量,為回歸平方和與總平方和之比。R2取值在0到1之間,且無單位,其數值大小反映了回歸貢獻的相對程度,即在因變數Y的總變異中回歸關系所能解釋的百分比。

R2是最常用於評價回歸模型優劣程度的指標,R2越大(接近於1),所擬合的回歸方程越優,如下表,指數曲線的R2為0.9926,最接近1,表明在5個回歸方程中,指數曲線(log(y) =1.9656-0.2199x)為最優方程。

(1)線性回歸評價指標擴展閱讀

雖然R2可以用來評價回歸方程的優劣,但隨著自變數個數的增加,R2將不斷增大,若對兩個具有不同個數自變數的回歸方程進行比較時,

不能簡單地用R2作為評價回歸方程的標准,還必須考慮方程所包含的自變數個數的影響,此時應用校正的決定系數(R2-adjusted):Rc2,所謂「最優」回歸方程是指Rc2最大者。因此在討論多重回歸的結果時,通常使用Rc2。

2. 常用於評價回歸模型優劣的統計量包括

決定系數。

決定系數是反映模型擬合優度的重要的統計量,為回歸平方和與總平方和之比。R2取值在0到1之間,且無單位,其數值大小反映了回歸貢獻的相對程度,即在因變數Y的總變異中回歸關系所能解釋的百分比。 R2是最常用於評價回歸模型優劣程度的指標,R2越大(接近於1),所擬合的回歸方程越優。

(2)線性回歸評價指標擴展閱讀:

雖然R2可以用來評價回歸方程的優劣,但隨著自變數個數的增加,R2將不斷增大(因為自變數個數的增加,意味著模型的復雜度升高,對樣本數據的擬合程度會提高)。

若對兩個具有不同個數自變數的回歸方程進行比較時,不能簡單地用R2作為評價回歸方程的標准,還必須考慮方程所包含的自變數個數。其中n是樣本數量,p是模型中變數的個數,當變數個數為0時,修正和原始的R方是一樣的。

就是相當於給變數的個數加懲罰項。換句話說,如果兩個模型,樣本數一樣,R2一樣,那麼從修正R2的角度看,使用變數個數少的那個模型更優。

3. 求助線性回歸分析論文

第一節 一元線性回歸方程的顯著性檢驗

由上面的討論知,對於任何的兩個變數x和Y的一組觀測數據( )(i=1,2,……,n)按公式(10)和(11)都可以確定一個回歸方程

然而事前並不知道Y和x之間是否存在線性關系,如果兩個變數Y和x之間並不存在顯著的線性相關關系,那麼這樣確定的回歸方程顯然是毫無實際意義的.因此,我們首先要判斷Y和x是否線性相關,也就是要來檢驗線性假設 是否可信,顯然,如果Y和x之間無線性關系,則線性模型的一次項系數 =0;否則 0.所以檢驗兩個變數之間是否存在線性相關關系,歸根到底是要檢驗假設

根據現行假設對數據所提的要求可知,觀察值 , ,…… 之間的差異,是有兩個方面的原因引起的:(1)自變數x的值不相同;(2)其它因素的影響,檢驗 是否成立的問題,也就是檢驗這兩方面的影響哪一個是主要的問題.因此,就必須把他們引起的差異從Y的總的差異中分解出來.也就是說,為了選擇適當的檢驗統計量,先導出離差平方和的分解因式.[6]

一、離差平方和的分解公式

觀察值 (i=1,2,……,n),與其平均值 的離差平方和,稱為總的離差平方和,記作

因為

=

其中:

=2

=2

=2

=2

所以

=

由於 中的 , 為(10)和(11)所確定.即它們滿足正規方程組(9)的解.因此定義項

=

於是得到了總離差平方和的分解公式:

其中

(19)

是回歸直線 上橫坐標為 的點的縱坐標,並且 的平均值為 , 是 這n個數的偏差平方和,它描述了 的離散程度,還說明它是來源於 的分散性,並且是通過x對於Y的線性影響而反映出來的,所以, 稱為回歸平方和

而 =

它正是前面討論的 的最小值,在假設(1)式的條件下它是由不可觀察的隨機變數 引起的,也就是說,它是由其它未控制的因素及試驗誤差引起的,它的大小反映了其它因素以及試驗誤差對實驗結果得影響.我們稱 為剩餘平方和或殘差平方和.[7]

二、 、 的性質及其分布

由以上分析可知,要解決判斷Y和x之間是否存在線性相關關系的問題,需要通過比較回歸平方和和剩餘平方和來實現.為了更清楚地說明這一點,並尋求出檢驗統計量,考察估計量 , 的性質及其分布.

(一) 的分布

由(14)式可知

=

在 相互獨立且服從同一分布 的假定下由(2)知 , ,…… 是P個相互獨立的隨機變數,且 (i=1,2,……,n)所以他們的平均值 的數學期望為:

因為 是 的線性函數,且有:

這說明 是 的無偏估計量且 的方差為

所以

即:

同樣可證,對於任意給定的 其對應的回歸值 (它是 的點估計)適合

( ,

(二) 方差 的估計及分布

因為

=

=

=

由 、 及 可得

=

又由於 及E(L),E(U)得

=E(L)+E(U) =(n-2)

從而,說明了 = = 是 的無偏估計量,由此可見,不論假設 成立與否, 是 的一個無偏估計量,而 僅當假設成立時,才是 的一個無偏估計量,否則它的期望值大於 .說明比值

(20)

在假設成立時有偏大傾向,也就是說,如果F取得值相當大,則沒有理由認為x和Y之間有線性相關關系,也就是下面我們將採用F作為檢驗統計量的原因.另外,由於 , 是 的最小二乘估計,由(8)式可知

=0 , =0

這表明 中的n個變數 , …… 之間有兩個獨立的線性約束條件,

4. 哪些指標可用於評價線性回歸模型的整體擬合程度

不知道你要怎樣比較預測值和真實值,比如計算一下殘差值,或者計算一下均方誤差之類?
在Linear Regression對話框,點Save按鈕,會出現Linear Regression:Save對話框,在Predicted Values(預測值)和Resials(殘差)欄都選Unstandardized,會在數據表中輸出預測值和殘差,然後你想怎麼比較都行.
判斷模型是否有預測能力,其實就是模型檢驗,模型檢驗除了統計意義上的檢驗,還有實際意義上的檢驗,就是檢驗是否跟事實相符,比如收入與消費應該是正相關的,如果消費為被解釋變數、收入為解釋變數,如果收入的系數小於零,那肯定是不對的.
統計意義上的檢驗,包括參數的T檢驗,方程的F檢驗,還要檢驗殘差是否白雜訊.
檢驗模型是否具有外推預測能力,還可以這樣做:比如,你收集了一個容量為50的樣本,你可以用其中的48個樣本點估計模型,然後估計另兩個樣本點,把估計值跟實際值做一個比較.

5. 評價線性回歸模型的指標有哪些

擬合優度。調整的擬合優度。

6. 響應關系模型與評價標准值

(一)建立響應關系模型

大量研究證實,農作物籽實中重金屬元素含量與其在土壤中的含量具有正相關的趨勢,即隨土壤中元素含量的增高籽實中含量也增高。這是建立土壤-籽實響應關系模型的重要依據之一。

1.土壤Cd與籽實Cd的關系

廖自基根據近百組樣本的統計分析(表4-6、表4-7)發現,稻米、小麥、玉米中Cd的含量隨土壤Cd含量的增加而升高,且根部最為富集,莖桿次之,籽實中含量最少。

土壤環境容量研究組的大量研究(表4-8)說明,水稻、冬小麥、春小麥、玉米、大豆等作物籽實、莖葉中Cd含量均因土壤Cd含量增加而增加,而且所試驗的褐土、黑土、棕壤、紅壤、赤紅壤、磚紅壤等土壤類型均是如此。

表4-6 土壤中Cd含量與谷糧中Cd含量的相關性Table 4-6 The relativity of Cd content in soil and grain

(據廖自基,1989)

表4-7 Cd在水稻各部位的含量分布Table 4-7 The content distribution of Cd in each part of rice(mg/kg)

(據廖自基,1989)

2.土壤Hg與籽實Hg的關系

根據土壤環境容量研究組的研究(表4-9),在草甸褐土和草甸棕壤上,水稻、小麥、大豆三種作物籽實、莖葉中Hg含量均因土壤Hg含量的增加而增加,但變化的程度不同。土壤中Hg增加0.5mg/kg,小麥籽實、莖葉中Hg含量增加得最多,其次是水稻,大豆的籽實、莖葉中Hg增加最少。這說明,小麥對土壤Hg含量反映最敏感,大豆對Hg不敏感,水稻居中。姜向陽等的研究也表明,稻米Hg含量與土壤Hg含量間存在正相關關系(圖4-4)。

表4-8 土壤、籽實和莖葉含鎘濃度Table 4-8 The concentration of Cd in soil,seeds,stems and leaves(mg/kg)

續表

註:資料來源於土壤環境容量研究組,1996;下劃橫線者表示超過飼料衛生標准;ck表示對照。

表4-9 土壤、籽實和莖葉含Hg濃度Table 4-9 The concentration of Hg in soil,seeds,stems and leaves(mg/kg)

註:資料來源於土壤環境容量研究組,1996。

圖4-4 土壤Hg含量與稻米Hg含量關系圖

Fig.4-4 Relationship between Hg in soil and Hg in rice

3.土壤Pb與籽實Pb的關系

土壤環境容量研究組的大量研究(表4-10)說明,水稻、冬小麥、玉米、大豆等作物籽實、莖葉中Pb含量均因土壤Pb含量增加而增加,而且所試驗的褐土、灰鈣土、黑土、棕壤、紅壤、赤紅壤、磚紅壤等土壤類型均有同樣的規律。不同之處在於,與對照土壤相比,試驗土壤的籽實Pb含量雖未超標,但部分莖葉Pb含量已表現為超標。

表4-10 土壤、籽實和莖葉含Pb濃度Table 4-10 The concentration of Pb in soil,seeds,stems and leaves(mg/kg)

註:資料來源於土壤環境容量研究組,1996;下劃橫線者表示超過飼料衛生標准;ck表示對照。

4.土壤As與籽實As的關系

土壤環境容量研究組的大量研究(表4-11)說明,水稻、冬小麥、春小麥、玉米、大豆等作物籽實、莖葉中As含量均因土壤As含量的增加而增加,而且所試驗的褐土、灰鈣土、黑土、棕壤、紅壤、赤紅壤、磚紅壤等土壤類型均有同樣的規律。與土壤Pb和作物Pb的關系相同,As在莖葉中累積大於其在籽實中累積,即表現為在籽實Pb含量均不超標的情況下,部分莖葉As含量已經超標。

5.土壤Cr與籽實Cr的關系

根據土壤環境容量研究組的研究(表4-12),水稻籽實、莖葉中Cr含量也因土壤Cr含量的增加而增加,而且莖葉Cr增加幅度比籽實增加幅度大。王瑋的研究表明,蔬菜和稻穀中Cr含量均因土壤Cr含量增加而增高。另據韓愛民等研究,糙米Cr含量與相應土壤中的Cr含量成明顯的正相關關系,回歸方程為y=0.087 x-0.373(y為糙米Cr含量,x為土壤Cr含量;樣本數為16)。

表4-11 土壤、籽實和莖葉含As濃度Table 4-11 The concentration of As in soil,seeds,stems and leaves(mg/kg)

註:資料來源於土壤環境容量研究組,1996;下劃橫線者表示超過飼料衛生標准;ck表示對照。

表4-12 土壤、籽實和莖葉含Cr濃度Table 4-12 The concentration of Cr in soil,seeds,stems and leaves(mg/kg)

註:資料來源於土壤環境容量研究組,1996;ck表示對照。

上述5種指標元素的土壤-籽實含量的統計特徵,以及浙江平原盆地地區的土壤籽實的實測數據統計結果(見第五章)說明,土壤-籽實間的含量響應關系並不是簡單的線性函數關系,而是正相關統計分布趨勢,這是建立土壤-籽實響應關系模型的依據之一。另外,由於土壤物理化學性質的差異性和農作物吸收機制的復雜性,即使對同一品種的同種農作物而言,土壤-籽實間的元素含量關系統計也顯示出帶狀分布特徵(亦見第五章)。這種帶狀分布特徵說明,籽實中元素含量對土壤中該元素含量的響應關系具有總體趨勢的必然性和單組樣本的偶然性。也就是說,當土壤-籽實元素數據組較小時,存在於土壤-籽實間元素含量的關系特徵可能被偶然性所掩蓋。因此,土壤-籽實元素含量間的帶狀統計分布特徵,是建立土壤-籽實響應關系模型(圖4-5)的又一重要依據。

(二)確定評價標准值的方法

土壤-籽實響應關系模型說明,利用土壤中某指標元素含量預報其上生長的農作物籽實中該元素的含量,二者不是確定性函數關系,而是統計概率關系。即已知土壤中某指標元素含量,可以預報其上生長的農作物籽實中該元素含量的變化范圍或含量水平的保障程度。通過實際數據分析(見第五章),採用95%置信區間可以較好地刻畫土壤-籽實元素響應關系模型(圖4-5)。

圖4-5 用回歸分析法確定評價標准值

Fig.4-5 Determination of evaluation criteria through regression analysis

為了簡便起見,暫採用線性回歸方程及其95%置信區間。對每一項評價指標分別作其籽實(y)-根系土(x)的統計相關圖,求出回歸方程y=ax+b和95%置信度下由y=ax+b+2σ和y=ax+b-2σ構造的帶狀分布區域(圖4-5)。再利用國家食品衛生標准值(Y0)(如Cd為0.2mg/kg)反算回歸值X0-2σ/a、X0和X0+2σ/a,即y=Y0與方程y=αx+b+2σ、y=ax+b和y=ax+b-2σ的交點。

在95%置信度下,當土壤中某指標元素含量小於回歸值X0-2σ/a時,其上生產的農作物籽實的指標元素含量低於國家食品衛生標准(Y0);當土壤中指標元素含量介於回歸值X0-2σ/a與X0之間時,其上生產的農作物籽實中指標元素含量大部分(75%可能性)低於國家食品衛生標准(Y0);當土壤指標元素含量介於回歸值X0與X0+2σ/a之間時,其上生產的農作物籽實指標元素含量大部分(75%可能性)高於國家食品衛生標准(Y0);當土壤指標元素含量大於回歸值X0+2σ/a時,其上生產的農作物籽實指標元素含量高於國家食品衛生標准(Y0)。據此,可以把回歸值X0-2σ/α、X0和X0+2σ/α分別定義為該指標的安全界限值、基本安全界限值和危險界限值。

根據上述評價標准值,可以把土地分為四級。安全土地是指土壤中指標元素含量低於安全界限值的土地;基本安全土地是指土壤中指標元素含量介於安全界限值與基本安全界限值之間的土地;警戒土地是指土壤中指標元素含量介於基本安全界限值與危險界限值之間的土地;危險土地是指土壤中指標元素含量高於危險界限值的土地。

7. 線性回歸方程擬合效果的好壞怎麼判斷(高中數學)

R的平方愈接近1,這說明擬合效果就越好擬合的函數愈逼真。相關系數越接近1越好,一般要求大於0.9,統計量的概率一般要小於0.05,所做的模型才可以使用。此外殘差的置信區間應該包括0,但是對於擬合到什麼程度,才算滿意沒有嚴格的標准來進行界定。

線性回歸方程是利用數理統計中的回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法之一。線性回歸也是回歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。按自變數個數可分為一元線性回歸分析方程和多元線性回歸分析方程。

在統計學中,線性回歸方程是利用最小二乘函數對一個或多個自變數和因變數之間關系進行建模的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。只有一個自變數的情況稱為簡單回歸,大於一個自變數情況的叫做多元回歸。(這反過來又應當由多個相關的因變數預測的多元線性回歸區別,而不是一個單一的標量變數。)

在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。

不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯合概率分布(多元分析領域)。

8. 評價回歸模型是否合適的方法

當你只知道一兩種技巧時,生活通常是簡單的。如果結果是連續的,使用線性回歸;如果結果是二值的,使用邏輯回歸!然而,可供選擇的選項越多,選擇合適的答案就越困難。類似的情況也發生在回歸模型選擇中。
1、在多種類型的回歸模型中,基於自變數和因變數的類型、數據維數和數據的其它本質特徵,選擇最合適的技術是很重要的。以下是如何選擇合適的回歸模型的幾點建議:
(1)數據挖掘是建立預測模型不可缺少的環節。這應該是選擇正確的模型的第一步,比如確定各變數的關系和影響。
(2)比較適合於不同模型的擬合程度,我們可以分析它們不同的指標參數,例如統計意義的參數,R-square,Adjusted R-square,AIC,BIC 以及誤差項,另一個是 Mallows』 Cp 准則。通過將模型與所有可能的子模型進行對比(或小心地選擇他們),檢查模型可能的偏差。
(3)交叉驗證是評價預測模型的最佳方法。你可以將數據集分成兩組(訓練集和驗證集)。通過衡量觀測值和預測值之間簡單的均方差就能給出預測精度的度量。
(4)如果數據集有多個混合變數,則不應使用自動模型選擇方法,因為不希望同時將這些混合變數放入模型中。
(5)這也取決於你的目標。與高度統計學意義的模型相比,簡單的模型更容易實現。
(6)回歸正則化方法(LasSo、Ridge 和 ElasticNet)在數據集是高維和自變數是多重共線性的情況下工作良好。
2、什麼是回歸分析?回歸分析是一種預測建模技術的方法,研究因變數(目標)和自變數(預測器)之前的關系。這一技術被用在預測、時間序列模型和尋找變數之間因果關系。
3、有哪些回歸類型呢?
(1) 線性回歸(Linear Regression)
線性回歸是最為人熟知的建模技術,是人們學習如何預測模型時的首選之一。在此技術中,因變數是連續的,自變數可以是連續的也可以是離散的。回歸的本質是線性的。
線性回歸通過使用最佳的擬合直線(又被稱為回歸線),建立因變數(Y)和一個或多個自變數(X)之間的關系。
它的表達式為:Y=a+b*X+e,其中 a 為直線截距,b 為直線斜率,e 為誤差項。如果給出了自變數 X,就能通過這個線性回歸表達式計算出預測值,即因變數 Y。
(2)邏輯回歸用來計算事件成功(Success)或者失敗(Failure)的概率。當因變數是二進制(0/1,True/False,Yes/No)時,應該使用邏輯回歸。這里,Y 的取值范圍為 [0,1],它可以由下列等式來表示。
其中,p 是事件發生的概率。你可能會有這樣的疑問「為什麼在等式中使用對數 log 呢?」
因為我們這里使用的二項分布(因變數),所以需要選擇一個合適的激活函數能夠將輸出映射到 [0,1] 之間,Logit 函數滿足要求。在上面的等式中,通過使用最大似然估計來得到最佳的參數,而不是使用線性回歸最小化平方誤差的方法。

9. Logistic回歸分析指標重要程度的主要過程是什麼

Logistic回歸:實際上屬於判別分析,因擁有很差的判別效率而不常用。
1. 應用范圍:
① 適用於流行病學資料的危險因素分析
② 實驗室中葯物的劑量-反應關系
③ 臨床試驗評價
④ 疾病的預後因素分析
2. Logistic回歸的分類:
① 按因變數的資料類型分:
二分類
多分類
其中二分較為常用
② 按研究方法分:
條 件Logistic回歸
非條件Logistic回歸
兩者針對的資料類型不一樣,後者針對成組研究,前者針對配對或配伍研究。
3.Logistic回歸的應用條件是:
① 獨立性。各觀測對象間是相互獨立的;
② LogitP與自變數是線性關系;
③ 樣本量。經驗值是病例對照各50例以上或為自變數的5-10倍(以10倍為宜),不過隨著統計技術和軟體的發展,樣本量較小或不能進行似然估計的情況下可採用精確logistic回歸分析,此時要求分析變數不能太多,且變數分類不能太多;
④ 當隊列資料進行logistic回歸分析時,觀察時間應該相同,否則需考慮觀察時間的影響(建議用Poisson回歸)。
4. 擬和logistic回歸方程的步驟:
① 對每一個變數進行量化,並進行單因素分析;
② 數據的離散化,對於連續性變數在分析過程中常常需要進行離散變成等級資料。可採用的方法有依據經驗進行離散,或是按照四分、五分位數法來確定等級,也可採用聚類方法將計量資料聚為二類或多類,變為離散變數。
③ 對性質相近的一些自變數進行部分多因素分析,並探討各自變數(等級變數,數值變數)納入模型時的適宜尺度,及對自變數進行必要的變數變換;
④ 在單變數分析和相關自變數分析的基礎上,對P≤α(常取0.2,0.15或0.3)的變數,以及專業上認為重要的變數進行多因素的逐步篩選;模型程序每擬合一個模型將給出多個指標值,供用戶判斷模型優劣和篩選變數。可以採用雙向篩選技術:a進入變數的篩選用score統計量或G統計量或LRS(似然比統計量),用戶確定P值臨界值如:0.05、0.1或0.2,選擇統計量顯著且最大的變數進入模型;b剔除變數的選擇用Z統計量(Wald統計量),用戶確定其P值顯著性水平,當變數不顯者,從模型中予以剔除。這樣,選入和剔除反復循環,直至無變數選入,也無變數刪除為止,選入或剔除的顯著界值的確定要依具體的問題和變數的多寡而定,一般地,當納入模型的變數偏多,可提高選入界值或降低剔除標准,反之,則降低選入界值、提高刪除標准。但篩選標準的不同會影響分析結果,這在與他人結果比較時應當注意。
⑤ 在多因素篩選模型的基礎上,考慮有無必要納入變數的交互作用項;兩變數間的交互作用為一級交互作用,可推廣到二級或多級交互作用,但在實際應用中,各變數最好相互獨立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一級交互作用。
⑥ 對專業上認為重要但未選入回歸方程的要查明原因。
5. 回歸方程擬合優劣的判斷(為線性回歸方程判斷依據,可用於logistic回歸分析)
① 決定系數(R2)和校正決定系數( ),可以用來評價回歸方程的優劣。R2隨著自變數個數的增加而增加,所以需要校正;校正決定系數( )越大,方程越優。但亦有研究指出R2是多元線性回歸中經常用到的一個指標,表示的是因變數的變動中由模型中自變數所解釋的百分比,並不涉及預測值與觀測值之間差別的問題,因此在logistic回歸中不適合。
② Cp選擇法:選擇Cp最接近p或p+1的方程(不同學者解釋不同)。Cp無法用SPSS直接計算,可能需要手工。1964年CL Mallows提出:

Cp接近(p+1)的模型為最佳,其中p為方程中自變數的個數,m為自變數總個數。
③ AIC准則:1973年由日本學者赤池提出AIC計算準則,AIC越小擬合的方程越好。

在logistic回歸中,評價模型擬合優度的指標主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指標、Akaike信息准則(AIC)、SC指標等。Pearson χ2、偏差(deviance)主要用於自變數不多且為分類變數的情況,當自變數增多且含有連續型變數時,用HL指標則更為恰當。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指標值均服從χ2分布,χ2檢驗無統計學意義(P>0.05)表示模型擬合的較好,χ2檢驗有統計學意義(P≤0.05)則表示模型擬合的較差。AIC和SC指標還可用於比較模型的優劣,當擬合多個模型時,可以將不同模型按其AIC和SC指標值排序,AIC和SC值較小者一般認為擬合得更好。
6. 擬合方程的注意事項:
① 進行方程擬合對自變數篩選採用逐步選擇法[前進法(forward)、後退法(backward)、逐步回歸法(stepwise)]時,引入變數的檢驗水準要小於或等於剔除變數的檢驗水準;
② 小樣本檢驗水準α定為0.10或0.15,大樣本把α定為0.05。值越小說明自變數選取的標准越嚴;
③ 在逐步回歸的時可根據需要放寬或限制進入方程的標准,或硬性將最感興趣的研究變數選入方程;
④ 強影響點記錄的選擇:從理論上講,每一個樣本點對回歸模型的影響應該是同等的,實際並非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應刪去,沒有錯誤的強影響點可能和自變數與應變數的相關有關,不可輕易刪除。
⑤ 多重共線性的診斷(SPSS中的指標):a容許度:越近似於0,共線性越強;b特徵根:越近似於0,共線性越強;c條件指數:越大,共線性越強;
⑥ 異常點的檢查:主要包括特異點(outher)、高杠桿點(high leverage points)以及強影響點(influential points)。特異點是指殘差較其他各點大得多的點;高杠桿點是指距離其他樣品較遠的點;強影響點是指對模型有較大影響的點,模型中包含該點與不包含該點會使求得的回歸系數相差很大。單獨的特異點或高杠桿點不一定會影響回歸系數的估計,但如果既是特異點又是高杠桿點則很可能是一個影響回歸方程的「有害」點。對特異點、高杠桿點、強影響點診斷的指標有Pearson殘差、Deviance殘差、杠桿度統計量H(hat matrix diagnosis)、Cook 距離、DFBETA、Score檢驗統計量等。這五個指標中,Pearson殘差、Deviance殘差可用來檢查特異點,如果某觀測值的殘差值>2,則可認為是一個特異點。杠桿度統計量H可用來發現高杠桿點, H值大的樣品說明距離其他樣品較遠,可認為是一個高杠桿點。Cook 距離、DFBETA指標可用來度量特異點或高杠桿點對回歸模型的影響程度。Cook距離是標准化殘差和杠桿度兩者的合成指標,其值越大,表明所對應的觀測值的影響越大。DFBETA指標值反映了某個樣品被刪除後logistic回歸系數的變化,變化越大(即DFBETA指標值越大),表明該觀測值的影響越大。如果模型中檢查出有特異點、高杠桿點或強影響點,首先應根據專業知識、數據收集的情況,分析其產生原因後酌情處理。如來自測量或記錄錯誤,應剔除或校正,否則處置就必須持慎重態度,考慮是否採用新的模型,而不能只是簡單地刪除就算完事。因為在許多場合,異常點的出現恰好是我們探測某些事先不清楚的或許更為重要因素的線索。
7. 回歸系數符號反常與主要變數選不進方程的原因:
① 存在多元共線性;
② 有重要影響的因素未包括在內;
③ 某些變數個體間的差異很大;
④ 樣本內突出點上數據誤差大;
⑤ 變數的變化范圍較小;
⑥ 樣本數太少。
8. 參數意義
① Logistic回歸中的常數項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應指標發生與不發生事件的概率之比的對數值。
② Logistic回歸中的回歸系數(bi)表示,其它所有自變數固定不變,某一因素改變一個單位時,效應指標發生與不發生事件的概率之比的對數變化值,即OR或RR的對數值。需要指出的是,回歸系數β的大小並不反映變數對疾病發生的重要性,那麼哪種因素對模型貢獻最大即與疾病
追問:
聯系最強呢? (InL(t-1)-InL(t))三種方法結果基本一致。
③ 存在因素間交互作用時,Logistic回歸系數的解釋變得更為復雜,應特別小心。
④ 模型估計出OR,當發病率較低時,OR≈RR,因此發病率高的疾病資料不適合使用該模型。另外,Logistic模型不能利用隨訪研究中的時間信息,不考慮發病時間上的差異,因而只適於隨訪期較短的資料,否則隨著隨訪期的延長,回歸系數變得不穩定,標准誤增加。
9. 統計軟體
能夠進行logistic回歸分析的軟體非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。

10. 評價回歸直線方程擬合優度如何的指標有().A

你提的方程顯著性檢驗(F檢驗),變數顯著性檢驗(t檢驗) 直接通過線性回歸模型就能給出來了,也就是對構建的回歸模型是否有效的一個檢驗。而同時還能輸出一個調整的R2,也算是對回歸模型擬合度的一個檢驗但是如果要專業的檢驗回歸模型的擬合優度,那就在進行回歸分析的時候 選擇保存回歸的預測值,然後比較預測值和實際值之間的差異,通過這個差異來看構建的模型的擬合度

閱讀全文

與線性回歸評價指標相關的資料

熱點內容
金融許可證公司有哪些 瀏覽:691
應收賬款向非金融公司買斷 瀏覽:172
2018年3月棉花進口匯率 瀏覽:930
工行貴金屬費黃金用 瀏覽:414
期貨怎樣看平均線 瀏覽:855
增強財務杠桿彈性的措施 瀏覽:986
提請召開股東大會文件範文 瀏覽:88
企業中國人民銀行外匯備案 瀏覽:905
杠桿最大力臂 瀏覽:763
總統大選貴金屬 瀏覽:220
中小企業融資成本高的對策 瀏覽:637
期貨投機度計算 瀏覽:649
西安注冊金融類公司 瀏覽:985
南京期貨交易所 瀏覽:373
pg外匯集團公司 瀏覽:977
甘谷縣金融機構存款余額 瀏覽:250
金融機構疫情期間 瀏覽:970
1月23日日元對人民幣匯率 瀏覽:48
股票澳優奶粉 瀏覽:567
立信理財為什麼收益那麼高 瀏覽:576