logistic回歸:
Logistic回歸的應(yīng)用條件是:
① 獨(dú)立性。各觀測(cè)對(duì)象間是相互獨(dú)立的;
② LogitP與自變量是線性關(guān)系;
③ 樣本量。經(jīng)驗(yàn)值是病例對(duì)照各50例以上或?yàn)樽宰兞康?-10倍(以10倍為宜),不過(guò)隨著統(tǒng)計(jì)技術(shù)和軟件的發(fā)展,樣本量較小或不能進(jìn)行似然估計(jì)的情況下可采用精確logistic回歸分析,此時(shí)要求分析變量不能太多,且變量分類不能太多;
④ 當(dāng)隊(duì)列資料進(jìn)行l(wèi)ogistic回歸分析時(shí),觀察時(shí)間應(yīng)該相同,否則需考慮觀察時(shí)間的影響(建議用Poisson回歸)。
logistic回歸一般是用來(lái)解決二元分類問(wèn)題,它是從貝努力分布轉(zhuǎn)換而來(lái)的
hθ(x) = g(z)=1/1+e-z ;z=θTx
最大似然估計(jì)L(θ) = p(Y|X;θ)
=∏p(y(i)|x(i);θ)
=∏(hθ(x))y(i)(1-hθ(x))1-y(i)
l(θ) = logL(θ)
=Σy(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))
θ的優(yōu)化目的就是讓最大似然估計(jì)最大,用梯度上升法求θ
θj=θj+α∂l(θ)/∂θj=θj+α(y(i)-hθ(x(i)))x(i)j
logistic回歸用梯度上升法求得的θ的迭代公式看起來(lái)跟線性回歸很像,但這跟線性回歸是有本質(zhì)區(qū)別的
1.線性回歸是由高斯分布推導(dǎo)而來(lái),而logistic回歸是由貝努力分布推導(dǎo)而來(lái)
2.二種回歸的最大似然估計(jì)是不一樣的,只不過(guò)求完導(dǎo)后的結(jié)果看似相同
3.二種回歸hθ(x)是不同的
廣義線性模型:
廣義線性模型是線性模型的擴(kuò)展,其特點(diǎn)是不強(qiáng)行改變數(shù)據(jù)的自然度量,數(shù)據(jù)可以具有非線性和非恒定方差結(jié)構(gòu)[59],主要是通過(guò)聯(lián)結(jié)函數(shù)g()(link function),建立響應(yīng)變量Y的數(shù)學(xué)期望值 與線性組合的預(yù)測(cè)變量P之間的關(guān)系:。與線性模型相比,GLM模型中Y的分布可以是任何形式的指數(shù)分布(如高斯分布、泊松分布、二項(xiàng)式分布),聯(lián)結(jié)函數(shù)可以是任何單調(diào)可微函數(shù)(如對(duì)數(shù)函數(shù)logarithm 或邏輯函數(shù)logit)。Y的方差通過(guò)方程函數(shù) 依賴于其數(shù)學(xué)期望值 ,這里 ,為比例(或者稱為離差)參數(shù)[57-58,60]。這些優(yōu)點(diǎn)使得GLM模型可以處理非正態(tài)分布的響應(yīng)變量,同時(shí)可包含定性、半定量的預(yù)測(cè)變量;Y通過(guò)連接函數(shù)g(E(Y))與線性預(yù)測(cè)因子P建立聯(lián)系,不僅確保線性關(guān)系,且可保證預(yù)測(cè)值落在響應(yīng)變量的變幅內(nèi),并可解決數(shù)據(jù)過(guò)度離散的問(wèn)題,從而使GLM逐漸成為植被-環(huán)境關(guān)系研究的重要模型,并得到越來(lái)越多的關(guān)注。
之前已經(jīng)寫(xiě)了線性回歸和logistic回歸,基本的形式都是先設(shè)定hθ(x),然后求最最大似然估計(jì)L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二種回歸如此想你的原因就是在于它都都是廣義線性模型里的一員。
如果一個(gè)概念分布可以表示成p(y;η)=b(y)exp(ηTT(y)-a(η))時(shí),那么這個(gè)概率分布可以稱之為指數(shù)分布
貝努力分布轉(zhuǎn)換為指數(shù)分布:p(y;ø)=øy(1-ø)1-y
=exp(log(øy(1-ø)1-y))
=exp(ylogø+(1-y)log(1-ø))
=exp((log(ø/(1-ø)))y+log(1-ø))
根據(jù)上面指數(shù)分布的公式可得出:
b(y)=1
η=logø/(1-ø);ø=1/(1+e-η)
T(y) = y
a(η)=-log(1-ø)
高斯分布轉(zhuǎn)換為指數(shù)(因?yàn)棣业娜≈祵?duì)最后的結(jié)果沒(méi)影響,所以設(shè)σ2=1):p(y;μ)=(1/2π)exp(-1/2(y-μ)2);2π上有根號(hào)
=(1/2π)exp(-1/2y2).exp(μy-1/2μ2)
根據(jù)上面指數(shù)分布的公式可得出:
b(y)=(1/2π)exp(-1/2y2);2π上有根號(hào)
η=μ
T(y) = y
a(η)=1/2μ2
廣義線性模型的三步是:
1.將y|x;θ變換成以η為參數(shù)的指數(shù)分布的形式
2.因?yàn)閔(x)=E[y|x],所以能過(guò)第1步的變換可以得到E[y|x]與η的對(duì)應(yīng)關(guān)系(對(duì)于logistic回歸,期望值是ø,ø與η的關(guān)系是ø=1/(1+e-η);對(duì)于線性回歸,期望值是μ,μ與η的關(guān)系是η=μ)
3.設(shè)定η=θTx(如果η是一個(gè)向量值的話,那么ηi=θiTx)