西西軟件下載最安全的下載網(wǎng)站、值得信賴的軟件下載站!

首頁(yè)編程開(kāi)發(fā)其它知識(shí) → logistic回歸和廣義線性模型

logistic回歸和廣義線性模型

相關(guān)軟件相關(guān)文章發(fā)表評(píng)論 來(lái)源:西西整理時(shí)間:2013/1/6 0:55:21字體大。A-A+

作者:西西點(diǎn)擊:0次評(píng)論:0次標(biāo)簽: 線性模型

  • 類型:翻譯工具大小:4.4M語(yǔ)言:多國(guó)語(yǔ)言[中文] 評(píng)分:8.1
  • 標(biāo)簽:
立即下載

logistic回歸:

Logistic回歸的應(yīng)用條件是:

① 獨(dú)立性。各觀測(cè)對(duì)象間是相互獨(dú)立的;

② LogitP與自變量是線性關(guān)系;

③ 樣本量。經(jīng)驗(yàn)值是病例對(duì)照各50例以上或?yàn)樽宰兞康?-10倍(以10倍為宜),不過(guò)隨著統(tǒng)計(jì)技術(shù)和軟件的發(fā)展,樣本量較小或不能進(jìn)行似然估計(jì)的情況下可采用精確logistic回歸分析,此時(shí)要求分析變量不能太多,且變量分類不能太多;

④ 當(dāng)隊(duì)列資料進(jìn)行l(wèi)ogistic回歸分析時(shí),觀察時(shí)間應(yīng)該相同,否則需考慮觀察時(shí)間的影響(建議用Poisson回歸)。

logistic回歸一般是用來(lái)解決二元分類問(wèn)題,它是從貝努力分布轉(zhuǎn)換而來(lái)的

  hθ(x) = g(z)=1/1+e-z ;z=θTx

  最大似然估計(jì)L(θ) = p(Y|X;θ)

           =∏p(y(i)|x(i);θ)

           =∏(hθ(x))y(i)(1-hθ(x))1-y(i)

     l(θ) = logL(θ)

           =Σy(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))

   θ的優(yōu)化目的就是讓最大似然估計(jì)最大,用梯度上升法求θ

  θj=θj+α∂l(θ)/∂θj=θj+α(y(i)-hθ(x(i)))x(i)j

  logistic回歸用梯度上升法求得的θ的迭代公式看起來(lái)跟線性回歸很像,但這跟線性回歸是有本質(zhì)區(qū)別的

  1.線性回歸是由高斯分布推導(dǎo)而來(lái),而logistic回歸是由貝努力分布推導(dǎo)而來(lái)

  2.二種回歸的最大似然估計(jì)是不一樣的,只不過(guò)求完導(dǎo)后的結(jié)果看似相同

      3.二種回歸hθ(x)是不同的

廣義線性模型:

廣義線性模型是線性模型的擴(kuò)展,其特點(diǎn)是不強(qiáng)行改變數(shù)據(jù)的自然度量,數(shù)據(jù)可以具有非線性和非恒定方差結(jié)構(gòu)[59],主要是通過(guò)聯(lián)結(jié)函數(shù)g()(link function),建立響應(yīng)變量Y的數(shù)學(xué)期望值 與線性組合的預(yù)測(cè)變量P之間的關(guān)系:。與線性模型相比,GLM模型中Y的分布可以是任何形式的指數(shù)分布(如高斯分布、泊松分布、二項(xiàng)式分布),聯(lián)結(jié)函數(shù)可以是任何單調(diào)可微函數(shù)(如對(duì)數(shù)函數(shù)logarithm 或邏輯函數(shù)logit)。Y的方差通過(guò)方程函數(shù) 依賴于其數(shù)學(xué)期望值 ,這里 ,為比例(或者稱為離差)參數(shù)[57-58,60]。這些優(yōu)點(diǎn)使得GLM模型可以處理非正態(tài)分布的響應(yīng)變量,同時(shí)可包含定性、半定量的預(yù)測(cè)變量;Y通過(guò)連接函數(shù)g(E(Y))與線性預(yù)測(cè)因子P建立聯(lián)系,不僅確保線性關(guān)系,且可保證預(yù)測(cè)值落在響應(yīng)變量的變幅內(nèi),并可解決數(shù)據(jù)過(guò)度離散的問(wèn)題,從而使GLM逐漸成為植被-環(huán)境關(guān)系研究的重要模型,并得到越來(lái)越多的關(guān)注。

  之前已經(jīng)寫(xiě)了線性回歸和logistic回歸,基本的形式都是先設(shè)定hθ(x),然后求最最大似然估計(jì)L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二種回歸如此想你的原因就是在于它都都是廣義線性模型里的一員。

  如果一個(gè)概念分布可以表示成p(y;η)=b(y)exp(ηTT(y)-a(η))時(shí),那么這個(gè)概率分布可以稱之為指數(shù)分布

  貝努力分布轉(zhuǎn)換為指數(shù)分布:p(y;ø)=øy(1-ø)1-y

                   =exp(log(øy(1-ø)1-y))

                   =exp(ylogø+(1-y)log(1-ø))

                   =exp((log(ø/(1-ø)))y+log(1-ø))

  根據(jù)上面指數(shù)分布的公式可得出:

                 b(y)=1

                 η=logø/(1-ø);ø=1/(1+e-η)

                 T(y) = y

                 a(η)=-log(1-ø)

  高斯分布轉(zhuǎn)換為指數(shù)(因?yàn)棣业娜≈祵?duì)最后的結(jié)果沒(méi)影響,所以設(shè)σ2=1):p(y;μ)=(1/2π)exp(-1/2(y-μ)2);2π上有根號(hào)

                                          =(1/2π)exp(-1/2y2).exp(μy-1/2μ2)

  根據(jù)上面指數(shù)分布的公式可得出:

                b(y)=(1/2π)exp(-1/2y2);2π上有根號(hào)

                                           η=μ

                                           T(y) = y

                                           a(η)=1/2μ2

  廣義線性模型的三步是:
        1.將y|x;θ變換成以η為參數(shù)的指數(shù)分布的形式

          2.因?yàn)閔(x)=E[y|x],所以能過(guò)第1步的變換可以得到E[y|x]與η的對(duì)應(yīng)關(guān)系(對(duì)于logistic回歸,期望值是ø,ø與η的關(guān)系是ø=1/(1+e-η);對(duì)于線性回歸,期望值是μ,μ與η的關(guān)系是η=μ)

        3.設(shè)定η=θTx(如果η是一個(gè)向量值的話,那么ηi=θiTx)

    相關(guān)評(píng)論

    閱讀本文后您有什么感想? 已有人給出評(píng)價(jià)!

    • 8 喜歡喜歡
    • 3 頂
    • 1 難過(guò)難過(guò)
    • 5 囧
    • 3 圍觀圍觀
    • 2 無(wú)聊無(wú)聊

    熱門(mén)評(píng)論

    最新評(píng)論

    發(fā)表評(píng)論 查看所有評(píng)論(0)

    昵稱:
    表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
    字?jǐn)?shù): 0/500 (您的評(píng)論需要經(jīng)過(guò)審核才能顯示)
    推薦文章

    沒(méi)有數(shù)據(jù)