Enkel logistisk regression

Logistisk regression är en matematisk metod med vilken man kan analysera mätdata.

Metoden lämpar sig bäst då man är intresserad av att undersöka om det finns ett samband mellan en responsvariabel (Y), som endast kan anta två möjliga värden, och en förklarande variabel (X).

Exempel:

Man är intresserad av att studera om det finns ett samband mellan mängden tjära i lungorna (X) och huruvida lungcancer föreligger (Y). Responsvariabeln kan endast anta de två värdena 'Ja' eller 'Nej', medan den förklarande variabeln (i princip) kan anta vilka positiva värden som helst.

Det är inte meningsfullt att försöka beskriva ett eventuellt samband mellan X och Y på en linjär form, så som är brukligt vid enkel linjär regression:

Y=\beta _{0}+\beta _{1}\,X;

Anledningen till detta är att uttrycket $\beta _{0}+\beta _{1}X$ representerar ett reellt tal, medan vänsterledet, Y, endast kan anta två möjliga värden. (Det finns fler reella tal än vad som är möjliga att räkna upp; man säger att det finns överuppräkneligt många reella tal.)

Vi är intresserade av ett samband mellan sannolikheten att Y skall anta värdet 'Ja', och den förklarande variabeln X:

Prob(Y=Ja)=f(X).\,

Eftersom en sannolikhet är ett tal som ligger mellan värdena noll och ett, måste funktionen f vara sådan att då X är ett reellt tal är f(X) ett tal mellan noll och ett:

f:\mathbb {R} \Longrightarrow [0,1].

I den enkla logistiska regressionsmodellen definieras funktionen f indirekt av följande samband:

\log {\frac {Prob(Y=Ja)}{1-Prob(Y=Ja)}}=\beta _{0}+\beta _{1}X.\,

Notera att om p är ett tal mellan noll och ett, så är

\log {\frac {p}{1-p}}

ett reellt tal:

0<p<1\quad \Longrightarrow \quad -\infty <\log {\frac {p}{1-p}}<+\infty .

Då man jämför denna matematiska modell över sambandet mellan X och Y med gjorda mätningar på X och noteringar av förekomsten av lungcancer, får man inte en perfekt överensstämmelse. De avvikelser som noteras kan ha två orsaker:

(1) Den matematiska modellen är olämplig och det förekommer slumpeffekter, eller
(2) Den matematiska modellen är lämplig och det förekommer slumpeffekter.

Som synes kan man inte bli kvitt slumpeffekterna. Vad man däremot kan göra är att försöka att beskriva dem genom att undersöka deras frekvensfunktion.

Den enkla logistiska regressionsmodellen utgår från att avvikelserna ( $\varepsilon$ ) mellan uttrycket $\beta _{0}+\beta _{1}X$ och $\log {\frac {Prob(Y=Ja)}{1-Prob(Y=Ja)}}$ är bestämda av den så kallade normalfördelningen, vars fördelningsfunktion är:

Prob(\varepsilon \leq x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\int _{-\infty }^{x}e^{-{\frac {u^{2}}{2\sigma ^{2}}}}\ du.\quad \quad (\,N(0,\sigma )\,)

Man säger att avvikelsen, $\varepsilon$ , mellan modell-Y och mätdata-Y är $N(0,\sigma )$ -fördelad.

Den enkla logistiska regressionsmodellen tar hänsyn både till sambandet mellan X och Y och till slumpens påverkan:

\log {\frac {Prob(Y=Ja)}{1-Prob(Y=Ja)}}=\beta _{0}+\beta _{1}X+\varepsilon ,\quad \varepsilon \sim N(0,\sigma ).

Sambandet mellan $Prob(Y=Ja)$ och X får vi genom att invertera ovanstående ekvation:

Prob(Y=Ja)={\frac {e^{\beta _{0}+\beta _{1}X+\varepsilon }}{1+e^{\beta _{0}+\beta _{1}X+\varepsilon }}}.

Det är viktigt att notera att slumpeffekterna ( $\varepsilon$ ) kommer in multiplikativt i denna modell (som exponenter), till skillnad från additivt, som vid enkel- och multipel linjär regression. Detta gör det svårt att bestämma den frekvensfunktion som styr det slumpmässiga beteendet hos kvoten ${\frac {e^{\beta _{0}+\beta _{1}X+\varepsilon }}{1+e^{\beta _{0}+\beta _{1}X+\varepsilon }}}.$

Referenser

D. Collett, Modelling binary data, Second edition, (2003), Chapman & Hall/CRC
G. Casella och R.L. Berger, Statistical inference, Second edition, (2002), Duxbury advanced series