De stora talens lag

De stora talens lag är en sats inom sannolikhetsteorin, som innebär att det aritmetiska medelvärdet av ett stort antal oberoende observationer av en slumpvariabel med stor sannolikhet ligger nära variabelns väntevärde. De stora talens lag kan sägas motsvara uttrycket "Det jämnar ut sig i det långa loppet", under vissa omständigheter.

Datorsimulering av 500 slantsinglingar. Det är här tydligt att medelvärdet av andelen krona närmar sig väntevärdet 1/2 när antalet singlingar ökar.

Historia

Bernoullis sats

Den första versionen av stora talens lag formulerades och bevisades av Jacob Bernoulli i början på 1700-talet av, Bernoullis sats^[1], men publicerades inte förrän åtta år efter hans död. Det Bernoulli visade motsvarar svaga stora talens lag, med fallet då de ingående stokastiska variablerna endast antar två värden. Egentligen behandlade han det omvända jämfört med hur stora talens lag idag brukar formuleras; givet ett utfall från N antal försök, hur kan vi då bestämma väntevärdet (Om vi tar upp N kulor ur en påse med enbart blåa och gula kulor, vad kan vi då säga om den totala fördelningen?)?

I sitt arbete beräknade Bernoulli även att det, exempelvis, krävs 25 500 observationer för att med säkerheten 1000/1001 landa på rätt svar +/- 1/50, om väntevärdet är 30/50.^[2]

Generalisering

Siméon Denis Poisson försökte på 1830-talet att generalisera Bernoullis sats, vilken dock blev omdiskuterad^[2]. Sin nuvarande formulering fick de stora talens lag 1933 av Andrej Kolmogorov, även om det än idag presenteras nya varianter för olika specialfall.

Användning i praktiken

Några användningsområden

Försäkringar: De stora talens lag är mycket användbar när det gäller försäkringar, då den kan ge en ungefärlig förutsägelse över framtida händelser utifrån tidigare år. Ju fler kunder ett försäkringsbolag har, desto mindre påverkar slumpen. Vid större förändringar och trender, till exempel klimatförändringar, är den dock åtminstone delvis oanvändbar.
Spelbolag: Om ett spel i genomsnitt kommer att ge vinst åt arrangören, kommer även arrangören, efter tillräckligt många spelomgångar, att gå med vinst.
Medicin: De stora talens lag minimerar ett slumpmässigt beteende av medicinska åtgärder.
Naturvetenskap: Påverkan från icke regelmässiga mätfel kan minimeras genom att göra många mätningar.

En felaktig tolkning

En vanlig misstolkning av de stora talens lag är att om man kastar tärning ett antal gånger, och får fler, säg, femmor än förväntat (dvs oftare än var sjätte gång), kommer tärningen framöver att tendera att visa färre femmor än förväntat (dvs mer sällan än var sjätte gång), för att den totala andelen ska kunna närma sig 1/6, i enlighet med De stora talens lag.

Detta är en helt felaktig tolkning. Detta strider mot förutsättningen att observationerna ska vara oberoende, det vill säga att de inte ska påverkas av tidigare utfall, vilket de ju gör i detta missförstånd.

Matematik

De stora talens lag i svag form

Låt X₁, X₂, X₃ … vara oberoende stokastiska variabler med samma sannolikhetsfördelning, och låt, S_n och M_n vara summan respektive medelvärdet av de n variablerna:

M_{n}={\frac {1}{n}}\sum _{k=1}^{n}X_{k}={\frac {S_{n}}{n}}

.

Om väntevärdet μ = E(X_i) är ändligt gäller för alla ε>0 att

\lim _{n\rightarrow \infty }P\left(\left|M_{n}-\mu \right|<\varepsilon \right)=1

.

De stora talens lag i stark form

Låt M_n vara samma stokastiska variabel som ovan och antag återigen att väntevärdet μ är ändligt. Då gäller att

P\left(\lim _{n\rightarrow \infty }M_{n}=\mu \right)=1

Skillnaden mellan starka och svaga formen

Den svaga formen säger att sannolikheten för att M_n ska konvergera mot μ går mot 1, då n går mot oändligheten. Den starka formen säger å sin sida att sannolikheten att M_n ska konvergera mot μ är 1.

Värt att notera är även att den starkare formen implicerar den svaga, medan den svaga inte implicerar den starka.

Bevis för ett specialfall

Det här är ett bevis för svaga stora talens lag med specialfallet stokastiska variabler som enbart antar värdena 0 och 1 med sannolikheten 1/2 vardera, exempelvis en slantsingling. Då gäller alltså att väntevärdet E(X_i) = 1/2. Notationen med S_n och M_n används som ovan. Då väntevärdesoperatorn är linjär, gäller att

E(S_{n})=E(X_{1})+E(X_{2})+\dots +E(X_{n})={\frac {n}{2}}

samt

E(M_{n})={\frac {E(S_{n})}{n}}={\frac {1}{2}}

.

Låt Z_n = (M_n - 1/2)², så att variansen hos M_n är Var(M_n) = E(Z_n). Definiera sedan funktionen

Z_{n}^{*}={\begin{cases}\varepsilon ^{2},Z_{n}\geq \varepsilon ^{2}\\0,Z_{n}<\varepsilon ^{2}\\\end{cases}}

.

Här gäller Z_n^* ≤ Z_n och därmed E(Z_n^*) ≤ E(Z_n). Väntevärdet för denna funktion kan då skrivas

E(Z_{n}^{*})=\varepsilon ^{2}\cdot P(Z_{n}^{*}=\varepsilon ^{2})+0\cdot P(Z_{n}^{*}=0)=\varepsilon ^{2}\cdot P(Z_{n}^{*}=\varepsilon ^{2})=\varepsilon ^{2}\cdot P(Z_{n}\geq \varepsilon ^{2})

.

Vi kan lösa ut att

P(Z_{n}\geq \varepsilon ^{2})={\frac {E(Z_{n}^{*})}{\varepsilon ^{2}}}\leq {\frac {E(Z_{n})}{\varepsilon ^{2}}}

.

Om vi sedan konstaterar att |M_n - 1/2| ≥ ε om och endast om Z_n ≥ ε² får vi

P\left(\left|M_{n}-{\frac {1}{2}}\right|\geq \varepsilon \right)=P(Z_{n}\geq \varepsilon ^{2})\leq {\frac {E(Z_{n})}{\varepsilon ^{2}}}={\frac {\operatorname {Var} (M_{n})}{\varepsilon ^{2}}}

Kan vi nu visa att högerledet i ovanstående olikhet går mot noll då n går mot oändligheten (alltså ett gränsvärde), har vi bevisat specialfallet. Definitionen av varians respektive M_n ger

\operatorname {Var} (M_{n})=E\left(M_{n}-{\frac {1}{2}}\right)^{2}=E\left(\left({\frac {X_{1}+X_{2}+\dots +X_{n}}{n}}-{\frac {1}{2}}\right)^{2}\right)

=E\left(\left({\frac {X_{1}+X_{2}+\dots +X_{n}-{\frac {n}{2}}}{n}}\right)^{2}\right)=E\left({\frac {\left(\left(X_{1}-{\frac {1}{2}}\right)+\left(X_{2}-{\frac {1}{2}}\right)+\dots +\left(X_{n}-{\frac {1}{2}}\right)\right)^{2}}{n}}\right)

={\frac {1}{n^{2}}}E\left(\left(\left(X_{1}-{\frac {1}{2}}\right)+\left(X_{2}-{\frac {1}{2}}\right)+\dots +\left(X_{n}-{\frac {1}{2}}\right)\right)^{2}\right)={\frac {1}{n^{2}}}E\left(\left(\sum _{i=1}^{n}\left(X_{i}-{\frac {1}{2}}\right)\right)^{2}\right)

_ $={\frac {1}{n^{2}}}E\left(\sum _{i=1}^{n}\left(X_{i}-{\frac {1}{2}}\right)\right)\left(\sum _{j=1}^{n}\left(X_{j}-{\frac {1}{2}}\right)\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}E\left(\left(X_{i}-{\frac {1}{2}}\right)\left(X_{j}-{\frac {1}{2}}\right)\right)$

X_i och X_j kan enbart anta värdena 0 resp 1. Då i = j (n olika fall) gäller alltså att

\sum _{i=1}^{n}\sum _{j=1}^{n}E\left(\left(X_{i}-{\frac {1}{2}}\right)\left(X_{j}-{\frac {1}{2}}\right)\right)={\frac {1}{2}}

.

Då i ≠ j gäller att sannolikheten för X_i = X_j respektive X_i ≠ X_j båda är 1/2, dvs produkten blir 1/4 resp -1/4 med sannolikhet 1/2 vardera. För väntevärdet gäller då

\sum _{i=1}^{n}\sum _{j=1}^{n}E\left(\left(X_{i}-{\frac {1}{2}}\right)\left(X_{j}-{\frac {1}{2}}\right)\right)={\frac {1}{2}}\cdot {\frac {1}{4}}+{\frac {1}{2}}\cdot \left(-{\frac {1}{2}}\right)=0

Sammanfattningsvis ser vi alltså att

\operatorname {Var} (M_{n})={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}E\left(\left(X_{i}-{\frac {1}{2}}\right)\left(X_{j}-{\frac {1}{2}}\right)\right)={\frac {1}{n^{2}}}\cdot n\cdot {\frac {1}{4}}={\frac {1}{4n}}

och därmed att

P\left(\left|M_{n}-{\frac {1}{2}}\right|\geq \varepsilon \right)=P(Z_{n}\geq \varepsilon ^{2})\leq {\frac {E(Z_{n})}{\varepsilon ^{2}}}={\frac {\operatorname {Var} (M_{n})}{\varepsilon ^{2}}}={\frac {1}{4n\varepsilon ^{2}}}

vilket går mot 0 då n→∞. Därmed får vi, för alla ε > 0, att

\lim _{n\rightarrow \infty }P\left(\left|M_{n}-\mu \right|<\varepsilon \right)=1

.

Därmed är specialfallet av svaga stora talens lag bevisad. Det är fullt möjligt att gå vidare och även bevisa starka stora talens lag för detta fall, och även för mer generella fall.

Se även

Centrala gränsvärdessatsen

Litteratur

Olle Häggström Slumpens skördar - Strövtåg i sannolikhetsteorin Lund: Studentlitteratur, 2004, ISBN 91-44-03017-7
Andreas Svensson Är tärningen kastad? - Sannolikhetslära för vem som helst Trollhättan: Bombadil Publishing, 2008, ISBN 91-85765-02-3

Källor

^ ”stora talens lag”. Nationalencyklopedin. http://ne.se/l%C3%A5ng/storatalenslag. Läst 27/3 2009.
^ [a b] Stephen M. Stigler The history of statistics: the measurement of uncertainty before 1900 Cambridge, Mass.: Harvard Univ. Press 1986, ISBN 0-674-40340-1

Externa länkar

[1] ”stora talens lag”. Nationalencyklopedin. http://ne.se/l%C3%A5ng/storatalenslag. Läst 27/3 2009.

[Stephen_M._Stigler_1986-2] [a b] Stephen M. Stigler The history of statistics: the measurement of uncertainty before 1900 Cambridge, Mass.: Harvard Univ. Press 1986, ISBN 0-674-40340-1

[1]

[2]