Den grundlæggende tankegang bag \chi^2-testen er, at stikprøver kan variere, når de udtages tilfældigt. På denne side vil vi beskrive variationen. Som nævnt på sidste side betyder tilfældig udvælgelse, at alle i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven.

Du skal logge ind for at skrive en note

Terningekast

Colourbox.com
Colourbox.com

Terningekast er en god måde at illustrere tilfældighed på, så lad os se på et eksperiment, hvor en terning kastes et stort antal gange (fx 600 gange). Vi antager, at terningen er ærlig, dvs. sandsynligheden for at få 1, 2, 3... er alle \frac{1}{6}. Det gør beregningerne lidt enklere. 

Populationen i eksperimentet er "mængden af alle kast". Man kan forestille sig en stor kasse med et ekstremt højt antal sedler i ("uendeligt mange"). På \frac{1}{6} af sedlerne står der "1", på \frac{1}{6} står der "2" osv. op til 6. Når vi kaster med terningen svarer det til, at vi på tilfældig måde trækker en seddel, og populationen svarer så til mængden af alle sedler i kassen.

Stikprøven er de 600 kast. Her kan du forestille dig, at vi på tilfældig vis trækker 600 sedler fra kassen. Hver seddel svarer til et kast, og de 600 sedler svarer til vores stikprøve.

Du skal logge ind for at skrive en note

Observerede og forventede værdier

I tabellen ses et eksempel på en observeret værdi for hver af de seks mulige udfald. Til hvert af udfaldene ses også en forventet værdi:

Du skal logge ind for at skrive en note
udfald123456
observeret værdi911141078710695
forventet værdi100100100100100100
Du skal logge ind for at skrive en note

De forventede værdier er dem, som vi umiddelbart kunne forvente ud fra sandsynlighederne – nemlig at terningen vil lande på hver side  \frac{1}{6} \cdot 600 = 100 gange.

Du skal logge ind for at skrive en note

Observerede og forventede værdier er oftest forskellige i stokastiske (tilfældige) eksperimenter som dette. Nok er de forventede værdier de mest sandsynlige, men der er mange andre stikprøver, der har næsten lige så stor chance for at forekomme. Hvis vi gentog eksperimentet igen og igen, ville mange stikprøver dog ligge "tæt på" det forventede, mens få ville ligge "langt fra".

Angiv 2 eksempler på stikprøver, du mener ligger ekstremt langt fra det forventede, når man kaster en ærlig terning 600 gange.

Du skal logge ind for at skrive en note

Svar

Fx

Udfald123456
antal20010000100200

eller

Udfald123456
antal3000030000
Du skal logge ind for at skrive en note

Beregning af \chi^2

Vi vil konstruere et tal, der siger noget om, hvor langt vores stikprøve er fra det forventede. Vi tager udgangspunkt i følgende skema:

udfald123456
obs911141078710695
for100100100100100100
obsfor-9147-136-5
(obsfor)281196491693625
\frac{(obs - for)^2}{for}0,811,960,491,690,360,25
Du skal logge ind for at skrive en note

De første 3 rækker er de samme som før. I række 4 har vi beregnet forskellene observeret værdi - forventet værdi. Man kunne nu få den idé at bruge summen af disse forskelle som mål for en samlet forskel mellem observeret og forventet stikprøve. Men det går ikke, for summen vil nemlig altid give 0, uanset de observerede værdier.

Vi kvadrerer i stedet for forskellene (række 5) og deler til sidst med de forventede værdier (række 6). Summen af tallene i række 6 kalder vi for \chi^2 ("ki-i-anden"), og det er vores mål for den observerede stikprøves afvigelse fra den forventede:

\begin{aligned}\chi^2= \; &\frac{(91-100)^2}{100}+\frac{(114-100)^2}{100}+\frac{(107-100)^2}{100}\\ \; &+\frac{(87-100)^2}{100}+\frac{(106-100)^2}{100}+\frac{(95-100)^2}{100}\\ = \; &0,81+1,96+0,49+1,69+0,36+0,25\\ =\; &5,56\end{aligned}

Det er umiddelbart svært at sige, om dette er et stort tal eller et lille tal, og vi vender tilbage til spørgsmålet i de interaktive øvelser nedenfor. Indtil videre bemærker vi, at \chi^2, uanset stikprøve, aldrig kan blive et negativt tal, fordi vi kvadrerer i række 5. Af samme grund bliver bidragene til \chi^2 hurtigt store, når forskellene mellem observerede og forventede værdier vokser. Ovenfor er det især 2. led og 4. led, der bidrager til \chi^2.

Der er netop én mulig stikprøve, der giver en \chi^2-værdi på 0. Hvilken?

Du skal logge ind for at skrive en note

Svar

Hvis de observerede værdier alle er lig med de forventede værdier er \chi^2 = 0.

Du skal logge ind for at skrive en note

Der findes mange stikprøver med ens \chi^2-værdier. Find en anden stikprøve, der giver den samme \chi^2-værdi som ovenfor, altså 5,56.

Du skal logge ind for at skrive en note

Svar

Vi kan bytte om på antallene hørende til de enkelte udfald, fx  

udfald123456
observeret antal951068710711491
Du skal logge ind for at skrive en note

Computersimulering af stikprøver

Det kan være tidskrævende at kaste en terning 600 gange og lave optællinger over enere, toere osv. På den anden side vil vi gerne have en fornemmelse af, hvordan \chi^2-værdien kan variere fra stikprøve til stikprøve. Derfor skal du i den næste øvelse simulere stikprøver hurtigt og effektivt på computeren.

Du skal logge ind for at skrive en note

Interaktivitet - Simulering af en stikprøve

Du skal logge ind for at skrive en note
Du skal logge ind for at skrive en note

Hvordan er \chi^2-værdierne fordelt, når vi foretager rigtig mange simuleringer af en stikprøve? Det handler den næste øvelse om.

Du skal logge ind for at skrive en note

Interaktivitet - Simulering af mange stikprøver

Du skal logge ind for at skrive en note
Du skal logge ind for at skrive en note

Frekvensfunktion for \chi^2-fordeling

De fordelinger af \chi^2-værdier, som kan simuleres i interaktiviteten ovenfor, kan tilnærmes med funktioner, som udledes i den teoretiske statistik. Hvis tilnærmelsen skal være god, skal søjlerne være fremkommet ved et meget stort antal stikprøver og med en stor stikprøvestørrelse. For terningen ses her resultatet af 10000 stikprøver med størrelsen 1000.

Du skal logge ind for at skrive en note

Frekvensfunktionen for \chi^2-fordelingen med 5 frihedsgrader følger pænt søjlerne fra 10000 simulerede terningstikprøver.

Frekvensfunktionen for \chi^2-fordelingen med 5 frihedsgrader følger pænt søjlerne fra 10000 simulerede terningstikprøver.

Du skal logge ind for at skrive en note

Den blå graf, som pænt følger toppen af søjlerne, viser den teoretisk udledte funktion. Der er tale om frekvensfunktionen til én af de såkaldte \chi^2-fordelinger. Vi har tidligere set på frekvensfunktionerne til normalfordelingerne, men her er et eksempel på en anden type af frekvensfunktioner, der også finder bred anvendelse inden for statistik.

\chi^2-fordelingerne adskiller sig fra hinanden gennem antallet af frihedsgrader, og i terningeksemplet skal vi bruge den med 5 frihedsgrader. Det kan indses sådan: Når terningen kastes et bestemt antal gange, fx 600, så skal summen af hyppighederne for de 6 kategorier (eller udfald) være 600. Vi kan vælge 5 af disse tal "frit", men det sidste er bundet af den samlede sum på 600.

Generelt gælder:

Du skal logge ind for at skrive en note

Antallet af frihedsgrader ved test for fordeling

\text{antal frihedsgrader} = \text{antal kategorier} - 1

Du skal logge ind for at skrive en note

I den følgende interaktivitet kan du arbejde med frekvensfunktionerne for \chi^2-fordelingerne.

Du skal logge ind for at skrive en note

Interaktivitet - \chi^2-fordelinger

Du skal logge ind for at skrive en note
Du skal logge ind for at skrive en note

Frekvensfunktioner for \chi^2-fordelinger findes som standardfunktioner i dit CAS-værktøj. Fx kunne skrivemåden være følgende:

\begin{aligned}& \text{chi2Pdf}(x,k)&&:\quad \text{frekvensfunktionen med $k$ frihedsgrader.}\\ &\text{chi2Cdf}(a,b,k)&&:\quad \text{areal under graf med $a$ og $b$ som $x$-grænser.} \\ & \text{invchi}2(A, k)&&:\quad \text{giver den $\chi^2$-værdi, for hvilken arealet til venstre er $A$.}\end{aligned}

Du skal logge ind for at skrive en note
ISBN: 9788761653727. Copyright forfatterne og Systime A/S 2018