Konfidensintervall

Hva er konfidensintervall:

Det er et estimat av en rekkevidde som brukes i statistikken, som inneholder en populasjonsparameter. Denne ukjente populasjonsparameteren er funnet gjennom en prøvemodell beregnet ut fra de innsamlede dataene .

Eksempel: gjennomsnittet av en samling samlet x må kanskje ikke samsvarer med det sanne populasjonsmiddelet μ. For dette er det mulig å vurdere et utvalg av prøveinnretninger hvor denne populasjonen mener kan være inneholdt. Jo lengre dette intervallet, desto større er sannsynligheten for dette.

Fortrolighetsintervallet er uttrykt som en prosentandel, denominert av konfidensnivå, med 90%, 95% og 99% som den mest indikert. I bildet nedenfor har vi for eksempel et 90% konfidensintervall mellom øvre og nedre grenser (a og -a ).

Eksempel på en 90% konfidensintervall mellom sine øvre (a) og nedre (-a) grenser.

Fortrolighetsintervallet er et av de viktigste begrepene innen hypotesetesting i statistikk, fordi den brukes som et mål for usikkerhet. Begrepet ble introdusert av polsk matematiker og statistiker Jerzy Neyman i 1937.

Hva er relevansen av et konfidensintervall?

Tillidintervallet er viktig for å indikere usikkerhetsmarginen (eller upresisjon) mot en beregnet beregning. Denne beregningen bruker studien til å estimere den faktiske størrelsen på resultatet i kildepopulasjonen.

Beregningen av et konfidensintervall er en strategi som vurderer feilprøvetaking. Størrelsen på utfallet av studien og konfidensintervallet karakteriserer antatte verdier for den opprinnelige befolkningen.

Jo smalere konfidensintervallet er, jo større er sannsynligheten for at prosentandelen av studiepopulasjonen representerer det reelle antall kildepopulasjonen, noe som gir større sikkerhet om utfallet av studieobjektet.

Hvordan tolke et konfidensintervall?

Den riktige tolkningen av konfidensintervallet er trolig det mest utfordrende aspektet av dette statistiske konseptet. Et eksempel på den vanligste tolkningen av konseptet er følgende:

Det er en 95% sannsynlighet for at den virkelige verdien av populasjonsparameteren (f.eks. Gjennomsnitt) i fremtiden faller i området X (nedre grense) og Y (øvre grense).

Således tolkes konfidensintervallet som følger: Det er 95% sikker på at intervallet mellom X (lavere bundet) og Y (øvre grense) inneholder sannverdien av populasjonsparameteren.

Det ville være helt feil å si at: Det er en 95% sannsynlighet for at intervallet mellom X (lavere bundet) og Y (øvre grense) inneholder den virkelige verdien av populasjonsparameteren.

Ovenstående erklæring er den vanligste misforståelsen om konfidensintervallet. Etter at det statistiske området er beregnet, kan det bare inneholde populasjonsparameteren eller ikke.

Intervallene kan imidlertid variere mellom prøver, mens den sanne populasjonsparameteren er den samme uavhengig av prøven.

Derfor kan konfidensintervallet tillitsoppgaven bare gjøres dersom konfidensintervallene beregnes for antall prøver.

Trinnene for å beregne konfidensintervallet

Området beregnes ved å bruke følgende trinn:

  • Samle prøvedataene: n ;
  • Beregn prøven gjennomsnitt x x;
  • Bestem om et populasjonsstandardavvik ( σ ) er kjent eller ukjent;
  • Hvis en populasjonsstandardavvik er kjent, kan et z- punkt brukes til det tilsvarende konfidensnivået.
  • Hvis et populasjonsstandardavvik ikke er kjent, kan vi bruke en statistikk t for det tilsvarende konfidensnivået.
  • Dermed er de nedre og øvre grensene av konfidensintervallet funnet ved å bruke følgende formler:

a) Standardavvik for en kjent befolkning :

Formel for beregning av standardavviket til en kjent befolkning.

b) Standardavvik for en ukjent befolkning :

Formel for beregning av standardavviket til en ukjent befolkning.

Praktisk eksempel på et konfidensintervall

En klinisk studie evaluerte sammenhengen mellom tilstedeværelsen av astma og risikoen for å utvikle obstruktiv søvnapné hos voksne.

Noen voksne ble tilfeldig rekruttert fra en liste over statsansatte som ble fulgt i fire år.

Deltakere med astma, sammenlignet med de uten, hadde større risiko for å utvikle apnø på fire år.

Ved å utføre klinisk forskning som dette eksempelet, er en delgruppe av interessepopulasjonen vanligvis rekruttert for å øke studieeffektiviteten (mindre kostnader og mindre tid).

Denne undergruppen av individer, befolkningen studerte, består av de som oppfyller inkluderingskriteriene og er enige om å delta i studien, som vist på bildet nedenfor.

Forklarende grafikk av befolkningen studert i eksemplet.

Så er studien fullført og en effektstørrelse (for eksempel en gjennomsnittlig forskjell eller relativ risiko ) beregnes for å svare på forskningsspørsmålet.

Denne prosessen, som kalles inference, innebærer bruk av data samlet fra studiepopulasjonen for å estimere størrelsen på den faktiske effekten på populasjonen av interesse, det vil si opprinnelsesbefolkningen.

I det oppgitte eksemplet rekrutterte forskerne en tilfeldig utvalg av statsansatte (kildepopulasjon) som var kvalifisert og ble enige om å delta i studien (studiepopulasjon) og rapporterte at astma øker risikoen for å utvikle apnø i studiepopulasjonen.

For å utgjøre en prøvefeil på grunn av rekruttering av kun en undergruppe av interessepopulasjonen, beregnet de også et 95% konfidensintervall (rundt estimatet) på 1, 06 - 1, 82, hvilket indikerer en sannsynlighet for 95 % at den sanne relative risikoen i kildepopulasjonen ville være mellom 1, 06 og 1, 82 .

Konfidensintervall for gjennomsnittlig

Når man har informasjon om standardavviket til en befolkning, kan man beregne et konfidensintervall for gjennomsnittet eller gjennomsnittet av den aktuelle befolkningen.

Når en statistisk karakteristikk som måles (som inntekt, IQ, pris, høyde, mengde eller vekt) er numerisk, er det i de fleste tilfeller estimert at gjennomsnittsverdien for befolkningen er funnet.

Således prøver vi å finne populasjonsmiddelet ( μ ) ved hjelp av en sample mean ( x )), med en feilmargin. Resultatet av denne beregningen kalles konfidensintervallet for populasjonsmiddelet .

Når populasjonsstandardavviket er kjent, er formelen for et konfidensintervall (CI) for et populasjonsmiddel:

der:

  • xiod er sample gjennomsnittet;
  • σ er populasjonsstandardavviket;
  • n er prøvestørrelsen;
  • Ζ * representerer riktig verdi av standard normalfordeling for ønsket konfidensnivå.

Følgende er verdiene for de ulike konfidensnivåene ( Ζ * ):

Nivå av tillitVerdi av Z * -
80%01:28
90%1.645 (konvensjonell)
95%1.96
98%02:33
99%02:58

Tabellen over viser z * -verdier for konfidensnivåene som tilbys. Merk at disse verdiene er hentet fra standard normalfordeling (Z-).

Området mellom hver z * -verdi og det negative av denne verdien er (omtrentlig) konfidensprosent. For eksempel er området mellom z * = 1, 28 og z = -1, 28 omtrent 0, 80. Derfor kan denne tabellen også utvides til andre konfidensprosentaser. Tabellen viser bare de mest brukte prosentandelene av tillit.

Se også betydningen av hypotesen.