Hvordan definere en konfidensiell. Tillitsintervall og konfidensnivå

Estimere konfidensintervaller

Læringsmål

Statistikk vurderer følgende to hovedoppgaver:

    Vi har noe estimat basert på eksempeldata, og vi vil gjøre noen sannsynlighetsuttalelser om hvor ekte mening estimert parameter.

    Vi har en spesifikk hypotese som må testes basert på eksempeldata.

I dette emnet vurderer vi den første oppgaven. Vi introduserer også definisjonen av konfidensintervallet.

Konfidensintervallet er et intervall som er bygget opp rundt den estimerte parameterverdien og viser hvor den virkelige verdien av den estimerte parameteren ligger på forhånd gitt sannsynlighet.

Etter å ha studert materialet om dette emnet, kan du:

    finne ut hva konfidensintervallet til estimatet er;

    lære å klassifisere statistiske oppgaver;

    mestre teknikken for å konstruere konfidensintervaller, både ved hjelp av statistiske formler og ved hjelp av programvareverktøy;

    lær å bestemme de nødvendige prøvestørrelsene for å oppnå visse parametere med statistisk nøyaktighet.

Fordeling av prøveegenskaper

T-fordeling

Som diskutert ovenfor, er fordelingen av den tilfeldige variabelen nær den standardiserte normalfordelingen med parametrene 0 og 1. Siden vi ikke vet verdien av σ, erstatter vi den med noen estimater. Mengden har allerede en annen fordeling, nemlig, eller Studentens fordeling, som bestemmes av parameteren n -1 (antall frihetsgrader). Denne fordelingen er nær normalfordelingen (jo større n, jo nærmere fordelingen).

I fig. 95
Studentens fordeling med 30 frihetsgrader presenteres. Som du ser er det veldig nær normalfordelingen.

På samme måte som funksjonene for arbeid med normalfordelingen NORMDIST og NORMINV, er det funksjoner for å jobbe med t-fordelingen - TDIST og TINV... Et eksempel på bruk av disse funksjonene kan sees i TDIST.XLS-filen (mal og løsning) og i fig. 96
.

Fordeling av andre egenskaper

Som vi allerede vet, for å bestemme nøyaktigheten av estimeringen av den matematiske forventningen, trenger vi t-fordelingen. For å estimere andre parametere, for eksempel varians, kreves forskjellige fordelinger. To av dem er F-distribusjon og x 2 -fordeling.

Konfidensintervall for gjennomsnitt

Konfidensintervall er et intervall som er bygget rundt den estimerte parameterverdien og viser hvor den virkelige verdien til den estimerte parameteren er lokalisert med priori gitt sannsynlighet.

Konstruksjonen av konfidensintervallet for gjennomsnittet oppstår på følgende måte:

Eksempel

Fastfood-restauranten planlegger å utvide sortimentet med en ny type sandwich. For å vurdere etterspørselen etter det, planlegger lederen å tilfeldig velge 40 besøkende fra de som allerede har prøvd det og invitere dem til å rangere holdningen til det nye produktet i poeng fra 1 til 10. Lederen ønsker å estimere forventet antall av poeng som vil motta nytt produkt og bygge et 95% konfidensintervall for dette estimatet. Hvordan kan dette gjøres? (se fil SANDWICH1.XLS (mal og løsning).

Beslutning

For å løse dette problemet kan du bruke. Resultatene er vist i fig. 97
.

Konfidensintervall for kumulativ verdi

Noen ganger, basert på eksempeldata, er det nødvendig å ikke estimere den matematiske forventningen, men den totale summen av verdier. I en situasjon med en revisor kan det for eksempel ikke være av interesse å estimere den gjennomsnittlige kontoverdien, men summen av alle kontoer.

La N være total elementer, n er utvalgsstørrelsen, T 3 er summen av verdiene i utvalget, T "er estimatet for summen over hele populasjonen, deretter , og konfidensintervallet beregnes av formelen, der s er estimatet for standardavviket for prøven, er estimatet for gjennomsnittet for prøven.

Eksempel

La oss si at noen skattekontorer ønsker å estimere den totale skatterefusjonen for 10.000 skattebetalere. Skattebetaleren får enten tilbakebetaling eller betaler tilleggsskatt. Finn 95% konfidensintervall for refusjonsbeløpet forutsatt at størrelsen på prøven er 500 personer (se RETURNS SUM.XLS (mal og løsning).

Beslutning

Det er ingen spesiell prosedyre i StatPro for dette tilfellet, men du kan se at grensene kan oppnås fra grensene for gjennomsnittet basert på formlene ovenfor (figur 98)
).

Konfidensintervall for proporsjon

La p være den matematiske forventningen til andelen kunder, og p i estimatet av denne andelen hentet fra et utvalg av størrelse n. Det kan vises at for tilstrekkelig store fordelingen av estimatet vil være nær normal med gjennomsnittlig p og standardavvik ... Standardfeilen til estimatet i i dette tilfellet uttrykt som , og konfidensintervallet som .

Eksempel

Fastfood-restauranten planlegger å utvide sortimentet med en ny type sandwich. For å estimere etterspørselen etter det valgte lederen tilfeldig 40 besøkende fra de som allerede har prøvd det, og inviterte dem til å rangere holdningen til det nye produktet i poeng fra 1 til 10. Lederen ønsker å estimere forventet andel kunder som vurderer det nye produktet minst 6 poeng (han forventer at disse kundene er forbrukere av det nye produktet).

Beslutning

Opprinnelig oppretter vi en ny kolonne basert på 1 hvis klientens poengsum var mer enn 6 poeng og 0 ellers (se filen SANDWICH2.XLS (mal og løsning).

Metode 1

Når vi teller tallet 1, estimerer vi andelen, og deretter bruker vi formlene.

Z cr-verdien er hentet fra spesielle tabeller over normalfordelingen (for eksempel 1,96 for 95% konfidensintervall).

Ved å bruke denne tilnærmingen og spesifikke data for å konstruere et 95% intervall, oppnår vi følgende resultater (fig. 99
). Den kritiske verdien til parameteren z cr er 1,96. Standardfeilen i estimatet er 0,077. Den nedre grensen for konfidensintervallet er 0,475. Den øvre grensen for konfidensintervallet er 0,775. Dermed har lederen rett til å anta med 95% tillit til at prosentandelen kunder som vurderte det nye produktet 6 eller høyere, vil være mellom 47,5 og 77,5.

Metode 2

Denne oppgaven kan løses ved hjelp av standard StatPro-verktøy. For å gjøre dette er det nok å merke seg at andelen i dette tilfellet sammenfaller med gjennomsnittsverdien for Type-kolonnen. Så søker vi StatPro / Statistical Inference / One-Sample Analysis for å bygge konfidensintervallet for gjennomsnittet (estimat av forventet verdi) for kolonnen Type. Resultatet oppnådd i dette tilfellet vil være veldig nær resultatet av den første metoden (fig. 99).

Konfidensintervall for standardavvik

Som et estimat av standardavviket brukes s (formelen er gitt i avsnitt 1). Tetthetsfunksjonen til estimatet s er chi-kvadratfunksjonen, som i likhet med t-fordelingen har n-1 frihetsgrader. Det er spesielle funksjoner for å jobbe med denne CHIDIST- og CHIINV-distribusjonen.

Konfidensintervallet i dette tilfellet vil ikke lenger være symmetrisk. Et skjematisk diagram over grensene er vist i fig. ett hundre .

Eksempel

Maskinen må produsere deler med en diameter på 10 cm. Det kan imidlertid oppstå feil på grunn av forskjellige omstendigheter. Kvalitetskontrolleren er bekymret for to ting: for det første skal gjennomsnittet være 10 cm; for det andre, selv i dette tilfellet, hvis avvikene er store, vil mange deler bli avvist. Hver dag tar han et utvalg på 50 deler (se filen KVALITETSKONTROLL.XLS (mal og løsning). Hvilke konklusjoner kan en slik prøve gi?

Beslutning

Plott 95% konfidensintervaller for gjennomsnitt og standardavvik ved bruk StatPro / Statistical Inference / One-Sample Analysis (fig. 101
).

Videre beregner vi andelen defekte produkter ved å anta en normalfordeling av diametre, og angi et maksimalt avvik på 0,065. Ved å bruke egenskapene til erstatningstabellen (tilfellet med to parametere), konstruerer vi avhengigheten av ekteskapsfrekvensen på gjennomsnittet og standardavviket (figur 102
).

Tillitsintervall for forskjellen mellom to midler

Dette er en av de viktigste applikasjonene statistiske metoder... Eksempler på situasjoner.

    En klesbutikksjef vil gjerne vite hvor mye mer eller mindre en gjennomsnittlig kvinnelig shopper bruker i en butikk enn en mann.

    De to flyselskapene flyr lignende ruter. Forbrukerorganisasjonen vil sammenligne forskjellen mellom gjennomsnittlig forventet flyforsinkelse for begge flyselskaper.

    Selskapet sender kuponger til visse typer varer i en by og sender ikke inn en annen. Ledere vil sammenligne gjennomsnittlig kjøpsvolum for disse varene de neste to månedene.

    Bilforhandleren forhandler ofte ektepar på presentasjoner. Par blir ofte intervjuet hver for seg for å forstå deres personlige reaksjoner på en presentasjon. Lederen ønsker å vurdere forskjellen i rangeringer rapportert av menn og kvinner.

Uavhengig prøvesak

Forskjellen i middelverdier vil ha en t-fordeling med n 1 + n 2 - 2 frihetsgrader. Konfidensintervallet for μ 1 - μ 2 uttrykkes i forholdet:

Denne oppgaven kan løses ikke bare med formlene ovenfor, men også med standard StatPro-verktøy. For dette er det nok å søke

Tillitsintervall for forskjellen mellom proporsjoner

La være den matematiske forventningen til aksjene. La være deres prøveestimater konstruert fra henholdsvis størrelse n 1 og n 2. Da er estimatet for forskjellen. Derfor uttrykkes konfidensintervallet for denne forskjellen som:

Her er z cr verdien oppnådd fra normalfordelingen i henhold til spesielle tabeller (for eksempel 1,96 for 95% konfidensintervall).

Standardfeilen i estimatet uttrykkes i dette tilfellet av forholdet:

.

Eksempel

Butikken, som forberedelse til det store salget, har påtatt seg følgende markedsundersøkelse... De 300 beste kjøperne ble valgt, som igjen ble tilfeldig delt inn i to grupper på 150 medlemmer hver. Alle de utvalgte kjøperne fikk tilsendt invitasjoner til å delta i salget, men bare medlemmer av den første gruppen ble ledsaget av en kupong som ga dem 5% rabatt. Under salget ble kjøp av alle 300 utvalgte kjøpere registrert. Hvordan kan en leder tolke resultatene og trekke en konklusjon om effektiviteten av kuponglevering? (se fil COUPONS.XLS (mal og løsning)).

Beslutning

For vårt spesielle tilfelle utførte 55 av 150 kjøpere som mottok en rabattkupong, et kjøp på et salg, og blant 150 som ikke mottok en kupong, gjorde bare 35 et kjøp (fig. 103
). Da er verdiene til prøveforholdene henholdsvis 0,3667 og 0,2333. Og prøveforskjellen mellom dem er henholdsvis 0,1333. Forutsatt at konfidensintervallet er 95%, finner vi z cr \u003d 1,96 fra normalfordelingstabellen. Beregning av standardfeilen til den utvalgte forskjellen er 0,0524. Til slutt finner vi at den nedre grensen for 95% konfidensintervall er 0,0307, \u200b\u200bog den øvre grensen er henholdsvis 0,2359. Resultatene kan tolkes slik at du for hver 100 kunder som får rabattkupong kan forvente fra 3 til 23 nye kunder. Imidlertid bør man huske på at denne konklusjonen i seg selv ennå ikke betyr effektiviteten av bruken av kuponger (fordi ved å gi rabatt, taper vi i fortjeneste!). La oss demonstrere dette med spesifikke data. Anta at den gjennomsnittlige kjøpsstørrelsen er 400 rubler, hvorav 50 rubler. det er et butikkoverskudd. Da er forventet fortjeneste per 100 kjøpere som ikke mottok kupongen:

50 0.2333 100 \u003d 1166.50 rubler.

Lignende beregninger for 100 kjøpere som mottok kupongen gir:

30 0,3667 100 \u003d 1100,10 rubler.

Nedgangen i gjennomsnittsoverskuddet til 30 skyldes at kunder som mottok kupongen i gjennomsnitt vil kjøpe for 380 rubler.

Dermed snakker den endelige konklusjonen om ineffektiviteten ved å bruke slike kuponger i denne spesielle situasjonen.

Kommentar. Denne oppgaven kan løses ved hjelp av standard StatPro-verktøy. For å gjøre dette er det tilstrekkelig å redusere dette problemet til problemet med å estimere forskjellen mellom to midler ved hjelp av metoden, og deretter bruke StatPro / Statistisk inferens / to-prøve analyse å bygge et konfidensintervall av forskjellen mellom to middelverdier.

Tillit Intervall Lengde Kontroll

Lengden på konfidensintervallet avhenger av følgende forhold:

    direkte data (standardavvik);

    signifikansnivå;

    prøve størrelse.

Prøvestørrelse for estimering av gjennomsnittet

Først vurderer du problemet generelt. La oss angi verdien av halvparten av lengden på konfidensintervallet gitt til oss som B (fig. 104
). Vi vet at konfidensintervallet for gjennomsnittsverdien til noen tilfeldig variabel X uttrykkes som hvor ... Forutsatt:

og uttrykke n, får vi.

Dessverre vet vi ikke den eksakte verdien av variansen til den tilfeldige variabelen X. I tillegg vet vi ikke verdien av t cr, siden det avhenger av n gjennom antall frihetsgrader. I denne situasjonen kan vi gå frem som følger. I stedet for variansen s, bruker vi et estimat på variansen basert på alle tilgjengelige realiseringer av den tilfeldige variabelen som er studert. I stedet for t cr-verdien bruker vi z cr-verdien for normalfordelingen. Dette er ganske akseptabelt, siden for normal og t-distribusjon er veldig tette (bortsett fra tilfellet med liten n). Dermed tar den søkte formelen form:

.

Siden formelen, generelt sett, gir resultater som ikke er heltall, anses den nødvendige prøvestørrelsen å være det overskytende av resultatet.

Eksempel

Fastfood-restauranten planlegger å utvide sortimentet med en ny type sandwich. For å estimere etterspørselen etter det, planlegger lederen å tilfeldig velge et visst antall besøkende fra de som allerede har prøvd det, og invitere dem til å rangere holdningen til det nye produktet i poeng fra 1 til 10. Lederen ønsker å estimere forventet antall poeng som den nye vil motta produkt og bygge et 95% konfidensintervall for dette estimatet. Samtidig vil han at halve bredden på konfidensintervallet ikke skal overstige 0,3. Hvor mange besøkende skal han intervjue?

som følger:

Her r ots er estimatet for fraksjonen p, og B er den gitte halvdelen av konfidensintervalllengden. En overestimering for n kan oppnås ved å bruke verdien r ots \u003d 0,5. I dette tilfellet vil lengden på konfidensintervallet ikke overstige den gitte verdien av B for en sann verdi på p.

Eksempel

La lederen fra forrige eksempel planlegge å estimere andelen kunder som foretrakk en ny type produkt. Han ønsker å bygge et 90% konfidensintervall, hvorav halvparten ikke vil overstige 0,05. Hvor mange klienter bør inkluderes i det tilfeldige utvalget?

Beslutning

I vårt tilfelle er verdien av z cr \u003d 1.645. Derfor beregnes det nødvendige beløpet som .

Hvis lederen hadde grunn til å tro at den ønskede verdien av p for eksempel er omtrent 0,3, vil vi ved å erstatte denne verdien i formelen ovenfor få en mindre verdi av den tilfeldige prøven, nemlig 228.

Formel for bestemmelse tilfeldige utvalgstørrelser i tilfelle forskjell mellom to midler skrevet som:

.

Eksempel

Noen dataselskaper har et kundeservicesenter. Nylig har antall klager fra kunder om dårlig servicekvalitet økt. I service Senter I utgangspunktet er det to typer ansatte: de som ikke har mye erfaring, men som har gjennomført spesialkurs, og som har omfattende praktisk erfaring, men som ikke har fullført spesialkurs. Selskapet ønsker å analysere kundeklager de siste seks månedene og sammenligne gjennomsnittstallene for hver av de to gruppene av ansatte. Det antas at mengdene i prøvene for begge gruppene vil være de samme. Hvor mange ansatte skal inkluderes i utvalget for å få et 95% intervall med en halv lengde på ikke mer enn 2?

Beslutning

Her er σ оц et estimat av standardavviket til begge tilfeldige variablene under antagelse om at de er nærme. Derfor, i vår oppgave, må vi på en eller annen måte få dette estimatet. Dette kan for eksempel gjøres som følger. Etter å ha sett på dataene om kundeklager de siste seks månedene, kan lederen merke at for hver ansatt er det hovedsakelig fra 6 til 36 klager. Å vite at for en normalfordeling er nesten alle verdier ikke mer enn tre standardavvik fra gjennomsnittet, kan han med rimelighet tro at:

, hvorfra σ оц \u003d 5.

Ved å erstatte denne verdien i formelen får vi .

Formel for bestemmelse størrelsen på det tilfeldige utvalget i tilfelle estimering av forskjellen mellom aksjene ser ut som:

Eksempel

Et bestemt selskap har to fabrikker som produserer lignende produkter. En selskapssjef ønsker å sammenligne andelen defekte produkter i begge fabrikkene. I henhold til tilgjengelig informasjon er skrotgraden på begge fabrikkene mellom 3 og 5%. Det er ment å bygge et 99% konfidensintervall med halv lengde på ikke mer enn 0,005 (eller 0,5%). Hvor mange gjenstander skal tas fra hver fabrikk?

Beslutning

Her er p 1ots og p 2ots estimater av to ukjente skraprater på 1. og 2. fabrikk. Hvis vi setter p 1ots \u003d p 2ots \u003d 0,5, får vi en overvurdert verdi for n. Men siden vi i vårt tilfelle har litt forhåndsinformasjon om disse aksjene, tar vi det øvre estimatet av disse aksjene, nemlig 0,05. Vi får

Når noen parametere i populasjonen er estimert fra eksempeldata, er det nyttig å ikke bare gi et poengestimat av parameteren, men også å indikere konfidensintervallet, som indikerer hvor den nøyaktige verdien av den estimerte parameteren kan være lokalisert.

I dette kapittelet ble vi også kjent med de kvantitative forholdene som lar oss bygge slike intervaller for forskjellige parametere; lærte å kontrollere lengden på konfidensintervallet.

Vær også oppmerksom på at problemet med å estimere utvalgsstørrelsen (problemet med å planlegge et eksperiment) kan løses ved hjelp av standard StatPro-verktøy, nemlig StatPro / statistisk inferens / utvalgstørrelsesvalg.

En av metodene for å løse statistiske problemer er å beregne konfidensintervallet. Det brukes som et foretrukket alternativ til punktestimering for små utvalgstørrelser. Det skal bemerkes at prosessen med å beregne konfidensintervallet i seg selv er ganske komplisert. Men Excel-verktøy lar deg forenkle det noe. La oss finne ut hvordan dette gjøres i praksis.

Denne metoden brukes til intervallestimering av forskjellige statistiske størrelser. Hovedoppgaven med denne beregningen er å kvitte seg med usikkerheten i poengestimatet.

I Excel er det to hovedalternativer for beregning ved hjelp av denne metoden: når variansen er kjent, og når den er ukjent. I det første tilfellet brukes funksjonen til beregninger TRUST.NORM, og i det andre - TILLITSSTUDENT.

Metode 1: funksjon CONFIDENCE NORMAL

Operatør TRUST.NORM, som tilhører den statistiske funksjonsgruppen, dukket først opp i Excel 2010. Tidligere versjoner av dette programmet bruker motstykket TILLIT... Hensikten med denne operatøren er å beregne det normalt fordelte konfidensintervallet for gjennomsnittlig befolkning.

Syntaksen er som følger:

TRUST.NORM (alfa; standard_dev; størrelse)

"Alpha" - et argument som indikerer signifikansnivået som brukes til å beregne konfidensnivået. Tillitsnivået er lik følgende uttrykk:

(1- "Alpha") * 100

"Standardavvik" Er et argument, essensen av det fremgår av navnet. Dette er standardavviket til det foreslåtte utvalget.

"Størrelsen" - et argument som definerer prøvestørrelsen.

Alle argumenter til denne operatøren er påkrevd.

Funksjon TILLIT har nøyaktig de samme argumentene og mulighetene som den forrige. Syntaksen er som følger:

TRUST (alfa; standard_dev; størrelse)

Som du kan se, er forskjellene bare i navnet på operatøren. Den angitte funksjonen beholdes i Excel 2010 og senere i en spesiell kategori av kompatibilitetsårsaker "Kompatibilitet"... I versjoner av Excel 2007 og tidligere er den til stede i hovedgruppen av statistiske operatører.

Grensen til konfidensintervallet bestemmes ved hjelp av følgende formel:

X + (-) TRUST.NORMAL

Hvor XEr gjennomsnittet av den samplede verdien, som ligger midt i det valgte området.

La oss nå se på hvordan vi beregner konfidensintervallet ved hjelp av et spesifikt eksempel. Det ble utført 12 tester, som resulterte i at forskjellige resultater ble oppnådd, som er oppført i tabellen. Dette er vår totalitet. Standardavviket er 8. Vi må beregne konfidensintervallet på et konfidensnivå på 97%.

  1. Velg cellen der databehandlingsresultatet skal vises. Klikk på knappen "Sett inn funksjon".
  2. Vises Funksjonsveiviser... Gå til kategorien "Statistisk" og marker navnet "TRUST.NORM"... Deretter klikker du på knappen "OK".
  3. Argumentvinduet åpnes. Feltene samsvarer naturlig med navnene på argumentene.
    Vi setter markøren til det første feltet - "Alpha"... Her skal vi indikere nivået av betydning. Som vi husker er vårt tillitsnivå 97%. Samtidig sa vi at det beregnes på denne måten:

    (1-nivå av tillit) / 100

    Det vil si å erstatte verdien får vi:

    Ved enkle beregninger finner vi ut at argumentet "Alpha" er lik 0,03 ... Skriv inn denne verdien i feltet.

    Som du vet, er standardavviket etter forhold 8 ... Derfor, i felt "Standardavvik" bare skriv dette tallet.

    I felt "Størrelsen" du må angi antall elementer i testene som er utført. Som vi husker, deres 12 ... Men for å automatisere formelen og ikke redigere den hver gang en ny test utføres, la oss sette denne verdien ikke med et vanlig tall, men ved å bruke operatøren SCORE... Så vi plasserer markøren i feltet "Størrelsen", og klikk deretter på trekanten, som ligger til venstre for formellinjen.

    En liste over nylig brukte funksjoner vises. Hvis operatøren SCORE har blitt brukt nylig, burde den være på denne listen. I dette tilfellet trenger du bare å klikke på navnet. I motsatt tilfelle, hvis du ikke finner det, så gå til varen "Andre funksjoner ...".

  4. Det allerede kjente for oss dukker opp Funksjonsveiviser... Gå til gruppen igjen "Statistisk"... Fremhev navnet der "SCORE"... Klikk på knappen "OK".
  5. Argumentvinduet for operatøren ovenfor vises. Denne funksjonen er designet for å beregne antall celler i det angitte området som inneholder numeriske verdier. Dens syntaks er som følger:

    COUNT (verdi1; verdi2; ...)

    Argumentgruppe "Verdier" er en referanse til området der du vil beregne antall celler fylt med numeriske data. Det kan være opptil 255 slike argumenter totalt, men i vårt tilfelle trenger vi bare ett.

    Plasser markøren i feltet "Verdi1" og hold nede venstre museknapp, velg området som inneholder samlingen vår på arket. Deretter vises adressen i feltet. Klikk på knappen "OK".

  6. Etter det vil applikasjonen utføre beregningen og sende resultatet til cellen der den er. I vårt spesielle tilfelle er formelen som følger:

    CONFIDENT.NORM (0,03; 8; COUNT (B2: B13))

    Det totale beregningsresultatet var 5,011609 .

  7. Men det er ikke alt. Som vi husker, beregnes grensen for konfidensintervallet ved å legge til og trekke fra gjennomsnittet av samplet verdi av beregningsresultatet TRUST.NORM... På denne måten beregnes henholdsvis høyre og venstre grense for konfidensintervallet. Selve prøven kan beregnes ved hjelp av operatøren GJENNOMSNITT.

    Denne operatøren er designet for å beregne det aritmetiske gjennomsnittet av det valgte tallområdet. Den har følgende ganske enkle syntaks:

    GJENNOMSNITT (nummer1; nummer2; ...)

    Argument "Nummer" kan være enten en enkelt numerisk verdi eller en referanse til celler eller til og med hele områder som inneholder dem.

    Så velg cellen der beregningen av gjennomsnittsverdien skal vises, og klikk på knappen "Sett inn funksjon".

  8. Åpner Funksjonsveiviser... Gå til kategorien igjen "Statistisk" og velg navnet fra listen "GJENNOMSNITT"... Som alltid, klikk på knappen "OK".
  9. Argumentvinduet starter. Plasser markøren i feltet "Nummer1" og hold nede venstre museknapp for å velge hele verdiområdet. Etter at koordinatene vises i feltet, klikker du på knappen "OK".
  10. Etter det GJENNOMSNITT sender beregningsresultatet til et arkelement.
  11. Vi beregner den høyre grensen til konfidensintervallet. For å gjøre dette, velg en egen celle, legg tegnet «=» og legg til innholdet i arkelementene der resultatene av funksjonsberegninger ligger GJENNOMSNITT og TRUST.NORM... Trykk på knappen for å utføre beregningen Tast inn... I vårt tilfelle fikk vi følgende formel:

    Beregningsresultat: 6,953276

  12. På samme måte beregner vi den venstre grensen til konfidensintervallet, bare denne gangen fra beregningsresultatet GJENNOMSNITT trekk resultatet av beregningen av operatøren TRUST.NORM... Formelen for eksemplet vårt er av følgende type:

    Beregningsresultat: -3,06994

  13. Vi prøvde å beskrive i detalj alle trinnene for å beregne konfidensintervallet, så vi beskrev hver formel i detalj. Men du kan kombinere alle handlingene i en formel. Beregningen av høyre kant av konfidensintervallet kan skrives som følger:

    GJENNOMSNITT (B2: B13) + KONFIDENSIELT NORM (0,03; 8; TELLING (B2: B13))

  14. En lignende beregning av venstre grense vil se slik ut:

    GJENNOMSNITT (B2: B13) -TRUST.NORM (0,03; 8; COUNT (B2: B13))

Metode 2: CONFIDENCE STUDENT-funksjon

I tillegg har Excel en annen funksjon som er relatert til beregning av konfidensintervallet - TILLITSSTUDENT... Det har bare dukket opp siden Excel 2010. Denne operatøren beregner konfidensintervallet for befolkningen ved hjelp av studentens t-fordeling. Det er veldig praktisk å bruke når variansen og følgelig standardavviket er ukjent. Syntaksen til operatøren er som følger:

TRUST.STUDENT (alfa; standard_ev; størrelse)

Som du ser, forble navnene på operatørene uendret i dette tilfellet.

La oss se hvordan vi kan beregne grensene for konfidensintervallet med et ukjent standardavvik ved å bruke eksemplet med samme populasjon som vi vurderte i forrige metode. Tillitsnivået, som forrige gang, er 97%.

  1. Velg cellen der beregningen skal foretas. Klikk på knappen "Sett inn funksjon".
  2. I åpnet Funksjonsveiviser gå til kategorien "Statistisk"... Velge navn "TILLITSTUDENT"... Klikk på knappen "OK".
  3. Argumentvinduet for den angitte operatøren startes.

    I felt "Alpha", gitt at konfidensnivået er 97%, skriver vi ned tallet 0,03 ... Vi vil ikke dvele ved prinsippene for å beregne denne parameteren for andre gang.

    Etter det plasserer vi markøren i feltet "Standardavvik"... Denne gangen er denne indikatoren ukjent for oss, og vi må beregne den. Dette gjøres ved hjelp av spesiell funksjonSTDEV.B... For å åpne vinduet til denne operatøren, klikk på trekanten til venstre for formellinjen. Hvis vi ikke finner ønsket navn i listen som åpnes, så gå til varen "Andre funksjoner ...".

  4. Starter opp Funksjonsveiviser... Flytter til kategorien "Statistisk" og merk navnet i det "STDEV.V"... Klikk deretter på knappen "OK".
  5. Argumentvinduet åpnes. Operatørens oppgave STDEV.B er definisjonen av standardavviket til prøven. Syntaksen ser slik ut:

    STDEV.B (nummer1; nummer2; ...)

    Det er ikke vanskelig å gjette at argumentet "Nummer" Er adressen til prøveemnet. Hvis valget er plassert i en enkelt matrise, og bruker bare ett argument, kan du gi en referanse til dette området.

    Plasser markøren i feltet "Nummer1" og som alltid holder du nede venstre museknapp, velger du befolkningen. Etter at koordinatene er kommet inn i feltet, må du ikke skynde deg å trykke på knappen "OK", siden resultatet blir feil. Først må vi gå tilbake til operatørargumentvinduet TILLITSSTUDENTå gjøre det siste argumentet. For å gjøre dette, klikk på riktig navn i formellinjen.

  6. Argumentvinduet for den kjente funksjonen åpnes igjen. Plasser markøren i feltet "Størrelsen"... Igjen, klikk på den allerede kjente trekanten for å gå til valg av operatører. Som du forsto, trenger vi et navn "SCORE"... Siden vi brukte denne funksjonen i beregningene i forrige metode, i denne listen den er til stede, så bare klikk på den. Hvis du ikke finner det, så følg algoritmen som er beskrevet i den første metoden.
  7. En gang i argumentvinduet SCORE, plasser markøren i feltet "Nummer1" og hold museknappen nede, velg populasjonen. Klikk deretter på knappen "OK".
  8. Etter det beregner og viser verdien av konfidensintervallet.
  9. For å definere grensene, må vi igjen beregne eksemplets gjennomsnitt. Men gitt at beregningsalgoritmen ved hjelp av formelen GJENNOMSNITT det samme som i den forrige metoden, og til og med resultatet har ikke endret seg, vil vi ikke dvele ved dette i detalj andre gang.
  10. Ved å legge til resultatene av beregningen GJENNOMSNITT og TILLITSSTUDENT, får vi den rette grensen til konfidensintervallet.
  11. Trekker operatøren fra beregningsresultatene GJENNOMSNITT beregningsresultat TILLITSSTUDENT, har vi den venstre grensen til konfidensintervallet.
  12. Hvis beregningen er skrevet i en formel, vil beregningen av høyre kant i vårt tilfelle se slik ut:

    GJENNOMSNITT (B2: B13) + STILLET STUDENT (0,03; STDEV.B (B2: B13); TELLING (B2: B13))

  13. Følgelig vil formelen for beregning av venstre kant se slik ut:

    GJENNOMSNITT (B2: B13) - STILLET STUDENT (0,03; STDEV.B (B2: B13); TELLING (B2: B13))

Som du ser, gjør Excel-verktøy det mye enklere å beregne konfidensintervallet og dets grenser. For disse formål brukes separate operatører for prøver der avviket er kjent og ukjent.

I dag er det virkelig for enkelt: du kan gå opp til en datamaskin og, med liten eller ingen kunnskap om hva du gjør, skape følelser og tull i en virkelig fantastisk hastighet. (J. Box)

Tillitsintervaller

generell gjennomgang

Tar vi et utvalg fra befolkningen, får vi et poengestimat for parameteren av interesse og beregner standardfeilen for å indikere nøyaktigheten av estimatet.

I de fleste tilfeller er imidlertid standardfeilen som sådan ikke akseptabel. Det er mye mer nyttig å kombinere dette presisjonsmål med et intervallestimat for en populasjonsparameter.

Dette kan gjøres ved å bruke kunnskap om den teoretiske sannsynlighetsfordelingen av prøvestatistikken (parameter) for å beregne konfidensintervallet (CI - Confidence Interval, CI - Confidence interval) for parameteren.

Generelt utvider konfidensintervallet estimatene i begge retninger med et bestemt multiplum av standardfeilen (av denne parameteren); de to verdiene (konfidensgrenser) som definerer intervallet er vanligvis kommaseparert og lukket i parentes.

Konfidensintervall for gjennomsnitt

Bruk av normalfordeling

Eksempelgjennomsnittet fordeles normalt hvis utvalgsstørrelsen er stor, så kunnskap om normalfordelingen kan brukes når man vurderer prøvenes gjennomsnitt.

Spesielt er 95% av fordelingen av utvalget middel innenfor 1,96 standardavvik (SD) av populasjonsgjennomsnittet.

Når vi bare har ett utvalg, kaller vi det standardfeilen til gjennomsnittet (SEM) og beregner 95% konfidensintervall for gjennomsnittet som følger:

Hvis dette eksperimentet gjentas flere ganger, vil intervallet inneholde det sanne gjennomsnittet av befolkningen 95% av tiden.

Dette er vanligvis et konfidensintervall, for eksempel intervallet av verdier der det sanne populasjonsgjennomsnittet (generelt gjennomsnitt) ligger med et 95% konfidensnivå.

Selv om det ikke er helt strengt (populasjonsgjennomsnittet er en fast verdi og derfor ikke kan tillegges en sannsynlighet) for å tolke konfidensintervallet på denne måten, er det konseptuelt lettere å forstå.

Ved hjelp av t-fordeling

Du kan bruke normalfordelingen hvis du vet verdien av variansen i populasjonen. Når størrelsen på prøven er liten, fordeles prøvenes gjennomsnitt også hvis dataene som ligger til grunn for populasjonen er normalt fordelt.

Hvis dataene som ligger til grunn for populasjonen ikke er normalt fordelt og / eller den generelle avviket (varians i populasjonen) er ukjent, følger gjennomsnittet av prøven studentens t-fordeling.

Vi beregner 95% konfidensintervall for gjennomsnittet av befolkningen som følger:

Hvor er prosentpoenget (persentilen) t-studentens t-fordeling med (n-1) frihetsgrader, som gir en tosidig sannsynlighet på 0,05.

Generelt gir den et bredere spekter enn å bruke en normalfordeling fordi den tar hensyn til den ekstra usikkerheten som innføres ved å estimere populasjonsstandardavviket og / eller på grunn av den lille utvalgsstørrelsen.

Når utvalgsstørrelsen er stor (ca. 100 eller mer), er forskjellen mellom de to distribusjonene ( t-student og normal) er ubetydelig. Bruk imidlertid alltid t-distribusjon ved beregning av konfidensintervaller, selv om utvalgsstørrelsen er stor.

Vanligvis rapporteres 95% KI. Andre konfidensintervaller kan beregnes, for eksempel 99% KI for gjennomsnittet.

I stedet for å produsere en standardfeil og en tabellverdi t-av fordelingen som tilsvarer en tosidig sannsynlighet på 0,05, multipliser den (standardfeil) med verdien som tilsvarer en tosidig sannsynlighet på 0,01. Dette er et bredere konfidensintervall enn 95% fordi det gjenspeiler den økte tilliten til at intervallet faktisk inkluderer befolkningens gjennomsnitt.

Konfidensintervall for proporsjon

Eksempelfordelingen av proporsjoner har en binomial fordeling. Imidlertid hvis prøvestørrelsen nrimelig stor, da er prøvefordelingen av andelen omtrent normal med gjennomsnittet.

Evaluering med en selektiv holdning p \u003d r / n (Hvor r- antall individer i utvalget med de som er av interesse for oss karakteristiske trekk), og standardfeilen er estimert:

95% konfidensintervall for andelen er estimert:

Hvis prøvestørrelsen er liten (vanligvis når np eller n (1-p) mindre 5 ), så er det nødvendig å bruke binomialfordelingen for å beregne de nøyaktige konfidensintervallene.

Merk at hvis s uttrykkes i prosent, da (1-p) erstattet av (100-p).

Tolker tillitsintervaller

Når vi tolker konfidensintervallet, er vi interessert i følgende spørsmål:

Hvor bredt er konfidensintervallet?

Et bredt konfidensintervall indikerer at estimatet er unøyaktig; smal indikerer et nøyaktig estimat.

Bredden på konfidensintervallet avhenger av størrelsen på standardfeilen, som igjen avhenger av utvalgsstørrelsen, og når man vurderer en numerisk variabel, gir det større konfidensintervaller for datavariabilitet enn studier av et stort datasett med noen få variabler .

Inkluderer CI noen verdier av spesiell interesse?

Du kan sjekke om den sannsynlige verdien for en populasjonsparameter faller innenfor konfidensintervallet. I så fall er resultatene i samsvar med denne sannsynlige verdien. Hvis ikke, er det lite sannsynlig (for et 95% konfidensintervall er sjansen nesten 5%) at parameteren har denne verdien.

Beregningen av konfidensintervallet er basert på gjennomsnittsfeilen til den tilsvarende parameteren. Konfidensintervall viser grensene med sannsynlighet (1-a) den virkelige verdien av den estimerte parameteren er. Her er a nivået av betydning, (1-a) kalles også konfidensnivået.

I det første kapittelet viste vi at for eksempel for det aritmetiske gjennomsnittet, ligger den sanne populasjonsgjennomsnittet i omtrent 95% av tilfellene innenfor 2 gjennomsnittlige feil av gjennomsnittet. Dermed vil grensene for 95% konfidensintervall for gjennomsnittet skilles fra gjennomsnittet av prøven med to ganger gjennomsnittsfeilen til gjennomsnittet, dvs. vi multipliserer middelfeilen til gjennomsnittet med en eller annen faktor avhengig av konfidensnivået. For middelverdien og differansen av midlene tas studentens koeffisient (den kritiske verdien av studentens kriterium), for andelen og differansen av aksjene, den kritiske verdien av kriteriet z. Produktet av koeffisienten ved middelfeilen kan kalles marginalfeilen til denne parameteren, dvs. det maksimale vi kan få når vi vurderer det.

Tillitsintervall for aritmetisk gjennomsnitt : .

Her er eksemplets middelverdi;

Gjennomsnittlig feil av det aritmetiske gjennomsnittet;

s -prøve standardavvik;

n

f \u003d n-1 (Studentens koeffisient).

Tillitsintervall for forskjell på aritmetiske midler :

Her er forskjellen på prøven betyr;

- den gjennomsnittlige feilen i forskjellen mellom aritmetiske midler;

s 1, s 2 -prøve standardavvik;

n 1, n 2

Kritisk verdi av studentens kriterium for et gitt signifikansnivå a og antall frihetsgrader f \u003d n 1 + n 2-2 (Studentens koeffisient).

Tillitsintervall for dele :

.

Her er d samplingsfrekvensen;

- gjennomsnittlig aksjefeil

n - prøve størrelse (størrelse på gruppen);

Tillitsintervall for forskjell på aksjer :

Her er forskjellen på prøven aksjer;

- den gjennomsnittlige feilen i forskjellen mellom aritmetiske midler;

n 1, n 2 - mengder prøver (antall grupper);

Den kritiske verdien av kriteriet z på et gitt nivå av betydning a (,,).

Når vi beregner konfidensintervallene for forskjellen i indikatorer, ser vi først og fremst direkte de mulige verdiene av effekten, og ikke bare dens estimat. For det andre kan vi trekke en konklusjon om aksept eller tilbakevisning av nullhypotesen, og for det tredje kan vi trekke en konklusjon om testens kraft.

Når du tester hypoteser ved hjelp av konfidensintervaller, bør følgende regel følges:

Hvis konfidensintervallet 100 (1-a) av differansen i midler ikke inneholder , er forskjellene statistisk signifikante på signifikansnivået a; tvert imot, hvis dette intervallet inneholder , så er ikke forskjellene statistisk signifikante.

Faktisk, hvis dette intervallet inneholder , betyr det at den sammenlignede indikatoren kan være mer eller mindre i en av gruppene, sammenlignet med den andre, dvs. de observerte forskjellene er tilfeldige.

På stedet der null er innenfor konfidensintervallet, kan man bedømme kraften til testen. Hvis null er nær den nedre eller øvre grensen av intervallet, vil kanskje forskjellene nå statistisk signifikans med et større antall sammenlignede grupper. Hvis null er nær midten av intervallet, betyr det at økningen og reduksjonen i indikatoren i eksperimentgruppen er like sannsynlig, og det er sannsynligvis ingen forskjeller.

Eksempler:

Sammenlign operativ dødelighet ved bruk av to forskjellige typer anestesi: 61 personer ble operert med den første typen anestesi, 8 døde, med den andre - 67 personer, 10 døde.

d 1 \u003d 8/61 \u003d 0,131; d2 \u003d 10/67 \u003d 0,149; d1-d2 \u003d - 0,018.

Forskjellen i dødelighet av de sammenlignede metodene vil være i intervallet (-0,018 - 0,122; -0,018 + 0,122) eller (-0,14; 0,104) med en sannsynlighet på 100 (1-a) \u003d 95%. Intervallet inneholder , dvs. hypotesen om samme dødelighet i to forskjellige typer anestesi kan ikke nektes.

Dermed kan og vil dødeligheten reduseres til 14% og øke til 10,4% med en sannsynlighet på 95%, dvs. null ligger omtrent midt i intervallet, så det kan hevdes at disse to metodene mest sannsynlig ikke skiller seg virkelig ut i dødelighet.

I eksemplet som ble sett på tidligere ble den gjennomsnittlige tappetesttiden sammenlignet i fire grupper av studenter, forskjellig i eksamenspoeng. La oss beregne konfidensintervallene for den gjennomsnittlige pressetiden for studenter som besto eksamen på 2 og 5, og konfidensintervallet for forskjellen mellom disse gjennomsnittene.

Vi finner studentens koeffisienter i henhold til studentens fordelingstabeller (se vedlegg): for den første gruppen: \u003d t (0,05; 48) \u003d 2,011; for den andre gruppen: \u003d t (0,05; 61) \u003d 2.000. Dermed er konfidensintervallene for den første gruppen: \u003d (162.19-2.011 * 2.18; 162.19 + 2.011 * 2.18) \u003d (157.8; 166.6), for den andre gruppen (156.55 - 2.000 * 1.88; 156.55 + 2.000 * 1.88) \u003d ( 152,8; 160,3). Så for de som besto eksamen i 2, ligger den gjennomsnittlige pressetiden i området fra 157,8 ms til 166,6 ms med en sannsynlighet på 95%, for de som besto eksamen i 5 - fra 152,8 ms til 160,3 ms med en sannsynlighet på 95%.

Du kan også teste nullhypotesen ved å bruke konfidensintervaller for midler, og ikke bare for forskjellen i midler. For eksempel, som i vårt tilfelle, hvis konfidensintervallene for midlene overlapper hverandre, kan ikke nullhypotesen avvises. For å avvise en hypotese på det valgte signifikansnivået, bør ikke de tilsvarende konfidensintervallene overlappe hverandre.

La oss finne konfidensintervallet for forskjellen i gjennomsnittstiden for å trykke i gruppene som besto eksamen med 2 og 5. Forskjellen i gjennomsnitt: 162,19 - 156,55 \u003d 5,64. Studentens koeffisient: \u003d t (0,05; 49 + 62-2) \u003d t (0,05; 109) \u003d 1,982. Gruppens standardavvik vil være :; ... Vi beregner den gjennomsnittlige feilen av forskjellen mellom middel :. Konfidensintervall: \u003d (5,64-1,982 * 2,87; 5,64 + 1,982 * 2,87) \u003d (-0,044; 11,33).

Så forskjellen i gjennomsnittlig pressetid i gruppene som besto eksamen ved 2 og 5 vil være i området fra -0,044 ms til 11,33 ms. Dette intervallet inkluderer , dvs. den gjennomsnittlige pressetiden for de som besto eksamen perfekt kan øke og redusere i forhold til de som ikke besto eksamen. nullhypotesen kan ikke avvises. Men null er veldig nær den nedre grensen, pressetiden er mye mer sannsynlig å avta i tilfelle de som har bestått den. Dermed kan vi konkludere med at det fortsatt er forskjeller i gjennomsnittlig pressetid mellom de som passerte 2 og 5, vi kunne bare ikke finne dem med en gitt endring i gjennomsnittstid, spredning i gjennomsnittstid og prøvevolum.

Kraften til en test er sannsynligheten for å avvise en feil nullhypotese, dvs. finne forskjeller der de virkelig er.

Kraften til testen bestemmes ut fra signifikansnivået, størrelsen på forskjellene mellom gruppene, spredningen av verdier i gruppene og størrelsen på prøvene.

For studentens test og variansanalyse kan du bruke følsomhetsdiagrammer.

Kraften til kriteriet kan brukes i den foreløpige bestemmelsen av det nødvendige antall grupper.

Konfidensintervallet viser grensene med en gitt sannsynlighet for at den virkelige verdien av den estimerte parameteren er.

Ved å bruke konfidensintervaller kan du teste statistiske hypoteser og trekke konklusjoner om sensitiviteten til kriteriene.

LITTERATUR.

Glantz S. - Kapittel 6.7.

Rebrova O.Yu. - s. 112-114, s. 171-173, s. 234-238.

Sidorenko E.V. - s. 32-33.

Spørsmål til egenundersøkelse av studenter.

1. Hva er kraften til en test?

2. Når er det nødvendig å vurdere kraften til kriteriene?

3. Metoder for beregning av kraft.

6. Hvordan teste en statistisk hypotese ved hjelp av et konfidensintervall?

7. Hva kan man si om kraften til testen når man beregner konfidensintervallet?

Oppgaver.

I statistikken er det to typer estimater: punkt og intervall. Poengestimat er en enkelt utvalgstatistikk som brukes til å estimere en parameter for en populasjon. For eksempel betyr prøven er et poengestimat av den matematiske forventningen til den generelle befolkningen, og utvalgsvariansen S 2 - poengestimat av variansen til den generelle befolkningen σ 2... det ble vist at prøvene er et objektivt estimat av den matematiske forventningen til befolkningen generelt. Prøvenes gjennomsnitt kalles upartisk fordi gjennomsnittet av alle prøvene betyr (for samme utvalgstørrelse n) er lik den matematiske forventningen til befolkningen generelt.

For å få variansen til prøven S 2 ble et objektivt estimat av populasjonsavviket σ 2, bør nevneren av prøvevariansen settes lik n – 1 , men ikke n... Med andre ord er variansen til den generelle befolkningen gjennomsnittet av alle mulige utvalgsvarianter.

Når man vurderer parametrene for den generelle befolkningen, bør man huske på at utvalgstatistikk, som f.eks , avhenger av spesifikke prøver. Å ta hensyn til dette faktum, å oppnå intervallestimering den matematiske forventningen til den generelle befolkningen analyserer fordelingen av eksempler på midler (se detaljer). Det konstruerte intervallet er preget av et visst konfidensnivå, som er sannsynligheten for at den virkelige parameteren til den generelle befolkningen blir estimert riktig. Lignende konfidensintervaller kan brukes til å estimere andelen av en funksjon r og den viktigste fordelte massen av befolkningen generelt.

Last ned et notat i format eller eksempler i format

Konstruksjon av konfidensintervallet for den matematiske forventningen til befolkningen generelt med kjent standardavvik

Konstruksjon av et konfidensintervall for andelen av en funksjon i befolkningen generelt

I denne delen utvides begrepet konfidensintervall til kategoriske data. Dette lar deg estimere andelen av egenskapen i befolkningen generelt. r ved hjelp av en samplingsfrekvens r S \u003d X /n... Som angitt, hvis mengdene nr og n(1 - p) overstiger tallet 5, kan binomialfordelingen tilnærmes med en normal. Derfor for å vurdere andelen av en funksjon i befolkningen generelt r et intervall kan konstrueres hvis konfidensnivå er (1 - α) х100%.


hvor s S - en selektiv andel av en funksjon lik X /n, dvs. antall suksesser delt på utvalgsstørrelsen, r - andelen av funksjonen i befolkningen generelt, Z - den kritiske verdien av den standardiserte normalfordelingen, n - prøvestørrelse.

Eksempel 3. Anta at fra informasjon System hentet et utvalg på 100 fakturaer fullført den siste måneden. La oss si at 10 av disse fakturaene er laget med feil. Dermed, r \u003d 10/100 \u003d 0,1. 95% konfidensnivå tilsvarer den kritiske verdien Z \u003d 1,96.

Dermed er sannsynligheten for at 4,12% til 15,88% av fakturaene inneholder feil 95%.

For en gitt utvalgstørrelse synes konfidensintervallet som inneholder andelen av en funksjon i befolkningen generelt å være bredere enn for en kontinuerlig tilfeldig variabel. Dette er fordi målinger av en kontinuerlig tilfeldig variabel inneholder mer informasjon enn målinger av kategoriske data. Med andre ord inneholder kategoriske data som tar bare to verdier ikke nok informasjon til å estimere parametrene for fordelingen.

Iberegning av estimater fra en endelig befolkning

Estimering av den matematiske forventningen.Korreksjonsfaktor for den endelige populasjonen ( fpc) ble brukt til å redusere standardfeilen med en faktor. Ved beregning av konfidensintervaller for populasjonsestimater brukes en korreksjonsfaktor i situasjoner der prøver hentes uten å bli returnert. Dermed har konfidensintervallet for den matematiske forventningen et konfidensnivå lik (1 - α) х100%, beregnes med formelen:

Eksempel 4.For å illustrere anvendelsen av korreksjonsfaktoren for en endelig befolkning, la oss gå tilbake til problemet med å beregne konfidensintervallet for gjennomsnittlig beløp fakturaer diskutert ovenfor i eksempel 3. Anta at selskapet utsteder 5000 fakturaer per måned, og \u003d 110,27 dollar., S \u003d $ 28,95 N = 5000, n = 100, α \u003d 0,05, t 99 \u003d 1,9842. Ved formel (6) får vi:

Vurdering av andelen av funksjonen.Når du velger uten å returnere, er konfidensintervallet for brøkdelen av en funksjon som har et konfidensnivå lik (1 - α) х100%, beregnes med formelen:

Tillitsintervaller og etiske problemer

Etiske problemer oppstår ofte når man tar prøver av befolkningen og formulerer statistiske konklusjoner. Den viktigste er hvordan konfidensintervaller og poengestimater av eksempler på statistikk stemmer overens. Offentliggjøring av poengestimater uten passende konfidensintervaller (vanligvis 95% konfidensnivåer) og prøvestørrelser som de kommer fra, kan være misvisende. Dette kan gi brukeren inntrykk av at poengestimatet er akkurat det han trenger for å forutsi egenskapene til hele befolkningen. Dermed er det nødvendig å forstå at intervallestimater i enhver forskning bør settes i forkant. I tillegg bør man være spesielt oppmerksom på det rette valget prøve størrelser.

Objektene for statistisk manipulering er oftest resultatene av sosiologiske meningsmålinger av befolkningen om ulike politiske spørsmål. Samtidig blir resultatene av undersøkelsen ført til avisens forsider, og feilen i prøveundersøkelsen og metoden for statistisk analyse skrives ut et sted i midten. For å bevise gyldigheten av de oppnådde poengestimatene, er det nødvendig å indikere prøvestørrelsen, på grunnlag av hvilken de ble oppnådd, grensene for konfidensintervallet og dets signifikansnivå.

Neste merknad

Brukt materiale fra boka Levin og annen statistikk for ledere. - M.: Williams, 2004. - s. 448-462

Sentral grensesetning argumenterer for at for en tilstrekkelig stor utvalgsstørrelse kan prøvefordelingen av midler tilnærmes med en normalfordeling. Denne eiendommen avhenger ikke av typen fordeling av befolkningen generelt.



Relaterte artikler: