Calculați intervalul de încredere. Interval de încredere pentru așteptările matematice

Interval de încredere (CI; în engleză, interval de încredere - CI) obținut într-un studiu cu un eșantion oferă o măsură a acurateței (sau incertitudinii) rezultatelor studiului pentru a trage concluzii despre populația tuturor acestor pacienți (populația generală). Definiția corectă a unui CI de 95% poate fi formulată astfel: 95% dintre astfel de intervale vor conține valoarea adevărată în populație. Această interpretare este oarecum mai puțin precisă: CI este intervalul de valori în care puteți fi 95% sigur că conține valoarea adevărată. Când se utilizează un CI, se pune accent pe determinarea unui efect cantitativ, spre deosebire de valoarea P care rezultă din testarea semnificației statistice. Valoarea P nu estimează nicio cantitate, ci servește mai degrabă ca o măsură a puterii dovezilor față de ipoteza nulă a „fără efect”. Valoarea lui P în sine nu ne spune nimic despre mărimea diferenței sau chiar despre direcția acesteia. Prin urmare, valorile P independente sunt absolut neinformative în articole sau rezumate. În schimb, IC indică atât dimensiunea efectului de interes imediat, cum ar fi beneficiul unui tratament, cât și puterea dovezilor. Prin urmare, DI este direct legată de practica EBM.

Abordarea estimativă a analizei statistice, exemplificată de CI, urmărește măsurarea cantității unui efect de interes (sensibilitatea unui test de diagnostic, rata cazurilor prezise, ​​reducerea riscului relativ cu tratament etc.) și, de asemenea, măsurarea incertitudinii în acest sens. efect. Cel mai adesea, CI este intervalul de valori de ambele părți ale estimării în care se află probabil valoarea adevărată și puteți fi 95% sigur de aceasta. Acordul de utilizare a probabilității de 95% este arbitrar, la fel ca și valoarea P.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI se bazează pe ideea că același studiu efectuat pe eșantioane diferite de pacienți nu ar produce rezultate identice, ci că rezultatele acestora ar fi distribuite în jurul unei valori adevărate, dar necunoscute. Cu alte cuvinte, CI îl descrie drept „variabilitate dependentă de eșantion”. CI nu reflectă incertitudine suplimentară din alte motive; în special, nu include impactul pierderii selective în urmărire, conformarea slabă sau măsurarea inexactă a rezultatului, lipsa orbirii etc. Prin urmare, IC subestimează întotdeauna cantitatea totală de incertitudine.

Calcul intervalului de încredere

Tabelul A1.1. Erori standard și intervale de încredere pentru măsurătorile clinice selectate

De obicei, un CI este calculat dintr-o estimare observată a unei cantități, cum ar fi diferența (d) dintre două proporții și eroarea standard (SE) în estimarea acelei diferențe. CI de aproximativ 95% obținut în acest mod este d ± 1,96 SE. Formula se modifică în funcție de natura măsurării rezultatului și de domeniul de aplicare al CI. De exemplu, într-un studiu randomizat, controlat cu placebo, al unui vaccin acelular împotriva pertussis, 72 din 1670 (4,3%) sugari care au primit vaccinul au dezvoltat pertussis și 240 din 1665 (14,4%) în grupul de control. Diferența procentuală, cunoscută sub numele de reducerea absolută a riscului, este de 10,1%. SE a acestei diferențe este de 0,99%. În consecință, IC de 95% este 10,1% + 1,96 x 0,99%, i.e. de la 8.2 la 12.0.

În ciuda abordărilor lor filozofice diferite, CI și testele de semnificație statistică sunt strâns legate din punct de vedere matematic.

Astfel, valoarea P este „semnificativă”, adică. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Incertitudinea (inecizia) estimării, exprimată în CI, este în mare măsură legată de rădăcina pătrată a dimensiunii eșantionului. Eșantioanele mici oferă mai puține informații decât cele mari, iar CI este în mod corespunzător mai larg într-un eșantion mai mic. De exemplu, un articol care compară performanța a trei teste utilizate pentru a diagnostica infecția cu Helicobacter pylori a raportat o sensibilitate a testului respirator cu uree de 95,8% (95% CI 75-100). În timp ce cifra de 95,8% este impresionantă, eșantionul mic de 24 de pacienți adulți cu J. pylori înseamnă că există o incertitudine semnificativă în această estimare, așa cum arată IC larg. Într-adevăr, limita inferioară de 75% este mult mai mică decât estimarea de 95,8%. Dacă s-ar observa aceeași sensibilitate la un eșantion de 240 de persoane, IC de 95% ar fi 92,5-98,0, oferind mai multă siguranță că testul este foarte sensibil.

În studiile randomizate controlate (RCT), rezultatele nesemnificative (adică cele cu P > 0,05) sunt deosebit de susceptibile de interpretare greșită. CI este deosebit de util aici, deoarece arată cât de consistente sunt rezultatele cu efectul real util din punct de vedere clinic. De exemplu, într-un RCT care compară sutura colonică și anastomoza cu capse, infecția plăgii s-a dezvoltat la 10,9% și, respectiv, 13,5% dintre pacienți (P = 0,30). CI de 95% pentru această diferență este de 2,6% (de la -2 la +8). Chiar și în acest studiu pe 652 de pacienți, rămâne posibil să existe o diferență modestă în incidența infecțiilor rezultate din cele două proceduri. Cu cât mai puține cercetări, cu atât este mai mare incertitudinea. Sung și colab. a efectuat un RCT pentru a compara perfuzia de octreotidă cu scleroterapia acută pentru sângerare variceală acută la 100 de pacienți. În grupul cu octreotidă, rata de control a sângerării a fost de 84%; în grupul de scleroterapie - 90%, ceea ce dă P = 0,56. Rețineți că ratele de sângerare în curs sunt similare cu cele pentru infecția rănilor din studiul menționat. În acest caz, totuși, IC de 95% pentru diferența dintre intervenții este de 6% (-7 până la +19). Acest interval este destul de larg comparativ cu diferența de 5% care ar fi de interes clinic. În mod clar, studiul nu exclude o diferență semnificativă de eficacitate. Prin urmare, concluzia autorilor „infuzia de octreotidă și scleroterapia sunt la fel de eficiente în tratamentul sângerării din vene varicoase” este cu siguranță invalidă. În astfel de cazuri, în care, ca și aici, IC de 95% pentru reducerea riscului absolut (ARR) include zero, IC pentru NNT (număr necesar pentru tratare) este destul de dificil de interpretat. NPL și CI sunt obținute din reciprocele ACP (înmulțind cu 100 dacă aceste valori sunt date ca procente). Aici obținem NPL = 100: 6 = 16,6 cu un CI de 95% de la -14,3 la 5,3. După cum se poate vedea din nota de subsol „d” din tabel. A1.1, acest CI include valorile NPL de la 5,3 la infinit și NPL de la 14,3 la infinit.

CI pot fi construite pentru cele mai utilizate estimări sau comparații statistice. Pentru RCT, include diferența dintre proporțiile medii, riscurile relative, cotele de cote și NLR. În mod similar, CI pot fi obținute pentru toate estimările majore făcute în studiile de acuratețe a testelor de diagnosticare - sensibilitate, specificitate, valoare predictivă pozitivă (toate fiind proporții simple) și rapoarte de probabilitate - estimări obținute în meta-analize și în comparație cu controlul studii. Un program de calculator personal care acoperă multe dintre aceste utilizări ale MDI-urilor este disponibil cu a doua ediție a Statistics with Confidence. Macro-urile pentru calcularea CI pentru proporții sunt disponibile gratuit pentru Excel și programele statistice SPSS și Minitab la http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Estimări multiple ale efectului tratamentului

Deși CI sunt de dorit pentru rezultatele studiului primar, ele nu sunt necesare pentru toate rezultatele. CI se referă la comparații importante din punct de vedere clinic. De exemplu, când se compară două grupuri, CI corect este cel construit pentru diferența dintre grupuri, așa cum se arată în exemplele de mai sus, și nu CI care poate fi construit pentru estimarea în fiecare grup. Nu numai că nu este util să furnizați CI separate pentru estimări în fiecare grup, dar această prezentare poate induce în eroare. De asemenea, abordarea corectă atunci când se compară eficacitatea tratamentelor în diferite subgrupuri este de a compara direct două (sau mai multe) subgrupuri. Este incorect să presupunem că un tratament este eficient într-un singur subgrup dacă CI exclude valoarea corespunzătoare fără efect, iar celelalte nu. CI sunt utile și atunci când se compară rezultatele din mai multe subgrupuri. În fig. A 1.1 arată riscul relativ de eclampsie la femeile cu preeclampsie în subgrupuri de femei dintr-un RCT controlat cu placebo de sulfat de magneziu.

Orez. A1.2. Graficul forestier arată rezultatele a 11 studii clinice randomizate ale vaccinului cu rotavirus bovin pentru prevenirea diareei, comparativ cu placebo. Un interval de încredere de 95% a fost utilizat pentru a estima riscul relativ de diaree. Dimensiunea pătratului negru este proporțională cu cantitatea de informații. În plus, sunt prezentate estimarea sumar a eficacității tratamentului și intervalul de încredere de 95% (indicat cu un romb). Meta-analiza a folosit un model de efecte aleatoare mai mare decât unele prespecificate; de exemplu, aceasta ar putea fi dimensiunea utilizată la calcularea mărimii eșantionului. Un criteriu mai strict necesită ca întregul interval CI să prezinte beneficii mai mari decât un minim prespecificat.

Am discutat deja eroarea de a lua o lipsă de semnificație statistică ca un indiciu că două tratamente sunt la fel de eficiente. Este la fel de important să nu echivalăm semnificația statistică cu importanța clinică. Importanța clinică poate fi asumată atunci când rezultatul este semnificativ statistic și amploarea estimării eficacității tratamentului

Studiile pot arăta dacă rezultatele sunt semnificative din punct de vedere statistic și care sunt importante din punct de vedere clinic și care nu. În fig. A1.2 arată rezultatele a patru teste, pentru care întregul CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Interval de încredere– valorile limită ale unei mărimi statistice care, cu o probabilitate de încredere dată γ, se vor afla în acest interval la eșantionarea unui volum mai mare. Notat cu P(θ - ε. În practică, probabilitatea de încredere γ este aleasă dintre valori destul de apropiate de unitate: γ = 0,9, γ = 0,95, γ = 0,99.

Scopul serviciului. Folosind acest serviciu, puteți determina:

  • interval de încredere pentru media generală, interval de încredere pentru varianță;
  • interval de încredere pentru abaterea standard, interval de încredere pentru cota generală;
Soluția rezultată este salvată într-un fișier Word. Mai jos este o instrucțiune video despre cum să completați datele inițiale.

Exemplul nr. 1. Într-o fermă colectivă, dintr-un efectiv total de 1000 de oi, 100 de oi au fost tunse cu control selectiv. Ca urmare, s-a stabilit o tăiere medie a lânii de 4,2 kg per oaie. Determinați cu o probabilitate de 0,99 eroarea pătratică medie a eșantionului atunci când se determină forfecarea medie a lânii per oaie și limitele în care este conținută valoarea forfeței dacă varianța este 2,5. Eșantionul este nerepetitiv.
Exemplul nr. 2. Dintr-un lot de produse importate de la postul Vamalului de Nord din Moscova, 20 de mostre de produs „A” au fost prelevate prin prelevare repetă aleatorie. În urma testului, a fost stabilit conținutul mediu de umiditate al produsului „A” din probă, care s-a dovedit a fi egal cu 6% cu o abatere standard de 1%.
Determinați cu probabilitate 0,683 limitele conținutului mediu de umiditate al produsului în întregul lot de produse importate.
Exemplul nr. 3. Un sondaj efectuat pe 36 de studenți a arătat că numărul mediu de manuale citite de aceștia în cursul anului universitar a fost egal cu 6. Presupunând că numărul de manuale citite de un student pe semestru are o lege de distribuție normală cu o abatere standard egală cu 6, găsiți : A) cu o fiabilitate de 0,99 estimare de interval pentru așteptarea matematică a acestei variabile aleatoare; B) cu ce probabilitate putem spune că numărul mediu de manuale citite de un student pe semestru, calculat din acest eșantion, se va abate de la așteptarea matematică în valoare absolută cu cel mult 2.

Clasificarea intervalelor de încredere

După tipul de parametru evaluat:

După tipul de eșantion:

  1. Interval de încredere pentru un eșantion infinit;
  2. Interval de încredere pentru eșantionul final;
Eșantionul se numește reeșantionare, dacă obiectul selectat este returnat populației înainte de a-l selecta pe următorul. Eșantionul se numește non-repeat, dacă obiectul selectat nu este returnat populației. În practică, de obicei avem de-a face cu mostre nerepetitive.

Calculul erorii medii de eșantionare pentru eșantionarea aleatorie

Discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale se numește eroare de reprezentativitate.
Desemnări ale parametrilor principali ai populațiilor generale și eșantionului.
Formule de eroare medie de eșantionare
re-selectarerepeta selectia
pentru mediepentru împărțirepentru mediepentru împărțire
Relația dintre limita erorii de eșantionare (Δ) este garantată cu o oarecare probabilitate Р(t), iar eroarea medie de eșantionare are forma: sau Δ = t·μ, unde t– coeficient de încredere, determinat în funcție de nivelul de probabilitate P(t) conform tabelului funcției integrale Laplace.

Formule pentru calcularea dimensiunii eșantionului folosind o metodă de eșantionare pur aleatorie

Metoda de selecțieFormule pentru determinarea mărimii eșantionului
pentru mediepentru împărțire
Repetat
Repetabil
Puteți găsi dimensiunea eșantionului folosind un calculator.

Metoda intervalului de încredere

Algoritmul pentru găsirea intervalului de încredere include următorii pași:
  1. este specificată probabilitatea de încredere γ (fiabilitatea).
  2. Parametrul a este estimat din eșantion.
  3. din relaţia P(α 1) se calculează intervalul de încredere (a - ε; a + ε).

Exemplul nr. 1. La verificarea adecvării unui lot de tablete (250 buc.), sa dovedit că greutatea medie a tabletei a fost de 0,3 g, iar abaterea standard a greutății a fost de 0,01 g. Găsiți intervalul de încredere în care greutatea normală a tableta cade cu o probabilitate de 90%.
Soluţie.

Exemplu. Pe baza rezultatelor observării eșantionului (eșantionul B în apendice), calculați estimări imparțiale ale mediei populației, varianței și abaterii standard.
Descărcați soluția

Exemplu. Găsiți intervale de încredere pentru estimarea mediei și a abaterii standard a populației la probabilitatea de încredere y, dacă un eșantion B și y sunt prelevați din populație.
Descărcați soluția

Exemplu.

1. Folosind rezultatele calculelor efectuate în sarcina nr. 2 și presupunând că aceste date au fost obținute folosind o selecție nerepetitivă de 10% pur aleatorie, determinați:
a) limitele dincolo de care, cu o probabilitate de încredere de 0,954, valoarea medie a atributului calculată din populația generală nu va depăși;
b) cum ar trebui modificată dimensiunea eșantionului pentru a reduce eroarea marginală a mediei cu 50%.
2. Folosind rezultatele calculelor efectuate în sarcina nr. 2 și presupunând că aceste date au fost obținute prin selecție repetată, determinați:
a) limitele dincolo de care în populația generală nu va depăși valoarea ponderii întreprinderilor ale căror valori individuale ale atributului depășesc modul cu o probabilitate de încredere de 0,954;
b) cum se modifică dimensiunea eșantionului pentru a reduce eroarea marginală a proporției cu 20%.
Orientări

Exercita. Linia de producție pentru producția de piese similare a fost supusă reconstrucției Au fost date două mostre pentru a reflecta procentul de defecte în loturile de piese produse pe această linie înainte și după reconstrucție defecte în loturile de piese au scăzut?

Exemplu. Mai jos sunt date despre costurile de foraj (cu) pentru 49 de sonde ale bazei petroliere din Siberia de Vest a Rusiei:

129 142 132 61 96 96 142 17 135 32
77 58 37 132 79 15 145 64 83 120
11 54 48 100 43 25 67 25 140 130
48 124 29 107 135 101 93 147 112 121
89 97 60 84 46 139 43 145 29
Pentru a estima costurile forării unui puț nou:
  1. efectuarea unui eșantion aleatoriu de n=5;
  2. determinați valorile de interval ale mediei populației (X) pe baza indicatorilor eșantionului calculați (X, s 2) folosind funcția de distribuție t Student la nivelul de semnificație α=0,05;
  3. determinați valoarea punctuală a mediei populației (X) din datele originale;
  4. evaluați acuratețea calculelor de interval prin compararea valorii punctului (X) cu valoarea intervalului calculată din eșantion;
Soluţie Facem asta folosind acest calculator:

1. Selectați 5 valori din tabel. Să fie 3 coloane: 132, 37, 48, 29, 60.
In sectiunea „Tipul seriei statistice” selectați Seria discretă. În câmpul Număr de linii, introduceți 5.

2. Introduceți datele inițiale.

În câmpul Număr de grupuri, selectați „ nu grupați».

În câmpul „Interval de încredere al mediei generale, dispersie și abatere standard” indicăm valoarea γ = 0,95 (care corespunde cu α = 0,05).

În câmpul „Eșantionare” indicăm valoarea 10 (din moment ce din 49 de valori am selectat 5, ceea ce corespunde cu 10,2% (5/49x100%)).

In sectiunea „Rapoarte” Marcam primul element „Interval de încredere pentru media generală”.

3. Soluția rezultată este salvată în format Word (descărcare).
Înainte de calcule, se creează un tabel preliminar în care se calculează numărul de repetări ale valorilor X.

x(x - x medie) 2
29 1036.84
37 585.64
48 174.24
60 1.44
132 5012.64
306 6810.8
În acest caz, toate valorile lui X apar exact o dată. Valorile de interval ale mediei populației sunt calculate în secțiunea „ Estimarea pe intervale a centrului populației”.
Nota: în acest caz, calculele folosesc Estimarea abaterii standard.

Sarcina nr. 2: Pentru a studia timpul petrecut la fabricarea unei piese, muncitorii din fabrică au efectuat o prelevare aleatorie nerepetitivă de 10%, care a rezultat într-o distribuție a pieselor în funcție de timpul petrecut, prezentată în anexă. B.
Pe baza acestor date, calculați:
a) timpul mediu petrecut la fabricarea unei piese;
b) abaterile pătratice medii (varianta) și abaterea standard;
c) coeficientul de variaţie;
d) cu o probabilitate de 0,954, eroarea maximă a mediei eșantionului și limitele posibile în care se așteaptă timpul mediu petrecut la fabricarea unei piese în fabrică;
e) cu o probabilitate de 0,954, eroarea maximă a fracției de probă și limita greutății specifice a numărului de piese cu timp minim petrecut la fabricarea acestora. Înainte de a face calcule, trebuie să notați condițiile problemei și să completați tabelul. 2.1

Soluţie.
Pentru a obține o soluție, specificați următorii parametri:

  • Tip de serie statistică: Se specifică o serie discretă;
  • Număr de grupuri: nu grupați;
  • Pentru a construi un interval de încredere pentru media generală, dispersie și abaterea standard: y= 0,954;
  • Pentru a construi un interval de încredere pentru ponderea generală: y= 0,954;
  • Proba: 10 ;
  • Afișare în raport: Interval de încredere pentru media generală, Interval de încredere pentru cota generală;

Sarcina nr. 3: Folosind rezultatele calculelor efectuate în sarcina nr. 2 și presupunând că aceste date au fost obținute prin selecție repetată, determinați:

b) cum se modifică dimensiunea eșantionului pentru a reduce eroarea marginală a proporției cu 20%.

Soluţie.
Folosind rezultatele calculelor efectuate în sarcina nr. 2 și presupunând că aceste date au fost obținute prin selecție repetată, determinați:
a) limitele dincolo de care în populația generală nu va depăși valoarea ponderii întreprinderilor ale căror valori individuale ale atributului depășesc modul cu o probabilitate de încredere de 0,954;
b) cum se modifică dimensiunea eșantionului pentru a reduce eroarea marginală a proporției cu 20%.

Sarcina nr. 4: O probă nerepetitivă aleatorie de 20% a fost prelevată dintr-un lot de lămpi electrice pentru a determina greutatea medie a spiralei. Rezultatele eșantionului sunt după cum urmează. Greutate, 38-40; 42-44; Număr de spirale: 15; Determinați cu o probabilitate de 0,95 limitele de încredere în care se află greutatea medie a spiralei pentru întregul lot de lămpi electrice.

Soluţie.
Introduceți următorii parametri:

  • Tip de serie statistică: Se specifică o serie de intervale;
  • Pentru a construi un interval de încredere pentru media generală, varianța și abaterea standard: y = 0,95;
  • Proba: 20 ;
  • Rezultat pentru raport: Interval de încredere pentru media generală.

Sarcina nr. 5: La uzină, lămpi electrice dintr-un lot de producție de 16.000 buc. Au fost prelevate 1600 de lămpi. (selecție aleatorie, nerepetitivă), din care 40 buc. s-a dovedit a fi defect. Determinați cu probabilitate 0,997 limitele în care procentul de defecte va fi pentru întregul lot de produse.

Soluţie.
Aici N = 16000, n = 1600, w = d / n = 40/1600 = 0,025.

Pentru marea majoritate a măsurătorilor simple, așa-numita lege normală a erorilor aleatoare este satisfăcută destul de bine ( legea lui Gauss), derivat din următoarele prevederi empirice.

1) erorile de măsurare pot lua o serie continuă de valori;

2) cu un număr mare de măsurători, erori de aceeași amploare, dar de semne diferite, apar la fel de des,

3) cu cât este mai mare magnitudinea erorii aleatorii, cu atât este mai puțin probabil să apară.

Graficul legii distribuției gaussiene normale este prezentat în Fig. 1. Ecuația curbei este

unde este funcția de distribuție a erorilor aleatoare (erori), care caracterizează probabilitatea unei erori, σ este eroarea pătratică medie.

Mărimea σ nu este o variabilă aleatoare și caracterizează procesul de măsurare. Dacă condițiile de măsurare nu se schimbă, atunci σ rămâne o valoare constantă. Pătratul acestei mărimi se numește dispersie de măsurare. Cu cât dispersia este mai mică, cu atât răspândirea valorilor individuale este mai mică și precizia măsurării este mai mare.

Valoarea exactă a erorii pătratice medii σ, precum și valoarea adevărată a valorii măsurate, sunt necunoscute. Există o așa-numită estimare statistică a acestui parametru, conform căreia eroarea pătratică medie este egală cu eroarea pătratică medie a mediei aritmetice. A cărui valoare este determinată de formula

unde este rezultatul i a-a dimensiune; - media aritmetică a valorilor obţinute; n– numărul de măsurători.

Cu cât este mai mare numărul de dimensiuni, cu atât este mai mic și se apropie de σ. Dacă valoarea adevărată a mărimii măsurate este μ, valoarea medie aritmetică a acesteia obținută în urma măsurătorilor este , iar eroarea absolută aleatorie este , atunci rezultatul măsurării va fi scris sub forma .

Se numește intervalul de valori de la până la , care conține valoarea adevărată a mărimii măsurate μ interval de încredere. Deoarece este o variabilă aleatoare, valoarea adevărată se încadrează în intervalul de încredere cu probabilitatea α, care se numește probabilitatea de încredere, sau fiabilitate măsurători. Această valoare este numeric egală cu aria trapezului curbat umbrit. (vezi poza)

Toate acestea sunt valabile pentru un număr suficient de mare de măsurători, când σ este aproape. Pentru a găsi intervalul de încredere și probabilitatea de încredere pentru un număr mic de măsurători, de care ne ocupăm în cursul lucrărilor de laborator, folosim Distribuția probabilității elevilor. Aceasta este distribuția de probabilitate a unei variabile aleatoare numite Coeficientul elevului, dă valoarea intervalului de încredere în fracții din eroarea pătratică medie a mediei aritmetice.


Distribuția de probabilitate a acestei mărimi nu depinde de σ 2, ci depinde semnificativ de numărul de experimente n. Odată cu creșterea numărului de experimente n distribuția Student tinde către distribuția Gauss.

Funcția de distribuție este tabelată (Tabelul 1). Valoarea coeficientului Student se află la intersecția dreptei corespunzătoare numărului de măsurători n, iar coloana corespunzătoare probabilității de încredere α

Luând un eșantion din populație, obținem o estimare punctuală a parametrului de interes și calculăm eroarea standard pentru a indica precizia estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare de interval pentru parametrul populației.

Acest lucru se poate realiza prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula intervalul de încredere (CI - Interval de încredere, DI – Interval de încredere) pentru parametru.

Deloc, interval de încredere extinde estimările în ambele direcții cu o anumită valoare care este un multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

În statistică, a interval de încredere(CI) este un tip de estimare pe intervale a unui parametru de populație. Este un interval observat (adică este calculat din observații), în principiu diferit de la probă la probă, care include frecvent valoarea unui parametru de interes neobservabil dacă experimentul este repetat. Cât de frecvent intervalul observat conține parametrul este determinată de nivelul de încredere sau coeficientul de încredere. Mai precis, sensul termenului „nivel de încredere” este că, dacă CI sunt construite pe baza multor analize separate de date ale experimentelor replicate (și posibil diferite), proporția acestor intervale care conțin valoarea adevărată a parametrului se va potrivi cu cea dată. nivelul de încredere În timp ce limitele de încredere cu două laturi formează un interval de încredere, omologii lor unilaterali sunt denumite limite inferioare/superioare de încredere (sau limite).


Intervalul de încredere arată în ce interval vor fi situate rezultatele observațiilor eșantionului (sondajelor). Dacă efectuăm 100 de anchete identice în eșantioane identice dintr-o singură populație (de exemplu, 100 de eșantioane a câte 1000 de persoane fiecare într-un oraș cu o populație de 5 milioane de locuitori), atunci la un nivel de încredere de 95%, 95 din 100 de rezultate se vor încadra în intervalul de încredere (de exemplu, de la 28% la 32% cu o valoare reală de 30%). De exemplu, numărul real al locuitorilor orașului care fumează este de 30%. Dacă eșantionăm 1000 de persoane de 100 de ori la rând și punem întrebarea „Fumați în aceste mostre, în 95 din aceste 100 de eșantioane, cu un interval de încredere de 2%, valoarea va fi de la 28% la 32%.

Formule pentru construirea intervalelor de încredere cu exemple practice pot fi găsite, de exemplu,.

Interpretarea intervalelor de încredere

Când interpretăm un interval de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare precisă.
Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică, variabilitatea datelor produce intervale de încredere mai largi decât studiile unui set mare de date cu puține variabile. .

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează în intervalul de încredere. Dacă da, rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95% șansa este de aproape 5%) ca parametrul să aibă acea valoare. ()

În subsecțiunile anterioare am luat în considerare problema estimării unui parametru necunoscut O un număr. Aceasta se numește estimare „punctară”. Într-o serie de sarcini, nu trebuie doar să găsiți parametrul O valoare numerică adecvată, dar și pentru a evalua acuratețea și fiabilitatea acesteia. Trebuie să știți la ce erori poate duce la înlocuirea unui parametru O estimarea sa punctuală Oși cu ce grad de încredere ne putem aștepta ca aceste erori să nu depășească limitele cunoscute?

Problemele de acest fel sunt deosebit de relevante cu un număr mic de observații, atunci când estimarea punctuală si in este în mare parte aleatorie și înlocuirea aproximativă a lui a cu a poate duce la erori grave.

Pentru a oferi o idee despre acuratețea și fiabilitatea estimării O,

În statistica matematică se folosesc așa-numitele intervale de încredere și probabilități de încredere.

Lăsați pentru parametru O estimare imparțială obținută din experiență O. Dorim să estimăm eroarea posibilă în acest caz. Să atribuim o probabilitate p suficient de mare (de exemplu, p = 0,9, 0,95 sau 0,99) astfel încât un eveniment cu probabilitatea p poate fi considerat practic de încredere și să găsim o valoare s pentru care

Apoi, intervalul de valori practic posibile ale erorii apărute în timpul înlocuirii O pe O, va fi ± s; Erorile mari în valoare absolută vor apărea numai cu o probabilitate mică a = 1 - p. Să rescriem (14.3.1) ca:

Egalitatea (14.3.2) înseamnă că cu probabilitatea p valoarea necunoscută a parametrului O se încadrează în interval

Este necesar să rețineți o circumstanță. Anterior, am luat în considerare în mod repetat probabilitatea ca o variabilă aleatoare să se încadreze într-un interval nealeatoriu dat. Aici situația este alta: amploarea O nu este aleatoriu, dar intervalul / p este aleatoriu. Poziția sa pe axa x este aleatorie, determinată de centrul său O; În general, lungimea intervalului 2s este de asemenea aleatorie, deoarece valoarea lui s este calculată, de regulă, din date experimentale. Prin urmare, în acest caz, ar fi mai bine să interpretăm valoarea p nu ca probabilitatea de a „lovi” punctul Oîn intervalul / p și ca probabilitatea ca un interval aleator / p să acopere punctul O(Fig. 14.3.1).

Orez. 14.3.1

Probabilitatea p este de obicei numită probabilitatea de încredere, și interval / p - interval de încredere. Limite de interval Dacă. a x =a- s și a 2 = a +și sunt chemați limitele de încredere.

Să dăm o altă interpretare conceptului de interval de încredere: acesta poate fi considerat ca un interval de valori ale parametrilor O, compatibile cu datele experimentale și necontrazicându-le. Într-adevăr, dacă suntem de acord să considerăm un eveniment cu probabilitatea a = 1-p practic imposibil, atunci acele valori ale parametrului a pentru care a - a> s trebuie recunoscute ca fiind contrazice ale datelor experimentale, iar cele pentru care |a - O a t na 2 .

Lăsați pentru parametru O există o estimare imparțială O. Dacă am cunoaște legea distribuției cantității O, sarcina de a găsi un interval de încredere ar fi foarte simplă: ar fi suficient să găsim o valoare s pentru care

Dificultatea este că legea distribuției estimărilor O depinde de legea de distribuție a cantității Xși, prin urmare, asupra parametrilor săi necunoscuți (în special, asupra parametrului însuși O).

Pentru a ocoli această dificultate, puteți utiliza următoarea tehnică aproximativ aproximativă: înlocuiți parametrii necunoscuți din expresia pentru s cu estimările lor punctuale. Cu un număr relativ mare de experimente n(aproximativ 20...30) această tehnică dă de obicei rezultate satisfăcătoare din punct de vedere al preciziei.

Ca exemplu, luați în considerare problema unui interval de încredere pentru așteptarea matematică.

Lasă-l să fie produs n X, ale căror caracteristici sunt așteptarea matematică T si varianta D- necunoscut. Pentru acești parametri s-au obținut următoarele estimări:

Este necesar să se construiască un interval de încredere / p corespunzător probabilității de încredere p pentru așteptarea matematică T cantități X.

Când rezolvăm această problemă, vom folosi faptul că cantitatea T reprezintă suma n variabile aleatoare independente distribuite identic Xh iar conform teoremei limitei centrale, pentru un suficient de mare n legea sa de distribuție este aproape de normal. În practică, chiar și cu un număr relativ mic de termeni (aproximativ 10...20), legea de distribuție a sumei poate fi considerată aproximativ normală. Vom presupune că valoarea T distribuite conform legii normale. Caracteristicile acestei legi - așteptarea matematică și, respectiv, varianța - sunt egale TŞi

(a se vedea capitolul 13 subsecțiunea 13.3). Să presupunem că valoarea D cunoaştem şi vom găsi o valoare Ep pentru care

Folosind formula (6.3.5) din capitolul 6, exprimăm probabilitatea din partea stângă a (14.3.5) prin funcția de distribuție normală

unde este abaterea standard a estimării T.

Din Eq.

găsiți valoarea lui Sp:

unde arg Ф* (х) este funcția inversă a lui Ф* (X), aceste. o astfel de valoare a argumentului pentru care funcția de distribuție normală este egală cu X.

Dispersia D, prin care se exprimă cantitatea O 1P, nu știm exact; ca valoare aproximativă, puteți utiliza estimarea D(14.3.4) și puneți aproximativ:

Astfel, problema construirii unui interval de încredere a fost aproximativ rezolvată, care este egal cu:

unde gp este determinat prin formula (14.3.7).

Pentru a evita interpolarea inversă în tabelele funcției Ф* (l) atunci când se calculează s p, este convenabil să se întocmească un tabel special (Tabelul 14.3.1), care oferă valorile cantității

in functie de r. Valoarea (p determină pentru legea normală numărul de abateri standard care trebuie trasate la dreapta și la stânga din centrul dispersiei, astfel încât probabilitatea de a ajunge în zona rezultată să fie egală cu p.

Folosind valoarea 7 p, intervalul de încredere este exprimat astfel:

Tabelul 14.3.1

Exemplul 1. S-au efectuat 20 de experimente pe cantitate X; rezultatele sunt prezentate în tabel. 14.3.2.

Tabelul 14.3.2

Este necesar să se găsească o estimare din pentru așteptarea matematică a cantității Xși construiți un interval de încredere corespunzător probabilității de încredere p = 0,8.

Soluţie. Avem:

Alegând l: = 10 ca punct de referință, folosind a treia formulă (14.2.14) găsim estimarea nepărtinitoare D :

Conform tabelului 14.3.1 găsim

Limite de încredere:

Interval de încredere:

Valorile parametrilor T, situate în acest interval sunt compatibile cu datele experimentale date în tabel. 14.3.2.

Un interval de încredere pentru varianță poate fi construit într-un mod similar.

Lasă-l să fie produs n experimente independente pe o variabilă aleatorie X cu parametri necunoscuți atât pentru A cât și pentru dispersie D a fost obținută o estimare imparțială:

Este necesar să se construiască aproximativ un interval de încredere pentru varianță.

Din formula (14.3.11) este clar că cantitatea D reprezintă

cantitate n variabile aleatorii de forma . Aceste valori nu sunt

independent, deoarece oricare dintre ele include cantitatea T, dependent de toți ceilalți. Cu toate acestea, se poate demonstra că odată cu creșterea n legea de distribuție a sumei lor se apropie și ea de normal. Aproape la n= 20...30 poate fi deja considerat normal.

Să presupunem că așa este și să găsim caracteristicile acestei legi: așteptarea și dispersia matematică. De la evaluare D- nepărtinitoare, atunci M[D] = D.

Calculul variației D D este asociat cu calcule relativ complexe, așa că vă prezentăm expresia fără derivație:

unde q 4 este al patrulea moment central al mărimii X.

Pentru a utiliza această expresie, trebuie să înlocuiți valorile \u003d 4 și D(cel putin cele apropiate). În loc de D poți folosi evaluarea lui D.În principiu, al patrulea moment central poate fi înlocuit și cu o estimare, de exemplu, o valoare de forma:

dar o astfel de înlocuire va oferi o precizie extrem de scăzută, deoarece, în general, cu un număr limitat de experimente, momentele de ordin înalt sunt determinate cu erori mari. Cu toate acestea, în practică se întâmplă adesea ca tipul de lege de distribuție a cantității X cunoscut dinainte: doar parametrii săi sunt necunoscuți. Apoi puteți încerca să exprimați μ 4 prin D.

Să luăm cel mai frecvent caz, când valoarea X distribuite conform legii normale. Apoi, al patrulea moment central al său este exprimat în termeni de dispersie (vezi Capitolul 6, subsecțiunea 6.2);

iar formula (14.3.12) dă sau

Înlocuirea necunoscutului în (14.3.14) D evaluarea lui D, obținem: de unde

Momentul μ 4 poate fi exprimat prin D de asemenea, în alte cazuri, când distribuția valorii X nu este normal, dar aspectul ei este cunoscut. De exemplu, pentru legea densității uniforme (vezi capitolul 5) avem:

unde (a, P) este intervalul pe care este specificată legea.

Prin urmare,

Folosind formula (14.3.12) obținem: unde găsim aproximativ

În cazurile în care tipul legii de distribuție a mărimii 26 este necunoscut, atunci când se face o estimare aproximativă a valorii a/) se recomandă totuși folosirea formulei (14.3.16), cu excepția cazului în care există motive speciale pentru a crede că această lege este foarte diferit de cel normal (are o curtoză pozitivă sau negativă vizibilă) .

Dacă valoarea aproximativă a/) este obținută într-un fel sau altul, atunci putem construi un interval de încredere pentru varianță în același mod în care l-am construit pentru așteptarea matematică:

unde valoarea în funcţie de probabilitatea dată p se găseşte conform tabelului. 14.3.1.

Exemplul 2. Găsiți un interval de încredere de aproximativ 80% pentru varianța unei variabile aleatoare Xîn condiţiile exemplului 1, dacă se ştie că valoarea X distribuite după o lege apropiată de normal.

Soluţie. Valoarea rămâne aceeași ca în tabel. 14.3.1:

Conform formulei (14.3.16)

Folosind formula (14.3.18) găsim intervalul de încredere:

Intervalul corespunzător al valorilor abaterii standard: (0,21; 0,29).

14.4. Metode exacte de construire a intervalelor de încredere pentru parametrii unei variabile aleatoare distribuite conform unei legi normale

În subsecțiunea anterioară, am examinat metode aproximative aproximative pentru construirea intervalelor de încredere pentru așteptarea și varianța matematică. Aici vom da o idee despre metodele exacte pentru a rezolva aceeași problemă. Subliniem că pentru a găsi cu exactitate intervalele de încredere este absolut necesar să se cunoască în prealabil forma legii de distribuție a cantității. X,întrucât pentru aplicarea metodelor aproximative acest lucru nu este necesar.

Ideea unor metode precise pentru construirea intervalelor de încredere se rezumă la următoarele. Orice interval de încredere se găsește dintr-o condiție care exprimă probabilitatea îndeplinirii anumitor inegalități, care includ estimarea care ne interesează O. Legea distribuției evaluării Oîn cazul general depinde de parametrii necunoscuți ai cantității X. Cu toate acestea, uneori este posibil să treci inegalități dintr-o variabilă aleatoare O la o altă funcție a valorilor observate X p X 2, ..., X p. a cărui lege de distribuție nu depinde de parametri necunoscuți, ci depinde doar de numărul de experimente și de tipul legii de distribuție a cantității X. Aceste tipuri de variabile aleatoare joacă un rol important în statistica matematică; au fost studiate în cel mai detaliu pentru cazul unei distribuţii normale a cantităţii X.

De exemplu, s-a dovedit că cu o distribuție normală a valorii X variabilă aleatoare

se supune așa-zisului Legea distribuirii studenților Cu n- 1 grad de libertate; densitatea acestei legi are forma

unde G(x) este funcția gamma cunoscută:

De asemenea, s-a dovedit că variabila aleatoare

are o „distribuție %2” cu n- 1 grad de libertate (vezi capitolul 7), a cărui densitate este exprimată prin formula

Fără să ne oprim asupra derivărilor distribuțiilor (14.4.2) și (14.4.4), vom arăta cum acestea pot fi aplicate la construirea intervalelor de încredere pentru parametri. ty D.

Lasă-l să fie produs n experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți LA. Pentru acești parametri s-au obținut estimări

Este necesar să se construiască intervale de încredere pentru ambii parametri corespunzători probabilității de încredere p.

Să construim mai întâi un interval de încredere pentru așteptarea matematică. Este firesc să luăm acest interval simetric în raport cu T; fie s p să desemnăm jumătate din lungimea intervalului. Valoarea s p trebuie aleasă astfel încât condiția să fie îndeplinită

Să încercăm să ne mutăm în partea stângă a egalității (14.4.5) din variabila aleatoare T la o variabilă aleatorie T, distribuite conform legii Studentului. Pentru a face acest lucru, înmulțiți ambele părți ale inegalității |m-w?|

printr-o valoare pozitivă: sau, folosind notația (14.4.1),

Să găsim un număr / p astfel încât valoarea / p poate fi găsită din condiție

Din formula (14.4.2) este clar că (1) este o funcție pară, prin urmare (14.4.8) dă

Egalitatea (14.4.9) determină valoarea / p în funcție de p. Daca aveti la dispozitie un tabel de valori integrale

atunci valoarea lui /p poate fi găsită prin interpolare inversă în tabel. Cu toate acestea, este mai convenabil să întocmești un tabel cu valorile /p în avans. Un astfel de tabel este prezentat în Anexă (Tabelul 5). Acest tabel arată valorile în funcție de nivelul de încredere p și de numărul de grade de libertate n- 1. După ce a determinat / p din tabel. 5 și presupunând

vom găsi jumătate din lățimea intervalului de încredere / p și intervalul în sine

Exemplul 1. S-au efectuat 5 experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți Tși o. Rezultatele experimentelor sunt prezentate în tabel. 14.4.1.

Tabelul 14.4.1

Găsiți evaluare T pentru așteptarea matematică și construiți un interval de încredere de 90% / p pentru aceasta (adică intervalul corespunzător probabilității de încredere p = 0,9).

Soluţie. Avem:

Conform tabelului 5 al cererii pentru p - 1 = 4 și p = 0,9 găsim unde

Intervalul de încredere va fi

Exemplul 2. Pentru condițiile exemplului 1 al subsecțiunii 14.3, presupunând valoarea X distribuite în mod normal, găsiți intervalul de încredere exact.

Soluţie. Conform tabelului 5 din anexa găsim la p - 1 = 19ir =

0,8/p = 1,328; de aici

Comparând cu soluția exemplului 1 din subsecțiunea 14.3 (e p = 0,072), suntem convinși că discrepanța este foarte nesemnificativă. Dacă menținem acuratețea până la a doua zecimală, atunci intervalele de încredere găsite prin metodele exacte și aproximative coincid:

Să trecem la construirea unui interval de încredere pentru varianță. Luați în considerare estimatorul de varianță imparțial

și exprimă variabila aleatoare D prin magnitudine V(14.4.3), având distribuția x 2 (14.4.4):

Cunoașterea legii distribuției cantității V, puteți găsi intervalul /(1) în care se încadrează cu o probabilitate dată p.

Legea distribuției kn_x(v) magnitudinea I 7 are forma prezentată în Fig. 14.4.1.

Orez. 14.4.1

Apare întrebarea: cum să alegeți intervalul / p? Dacă legea distribuţiei mărimii V era simetric (ca legea normală sau distribuția Student), ar fi firesc să luăm intervalul /p simetric în raport cu așteptarea matematică. În acest caz legea k p_x (v) asimetric. Să fim de acord să alegem intervalul /p astfel încât probabilitățile valorii de ieșire V dincolo de intervalul la dreapta și la stânga (zonele umbrite din Fig. 14.4.1) au fost aceleași și egale

Pentru a construi un interval /p cu această proprietate, folosim tabelul. 4 aplicații: conține numere y) astfel încât

pentru valoare V, având x 2 -distribuţie cu r grade de libertate. În cazul nostru r = n- 1. Să reparăm r = n- 1 și găsiți în rândul corespunzător al tabelului. 4 două sensuri x 2 - unul corespunzând probabilităţii celălalt - probabilitate Să le notăm pe acestea

valorile la 2Şi xl? Intervalul are y 2, cu stânga, și y~ capătul drept.

Acum să găsim din intervalul / p intervalul de încredere dorit /|, pentru dispersia cu granițele D și D2, care acoperă punctul D cu probabilitatea p:

Să construim un interval / (, = (?> ь А) care acoperă punctul D dacă și numai dacă valoarea V se încadrează în intervalul /r. Să arătăm că intervalul

indeplineste aceasta conditie. Într-adevăr, inegalitățile sunt echivalente cu inegalitățile

iar aceste inegalități sunt satisfăcute cu probabilitatea p. Astfel, intervalul de încredere pentru varianță a fost găsit și este exprimat prin formula (14.4.13).

Exemplul 3. Găsiți intervalul de încredere pentru varianță în condițiile exemplului 2 din subsecțiunea 14.3, dacă se știe că valoarea X distribuite normal.

Soluţie. Avem . Conform tabelului 4 din anexa

găsim la r = n - 1 = 19

Folosind formula (14.4.13) găsim intervalul de încredere pentru varianță

Intervalul corespunzător pentru abaterea standard este (0,21; 0,32). Acest interval depășește doar puțin intervalul (0,21; 0,29) obținut în exemplul 2 din subsecțiunea 14.3 folosind metoda aproximativă.

  • Figura 14.3.1 consideră un interval de încredere simetric în jurul a. În general, așa cum vom vedea mai târziu, acest lucru nu este necesar.
Articole aleatorii

Sus