Определете доверителния интервал на средната стойност. Доверителен интервал за математическо очакване

За по-голямата част от простите измервания, така нареченият нормален закон за случайни грешки е изпълнен доста добре ( закон на Гаус), извлечени от следните емпирични положения.

1) грешките в измерването могат да приемат непрекъсната серия от стойности;

2) при голям брой измервания, грешки с еднаква величина, но с различни знаци, се появяват еднакво често,

3) колкото по-голяма е величината на случайната грешка, толкова по-малка е вероятността тя да се появи.

Графиката на нормалния Гаусов закон за разпределение е представена на фиг. 1. Уравнението на кривата е

където е функцията на разпределение на случайните грешки (грешки), характеризираща вероятността от грешка, σ е средната квадратична грешка.

Величина σ не е случайна величина и характеризира процеса на измерване. Ако условията на измерване не се променят, тогава σ остава постоянна стойност. Квадратът на това количество се нарича дисперсия на измерване.Колкото по-малка е дисперсията, толкова по-малко е разпространението на отделните стойности и толкова по-висока е точността на измерванията.

Точната стойност на средната квадратична грешка σ, както и истинската стойност на измерената стойност, не са известни. Съществува така наречената статистическа оценка на този параметър, според която средната квадратична грешка е равна на средната квадратична грешка на средното аритметично. Стойността на която се определя по формулата

къде е резултата азто измерение; - средно аритметично на получените стойности; п– брой измервания.

Колкото по-голям е броят на измеренията, толкова по-малък е и толкова по-близо се доближава до σ. Ако истинската стойност на измереното количество е μ, средноаритметичната му стойност, получена в резултат на измерванията, е , а случайната абсолютна грешка е , тогава резултатът от измерването ще бъде записан във формата .

Интервалът от стойности от до, който съдържа истинската стойност на измерената величина μ, се нарича доверителен интервал.Тъй като това е случайна променлива, истинската стойност попада в доверителния интервал с вероятност α, който се нарича вероятност за доверие,или надеждностизмервания. Тази стойност е числено равна на площта на защрихования извит трапец. (виж снимката)

Всичко това е вярно за достатъчно голям брой измервания, когато σ е близко. За да намерим доверителния интервал и доверителната вероятност за малък брой измервания, с които се занимаваме в хода на лабораторната работа, използваме Студентско разпределение на вероятностите.Това е вероятностното разпределение на случайна променлива, наречена Студентски коефициент, дава стойността на доверителния интервал в части от корена на средната квадратна грешка на средната аритметична стойност.


Вероятностното разпределение на това количество не зависи от σ 2, но значително зависи от броя на експериментите п.С увеличаване на броя на експериментите празпределението на Стюдънт клони към разпределението на Гаус.

Функцията на разпределение е представена в таблица (Таблица 1). Стойността на коефициента на Стюдънт е в пресечната точка на линията, съответстваща на броя на измерванията пи колоната, съответстваща на доверителната вероятност α

Нарича се вероятността истинската стойност на измереното количество да се намира в определен интервал вероятност за доверие , или фактор на надеждност, и самия интервал - доверителен интервал.

Всяка доверителна вероятност има свой собствен доверителен интервал. По-специално, ниво на достоверност от 0,67 съответства на интервал на достоверност от до . Това твърдение обаче е вярно само за достатъчно голям брой измервания (повече от 10), а вероятността от 0,67 не изглежда достатъчно надеждна - приблизително във всяка от трите серии от измервания гможе да е извън доверителния интервал. За да се получи по-голяма увереност, че стойността на измерената стойност е в рамките на доверителния интервал, обикновено се задава доверителна вероятност от 0,95 - 0,99. Доверителен интервал за дадена доверителна вероятност, като се вземе предвид влиянието на броя на измерванията пможе да се намери чрез умножаване на стандартното отклонение на средната аритметична стойност

.

чрез така наречения коефициент на Стюдънт. Коефициенти на Студент за поредица от стойности и пса дадени в таблицата.

Таблица – Студентски коефициенти

Брой измервания n Вероятност за доверие г
0,67 0,90 0,95 0,99
2,0 6,3 12,7 63,7
1,3 2,4 3,2 5,8
1,2 2,1 2,8 4,6
1,2 2,0 2,6 4,0
1,1 1,8 2,3 3,3
1,0 1,7 2,0 2,6

И накрая, за измереното количество гза дадена вероятност за доверие г и брой измервания пполучаваме условието

Ние ще наречем количеството случайна грешка количества г.

Пример: вижте лекция № 5 – поредица от числа.

Да дефинираме

При брой измервания от 45 и доверителна вероятност от 0,95 получаваме, че коефициентът на Стюдънт е приблизително равен на 2,15. Тогава доверителният интервал за тази поредица от измервания е 62,6.

Пропуски (груба грешка) -груби грешки, дължащи се на операторски грешки или неотчетени външни влияния. Те обикновено се изключват от резултатите от измерването. Грешките обикновено се дължат на невнимание. Те могат да възникнат и поради неизправност на устройството.

Запишете задачата.Например: Средното тегло на студент в ABC University е 90 кг. Ще тествате точността на прогнозиране на теглото на студентите мъже в ABC University в рамките на даден доверителен интервал.

Изберете подходяща проба.Ще го използвате за събиране на данни за тестване на вашата хипотеза. Да приемем, че вече сте избрали произволно 1000 мъже студенти.

Изчислете средната стойност и стандартното отклонение на тази проба.Изберете статистически величини(като средно и стандартно отклонение), които искате да използвате за анализ на вашата проба. Ето как да изчислите средната стойност и стандартното отклонение:

  • За да изчислите средната стойност на извадката, съберете теглата на 1000 мъже от извадката и разделете резултата на 1000 (броя на мъжете). Да кажем, че получаваме средно тегло от 93 кг.
  • За да изчислите стандартното отклонение на извадка, трябва да намерите средната стойност. След това трябва да изчислите дисперсията на данните или средната стойност на квадратите на разликите от средната стойност. След като намерите това число, просто извадете корен квадратен от него. Да кажем, че в нашия пример стандартното отклонение е 15 kg (имайте предвид, че понякога тази информация може да бъде дадена заедно с условията на статистическия проблем).
  • Изберете желаното ниво на увереност.Най-често използваните нива на доверие са 90%, 95% и 99%. Може да се даде и заедно с изявлението на проблема. Да приемем, че сте избрали 95%.

  • Изчислете допустимата грешка.Можете да намерите границата на грешка, като използвате следната формула: Z a/2 * σ/√(n). Z a/2 = коефициент на достоверност (където a = ниво на достоверност), σ = стандартно отклонение и n = размер на извадката. Тази формула показва, че трябва да умножите критичната стойност по стандартната грешка. Ето как можете да решите тази формула, като я разделите на части:

    • Изчислете критичната стойност или Z a/2. Нивото на доверие е 95%. Преобразувайте процента в десетична запетая: 0,95 и разделете на 2, за да получите 0,475. След това погледнете таблицата с Z-резултати, за да намерите съответната стойност за 0,475. Ще намерите стойност 1,96 (в пресечната точка на ред 1,9 и колона 0,06).
    • Вземете стандартната грешка (стандартно отклонение): 15 и я разделете на корен квадратен от размера на извадката: 1000. Получавате: 15/31,6 или 0,47 kg.
    • Умножете 1,96 по 0,47 (критичната стойност по стандартната грешка), за да получите 0,92, границата на грешка.
  • Запишете доверителния интервал.За да формулирате доверителен интервал, просто запишете средната стойност (93) ± граница на грешка. Отговор: 93 ± 0,92. Можете да намерите горната и долната граница на доверителния интервал, като добавите и извадите грешката към/от средната стойност. Така че долната граница е 93 - 0,92 или 92,08, а горната граница е 93 + 0,92 или 93,92.

    • Можете да използвате следната формула, за да изчислите доверителния интервал: x̅ ± Z a/2 * σ/√(n), където x̅ е средната стойност.
  • Доверителен интервал за математическо очакване - това е интервал, изчислен от данни, които с известна вероятност съдържат математическото очакване на генералната съвкупност. Естествена оценка за математическото очакване е средноаритметичната стойност на неговите наблюдавани стойности. Затова през целия урок ще използваме термините „средна стойност“ и „средна стойност“. При проблеми с изчисляване на доверителен интервал най-често изискваният отговор е нещо като „Доверителният интервал на средното число [стойност в определен проблем] е от [по-малка стойност] до [по-голяма стойност].“ Използвайки доверителен интервал, можете да оцените не само средните стойности, но и специфичното тегло на определена характеристика на общата съвкупност. В урока се разглеждат средни стойности, дисперсия, стандартно отклонение и грешка, чрез които ще стигнем до нови определения и формули Характеристики на извадката и съвкупността .

    Точкови и интервални оценки на средната стойност

    Ако средната стойност на съвкупността се оценява с число (точка), тогава специфична средна стойност, която се изчислява от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на съвкупността. В този случай стойността на средната стойност на извадката - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато посочвате средната стойност на извадката, трябва едновременно да посочите грешката на извадката. Мярката за извадкова грешка е стандартната грешка, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

    Ако оценката на средната стойност трябва да бъде свързана с определена вероятност, тогава параметърът от интерес в съвкупността трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на прогнозния индикатор за населението. Доверителен интервал, в който е вероятно П = 1 - α се намира случайната променлива, изчислена както следва:

    ,

    α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

    На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

    .

    Формулата на доверителния интервал може да се използва за оценка на средната популация if

    • стандартното отклонение на съвкупността е известно;
    • или стандартното отклонение на популацията е неизвестно, но размерът на извадката е по-голям от 30.

    Средната стойност на извадката е безпристрастна оценка на средната стойност на съвкупността. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да получите безпристрастна оценка на дисперсията на популацията във формулата за дисперсия на извадката, размер на извадката птрябва да се замени с п-1.

    Пример 1.От 100 произволно избрани кафенета в даден град е събрана информация, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете 95% доверителен интервал за броя на служителите в кафенето.

    където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

    По този начин 95% доверителен интервал за средния брой служители в кафенето варира от 9,6 до 11,4.

    Пример 2.За произволна извадка от популация от 64 наблюдения бяха изчислени следните общи стойности:

    сбор от стойности в наблюденията,

    сума на квадратните отклонения на стойностите от средната стойност .

    Изчислете 95% доверителен интервал за математическото очакване.

    Нека изчислим стандартното отклонение:

    ,

    Нека изчислим средната стойност:

    .

    Заменяме стойностите в израза за доверителния интервал:

    където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

    Получаваме:

    По този начин 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

    Пример 3.За произволна популационна извадка от 100 наблюдения изчислената средна стойност е 15,2, а стандартното отклонение е 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат непроменени и коефициентът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

    Ние заместваме тези стойности в израза за доверителния интервал:

    където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

    Получаваме:

    .

    По този начин 95% доверителен интервал за средната стойност на тази проба варира от 14,57 до 15,82.

    Отново заместваме тези стойности в израза за доверителния интервал:

    където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

    Получаваме:

    .

    Така 99% доверителният интервал за средната стойност на тази проба варира от 14,37 до 16,02.

    Както виждаме, с увеличаването на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава .

    Точкови и интервални оценки на специфичното тегло

    Делът на някакъв примерен атрибут може да се интерпретира като точкова оценка на дела стрсъс същата характеристика в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в популацията с вероятност П = 1 - α :

    .

    Пример 4.В някой град има двама кандидати АИ бсе кандидатират за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че биха гласували за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, подкрепящи кандидата А.

    Константин Кравчик ясно обяснява какво е доверителен интервал в медицинските изследвания и как да го използвате

    "Катрен-Стил" продължава публикуването на цикъла на Константин Кравчик за медицинска статистика. В две предишни статии авторът се занимава с обяснението на понятия като и.

    Константин Кравчик

    Математик-аналитик. Специалист по статистически изследвания в медицината и хуманитарните науки

    Град: Москва

    Много често в статии за клинични проучвания можете да намерите мистериозна фраза: „доверителен интервал“ (95 % CI или 95 % CI - доверителен интервал). Например в една статия може да пише: „За да се оцени значимостта на разликите, t-тестът на Стюдънт беше използван за изчисляване на 95 % доверителен интервал.“

    Каква е стойността на „95 % доверителен интервал“ и защо да го изчисляваме?

    Какво е доверителен интервал? - Това е диапазонът, в който истинската популация означава лъжа. Има ли „неверни“ средни стойности? В известен смисъл, да, те го правят. В ние обяснихме, че е невъзможно да се измери параметър от интерес в цялата популация, така че изследователите се задоволяват с ограничена извадка. В тази извадка (например въз основа на телесно тегло) има една средна стойност (определено тегло), по която съдим за средната стойност в цялата популация. Въпреки това е малко вероятно средното тегло в извадка (особено малка) да съвпадне със средното тегло в общата популация. Следователно е по-правилно да се изчисли и използва обхватът на средните стойности на населението.

    Например, представете си, че 95% доверителен интервал (95% CI) за хемоглобина е 110 до 122 g/L. Това означава, че има 95% шанс истинската средна стойност на хемоглобина в популацията да бъде между 110 и 122 g/L. С други думи, ние не знаем средната стойност на хемоглобина в популацията, но можем с 95 % вероятност да посочим диапазон от стойности за тази характеристика.

    Доверителните интервали са особено подходящи за разликите в средните стойности между групите или както се наричат ​​размерите на ефекта.

    Да кажем, че сравнихме ефективността на два препарата с желязо: един, който е на пазара от дълго време, и един, който току-що е регистриран. След курса на терапията оценихме концентрацията на хемоглобина в изследваните групи пациенти и статистическата програма изчисли, че разликата между средните стойности на двете групи е с 95 % вероятност в диапазона от 1,72 до 14,36 g/l (Таблица 1).

    Таблица 1. Тест за независими проби
    (групите се сравняват по нивото на хемоглобина)

    Това трябва да се тълкува по следния начин: при някои пациенти от общата популация, които приемат ново лекарство, хемоглобинът ще бъде по-висок средно с 1,72–14,36 g/l, отколкото при тези, които са приемали вече известно лекарство.

    С други думи, в общата популация разликата в средните стойности на хемоглобина между групите е в тези граници с 95% вероятност. Изследователят ще прецени дали това е много или малко. Смисълът на всичко това е, че не работим с една средна стойност, а с диапазон от стойности, следователно по-надеждно оценяваме разликата в параметъра между групите.

    В статистическите пакети, по преценка на изследователя, можете независимо да стесните или разширите границите на доверителния интервал. Като намаляваме вероятностите на доверителния интервал, ние стесняваме диапазона от средни стойности. Например, при 90 % CI обхватът на средните стойности (или разликата в средните) ще бъде по-тесен, отколкото при 95 %.

    Обратно, увеличаването на вероятността до 99 % разширява диапазона от стойности. При сравняване на групи долната граница на CI може да премине нулевата граница. Например, ако разширим границите на доверителния интервал до 99 %, тогава границите на интервала варират от –1 до 16 g/l. Това означава, че в генералната съвкупност има групи, разликата в средните между които за изследваната характеристика е равна на 0 (М = 0).

    С помощта на доверителен интервал можете да тествате статистически хипотези. Ако доверителният интервал пресича нулевата стойност, тогава нулевата хипотеза, която предполага, че групите не се различават по параметъра, който се изследва, е вярна. Примерът е описан по-горе, където разширихме границите до 99 %. Някъде в общата популация открихме групи, които не се различават по никакъв начин.

    95% доверителен интервал на разликата в хемоглобина, (g/l)


    Фигурата показва 95% доверителен интервал за разликата в средните стойности на хемоглобина между двете групи. Линията минава през нулевия знак, следователно има разлика между средните стойности на нула, което потвърждава нулевата хипотеза, че групите не се различават. Диапазонът на разликата между групите е от –2 до 5 g/L. Това означава, че хемоглобинът може да се понижи с 2 g/L или да се повиши с 5 g/L.

    Доверителният интервал е много важен показател. Благодарение на него можете да видите дали разликите в групите наистина се дължат на разликата в средните стойности или на голяма извадка, тъй като при голяма извадка шансовете за откриване на разлики са по-големи, отколкото при малка.

    На практика може да изглежда така. Взехме проба от 1000 души, измерихме нивата на хемоглобина и установихме, че доверителният интервал за разликата в средните стойности варира от 1,2 до 1,5 g/l. Нивото на статистическа значимост в този случай p

    Виждаме, че концентрацията на хемоглобина се повишава, но почти незабележимо, следователно се появява статистическа значимост именно поради размера на извадката.

    Доверителните интервали могат да бъдат изчислени не само за средни стойности, но и за пропорции (и рискови съотношения). Например, ние се интересуваме от доверителния интервал на пропорциите на пациентите, които са постигнали ремисия, докато са приемали разработено лекарство. Нека приемем, че 95 % CI за пропорциите, т.е. за съотношението на такива пациенти, е в диапазона 0,60–0,80. Така можем да кажем, че нашето лекарство има терапевтичен ефект в 60 до 80 % от случаите.

    Случайни статии

    Целева аудитория: Собственици, генерални директори;