Помилки при перевірці статистичних гіпотез

Помилки при перевірці статистичних гіпотез. Статистичні критерії і критична область

В результаті перевірки статистичної гіпотези, заснованої на даних вибірки обмеженого обсягу, можна відхилити і прийняти нульову гіпотезу (відповідно вибіркові дані суперечать і узгоджуються з Н0). Звідси видно, що перевірка статистичних гіпотез пов'язана з ризиком прийняття помилкових рішень.

Неправильне рішення може бути прийнято в двох випадках. У зв'язку з цим розрізняють помилки двох родів.

Помилка першого роду полягає в тому, що нульова гіпотеза Н0 відхиляється, хоча в дійсності вона є правильною.

Помилка другого роду полягає в тому, що приймається нульова гіпотеза Н0, хоча насправді правильним є альтернативна гіпотеза.

Якщо, наприклад, встановлено, що новий пестицид є найкращим, хоча насправді його дія не відрізняється від старого, це помилка першого роду; якщо ми вирішили, що обидва види пестицидів однакові, тоді як насправді новий вид є найкращим, то допущена помилка другого роду.

Правильні і неправильні рішення можуть бути отримані в двох випадках, що наочно ілюструє табл.7.1.

Таблиця 7.1. Можливі результати перевірки нульової гіпотези

Результат перевірки Ка

Помилка другого роду р

Імовірність припуститися помилки першого роду (невиправдане відхилення Н0) отримала назву рівня значущості і позначається а. Імовірність припуститися помилки другого роду (прийняття невірної гіпотези Н0) позначається р Отже, можна сказати, що при великій кількості вибірок частка помилкових висновків дорівнює а, якщо правильна Н0, і дорівнює р, якщо правильна.

Помилки i І II роду за своїми наслідками нерівнозначні і ведуть до різних матеріальних втрат. Тому вибір рівня значущості повинен грунтуватися на обліку можливих втрат: чим більше ці втрати, тим меншим повинен бути рівень значимості. Однак, якщо знижується рівень значущості, збільшується ймовірність появи помилок другого роду. У цьому сенсі помилки i І II роду є конкуруючими.

Оскільки помилки i І II роду практично виключити неможливо, то в кожному разі необхідно прагнути до зменшення втрат від цих помилок. При практичній перевірці гіпотез прагнуть до того, щоб за помилку І прийняти ту з можливих помилок, сполучена з більш серйозними наслідками на практиці.

Рівень значущості встановлюється самим дослідником в залежності від характеру і важливості завдань, їх вирішують (за так званим принципом практичної впевненості). Рівень значущості є тією мінімальну ймовірність, починаючи з якої можна визнати подія практично неможливою. Можна користуватися стандартними значеннями а = 0,10; 0,05; 0,01; 0,001; 0,0001 і ін. А найчастіше встановлюють на рівні 0,05 і 0,01. При більш відповідальних рішеннях а підвищують до 0,001. Рівень значущості, наприклад, а = 0,05, означає, що в середньому в 5 випадках з 100 є ризик припуститися помилки І роду, тобто відкинути правильну гіпотезу (Але).

Встановлюючи певний рівень значущості, дослідник контролює ймовірність помилки І роду: чим він нижчий, тим частіше Н0 буде визнаватися правильним. Однак, як було зазначено вище, зниження рівня значущості веде до появи помилок другого роду. У більшості випадків єдиним шляхом одночасного зменшення ймовірності появи помилок двох пологів є збільшення чисельності вибірки.

Для перевірки нульової гіпотези і прийняття висновку про сумісності вибіркових даних з висунутої гіпотезою використовують спеціальні статистичні критерії, що є зведенням правил, за якими перевіряється гіпотезу або приймають, або відхиляють. Інакше кажучи, критерій визначає ті властивості, якими повинні володіти вибіркові дані, щоб гіпотеза могла бути прийнята або відхилена.

Для кожного виду гіпотез, що перевіряються розроблені спеціальні критерії, серед яких найчастіше використовуються і-критерії нормального розподілу і розподілу Стьюдента, критерій Фішера-Снедекора,% 2 (хі-квадрат) розподілу Пірсона та ін.

Статистичні критерії, які використовуються для перевірки статистичних гіпотез, бувають двох видів: параметричні і непараметричні.

Параметричними називають критерії, які ґрунтуються на припущенні, що розподіл випадкової величини в сукупності підпорядкований деякого відомому закону (наприклад, нормальному, біномінальному, Пуассона). До таких критеріїв належать критерії. Б,% 2 та ін.

Непараметрічнімі (порядковими) називають критерії, використання яких не пов'язано зі знанням закону розподілу випадкової величини, їх можна застосовувати і тоді, коли досліджуваний розподіл значно відрізняється від нормального. До таких критеріїв належать, зокрема, критерій знаків Вілкоксона, Уайта, Манна-Уїтні і ін.

Параметричні критерії більш ефективні в порівнянні з непараметрічнімі. Однак вони можуть бути використані для сукупностей, які мають нормальний або близький до нормального розподіл. Непараметричні критерії можуть бути використані при будь-якій формі розподілу. Єдиною умовою їх застосування є взаємна незалежність даних спостереження.

У безлічі можливих значень обраного критерію можна виділити два підмножини не перетинаються, одна з яких містить значення критерію, а друга - ні. Перше підмножина називається критичною областю ,. а друга областю допустимих значень.

Критичною областю називають ті значення критерію, при яких нульова гіпотеза відхиляється. Областю допустимих значень (областю прийняття Н0) називають сукупність значень використовуваного критерію, при яких нульова гіпотеза приймається.

Точки, що відокремлюють критичну область від області допустимих значень, називають критичними точками.

Розрізняють односторонню і двосторонню критичні області.

Односторонньої називають правобічним або лівостороннім критичну область. Ці області визначаються такими нерівностями: для правобічної критичної області до> акр, де акр - позитивне число, для лівосторонньої до <акр - где акр - отрицательное число.

Двостороння критична область визначається нерівностями до <аь к> А2, де А2> аь або коротко | до |> акр, де акр> 0.

Вибір односторонньої або двосторонньої критичної області залежить від конкретних умов і мети завдань, які вирішуються. Наприклад, при альтернативній гіпотезі На. xi Ф х2 слід користуватися двосторонньої критичної областю, а при гіпотезах На. xi> х2 і На: Xi <х2 - односторонней (в соответствии правосторонним и левосторонним) критической областью.

Критичну область доцільно будувати так, щоб вона найкращим чином відрізняла нульову від альтернативної гіпотези.

Критерій перевірки гіпотези повинен бути підібраний так, щоб ризик допущення помилок був мінімальним. При цьому дуже важливо визначити ймовірність того, що не буде допущена помилка II роду. Ця ймовірність характеризує чутливість критерію до помилок II роду і отримала назву потужності критерію.

Потужністю критерію називається ймовірність відхилення випробуваної гіпотези Н0, коли правильним є альтернативна гіпотеза На (1 | 3). Отже, потужність критерію є ймовірність того, що не буде допущена помилка II роду. Звичайно, бажано мати потужний критерій, тому що це забезпечить мінімальну ймовірність допущення помилки II роду. Тому з усіх можливих критеріїв слід вибирати найпотужніший.

Потужність (чутливість) критерію може бути підвищена двома способами: а) збільшенням рівня значущості. Однак цей шлях не зовсім прийнятний, так як необґрунтовано підвищується ймовірність помилок І роду; б) збільшенням чисельності вибірки.

При формулюванні висновків за результатами перевірки гіпотези керуються таким принципом (правилом): якщо фактичне значення критерію потрапляє в критичну область, то Н0 відхиляють, якщо ж фактичне значення критерію належить області допустимих значень, то Н0 приймають.

Для кожного критерію складені спеціальні таблиці, за якими знаходять його табличне значення (критичні точки), що відокремлюють критичну область від області допустимих значень. Знайдене табличне значення критерію порівнюють з його фактичним значенням. Якщо фактичне значення критерію, визначене за даними вибірки, буде більше табличного значення, то нульову гіпотезу слід відхилити і прийняти альтернативну гіпотезу. Якщо ж фактичне значення критерію буде менше або дорівнює табличному, то робиться висновок про згоду даних спостереження з нульовою гіпотезою, то є підстави для відмови від Н0 немає і тому її треба прийняти.

Якщо, наприклад, в досвіді перевіряють вплив будь-якого чинника на результативний ознака за допомогою X - критерію Стьюдента, то висновки формулюються так. Якщо Хф ^> Ха, то нульову гіпотезу (Н0. Фактор не впливає на результативний ознака) відхиляють, а вплив фактора на результативний ознака імовірний, істотний. Якщо ж перевіряють достовірність різниці між середніми двох або кількох малих вибірок, то в цьому випадку (Хфщ ^> Ха) говорять, що відмінності між середніми настільки значні, що вони не можуть бути результатом випадкового варіювання вибіркових даних, тому вони повинні бути визнані істотними, істотними.

в ситуації, коли виявиться, що Хфщ ^ <Ха. делают обратные выводы: нулевая гипотеза (Н0: фактор не влияет на результативный признак) принимается, влияние фактора на результативный признак, несущественный, недостоверен, а сама разница между средними лежит в границах возможных случайных колебаний, а поэтому она несущественна, невірогідна.

При цьому слід мати на увазі, що згода з нульовою гіпотезою доводить її абсолютної справедливості. Це лише свідчення про необхідність подальшої її перевірки, в тому числі шляхом збільшення обсягу вибірки або поки більш переконливі дослідження не дозволять зробити протилежний висновок. Тому при формулюванні остаточних висновків в цьому випадку більш правильно говорити про те, що дані спостереження не суперечать нульовій гіпотезі і, отже, не дають підстави для її відхилення.

Схожі статті