Използване на критерии за съгласие. Критерий за приемане Какво ще правим с получения материал

Критерии за съгласие (съответствие)

За проверка на хипотезата за съответствието на емпиричното разпределение с теоретичния закон на разпределението се използват специални статистически показатели - критерии за съответствие (или критерии за съответствие). Те включват критериите на Пиърсън, Колмогоров, Романовски, Ястремски и др.. Повечето от критериите за добро съответствие се основават на използването на отклонения на емпиричните честоти от теоретичните. Очевидно колкото по-малки са тези отклонения, толкова по-добре теоретичното разпределение съвпада (или описва) с емпиричното.

Критерии за съгласие -това са критерии за проверка на хипотези за съответствието на емпиричното разпределение с теоретичното разпределение на вероятностите. Такива критерии са разделени на два класа: общи и специални. Общите критерии за съответствие се прилагат към най-общата формулировка на хипотеза, а именно хипотезата, че наблюдаваните резултати са в съответствие с всяко априорно прието вероятностно разпределение. Специалните тестове за съответствие предполагат специални нулеви хипотези, които формулират съгласие с определена форма на разпределение на вероятностите.

Критериите за добро съответствие, базирани на установения закон за разпределение, позволяват да се установи кога несъответствията между теоретичните и емпиричните честоти трябва да се признаят за незначителни (случайни) и кога - за значими (неслучайни). От това следва, че критериите за добро съответствие позволяват да се отхвърли или потвърди правилността на хипотезата, изложена при изравняване на реда за характера на разпределението в емпиричния ред и да се отговори дали е възможно да се приеме модел, изразен чрез някакъв теоретичен закон за разпределение за дадено емпирично разпределение.

Тестът на Pearson x2 (хи-квадрат) за съответствие е един от основните критерии за съответствие. Предложено от английския математик Карл Пиърсън (1857-1936) за оценка на случайността (значимостта) на несъответствията между честотите на емпиричните и теоретичните разпределения:

където к-броя на групите, на които е разделено емпиричното разпределение; фи-емпирична честота на признака в аз-та група; / ts °р - теоретична честота на признака в i-тогрупа.

Схема за кандидатстване на критерии y)до оценка на последователността на теоретичните и емпиричните разпределения се свежда до следното.

  • 1. Изчислената мярка на несъответствие се определя % 2 съгл.
  • 2. Определя се броят на степените на свобода.
  • 3. Според броя на степените на свобода v с помощта на специална таблица се определя %^bl
  • 4. Ако % 2 asch >x 2 abl, то за дадено ниво на значимост a и брой степени на свобода v, ​​хипотезата за незначимост (случайност) на несъответствията се отхвърля. В противен случай хипотезата може да се признае за непротиворечаща на получените експериментални данни и с вероятност (1 - а) може да се твърди, че несъответствията между теоретичните и емпиричните честоти са случайни.

Ниво на значимост -е вероятността за погрешно отхвърляне на предложената хипотеза, т.е. вероятността правилната хипотеза да бъде отхвърлена. В статистическите изследвания, в зависимост от важността и отговорността на решаваните задачи, се използват следните три нива на значимост:

  • 1) а = 0,1, тогава P = 0,9;
  • 2) а = 0,05, тогава P = 0,95;
  • 3) а = 0,01, тогава P = 0,99.

Използване на годност y),трябва да се спазват следните условия.

  • 1. Обемът на изследваната популация трябва да отговаря на условието n> 50, докато честотата или размерът на групата трябва да бъде най-малко 5. Ако това условие е нарушено, първо трябва да обедините малки честоти (по-малко от 5).
  • 2. Емпиричното разпределение трябва да се състои от данни, получени в резултат на случаен подбор, т.е. трябва да са независими.

Недостатъкът на критерия за съответствие на Пиърсън е загубата на част от първоначалната информация, свързана с необходимостта резултатите от наблюдението да се групират в интервали и да се комбинират отделни интервали с малък брой наблюдения. В тази връзка се препоръчва да се допълни проверката на съответствието на разпределенията според критерия y)други критерии. Това е особено вярно, когато размерът на извадката е П ~ 100.

В статистиката тестът за съответствие на Колмогоров (известен също като тест за съответствие на Колмогоров-Смирнов) се използва за определяне дали две емпирични разпределения се подчиняват на един и същи закон или за определяне дали полученото разпределение се подчинява на предполагаем модел . Критерият на Колмогоров се основава на определяне на максималната разлика между натрупаните честоти или честотите на емпирични или теоретични разпределения. Критерият на Колмогоров се изчислява по следните формули:

където ди д-съответно максималната разлика между натрупаните честоти (/-/") и между натрупаните честоти ( rr") емпирични и теоретични серии от разпределения; Н-броя на единиците в популацията.

След като изчисли стойността х,специална таблица определя вероятността, с която може да се твърди, че отклоненията на емпиричните честоти от теоретичните са случайни. Ако знакът приема стойности до 0,3, това означава, че има пълно съвпадение на честотите. С голям брой наблюдения тестът на Колмогоров е в състояние да открие всяко отклонение от хипотезата. Това означава, че всяка разлика в разпределението на извадката от теоретичното ще бъде открита с негова помощ, ако има много наблюдения. Практическото значение на това свойство е незначително, тъй като в повечето случаи е трудно да се разчита на получаване на голям брой наблюдения при постоянни условия, теоретичната идея за закона за разпределение, на който трябва да се подчинява пробата, винаги е приблизителна и точността на статистическите проверки не трябва да надвишава точността на избрания модел.

Тестът за съответствие на Романовски се основава на използването на теста на Pearson, т.е. вече намерени стойности x 2> и броя на степените на свобода:

където v е броят на степените на свобода на вариация.

Критерият на Романовски е удобен при липса на таблици за x 2. Ако K rДА СЕ? > 3, тогава те не са случайни и теоретичното разпределение не може да служи като модел за изследваното емпирично разпределение.

Б. С. Ястремски използва в критерия за споразумение не броя на степените на свобода, а броя на групите ( к), специална стойност 0 в зависимост от броя на групите и стойност хи-квадрат. Критерият за съгласие на Ястремски има същото значение като критерия на Романовски и се изразява с формулата

където x 2 - критерият на Pearson за съгласие; /e gr - брой групи; 0 - коефициент, за броя на групите по-малко от 20 равен на 0,6.

Ако 1f act > 3, несъответствията между теоретичното и емпиричното разпределение не са случайни, т.е. емпиричното разпределение не отговаря на изискванията за нормално разпределение. Ако 1f действа

МИНИСТЕРСТВО НА ОБРАЗОВАНИЕТО И НАУКАТА НА УКРАЙНА

АЗОВСКИ РЕГИОНАЛЕН ИНСТИТУТ ЗА УПРАВЛЕНИЕ

ЗАПОРИЗКИ ​​НАЦИОНАЛЕН ТЕХНИЧЕСКИ УНИВЕРСИТЕТ

Катедра по математика

КУРСОВА РАБОТА

Н дисциплина "СТАТИСТИКА"

По темата: "КРИТЕРИИ ЗА СЪГЛАСИЕ"

Студенти 2-ра година

Група 207 Факултет Мениджмънт

Батура Татяна Олеговна

научен съветник

Доцент Косенков O.I.

Бердянск - 2009г


ВЪВЕДЕНИЕ

1.2 Съответствие χ 2 на Пиърсън за проста хипотеза

1.3 Съответствие за сложна хипотеза

1.4 Тестове за съответствие χ 2 на Фишер за сложна хипотеза

1.5 Други критерии за съгласие. Съответствие за разпределението на Поасон

РАЗДЕЛ II. ПРАКТИЧЕСКИ ПРИЛОЖЕНИЯ НА КРИТЕРИЯ ЗА СЪГЛАСИЕ

ПРИЛОЖЕНИЯ

СПИСЪК НА ИЗПОЛЗВАНАТА ЛИТЕРАТУРА


ВЪВЕДЕНИЕ

Тази курсова работа описва най-често срещаните критерии за добро съответствие - омега-квадрат, хи-квадрат, Колмогоров и Колмогоров-Смирнов. Особено внимание се обръща на случая, когато е необходимо да се провери дали разпределението на данните принадлежи към някакво параметрично семейство, например нормално. Поради своята сложност, тази много често срещана в практиката ситуация не е напълно проучена и не е напълно отразена в учебната и справочната литература.

Критериите за съответствие се наричат ​​статистически тестове, предназначени да тестват съответствието между експериментални данни и теоретичен модел. Този въпрос е най-добре проектиран, ако наблюденията представляват произволна извадка. Теоретичният модел в този случай описва закона за разпределение.

Теоретичното разпределение е вероятностното разпределение, което управлява произволния избор. Не само теорията може да даде идеи за това. Традиция, минал опит и предишни наблюдения могат да бъдат източници на знания тук. Трябва само да подчертаем, че това разпределение трябва да бъде избрано независимо от данните, по които ще го проверяваме. С други думи, неприемливо е първо да се „намести“ определен закон за разпределение на извадка и след това да се опитате да проверите съответствието с получения закон за същата извадка.

Прости и сложни хипотези. Говорейки за теоретичния закон на разпределение, който хипотетично трябва да следват елементите на дадена извадка, трябва да разграничим прости и сложни хипотези за този закон:

Една проста хипотеза директно показва определен специфичен закон на вероятностите (разпределение на вероятностите), според който са възникнали стойностите на извадката;

Сложна хипотеза показва едно разпределение и някои от тях (например параметрично семейство).

Критериите за добро съответствие се основават на използването на различни мерки за разстояние между анализираното емпирично разпределение и функцията на разпределение на характеристика в общата съвкупност.

Широко използвани са непараметричните тестове на съгласие Колмогоров, Смирнов, омега квадрат. Те обаче са свързани и с широко разпространени грешки при прилагането на статистически методи.

Факт е, че изброените критерии са разработени, за да тестват съответствието с напълно известно теоретично разпределение. Широко се използват формули за изчисление, таблици на разпределения и критични стойности. Основната идея на критериите на Колмогоров, омега квадрат и подобни критерии е да се измери разстоянието между емпиричната функция на разпределение и теоретичната функция на разпределение. Тези критерии се различават под формата на разстояния в пространството на функциите на разпределение.

Започвайки тази курсова работа, си поставих за цел да разбера какви критерии за съгласие съществуват, за да разбера защо са необходими. За да постигнете тази цел, трябва да изпълните следните задачи:

1. Да се ​​разкрие същността на понятието „критерии за съгласие”;

2. Определете какви критерии за съгласие съществуват, проучете ги отделно;

3. Направете изводи за свършената работа.


РАЗДЕЛ I. ТЕОРЕТИЧНА ОБОСНОВКА НА КРИТЕРИЯ ЗА СЪГЛАСИЕ

1.1 Критерии за съответствие на Колмогоров и омега-квадрат в случай на проста хипотеза

Проста хипотеза. Помислете за ситуация, при която измерените данни са числа, с други думи, едномерни случайни променливи. Разпределението на едномерни случайни променливи може да бъде напълно описано чрез уточняване на техните функции на разпределение. И много тестове за съответствие се основават на проверка на близостта на теоретичните и емпиричните (извадкови) функции на разпределение.

Да предположим, че имаме извадка от n. Нека означим истинската функция на разпределение, на която се подчиняват наблюденията, G(x), емпиричната (извадкова) функция на разпределение - F n (x), и хипотетичната функция на разпределение - F(x). Тогава хипотезата H, че истинската функция на разпределение е F(x), се записва като H: G(·) = F(·).

Как да тестваме хипотеза H? Ако H е вярно, тогава F n и F трябва да показват известно сходство и разликата между тях трябва да намалява с увеличаване на n. Поради теоремата на Бернули, F n (x) → F(x) при n → ∞. Използват се различни методи за количествено определяне на сходството на функциите F n и F.

За да се изрази сходството на функциите, може да се използва едно или друго разстояние между тези функции. Например, може да се сравни F n и F в единната метрика, т.е. вземете предвид стойността:

(1.1)

Статистиката D n се нарича статистика на Колмогоров.

Очевидно D n е случайна променлива, тъй като нейната стойност зависи от произволния обект F n . Ако хипотезата H 0 е вярна и n → ∞, тогава F n (x) → F(x) за всяко x. Следователно естествено е при тези условия D n → 0. Ако хипотезата H 0 е невярна, тогава F n → G и G ≠ F, и следователно sup -∞

Както винаги, когато тестваме хипотеза, ние разсъждаваме така, сякаш хипотезата е вярна. Ясно е, че H 0 трябва да се отхвърли, ако стойността на статистиката D n, получена в експеримента, изглежда невероятно голяма. Но за това трябва да знаете как се разпределят статистиките D n при хипотезата H: F= G за дадени n и G.

Забележително свойство на D n е, че ако G = F, т.е. ако хипотетичното разпределение е зададено правилно, тогава законът на разпределение на статистиката D n се оказва един и същ за всички непрекъснати функции G. Той зависи само от размера на извадката n.

Доказателството за този факт се основава на факта, че статистиката не променя стойността си при монотонни трансформации на оста x. Чрез такава трансформация всяко непрекъснато разпределение G може да се превърне в равномерно разпределение на интервала . В този случай F n (x) ще премине във функцията на разпределение на извадката от това равномерно разпределение.

За малки n, за статистиката D n при хипотезата H 0 се съставят таблици на процентни точки. За голямо n разпределението D n (при хипотезата H 0) е посочено от граничната теорема, открита през 1933 г. от А. Н. Колмогоров. Тя говори за статистика

(тъй като самата стойност D n → 0 при H 0 е необходимо тя да се умножи по безкрайно нарастваща стойност, за да се стабилизира разпределението). Теоремата на Колмогоров гласи, че ако H 0 е вярно и ако G е непрекъснато:
(1.2)

Тази сума е много лесна за изчисляване в Maple. За да се тества проста хипотеза H 0: G = F, е необходимо да се изчисли стойността на статистиката D n от първоначалната извадка. Една проста формула работи за това:

(1.3)

Тук чрез x k - елементи от вариационната серия, конструирана от оригиналната извадка. След това получената стойност D n трябва да се сравни с критичните стойности, извлечени от таблиците или изчислени по асимптотичната формула. Хипотезата H 0 трябва да бъде отхвърлена (при избраното ниво на значимост), ако стойността на D n, получена в експеримента, надвишава избраната критична стойност, съответстваща на приетото ниво на значимост.

Друг популярен критерий за добро съответствие се получава чрез измерване на разстоянието между F n и F в интегралната метрика. Базира се на така наречената статистика на омега-квадрата:

(1.4)

За да го изчислите от реални данни, можете да използвате формулата:

(1.5)

Ако хипотезата H 0 е вярна и функцията G е непрекъсната, разпределението на статистиката омега-квадрат, точно както разпределението на статистиката D n, зависи само от n и не зависи от G.

Точно както за D n , за

за малки n са налични таблици с процентни точки, а за големи стойности на n трябва да се използва ограничаващото (като n → ∞) разпределение на статистиката n. Тук отново трябва да умножим по безкрайно нарастващ коефициент. Пределното разпределение е намерено от Н. В. Смирнов през 1939 г. За него са съставени подробни таблици и изчислителни програми. Важно теоретично свойство на критериите, базирани на D n и : те са валидни срещу всяка алтернатива G ≠ F.

Тъй като всички предположения за естеството на дадено разпределение са хипотези, те трябва да бъдат подложени на статистическа проверка с помощта на критерии за съгласие, които позволяват да се установи кога несъответствията между теоретичните и емпиричните честоти трябва да се признаят за незначителни, т.е. случаен, а когато - значим (неслучаен). По този начин критериите за добро съответствие позволяват да се отхвърли или потвърди правилността на хипотезата, изложена при изравняване на серията за естеството на разпределението в емпиричната серия.

Има редица критерии за съгласие. По-често се използват критериите на Пиърсън, Романовски и Колмогоров.

Тест за съответствие на Pearson - един от основните

където k е броят на групите, на които е разделено емпиричното разпределение,
е наблюдаваната честота на признака в i-та група,
е теоретичната честота.
За разпределението са съставени таблици, където е посочена критичната стойност на критерия за съответствие за избраното ниво на значимост и степени на свобода df. (или )
Нивото на значимост е вероятността за погрешно отхвърляне на предложената хипотеза, т.е. вероятността правилната хипотеза да бъде отхвърлена. В статистиката се използват три нива:

  • a= 0,10, тогава Р=0,90 (в 10 случая от 100 може да се отхвърли правилната хипотеза);
  • а=0,05, тогава Р=0,95;
  • а=0,01, тогава Р=0,99.

Броят на степените на свобода df се определя като броя на групите в серията на разпределение минус броя на връзките: df = k –z. Броят на връзките се разбира като броят на показателите на емпиричните серии, използвани при изчисляването на теоретичните честоти, т.е. индикатори, свързващи емпирични и теоретични честоти.
Например, когато се подравнят с нормална крива на разпределение, има три връзки:
; ; .
Следователно при нивелиране по кривата на нормалното разпределение броят на степените на свобода се определя като df = k –3.
За да се оцени съществеността, изчислената стойност се сравнява с табличната стойност.
С пълно съвпадение на теоретичните и емпиричните разпределения, в противен случай >0. Ако >, тогава за дадено ниво на значимост и брой степени на свобода отхвърляме хипотезата за незначимост (случайност) на несъответствията.
Ако , заключаваме, че емпиричният ред е в добро съответствие с хипотезата за очакваното разпределение и с вероятност Р=(1-a) може да се твърди, че несъответствието между теоретичните и емпиричните честоти е случайно.
Тестът за съответствие на Pearson се използва, ако размерът на популацията е достатъчно голям и честотата на всяка група трябва да бъде най-малко 5.

Критерият на Романовски с въз основа на използването на критерия Pearson, т.е. вече намерени стойности и броя на степените на свобода df:

Полезно е, когато няма таблици за .
Ако с<3, то расхождения распределений случайны, если же с>3, то те не са случайни и теоретичното разпределение не може да служи като модел за изследваното емпирично разпределение.

Критерий на Колмогоров л се основава на определяне на максималното несъответствие между натрупаните честоти и честотите на емпиричните и теоретичните разпределения:
или ,
където D и d са съответно максималната разлика между натрупаните честоти и натрупаните честоти на емпиричните и теоретичните серии от разпределения;
N е броят на единиците от съвкупността.
След като изчисли стойността на l, таблицата P(l) определя вероятността, с която може да се твърди, че отклоненията на емпиричните честоти от теоретичните са случайни. Вероятността Р(l) може да варира от 0 до 1. При Р(l)=1 има пълно съвпадение на честотите, Р(l)=0 – пълно несъответствие. Ако l приема стойности до 0,3, тогава P(l)=1.
Основното условие за използване на критерия Колмогоров е достатъчно голям брой наблюдения.

В този раздел ще разгледаме един от въпросите, свързани с тестването на вероятността от хипотези, а именно въпроса за съгласуваността между теоретичните и статистическите разпределения.

Да приемем, че даденото статистическо разпределение е изравнено с помощта на някаква теоретична крива f(x)(фиг. 7.6.1). Без значение колко добре е избрана теоретичната крива, неизбежни са някои несъответствия между нея и статистическото разпределение. Естествено възниква въпросът дали тези несъответствия се дължат само на случайни обстоятелства, свързани с ограничен брой наблюдения, или са значителни и са свързани с факта, че избраната от нас крива не изравнява това статистическо разпределение. За да се отговори на този въпрос, се използват така наречените „критерии за съгласие“.

ЗАКОНИ ЗА РАЗПРЕДЕЛЕНИЕ НА СЛУЧАЙНИТЕ ВЕЛИЧИНИ



Идеята зад прилагането на критериите за добро съответствие е следната.

Въз основа на този статистически материал трябва да проверим хипотезата H,състоящ се в това, че случайната величина хсе подчинява на определен закон на разпределение. Този закон може да бъде даден в една или друга форма: например под формата на функция на разпределение F(x)или под формата на плътност на разпространение f(x),или под формата на набор от вероятности p t,където pt- вероятността стойността хще попадне в рамките аз нещоосвобождаване от отговорност.

Тъй като от тези форми разпределителната функция F(x)е най-общата и определя всяка друга, ще формулираме хипотезата H,като състоящ се в това, че стойността хима функция на разпределение ^(d:).

Приемане или отхвърляне на хипотеза H,помислете за някакво количество ти,характеризиращи степента на несъответствие между теоретичните и статистическите разпределения. Стойност Uмогат да бъдат избрани по различни начини; например като Uможе да се вземе сумата от квадратите на отклоненията на теоретичните вероятности ptот съответните честоти R*или сумата от същите квадрати с някои коефициенти („тегла“), или максималното отклонение на функцията на статистическото разпределение F*(x)от теоретично F(x)и т.н. Да приемем, че количеството Uизбрани по един или друг начин. Очевидно има и такива произволна стойност.Законът за разпределение на тази случайна променлива зависи от закона за разпределение на случайната променлива х,върху които са проведени експерименти и от броя на експериментите П.Ако хипотезата зе вярно, тогава законът за разпределение на количеството Uопределя се от закона за разпределение на количеството х(функция F(x))и номер П.

Да приемем, че този закон на разпределение ни е известен. В резултат на тази серия от експерименти беше установено, че мярката, която сме избрали



КРИТЕРИИ ЗА СЪГЛАСИЕ


несъответствия Uпридоби някаква стойност а.Въпросът е дали това може да се обясни със случайни причини или това несъответствие е твърде голямо и показва наличието на значителна разлика между теоретичните и статистическите разпределения и следователно несъответствието на хипотезата H?За да отговорите на този въпрос, приемете, че хипотезата зе вярна и при това допускане ние изчисляваме вероятността поради случайни причини, свързани с недостатъчно количество експериментален материал, мярката за несъответствие Uще бъде не по-малка от стойността, наблюдавана от нас в експеримента и,т.е. изчисляваме вероятността за събитие:

Ако тази вероятност е много малка, тогава хипотезата зследва да се отхвърли като не особено правдоподобен; ако тази вероятност е значителна, трябва да се признае, че експерименталните данни не противоречат на хипотезата Н.

Възниква въпросът по какъв начин трябва да се избере мярката за несъответствие £/? Оказва се, че за някои начини за избор, законът за разпределение на количеството Uима много прости свойства и за достатъчно големи Ппрактически независими от функцията F(x).Точно такива мерки за несъответствие се използват в математическата статистика като критерии за съгласие.

Нека разгледаме един от най-често използваните критерии за съгласие – така нареченият „критерий в?"Пиърсън.

Да приемем, че има независими експерименти, във всеки от които случайната променлива хпридоби определена стойност. Резултатите от експериментите са обобщени в кцифри и са представени под формата на статистическа серия.

Теоретични и емпирични честоти. Тест за нормално разпределение

При анализирането на вариационни серии на разпределение е от голямо значение как емпирично разпределениезнак съответства нормално. За целта трябва да се сравнят честотите на реалното разпределение с теоретичните, които са характерни за нормалното разпределение. Това означава, че е необходимо да се изчислят теоретичните честоти на кривата на нормалното разпределение, които са функция на нормализираните отклонения, от действителните данни.

С други думи, кривата на емпиричното разпределение трябва да бъде подравнена с кривата на нормалното разпределение.

Обективна характеристика на съответствието теоретичени емпиричен честотиможе да се получи с помощта на специални статистически показатели, които се наричат критерии за съгласие.

Критерий за съответствиенаречен критерий, който ви позволява да определите дали несъответствието е емпиричени теоретиченразпределения случайни или значими, т.е. дали данните от наблюдението са в съответствие с изложената статистическа хипотеза или не са в съответствие. Разпределението на генералната съвкупност, което има по силата на изложената хипотеза, се нарича теоретично.

Има нужда от установяване критерий(правило), което би позволило да се прецени дали несъответствието между емпиричните и теоретичните разпределения е случайно или значително. Ако несъответствието е случаен, тогава те считат, че данните от наблюдението (извадката) са в съответствие с изложената хипотеза за закона за разпределение на генералната съвкупност и следователно хипотезата се приема; ако несъответствието е значително, тогава данните от наблюденията не са в съответствие с хипотезата и я отхвърлят.

Обикновено емпиричните и теоретичните честоти се различават поради факта, че:

    несъответствието е случайно и е свързано с ограничен брой наблюдения;

    Разминаването не е случайно и се обяснява с факта, че статистическата хипотеза за нормалното разпределение на генералната съвкупност е погрешна.

По този начин, критерии за съгласиепозволяват да се отхвърли или потвърди правилността на хипотезата, изложена при изравняване на серията за естеството на разпределението в емпиричната серия.

Емпирични честотиполучени от наблюдение. Теоретични честотиизчислени по формули.

За нормален закон за разпределениете могат да бъдат намерени така:

    Σƒ i- сбор от натрупаните (кумулативни) емпирични честоти

    h - разлика между две съседни опции

    σ - извадково стандартно отклонение

    t-нормализирано (стандартизирано) отклонение

    φ(t) е функцията на плътността на вероятността на нормалното разпределение (намерете от таблицата със стойности на локалната функция на Лаплас за съответната стойност на t)

Има няколко теста за съответствие, най-разпространените от които са: хи-квадрат (на Пиърсън), тест на Колмогоров, тест на Романовски.

Тест за съответствие на Pearson χ 2 - една от основните, която може да бъде представена като сума от съотношенията на квадратите на разликите между теоретичните (f Т) и емпиричните (f) честоти към теоретичните честоти:

    k е броят на групите, на които е разделено емпиричното разпределение,

    f i е наблюдаваната честота на признака в i-та група,

    f T е теоретичната честота.

За разпределението χ 2 са съставени таблици, които показват критичната стойност на критерия за пригодност χ 2 за избраното ниво на значимост α и степени на свобода df (или ν). Нивото на значимост α е вероятността за погрешно отхвърляне на предложената хипотеза, т.е. вероятността правилната хипотеза да бъде отхвърлена. R - статистическа валидностприемане на правилната хипотеза. В статистиката най-често се използват три нива на значимост:

α=0,10, след това P=0,90 (в 10 случая от 100)

α=0.05, след това Р=0.95 (в 5 случая от 100)

α=0,01, тогава P=0,99 (в 1 случай от 100) правилната хипотеза може да бъде отхвърлена

Броят на степените на свобода df се определя като броя на групите в серията на разпределение минус броя на връзките: df = k –z. Броят на връзките се разбира като броят на показателите на емпиричните серии, използвани при изчисляването на теоретичните честоти, т.е. индикатори, свързващи емпирични и теоретични честоти. Например при подравняване на камбановидна крива има три отношения. Следователно, при подравняване камбановидна криваброят на степените на свобода се определя като df =k–3. За да се оцени съществеността, изчислената стойност се сравнява с табличната χ 2 таблица

При пълно съвпадение на теоретичното и емпиричното разпределение χ 2 =0, в противен случай χ 2 >0. Ако χ 2 calc > χ 2 tab, тогава за дадено ниво на значимост и брой степени на свобода отхвърляме хипотезата за незначимост (случайност) на несъответствията. Ако χ 2 изч< χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняетсянормална дистрибуция. Тестът за съответствие на Pearson се използва, ако размерът на популацията е достатъчно голям (N>50), докато честотата на всяка група трябва да бъде най-малко 5.

Критерият за съответствие на Колмогоровсе основава на определяне на максималното несъответствие между натрупаните емпирични и теоретични честоти:

където D и d са съответно максималната разлика между кумулативните честоти и кумулативните честоти на емпиричните и теоретичните разпределения. Според таблицата на разпределението на статистиката на Колмогоров се определя вероятността, която може да варира от 0 до 1. При P(λ)=1- има пълно съвпадение на честотите, P(λ)=0 - пълно разминаване. Ако стойността на вероятността P е значима по отношение на намерената стойност λ, тогава може да се приеме, че несъответствията между теоретичното и емпиричното разпределение са незначителни, т.е. те са от случаен характер. Основното условие за използване на критерия Колмогоров е достатъчно голям брой наблюдения.

Критерият за съответствие на Колмогоров

Помислете как се прилага критерият на Колмогоров (λ), когато проверка на хипотезата за нормално разпределениеобщото население. Подравняването на действителното разпределение по кривата на нормалното разпределение се състои от няколко стъпки:

    Сравнете реалните и теоретичните честоти.

    Според реалните данни се определят теоретичните честоти на кривата на нормалното разпределение, която е функция на нормираното отклонение.

    Проверете доколко разпределението на признака отговаря на нормалното.

За IV колона на таблицата:

В MS Excel нормализираното отклонение (t) се изчислява с помощта на функцията NORMALIZE. Необходимо е да изберете диапазон от свободни клетки по броя на опциите (редове на електронна таблица). Без да премахвате селекцията, извикайте функцията НОРМАЛИЗАЦИЯ. В диалоговия прозорец, който се появява, посочете следните клетки, които съдържат съответно наблюдаваните стойности (X i), средна стойност (X) и стандартно отклонение Ϭ. Операцията трябва да бъде завършена едновременнокато натиснете Ctrl+Shift+Enter

За V колона на таблицата:

Функцията на плътността на вероятността на нормалното разпределение φ(t) се намира от таблицата със стойности на локалната функция на Лаплас за съответната стойност на нормализираното отклонение (t)

За VI колона на таблицата:

Критерий за добро съответствие на Колмогоров (λ)определен чрез разделяне на модула максимални разликимежду емпирични и теоретични кумулативни честоти на квадратен корен от броя на наблюденията:

Използвайки специална вероятностна таблица за критерия за добро съответствие λ, ние определяме, че стойността λ=0,59 съответства на вероятност от 0,88 (λ

Разпределение на емпирични и теоретични честоти, плътност на вероятността на теоретично разпределение

Когато се прилагат тестове за съответствие, за да се провери дали наблюдавано (емпирично) разпределение е в съответствие с теоретично, трябва да се прави разлика между тестване на прости и сложни хипотези.

Еднопробният тест за нормалност на Колмогоров-Смирнов се основава на максимална разликамежду кумулативното емпирично разпределение на извадката и подразбиращото се (теоретично) кумулативно разпределение. Ако D статистиката на Колмогоров-Смирнов е значима, тогава хипотезата, че съответното разпределение е нормално, трябва да бъде отхвърлена.