Stosowanie kryteriów zgody. Kryterium akceptacji Co zrobimy z otrzymanym materiałem

Kryteria porozumienia (zgodność)

Aby przetestować hipotezę o zgodności rozkładu empirycznego z teoretycznym prawem rozkładu, stosuje się specjalne wskaźniki statystyczne - kryteria dobroci dopasowania (lub kryteria zgodności). Należą do nich kryteria Pearsona, Kołmogorowa, Romanowskiego, Jastremskiego itp. Większość kryteriów dobroci dopasowania opiera się na wykorzystaniu odchyleń częstotliwości empirycznych od teoretycznych. Oczywiście im mniejsze są te odchylenia, tym lepiej rozkład teoretyczny pokrywa się (lub opisuje) z rozkładem empirycznym.

Kryteria zgody - są to kryteria testowania hipotez dotyczących zgodności rozkładu empirycznego z teoretycznym rozkładem prawdopodobieństwa. Kryteria te dzielą się na dwie klasy: ogólną i specjalną. Ogólne kryteria dobroci dopasowania mają zastosowanie do najbardziej ogólnego sformułowania hipotezy, mianowicie hipotezy, że obserwowane wyniki zgadzają się z dowolnym założonym a priori rozkładem prawdopodobieństwa. Specjalne testy dobroci dopasowania implikują specjalne hipotezy zerowe, które formułują zgodność z określoną formą rozkładu prawdopodobieństwa.

Kryteria dobroci dopasowania, oparte na ustalonym prawie rozkładu, pozwalają określić, kiedy rozbieżności między częstościami teoretycznymi i empirycznymi należy uznać za nieistotne (losowe), a kiedy za znaczące (nielosowe). Wynika z tego, że kryteria dobroci dopasowania pozwalają odrzucić lub potwierdzić słuszność postawionej hipotezy przy wyrównywaniu szeregów o naturze rozkładu w szeregach empirycznych oraz odpowiedzieć, czy możliwe jest przyjęcie model wyrażony przez pewne teoretyczne prawo dystrybucji dla danego rozkładu empirycznego.

Test dobroci dopasowania x2 (chi-kwadrat) Pearsona jest jednym z głównych kryteriów dopasowania. Zaproponowany przez angielskiego matematyka Karla Pearsona (1857-1936) do oceny losowości (istotności) rozbieżności między częstościami rozkładów empirycznych i teoretycznych:

gdzie k- liczba grup, na które dzieli się rozkład empiryczny; fi- empiryczna częstość występowania cechy w i-ta grupa; / ts °р - teoretyczna częstość występowania cechy w i-ty Grupa.

Schemat stosowania kryteriów y) do oceny spójności rozkładów teoretycznych i empirycznych ogranicza się do następujących kwestii.

  • 1. Obliczoną miarę rozbieżności wyznacza się % 2 wg.
  • 2. Określa się liczbę stopni swobody.
  • 3. Na podstawie liczby stopni swobody v, korzystając ze specjalnej tabeli, wyznacza się %^bl
  • 4. Jeżeli % 2 asch >x 2 abl, to dla danego poziomu istotności a i liczby stopni swobody v hipoteza o nieistotności (losowości) rozbieżności jest odrzucana. W przeciwnym razie hipotezę można uznać za niesprzeczną z uzyskanymi danymi eksperymentalnymi iz prawdopodobieństwem (1 - a) można argumentować, że rozbieżności między częstościami teoretycznymi i empirycznymi są przypadkowe.

Poziom istotności - to prawdopodobieństwo błędnego odrzucenia postawionej hipotezy, tj. prawdopodobieństwo, że poprawna hipoteza zostanie odrzucona. W badaniach statystycznych, w zależności od ważności i odpowiedzialności rozwiązywanych zadań, stosuje się trzy poziomy istotności:

  • 1) zatem a = 0,1 P = 0,9;
  • 2) zatem a = 0,05 P = 0,95;
  • 3) zatem a = 0,01 P = 0,99.

Korzystanie z dobroci dopasowania y), należy przestrzegać następujących warunków.

  • 1. Wielkość badanej populacji musi spełniać warunek n> 50, podczas gdy częstotliwość lub wielkość grupy musi wynosić co najmniej 5. Jeśli ten warunek zostanie naruszony, musisz najpierw połączyć małe częstotliwości (mniej niż 5).
  • 2. Rozkład empiryczny powinien składać się z danych uzyskanych w wyniku doboru losowego, tj. muszą być niezależne.

Wadą kryterium dobroci dopasowania Pearsona jest utrata części informacji początkowych związana z koniecznością grupowania wyników obserwacji w przedziały i łączenia poszczególnych przedziałów z niewielką liczbą obserwacji. W tym zakresie zaleca się uzupełnienie weryfikacji zgodności rozkładów według kryterium y) inne kryteria. Jest to szczególnie prawdziwe, gdy wielkość próbki jest P ~ 100.

W statystyce test dopasowania Kołmogorowa (znany również jako test dopasowania Kołmogorowa-Smirnowa) jest używany do określenia, czy dwa rozkłady empiryczne są zgodne z tym samym prawem, lub do określenia, czy wynikowy rozkład jest zgodny z założonym modelem . Kryterium Kołmogorowa opiera się na wyznaczeniu maksymalnej różnicy między skumulowanymi częstościami lub częstościami rozkładów empirycznych lub teoretycznych. Kryterium Kołmogorowa oblicza się według następujących wzorów:

gdzie D oraz d- odpowiednio, maksymalna różnica między skumulowanymi częstotliwościami (/-/") i między skumulowanymi częstotliwościami ( rr") empiryczne i teoretyczne szeregi rozkładów; N- liczba jednostek w populacji.

Po obliczeniu wartości x, specjalna tabela określa prawdopodobieństwo, z jakim można argumentować, że odchylenia częstości empirycznych od teoretycznych są przypadkowe. Jeśli znak przyjmuje wartości do 0,3, oznacza to całkowitą zbieżność częstotliwości. Przy dużej liczbie obserwacji test Kołmogorowa jest w stanie wykryć każde odchylenie od hipotezy. Oznacza to, że każda różnica w rozkładzie próby od teoretycznego zostanie wykryta za jego pomocą, jeśli obserwacji jest dużo. Praktyczne znaczenie tej właściwości jest znikome, gdyż w większości przypadków trudno liczyć na uzyskanie dużej liczby obserwacji w stałych warunkach, teoretyczna idea prawa dystrybucji, któremu musi podlegać próbka, jest zawsze przybliżona, a dokładność kontroli statystycznych nie powinna przekraczać dokładności wybranego modelu.

Test dobroci dopasowania Romanovsky'ego opiera się na wykorzystaniu testu Pearsona, tj. już znalezione wartości x 2 > i liczba stopni swobody:

gdzie v jest liczbą stopni swobody zmienności.

Kryterium Romanowskiego jest wygodne w przypadku braku tablic dla x 2. Jeśli Kr DO? > 3, to nie są losowe i rozkład teoretyczny nie może służyć jako model badanego rozkładu empirycznego.

B. S. Yastremsky zastosował w kryterium zgodności nie liczbę stopni swobody, ale liczbę grup ( k), specjalną wartość 0 w zależności od liczby grup i wartość chi-kwadrat. Kryterium zgodności Jastremskiego ma takie samo znaczenie jak kryterium Romanowskiego i jest wyrażone wzorem

gdzie x 2 - kryterium zgodności Pearsona; /e gr - liczba grup; 0 - współczynnik, dla liczby grup mniejszej niż 20 równy 0,6.

Jeżeli 1f akt > 3, rozbieżności między rozkładem teoretycznym i empirycznym nie są przypadkowe, tj. rozkład empiryczny nie spełnia wymagań rozkładu normalnego. Jeśli 1f akt

MINISTERSTWO EDUKACJI I NAUKI UKRAINY

AZOWSKI REGIONALNY INSTYTUT ZARZĄDZANIA

ZAPOROSKI NARODOWY UNIWERSYTET TECHNICZNY

Wydział Matematyki

PRACA KURSU

Dyscyplina H "STATYSTYKA"

Na temat: „KRYTERIA ZGODY”

studenci II roku

Grupa 207 Wydział Zarządzania

Batura Tatyana Olegovna

doradca naukowy

Profesor nadzwyczajny Kosenkov O.I.

Berdiańsk - 2009


WPROWADZANIE

1.2 Dobroć dopasowania χ 2 Pearsona dla prostej hipotezy

1.3 Dobroć dopasowania dla złożonej hipotezy

1.4 Testy dobroci dopasowania Fishera χ 2 dla złożonej hipotezy

1.5 Inne kryteria zgody. Dobroć dopasowania dla rozkładu Poissona

SEKCJA II. PRAKTYCZNE ZASTOSOWANIA KRYTERIUM ZGODY

APLIKACJE

WYKAZ WYKORZYSTANEJ LITERATURY


WPROWADZANIE

Ta praca kursowa opisuje najczęstsze kryteria dobroci dopasowania - omega-kwadrat, chi-kwadrat, Kołmogorowa i Kołmogorowa-Smirnowa. Szczególną uwagę zwrócono na przypadek, gdy konieczne jest sprawdzenie, czy rozkład danych należy do jakiejś rodziny parametrycznej, na przykład normalnej. Ze względu na swoją złożoność sytuacja ta, bardzo powszechna w praktyce, nie została w pełni zbadana i nie znajduje pełnego odzwierciedlenia w literaturze edukacyjnej i fachowej.

Kryteria dopasowania nazywane są testami statystycznymi zaprojektowanymi do testowania zgodności między danymi eksperymentalnymi a modelem teoretycznym. To pytanie jest najlepiej zaprojektowane, jeśli obserwacje reprezentują próbkę losową. Model teoretyczny w tym przypadku opisuje prawo dystrybucji.

Rozkład teoretyczny to rozkład prawdopodobieństwa, który rządzi losowaniem. Nie tylko teoria może dać pomysły na ten temat. Tradycja, przeszłe doświadczenia i wcześniejsze obserwacje mogą być tu źródłem wiedzy. Trzeba tylko podkreślić, że taki rozkład należy wybrać niezależnie od danych, na jakich będziemy go sprawdzać. Innymi słowy, niedopuszczalne jest najpierw „dopasowanie” do próbki pewnego prawa dystrybucji, a następnie próba sprawdzenia zgodności z uzyskanym prawem dla tej samej próbki.

Hipotezy proste i złożone. Mówiąc o teoretycznym prawie dystrybucji, jakim hipotetycznie powinny kierować się elementy danej próbki, musimy rozróżnić proste i złożone hipotezy dotyczące tego prawa:

Prosta hipoteza bezpośrednio wskazuje na pewne specyficzne prawo prawdopodobieństwa (rozkład prawdopodobieństwa), zgodnie z którym powstały wartości próbki;

Hipoteza złożona wskazuje na pojedynczą dystrybucję i niektóre z nich (na przykład rodzinę parametryczną).

Kryteria dobroci dopasowania opierają się na wykorzystaniu różnych miar odległości między analizowanym rozkładem empirycznym a dystrybucją cechy w populacji generalnej.

Powszechnie stosowane są nieparametryczne testy zgodności Kołmogorowa, Smirnowa, kwadratu omega. Wiążą się one jednak również z powszechnymi błędami w stosowaniu metod statystycznych.

Faktem jest, że wymienione kryteria zostały opracowane w celu sprawdzenia zgodności z całkowicie znanym rozkładem teoretycznym. Formuły obliczeniowe, tabele rozkładów i wartości krytyczne są szeroko stosowane. Główną ideą kryteriów Kołmogorowa, kwadratu omega i podobnych kryteriów jest zmierzenie odległości między empiryczną funkcją dystrybucji a teoretyczną funkcją dystrybucji. Kryteria te różnią się postacią odległości w przestrzeni funkcji dystrybucyjnych.

Rozpoczynając pracę nad tym kursem, postawiłem sobie za cel dowiedzieć się, jakie istnieją kryteria zgody, dowiedzieć się, dlaczego są one potrzebne. Aby osiągnąć ten cel, musisz wykonać następujące zadania:

1. Ujawnienie istoty pojęcia „kryteria zgody”;

2. Ustal, jakie istnieją kryteria zgody, przestudiuj je osobno;

3. Wyciągnij wnioski z wykonanej pracy.


ROZDZIAŁ I. TEORETYCZNE UZASADNIENIE KRYTERIUM ZGODY

1.1 Kryteria dopasowania Kołmogorowa i kwadrat omega w przypadku prostej hipotezy

Prosta hipoteza. Rozważmy sytuację, w której mierzonymi danymi są liczby, innymi słowy jednowymiarowe zmienne losowe. Rozkład jednowymiarowych zmiennych losowych można w pełni opisać, określając ich dystrybuanty. A wiele testów dobroci dopasowania opiera się na sprawdzaniu bliskości teoretycznych i empirycznych (próbkowych) rozkładów.

Załóżmy, że mamy próbkę n. Oznaczmy dystrybuantę rzeczywistą, której podlegają obserwacje, G(x), dystrybuantę empiryczną (próbki) - F n (x), oraz dystrybuantę hipotetyczną - F(x). Wtedy hipotezę H, że prawdziwą funkcją dystrybucji jest F(x), zapisujemy jako H: G(·) = F(·).

Jak przetestować hipotezę H? Jeśli H jest prawdziwe, to F n i F powinny wykazywać pewne podobieństwo, a różnica między nimi powinna maleć wraz ze wzrostem n. Ze względu na twierdzenie Bernoulliego, F n (x) → F(x) jako n → ∞. Do ilościowego określenia podobieństwa funkcji F n i F stosuje się różne metody.

Aby wyrazić podobieństwo funkcji, można użyć takiej lub innej odległości między tymi funkcjami. Na przykład można porównać F n i F w metryce jednolitej, tj. rozważ wartość:

(1.1)

Statystyka Dn nazywana jest statystyką Kołmogorowa.

Oczywiście Dn jest zmienną losową, ponieważ jej wartość zależy od losowego obiektu Fn. Jeśli hipoteza H 0 jest prawdziwa i n → ∞, to F n (x) → F(x) dla dowolnego x. Dlatego naturalne jest, że w tych warunkach D n → 0. Jeśli hipoteza H 0 jest fałszywa, to F n → G i G ≠ F, a zatem sup -∞

Jak zawsze podczas testowania hipotezy, rozumujemy tak, jakby hipoteza była prawdziwa. Oczywiste jest, że H 0 należy odrzucić, jeśli wartość statystyki D n otrzymanej w eksperymencie wydaje się niewiarygodnie duża. Ale w tym celu musisz wiedzieć, jak rozkładają się statystyki D n przy hipotezie H: F= G dla danych n i G.

Niezwykłą właściwością D n jest to, że jeśli G = F, tj. jeśli rozkład hipotetyczny jest określony poprawnie, to okazuje się, że prawo rozkładu statystyki D n jest takie samo dla wszystkich funkcji ciągłych G. Zależy ono tylko od liczebności próby n.

Dowód tego faktu opiera się na fakcie, że statystyka nie zmienia swojej wartości przy monotonicznych przekształceniach osi x. Za pomocą takiej transformacji dowolny ciągły rozkład G można przekształcić w rozkład równomierny w przedziale . W tym przypadku F n (x) przejdzie do funkcji rozkładu próbki z tego rozkładu jednorodnego.

Dla małego n, dla statystyki D n przy hipotezie H 0, zestawiane są tabele punktów procentowych. Dla dużego n rozkład D n (pod hipotezą H 0) wskazuje twierdzenie graniczne znalezione w 1933 r. Przez A.N. Kołmogorowa. Mówi o statystyce

(ponieważ sama wartość D n → 0 w H 0 , należy ją pomnożyć przez nieskończenie rosnącą wartość, aby rozkład się ustabilizował). Twierdzenie Kołmogorowa mówi, że jeśli H 0 jest prawdziwe i jeśli G jest ciągłe:
(1.2)

Kwota ta jest bardzo łatwa do obliczenia w Maple. Aby przetestować prostą hipotezę H 0: G = F, należy obliczyć wartość statystyki D n z próby początkowej. Działa na to prosta formuła:

(1.3)

Tutaj przez x k - elementy szeregu wariacyjnego zbudowanego z oryginalnej próbki. Uzyskaną wartość D n należy następnie porównać z wartościami krytycznymi wyodrębnionymi z tabel lub obliczonymi za pomocą wzoru asymptotycznego. Hipotezę H 0 należy odrzucić (na wybranym poziomie istotności), jeżeli otrzymana w eksperymencie wartość D n przekracza wybraną wartość krytyczną odpowiadającą przyjętemu poziomowi istotności.

Inne popularne kryterium dobroci dopasowania uzyskuje się przez pomiar odległości między F n i F w metryce całkowej. Opiera się na tak zwanej statystyce omega-kwadrat:

(1.4)

Aby obliczyć to na podstawie rzeczywistych danych, możesz użyć wzoru:

(1.5)

Jeżeli hipoteza H 0 jest prawdziwa, a funkcja G jest ciągła, to rozkład statystyki omega-kwadrat, podobnie jak rozkład statystyki D n , zależy tylko od n i nie zależy od G.

Podobnie jak dla D n , dla

dla małych n dostępne są tabele punktów procentowych, a dla dużych wartości n należy zastosować graniczny (jako n → ∞) rozkład statystyki n. Tutaj znowu musimy pomnożyć przez nieskończenie rosnący czynnik. Rozkład graniczny został znaleziony przez NV Smirnova w 1939 roku. Opracowano dla niego szczegółowe tabele i programy obliczeniowe. Ważna teoretyczna właściwość kryteriów opartych na D n i : są ważne wobec dowolnej alternatywy G ≠ F.

Ponieważ wszelkie założenia co do charakteru danego rozkładu są hipotezami, muszą zostać poddane weryfikacji statystycznej za pomocą kryteria zgody, które pozwalają ustalić, kiedy rozbieżności między częstościami teoretycznymi i empirycznymi należy uznać za nieistotne, tj. losowy, a kiedy - istotny (nielosowy). Tym samym kryteria dobroci dopasowania pozwalają odrzucić lub potwierdzić słuszność postawionej hipotezy przy wyrównywaniu szeregów o charakterze rozkładu w szeregach empirycznych.

Istnieje kilka kryteriów zgody. Częściej stosowane są kryteria Pearsona, Romanowskiego i Kołmogorowa.

Test dobroci dopasowania Pearsona - jeden z głównych

gdzie k to liczba grup, na które dzieli się rozkład empiryczny,
jest obserwowaną częstością cechy w i-tej grupie,
jest częstotliwością teoretyczną.
Dla rozkładu opracowano tabele, w których wskazano wartość krytyczną kryterium dobroci dopasowania dla wybranego poziomu istotności i stopni swobody df. (lub )
Poziom istotności to prawdopodobieństwo błędnego odrzucenia postawionej hipotezy, tj. prawdopodobieństwo, że poprawna hipoteza zostanie odrzucona. W statystyce stosuje się trzy poziomy:

  • a= 0,10, następnie Р=0,90 (w 10 przypadkach na 100 można odrzucić poprawną hipotezę);
  • a=0,05, następnie P=0,95;
  • a=0,01, następnie P=0,99.

Liczba stopni swobody df jest zdefiniowana jako liczba grup w szeregu rozkładu pomniejszona o liczbę wiązań: df = k –z. Przez liczbę połączeń rozumie się liczbę wskaźników szeregu empirycznego wykorzystywanego do obliczania częstości teoretycznych, tj. wskaźniki łączące częstotliwości empiryczne i teoretyczne.
Na przykład po wyrównaniu z krzywą rozkładu normalnego istnieją trzy zależności:
; ; .
Dlatego podczas niwelacji wzdłuż krzywej rozkładu normalnego liczbę stopni swobody definiuje się jako df = k –3.
W celu oceny istotności obliczona wartość jest porównywana z wartością z tabeli.
Przy pełnej zbieżności rozkładów teoretycznych i empirycznych , w przeciwnym razie >0. Jeżeli >, to dla danego poziomu istotności i liczby stopni swobody odrzucamy hipotezę o nieistotności (losowości) rozbieżności.
Jeśli , wnioskujemy, że szereg empiryczny dobrze zgadza się z hipotezą rozkładu oczekiwanego, az prawdopodobieństwem Р=(1-a) można argumentować, że rozbieżność między częstościami teoretycznymi i empirycznymi jest przypadkowa.
Test dobroci dopasowania Pearsona jest stosowany, jeśli wielkość populacji jest wystarczająco duża, a częstotliwość każdej grupy musi wynosić co najmniej 5.

Kryterium Romanowskiego z w oparciu o zastosowanie kryterium Pearsona, tj. już znalezione wartości i liczba stopni swobody df:

Jest to przydatne, gdy nie ma tabel dla .
jeśli z<3, то расхождения распределений случайны, если же с>3, to nie są one losowe, a rozkład teoretyczny nie może służyć jako model badanego rozkładu empirycznego.

Kryterium Kołmogorowa l opiera się na wyznaczeniu maksymalnej rozbieżności między skumulowanymi częstościami a częstościami rozkładów empirycznych i teoretycznych:
lub ,
gdzie D i d są odpowiednio maksymalną różnicą między skumulowanymi częstościami a skumulowanymi częstościami empirycznego i teoretycznego szeregu rozkładów;
N to liczba jednostek populacji.
Po obliczeniu wartości l tablica P(l) określa prawdopodobieństwo, z jakim można stwierdzić, że odchylenia częstości empirycznych od teoretycznych są przypadkowe. Prawdopodobieństwo Р(l) może zmieniać się od 0 do 1. Przy Р(l)=1 występuje zupełna zbieżność częstości, Р(l)=0 – całkowita rozbieżność. Jeżeli l przyjmuje wartości do 0,3, to P(l)=1.
Głównym warunkiem zastosowania kryterium Kołmogorowa jest odpowiednio duża liczba obserwacji.

W tej części rozważymy jedno z zagadnień związanych z testowaniem prawdopodobieństwa hipotez, a mianowicie kwestię spójności między rozkładami teoretycznymi i statystycznymi.

Załóżmy, że dany rozkład statystyczny jest wyrównany za pomocą jakiejś teoretycznej krzywej f(x)(Rys. 7.6.1). Bez względu na to, jak dobrze wybrana jest krzywa teoretyczna, pewne rozbieżności między nią a rozkładem statystycznym są nieuniknione. Rodzi się oczywiście pytanie, czy te rozbieżności wynikają wyłącznie z okoliczności losowych związanych z ograniczoną liczbą obserwacji, czy też są znaczące i związane są z tym, że wybrana przez nas krzywa słabo wyrównuje ten rozkład statystyczny. Aby odpowiedzieć na to pytanie, stosuje się tak zwane „kryteria zgody”.

PRAWA ROZKŁADU ZMIENNYCH LOSOWYCH



Idea zastosowania kryteriów dobroci dopasowania jest następująca.

Na podstawie tego materiału statystycznego musimy zweryfikować hipotezę H, polegający na tym, że zmienna losowa X podlega określonemu prawu dystrybucji. Prawo to można podać w takiej czy innej formie: na przykład w postaci funkcji dystrybucyjnej F(x) lub w postaci gęstości dystrybucji f(x), lub w postaci zbioru prawdopodobieństw p t , gdzie pkt- prawdopodobieństwo, że wartość X wpadnie do środka coś wypisać.

Ponieważ z tych form funkcja dystrybucji F(x) jest najbardziej ogólna i determinuje każdą inną, sformułujemy hipotezę H, polegający na fakcie, że wartość X ma dystrybuantę ^(d:).

Aby zaakceptować lub odrzucić hipotezę H, rozważyć pewną ilość ty, scharakteryzowania stopnia rozbieżności między rozkładami teoretycznymi i statystycznymi. Wartość u można wybierać na różne sposoby; na przykład jako u można przyjąć sumę kwadratów odchyleń teoretycznych prawdopodobieństw pkt z odpowiednich częstotliwości R* lub suma tych samych kwadratów z pewnymi współczynnikami („wagami”) lub maksymalne odchylenie funkcji rozkładu statystycznego F*(x) od teoretycznego F(x) itd. Załóżmy, że ilość u wybrany w taki czy inny sposób. Jasne, że jest jakiś losowa wartość. Prawo dystrybucji tej zmiennej losowej zależy od prawa dystrybucji zmiennej losowej x, na których przeprowadzono eksperymenty oraz od liczby eksperymentów P. Jeśli hipoteza H jest prawdziwe, to prawo dystrybucji ilości u określone przez prawo dystrybucji ilości X(funkcjonować F(x)) i numer P.

Załóżmy, że to prawo dystrybucji jest nam znane. W wyniku tej serii eksperymentów stwierdzono, że wybrany przez nas środek



KRYTERIA ZGODY


rozbieżności u nabrało jakiejś wartości a. Powstaje pytanie, czy można to wyjaśnić przyczynami losowymi, czy też rozbieżność ta jest zbyt duża i wskazuje na istnienie istotnej różnicy między rozkładami teoretycznymi i statystycznymi, a tym samym na nieprzydatność hipotezy H? Aby odpowiedzieć na to pytanie, załóżmy, że hipoteza H jest poprawna i przy tym założeniu obliczamy prawdopodobieństwo, że z przyczyn losowych związanych z niedostateczną ilością materiału doświadczalnego miara rozbieżności u będzie nie mniejsza niż wartość obserwowana przez nas w eksperymencie oraz, tj. obliczamy prawdopodobieństwo zdarzenia:

Jeśli to prawdopodobieństwo jest bardzo małe, to hipoteza H należy odrzucić jako mało prawdopodobne; jeśli to prawdopodobieństwo jest znaczące, należy uznać, że dane eksperymentalne nie zaprzeczają hipotezie N.

Powstaje pytanie, w jaki sposób należy dobrać miarę rozbieżności £/? Okazuje się, że dla niektórych sposobów wyboru to prawo dystrybucji ilości u ma bardzo proste właściwości i dla wystarczająco dużych P praktycznie niezależna od funkcji F(x). Właśnie takie miary rozbieżności są używane w statystyce matematycznej jako kryteria zgodności.

Rozważmy jedno z najczęściej stosowanych kryteriów zgody – tzw. „kryterium w?" Osoba.

Załóżmy, że istnieje ha niezależnych eksperymentów, w każdym z nich zmienna losowa X przybrał określoną wartość. Wyniki eksperymentów podsumowano w k cyfr i są prezentowane w postaci szeregu statystycznego.

Częstotliwości teoretyczne i empiryczne. Sprawdź rozkład normalny

Podczas analizy szeregów rozkładu wariacyjnego bardzo ważne jest, w jaki sposób rozkład empiryczny znak odpowiada normalna. W tym celu należy porównać częstotliwości rozkładu rzeczywistego z częstościami teoretycznymi charakterystycznymi dla rozkładu normalnego. Oznacza to, że konieczne jest obliczenie teoretycznych częstości krzywej rozkładu normalnego, które są funkcją odchyleń znormalizowanych, z danych rzeczywistych.

Innymi słowy, krzywa rozkładu empirycznego musi być wyrównana z krzywą rozkładu normalnego.

Obiektywna charakterystyka zgodności teoretyczny oraz empiryczny częstotliwości można uzyskać za pomocą specjalnych wskaźników statystycznych, które są tzw kryteria zgody.

Kryterium zgodności zwane kryterium, które pozwala określić, czy rozbieżność jest empiryczny oraz teoretyczny rozkłady losowe lub istotne, tj. czy dane obserwacyjne są zgodne z postawioną hipotezą statystyczną, czy też nie. Rozkład ogólnej populacji, który ma na mocy wysuniętej hipotezy, nazywa się teoretycznym.

Istnieje potrzeba ustalenia kryterium(reguła), która pozwoliłaby ocenić, czy rozbieżność między rozkładami empirycznymi i teoretycznymi jest przypadkowa, czy znacząca. Jeśli rozbieżność jest losowy, to uznają, że dane obserwacyjne (próba) są zgodne z wysuniętą hipotezą o prawie rozkładu populacji generalnej iw związku z tym hipoteza jest akceptowana; jeśli rozbieżność jest znaczący, to dane obserwacyjne nie zgadzają się z hipotezą i ją odrzucają.

Zwykle częstotliwości empiryczne i teoretyczne różnią się ze względu na to, że:

    rozbieżność jest przypadkowa i związana z ograniczoną liczbą obserwacji;

    Rozbieżność nie jest przypadkowa i tłumaczy się tym, że hipoteza statystyczna, że ​​ogólna populacja ma rozkład normalny, jest błędna.

W ten sposób, kryteria zgody pozwalają odrzucić lub potwierdzić słuszność postawionej hipotezy podczas niwelowania szeregów o charakterze rozkładu w szeregach empirycznych.

Częstotliwości empiryczne uzyskane z obserwacji. Częstotliwości teoretyczne obliczane za pomocą wzorów.

Do normalne prawo dystrybucji można je znaleźć w ten sposób:

    Σƒ i- suma skumulowanych (skumulowanych) częstotliwości empirycznych

    h - różnica między dwoma sąsiednimi opcjami

    σ - odchylenie standardowe próbki

    t-znormalizowane (standaryzowane) odchylenie

    φ(t) jest funkcją gęstości prawdopodobieństwa rozkładu normalnego (znajdź z tabeli wartości lokalnej funkcji Laplace'a dla odpowiedniej wartości t)

Istnieje kilka testów dobroci dopasowania, z których najpowszechniejsze to: test chi-kwadrat (Pearsona), test Kołmogorowa, test Romanowskiego.

Test dobroci dopasowania Pearsona χ 2 - jeden z głównych, który można przedstawić jako sumę stosunków kwadratów różnic między częstotliwościami teoretycznymi (f Т) i empirycznymi (f) do częstotliwości teoretycznych:

    k to liczba grup, na które dzieli się rozkład empiryczny,

    fi i jest obserwowaną częstością cechy w i-tej grupie,

    f T jest częstotliwością teoretyczną.

Dla rozkładu χ 2 zestawiono tablice wskazujące wartość krytyczną kryterium dopasowania χ 2 dla wybranego poziomu istotności α i stopni swobody df (lub ν). Poziom istotności α to prawdopodobieństwo błędnego odrzucenia postawionej hipotezy, tj. prawdopodobieństwo, że poprawna hipoteza zostanie odrzucona. R - trafność statystyczna przyjęcie prawidłowej hipotezy. W statystyce najczęściej stosuje się trzy poziomy istotności:

α=0,10, następnie P=0,90 (w 10 przypadkach na 100)

α=0,05, następnie Р=0,95 (w 5 przypadkach na 100)

α=0,01, wtedy P=0,99 (w 1 przypadku na 100) poprawna hipoteza może zostać odrzucona

Liczba stopni swobody df jest zdefiniowana jako liczba grup w szeregu rozkładu pomniejszona o liczbę wiązań: df = k –z. Przez liczbę połączeń rozumie się liczbę wskaźników szeregu empirycznego wykorzystywanego do obliczania częstości teoretycznych, tj. wskaźniki łączące częstotliwości empiryczne i teoretyczne. Na przykład w linii trasowania krzywej dzwonowej występują trzy zależności. Dlatego podczas wyrównywania krzywa dzwonowa liczba stopni swobody jest zdefiniowana jako df = k–3. W celu oceny istotności obliczona wartość jest porównywana z tabelaryczną tabelą χ 2

Przy całkowitej zgodności rozkładów teoretycznych i empirycznych χ 2 = 0, w przeciwnym razie χ 2 > 0. Jeżeli χ 2 calc > χ 2 tab, to dla danego poziomu istotności i liczby stopni swobody odrzucamy hipotezę o nieistotności (losowości) rozbieżności. Jeśli χ 2 oblicz< χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняетсяnormalna dystrybucja. Test dobroci dopasowania Pearsona jest stosowany, jeśli wielkość populacji jest wystarczająco duża (N>50), a częstotliwość każdej grupy powinna wynosić co najmniej 5.

Kryterium dobroci dopasowania Kołmogorowa polega na wyznaczeniu maksymalnej rozbieżności między skumulowanymi częstotliwościami empirycznymi i teoretycznymi:

gdzie D i d są odpowiednio maksymalną różnicą między skumulowanymi częstościami i skumulowanymi częstościami rozkładów empirycznych i teoretycznych. Zgodnie z tablicą rozkładów statystyki Kołmogorowa wyznacza się prawdopodobieństwo, które może zmieniać się od 0 do 1. Przy P(λ)=1- występuje zupełna zbieżność częstości, P(λ)=0 - całkowita rozbieżność. Jeżeli wartość prawdopodobieństwa P jest istotna w stosunku do znalezionej wartości λ, to można przyjąć, że rozbieżności między rozkładem teoretycznym a empirycznym są nieistotne, czyli mają charakter losowy. Głównym warunkiem zastosowania kryterium Kołmogorowa jest odpowiednio duża liczba obserwacji.

Kryterium dobroci dopasowania Kołmogorowa

Zastanów się, w jaki sposób stosuje się kryterium Kołmogorowa (λ), kiedy testowanie hipotezy o rozkładzie normalnym ogół populacji. Wyrównanie rzeczywistego rozkładu wzdłuż krzywej rozkładu normalnego składa się z kilku etapów:

    Porównaj rzeczywiste i teoretyczne częstotliwości.

    Na podstawie danych rzeczywistych wyznaczane są teoretyczne częstości krzywej rozkładu normalnego będące funkcją odchylenia znormalizowanego.

    Sprawdź, w jakim stopniu rozkład cechy odpowiada rozkładowi normalnemu.

Dla IV kolumny tabeli:

W MS Excel znormalizowane odchylenie (t) jest obliczane za pomocą funkcji NORMALIZUJ. Konieczne jest wybranie zakresu wolnych komórek według liczby opcji (wierszy arkusza kalkulacyjnego). Bez usuwania zaznaczenia wywołaj funkcję NORMALIZACJA. W wyświetlonym oknie dialogowym określ następujące komórki, które zawierają odpowiednio obserwowane wartości (X i), średnią (X) i odchylenie standardowe Ϭ. Operacja musi zostać zakończona jednoczesny naciskając Ctrl+Shift+Enter

Dla kolumny V tabeli:

Funkcja gęstości prawdopodobieństwa rozkładu normalnego φ(t) znajduje się z tabeli wartości lokalnej funkcji Laplace'a dla odpowiedniej wartości odchylenia znormalizowanego (t)

Dla VI kolumny tabeli:

Kryterium dobroci dopasowania Kołmogorowa (λ) określony przez podzielenie modułu maksymalne różnice między empirycznymi i teoretycznymi skumulowanymi częstościami na pierwiastek kwadratowy z liczby obserwacji:

Korzystając ze specjalnej tabeli prawdopodobieństwa dla kryterium dobroci dopasowania λ, ustalamy, że wartość λ=0,59 odpowiada prawdopodobieństwu 0,88 (λ

Rozkład częstości empirycznych i teoretycznych, gęstość prawdopodobieństwa rozkładu teoretycznego

Stosując testy dobroci dopasowania do sprawdzenia, czy obserwowany (empiryczny) rozkład jest zgodny z rozkładem teoretycznym, należy rozróżnić testowanie prostych i złożonych hipotez.

Opiera się na jednopróbkowym teście normalności Kołmogorowa-Smirnowa maksymalna różnica między skumulowanym rozkładem empirycznym próby a domniemanym (teoretycznym) rozkładem skumulowanym. Jeśli D statystyka Kołmogorowa-Smirnowa jest istotna, to hipotezę, że odpowiadający jej rozkład jest normalny, należy odrzucić.