Համաձայնության չափանիշների օգտագործումը. Ընդունման չափանիշ Ինչ ենք անելու ստացված նյութի հետ

Համաձայնության չափանիշներ (համապատասխանություն)

Բաշխման տեսական օրենքին էմպիրիկ բաշխման համապատասխանության մասին վարկածը ստուգելու համար օգտագործվում են հատուկ վիճակագրական ցուցանիշներ՝ համապատասխանության չափանիշներ (կամ համապատասխանության չափանիշներ): Դրանք ներառում են Պիրսոնի, Կոլմոգորովի, Ռոմանովսկու, Յաստրեմսկու և այլն չափանիշները: Համապատասխանության չափանիշների մեծ մասը հիմնված է տեսականից էմպիրիկ հաճախականությունների շեղումների օգտագործման վրա: Ակնհայտ է, որ որքան փոքր են այդ շեղումները, այնքան տեսական բաշխումը ավելի լավ է համընկնում (կամ նկարագրում) էմպիրիկին:

Համաձայնության չափանիշներ -սրանք չափանիշներ են տեսական հավանականության բաշխման էմպիրիկ բաշխման համապատասխանության վերաբերյալ վարկածների փորձարկման համար: Նման չափանիշները բաժանվում են երկու դասի՝ ընդհանուր և հատուկ։ Համապատասխանության ընդհանուր չափանիշները կիրառվում են հիպոթեզի ամենաընդհանուր ձևակերպման համար, մասնավորապես այն վարկածի, որ դիտարկված արդյունքները համընկնում են որևէ a priori ենթադրյալ հավանականության բաշխման հետ: Հարմարեցվածության հատուկ թեստերը ենթադրում են հատուկ զրոյական վարկածներ, որոնք համաձայնություն են ձևակերպում հավանականության բաշխման որոշակի ձևի հետ:

Համապատասխանության չափանիշները, որոնք հիմնված են բաշխման սահմանված օրենքի վրա, հնարավորություն են տալիս պարզել, թե երբ տեսական և էմպիրիկ հաճախականությունների միջև անհամապատասխանությունները պետք է ճանաչվեն որպես աննշան (պատահական), իսկ երբ՝ նշանակալի (ոչ պատահական): Այստեղից հետևում է, որ համապատասխանության չափանիշները հնարավորություն են տալիս մերժել կամ հաստատել էմպիրիկ շարքում բաշխման բնույթի մասին շարքը համահարթեցնելիս առաջ քաշված վարկածի ճիշտությունը և պատասխանել, թե արդյոք հնարավոր է ընդունել. մոդել, որն արտահայտված է որոշակի տեսական բաշխման օրենքով տվյալ էմպիրիկ բաշխման համար:

Pearson-ի x2 (chi-square) պիտանիության թեստը հարմարության լավության հիմնական չափանիշներից մեկն է: Առաջարկվել է անգլիացի մաթեմատիկոս Կարլ Փիրսոնի (1857-1936) կողմից՝ էմպիրիկ և տեսական բաշխումների հաճախականությունների միջև անհամապատասխանությունների պատահականությունը (նշանակությունը) գնահատելու համար.

որտեղ k-խմբերի քանակը, որոնց էմպիրիկ բաշխումը բաժանված է. ֆի-հատկանիշի էմպիրիկ հաճախականությունը ես-րդ խումբ; / ts °р - մեջ հատկանիշի տեսական հաճախականություն i-րդխումբ.

Չափանիշների կիրառման սխեմա y)տեսական և էմպիրիկ բաշխումների հետևողականության գնահատումը կրճատվում է հետևյալով.

  • 1. Անհամապատասխանության հաշվարկված չափը որոշվում է % 2 ակ.
  • 2. Որոշվում է ազատության աստիճանների թիվը.
  • 3. Ըստ v ազատության աստիճանների թվի, հատուկ աղյուսակի միջոցով որոշվում է %^bl
  • 4. Եթե % 2 asch >x 2 abl, ապա տվյալ նշանակության մակարդակի a մակարդակի և v ազատության աստիճանների թվի համար անհամապատասխանությունների աննշանության (պատահականության) վարկածը մերժվում է։ Հակառակ դեպքում, վարկածը կարելի է ճանաչել որպես չհակասող ստացված փորձարարական տվյալներին, և (1-ա) հավանականությամբ կարելի է պնդել, որ տեսական և էմպիրիկ հաճախականությունների միջև անհամապատասխանությունները պատահական են:

Նշանակության մակարդակ -առաջ քաշված վարկածի սխալ մերժման հավանականությունն է, այսինքն. հավանականությունը, որ ճիշտ վարկածը կմերժվի։ Վիճակագրական ուսումնասիրություններում, կախված լուծվող խնդիրների կարևորությունից և պատասխանատվությունից, օգտագործվում են նշանակության հետևյալ երեք մակարդակները.

  • 1) a = 0.1, ապա P = 0,9;
  • 2) ա = 0,05, ապա P = 0,95;
  • 3) a = 0.01, ապա P = 0,99.

Օգտագործելով հարմարեցում y),պետք է պահպանվեն հետևյալ պայմանները.

  • 1. Ուսումնասիրվող պոպուլյացիայի ծավալը պետք է բավարարի պայմանին n> 50, մինչդեռ խմբի հաճախականությունը կամ չափը պետք է լինի առնվազն 5: Եթե այս պայմանը խախտվում է, նախ պետք է միավորել փոքր հաճախականությունները (5-ից պակաս):
  • 2. Էմպիրիկ բաշխումը պետք է բաղկացած լինի պատահական ընտրության արդյունքում ստացված տվյալներից, այսինքն. նրանք պետք է անկախ լինեն:

Pearson-ի համապատասխանության չափանիշի թերությունը սկզբնական որոշ տեղեկությունների կորուստն է, որը կապված է դիտարկման արդյունքները միջակայքերի մեջ խմբավորելու և առանձին ինտերվալները փոքր թվով դիտարկումների հետ համատեղելու անհրաժեշտության հետ: Այս առումով խորհուրդ է տրվում լրացնել բաշխումների համապատասխանության ստուգումը ըստ չափանիշի y)այլ չափանիշներ: Սա հատկապես ճիշտ է, երբ նմուշի չափը Պ ~ 100.

Վիճակագրության մեջ Կոլմոգորովի լավության թեստը (նաև հայտնի է որպես Կոլմոգորով-Սմիրնովի հարմարության թեստ) օգտագործվում է որոշելու համար, թե արդյոք երկու էմպիրիկ բաշխումները ենթարկվում են նույն օրենքին, թե՞ որոշելու, թե արդյոք ստացված բաշխումը ենթարկվում է ենթադրյալ մոդելին։ . Կոլմոգորովի չափանիշը հիմնված է կուտակված հաճախականությունների կամ էմպիրիկ կամ տեսական բաշխումների հաճախականությունների առավելագույն տարբերության որոշման վրա։ Կոլմոգորովի չափանիշը հաշվարկվում է հետևյալ բանաձևերի համաձայն.

որտեղ Դև դ-համապատասխանաբար կուտակված հաճախությունների (/-/") և կուտակված հաճախությունների միջև առավելագույն տարբերությունը ( rr«) բաշխումների էմպիրիկ և տեսական շարք. N-բնակչության միավորների թիվը։

Արժեքը հաշվարկելով x,հատուկ աղյուսակը որոշում է այն հավանականությունը, որով կարելի է պնդել, որ էմպիրիկ հաճախականությունների շեղումները տեսականից պատահական են: Եթե ​​նշանը վերցնում է արժեքներ մինչև 0,3, ապա դա նշանակում է, որ կա հաճախությունների ամբողջական համընկնում: Մեծ թվով դիտարկումներով Կոլմոգորովի թեստը կարողանում է հայտնաբերել վարկածից ցանկացած շեղում։ Սա նշանակում է, որ նմուշի բաշխման ցանկացած տարբերություն տեսականից կբացահայտվի դրա օգնությամբ, եթե շատ դիտարկումներ լինեն։ Այս հատկության գործնական նշանակությունը աննշան է, քանի որ շատ դեպքերում դժվար է հաշվել մշտական ​​պայմաններում մեծ թվով դիտարկումներ ստանալու վրա, բաշխման օրենքի տեսական գաղափարը, որին պետք է ենթարկվի նմուշը, միշտ մոտավոր է, և վիճակագրական ստուգումների ճշգրտությունը չպետք է գերազանցի ընտրված մոդելի ճշգրտությունը:

Ռոմանովսկու պիտանիության թեստը հիմնված է Պիրսոնի թեստի օգտագործման վրա, այսինքն. արդեն գտնված արժեքներ x 2 > և ազատության աստիճանների քանակը.

որտեղ v-ը տատանումների ազատության աստիճանների թիվն է:

Ռոմանովսկու չափանիշը հարմար է x 2-ի համար աղյուսակների բացակայության դեպքում: Եթե Կ ր TO? > 3, ապա դրանք պատահական չեն, և տեսական բաշխումը չի կարող ծառայել որպես հետազոտվող էմպիրիկ բաշխման մոդել:

Բ.Ս. Յաստրեմսկին համաձայնության չափանիշում օգտագործել է ոչ թե ազատության աստիճանների քանակը, այլ խմբերի քանակը ( կ), հատուկ արժեք 0՝ կախված խմբերի քանակից, և chi-square արժեք։ Յաստրեմսկու համաձայնության չափանիշն ունի նույն նշանակությունը, ինչ Ռոմանովսկու չափանիշը և արտահայտվում է բանաձևով.

որտեղ x 2 - Պիրսոնի համաձայնության չափանիշը; /e gr - խմբերի քանակը; 0 - գործակից, 20-ից պակաս խմբերի համար, որը հավասար է 0,6-ի:

Եթե ​​1f act > 3, ապա տեսական և էմպիրիկ բաշխումների միջև անհամապատասխանությունները պատահական չեն, այսինքն. էմպիրիկ բաշխումը չի համապատասխանում նորմալ բաշխման պահանջներին: Եթե ​​1f գործել

ՈՒԿՐԱԻՆԱՅԻ ԿՐԹՈՒԹՅԱՆ ԵՎ ԳԻՏՈՒԹՅԱՆ ՆԱԽԱՐԱՐՈՒԹՅՈՒՆ

ԱԶՈՎԻ ՏԱՐԱԾԱՇՐՋԱՆԱՅԻՆ ԿԱՌԱՎԱՐՄԱՆ ԻՆՍՏԻՏՈՒՏ

ԶԱՊՈՐԺԻԱ ԱԶԳԱՅԻՆ ՏԵԽՆԻԿԱԿԱՆ ՀԱՄԱԼՍԱՐԱՆ

մաթ

ԴԱՍԸՆԹԱՑ ԱՇԽԱՏԱՆՔ

Հ կարգապահություն «ՎԻՃԱԿԱԳՐՈՒԹՅՈՒՆ»

Թեմայի շուրջ՝ «ՀԱՄԱՁԱՅՆՈՒԹՅԱՆ ՉԱՓԱՆԻՇՆԵՐ».

2-րդ կուրսի ուսանողներ

Խումբ 207 Կառավարման ֆակուլտետ

Բատուրա Տատյանա Օլեգովնա

գիտական ​​խորհրդատու

դոցենտ Կոսենկով Օ.Ի.

Բերդյանսկ - 2009 թ


ՆԵՐԱԾՈՒԹՅՈՒՆ

1.2 Պիրսոնի χ 2 հարմարության լավությունը պարզ վարկածի համար

1.3 Կոմպլեքս հիպոթեզի համար հարմարվելու լավությունը

1.4 Ֆիշերի χ 2 թեստեր բարդ հիպոթեզի համար

1.5 Համաձայնության այլ չափանիշներ: Հարմարավետություն Poisson-ի բաշխման համար

ԲԱԺԻՆ II. ՀԱՄԱՁԱՅՆՈՒԹՅԱՆ ՉԱՓԱՆԻՇԻ ԳՈՐԾՆԱԿԱՆ ԿԻՐԱՌՈՒՄՆԵՐԸ

ՀԱՎԵԼՎԱԾՆԵՐ

ՕԳՏԱԳՈՐԾՎԱԾ ԳՐԱԿԱՆՈՒԹՅԱՆ ՑԱՆԿ


ՆԵՐԱԾՈՒԹՅՈՒՆ

Դասընթացի այս աշխատանքը նկարագրում է համապատասխանության չափանիշների ամենատարածված առավելությունները՝ օմեգա-քառակուսի, խի-քառակուսի, Կոլմոգորով և Կոլմոգորով-Սմիրնով: Առանձնահատուկ ուշադրություն է դարձվում այն ​​դեպքին, երբ անհրաժեշտ է ստուգել՝ արդյոք տվյալների բաշխումը պատկանում է ինչ-որ պարամետրային ընտանիքի, օրինակ՝ նորմալ։ Իր բարդության պատճառով այս իրավիճակը, որը շատ տարածված է պրակտիկայում, ամբողջությամբ չի ուսումնասիրվել և ամբողջությամբ արտացոլված չէ ուսումնական և տեղեկատու գրականության մեջ։

Համապատասխանության չափանիշները կոչվում են վիճակագրական թեստեր, որոնք նախատեսված են փորձարարական տվյալների և տեսական մոդելի միջև համաձայնությունը ստուգելու համար: Այս հարցը լավագույնս նախատեսված է, եթե դիտարկումները ներկայացնում են պատահական նմուշ: Տեսական մոդելն այս դեպքում նկարագրում է բաշխման օրենքը:

Տեսական բաշխումը հավանականության բաշխումն է, որը կարգավորում է պատահական ընտրությունը: Ոչ միայն տեսությունը կարող է դրա մասին պատկերացումներ տալ։ Այստեղ գիտելիքի աղբյուր կարող են լինել ավանդույթը, անցյալի փորձը և նախկին դիտարկումները: Պետք է միայն ընդգծել, որ այս բաշխումը պետք է ընտրվի անկախ այն տվյալներից, որոնց վրա մենք պատրաստվում ենք ստուգել այն։ Այսինքն՝ անընդունելի է նախ նմուշի վրա բաշխման որոշակի օրենք «տեղավորելը», հետո նույն նմուշի համար ձեռք բերված օրենքի համաձայնությունը ստուգել։

Պարզ և բարդ վարկածներ. Խոսելով բաշխման տեսական օրենքի մասին, որին հիպոթետիկորեն պետք է հետևեն տվյալ նմուշի տարրերը, պետք է տարբերակել այս օրենքի վերաբերյալ պարզ և բարդ վարկածները.

Պարզ վարկածն ուղղակիորեն ցույց է տալիս հավանականությունների որոշակի հատուկ օրենքը (հավանականության բաշխում), ըստ որի առաջացել են ընտրանքի արժեքները.

Բարդ վարկածը ցույց է տալիս մեկ բաշխում, և դրանցից մի քանիսը (օրինակ, պարամետրային ընտանիք):

Համապատասխանության չափանիշները հիմնված են վերլուծված էմպիրիկ բաշխման և ընդհանուր պոպուլյացիայի մեջ հատկանիշի բաշխման ֆունկցիայի միջև հեռավորության տարբեր չափումների օգտագործման վրա:

Համաձայնության ոչ պարամետրիկ թեստերը լայնորեն կիրառվում են Կոլմոգորովի, Սմիրնովի, օմեգա քառակուսու վրա։ Այնուամենայնիվ, դրանք կապված են նաև վիճակագրական մեթոդների կիրառման համատարած սխալների հետ:

Փաստն այն է, որ թվարկված չափանիշները մշակվել են համաձայնությունը լիովին հայտնի տեսական բաշխմամբ փորձարկելու համար։ Լայնորեն օգտագործվում են հաշվարկման բանաձևերը, բաշխման աղյուսակները և կրիտիկական արժեքները: Կոլմոգորովի, օմեգա քառակուսու և նմանատիպ չափանիշների հիմնական գաղափարն է չափել էմպիրիկ բաշխման ֆունկցիայի և տեսական բաշխման ֆունկցիայի միջև հեռավորությունը: Այս չափանիշները տարբերվում են բաշխման ֆունկցիաների տարածության հեռավորությունների տեսքով:

Սկսելով այս դասընթացի աշխատանքը՝ ես ինքս ինձ նպատակ դրեցի պարզել, թե համաձայնության ինչ չափանիշներ կան, պարզել, թե ինչու են դրանք անհրաժեշտ: Այս նպատակին հասնելու համար դուք պետք է կատարեք հետևյալ առաջադրանքները.

1. Բացահայտել «համաձայնության չափանիշներ» հասկացության էությունը.

2. Որոշել, թե ինչ համաձայնության չափանիշներ կան, ուսումնասիրել դրանք առանձին.

3. Եզրակացություններ արեք կատարված աշխատանքի վերաբերյալ:


ԲԱԺԻՆ I. Համաձայնության չափանիշի տեսական հիմնավորում.

1.1 Կոլմոգորովի լավության չափանիշները և օմեգա քառակուսին պարզ վարկածի դեպքում

Պարզ վարկած. Դիտարկենք մի իրավիճակ, երբ չափված տվյալները թվեր են, այլ կերպ ասած՝ միաչափ պատահական փոփոխականներ: Միաչափ պատահական փոփոխականների բաշխումը կարելի է ամբողջությամբ նկարագրել՝ նշելով դրանց բաշխման ֆունկցիաները։ Եվ հարմարեցվածության շատ թեստեր հիմնված են տեսական և էմպիրիկ (նմուշի) բաշխման գործառույթների սերտության ստուգման վրա:

Ենթադրենք, մենք ունենք n-ի նմուշ: Նշանակենք իրական բաշխման ֆունկցիան, որին ենթակա են դիտարկումները՝ G(x), էմպիրիկ (նմուշ) բաշխման ֆունկցիան՝ F n (x), իսկ հիպոթետիկ բաշխման ֆունկցիան՝ F(x): Այնուհետև H վարկածը, որ բաշխման իրական ֆունկցիան F(x) է, գրվում է որպես H՝ G(·) = F(·):

Ինչպե՞ս ստուգել H վարկածը: Եթե ​​H-ն ճիշտ է, ապա F n-ը և F-ը պետք է ցույց տան որոշակի նմանություն, և նրանց միջև տարբերությունը պետք է նվազի, քանի որ n-ն մեծանում է: Բեռնուլիի թեորեմի շնորհիվ F n (x) → F(x) որպես n → ∞։ F n և F ֆունկցիաների նմանությունը քանակականացնելու համար օգտագործվում են տարբեր մեթոդներ:

Գործառույթների նմանությունն արտահայտելու համար կարելի է օգտագործել այս ֆունկցիաների միջև այս կամ այն ​​հեռավորությունը։ Օրինակ, կարելի է համեմատել F n-ը և F-ը միատեսակ չափման մեջ, այսինքն. հաշվի առեք արժեքը.

(1.1)

D n վիճակագրությունը կոչվում է Կոլմոգորովի վիճակագրություն:

Ակնհայտ է, որ D n-ը պատահական փոփոխական է, քանի որ դրա արժեքը կախված է F n պատահական օբյեկտից: Եթե ​​H 0 վարկածը ճիշտ է և n → ∞, ապա F n (x) → F(x) ցանկացած x-ի համար: Հետևաբար, բնական է, որ այս պայմաններում D n → 0. Եթե H 0 վարկածը սխալ է, ապա F n → G և G ≠ F, և հետևաբար sup -∞

Ինչպես միշտ, երբ փորձարկում ենք վարկածը, մենք տրամաբանում ենք այնպես, կարծես վարկածը ճշմարիտ է: Պարզ է, որ H 0-ը պետք է մերժվի, եթե փորձի արդյունքում ստացված D n վիճակագրության արժեքը անհավանական մեծ է թվում: Բայց դրա համար դուք պետք է իմանաք, թե ինչպես է D n վիճակագրությունը բաշխվում H վարկածով. F= G տրված n-ի և G-ի համար:

D n-ի ուշագրավ հատկությունն այն է, որ եթե G = F, այսինքն. Եթե ​​հիպոթետիկ բաշխումը ճիշտ է նշված, ապա D n վիճակագրության բաշխման օրենքը նույնն է G բոլոր շարունակական ֆունկցիաների համար: Դա կախված է միայն ընտրանքի n չափից:

Այս փաստի ապացույցը հիմնված է այն փաստի վրա, որ վիճակագրությունը չի փոխում իր արժեքը x առանցքի միապաղաղ փոխակերպումների ժամանակ։ Նման փոխակերպմամբ ցանկացած շարունակական բաշխում G կարող է վերածվել միատեսակ բաշխման միջակայքի վրա: Այս դեպքում F n (x) այս միատեսակ բաշխումից կանցնի նմուշի բաշխման ֆունկցիա։

Փոքր n-ի համար H 0 վարկածով D n վիճակագրության համար կազմվում են տոկոսային կետերի աղյուսակներ: Մեծ n-ի համար D n բաշխումը (H 0 վարկածի ներքո) նշվում է սահմանային թեորեմով, որը գտնվել է 1933 թվականին Ա.Ն. Կոլմոգորովի կողմից: Նա խոսում է վիճակագրության մասին

(քանի որ արժեքը ինքնին D n → 0 H 0-ում, անհրաժեշտ է այն բազմապատկել անսահման աճող արժեքով, որպեսզի բաշխումը կայունանա): Կոլմոգորովի թեորեմն ասում է, որ եթե H 0 ճշմարիտ է, իսկ եթե G-ն շարունակական է.
(1.2)

Այս գումարը շատ հեշտ է հաշվարկել Maple-ում: H 0: G = F պարզ վարկածը ստուգելու համար անհրաժեշտ է նախնական նմուշից հաշվարկել D n վիճակագրության արժեքը: Դրա համար գործում է պարզ բանաձև.

(1.3)

Այստեղ x k-ի միջոցով - սկզբնական նմուշից կառուցված տատանողական շարքի տարրեր: Այնուհետև ստացված D n արժեքը պետք է համեմատվի աղյուսակներից հանված կամ ասիմպտոտիկ բանաձևով հաշվարկված կրիտիկական արժեքների հետ: H 0 վարկածը պետք է մերժվի (նշանակության ընտրված մակարդակում), եթե փորձի արդյունքում ստացված D n-ի արժեքը գերազանցում է ընտրված կրիտիկական արժեքը, որը համապատասխանում է ընդունված նշանակության մակարդակին:

Համապատասխանության մեկ այլ հանրաճանաչ չափանիշ ստացվում է ինտեգրալ մետրիկում F n-ի և F-ի միջև հեռավորությունը չափելով: Այն հիմնված է այսպես կոչված օմեգա քառակուսի վիճակագրության վրա.

(1.4)

Այն իրական տվյալներից հաշվարկելու համար կարող եք օգտագործել բանաձևը.

(1.5)

Եթե ​​H 0 վարկածը ճշմարիտ է, իսկ G ֆունկցիան՝ շարունակական, ապա օմեգա-քառակուսի վիճակագրության բաշխումը, ինչպես D n վիճակագրության բաշխումը, կախված է միայն n-ից և կախված չէ G-ից։

Ճիշտ այնպես, ինչպես D n-ի համար, համար

փոքր n-ի համար հասանելի են տոկոսային կետերի աղյուսակներ, իսկ n-ի մեծ արժեքների համար պետք է օգտագործվի n վիճակագրության սահմանափակող (ինչպես n → ∞) բաշխումը: Այստեղ կրկին պետք է բազմապատկենք անսահման աճող գործոնով։ Սահմանափակող բաշխումը գտել է Ն.Վ.Սմիրնովը 1939 թվականին: Դրա համար կազմվել են մանրամասն աղյուսակներ և հաշվողական ծրագրեր: D n-ի վրա հիմնված չափանիշների կարևոր տեսական հատկություն. դրանք վավեր են ցանկացած այլընտրանքային G≠ F-ի նկատմամբ:

Քանի որ որոշակի բաշխման բնույթի վերաբերյալ բոլոր ենթադրությունները վարկածներ են, դրանք պետք է ենթարկվեն վիճակագրական ստուգման՝ օգտագործելով համաձայնության չափանիշները, որոնք հնարավորություն են տալիս պարզել, թե երբ տեսական և էմպիրիկ հաճախականությունների միջև անհամապատասխանությունները պետք է ճանաչվեն որպես աննշան, այսինքն. պատահական, իսկ երբ՝ նշանակալի (ոչ պատահական): Այսպիսով, համապատասխանության չափանիշները հնարավորություն են տալիս մերժել կամ հաստատել էմպիրիկ շարքում բաշխվածության բնույթի մասին շարքը հավասարեցնելիս առաջ քաշված վարկածի ճիշտությունը:

Կան մի շարք համաձայնության չափանիշներ: Ավելի հաճախ օգտագործվում են Պիրսոնի, Ռոմանովսկու և Կոլմոգորովի չափանիշները։

Պիրսոնի պիտանիության թեստ - հիմնականներից մեկը

որտեղ k-ն այն խմբերի թիվն է, որոնց էմպիրիկ բաշխումը բաժանված է,
i-րդ ​​խմբում հատկանիշի դիտվող հաճախականությունն է,
տեսական հաճախականությունն է։
Բաշխման համար կազմվել են աղյուսակներ, որտեղ պիտանիության չափանիշի կրիտիկական արժեքը նշված է նշանակության ընտրված մակարդակի և ազատության աստիճանների համար df. (կամ )
Նշանակության մակարդակը առաջադրված վարկածի սխալ մերժման հավանականությունն է, այսինքն. հավանականությունը, որ ճիշտ վարկածը կմերժվի։ Վիճակագրության մեջ օգտագործվում են երեք մակարդակ.

  • a= 0.10, ապա Р=0.90 (100-ի 10 դեպքում ճիշտ վարկածը կարելի է մերժել);
  • a=0.05, ապա P=0.95;
  • a=0.01, ապա P=0.99:

Ազատության աստիճանների թիվը df սահմանվում է որպես բաշխման շարքի խմբերի քանակ՝ հանած կապերի քանակը՝ df = k –z: Միացումների թիվը հասկացվում է որպես տեսական հաճախականությունների հաշվարկման ժամանակ օգտագործվող էմպիրիկ շարքի ցուցիչների թիվը, այսինքն. էմպիրիկ և տեսական հաճախականությունները կապող ցուցիչներ:
Օրինակ, նորմալ բաշխման կորի հետ հավասարեցվելիս կան երեք հարաբերություններ.
; ; .
Հետևաբար, նորմալ բաշխման կորի երկայնքով հարթեցման ժամանակ ազատության աստիճանների թիվը սահմանվում է որպես df = k –3:
Էականությունը գնահատելու համար հաշվարկված արժեքը համեմատվում է աղյուսակի արժեքի հետ:
Տեսական և էմպիրիկ բաշխումների լրիվ համընկնումով, հակառակ դեպքում >0: Եթե ​​>, ապա նշանակության տվյալ մակարդակի և ազատության աստիճանների քանակի համար մենք մերժում ենք անհամապատասխանությունների աննշանության (պատահականության) վարկածը։
Եթե , եզրակացնում ենք, որ էմպիրիկ շարքը լավ համընկնում է ակնկալվող բաշխման վարկածի հետ, իսկ Р=(1-a) հավանականությամբ կարելի է պնդել, որ տեսական և էմպիրիկ հաճախականությունների անհամապատասխանությունը պատահական է։
Pearson's good-of-fit թեստն օգտագործվում է, եթե բնակչության թիվը բավականաչափ մեծ է, և յուրաքանչյուր խմբի հաճախականությունը պետք է լինի առնվազն 5:

Ռոմանովսկու չափանիշը հետ հիմնված Pearson չափանիշի օգտագործման վրա, այսինքն. արդեն գտնված արժեքներ և ազատության աստիճանների քանակը df.

Օգտակար է, երբ աղյուսակներ չկան:
Եթե ​​հետ<3, то расхождения распределений случайны, если же с>3, ապա դրանք պատահական չեն, և տեսական բաշխումը չի կարող ծառայել որպես հետազոտվող էմպիրիկ բաշխման մոդել:

Կոլմոգորովի չափանիշը լ հիմնված է կուտակված հաճախությունների և էմպիրիկ և տեսական բաշխումների հաճախականությունների միջև առավելագույն անհամապատասխանության որոշման վրա.
կամ ,
որտեղ D և d, համապատասխանաբար, առավելագույն տարբերությունն են կուտակված հաճախությունների և բաշխումների էմպիրիկ և տեսական շարքերի կուտակված հաճախությունների միջև.
N-ը բնակչության միավորների թիվն է:
Հաշվելով l-ի արժեքը՝ P(l) աղյուսակը որոշում է այն հավանականությունը, որով կարելի է պնդել, որ էմպիրիկ հաճախականությունների շեղումները տեսականից պատահական են։ Р(l) հավանականությունը կարող է տատանվել 0-ից մինչև 1: Р(l)=1-ում կա հաճախությունների լրիվ համընկնում, Р(l)=0 – լրիվ անհամապատասխանություն: Եթե ​​l-ն ընդունում է մինչև 0,3 արժեքներ, ապա P(l)=1:
Կոլմոգորովի չափանիշի օգտագործման հիմնական պայմանը բավականաչափ մեծ թվով դիտարկումներ են:

Այս բաժնում մենք կքննարկենք վարկածների հավանականության ստուգման հետ կապված հարցերից մեկը, այն է՝ տեսական և վիճակագրական բաշխումների միջև համապատասխանության հարցը:

Ենթադրենք, որ տվյալ վիճակագրական բաշխումը հավասարեցվում է որոշ տեսական կորի միջոցով f(x)(նկ. 7.6.1): Անկախ նրանից, թե որքան լավ է ընտրված տեսական կորը, որոշ անհամապատասխանություններ անխուսափելի են դրա և վիճակագրական բաշխման միջև: Բնականաբար, հարց է առաջանում. արդյոք այս անհամապատասխանությունները պայմանավորված են միայն պատահական հանգամանքներով, որոնք կապված են սահմանափակ թվով դիտարկումների հետ, թե՞ դրանք նշանակալից են և կապված են այն փաստի հետ, որ մեր ընտրած կորը վատ է հավասարեցնում այս վիճակագրական բաշխումը: Այս հարցին պատասխանելու համար օգտագործվում են այսպես կոչված «համաձայնության չափանիշներ»:

Պատահական ՓՈՓՈԽԱԿԱՆՆԵՐԻ ԲԱՇԽՄԱՆ ՕՐԵՆՔՆԵՐ



Համապատասխանության չափանիշների կիրառման գաղափարը հետևյալն է.

Այս վիճակագրական նյութի հիման վրա մենք պետք է փորձարկենք վարկածը Հ,բաղկացած է նրանից, որ պատահական փոփոխականը Xենթարկվում է որոշակի բաշխման օրենքի: Այս օրենքը կարող է տրվել այս կամ այն ​​ձևով, օրինակ՝ բաշխման ֆունկցիայի տեսքով F(x)կամ բաշխման խտության տեսքով f(x),կամ հավանականությունների մի շարքի տեսքով p t,որտեղ pt- հավանականությունը, որ արժեքը Xմեջ կընկնի մի բանարտանետում.

Քանի որ այս ձևերից բաշխման ֆունկցիան F(x)ամենաընդհանուրն է և որոշում է ցանկացած այլ, մենք կձևակերպենք վարկածը Հ,քանի որ բաղկացած է նրանից, որ արժեքը Xունի բաշխման ֆունկցիա ^(d :)։

Ընդունել կամ մերժել վարկածը Հ,հաշվի առեք որոշ քանակություն դու,բնութագրելով տեսական և վիճակագրական բաշխումների միջև անհամապատասխանության աստիճանը. Արժեք Uկարելի է ընտրել տարբեր ձևերով; օրինակ, ինչպես Uկարելի է վերցնել տեսական հավանականությունների քառակուսի շեղումների գումարը ptհամապատասխան հաճախականություններից R*կամ որոշ գործակիցներով նույն քառակուսիների գումարը («կշիռներ»), կամ վիճակագրական բաշխման ֆունկցիայի առավելագույն շեղումը. F*(x)տեսականից F(x)և այլն: Ենթադրենք, որ քանակը Uայս կամ այն ​​կերպ ընտրված. Ակնհայտ է, որ կան պատահական արժեք.Այս պատահական փոփոխականի բաշխման օրենքը կախված է պատահական փոփոխականի բաշխման օրենքից x,որոնց վրա կատարվել են փորձեր և փորձերի քանակից Պ.Եթե ​​վարկածը Հճշմարիտ է, ապա քանակի բաշխման օրենքը Uորոշվում է քանակի բաշխման օրենքով X(գործառույթ F(x))և համարը Պ.

Ենթադրենք, որ բաշխման այս օրենքը մեզ հայտնի է։ Այս շարքի փորձերի արդյունքում պարզվեց, որ մեր ընտրած չափումը



ՀԱՄԱՁԱՅՆՈՒԹՅԱՆ ՉԱՓԱՆԻՇՆԵՐ


անհամապատասխանություններ Uորոշակի արժեք ստացավ ա.Հարցն այն է, թե արդյոք դա կարելի է բացատրել պատահական պատճառներով, կամ արդյոք այս անհամապատասխանությունը չափազանց մեծ է և ցույց է տալիս տեսական և վիճակագրական բաշխումների միջև զգալի տարբերության առկայությունը և, հետևաբար, վարկածի անհամապատասխանությունը: Հ.Այս հարցին պատասխանելու համար ենթադրենք, որ վարկածը Հճիշտ է, և այս ենթադրության ներքո մենք հաշվարկում ենք հավանականությունը, որ պատահական պատճառներով, որոնք կապված են փորձարարական նյութի անբավարար քանակի հետ, անհամապատասխանության չափը Uկլինի ոչ պակաս, քան փորձի ժամանակ մեր կողմից նկատված արժեքը և,այսինքն, մենք հաշվարկում ենք իրադարձության հավանականությունը.

Եթե ​​այս հավանականությունը շատ փոքր է, ապա վարկածը Հպետք է մերժվի որպես ոչ շատ հավանական. եթե այս հավանականությունը նշանակալի է, ապա պետք է ընդունել, որ փորձարարական տվյալները չեն հակասում վարկածին Ն.

Հարց է առաջանում՝ ի՞նչ կերպ պետք է ընտրել £/ անհամապատասխանության չափը։ Ստացվում է, որ դրա ընտրության որոշ եղանակների համար մեծության բաշխման օրենքը Uունի շատ պարզ հատկություններ և բավականաչափ մեծ Պգործնականում անկախ ֆունկցիայից F(x).Հենց նման անհամապատասխանության չափումներ են օգտագործվում մաթեմատիկական վիճակագրության մեջ՝ որպես համաձայնության չափանիշներ:

Դիտարկենք համաձայնության առավել հաճախ կիրառվող չափանիշներից մեկը՝ այսպես կոչված «չափանիշը ժամը?"Փիրսոն.

Ենթադրենք, որ կան հա անկախ փորձեր, որոնցից յուրաքանչյուրում պատահական փոփոխական է Xորոշակի արժեք ստացավ. Փորձերի արդյունքներն ամփոփված են կթվանշաններ և ներկայացված են վիճակագրական շարքի տեսքով։

Տեսական և էմպիրիկ հաճախականություններ: Փորձարկում նորմալ բաշխման համար

Վարիացիոն բաշխման շարքերը վերլուծելիս մեծ նշանակություն ունի, թե ինչպես էմպիրիկ բաշխումնշանը համապատասխանում է նորմալ. Դրա համար փաստացի բաշխման հաճախականությունները պետք է համեմատել տեսականների հետ, որոնք բնորոշ են նորմալ բաշխմանը։ Սա նշանակում է, որ անհրաժեշտ է իրական տվյալներից հաշվարկել նորմալ բաշխման կորի տեսական հաճախականությունները, որոնք նորմալացված շեղումների ֆունկցիա են։

Այլ կերպ ասած, էմպիրիկ բաշխման կորը պետք է համապատասխանեցվի նորմալ բաշխման կորին:

Համապատասխանության օբյեկտիվ բնութագիրը տեսականև էմպիրիկ հաճախականություններկարելի է ստանալ՝ օգտագործելով հատուկ վիճակագրական ցուցանիշներ, որոնք կոչվում են համաձայնության չափանիշները.

Համապատասխանության չափանիշկոչվում է չափանիշ, որը թույլ է տալիս որոշել, թե արդյոք անհամապատասխանությունը կա էմպիրիկև տեսականպատահական կամ նշանակալի բաշխումներ, այսինքն՝ արդյոք դիտողական տվյալները համահունչ են առաջ քաշված վիճակագրական վարկածին, թե ոչ համահունչ: Ընդհանուր բնակչության բաշխումը, որը նա ունի առաջ քաշված վարկածի ուժով, կոչվում է տեսական:

Հաստատելու կարիք կա չափանիշ(կանոն), որը թույլ կտա դատել, թե արդյոք էմպիրիկ և տեսական բաշխումների միջև անհամապատասխանությունը պատահական է, թե նշանակալի: Եթե ​​անհամապատասխանությունն է պատահական, ապա նրանք համարում են, որ դիտողական տվյալները (նմուշը) ​​համահունչ են ընդհանուր բնակչության բաշխման օրենքի մասին առաջ քաշված վարկածին և, հետևաբար, վարկածն ընդունվում է. եթե անհամապատասխանությունը կա իմաստալից, ապա դիտորդական տվյալները չեն համաձայնում վարկածի հետ եւ մերժում են այն։

Սովորաբար էմպիրիկ և տեսական հաճախականությունները տարբերվում են այն պատճառով, որ.

    անհամապատասխանությունը պատահական է և կապված է սահմանափակ թվով դիտարկումների հետ.

    Անհամապատասխանությունը պատահական չէ և բացատրվում է նրանով, որ այն վիճակագրական վարկածը, թե ընդհանուր բնակչությունը սովորաբար բաշխված է, սխալ է:

Այս կերպ, համաձայնության չափանիշներըթույլ է տալիս մերժել կամ հաստատել էմպիրիկ շարքում բաշխվածության բնույթի մասին շարքը հավասարեցնելիս առաջ քաշված վարկածի ճիշտությունը:

Էմպիրիկ հաճախականություններդիտումից ստացված։ Տեսական հաճախականություններհաշվարկված բանաձևերով.

Համար նորմալ բաշխման օրենքըդրանք կարելի է գտնել այսպես.

    Σƒ i- կուտակված (կուտակային) էմպիրիկ հաճախականությունների գումար

    h - տարբերություն երկու հարակից տարբերակների միջև

    σ - նմուշի ստանդարտ շեղում

    t-նորմալացված (ստանդարտացված) շեղում

    φ(t) նորմալ բաշխման հավանականության խտության ֆունկցիան է (գտեք տեղական Լապլասի ֆունկցիայի արժեքների աղյուսակից t-ի համապատասխան արժեքի համար)

Գոյություն ունեն հարմարության մի քանի թեստեր, որոնցից ամենատարածվածներն են՝ chi-square (Պիրսոնի) թեստը, Կոլմոգորովի թեստը, Ռոմանովսկու թեստը։

Պիրսոնի պիտանիության թեստ χ 2 - հիմնականներից մեկը, որը կարող է ներկայացվել որպես տեսական (f Т) և էմպիրիկ (f) հաճախությունների տեսական հաճախությունների քառակուսի տարբերությունների հարաբերակցությունների գումար.

    k-ն այն խմբերի թիվն է, որոնց էմպիրիկ բաշխումը բաժանված է,

    f i-ը i-րդ խմբի հատկանիշի դիտվող հաճախականությունն է,

    f T-ը տեսական հաճախականությունն է:

χ բաշխման համար կազմվում են 2 աղյուսակներ, որոնք ցույց են տալիս χ 2 համապատասխանության չափանիշի կրիտիկական արժեքը α նշանակության ընտրված մակարդակի և df (կամ ν) ազատության աստիճանների համար։ Ա նշանակության մակարդակը առաջադրված վարկածի սխալ մերժման հավանականությունն է, այսինքն. հավանականությունը, որ ճիշտ վարկածը կմերժվի։ R - վիճակագրական վավերականությունընդունելով ճիշտ վարկածը. Վիճակագրության մեջ առավել հաճախ օգտագործվում են երեք նշանակության մակարդակներ.

α=0.10, ապա P=0.90 (100-ից 10 դեպքում)

α=0,05, ապա Р=0,95 (100-ից 5 դեպքում)

α=0.01, ապա P=0.99 (100-ից 1 դեպքում) ճիշտ վարկածը կարելի է մերժել.

Ազատության աստիճանների թիվը df սահմանվում է որպես բաշխման շարքի խմբերի քանակ՝ հանած կապերի քանակը՝ df = k –z: Միացումների թիվը հասկացվում է որպես տեսական հաճախականությունների հաշվարկման ժամանակ օգտագործվող էմպիրիկ շարքի ցուցիչների թիվը, այսինքն. էմպիրիկ և տեսական հաճախականությունները կապող ցուցիչներ: Օրինակ, զանգի կորի հավասարեցման դեպքում կան երեք հարաբերություններ. Հետեւաբար, երբ հավասարեցվում է զանգի կորըԱզատության աստիճանների թիվը սահմանվում է որպես df =k–3: Նյութականությունը գնահատելու համար հաշվարկված արժեքը համեմատվում է աղյուսակային χ 2 աղյուսակի հետ

Տեսական և էմպիրիկ բաշխումների լիակատար համընկնմամբ χ 2 =0, հակառակ դեպքում χ 2 >0: Եթե ​​χ 2 calc > χ 2 tab, ապա նշանակության տվյալ մակարդակի և ազատության աստիճանների քանակի համար մենք մերժում ենք անհամապատասխանությունների աննշանության (պատահականության) վարկածը։ Եթե ​​χ 2 հաշվ< χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняетсяնորմալ բաշխում. Pearson's goodness-of-fit թեստն օգտագործվում է, եթե պոպուլյացիայի չափը բավականաչափ մեծ է (N>50), մինչդեռ յուրաքանչյուր խմբի հաճախականությունը պետք է լինի առնվազն 5:

Կոլմոգորովի լավության չափանիշըհիմնված է կուտակված էմպիրիկ և տեսական հաճախականությունների միջև առավելագույն անհամապատասխանության որոշման վրա.

որտեղ D և d, համապատասխանաբար, առավելագույն տարբերությունն են կուտակային հաճախությունների և էմպիրիկ և տեսական բաշխումների կուտակային հաճախությունների միջև: Կոլմոգորովի վիճակագրության բաշխման աղյուսակի համաձայն որոշվում է հավանականությունը, որը կարող է տատանվել 0-ից մինչև 1: P(λ)=1-ում կա հաճախությունների լրիվ համընկնումը, P(λ)=0՝ լրիվ դիվերգենցիա: Եթե ​​P հավանականության արժեքը զգալի է գտնված λ արժեքի նկատմամբ, ապա կարելի է ենթադրել, որ տեսական և էմպիրիկ բաշխումների միջև անհամապատասխանությունները աննշան են, այսինքն՝ դրանք պատահական բնույթ են կրում։ Կոլմոգորովի չափանիշի օգտագործման հիմնական պայմանը բավականաչափ մեծ թվով դիտարկումներ են:

Կոլմոգորովի լավության չափանիշը

Դիտարկենք, թե ինչպես է կիրառվում Կոլմոգորովի չափանիշը (λ), երբ նորմալ բաշխման վարկածի փորձարկումընդհանուր բնակչությունը։ Փաստացի բաշխման հավասարեցումը նորմալ բաշխման կորի երկայնքով բաղկացած է մի քանի քայլից.

    Համեմատեք իրական և տեսական հաճախականությունները:

    Ըստ փաստացի տվյալների՝ որոշվում են նորմալ բաշխման կորի տեսական հաճախականությունները, ինչը նորմալացված շեղման ֆունկցիա է։

    Ստուգեք, թե որքանով է հատկանիշի բաշխումը համապատասխանում նորմալին:

Աղյուսակի IV սյունակի համար.

MS Excel-ում նորմալացված շեղումը (t) հաշվարկվում է NORMALIZE ֆունկցիայի միջոցով: Ընտրանքների քանակով (աղյուսակի տողերով) անհրաժեշտ է ընտրել ազատ բջիջների մի շարք: Առանց ընտրությունը հեռացնելու, զանգահարեք ՆՈՐՄԱԼԻԶԱՑՄԱՆ ֆունկցիան: Երկխոսության վանդակում, որը երևում է, նշեք հետևյալ բջիջները, որոնք համապատասխանաբար պարունակում են դիտարկվող արժեքները (X i), միջին (X) և ստանդարտ շեղումը Ϭ: Գործողությունը պետք է ավարտվի միաժամանակյասեղմելով Ctrl+Shift+Enter

Աղյուսակի V սյունակի համար.

Նորմալ բաշխման φ(t) հավանականության խտության ֆունկցիան հայտնաբերվում է տեղական Լապլասի ֆունկցիայի արժեքների աղյուսակից՝ նորմալացված շեղման (t) համապատասխան արժեքի համար:

Աղյուսակի VI սյունակի համար.

Կոլմոգորովի պիտանիության չափանիշ (λ)որոշվում է մոդուլը բաժանելով առավելագույն տարբերություններԴիտարկումների քանակի մեկ քառակուսի արմատի էմպիրիկ և տեսական կուտակային հաճախությունների միջև.

Օգտագործելով հատուկ հավանականության աղյուսակ λ համապատասխանության լավության չափանիշի համար, մենք որոշում ենք, որ λ=0.59 արժեքը համապատասխանում է 0.88 հավանականությանը (λ.

Էմպիրիկ և տեսական հաճախականությունների բաշխում, տեսական բաշխման հավանականության խտություն

Հարմարեցվածության թեստեր կիրառելիս` ստուգելու համար, թե արդյոք դիտարկված (էմպիրիկ) բաշխումը համապատասխանում է տեսականին, պետք է տարբերակել պարզ և բարդ վարկածների փորձարկումը:

Կոլմոգորով-Սմիրնովի նորմալության մեկ նմուշի թեստը հիմնված է առավելագույն տարբերություննմուշի կուտակային էմպիրիկ բաշխման և ենթադրյալ (տեսական) կուտակային բաշխման միջև: Եթե ​​Դ Կոլմոգորով-Սմիրնովի վիճակագրությունը նշանակալի է, ապա պետք է մերժել այն վարկածը, որ համապատասխան բաշխումը նորմալ է։