Sunteți pe pagina 1din 13

CHI SQUARE

Tehnici neparametrice de comparatie ntre grupuri Tehnicile statistice parametrice pleaca de la o serie de conditii privind normalitatea si omogenitatea dispersiei distributiei rezultatelor subiectilor. Cnd acestea nu sunt ndeplinite sunt utilizate tehnicile neparametrice denumite si tehnici statistice independente de distributia datelor. Avantajele acestui tip de tehnici constau n diversitatea datelor care pot fi prelucrate att calitativ ct si cantitativ. Dezavantajul principal este puterea mai mica de a detecta falsitatea unei ipoteze nule. Exista mai multe metode nonparametrice cele mai ntlnite fiind!

tehnica lui c " #chi patrat$% testul U a lui &ann'(hitne) #echivalentul testului parametric t independent$% testul (ilcoxon al rangurilor pereche #echivalent A*+,A masuratori repetate ori t dependent$% testul A*+,A -rus.al'(allis al rangurilor #echivalent A*+,A simpla nsa datele sunt convertite n ranguri$% testul /riedman A*+,A biunivoc al rangurilor #echivalent A*+,A masuratori repetate$. Tehnica lui c"

0e aplica atunci cnd rezultatele sunt clasificate n functie de gen vrsta nivel de pregatire grupuri de tratament sau orice alta masura nominala. 1roba furnizeaza un test statistic asupra semnificatiei discrepantei dintre rezultatele observate si asteptate. De exemplu studentul 2onel este superstitios. El crede ca o anumita sala i poarta ghinion atunci cnd are de sustinut un examen. El a tinut evidenta tuturor salilor n care a dat examen. 3n total a sustinut 4"5 de examene n 6 sali diferite adica n medie 75 de examene n fiecare sala. 2ata situatia reala #observata$ si pe cea teoretica pentru fiecare sala n ce priveste examenele luate cu note ntre 8 si 9 #:operationalizarea ghinionului:$ *umarul salii 4 +bservat #+$ 1robabil #E$ /ormula lui c "! "6 75 " 76 75 7 "" 75 6 65 75 Total 4"5 4"5

;nde! + < frecventa observata% E <frecventa probabila #teoretica expectata$. 0ala 4 " 7 6 c "<9 4C ,aloarea obtinuta este interpretata prin compararea ei cu valoarea corespondenta din tabelul c >. Deoarece n cazul de fata exista patru variante #6 sali$ numarul de grade de libertate este c'4 adica 7. ,aloarea lui c " de 9 4C este mai mica dect cea din tabel la 7 df. 0e observa ca la un prag de semnificatie p D.58 valoarea din tabel era de 9 B". Astfel ipoteza nula ca nu exista diferente semnificative ntre cele patru banci nu poate fi eliminata iar 2onut nu este ntemeiat sa creada ca o sala i aduce mai mult ghinion dect o alta. +bservatii!

+'E '@ A6 'B A45

#+ = E$ > 7@ 4@ @6 455

#+ = E$ > ? E 4 "5 5 87 " 47 7 77

gradele de libertate se stabilesc n functie de numarul de alternative existente minus unu% frecventa teoretica se stabileste mpartind numarul total de date la numarul de alternative% daca exista anumite informatii prealabile care sa ateste o anumita distributie a datelor atunci principiul amintit anterior cade. 0pre exemplu daca frecventa probabila de aparitie a nevrozei ntr'un grup este de "5 E atunci frecventa teoretica se obtine stabilind ct nseamna "5E din totalul de date prezentate.

De multe ori o problema implica doua sau mai multe categorii de evenimente si doua au mai multe grupe. ;n exemplu ar fi analizarea rezultatelor la un chestionar de atitudine n care sunt precizate mai multe raspunsuri #de acord abtinere dezacord$ si doua grupe de subiecti #religiosi crestini respectiv atei$. Acest tip de clasificare este numita tabel de contingenta.

Exemplu! 3n urmatorul tabel sunt cuprinse raspunsurile unui grup de persoane religioase si al unui alt grup de persoane nereligioase la urmatoarea ntrebare! :0unteti de acord ca tinerii sa faca dragoste nainte de casatorieF: + tabela 7 x " de contingenta a raspunsurilor. De acord 75 #@6$ 446 #B5$ Abtinere 6@ #8@$ B5 #95$ Dezacord 4"6 #B5$ 8@ #455$ Total "55 #"55$ "85 #"85$

Geligiosi +bservate 1robabile Atei +bservate 1robabile T+TAH

466

4"@

4B5

685

3n exemplele anterioare frecventele probabile #teoretice$ se determinau din ipoteze rationale sau alte surse de informatii. 3n tabelul de contingenta valorile probabile se calculeaza din frecventele efectiv aparute fata de totalul raspunsurilor. De exemplu numarul total de subiecti care au fost de acord cu afirmatia este de 466. Deoarece n total sunt 685 de subiecti care au raspuns la chestionar atunci procentul celor care au fost de acord cu afirmatia este de 466?685 adica 7"E din grup. Astfel daca nu exista nici o diferenta ntre grupul persoanelor religioase si non'religioase #ipoteza nula$ atunci 7"E din religiosi #5 7" x "55 < @6$ si 7"E din atei #5 7" x "85 <B5$ sar trebui sa fie de acord cu afirmatia #frecventa teoretica$. c " se calculeaza n acelasi mod si n acest exemplu. +'E '76 76 '45 45 66 E @6 B5 8@ 95 B5 #+ = E$ > 448@ 448@ 455 455 4C7@ #+ = E$ > ? E 4B 5@ 46 68 4 9C 4 67 "6 "5 G #Gezidul standardizat$ '6 "8 7 99 '4 77 4 4C 6 BB

'66

455

4C7@

4C 7@

'6 65

c " < 9C "C Iradele de libertate pentru tabelul de contingenta sunt #r'4$ #c'4$ unde r este numarul de rnduri #n acest caz doua religios vs. ateu$ iar c numarul de coloane #n acest caz trei de acord abtinere dezacord$. Astfel df < #"'4$ #7'4$ < ". Cautnd n tabelul de semnificatii la df < " observam ca c " ar avea valoarea C "4 la un p D.54. ,aloarea obtinuta a lui hi patrat de 9C "C este categoric semnificativa. Aceasta ne spune ca ipoteza nula trebuie respinsa. 1entru a determina care categorie a adus contributii majore la obtinerea unei diferente semnificative se calculeaza rezidul standardizat #G$. /ormula sa este!

Aceasta formula este aplicata n cadrul fiecarei situatii. Daca rezidul standardizat este mai mare dect " #n valoare absoluta indiferent de semn$ putem considera ca acel element a adus un rol important n obtinerea unui c " semnificativ. 3n cazul de fata att valorile din dreptul sintagmei :de acord: ct si cele din dreptul sintagmei :dezacord: au iesit relevante. *u se observa nsa diferente semnificative ntre cele doua grupe n ce priveste alternativa :nu stiu:. Gestrictiile de utlizare a testului c " Desi am afirmat ca testele neparametrice nu necesita aceleasi ipoteze asupra populatiei ca cele parametrice exista totusi o serie de restrictii si n utilizarea acestui tip de teste.

+bservatiile trebuie sa fie independente si categoriile formate trebuie sa se excluda reciproc. Este vorba de eliminarea raspunsurilor multiple si de alegerea unui singur raspuns la ntrebare. De obicei testul hi patrat nu se poate aplica pentru esantioane mici. /recventa probabila #teoretica$ pentru orice casuta nu trebuie sa fie mai mica de unu. &ai mult unii statisticieni pretind ca nu mai mult de "5E din casute sa aiba valori teoretice ale frecventelor mai mici de cinci. + tactica ntlnita n astfel de situatii este sa se combine sasutele adiacente marind valoarea frecventei teoretice. 1entru tabelele de contingenta de tip " x " este necesara aplicarea unei corectii denumita corectia Yates pentru continuitate. Aceasta opereaza o scadere de 5 8 din diferenta dintre frecventele observate si cele teoretice #expectate probabile$ nainte de a o ridica la patrat!

+ alta limitare impusa tabelei de contingenta de tip " x " este ca numarul total #*$ sa fie cel putin "5% /recventa probabila #teoretica$ sa fie stabilita a priori fie ca probabilitate de aparitie egala fie utiliznd date existente. *u trebuie sa i se permita cercetatorului sa se uite pe datele obtinute si apoi sa :scoata din mneca: o distributie teoretica care sa se potriveasca cu ipoteza.

Concluzii n ce priveste utilizarea lui c "!


0e utilizeaza atunci cnd avem de analizat date nominale #calitative$% 0e poate calcula rezidul standardizat specific fiecarei casute pentru a diferentia care elemente au contribuit mai mult la obtinerea unui c " semnificativ% Testul de omogenitate c " are menirea de a distinge daca exista diferente semnificative ntre distributia teoretica #expectata$ si distributia reala #observata$ obtinuta.

Testul chi'patrat #

"

Tabelul de corespondenta (contingenta)

3nainte de a trece la testul propriu'zis este util sa aruncam o privirea asupra modului de organizare a datelor pentru o situatie similara exemplului de mai sus. 3n acest scop putem sa ne permitem o largire a cadrului de investigare. 0a presupunem ca avem cele trei categorii de liceu si ne intereseaza distribuirea lor nu n legatura cu o singura facultate #cea de psihologie$ ci n legatura cu trei tipuri de facultati! :umaniste: :artistice: si :tehnice:. Daca realizam un cadru de reprezentare sintetic al valorilor celor doua variabile obtinem ceea ce se numeste un tabel de corespondenta. 2ata cum ar arata un astfel de tabel pentru un set de date ipotetice!

Hiceu umanist /ac. ;maniste /ac. Tehnice /ac. Artistice 68 46 "5

Hiceu real "5 @5 47

Hiceu artistic 75 4" 85

Total pe linii 95 8 8!

E pe linii #C8?"@6$J455<7@E #B@?"@6$J455<7" 8E #B7?"@6$J455<74.8E

Total pe coloane

"9

9!

9#

# $

Tabelul de mai sus este unul pentru doua variabile fiecare avnd cte trei valori distincte exprimate pe scala de tip nominal. ,alorile din celule reprezinta frecventele absolute #numarul de cazuri$ care corespund fiecarei situatii n parte. Din acest motiv acestea sunt denumite frecvente observate ca fiind rezultate ale masurarii. 1e linia :facultati umaniste: procentul total este de 7@E. Acesta indica procentul absolventilor indiferent de liceu care au ales acest o facultate de tip umanist. 3n continuare pe ultima coloana a tabelului avem procentele corespunzatoare celorlalte tipuri de facultati. Daca alegerea facultatii nu ar avea nici o legatura cu tipul de liceu absolvit atunci n mod normal ar trebui sa ne asteptam sa regasim aceleasi procente n dreptul fiecarui tip de liceu. Cu alte cuvinte n cazul nostru dintre cei 9C de absolventi de liceu umanist 7@E ar trebui sa se afle n facultati umaniste 7".8E n facultati stiintifice si 74.8E n facultati artistice. Acelasi rationament se aplica si celorlalte tipuri de liceu. /recventele astfel calculate sunt frecventele :asteptate: sau teoretice. Dar n realitate de exemplu din totalul de 9C de absolventi de liceu umanist 68 #adica 89E$ au preferat o facultate umanista. 3n aceasta celula constatam o diferenta ntre frecventa observata #89E$ si cea asteptata #7@E$. 2ar astfel de diferente exista si n cazul celorlalte celule ale tabelului.

%unda&entarea testului chi-patrat

1ornind de la exemplul de mai sus sa ne imaginam urmatoarea problema de cercetare! exista o legatura ntre tipul de liceu absolvit si tipul de facultate alesF 3n acest caz cele doua variabile sunt ambele exprimate pe scale de tip nominal categorial. 0a acceptam ca tipul de liceu ia valorile :umanist" :real" :artistic" n timp ce tipul de facultate ia valorile : umaniste" :tehnice" si :artistice". 1roblema cercetatorului este aceea de a stabili daca ntre frecventele observate si cele teoretice #calculate$ este o diferenta care sa justifice aprecierea ca ntre cele doua variabile exista sau nu o legatura. Testul statistic pentru rezolvarea acestui tip de problema se numeste chipatrat si se noteaza cu simbolul .

/ormula de calcul este una derivata din testul z!

#formula 6.C$

unde fO este frecventa observata iar fE frecventa asteptata.

Ha fel ca si distributiile t si / distributia " este dependenta de numarul gradelor de libertate. Acestea se calculeaza pe baza tabelului de corespondenta dintre cele doua variabile astfel!

df<#numar coloane'4$J#numar linii'4$

,alorile critice pentru distributia chi-patrat sunt prezentate n Anexa @. 1e aceasta structura formala se bazeaza doua variante distincte ale testului chi'patrat! testul corespondetei #Goodness of Fit$ si testul asocierii.

Chi'patrat ' pentru gradul de corespondenta #Goodness of Fit$

Aceasta varianta a testului chi'patrat compara frecventele observate ale unei distributii cu frecventele teoretice #asteptate$ ale acelei variabile. De exemplu daca avem frecventele unei variabile putem afla daca aceasta se distribuie dupa curba normala #z$ prin compararea cu frecventele cunoscute ale acestei distributii #aria de sub curba$. 0a presupunem ca a fost aplicat un test de cunostinte unui esantion de "55 de elevi care a fost evaluat cu calificative astfel! F.Slab, Slab, Mediu, un, F. un. !roblema cercetarii! Calificativele obtinute se distribuie normal la nivelul claseiF !opulatia "! Calificativele obtinute de elevi. !opulatia #! Calificativele asa cum s'ar distribui pe o curba normala! /0<".8E K<46E &<@9E K<46E si /K<".8E #procentele sunt cele tipice unei curbe ' mpartite n cinci clase valorice$.

$poteza cercetarii %&"'! Distributia calificativelor clasei este diferita de distributia normala #exprimnd speranta cercetatorului de a avea mai multe calificative spre zona superioara a distributiei$. $poteza de nul %&('! Distributia calificativelor este aceeasi ca n cazul curbei normale. Determinarea caracteristicilor deciziei statistice! ' ' alegem a<5.58 #n cazul testului test nu poate lua valori negative$ gasim valoarea critica pentru 4$J#8'4$<6 si a<5.58
" "

decizia nu poate fi dect unilaterala deoarece acest


"

<C.6B n tabela pentru distributia

pentru df<#"'

Tabelul urmator contine datele de cercetare si algoritmul de calcul!

Cali(icati) /K K & 0 /0 0

%rec)enta obser)ata ((*) 45 76 465 45 @ "55

%rec)enta asteptata ((E) ".8E of "55 <8 46E of "55 <"B @9E of "55 <476 46E of "55 <"B ".8E of "55 <8 '

)ecizia statistica* '


"

calculat #4B 77$ este mai mare dect

"

critic #C 6B$

'

Gespingem ipoteza de nul si tragem concluzia ca distributia calificativelor nu urmeaza forma curbei normale. Acest fapt nu trebuie desigur interpretat negativ deoarece este firesc ca n conditiile unui proces de nvatamnt notele sa tinda spre valorile mari scopul procesului fiind tocmai acumularea de cunostinte care este mpotriva unei tendinte :naturale: de distribuire aleatoare a cunostintelor.

/acem nca o data precizarea ca aceasta forma a testului chi-patrat se aplica atunci cnd vrem sa comparam frecvente observate cu frecvente teoretice #asteptate$ pe care le cunoastem deja. El este echivalentul testului z pentru proportii pentru distributia binomiala cu specificatia ca se utilizeaza atunci cnd avem mai mult de doua categorii. 0a ne imaginam de exemplu ca vrem sa stim daca exista o preferinta pentru o anumita categorie de muzica #clasica populara po'roc.$. 3n acest caz daca distributia preferintelor nu ar fi influentata de nici o anumita predominanta #ipoteza de nul$ atunci frecventa asteptata #teoretica$ pentru fiecare gen muzical ar trebui sa fie echivalenta cu "8E numarul subiectilor . &ai departe nu ne ramne dect sa testam diferenta dintre cele doua categorii de frecvente #teoretice si observate$ conform modelului de calcul de mai sus.

Chi'patrat ' testul asocierii #independence chi'sLuare$+,-

Aceasta varianta a testului chi'patrat mai frecvent utilizata compara frecventele observate ale unei distributii #variabile$ cu frecventele corespondente ale altei distributii #variabile$ ambele masurat pe scale de tip nominal categorial. 0a presupunem ca avem rezultatele la testul de statistica #masurate pe o scala ordinala si notate conventional cu A K C D E unde A reprezinta nivelul de performanta cel mai ridicat iar E cel mai scazut$. !roblema cercetarii! Dorim sa aflam daca exista o diferenta semnificativa ntre baieti #&$ si fete #/$ la testul de statistica. $poteza cercetarii! Distributia performantei depinde de genul :masculin: sau :feminin:. $poteza de nul! Gezultatele la testul de statistica nu au legatura cu variabila sex. Determinarea criteriilor de decizie statistica! o alegem a<5.58

gasim valoarea critica pentru 4$J#8'4$<6 care este 9.$9

"

n tabela pentru distributia

"

pentru df<#"'

Datele cercetarii ar putea fi astfel centralizate n urmatorul tabel de corespondentaM"N! /er(or&anta la test A 2asculin %e&inin Total 45 45 #3 0 76 7" C 465 C9 #!" 1 45 @ , % @ 8 ,, Total #33 < 89.46E din total general ,53 < 6".B@E din total general Total general4!53

' ' '

89.46E din totalul studentilor sunt baieti si 6".B@E fete Daca performanta la test nu are nici o legatura cu genul subiectilor sa regasim aceste procente pentru fiecare dintre calificativele acordate. Aceasta nseamna ca teoretic n celula A52asculin6 ar trebui sa gasim proportional tot attia baieti cti sunt pe ntregul lot. Adica #"55?785$J"5<44.6" care reprezinta frecventa asteptata pentru celula respectiva din tabelul de corespondenta. Ha fel pentru celula A5%e&inin frecventa asteptata este #485?785$J"5<B.89. 3n acelasi mod de calculeaza frecventele observate pentru fiecare celula a tabelului.

' '

1entru o mai usoara ntelegere a mecanismului de calcul vom rearanja tabelul astfel!

%rec)enta Celule obser)ata ((*) &asculin ' A &asculin ' K &asculin ' C &asculin ' D &asculin ' / /eminin ' A /eminin ' K /eminin ' C /eminin ' D /eminin ' /

%rec)enta asteptata (E4

45

76

465

45

45

7"

C9

!53

' '

0e compara

"

critic #C.6C$ cu

"

calculat #4.B8$ pentru df < #"'4$#8'4$ < 6

,aloarea calculata a testului este mai mica dect valoarea critica deci acceptam ipoteza de nul. Gezultatele la test nu confirma ipoteza ca rezultatele se distribuie n functie de apartenenta de gen a subiectilor.

+onditii pentru aplicarea testului

' ' ' '

Cele doua variabile nu trebuie sa se :intersecteze: #sa nu existe subiecti care sa fie inclusi n mai mult de o celula de tabel$ 0electie aleatoare a esantioanelor Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 8 #sau cel putin n nu mai mult de "5E din celule$. *ici o celula nu trebuie sa aiba frecventa asteptata mai mica de 4.

1entru situatiile n care frecventele asteptate sunt mai mici dect specificatiile de mai sus sau atunci cnd tabelul de corespondenta dintre variabile are doua linii si doua coloane se recomanda aplicarea unei corectii la formula de baza. Aceasta este ceea ce se numeste corectia Oeates si consta n extragerea unei constante #5.8$ din expresia de la numarator luata n valoare absoluta!

Utili'area testului c7i8patrat al asocierii

Testul chi'patrat al asocierii se utilizeaza atunci cnd dorim sa testam relatia dintre doua variabile ambele masurate pe scala de tip nominal categorial. De aceea el poate fi vazut ca un veritabil test de corelatie pentru date nominale. De asemenea poate fi folosit n locul testului t sau A*+,A daca nu sunt ndeplinite conditiile pentru variabila dependenta. 3ntr'un asemenea caz variabila dependenta cantitativa se transforma prin gruparea n frecvente n variabila de tip calitativ. Aceasta optiune se va alege numai daca ne aflam n fata unei flagrante violari a conditiei de normalitate deoarece testele parametrice sunt mai putin puternice dect cele neparametrice. Ha fel ca si n cazul altor teste statistice nu se vor putea trage concluzii de tip cauzal dect numai daca variabilele sunt masurate n contextul unui experiment psihologic.

Raportarea re'ultatelor

3n cazul testului " elementele care vor fi incluse n raport sunt urmatoarele! gradele de libertate valoare testului nivelul p. 3n varianta narativa pentru exemplul de mai sus prezentarea rezultatelor ar putea avea urmatoarea forma! :,ezultatele testului de statistica, e-aluate pe cinci clase -alorice %., ,+,),E' au fost comparate pe se/e. 0estul " pentru asocierea -ariabilelor indica faptul ca rezultatele nu difera semnificati- 1n functie de se/, 2#%3' 4 ".56, p 7( .(6:

S-ar putea să vă placă și