Sunteți pe pagina 1din 24

STATISTICA INFERENTIALA

Statistica descriptiva se ocupa de analiza datelor sub aspectul caracteristicilor lor intrinseci (frecventa valorilor, indicatorii tendintei centrale, ai mprastierii sau formei distributiilor). Tinta finala a metodei stiintifice insa nu se limiteaza la descrierea datelor ci vizeaza evidentierea relatiilor dintre ele si, pe aceasta baza, predictia si ntelegerea fenomenelor psihice. Aceste proceduri fac parte din ceea ce se numeste statistica inferentiala

Scoruri standard (z) Cnd msurm o anumit caracteristic a unui individ (stabilitatea emotionala, anxietate, etc.) scopul implicit este acela de a efectua comparaii. Pentru aceasta ns, simpla expresie numeric a caracteristicii respective nu este suficient. Modalitatea de a exprima semnificaia unei anumite valori dintr-o distribuie prin raportare la parametrii distribuiei (medie i abatere standard) este scorul normat z (numit i not z sau scor z). Aceasta msoar distana dintre o anumit valoare i media distribuiei, n abateri standard:

z=

X m s

unde X reprezint oricare dintre valorile distribuiei Scorul z se numete i scor standardizat. Aceasta inseamna c poate fi utilizat pentru a compara valori care provin din distribuii diferite, indiferent de unitatea de msur a fiecreia. Exemplu: Dac un subiect obine un scor echivalent cu z=+0.5 la un test de memorie i un scor echivalent cu z=+0.4, la un test de inteligenta, se poate spune c are o performan mai bun la primul test dect la al doilea. Proprietile scorurilor z 1. Media unei distribuii z este ntotdeauna egal cu 0. Aceasta rezult din proprietatea mediei de a se diminua corespunztor dac se extrage o constant din fiecare valoare a unei distribuii. Formula de calcul pentru z implic scderea unei constante din fiecare valoare a distribuiei. Aceasta nseamn c i media noii distribuii (z) se va reduce cu constanta respectiv. Dar aceast constant este nsi media distribuiei originale, ceea ce nseamn c distribuia z va avea media egal cu zero, ca rezultat al diminurii mediei cu ea nsi. 2. Abaterea standard a unei distribuii z este ntotdeauna 1. Acest fapt decurge prin efectul cumulat al proprietilor abaterii standard. Prima proprietate afirm c n cazul scderii unei constante (n cazul scorurilor z, media) din valorile unei distribuii, abaterea standard a acesteia nu se modific. A doua proprietate afirm c n cazul mpririi valorilor unei distribuii la o constant, noua abatere standard este rezultatul raportului dintre vechea abatere standard i constant. Dar constanta de care vorbim este, n cazul distribuiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre dou valori identice al crui rezultat, evident, este 1.

Alte tipuri de scoruri standardizate Notele z prezint dou avantaje importante: permit compararea valorilor unei distribuii, i a valorilor provenind din distribuii diferite, ca urmare a faptului ca se exprim n abateri standard de la medie. Notele z au, ns, i unele dezavantaje: se exprim prin numere mici, cu zecimale, (greu de manipulat intuitiv) i, n plus, pot lua valori negative. Aceste dezavantaje pot fi nlturate printr-un artificiu de calcul care s conduc la note standardizate convenabile (ce corespund anumitor nevoi specifice). Iata cteva tipuri de note standard calculate pe baza notelor z.

Deci: Toate variantele sunt obinute prin transformarea operat pe distribuia de note z. La nici una dintre variante nu mai avem valori negative Zecimalele nu mai sunt semnificative Notele standard mari indic o valori mari iar notele standard mici indic valori mici.

PROPRIETATILE CURBEI NORMALE


Asa cum am vazut rezultatelor msurrilor pot lua diverse forme, curba distribuiei putnd fi unimodal sau multimodal, aplatizat sau nalt, simetric sau asimetric. n statistic exist ns un tip special de distribuie, numit distribuie normal, care nu este rezultatul unui proces real de msurare ci reprezint un model teoretic. Conceptul de curb normal are cteva proprieti caracteristice: are form de clopot- cea mai mare parte a valorilor se concentreaz n zona central este perfect simetric pe ambele laturi ale sale de fiecare parte a mediei se afl exact jumtate dintre valorile distribuiei Curbe normale

Exemple de curbe normale, care respect condiiile de mai sus, chiar dac au medii i abateri standard diferite.

Curba normal standardizat (z) Curba normal n care valorile sunt exprimate n scoruri z se numete curba normal standardizat. Ea are toate proprietile enunate mai sus, avnd ns i parametrii oricrei distribuii z: m=0 i s=1. Valoarea 0 pentru medie a fost aleas convenional pentru c astfel distribuia este simetric n jurul lui 0.

Curba normal standardizat are cteva caracteristici care sunt figurate n imaginea de mai sus i pe care este important s le reinem: aproximativ 34% dintre scorurile distribuiei normale se afl ntre medie i o abatere standard deasupra mediei (z=+1) intre 1z i +1z se afl aproximativ 68% dintre valorile distribuiei

aproximativ 96% dintre scoruri se afl ntre 2z i +2z

Curba normal are o importan aparte pentru analiza statistic. Aceasta, deoarece se accept faptul c variabilele statistice s-ar distribui mai ales sub aceasta form dac ar fi efectuate un numr mare (tinznd spre infinit) de msurri. Curba normal si problema probabilitatii Procentajul ariilor de sub curba normal poate fi citit i ca probabilitatea a distribuiei. Probabilitatea nseamn frecvena relativ a apariiei unui eveniment. Acesta se traduce prin ct de siguri putem fi c acel eveniment apare. Rezult de aici c valorile din zona central a curbei sunt mai frecvente (mai multe), pentru ca apariia lor este mai probabil. n acelai timp, valorile mai puin probabile, apar mai rar, i se plaseaza in zonele extreme ale distribuiei (curbei). Dac probabilitatea reprezint raportul dintre evenimentul favorabil i toate evenimentele posibile, atunci valoarea ei variaz ntre 0 i 1. Ea poate fi exprimat i n procente. De exemplu, probabilitatea de 0.05 corespunde unui procentaj de apariie de 5% Utiliznd simbolul p (de la probabilitate), spunem c dac p<0.05 nseamn c evenimentul are mai puin de 5% anse s apar, n condiiile unei distribuii normale a curbei. De exemplu, probabilitatea de a avea un scor ntre medie i z=+1 este de 0.34. Distribuii reale i teoretice Asadar, distribuia normal reprezint un model teoretic care aproximeaz cele mai multe dintre caracteristicilor fenomenelor naturale, incluzndu-le i pe cele psihice. Cu toate acestea, distribuiile reale pe care le descoper psihologii n studiile lor nu au niciodat parametrii unei curbe normale perfecte. Acest lucru este practic imposibil dac ne gndim c o curb normal are limitele deschise, mergnd spre infinit, n timp ce distribuiile reale sunt finite. n ciuda acestui neajuns, aproximarea oferit de modelul teoretic al curbei normale este considerat acceptabil din punct de vedere tiinific. Un al aspect care poate conduce la interpretri eronate este exprimarea valorilor curbei normale n scoruri z. Acest fapt este interpretat uneori n sensul c transformarea n scoruri z a unei oricrei distribuii o transform ntr-o distribuie normal. Este o concluzie greit. Convertirea valorilor unei distribuii n scoruri z nu modific forma distribuiei. Distribuia normal z este o distribuie teoretic n timp ce o distribuie z oarecare are forma distribuiei valorilor originale.

DISTRIBUTIA MEDIEI DE ESANTIONARE


Cnd constituim un eantion pentru cercetare utilizm doar unul dintre eantioanele posibile din populaia cercetrii. In fapt am putea selecta mai multe eantioane din aceeai populaie, iar pentru fiecare dintre ele am putea stabili indicatori sintetici specifici: media i abaterea standard etc. Pentru ca fiecare dintre eantioanele alese va avea are propria sa medie, atunci se poate vorbi de distribuia mediilor tuturor eantioanelor posibile. Aceasta se numete distribuia mediei de eantionare sau, mai scurt, distribuia de eantionare. La rndul ei, distribuia mediilor va avea si ea o medie, numit medie de eantionare. Astfel, dac am extrage toate eantioanele posibile dintr-o populaie, atunci media de eantionare va fi identic cu media populaiei iar media fiecrui eantion va gravita n jurul mediei de eantionare. Asa stind lucrurile media fiecarui esantion poate fi considerata o aproximare a mediei de esantionare, aproximare care contine, evident, o oarecare imprecizie. Aceast imprecizie se numete eroare de estimare. Sigur ca, n practic, niciodat nu se ajunge la selectarea tuturor eantioanelor posibile dintr-o anumit populaie de valori.
mprtierea distribuiei de eantionare - eroarea standard a mediei

sm =

Distribuia de eantionare nu are aceeai mprtiere ca i a distribuia valorilor variabilei de origine. Aceasta pentru c, la nivelul fiecrui eantion o parte din mprtierea total este absorbit de media fiecrui eantion n parte. Cu ct eantioanele sunt mai mari, cu att media fiecrui eantion tinde s fie mai apropiat de media variabilei originale. Imprtierea distribuiei de eantionare va fi mai mic dect mprtierea variabilei la nivelul ntregii populaii, deoarece o parte a mprtierii generale se concentreaz i se pierde, n media fiecrui eantion extras. Ca urmare, abaterea standard a distribuiei de eantionare este o fraciune din abaterea standard a populaiei, fiind dependent de mrimea eantionului. Concret, abaterea standard a distribuiei de eantionare este egal cu N din abaterea standard a populaiei, unde N este volumul eantionului. Deoarece mprtierea mediei de eantionare arat ct de mult se abat aceste medii de la media populaiei, abaterea standard a mediei de eantionare este denumit eroare standard a mediei i se calculeaz cu formula: unde sm este eroarea standard a mediei de eantionare, este abaterea standard a populaiei iar N este volumul eantionului. Deci, prin creterea volumului eantionului, media acestuia se apropie tot mai mult de media populaiei, cu alte cuvinte, comport o eroare din ce n ce n mai mic fa de aceasta. Eroarea standard a mediei (expresie mai greu de retinut, fiind utilizata pentru a defini un indicator al mprtierii, n timp ce are n compunere cuvntul medie) este in indicator care msoar ct de departe poate fi media unui eantion fata de media populaiei din care a fost extras. Avnd n vederea faptul c la numitor avem o expresie bazat pe N (volumul eantionului), este ca, cu ct eantionul este mai mare cu att eroarea standard a mediei este mai mic. 5

Teorema limitei centrale De regula, populaiile care fac obiectul de interes al cercetrilor de psihologie sunt mari si nu pot fi accesate n ntregimea lor. Apare astfel problema msurii n care putem estima caracteristicile statistice ale distribuiei populaiei (media, abaterea standard) pe baza acelorai indicatori calculai doar la nivelul unui anumit eantion, selectat pentru studiu. Soluia acestei probleme rezid n teorema limitei centrale care avanseaza dou axiome statistice: cu ct numrul eantioanelor realizate dintr-o populaie este mai mare, cu att media distribuiei de eantionare se apropie de media populaiei. distribuia mediei de eantionare se apropie de distribuia normal, cu att mai mult cu ct volumul eantionului este mai mare (chiar daca la niveelul populatiei distributia nu este una normala). Teorema limitei centrale permite inferene statistice fr a ne pune problema formei distribuiei variabilei la nivelul populaiei. Este de ajuns s utilizm un eantion destul de mare pentru a ne putea asuma presupunerea unei distribuii normale la nivelul mediei de eantionare. ntrebarea care se pune este, ns, ct de mare trebuie s fie un eantion pentru a putea fi considerat destul de mare? Vom spune c, dac eantionul de referin cuprinde cel puin 30 de subieci, teoria statistic accept c avem o distribuie normal a mediei de eantionare. Prin urmare 30 este numarul utilizat de obicei pentru constituirea eantioanelor minime de cercetare. Dac distribuia variabilei la nivelul populaiei este normal, atunci distribuia de eantionare atinge o form normal si pentru eantioane de volum mai mic.

DECI - distribuia mediei de eantionare are o evoluie diferit fata de distribuia valorilor individuale ale unei caracteristici. Chiar i atunci cnd acestea din urm nu se distribuie dup regulile curbei normale, mediile eantioanelor tind spre o distribuiei normal dac volumul lor este suficient de mare. - mrimea eantionului trebuie s fie de cel puin 30 de valori pentru a avea ncredere c teorema limitei centrale se verific. - chiar i eantioane de volum mai mic pot avea medii ce se plaseaz pe o distribuie normal, dac provin din populaii normale. - dar forma distribuiei la nivelul populaiei nu este de regula cunoscut. De aceea va trebui s utilizm, ori de cte ori ne putem permite cel puin 30 de valori.

NOTELE STANDARDIZATE Z PENTRU EANTIOANE (GRUPURI)


Dac avem media distribuiei de eantionare i abaterea standard a acesteia (calculat ca eroare standard a mediei), atunci putem exprima media unui eantion oarecare, ca scor standardizat z, ntr-o manier similar cu scorul standardizat z pentru o valoare oarecare. Vom putea vedea astfel n ce msur media eantionului in studiu se ndeprteaz de media populaiei de referin. Altfel spus, n ce msur rezultatul obinut pe eantion este unul obinuit (mai aproape de media populaiei) sau unul neobinuit (mai ndeprtat de media populaiei). Formula de calcul este foarte asemntoare cu formula lui z pentru valori individuale:
z= m sm

m este media eantionului este media de eantionare (care la limit tinde spre media populaiei) sm este eroarea standard a mediei de eantionare. De regula, pentru ca nu se poate calcula abaterea standard a populaiei, se accept faptul c aceasta este suficient de bine reprezentat de abaterea standard a eantionului extras din populatia respectiva. Ca urmare, putem utiliza n formula erorii standard a mediei abaterea standard a eantionului Exemplu: La un examen de verificare a cunostintelor, o grup de 45 de subiecti obine un scor mediu de m=28.5 puncte. Presupunnd c media pe populaia care a mai dat acest examen (calculat de-a lungul anilor anteriori) este =27.3, cu o abatere standard =8.2, trebuie s aflm care este performana grupei respective transformat n note z. Calculm mai nti abaterea standard a mediei: 8.2 8 .2 sm = = = = 1.22 N 45 6.70 Calculm apoi scorul z pentru grup:
z= m 28.5 27.3 1.20 = = = 0.98 sm 1.22 1.22

Dac vrem s tim unde se plaseaz performana grupului nostru pe o curb normal, atunci ne uitm pe tabela notelor z i gsim, n dreptul scorului z=0.98, valoarea tabelar 0.3365. Aceasta poate fi interpretat n mai multe feluri. De exemplu, putem spune c procentul performanelor posibile peste nivelul grupului nostru este 50%-33%, adic 17%. Sau, n termeni probabilistici, putem sune i c: probabilitatea de a avea o grup (un eantion, de aceeai mrime) care s obin un scor mai bun la un examen de statistic (cu aceleai ntrebri) este de 0.17.

Estimarea intervalului de ncredere pentru media populaiei


Una dintre consecinele practice ale teoremei limitei centrale este posibilitatea de a face o estimare a nivelului de ncredere pentru media populaiei, pe baza mediei unui eantion extras din acea populaie. Cu alte cuvinte putem afla, cu o anumit probabilitate, care este intervalul n care se afl media populaiei, cunoscnd doar media unui eantion extras din aceasta. Acest lucru se bazeaz pe proprietatea curbei normale de a avea un numr bine definit de valori pe un interval simetric n jurul mediei. Astfel, dac lum pe curba normal un interval cuprins ntre z=1.96 n jurul mediei, tim c acoperim aproximativ 95% din valorile posibile ale distribuiei. n acest caz, z=1.96 se numete z critic deoarece reprezint un prag limit, de o parte i de alta a mediei (care, pentru curba normal standardizat, este 0). Alegerea acestor limite pentru z critic se bazeaz, n esen, pe un criteriu subiectiv. Se pot alege, la fel de bine, valori simetrice ale lui z care s cuprind ntre ele 99% sau 99.9% dintre valorile de pe curba normal. Prin consens, ns, se consider c asumarea unui nivel de ncredere de 95% (corespunztor pentru valori critice ale lui z=1.96) este considerat suficient pentru pstrarea unui echilibru ntre precizia estimrii i probabilitatea estimrii. Ca urmare, n aceast condiie, putem spune c exist 95% anse ca, avnd media unui eantion aleator, media populaiei s se afle undeva n intervalul:

= m z critic * s m

Sigur ca, cu ct limitele intervalului de estimare sunt mai apropiate de media eantionului, cu att aceasta din urm estimeaz mai precis media populaiei i prezint mai mult ncredere.

LOGICA VERIFICARII IPOTEZEI STATISTICE


Obiectivul fundamental al cercetrii n psihologie este acela de a pune n eviden relaii ntre procese i fenomene. Avem n vedere dou tipuri de relaii: - de cauzalitate, atunci cnd modificarea unei variabile determin modificarea celeilalte (celorlalte) variabile aflate n studiu. O asemenea relaie de tip cauza-efect poate fi relevata doar dac valorile supuse prelucrrii provin din experimente psihologice. - de asociere (variatia concomitenta) - dou sau mai multe variabile variaz simultan, fr a putea afirma care dintre ele o influeneaz pe cealalt. Asocierea variabilelor este surprinsa n studii numite corelaionale, n care variabilele sunt msurate concomitent, n afara unui context experimental. Esena inferenei statistice este aceea de a estima posibilitatea unei relaii ntre variabile. Verificarea acestei estimri se numete testarea ipotezei iar rezultatul acestei proceduri este unul de natur probabilistic, comportnd, n toate cazurile, un anumit grad de incertitudine (eroare).
Ipoteza cercetrii i ipoteza statistic (de nul)

Utilizarea ipotezei de nul (sau ipoteza diferenei nule sau ipotez statistic) implic o dovad indirect a validitii ipotezei cercetrii i se bazeaz pe un scenariu negativ (similar cu a pune rul n fa). Ipoteza de nul se formuleaz ca opusul ipotezei cercetrii. Din punct de vedere formal, ipoteza de nul este simbolizat cu H0 iar ipoteza cercetrii cu H1. Dat fiind faptul c ipoteza care este supus efectiv testrii directe este ipoteza de nul, ipoteza cercetrii este denumit i ipoteza alternativ.
Decizia statistic

Acceptarea sau respingerea ipotezei de nul depinde de gradul de risc pe care suntem dispui s ni-l asumm. In practica cercetrii tiinifice s-a impus convenia unui prag minim de risc acceptat n decizia statistic. Acesta se numete nivel alfa () i corespunde probabilitii de 0.05. Dac probabilitatea calculat (p) pentru valoarea eantionului este mai mic sau egal cu probabilitatea acceptat (), atunci ipoteza de nul (H0) poate fi respins, fiind acceptat ipoteza cercetrii (alternativ). Acest lucru este similar cu a afirma c rezultatul unui cercetri este semnificativ statistic. Cu alte cuvinte, probabilitatea de a se obine un rezultat mai bun, ca urmare a jocului ansei (prin constituirea de eantioane aleatoare), este prea mic pentru a fi luat n considerare. Nota z corespunztoare limitei de respingere a ipotezei de nul (pragul sau nivelul alfa), este numit i z critic. Asadar, n comparaia rezultatelor derivate dintr-un context de cercetare cu cele calculate pe un context ipotetic, aleator (bazat pe ansa pur) se realizeaza astfel: o dac rezultatul calculat pentru un eantion este cel puin egal, sau mai mare, dect scorul critic, atunci avem un rezultat semnificativ al cercetrii, care ar fi avut anse prea mici s se produc din ntmplare. n consecin, ntr-un astfel de caz, ipoteza de nul se respinge iar ipoteza cercetrii se consider confirmat la un prag alfa p=0.05. o dac rezultatul cercetrii este mai mic dect scorul z critic, atunci avem un rezultat nesemnificativ al cercetrii, prin faptul c exist prea mullte 9

anse s obinem un rezultat chiar mai bun din intimplare. n aceast variant, ipoteza de nul se accept iar ipoteza cercetrii se consider infirmat la un prag alfa p=0.05. Raionamentul deciziei statistice exemplificat astfel, se va regsi n toate situaiile de testare a ipotezelor statistice indiferent de modelul de cercetare i de natura relaiei pe care vrem s o demonstrm ntre variabile.

10

TESTE STATISTICE
Testul z pentru un singur eantion Testul z se utilizeaza atunci cnd cunoatem media i abaterea standard a unei populaii i dorim s tim dac un eantion experimental face parte din aceast populaie sau nu. Dar pentru c puine variabile de interes pentru psihologie au medii i abateri standard calculate la nivelul populaiei, acest test statistic nu este printre cele frecvent utilizate n cercetarea psihologic. Cu toate acestea exista destule situaii n care testul z i poate dovedi utilitatea chiar dac variabilele pentru care se cunosc parametrii populaiei nu sunt numeroase. De exemplu, cazurile n care populaia cercetrii nu este att de extins nct s nu i se poat afla parametrii. Procedura unilateraa i bilaterala Daca ne intereseaza n ce msur rezultatul confirm ipoteza pe direcia valorilor din dreapta curbei normale (valori mari, cu z pozitiv) efectuam ceea ce se numete un test unilateral (one-tailed). In mod similar s e poate proceda tot la un test unilateral si n partea stng a curbei (valori mici, cu z negativ). Pentru a verifica ipoteza pe ambele laturi ale distribuiei se aplic ceea ce se numete testul z bilateral (two-tailed). n acest caz se pstreaz acelai nivel alfa (0.05), dar el se distribuie n mod egal pe ambele extreme ale curbei, astfel nct pentru 2.5% de fiecare parte, avem un z critic de 1.96 (cu semnul - sau +). Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercettorului. De regul ns, se prefer testul bilateral pentru ca introduce mai mult rigoare i lsa mai puin loc hazardului. Pragul alfa minim acceptabil (0.05). Am vazut c p=0.05 este un prag de semnificaie convenional. Faptul c scorul critic pentru atingerea pragului de semnificaie este 1.96 a jucat un rol insemnat n impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de dou abateri standard de la media populaiei de referin este semnificativ. Chiar dac persist posibiliti de a ne nela, ele sunt suficient de mici pentru a le trece cu vederea. Impunerea unui prag minim de semnificaie a testelor statistice are ns rolul de a garanta faptul c orice concluzie bazat pe date statistice rspunde aceluiai criteriu de exigen, nefiind influenat de subiectivitatea cercettorului. Nivelul alfa de 0.05 nu este dect pragul minim acceptat. Nimic nu mpiedic un cercettor s i impun un nivel mai exigent pentru testarea ipotezei de nul. n practic mai este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste praguri pot si exprimate i n procente, prin opusul lor. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel de ncredere de 95% n rezultatul cercetrii (99%, pentru p=0.01 i, respectiv, 99.9% pentru p=0.001). Utilizarea tehnicii de calcul i apariia programelor de prelucrri statistice face ca semnificaia valorilor testelor statistice sa fie calculat direct i exact de ctre program.

11

Testul t pentru un singur eantion Testul z poate fi utilizat doar atunci cnd cunoatem media populaiei de referin i avem la dispoziie un eantion mare (adic de minim 30 de subieci) . Puine sunt variabilele utilizate n psihologie pentru care s dispunem de msurtori la nivelul populaiei. n plus, nu ntotdeauna putem avea eantioane mari (minim 30 de subieci). Pentru situaiile care nu corespund acestor condiii, testul z nu poate fi aplicat. Pentru a se rezolva problema s-a dezvoltat un model teoretic bazat pe un tip special de distribuie, denumit distribuie t, cunoscut ns i ca distribuia Student, dup pseudonimul cu care s-a semnat autorul acestui model. Distribuia t este o distribuie teoretic care are toate caracteristicile unei distribuii normale (este perfect simetric i are form de clopot). Specificul acestei distribuii const n faptul c forma ei (mai exact, nlimea) depinde de un parametru denumit grade de libertate (df sau degrees of freedom), care este egal cu N-1 (unde N este volumul eantionului). Curba distributiei t este din ce n ce mai aplatizat pe msur ce df (volumul eantionului) este mai mic. Pe msur ce df este mai mare, distribuia t se apropie de o distribuie normal standard iar scorul critic pentru t este acelai ca i cel pentru z pe curba normal (1.96). Din cele spuse rezult c, dac avem un eantion de volum mic (N <30), vom utiliza testul t n loc de testul z. Interpretarea valorii lui t se face n mod similar cu cea pentru valorea z, cu deosebirea c se utilizeaz tabelul distributiei t care va tine cont si de numrul de gradelor de libertate. De alta parte, dac df este mare (peste 30), valorile tabelare ale lui t se apropie de cele ale lui z. Asa se face ca, n practic, testul t se poate utiliza i pentru eantioane mari (N30). Dar in nici un caz nu poate fi utilizat testul z n cazul unor eantioane mici (N<30). Prezentarea rezultatelor testului z sau t Prezentarea rezultatelor diferitelor proceduri statistice trebuie fcut astfel nct cititorii s i poat face o imagine corect asupra rezultatelor. De regula prezentarea rezultatelor unui test statistic se poate face n dou moduri: o fie sub form tabelar atunci cnd numrul variabilelor testate este relativ mare o fie narativ atunci cnd se are in vedere o singur variabil. De exemplu, in cazul testului pentru un singur eantion, se vor raporta: media eantionului, media populaiei, valoarea lui t (sau z), nivelul lui p, tipul de test (unilateral/bilateral). Exemplu: m= miu =, t=, p>0.05, one-tailed. Atentie! Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ, dac nu a fost fixat un alt prag, mai sever.

12

TESTUL T PENTRU EANTIOANE INDEPENDENTE


Unul dintre modelele de cercetare frecvente, ns, este acela care vizeaz punerea n eviden a diferenelor care exist ntre dou categorii de subieci. n situaii de acest gen psihologul compar mediile unei variabile msurat pe dou eantioane compuse din subieci care difer sub aspectul altor variabile (sexul, nivel de instruire, etc.). Variabila supus comparaiei este variabila dependent, deoarece presupunem c suport efectul variabilei sub care se disting cele dou eantioane i care, din acest motiv, este variabil independent. n situaii de acest gen, eantioanele supuse cercetrii se numesc independente, deoarece sunt constituite, fiecare, din subieci diferii. Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane Problema pe care trebuie s o rezolvm este urmtoarea: Este diferena dintre cele dou eantioane suficient de mare pentru a o putea considera ca determinat de variabila independent, sau este doar una dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou variabile este o relaie semnificativ. Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar media populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe o baz strict ntmpltoare. Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi. Media acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa tinde sa se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui eantion extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane, cel mai probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei, conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare. a. Testul t pentru dispersii diferite Acesta se bazeaz pe considerarea separat a dispersiilor celor dou populaii (estimate prin dispersiile eantioanelor). 13

b. Testul t pentru dispersia cumulat Dispersiile celor dou eantioane pot fi considerate mpreun pentru a forma o singur estimare a dispersiei populaiei (2). Obinem astfel ceea ce se numete dispersia cumulat, pe care o vom nota cu. EXEMPLU: S presupunem c vrem s vedem dac recompensa (variabila independent) determin o cretere a duratei de concentrare a atentiei, constatata printr-un numr mai mare de minute in timpul orei in care copii ramin atenti la explicatiile invatatorului (variabil dependent). Pentru aceasta selectm un lot de 10 elevi care vor fi recompensati i un alt lot de 10 elevi care nu vor fi recompensati. Pentru fiecare lot vom msura durata medie de concentrare. Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice Pentru exemplul de mai sus: Problema cercetrii: Are recompensa are efect asupra capacitatii de concentrare a atentiei? Ipoteza cercetrii (H1): Acordarea recompensei determin o crestere a duratei de concentrare. Ipoteza de nul (statistic) (H0): Durata de concentrare nu este mai mare nu este mai mare la lotul care a fost recompensat. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem n vedere dect eventualitatea ca recompensa sa creasca s creasc durata de concentrare). Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale ipotezelor: Ipoteza cercetrii: Durata de concentrare a atentiei este diferita la elevii care au fost recompensati fata de cei care n-au fost recompensati Ipoteza de nul (statistic): Durata de concentrare nu difer semnificativ n funcie de acordarea recompensei. Fixarea lui t critic. Alegem efectuarea unui test bilateral, pentru c nu putem ti dinainte dac recompensa nu are un efect negativ asupra capacitatii de concentrare. Alegem nivelul: =0,05. Stabilim gradele de libertate: df=N1+N2-2=18 Utiliznd tabelul distribuiei t pentru 18 grade de libertate (adic 20-2) i =0,05, bilateral, vom gasi un t critic. Pentru a respinge ipoteza de nul si a accepta ipoteza cercetrii, valoarea t calculat va trebui s fie cel puin egal sau mai mare dect t critic. DECI: a. se va compara t calculat cu t critic din tabelul distributiei t b. se va lua decizia statistic: se respinge sau se accepta ipoteza de nul c. concluzia cercetrii: se va admite sau respinge ipoteza cercetrii.

14

Prezentarea rezultatului La prezentarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi menionate: mediile fiecrui eantion, volumul eantioanelor sau gradele de libertate, valoarea testului, nivelul lui p. n form narativ: Lotul x a realizat o performan mai bun (m= ) fa de lotul y (m=), t(df)=, p<0.05 Interpretarea rezultatului la testul t pentru eantioane independente Trebuie s precizm c, atunci cnd calculm testul t, nu valoarea obinut este relevant ci probabilitatea care este asociat acestei valori ( p). Atunci cnd p este mai mic sau egal cu 0.05, va fi semnificativ diferena dintre mediile celor dou eantioane (adic suficient de mare pentru a respinge ipoteza c ar putea fi ntmpltoare). Totusi modelul de cercetare nu permite formularea acestei concluzii n termenii unei relaii cauzale. Condiiile n care putem calcula testul t pentru eantioane independente - esantioane aleatoare - eantioane independente (distincte din punctul de vedere al variabilei independente, care determin constituirea grupurilor) - variabila supus msurrii s se distribuie normal n ambele populaii. Aceasta ne garanteaz c i distribuia diferenelor dintre medii se distribuie normal. Totui, teorema limitei centrale ne permite asumarea normalitii distribuiei mediei de eantionare chiar i n cazul variabilelor care nu se distribuie normal la nivelul populaiei iar testele t sunt robuste la nclcarea condiiei de normalitate. - dispersia celor dou eantioane s fie omogen. Iar daca eantioanele sunt suficient de mari (cel puin 100 fiecare) sau au acelai volum (N1=N2) problematica omogenitatii dispersiei nici nu trebuie sa ne mai preocupe. Cnd se utilizeaz testul t pentru eantioane independente? Acest test statistic se utilizeaz n situaiile n care vrem sa aflm dac o variabil dependent, msurat pe o scal de interval/raport, difer semnificativ ntre dou grupuri (eantioane) difereniate pe o variabil independent, msurat pe scala de tip nominal (dihotomic). Deoarece este unul dintre modelele frecvent ntlnite n practica cercetrii psihologice, utilizarea testului t pentru eantioane independente este i ea des ntlnit n literatura de specialitate.

15

TESTUL T PENTRU EANTIOANE DEPENDENTE


Un alt model uzual n cercetarea psihologic vizeaz comparaia a dou valori msurate pe aceiai subieci Exemple: evaluarea nivelului anxietii nainte i dup un program de desensibilizare; evaluarea timpului de reacie nainte i dup ingerarea unei cantitati de alcool. Pentru ca este vorba despre msurarea unor variabile la aceiai subieci, acesta este un model intrasubiect. mai exista si situatii cind natura situaiei experimentale nu permite utilizarea acelorai subieci pentru cele dou msurri. n acest caz se poate gsi pentru fiecare subiect corespunztor condiiei iniiale un subiect similar, corespunztor condiiei finale, constituind astfel perechi de subieci aparinnd fiecare unui grup distinct, ntre care se poate face o comparaie direct. n astfel de cazuri, avem de a face cu aa numitul model al eantioanelor perechi . De remarcat ca c n ambele situaii se utilizeaz msurtori de acelai fel, cu acelai instrument, care produce valori exprimate n aceeai unitate de msur, ntre care se poate efectua un calcul direct al diferenei. Pentru descrierea testului statistic adecvat acestor situaii s ne imaginm urmtoarea situaie generic de cercetare: Un grup de pacieni cu tulburri de tip anxios sunt inclui ntr-un program de psihoterapie, avnd drept scop ameliorarea nivelului anxietii. nainte de nceperea programului a fost aplicat o scal de evaluare a anxietii. Acelai instrument a fost aplicat din nou, dup parcurgerea programului de terapie. Atentie! testul t pentru eantioane independente surprinde variabilitatea dintre subieci, n timp ce testul t pentru eantioane dependente (msurri repetate) se bazeaz pe variabilitatea intra-subiect, aceea care provine din diferena valorilor de la o msurare la alta, la nivelul fiecrui subiect n parte.

Logica ipotezei de nul In astfel de cazuri ipoteza de nul presupune c media diferenelor la nivelul populaiei este 0. Ceea ce nseamn c testul t trebuie s demonstreze c media diferenelor msurate este suficient de departe de 0, pentru a respinge ipoteza de nul i a accepta ipoteza cercetrii. Exemplu Problema cercetrii: Se poate obine o crestere a duratei de concentrare a atentiei prin acordarea unor recompense? Ipoteza cercetrii (H1):

16

Pentru test bilateral Acordarea de recompense are efect asupra capacitatii de concentrare a atentiei. Intrebare: cum apare ipoteza pentru test unilateral? Ipoteza de nul (H0): Pentru test bilateral Acordarea de recompense nu are nici un efect asupra capacitatii de concentrare a atentiei.. Cum apare ipoteza pentru test unilateral? Populaiile cercetrii: Lotul 1 Elevi carora li s-au acordat recompense. Populaia 2 Elevi carora nu li s-au acordat recompense. Ipoteza cercetrii afirm c ele sunt diferite, n timp ce ipoteza de nul afirm c ele sunt identice. Decizia statistica Alegem modul de testare a ipotezei: bilateral Fixm pragul = (0.05 sau 0.01). Cutm t critic la pragul fixat functie de gradele de libertate (N-1). Comparm t calculat cu t critic la pragul fixat Acceptm sau nu ipoteza de nul functie de care vom decide asupra ipotezei de cercetare. - fie probabilitatea de a se obine o crestere a capacitatii de concentrare ca urmare a jocului hazardului este mai mare dect pragul pe care ni lam impus - fie probabilitatea de a se obine o crestere a capacitatii de concentrare ca urmare a jocului hazardului este mai mica dect pragul pe care ni lam impus Decizia: datele sprijina / nu sprijin ipoteza cercetrii. Prezentarea rezultatului La publicare se vor meniona: volumul eantionului, valoarea testului t, pragul de semnificaie i dac testul a fost unilateral sau bilateral. Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel: Un lot de ? elevi cu probleme de concentrare au intrat intr-un program cu acordare de recompense. Capacitatea de concentrare a fost evaluat nainte i dup acordarea de recompense. S-a constatat o crestere / reducere a duratei de concentrare de la o medie de ? la ? dup acordarea recompenselor. Diferena a atins / nu a atins pragul semnificaiei statistice t(df)=?, p>0.01 , pentru =0.01 bilateral.

17

TESTAREA DIFERENEI DINTRE MAI MULT DE DOU MEDII-ANALIZA DE VARIN (ANOVA)


Exista situaii de cercetare n care avem de comparat trei sau mai multe medii. La prima vedere, am putea fi tentai s rezolvm problema prin compararea repetat a mediei grupelor, dou cte dou. Din pcate, exist cel puin trei argumente pentru care aceast opiune nu este de dorit a fi urmat: Trebuie sa stim ca prin efectuarea repetat a testului t se acumuleaz o cantitate de eroare mai mare dect este permis pentru o decizie statistic (0.05). De exemplu, pentru efectuarea repetat a testului t pentru trei eantioane independente, sar cumula o cantitate total de eroare 0.15 adic 0.05+0.05+0.05. Pentru a elimina aceste neajunsuri, se utilizeaz o procedur statistic numit analiza de varian (denumit pe scurt ANOVA). In esen, ANOVA nu este altceva dect o extensie testului t pentru situaiile n care se dorete compararea a mai mult de dou medii independente. Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite: ANOVA unifactorial presupune: variabil dependent msurat pe o scal de interval/raport. variabil independent (nominal sau ordinal) care ia trei sau mai multe valori. Modelul de analiz de varian cu o singura variabil independent se numete ANOVA unifactorial, ANOVA simpl sau, cel mai frecvent, ANOVA cu o singur cale (Oneway ANOVA). ANOVA multifactorial presupune variabil dependent (similara cazului ANOVA unifactorial) dou sau mai multe variabile independente, fiecare cu dou sau mai multe valori msurate pe o scal nominal sau ordinal. Ce inseamna ANOVA unifactorial Specificul const n faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Procedura se bazeaz pe urmtorul demers logic: Ipoteza cercetrii sugereaz c fiecare grup are o medie caracteristic, diferit de a celorlalte. Prin opoziie, ipoteza de nul, ne oblig s presupunem c cele trei loturi pe care vrem s le comparm, provin dintr-o populaie unic de valori iar diferenele dintre mediile lor nu reprezint dect expresia variaiei fireti a distribuiei de eantionare. Loturile pot avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare (m1m2m3) i, de asemenea, mprtieri (dispersii) diferite (s1s2s3). S ne gndim la cele trei medii pe care vrem s le comparm ca la o distribuie de sine stttoare, de trei valori (sau mai multe). Cu ct ele sunt fi mai diferite una de alta, cu att distribuia lor are o mprtiere (varian) mai mare. Dac eantioanele ar aparine populaiei de nul, diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care acestea ar proveni din populaii distincte (corespunztor ipotezei cercetrii). Se pune astfel urmtoarea problem: ct de diferite (mprtiate) trebuie s fie mediile celor trei eantioane, luate ca distribuie de sine stttoare de trei valori, 18

pentru ca s putem concluziona c ele nu provin din aceeasi populatie ci din trei populaii diferite, corespunztoare eantioanelor de cercetare (1, 2, 3)? Pentru aceasta trebuie sa aflam: a) dispersia valorilor individuale la nivelul populaiei care se bazeaz pe toate valorile msurate, indiferent grup; b) dispersia mediilor fiecarui grup (considrat ca lot separat); c) raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar exprima apartenena fiecreia din cele trei medii la o populaie distinct n timp ce obinerea unei valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic. Care este modul de calcul pentru cei doi termeni ai raportului? Calcularea exact a dispersiei populaiei este imposibil (deoarece nu avem acces la toate valorile acesteia), dar ea poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la nivelul populaiei de nul. La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de diferite sunt mediile eantioanelor care fac obiectul comparaiei. Raportul dintre dispersia intergrup i dispersia intragrup se numete raport Fisher i ne d valoarea testului ANOVA unifactorial. Cu ct acesta este mai mare, cu att mprtierea mediilor este mai mare i, implicit, diferen lor poate fi una semnificativ, ndeprtat ce o variaie pur ntmpltoare. Dac distana (mprtierea) dintre mediile eantioanelor care provin din cele trei populaii depete un anumit nivel, atunci putem concluziona c nu avem o singur populaie (ipoteza de nul) ci mai multe, mediile grupurilor prezentnd o diferen semnificativ. ASADAR Esena procedurii de calcul pentru ANOVA se bazeaz pe o dubl estimare a dispersiei populaiei cercetrii. Estimarea dispersiei populaiei pe baza mediei dispersiei grupurilor (variana intragrup) Pentru ca nu cunoatem dispersia populaiei din care ar putea proveni grupurile, o estimm prin dispersiile celor trei grupuri (s12, s22, s32). Calculnd media celor trei dispersii vom obine o valoare care estimeaz dispersia pentru cele trei grupuri luate mpreun. Aceast valoare se consider c estimeaz dispersia populaiei totale. Deoarece ea se calculeaz pe baza dispersiilor n interiorul grupurilor, este desemnat n mod uzual prin termenul de intragrup. Se noteaz cu s2intragrup iar formula de calcul va depinde de egalitatea sau inegalitatea volumelor grupurilor supuse cercatarii. Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor( variana intergrup) Mediile celor trei grupuri (loturi) sunt numere care pot fi analizate ca distribuie n sine, a cror dispersie (varian) poate fi calculat, fiind o estimare a mprtierii

19

valorilor la nivelul populaiei. Din cauz c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri. Deci analiza de varian are la baza raportul dintre cele dou estimri 2 s intergrup/s2intragrup. Acesta va tinde de s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor) devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz i se scrie astfel: s 2 int ergup F= 2 s int ragrup Distribuia F Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia Fisher, avnd urmtoarele caracteristici: 1. asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici); 2. poate lua o valori orict de mari; 3. forma distribuiei variaz n funcie de cele doua tipuri de grade de libertate: numrul grupelor (categoriile variabilei independente) i numrul subiecilor. Prezentarea rezultatului testului F (ANOVA) Pentru prezentarea ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. Narativ un rezultat poate sa apara in urmatoarea forma: Mediile pentru cele grupuri au fost: gr.1 - ?, gr.2 - ?, gr.3 - ?. Analiza de varian unifactorial a relevat o diferen semnificativ ntre aceste medii, F (df numarator, df numitor)=?; p0.05. Analiza post-hoc Testul ANOVA ne ofer o imagine global a relaiei dintre categoriile variabilei independente i valorile variabilei dependente. Cercettorul poate fi, ns, interesat care dintre grupuri difer ntre ele i n ce sens. Pentru a rezolva aceast problem, au fost dezvoltate diverse teste, denumite post-hoc, calculate dup aplicarea procedurii ANOVA. Testele post-hoc (ex.Bonferoni) se interpreteaz n mod similar testului t. Analiza post-hoc este permis numai dac a fost obinut un rezultat semnificativ pentru testul F. Asadar n practic, analiza de varian va cuprinde dou faze: prima, in care se decide asupra semnificaiei testului F, i a doua, n cazul c acest raport este semnificativ, n care se analizeaz comparativ diferenele dintre categoriile analizate, pe baza unui test posthoc.

20

REGRESIA LINIAR
Una dintre utilizrile importante ale coeficientului de corelaie este realizarea de predicii. Dac tim corelaia dintre dou variabile, putem s prezicem valorile uneia dintre ele pe baza valorilor celeilalte. Este vorba despre o variabil predictor, si una variabil criteriu. Asadar corelaia ar putea permite fundamentarea unei proceduri de predicie reciproc ntre variabilele respective. Dac tim, de exemplu, c dou variabile au o corelaie egala cu 1 (indiferent de semn) putem prezice orice valoare a unei variabile pe baza valorii celeilalte.

z y' = zx
Formula de mai sus descrie modul de predicie n valori z pentru variabila Y, pornind de la valorile variabilei X, numit din acest motiv predictor. Pentru c valoarea lui Y din formula de mai sus este una prezis, se noteaz cu indicele prim. S ne imaginm c am descoperit o corelaie perfect (r=+1) ntre scorul la un test de inteligen verbal (X) i cel la un test de inteligen abstract (Y). Conform formulei, pentru o valoare zx=1.5 vom prezice o valoare identic pentru Y, zy=1.5. Din pcate corelaiile perfecte sunt rare sau de loc ntlnite n realitate. Ca urmare, predicia suport riscul unei erori. Pentru aceasta formula se modifica:

z y' =r * zx
unde r este valoarea coeficientului de corelaie dintre cele dou variabile. Conceptul de regresie a fost introdus de Francis Galton care, studiind relaia dintre nlimea copiilor i a prinilor a observat c prinii cu nlimi excesive tind s aib copii cu nlime mai mic dect a lor, adic mai aproape de medie dect a prinilor. Galton a denumit aceast tendin ca regresie ctre mediocritate. Dar pentru ca intra in calcul corelaia de tip liniar se vorbeste de regresie liniar ctre medie. Reprezentarea grafic a regresiei Imaginea alturat reprezint linia de regresie simpl n cazul unei corelaii perfecte pozitive (r=+1). cercurile marcheaz intersecia fiecrei valori X cu valoarea corespondent a variabilei Y. originea liniei de regresie se afl n punctul 0 iar nclinarea (panta) liniei de regresie este de 45o. Se poate observa ca distana dintre fiecare punct de intersecie i linie este nul, fapt ce ne spune c linia de regresie estimeaz perfect, fr erori, modelul relaiei dintre cele dou variabile.
3,5 3,0 2,5

2,0

1,5

1,0

,5

z(y)

0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5

z(x)

21

Atunci cnd corelaia este diferit de 1, linia regresie este trasat pe o traiectorie de aproximare prin norul de puncte, astfel nct distana dintre fiecare punct i linie sa fie ct mai mic posibil. n esen, pentru a putea trasa dreapta de regresie a dou variabile, ne sunt necesare punctul de origine al acesteia i nclinarea, sau panta. Odat aflate, putem trasa linia de regresie utiliznd formula clasic a liniei drepte: Y=a+b*X, unde: Y este valoarea prezis a fiecrui punct de pe dreapt a este originea dreptei, punctul n care linia de regresie intersecteaz ordonata (axa Oy). b este panta liniei de regresie X este valoarea predictor a variabilei Y Intuitiv, linia de regresie poate fi vzut ca o medie a norului de puncte, fiind trasat astfel nct distanele fa de punctele distribuiei celor dou variabile s fie similare de o parte i de alta a liniei.

Analiza reziduurilor Linia de regresie se obine, de fapt, prin cutarea unui traseu prin norul de puncte astfel nct distana nsumat dintre dreapt i punctele de deasupra s fie egal cu distana nsumat fa de punctele de sub linie. in cazul unei corelaii perfecte toate punctele de intersecie ale valorilor celor dou variabile se afl exact pe dreapta de regresie. in cazul corelaiilor imperfecte distanele dintre puncte i dreapta de regresie exprim, de fapt, eroarea de estimare a asocierii dintre variabile. Distana dintre poziia real a punctelor i cea estimat cu ajutorul liniei de regresie se numete valoare rezidual i exprim, desigur, o eroare de estimare. . Cu ct suma distanelor de la fiecare punct la linia de regresie este mai mare, cu att eroarea de estimare este mai pronunat. Cu ct vor fi mai apropiate punctele de intersecie de linia de regresie, cu att mai puin eroare vom avea n predicie i, implicit, o corelaie mai mare. Invers, cu ct punctele de intersecie vor fi mai ndeprtate de linia de regresie, cu att cu att valoarea rezidual va fi mai mare iar corelaia va fi mai mic. La limit, pentru o corelaie egal cu 0, linia de regresie va avea o traiectorie orizontal, nclinarea ei fiind 0. Utilitatea analizei de regresie Analiza de regresie se utilizeaz n situaiile n care suntem interesai s facem predicii asupra unei variabile, pe baza alteia obinuta msurri anterioare. De exemplu, dac am efectuat o analiz de regresie ntre coeficientul de inteligen i performana in munca pe un lot de subieci, putem ulterior s estimm nivelul performanei in munca a altor subieci prin evaluarea inteligenei lor. Aceasta este procedura tipic pe care se bazeaz prediciile psihologice n contextul examenelor de selecie.

22

DIFERENTA INTRE FRECVENTE (TESTUL CHI - 2)


Foarte adesea, rezultatele unei cercetari se paote prezenta sub de frecventa. In aceste situatii nu mai sint operabile comparatiile bazate pe medii. Este cazul datelor categoriale. Pentru asemenea situatii s-a dezvoltat testul 2 , care este una dintre cele mai utilizate proceduri in stiintele sociale atit datorita specificului datelor cit si usurintei de calcul. Situatiile de aplicare a testului sint si ele diverse (comparare, asociere, concordanta). De retinut ca aplicarea testului 2 cere ca datele sa fie sub forma de frecvente absolute, mai precis variabilele sa fie nominale sau ordinale. Concret: presupunem ca ne-ar interesa studiul privind frecventa consumului de droguri in rindul populatiei tinere. In acest scop s-a obtinut o serie de date consemnate in tabelul: Toxicomani Neconsumatori Barbati 25 18 Femei 26 38

O analiza imediata a datelor ne-ar duce la concluzii de tipul: exista mai multe tinere consumatoare decit tineri proportia barbatilor consumatori este mai mare decit ceaa tinerelor Pentru compararea datelor, insa, se va porni de la tabelul prezentat care este un tabel cu 4 casute iar in fiecare casuta cite un numar. Aceste numere reprezinta in fapt frecvente observate fo, adica de o parte, frecventa cazurilor de persoane toxicomane iar de alta parte, numarul persoanelor neconsumatoare. Apare intrebarea in legatura cu diferentele care apar intre barbati si femei. Se datoresc aceste diferente intimplarii sau sint semnificative ? Altfel spus, din punct de vedere al consumului de droguri cele doua populatii sint identice sau nu ? Raspunsul necesar se poate da numai admitind ipoteza nula si verificindu-o cu ajutorul criteriului 2. Asadar, in casute sint inscrise proportiile observate, pe care le notam cu fo. Formulam ipoteza nula, adica presupunem ca grupele avute in vedere sint esantioane extrase la intimplare din aceeasi colectivitate, prin urmare diferentele constatate sint pur aleatoare. Deci ipoteza aceleasi colectivitati este admisibila sau nu ? Procedura: Admitind aceasta ipoteza ar trebui sa ne asteptam la aceleasi proportii in ambele esantioane.
In exemplul ales, pentru fiecare numar gasit in mod practic (pentru fiecare celula din tabel) vom estima numarul teoretic plecind de la datele existente si efectuind totalurile marginale pe linie si coloana.

23

Toxicomani Neconsumatori Total

Barbati 25 18 43

Femei 26 38 64

total 51 56 107

Vom determina frecventele teoretice ft pentru fiecare casuta din tabel apelind la regula de trei simpla. Totalul pe coloana inmultit cu totalul pe linie supra total esantion. In exemplu: 43 x 51 \ 107 = 20,5. Pentru prima celula frecventa teoretica este de 20,5. Se determina in acest mod ft si pentru celelalte celule obtinindu-se tabelul (cifrele obtinute se inscriu in casutele corespunzatoare intre paranteze). Toxicomani Neconsumatori Barbati 25 ( 20,5) 18 (22,5) Femei 26 (30,5) 38 (33,5)

Pentru a compara frecventele teoretice cu cele observate se vor lua patratele acestor diferente (evitindu-se nulitatea sumei diferentelor simple). Astfel se ajunge la simbolul 2 definit ca suma diferentelor frecventelor observate si teoretice la patrat impartita la frecventa teoretica. 2= (fo-ft)2 \ ft Exemplul de mai sus insumam atitia termeni cite casute avem. 2= (25-20,5)2\20,5 + ........=3,16 Valoarea obtinuta prin calcul se raporteaza la valorile tabelare ale lui 2. Tabelul indica probabilitatea corespunzatoare diverselor valori ale lui 2 sub ipoteza nula. Acesta tine seama si de numarul gradelor de libertate. Numarul gradelor de libertate se stabileste la 2 ca fiind (r-1)(c-1) in care r=nr.rinduri iar c=nr.coloane. In exemplu, nr, gr.de libertate = 1 Vom citi in tabel valorile lui 2 corespunzatoare diferitelor probabilitati. Daca valoarea obtinuta prin calcul este mai mica decit cea indicata in tabel, nu putem respinge ipoteza nula. Daca valoarea calculata este superioara celei din tabel vom considera diferentele puternic seminificative. In exemplu: 3.16 la 1 grad libertate valoarea tabelara este de 3.84 la p=0.05 . Valoarea calculata este mai mica deci nu respingem ipoteza nula. Criteriul 2 se poate generaliza la tabele cu un numar mare de casute, raminind valabil acelasi procedee de lucru. Totusi esantioanele trebuie sa fie destul de mari iar frecventele din casute sa nu fie sub

24

S-ar putea să vă placă și