Note de Curs Modele Si Programe de Analiza A Datelor

UNIVERSITATEA ANDREI AGUNA CONSTANA
MODELE SI PROGRAME DE ANALIZ A DATELOR Note de curs
LECT.UNIV.DR. NICU IONEL SAVA
CONSTANA 2012
1. ELEMENTE DE STATISTIC DESCRIPTIV I 1.1. Modaliti de msurare a variabilelor
Thorndike afirma c "tot ceea ce exist se gsete ntr-o anumit cantitate". McCall merge mai departe afirmnd ca "tot ce se gsete ntr-o anumit cantitate poate fi msurat". Prin variabil se nelege o anumit categorie care a fost cuantificat sau msurat. Cea mai ntlnit clasificare a lor, mparte variabilele n patru tipuri: nominale (categoriale), ordinale, de tip interval i de tip raport. Primele dou tipuri sunt calitative, ultimele dou cantitative (numerice). Scalele nominale reprezint un prim mod de msurare a variabilelor. Presupune o categorizare a variabilei fr a indica o anumit ordine ori cantitate. Variabila sex: masculin vs. feminin; Starea civil: cstorit, divorat, vduv, necstorit; reprezint exemple de scal nominal. Ele pot fi notate cu cifre (0feminin; 1-masculin) ns acestea nu pot fi procesate n termeni de cantitate sau ordine. Scalele ordinale sunt tot calitative. n acest caz, numerele sunt ierarhii i exprim locul sau ordinea ntr-un ir de date. Un exemplu banal este locul ocupat de cineva la o competiie anumit (primul, al doilea, , ultimul). n acest caz, numerele pot fi comparate ntre ele n termeni de "mai mult, mai puin sau egal". Trebuie ns subliniat valoarea ordinal a numerelor. Dac un subiect ocup locul doi, nu putem spune c el este la egal distan ntre locul unu i locul trei. S lum exemplul unui student care a obtinut 9,80 la examenul de admitere i a ocupat locul al doilea. Locul unu ar fi ocupat de un alt student care a avut media de 9.85, n timp ce pe locul trei s-a situat o persoan cu media 9.30. n cazul datelor ordinale,
diferena numeric n clasament nu este necesar egal cu diferena numeric exprimat n unitatea de msur utilizat n acel caz (cinci sutimi, respectiv cincizeci de sutimi). Cele doua tipuri de masuratori amintite pna acum presupun ntotdeauna utilizarea unor teste statistice neparametrice. Un al treilea tip de scal este de interval. Acest tip de msuratoare permite comparaia dintre date. Diferena dintre dou rezultate 4 si 2 este egal cu diferena dintre 6 si 4. n cazul unui test de inteligena diferena ntre 100 IQ si 50 IQ este egal cu diferena dintre 100 IQ i 150 IQ. Deficiena major a acestei scale este c valorile respective nu pot fi multiplicate sau divizate. Astfel noi nu putem concluziona c un subiect care a obinut 150 IQ este de 1,5 ori mai inteligent dect un altul care a obinut 100 IQ i nici de 3 ori mai inteligent dect unul care a obtinut 50 IQ. Cele mai multe instrumente psihometrice sau educaionale implicate n msurarea variabilelor cognitive sau comportamentale se gsesc la aceste trei nivele (nominale, ordinale, de interval). Un ultim tip de msurtori sunt scalele de raport. Acestea posed toate calitile unei scale de interval i are n plus dou noi. Permite multiplicarea sau divizarea datelor (2 kg sunt jumatate din 4kg i dublul unui kg). Acest tip de msurare indic de asemenea valoarea zero absolut, ce arat lipsa total a cantitii msurate. Cele mai multe caracteristici fizice (greutate; nlime; timp de reacie; nivelul adrenalinei) pot fi msurate astfel. Ultimele dou tipuri de scale (de interval, respectiv de raport) sunt expresii cantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici excepii. Pentru a aplica tehnicile de statistic parametric n cazul variabilelor msurate
prin scale numerice (de interval sau de raport) trebuie s vedem dac: Variabilele implicate sunt distribuite normal n cazul eantionului selectat; Dispersia variabilelor de interes n cadrul eantionului selectat trebuie s fie asemntoare cu dispersia variabilei pentru ntreaga populaie care ndeplinete caracteristicile eantionului. n plus, unele metode parametrice necesit condiii suplimentare. Dac condiiile sunt ndeplinite, este de preferat s utiliz m tehnicile parametrice (cantitative) deoarece sunt mai solide. Aceasta nseamn creterea ansei de a respinge o fals ipotez nula. 1.2. Analiza descriptiv univariat
Descrierea unui set de date necesit cel puin doi poarametri. Unul vizeaz tendina central a datelor, adic gsirea unei valori reprezentative pentru setul respectiv de date, iar cellat vizeaz gradul de mprtiere a datelor, urmrind omogenitatea sau eterogenitatea unui grup. In funcie de scalele de msurare utilizate se stabilete i parametrul tendinei centrale, respectiv al mprtierii datelor care ar trebui calculat. ntre parametrii mprtierii, abaterea standard i dispersia sunt cei mai ntlnii n cazul datelor numerice, iar abaterea intercuartil este mai des utilizat n cazul datelor msurate prin scale ordinale. n ceea ce privete datele nominale, situaia indicatorilor mprtierii este neclar. Indicatori precum entropia, indicele de fragmentare, indicele de diversitate sau cel al dispersiei calitative sunt aproape necunoscui i lipsesc cu desvrire din programele statistice pe calculator, n consecin, rspndirea lor este minim, majoritatea cercettorilor rezumndu-se la a urmri distribuia procentajelor pentru fiecare rspuns posibil.
n general, indicatorii mprtierii iau valoarea zero dac toate datele dintr-un set sunt identice. Cu ct datele sunt mai mprtiate (diferite), cu att valorile acestor indicatori sunt mai mari. n cazul datelor numerice, cel mai frecvent ntlnit pereche de parametri decriptivi este media, ca indicatori al tendinei centrale, i abaterea standard, ca indicator al mprtierii datelor. Acesti parametri au cele mai multe avantaje tehnice, permind realizarea mai multor operaii precum standardizarea datelor, clasificarea rspunsurilor etc. Totui n anumite situaii media i abaterea standard pot conduce la rezultate distorsionate, iar pentru a evita acest lucru este esenial s inspecftm grafic situaia rezultatelor obinute. 2. ELEMENTE DE STATISTIC DESCRIPTIV II 2.1. Analiza descriptiv bivariat n cazul n care dou variabile sunt analizate simultan, vorbim de o statistic bivariat. Cei mai importani indicatori descriptivi n aceast direcie sunt indicatorii de asociere. Asocierea sau relaionarea dintre dou variabile poate fi neleas prin termenii de covarian i independen. Dou variabile covariaz dac valorile uneia variaz mpreun cu valorile celeilate. n realitate se pot constata tot felul de astfel de legturi. Conceptul de independen este opus celui de covarian. Atunci cnd valorile a dou variabile nu se asociaz se poate spune c cele dou variabile sunt independente. Pentru a vedea gradul de covariaie dintre dou variabile avem la dispoziie trei elemente descriptive: a. Calcularea coeficienilor de corelaie ca indicatori de asociere; b. Reprezentarea grafic a norului de puncte;
c. Realizarea de tabele de contingen. 2.1.1. Coeficienii de corelaie Indicatorii descriptivi care arat gradul de covariaie dintre dou variabile sunt denumii coeficieni de corelaie. Corelaia este o form standardizat a covariaiei, eliminnd problema msurrii datelor prin scale diferite. Exist mai muli coeficieni de corelaie, selectarea lor fcndu-se n funcie de tipul de date colectate (nominale dihotomice, nominale cu mai mult de dou categorii, ordinale sau numerice), dar i de liniaritatea (monotonia) relaiei dintre dou variabile. Coeficienii de corelaie sunt indicatori descriptivi ce arat gradul de covariaie dintre dou variabile. Ei reflect gradul de variaie concomitent dintre dou i numai dou variabile: o singur variabil independent ( X) i o singur variabil dependent (Y). Cnd cele dou variabile covariaz n acelai sens, vorbim despre ocorelaie pozitiv (ex. cu ct timpul alocat pregtirii examenului de statistic este mai mare, cu att nota obinut la evaluarea final este mai bun). Dac asocierea este n direcii opuse (n timp ce o variabil crete, cealalt scade), discut m despre ocorelaie negativ. (ex. performana unui angajat la un test de atenie concentrat este cu att mai bun cu ct numrul de erori este mai mic).Se impune o precizare. Spre deosebire de experiment, care dezvluie relaii cauz-efect, studiul de corelaie nu ofer nemijlocit o msur a cauzalitii, ci pur i simplu a modului de asociere. Coeficientul de corelaie este un index al prezenei/absenei unei relaii ntre dou variabile i nu un index al unei relaii cauzale. Corelaia ns este implicat n predicie. O corelaie semnificativ (mare) ntre X i Y ne poate spune, cu diferite
grade de precizie c prin cunoaterea valorii uneia dintre cele dou variabile, putem s estim m valoarea celeilalte (ex. dac scorurile la unele scale din CPI (Y ) sunt ridicate, atunci i performanele managerial ( X) se poate estima c vor fi ridicate; condiia este ca ntre cele dou variabile s semnificativ. Coeficienii de corelaie se mpart n dou mari categorii:-coeficieni de corelaie parametrici: coeficientul Bravais-Pearson (r), biserial (r bis), punct biserial (r pbis);- coeficieni de corelaie neparametrici: coeficientul de corelaie arangurilor Spearman (), coeficientul Kendall (), .n funcie de tipul datelor colectate i de liniaritatea/monotonia relaiei dintre cele dou variabile, tratatele de statistic prezint o multitudine de coeficieni de corelaie. Cel mai ntlnit coeficient statistic utilizat n studiile corelaionale este r Bravais-Pearson, cunoscut i sub alte denumiri precum: coeficientul de corelaie liniar simpl, coeficientul r de ordinul zero etc. Acest coeficient r poate lua valori ntre -1 si +1, unde 0 semnific absena relaiei dintre cele dou variabile analizate. Pentru a apela la r Bravais-Pearson, pe lng caracterul numeric al datelor colectate, mai este nevoie ca relaia dintre cele dou variabile s fie liniar i ca norul de puncte s indice o situaie de homoscedasticitate (pentru detalii vezi Sava, 2004). 3. STATISTIC INFERENIAL 3.1. Ipoteza nul Ipoteza statistic este ipoteza care se face cu privire la parametrul unei repartiii sau la legea de repartiie pe care o urmeaz anumite variabile aleatoare. O ipotez statistic nu este neaprat adevrat. existe o corelaie
Ea poate fi corect sau greit. n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza alternativ. Ipoteza statistic ce urmeaz a fi testat se numete ipotez nul i este notat, uzual, H0. Ea const ntotdeauna n admiterea caracterului ntmpltor al deosebirilor, adic n presupunerea c nu exist deosebiri eseniale. Respingerea ipotezei nule care este testat implic acceptarea unei alte ipoteze. Aceast alt ipotez este numit ipotez alternativ, notat H1. Cele dou ipoteze reprezint teorii, mutual exclusive i exhaustive, asupra valorii parametrului populaiei sau legii de repartiie. Spunem c ele sunt mutual exclusive deoarece este imposibil ca ambele ipoteze s fie adevrate. Spunem c ele sunt exhaustive deoarece acoper toate posibilitile, adic ori ipoteza nul, ori ipoteza alternativ trebuie s fie adevrat. Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de semnificaie. O secven general de pai se aplic la toate situaiile de testare a ipotezelor statistice. Exist patru componente principale ale unui test privind o ipotez: ipoteza nul; ipoteza alternativ; testul statistic; regiunea critic (de respingere). Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rmne acelai, parcurgndu-se urmtorii pai: 1) Se identific ipoteza statistic special despre parametrul populaiei sau legea de repartiie (H0). Ipoteza statistic numit i ipotez nul specific ntotdeauna o singur valoare a parametrului populaiei i reprezint status-quo-ul, ceea ce este acceptat pn se dovedete a fi fals.
2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist suficiente dovezi, evidene, pentru a se stabili c este adevrat. Ipoteza alternativ este cea mai important, deoarece este ipoteza care ne rspunde la ntrebare. Ipoteza alternativ poate cpta trei forme, care rspund la trei tipuri de ntrebri referitoare la parametrul studiat: - dac parametrul este diferit (mai mare sau mai mic) dect valoarea specificat n ipoteza nul; - dac parametrul este mai mare dect valoarea specificat n ipoteza nul; - dac parametrul este mai mic dect valoarea specificat n ipoteza nul; 3) Se calculeaz indicatorii statistici n eantion, utilizai pentru a accepta sau a respinge ipoteza nul i se determin testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule. Pentru cele mai multe testri statistice ale ipotezelor, testul statistic este derivat din estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media eantionului este un estimator punctual al mediei din colectivitatea general, ea va fi utilizat n testarea ipotezelor privind parametrul media colectivitii generale. 4) Se stabilete regiunea critic, Rc. Regiunea critic reprezint valorile numerice ale testului statistic pentru care ipoteza nul va fi respins. Regiunea critic este astfel aleas nct probabilitatea ca ea s conin testul statistic, cnd ipoteza nul este adevrat, s fie , cu mic (=0.01 etc). Verificarea ipotezei nule se face pe baza unui eantion de volum n, extras din populaia X, care este o variabil aleatoare. Dac punctul definit de vectorul de sondaj x1,x2,,xn cade n regiunea critic Rc, ipoteza H0 se respinge, iar dac punctul cade n afara regiunii critice Rc, ipoteza H0 se accept. Regiunea critic este delimitat de valoarea critic, C punctul de tietur n stabilirea acesteia. n baza legii numerelor mari, numai ntr-
un numr foarte mic de cazuri punctul rezultat din sondaj va cdea n Rc, majoritatea vor cdea n afara regiunii critice. Nu este ns exclus ca punctul din sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul populaiei este adevrat. Cu alte cuvinte, atunci cnd respingem ipoteza nul, trebuie s ne gndim de dou ori, deoarece exist dou posibiliti: ea este fals ntr-adevr i ea este totui adevrat, dei pe baza datelor din sondaj o respingem. 3.2. Mrimea efectului
Aducem spre exmplificare doi indicatori de baz: r, respectiv r. Primul are ntotdeauna o valoare egal cu cea a coeficientului de corelaie r Bravais-Pearson, fiind astfel extrem de uor de calculat. Cel de-al doilea indicator este egal cu ptratul primului indicator (r*r). De remarcat este faptul c, dei ridicat la ptrat, r poate pstra semnul negativ dac avem de-a face cu o ipotez unilateral care specific asocierea invers ntre dou variabile, pentru a pstra tipul de relaie dintre acestea. Majoritatea cercettorilor apeleaz la cel de-al doilea indicator n interpretarea rezultatelor din perspectiva mrimii efectului. Astfel, un r = .16 (echivalent unui r de .40), reflectnd legtura dintre nivelul de inteligen i reuita colar a elevilor, este interpretat adesea n termeni procentuali. n cazul de fa, ar nsemna c 16% din variaia rezultatelor colare poate fi pus pe seama diferenelor n ceea ce privete inteligena elevilor. Dei logic ar fi s afirmm c inteligena influeneaz performana colar, corelaia n sine nu ne poate demonstra cauzalitatea acestei relaii. Chiar dac o asemenea valoare de 16% (corespunzatoare unui r egal cu .16, respectiv unui r de .40) pare destul de redus, interpretarea trebuie realizat n termeni relativi i nu absolui. Astfel, deoarece ne afl m n cazul tiintelor sociale
n care corelaiile mari (r > .50) sunt destul de rare, un asemenea rezultat (r = .16) poate indica o legtur destul de strns ntre cele dou variabile implicate. Cohen (1988) propune urmatoarele valori pentru r, respectiv r, n interpretarea magnitudinii mrimii efectului: efect sczut (r = .10, r = .01); efect mediu (r = .30, r = .09); efect puternic (r = .50, r = .25). Pentru exemplul oferit am putea afirma c, din punct de vedere practic, relaia dintre inteligen i reuita colar are o intensitate de magnitudine moderat spre puternic, fapt ce presupune consecine sesizabile n plan practic, care ar trebui luate n calcul. n plus, dac inem seama de transformrile din r n d i viceversa, am putea stabili chiar valori mai mici ale lui r i r pentru cele trei nivele de intensitate ale mrimii efectului. Astfel, am putea vorbi de: efect sczut (r = .10, r = .01, corespunztoare unui d = .20); efect mediu (r = .25, r = .06, corespunztoare unui d = .50); efect puternic (r = .37, r = .14, corespunztoare unui d = .80). Ambele clasificri pot fi utilizate n interpretarea acestor indicatori de mrime a efectului, alegerea aparinnd utilizatorului n funcie de preferina avut. n afara acestor doi indicatori de baz pentru cazul r simplu, PowerStaTim ofer celor interesai ali doi indicatori suplimentari (d Cohen si g Hedges), specifici situaiei de comparare a diferenelor dintre grupuri. Acetia vin n sprijinul celor interesai s uniformizeze calculul mrimii efectului, utiliznd aceeai unitate de msur sau n spijinul celor familiarizai doar cu indicatorii mrimii efectului bazai pe diferenele standardizate dintre medii.
4. STATISTIC INFERENIAL II 4.1. Puterea statistic a unei cercetri Imaginai-v puterea statistic drept o capacitate de a detecta vizual fenomene. Dac puterea statistic este mic, va fi dificil s observ m fenomenele de interes i vom concluziona, poate, c fenomenele respective nu exist. Acest lucru s-ar ntmpla datorit capacitii noastre reduse de detectare vizual a fenomenului n cauz. n schimb, dac vom reui s ne mbuntim aparatele de detectare a fenomenului, adic s cretem puterea statistic a unei cercetri, vom avea mai multe anse s detectm fenomenele ateptate. Mai mult, n situaii n care puterea statistic a devenit foarte mare, vom putea detecta orice fenomene, inclusiv pe acelea minuscule sau insignifiante. n practic se ntmpl mai rar acest lucru, deoarece majoritatea studiilor sufer de o putere statistic sczut. De altfel, Tversky si Kahneman (1993) sau Smith (2000) reamintesc de un studiu mai vechi a lui Cohen, care identifica, in studiile publicate in diverse reviste de specialitate, o valoare mediana a puterii statistice de .46. Acest rezultat este mult sub valoarea optim prescris de .80. Situaia nu s-a schimbat de atunci, rezultate modeste, similare fiind obinute i dup 25 de ani de la efectuarea acelui studiu (Cohen, 1990). Puterea statistic poate fi determinat foarte uor dac inem seama de valoarea lui (riscul de a comite eroarea de tip II), deoarece puterea statistic este egal cu 1 . Astfel, dac vom alege un de .20, puterea statistic a cercetrii respective va fi de .80, ceea ce semnific o probabilitate de 80% de a detecta un efect dac acesta exist. Importana practic a puterii statistice este capital n construcia designului de cercetare, deoarece puterea statistic a unei cercetri poate fi modificat n funcie de trei parametri importani:
- mrimea efectului (Ct de mare trebuie s fie un efect sau o relaie dintre dou variabile?); - mrimea eantionului (De ci subieci avem nevoie pentru a observa fenomenul de interes?); - valoarea (Care este pragul de semnificaie de la care vom respinge ipoteza statistic?). De asemenea, fiind o ecuaie format din patru parametri: puterea statistic, mrimea efectului, pragul de semnificaie ales i mrimea eantionului (erorile de msurare) putem deduce oricare indicator lips. Astfel, putem estima numrul de subieci necesari pentru a fi testai dac cunoatem mrimea efectului studiat, dac stabilim pragul de semnificaie sub care respingem ipoteza nul (de pild p de .05) i dac alegem o putere optim de .80 de a verifica ipoteza formulat. Similar, pe baza numrului de subieci testai, a mrimii efectului observat, i a pragului de semnificaie prestabilit se poate calcula puterea statistic a unui studiu. 4.2.Grade de libertate Gradele de libertate nsoesc ntotdeauna rezultatele statisticii infereniale. APA (2001) recomand ca n articolele de specialitate s se regseasc exprimri de genul t (23) = 4,11, p < .01, F (2, 20) = 1,73, P > .05 Dac t sau F reprezint simboluri ale tehnicilor statistice utilizate, iar p este pragul de semnificaie asociat acestor valori, datele din parantez nseamn coordonatele gradelor de libertate. n varianta clasic, aceste coordonate ne ajutau s descoperim valorile statistice din tabel care trebuie comparate cu valorile calculate de noi. O dat cu apariia statisticii pe calculator, acest lucru a devenit un atavism, deoarece pragul de semnificaie este oferit de calculator, mpreun cu
rezultatele obinute. Ce sunt de fapt gradele de libertate? Yu (2003) afirma c aceste grade de libertate nu au nimic de a face cu cstoria, dei un brbat nsurat, avnd o singur partener, nu mai are nici un grad de libertate. Acelai autor ofer o excelent explicaie intuitiv pentru gradele de libertate pornind de la elementele eseniale ce intervin n determinarea lor: volumul eantionului, respectiv numrul de parametri care trebuie calculai. Fr a avea caracter de lege, gradele de libertate pot fi exprimate frecvent prin numrul de observaii minus numrul de relaii necesare pentru a obine acele date (n r). 5. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE I 5.1. Testul t pentru eantioane independente Condiii de aplicare: - Eantioane aleatorii (ideal) sau neafectate de erori de eantionare (bias); - Eantioane independente (distincte din punctul de vedere al variabilei independente, care determin constituirea grupurilor); - Variabila supus msurrii se distribuie normal n ambele populaii. Aceasta garanteaz c i distribuia diferenelor dintre medii se distribuie normal. Totui, teorema limitei centrale ne permite asumarea normalitii didtribuiei mediei de eantionare chiar i n cazul variabilelor care nu se distribuie normal la nivelul populaiei, pentru eantioane mari. Dac ns analiza distribuiilor indic forme aberante, iar volumul grupurilor comparate este foarte mic, se va alege soluia unui test neparametric. De menionat este faptul c testele t sunt robuste la nclcarea condiiilor de normalitate. - Dispersia celor dou eantioane este omogen. Testul t poate fi aplicat strict
n cazurile n care dispersiile celor dou populaii sunt aceleai; La publicarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi menionate: - Mediile i abaterile standard ale fiecrui eantion; - Volumul eantioanelor sau gradele de libertate; - Valoarea testului; - Nivelul lui p; - Mrimea efectului; - Limitele de ncredere pentru diferena dintre medii. Concluzii: - Testul t pentru eantioane independente verific semnificaia diferenei dintre mediile a dou eantioane formate din subieci diferii, care au fost evaluate n condiii distincte; - n condiiile acestui test, se consider o variabil dependent cantitativ i o variabil independent calitativ, nominal, dihotomic (mparte eantionul cercetrii n dou grupuri); - Respingerea ipotezei de nul n acest caz nseamn acceptarea ipotezei c cele dou medii sunt diferite, ceea ce este echivalent cu acceptarea ipotezei cercetrii, care afirm existena unei relaii ntre condiia testrii i rezultatul msurat prin variabila dependent; - Intervalul de ncredere pentru diferena dintre medii reprezint limitele ntre care se afl diferena mediilor la nivelul populaiilor de nul. Cu ct intervalul este mai restrns, cu att diferena constatat ntre grupurile comparate este mai precis n estimarea diferenei reale; - Valoarea calculat a testului nu se interpreteaz n nici un fel; - Pentru a estima importana diferenei dintre medii, se calculeaz indicele de
mrime a efectului. Cu ct acesta este mai mare, cu att diferena dintre medii este mai important; - Testul t ofer o informaie referitoare la posibilitatea ca diferena s fie ntmpltoare, n timp ce mrimea efectului ne spune ct de mare este acest diferen. 6. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE II 6.1.Testarea diferenei dintre mai mult de dou medii: analiza de varian (ANOVA Analysis Of VAriance) Exist mai multe tipuri de ANOVA, dou dintre ele fiind mai frecvent folosite: - ANOVA unifactorial (One-way ANOVA) atunci cnd avem o variabil dependent msurat pe o scal de interval/raport msurat pentru trei sau mai multe valori ale unei variabile independente categoriale; - ANOVA multifactorial care se aplic cnd avem o singur variabil dependent, dar dou sau mai multe variabile independente, fiecare cu cte dou sau mai multe valori, msurate pe o scal categorial (nominal sau ordinal). ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul rezid din faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Condiii pentru utilizarea testului ANOVA: - Independena eantioanelor (grupurilor supuse comparaiei); - Normalitatea distribuiei de eantionare, n conformitate cu teorema limitei centrale;
- Absena valorilor extreme (outliers); - Egalitatea varianei grupurilor comparate. n raportul de publicare ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. La aceasta se adaug indicele de mrime a efectului. Concluzii: - Analiza de varian (ANOVA) testeaz diferena dintre mediile a mai mult de dou medii obinute pe eantioane independente; - Semnificaia diferenei dintre medii se testeaz prin analiza variabilitii lor; - ANOVA este necesar n cazul comparrii a mai mult de dou medii, deoarece compararea acestora cu ajutorul testului t, dou cte dou este nepermis, ca urmare a acumulrii nepermise de eroare de tip I; - o valoare semnificativ a testului F ne ndreptete s considerm c diferena dintre mediile comparate este suficient de mare pentru a nu fi ntmpltoare. Aceast concluzie are un caracter global, care privete variaia tuturor mediilor, fr a ne spune ceva despre raporturile dintre medii una fa de alta. - Mrimea efectului pentru testul ANOVA se evalueaz cu ajutorul a mai multor indicatori, dintre care cei mai utilizai sunt eta-ptrat i omegaptrat.
7. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE III 7.1.Testul t pentru diferena dintre mediile a dou eantioane dependente Este utilizat atunci cnd viz m comparaia a dou (sau mai multe) valori msurate pe aceeai subieci. Situaii de utilizare: - O anumit caracteristic se msoar naintea unei condiii i dup aciunea acesteia; - Un cercettor utilizeaz dou condiii de investigare, dar plaseaz aceiai subieci n ambele condiii; - Natura situaiei experimentale nu permite utilizarea acelorai subieci pentru cele dou msurtori. La publicarea rezultatului se vor meniona: volumul eantionului, mediile variabilei dependente n raport cu valorile variabilei independente, valoarea testului t, pragul de semnificaie, tipul de test (unilateral sau bilateral), mrimea efectului i limitele de ncredere ale diferenei. Concluzii: - Testul t pentru diferena mediilor a dou eantioane dependente vizeaz situaiile n care aceiai subieci au fost evaluai cu acelai instrument n situaii diferite; - Variabila independent este reprezentat de condiia n care are loc msurarea iar variabila dependent este trstura care face obiectul msurrii, fiind exprimat pe scal cantitativ; - Modul de interpretare a testului, calcularea intervalului de ncredere i al
mrimii efectului sunt similare testului t pentru eantioane independente. 8. TESTE STATISTICE PARAMETRICE PENTRU DATE
CANTITATIVE IV 8.1.Coeficientul de corelaie liniar Pearson Coeficientul de corelaie ofer informaii despre modul cum variaz valorile a dou variabile, una n raport cu cealalt, Astfel, coeficientul de corelaie nu are o semnificaie cauzal dect dac cele dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece numai n condiii de experiment. Ceea ce exprim r este intensitatea corelaiei liniare, adic msura n care norul de puncte reprezentat de intersecia valorilor-pereche ale celor dou variabile poate fi reprezentat de o linie dreapt. Asocierea de tip lin iar este ns doar una dintre formele de aproximare a legturii dintre variabile. In realitate, uneori corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu. Spre deosebire de testele t, valoarea testului r este interpretabil prin ea nsi, exprimnd intensitatea asocierii dintre variabile. O corelaie perfect fiind atunci cnd r este egal cu 1 sau -1. Interpretarea coeficientului de corelaie (Hopkins, 2000): 0,0 0,1 foarte mic, neglijabil, nesubstanial; 0,1 0,3 Mic, minor; 0,3 0,5 moderat, mediu; 0,5 0,7 mare, ridicat, major; 0,7 0,9 foarte mare, foarte ridicat; 0,9 1 aproape perfect. Valorile lui r trebuie considerate pe o scal ordinal. Dac dorim s compar m
n mod direct doi coeficieni de corelaie, trebuie s ridic m valorile lui r la ptrat, obinnd astfel ceea ce se numete coeficient de determinare. Acesta este considerat un indicator mai adecvat al mrimii efectului, deoarec e ia valori sensibil mai mici dect cele ale coeficientului de corelaie. Pentru a putea utiliza n mod legitim calculul corelaiei, eantionul trebuie s fie aleatoriu, iar cele dou variabile s aib o distribuie care s nu se abat grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic. O atenie deosebit trebuie acordat valorilor extreme, prezena lor putnd avea efecte neateptate asupra valorii coeficientului de corelaie. Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetare. Coeficientul de corelaie Pearson nu este singurul test al asocierii variabilelor. Exist o varietate de teste de corelaie, pentru situaiile n care variabilele cercetate sunt msurate, fiecare, pe orice scal de msurare. Raportarea coeficienilor de corelaie va cuprinde, pe lng indicatorii statistici descriptivi ai variabilelor (medii, abateri standard, indicatorii simetriei aplatizrii), volumul eantionului, valoarea lui r, nivelul de semnificaie i coeficientul de determinare r. Concluzii: - Coeficientul de corelaie Pearson testeaz intensitatea asocierii dintre dou variabile msurate pe aceiai subieci, n condiii diferite sau cu instrumente diferite; - Coeficientul de corelaie nu este un indicator al relaiei cauzale, ci doar al variaiei concomitente a valorilor variabilelor testate; - Domeniul de variaie al coeficientului r se regsete ntre 1 (corelaie perfect negativ) i +1 (corelaie perfect pozitiv). Valoarea 0 indic absena oricrei corelaii;
- Coeficientul de corelaie este sensibil la valorile extreme. Cu ct eantionul este mai mic, cu att efectul eventualelor valori extreme este mai mare; - Tipul asocierii surprins de coeficientul Pearson este cel liniar, care nseamnp c, n cazul unor asocieri curbilinii, chiar perfecte, valoarea coeficientului Pearson (r) poate fi mai mic sau chiar 0; - Valoarea coeficientului de corelaie este, prin ea nsi, un indicator de mrime a efectului. Totui, n acest scop se utilizeaz coeficientul de determinare r; - Coeficientul r calculat pe eantion estimeaz corelaia la nivelul populaiei; - Valoarea real a corelaiei la nivelul populaiei nu poate fi cunoscut cu precizie, dar poate fi estimat cu ajutorul limitelor de ncredere pentru r. 9. TESTE NEPARAMETRICE PENTRU DATE NOMINALE 9.1.Distribuia binomial Distribuia statistic binomial descrie frecvena de apariie a unui anumit eveniment de tip dihotomic n contextul unei serii de observaii. Caracteristicile distribuiei binomiale difer n funcie de numrul observaiilor (N) i de probabilitatea de apariie a evenimentului (P), vzut ca ans teoretic de apariie n raport cu toate evenimentele posibile. De exemplu, la aruncarea unei monede o singur dat, ansa (probabilitatea) teoretic de apariie a mrcii este P = = 0,5. Aceeai probabilitate caracterizeaz i rspunsul corect, dac rspundem la ntmplare la o ntrebare cu dou variante de rspuns, din care una este corect, iar alta greit. Odat cu gsirea modalitii de elaborare a distribuiei de nul se pot crea diverse teste de inferen statistic, printre care enumerm: 9.1.1. Testul z pentru proporia unui eantion n raport cu populaia
implic testarea semnificaiei unui procent observat n raport cu procentul populaiei (atunci cnd acesta este cunoscut), pentru evenimente de tip dihotomic; 9.1.2. Testul z pentru diferena dintre dou proporii; 9.1.3. Testul semnului (denumit astfel pentru c ia n considerare doar sensul variaiei, nu i valoarea ei) poate fi utilizat ca substitut al testului t pentru eantioane independente n cazul datelor msurate pe scal nominal dihotomic. Concluzii: - Distribuia binomial deriv din serii de evenimente independente dihotomice. Cele dou posibiliti ale fiecrui eveniment au probabilitile P i Q, a cror sum este 1; - Cnd P = Q = 0,5 disatribuia binomial este simetric; - Testul semnului poate fi utilizat n locul testului t pentru eantioane dependente atunci cnd nivelul diferenei dintre cele dou determinri nu poate fi evaluat, ci numai direcia diferenei. 9.2. Distribuia multinomial Evenimentele de tip binomial au un caracter dihotomic, putnd lua doar dou valori. Exist ns i evenimente care pot avea mai mult de dou stri, ceea ce poate fi descris prin trei sau mai multe valori. Organizarea datelor se realizeaz printr-o reprezentare sintetic tabelul de coresponden (contingen). Concluzii: - Dac evenimentele probabilistice au mai mult de dou valori, probabilitatea cu care fiecare eveniment cade ntr-una din categoriile posibile se supune distribuiei multinomiale; - Din cauza complexitii procesului de evaluare a probabilitilor multinomiale, este utilizat o estimare a acestora prin distribuia chi-ptrat.
Numrul gradelor de libertate pentru distribuia multinomial este dat de n umrul categoriilor minus 1; - Testul chi-ptrat are dou variante: testul chi-ptrat al asocierii testeaz diferena dintre valorile a dou variabile categoriale (nominale sau ordinale); testul chi-ptrat al corespondenei (goodness of fit) msoar diferena (potrivirea) dintre valorile unei variabile categoriale i probabilitile teoretice cunoscute dinainte ale acestor valori; - Diferenele mari dintre frecvenele observate i cele ateptate produc valori ridicate ale testului chi-ptrat, care cad n zona dreapt (pozitiv) a distribuiei de nul i conduc la respingerea acesteia. Diferenele mici produc valori ale testului chi-ptrat apropiate de zero, conducnd la acceptarea ipotezei de nul; - Atunci cnd fiecare dintre cele dou variabile are doar dou categorii, situaie n care frecvenele ateptate sunt prea m ici pentru a justifica o estimare chi-ptrat, se utilizeaz testul exact Fischer. 10. TESTE STATISTICE PENTRU DATE ORDINALE I Testele statistice pentru date ordinale se utilizeaz n urmtoarele situaii: - Atunci cnd variabile dependent este exprimat pe scal de tip ordinal. n acest caz valorile nu au proprieti de interval, dar exprim poziia fiecreia n raport cu cealalt; - Atunci cnd variabila dependent este msurat pe scal de interval/raport, dar distribuia ei nurespect condiiile impuse de testele parametrice. n aceast situaie se efectueaz o transformare de rang, adic se nlocuiete fiecare valoare a distribuiei cu poziia pe care o are n cadrul distribuiei, sub aspectul ordinii de mrime. Noua distribuie rezultat poate fi supus
analizei statistice cu teste neparametrice ordinale. 10.1. Testul Mann-Whitney (U) pentru dou eantioane
independente S lum n considerare urmatoarea problem: Un specialist care lucreaz ntr-o mare banc dorete s vad dac exist o diferen ntre premiile bneti anuale primite de femeile i brbaii angajai ai bncii. Problema este una tipic pentru a fi rezolvat cu testul t al diferenei dintre mediile a dou eantioane independente. Avem o variabil independent de tip nominal-dihotomic i una dependent, de tip interval/raport. Din pcate, analiza preliminar a variabilei dependente ("prima") relev abateri mari de la condiiile de normalitate (un indice de boltire, kurtosys, de peste 7) precum i o slab reprezentativitate a mediei, ambele datorate, mai ales, prezenei unei valori extreme (o prim de 200 mil. lei). Dup ce verificm corectitudinea valorii respective, ajungem la concluzia ca ea nu poate fi eliminat i, ca urmare, nu este recomandabil utilizarea unui test parametric. ntr-o situaie de acest gen este aplicabil testul "Mann-Whitney U" pentru date ordinale. Proced m la transformarea n ranguri a valorilor variabilei dependente. Atribuirea rangurilor n mod descresctor sau cresctor este nerelevant. Dac toate valorile sunt distincte, fiecare valoare primete un rang distinct. Atunci cnd exist valori identice, valorile respective primesc un rang egal cu media aritmetic a rangurilor cuvenite. La publicarea rezultatului pentru testul Mann-Whitney U se vor indica: volumul grupurilor comparate (nA si nB) valoarea testului (U) pragul de semnificatie (p).
10.2.
Testul Kruskal-Wallis pentru mai mult de dou eantioane
independente Pentru evaluarea diferenei la nivel de ranguri ntre mai mult de dou eantioane independente se utilizeaz testul Kruskal-Wallis. Acesta poate fi asimilat unei analize de varian pentru date ordinale. S presupunem ca avem trei categorii de subieci (piloi, controlori de trafic i navigatori de bord) crora le-a fost aplicat un test de reprezentare spaial. S presupunem, de asemenea, c valorile variabilei dependente nu se preteaz la un test ANOVA, dat fiind prezena ctorva valori extreme ce nu pot fi eliminate. n aceste condiii, testul Kruskal-Wallis este alegerea potrivit. Aceasta presupune ordonarea dup rang a valorilor variabilei dependente (reprezentare spaiala) pentru toate categoriile de subieci, luate mpreun. 11. TESTE STATISTICE PENTRU DATE ORDINALE II 11.1.Testul Wilcoxon pentru dou eantioane pereche Dac avem subieci evaluai de dou ori, pe o scal de interval, iar variabilele nu ntrunesc condiiile pentru utilizarea testului t al diferenelor pentru eantioane dependente, se poate apela la testul Wilcoxon. Acesta este un test care, dei se aplic pe scale de interval/raport, utilizeaza proceduri de tip neparametric, apelnd la diferenele dintre valorile perechi i la ordonarea lor. Este, din acest punct de vedere, un test de date ordinale. 11.2.Testul Friedman pentru msurtori repetate S presupunem c un psiholog dorete s studieze relaia dintre stilurile de conducere (laissez-faire, democratic i autoritar) asupra nivelului de satisfacie
profesional. n acest scop el poate constitui un grup de cercetare pe care s l supun, n momente succesive, celor trei tipuri de conducere. Un alt model ar putea fi constituirea a trei eantioane perechi, astfel constituite nct fiecrui subiect dintr-un eantion s i corespund cte un subiect "echivalent" din fiecare dintre celelalte dou eantioane (criteriile de echivalen pot fi: sexul, vrsta, nivelul de inteligen, gradul de motivare, etc.). Dar, oricare dintre variantele pe care le-ar alege cercetatorul, din punct de vedere statistic el ar obine o structur de date identic: trei serii de evaluari ale satisfaciei (variabila dependent), pentru aceiai subieci (sau perechi de subieci) corespunzatoare celor trei stiluri de conducere. Dac variabila dependent ar fi masurat pe o scala de interval/raport, testul parametric adecvat este, "ANOVA pentru msurri repetate". n lipsa lui i presupunnd ca variabila dependent nu ntrunete conditiile unui test parametric, soluia problemei este testul Friedman pentru date ordinale. Pentru aplicarea lui este suficient ca valorile variabilei dependente s fie ordonate dup rang, ca n tabelul alturat. Facem precizarea c, n acest caz, ordonarea dup rang se face la nivelul fiecrui set de evaluri perechi: Testul Friedman poate fi aplicat i n cazul a doar dou msurri, situaie n care devine similar testului semnului. La fel ca i celelalte teste pentru date ordinale, el este afectat de existena rangurilor atribuite ex-aequo, pentru valori identice. n astfel de cazuri este recomandabil aplicarea unei corecii formulei de calcul, pe care nu o vom prezenta aici, n sperana c utilizarea programelor specializate va face, oricum, coreciile necesare. 12. TESTE STATISTICE PENTRU DATE ORDINALE III 12.1.Coeficientul de corelaie pentru date ordinale
Testele Wilcoxon i Friedman sunt utilizate pentru a pune n eviden diferenele dintre dou sau mai multe eantioane perechi (situaie care, de regul, se refer la msurri repetate pe aceiai subieci). Atunci cnd avem dou variabile ordinale i suntem interesai n evaluarea gradului de asociere ntre ele, vom utiliza un test similar coeficientului de corelaie pentru date de interval care este coeficientul de corelaie a rangurilor (Spearman). Aa cum ne amintim, coeficientul de corelaie Pearson (r) ne d msura intensitii legturii dintre dou variabile exprimate pe scale de tip interval/raport. Mecanismul de calcul se bazeaz pe transformarea valorilor ambelor variabile n scoruri z, adic pe convertirea acestora n "distan standard" fa de medie. Pentru datele de tip ordinal, modalitatea de calcul a coeficientului de corelaie se bazeaz pe poziia relativ a unei valori fa de celelalte. Coeficientul de corelaie a rangurilor Spearman (rS) are acelai domeniu de variaie Pearson. Dac nivelul de semnificaie (p) este mai mare dect 0.05, coeficientul de corelaie va fi considerat nesemnificativ (are anse prea mari s rezulte din jocul ntmplrii). Aceasta nu nseamn c nu exist o corelaie ntre cele dou variabile ci doar c datele noastre nu au putut s o pun n eviden. Calcularea coeficientului de determinare (r2) n cazul corelaiei Spearman nu este recomandabil, dei exist autori care o accept. 13. INTEGRAREA 13.1. ANALIZEI STATISTICE A DATELOR N (-1/+1) i se interpreteaz n acelai mod ca i coeficientul de corelaie pentru date parametrice
DOCUMENTUL DE CERCETARE I Alegerea testului statistic n statistic, cel mai simplu este s aplici formula i s calculezi rezultatul. Dificultatea const n a alege formula i a interpreta rezultatul.
Alegerea testului statistic potrivit este adesea una din ncercrile cele mai mari prin care trece un tnr cercettor. Alegerea testului statistic nu este prima, ci ultima problem pe care trebuie s o rezolve. Pentru a rezolva aceast problem sunt necesare att cunotine de metodologia cercetrii, ct i o experien destul de ndelungat n prelucrarea datelor. Totui, situaia poate fi mult uurat dac se urmeaz o serie de raionamente i reguli de baz, precum: - Formularea ipotezelor; - Identificarea variabilelor cercetrii; - Recoltarea datelor cercetrii; - Sintetizarea datelor cercetrii; - Alegerea testului statistic adecvat.
Obiectivul cercetrii Variabila independent Variabila dependent I/R Una Nominal I/R Independente Diferena dintre grupuri Categorial (numr de categorii) Dou Nominal Ordinal I/R Dependente Nominal Ordinal Independente Trei + Dependente Asocierea variabilelor Interval/Raport Ordinal I/R Ordinal I/R Ordinal I/R Ordinal Testul statistic aplicabil z/t pentru un eantion z pentru o proporie t pentru eantioane independente z pentru dou proporii Mann-Whitney U t pentru eantioane dependente Testul semnului Wilcoxon ANOVA unifactorial Kruskal-Wallis ANOVA pentru msurtori repetate Friedman r Pearson rs Spearman
Categorial (nominal sau ordinal)
Categorial (N/O)
Chi-ptrat Testul exact Fisher
13.2.
Reguli de fixare a mrimii eantioanelor de cercetare
Alegerea mrimii eantionului, n contextul diferitelor modele de cercetare, este un subiect ce trebuie tratat cu atenie, dac dorim s asigurm cercetrilor noastre consisten sub aspectul puterii i al mrimii efectului. Reputatul psihometrician Jacob Cohen i aduce aminte cum a nvat n facultate c pentru a compara dou grupuri trebuie utilizate eantioane a cte 30 de subieci, orice eantion mai mic de 30 fiind considerat eantion mic. Concluzia este c puterea testului i mrimea efectului sunt strns legate de mrimea eantionului. 14. INTEGRAREA ANALIZEI STATISTICE A DATELOR N DOCUMENTUL DE CERCETARE II 14.1. Integrarea analizei statistice n documentul de cercetare - Prezentarea cadrului general al cercetrii exprimarea clar a tipului de studiu statistic efectuat, a obiectivelor urmrite, redarea ipotezei cercetrii, definirea clar a populaiei i a eantionului supus cercetrii; - Prezentarea metodei i a lotului de subieci identificarea variabilelor analizate, a instrumentelor de cercetare, a procedurii de investigare; - Prelucrarea datelor analiza primar a datelor, verificarea ipotezelor statistice, alegerea procedurilor statistice minime necesare, testarea ipotezelor, atenie la problema variabilelor multiple, reinere fa de declararea relaiei cauzale, tabele i figuri; - Discutarea i interpretarea rezultatelor interpretarea semnificaiei statistice; - Formularea concluziilor
14.2. Consideraii etice n analiza statistic Valoarea unei cercetri tiinifice este condiionat n mod direct de msura n care respect criteriile etice ale comunitii profesionale. Aspecte relevante cu privire la utilitarea programelor statistice de prelucrare a datelor: - Standarde de competen; - Corectitudinea datelor; - Transmiterea datelor; - Protejarea datelor; - Onestitatea tiinific; - Buna conduit n cercetarea tiinific.
Bibilografie: OPARIUC-DAN, Cristian Statistic aplicat n tiinele socio-umane, Editura ASCR, Cluj-Napoca, 2009; POPA, Marian Statistic pentru psihologie, Editura Polirom, Iai, 2008; POPA, Marian Statistici multivariate, Editura Polirom, Iai, 2010; SAVA, Nicu-Ionel Suport de curs Modele i programe de analiz a datelor, Universitatea Andrei aguna, Constanta, 2011; SAVA, Florin Analiza datelor n cercetarea. Metode statistice complementare, Editura ASCR, Cluj-Napoca, 2004.

Note de Curs Modele Si Programe de Analiza A Datelor

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Note de Curs Modele Si Programe de Analiza A Datelor

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA ANDREI AGUNA CONSTANA

MODELE SI PROGRAME DE ANALIZ A DATELOR Note de curs

LECT.UNIV.DR. NICU IONEL SAVA

1. ELEMENTE DE STATISTIC DESCRIPTIV I 1.1. Modaliti de msurare a variabilelor

Testul Kruskal-Wallis pentru mai mult de dou eantioane

Categorial (nominal sau ordinal)

Chi-ptrat Testul exact Fisher

Reguli de fixare a mrimii eantioanelor de cercetare

S-ar putea să vă placă și