Sunteți pe pagina 1din 13

Asumpiialetehnicilordeanaliza datelor(I)Corelaii

Posted by Cristian Opariuc-Dan on Tuesday, 11 December 2012 in Blog profesional


Font size: Larger Smaller Hits: 866 0 Comments Subscribe to this entry Print More Sharing ServicesBookmark

inShare Am tot scris n articole despre asumpii. Nu tiu dac este suficient de clar acest termen. Asumpiile reprezint condiii absolut necesare pentru ca o anumit tehnic de analiz a datelor s fie valid, s conduc spre rezultate concludente. Voi iniia cteva articole destinate acestui concept. Voi prezenta, scurt, asumpiile necesare unor tehnici precum i modalitatea lor de verificare. Nu voi detalia. Putei gsi dumneavoastr informaii suplimentare. Astzi cteva asumpii legate de corelaii.

Coeficientul de corelaie produs-moment r BravaisPearson


Una dintre cele mai folosite tehnici de analiz corelaional, coeficientul de corelaie produsmoment r Pearson are valoare doar dac sunt ndeplinite, simultan, urmtoarele condiii:

Variabilele sunt situate cel puin la un nivel de msur de interval. Coeficientul de corelaie nu se poate calcula pentru variabile nominale sau ordinale; Variabilele trebuie s aib o distribuie acceptat ca fiind normal. Dac distribuia nu este normal, coeficientul de corelaie r Bravais-Pearson induce n eroare; Legtura dintre cele dou variabile trebuie s aib un caracter liniar. Acest coeficient de corelaie indic mrimea unei legturi liniare dintre variabile, ns, dup cum tim, pot exista i corelaii neliniare. Verificarea acestei asumpii se realizeaz foarte simplu prin inspectarea norului de puncte (scatterplot); n cele dou variabile nu trebuie s existe scoruri extreme. Prezena scorurilor extreme poate afecta foarte puternic coeficientul de corelaie. Putei folosi, n acest sens, graficul de tip box-plot. Dac exist scoruri extreme, eliminai acele cazuri din analiz; Distribuia celor dou variabile trebuie s aib un caracter homoscedastic. Cu alte cuvinte, grosimea norului de puncte trebuie s fie relativ constant pe ntreaga distribuie. Heteroscedasticitatea reduce foarte mult valoarea coeficientului.

Coeficientul de corelaie a rangurilor rho Spearman

De multe ori vom folosi acest coeficient de corelaie ca alternativ n cazurile n care nu se nceplinesc condiiile unei corelaii r Bravais-Pearson. Totui, acest coeficient de corelaie presupune, i el, o serie de asumpii:

Variabilele trebuie s fie situate cel puin la un nivel de msur ordinal. Metoda nu se poate folosi pentru variabile de tip nominal; Relaia dintre cele dou variabile trebuie s fie una monoton. Nu este obligatoriu s fie una liniar, doar monoton. Adic, dac crete o variabil, trebuie s creasc i cealalt variabil sau invers.

Coeficientul de corelaie a rangurilor tau Kendall


Este cel mai permisiv coeficient de corelaie, perfect adecvat pentru ranguri. Calculul acestuia impune urmtoarele condiii:

Variabilele trebuie s fie situate cel puin la un nivel de msur ordinal. Nu se poate folosi acest coeficient de corelaie dac datele sunt de tip nominal; Nu trebuie s existe prea multe ranguri egale. n cazul n care exist multe ranguri egale, valoarea coeficientului nu mai este relevat. Atunci se va folosi coeficientul gamma i nu tau.

Asocierea chi ptrat i variantele acesteia


Att coeficientul de asociere chi ptrat, ct i testul chi ptrat nu pune condiii referitoare la tipul de date, ci impune doar respectarea urmtoarelor reguli:

Prezena unui eantion selectat aleatoriu dintr-o populaie; Numr suficient de mare de cazuri astfel nct n fiecare celul a tabelului de contingen s existe cel puin 5 cazuri.

Coeficienii de corelaie de tip serial


Cei mai cunoscui sunt coeficienii de tip biserial i punct biserial. Singura dinferen dintre acetia este legat de tipul dihotomiei unei variabile.Totui, exist i aici o serie de condiii:

Una dintre variabile trebuie s fie de nivel nominal iar cealalt variabil cel puin la nivel de interval. Dac vorbim de coeficieni biseriali, variabila nominal trebuie s fie dihotomic. Pentru coeficienii triseriali, variabila nominal va avea trei niveluri; Variabila scalar trebuie s respecte toate condiiile prezentate la coeficientul de corelaie r Bravais-Pearson.

Corelaii pariale
Corelaiile pariale se folosesc atunci cnd suspectm existena unei a treia variabile care poate covaria cu una sau cu ambele variabile principale i dorim s izolm efectul acesteia.

Fiind bazate pe coeficientul de corelaie r Bravais-Pearson, toate variabilele trebuie s ndeplineasc asumpiile acestuia.

Acum tii cum i n ce condiii putei conduce analize corelaionale fr s v facei de rs. n final am s v furnizez un tabel orientativ pentru a putea alege tehnica de analiz corelaional n funcie de tipul celor dou variabile:

Scalar normal Scalar nenormal Scalar normal r Bravais-Pearson rho Spearman

Ordinal Nominal rho Spearman biserial

Scalar nenormal

rho Spearman rho Spearman

Ordinal tau Kendall biserial Nominal triserial

tau Kendall triserial rho Spearman rho Spearman tau Kendall rho Spearman tau Kendall chi ptrat tau Kenall chi ptrat chi ptrat

n urmtorul articol vom vedea asumpiile testelor de diferen. Sper s v fie de folos.

Analize difereniale.Testedediferen ntremedii(II)


Posted by Cristian Opariuc-Dan on Luni, 06 August 2012 in Analiz de date

Font size: Larger Smaller Hits: 1122 0 Comments Subscribe to this entry

Print More Sharing ServicesBookmark

inShare Testele de diferen semnificativ ntre medii (numite i teste t Student) verific dac exist diferene semnificative ntre mediile a dou populaii din care au fost extrase eantioanele i nu dac exist diferene semnificative ntre mediile a dou eantioane, aa cum cred unii. Remarca este foarte important dac avem n vedere condiiile n care se pot aplica aceste teste. Fiind teste statistice parametrice, bazate pe medii, acestea presupun urmtoarele asumpii:

Eantioanele extrase trebuie s provin dintr-o populaie n care acea caracteristic s se distribuie normal. Cu alte cuvinte, trebuie s ne asigurm de faptul c distribuia variabilelor dependente este una normal. De data aceasta, variabila dependent nu se mai trateaz unitar, ci la nivelul celor dou eantioane. De exemplu, dac variabila independent este genul biologic, atunci va trebui s testm normalitatea distribuiei pentru variabila dependent att n cazul brbailor, ct i n cazul femeilor. Pentru detalii legate de modul n care putei face acest lucru, vedei articolele Analiza normalitii distribuiei (I) i Analiza normalitii distribuiei (II). Cele dou populaii din care au fost extrase eantioanele trebuie s aib variane egale. Din fericire, exist un test statistic pentru aa ceva, este vorba despre testul Levene de egalitate a varianelor, pe care-l vom discuta. Fiecare scor observat trebuie s fie independent de celelalte scoruri. Cu alte cuvinte, diferenele dintre scoruri s se datoreze doar efectului generat de variabila independent, nu i de alte variabile confundate. Aceasta este, poate, cea mai important asumpie a utilizrii testelor t Student, ndeplinrea ei innd de designul de cercetare.

Teste t Student pentru compararea mediei unui eantion cu media unei populaii (OneSample t Test)
Aceste teste statistice permit compararea mediei unui eantion extras din populaie cu media populaiei. S presupunem c noi cunoatem, din surse statistice, c media anual a accidentelor auto comise n Romnia este de 12,4 accidente. Aceasta este media populaiei. Dorim s aflm dac media accidentelor comise n Constana se abate semnificativ de la aceast medie general i formulm urmtoarea ipotez de cercetare: Exist o diferen semnificativ ntre media accidentelor de circulaie comise n localitatea Constana i media naional anual a accidentelor de circulaie de 12,4. Ipoteza nul corespunztoare, pe care o vom testa de fapt, este urmtoarea: Nu exist nicio diferen ntre media accidentelor de circulaie comise n localitatea Constana i media naional a accidentelor de circulaie de 12,4 accidente pe an.

Ce facem n continuare? Simplu. Construim un eantion aleatoriu i ntrebm persoanele cte accidente auto au comis n ultimul an. nregistrm datele i verificm dac acestea se distribuie normal. Dac da, atunci putem aplica acest test statistic.

Vom folosi opiunea Analyze, apoi Compare Means i, n final One-Sample T Test. Se va afia urmtoarea fereastr, din figura alturat. Configurarea este extraordinar de simpl, aproape c nu mai necesit comentarii. Vom introduce variabila dependent n lista Test Variable(s) i valoarea mediei populaiei n caseta Test Value. Observai alturat cum se face. Variabila dependent este numrul de accidente, pe care am introdus-o n lista Test Variable(s) iar media populaiei este 12,4, valoare pe care am introdus-o n caseta Test Value. Nu rmne dect s apsm butonul OK pentru a efectua comparaia.

Rezult dou tabele foarte simple. Primul tabel este cel descriptiv (One-Sample Statistics) i include rezultatele analizei univariate ale variabilei numar de accidente. Aflm numrul de subieci, media accidentelor comise, eroarea standard a mediei i abaterea standard. Al doilea tabel este mai important deoarece conine rezultatele testului t Student.

Aflm din tabelul One-Sample Test faptul c exist o diferen semnificativ ntre media populaiei (12,4) i media eantionului extras din populaie (2,10). Vom exprima acest lucru sub forma t(30)=29,59; p<0,01. Sensul diferenei este dat de semnul testului t Student. Fiind negativ, atunci media eantionului este semnificativ mai mic n comparaie cu media populaiei. Diferena dintre aceste medii este de 10,3 accidente, situat ntr-un interval de ncredere de 95% cuprins ntre 11,01 accidente i 9,59 accidente. Da, n Constana se produc semnificat mai putine accidente n comparaie cu media naional (dac n-ar fi date fictive, ar fi chiar bine). Cum interpretm? Simplu: Exist o diferen semnificativ ntre accidentele comise n localitatea Constana ntr-un an i media anual

naional a accidentelor de 12,4 (t(30)=29,59; p<0,01) n sensul c n Constana se produc semnificativ mai puine accidente comparativ cu situaia de la nivel naional. Clar i la obiect. Asemenea tip de teste statistice le vom folosi i n situaia n care comparm media unui eantion cu media teoretic a unei scale. Spre exemplu, la scala extraversiune subiecii pot obine, teoretic, ntre 0 i 40 de puncte. Media teoretic (mijlocul scalei) este de 20 de puncte, aceasta fiind valoarea cu care vom compara media la extraversiune obinut de eantionul de subieci pentru a vedea dac subiecii sunt semnificativ extravertii sau semnificativ introvertii.

Testul t Student independente

pentru

eantioane

Cele mai frecvente situaii presupun compararea mediei a dou populaii din care au fost extrase eantioanele. Pentru acest lucru s-a inventat testul t Student pentru eantioane independente. Ne propunem s vedem cine produc mai multe accidente rutiere: blondele sau brunetele. n aceast situaie, ipoteza de cercetare ar deveni: exist o diferen semnificativ ntre blonde i brunete sub aspectul numrului de accidente comise iar ipoteza nul spune c nu exist o diferen semnificativ ntre blonde i brunete din punctul de vedere al numrului de accidente produse. Cum procedm? Variabila independent este culoarea prului cu dou categorii: blonde i brunete iar variabila dependent este reprezentat de numrul de accidente produse ntr-un an calendaristic. Vom extrage un eantion de minimum 30 de blonde i un eantion de minimum 30 de brunete i vom nregistra cte accidente au produs n ultimul an. Apoi vom vedea cum se distribuie variabila numr de accidente att n cazul blondelor, ct i n cazul brunetelor. n situaia n care se distribuie normal, putem folosi testul t Student pentru eantioane independente.

Vom merge la meniul Analyze, opiunea Compare means i apoi click pe Independent-Samples T Test. Procedura este foarte asemntoare cu cea prezentat anterior. n lista Test Variable(s) vom include variabila dependent, n cazul nostru numrul de accidente. n caseta Grouping Variable includem variabila independent, adic cea referitoare la culoarea prului, variabil care mparte baza de date n blonde i brunete. SPSS nu tie n acest moment cum ai codat dumneavoastr blondele i brunetele. Blondele pot fi codate, la fel de bine, cu cifrele 1, 5, 9, 69 sau un miliard (bine, ultimele sunt numere nu cifre, n fine), la fel i brunetele. Noi am codat blondele cu cifra 1 i brunetele cu cifra 2. Va trebui s-i spunem programului acest

lucru ca s tie s extrag din baza de date doar blondele i brunetele i s formeze dou grupe. Facem acest lucru cu ajutorul butonului Define Groups...

Noua fereastr permite aceast definire. Variabila culoarea prului este o variabil discret, prin urmare vom alege varianta Use specified values. Vom introduce n caseta Group 1 valoarea 1 deoarece cu 1 am codat blondele i n caseta Group 2 valoarea 2 deoarece cu 2 am codat brunetele. Nu e nicio problema dac procedm invers, deoarece, dup cum tii deja, nu exist nicio relaie de ordine ntre blonde i brunete, niciuna nu este superioar celeilalte. n cazul n care variabila independent ar fi fost continu, spre exemplu vrsta, atunci am fi putut face altceva. Dac am decide c subiecii sub 40 de ani sunt tinerei iar cei peste 40 de ani sunt monegi i am dori s comparm monegii cu tinereii, atunci am alege opiunea Cut point i am introduce n caset numrul 40 ca reper. SPSS va forma automat 2 eantioane cu subiecii peste 40 de ani i sub 40 de ani pe care le va compara. Noroc c nu e cazul nostru. Dup ce am definit grupele apsm butonul Continue pentru a ne ntoarce la fereastra iniial i apoi OK pentru a lansa analiza. Primul tabel (Group Statistics) este unul descriptiv. Aflm cte blonde avem, cte brunete, mediile accidentelor comise pentru fiecare grup, erorile standard ale mediilor i abaterile standard. Al doilea tabel ne intereseaz ceva mai mult deoarece prezint rezultatele testului t Student.

Tabelul Independent Samples Test este puin mai complex fa de cel prezentat anterior. Observm c avem dou valori pentru testul t Student. Pe care o vom lua n considerare? Ei bine, rspunsul st n testul Levene de egalitate a varianelor. Acest test pleac de la ipoteza nul conform creia nu exist nicio diferen ntre varianele celor dou eantioane. Dac testul ar fi semnificativ, atunci vom respinge ipoteza nul i vom spune c exist diferen ntre varianele celor dou eantioane, adic varianele nu sunt egale. n cazul nostru testul nu este semnificativ (F=1,254; p=0,272), deci nu putem respinge ipoteza nul. Aadar,

varianele celor dou eantioane sunt egale ndeplinind astfel una dintre asumpii. n acest caz valoarea care ne intereseaz este prima valoare de pe linia Equal variances assumed. Testul t Student pentru eantioane independente nu este semnificativ (t(29)=0,724; p=0,475), aadar nu vom putea respinge ipoteza nul conform creia nu exist nicio diferen ntre blonde i brunete sub aspectul numrului de accidente rutiere comise. Att blondele, ct i brunetele comit cam acelai numr de accidente, culoarea prului nefiind un difereniator n acest sens. Uite cum spulberm tiinific un mit. ntr-adevr, diferenele dintre mediile celor dou eantioane de femei se situeaz sub un accident, mai exact 0,522 accidente cu o abatere standard de 0,72 accidente. Deci, dragii mei, renunai la stereotipul blondelor de la volan.

Testul t Student pentru eantioane perechi


Dac eantioanele independente din exemplul de mai sus sunt.... independente, blondele neavnd nicio legtur cu brunetele, eantioanele perechi (numite i relaionate sau msurri repetate) presupun aceeai subieci n dou momente de timp, nainte i dup apariia unui eveniment. Revenind la exemplul nostru, ne propunem s vedem ce rol au orele de pregtire n reducerea numrului de accidente. Aceleai fete din eantionul de mai sus vor fi supuse unui program de pregtire rutier de 4 luni, apoi, pe timp de un an, vor fi monitorizate pentru a vedea cte accidente rutiere mai comit. Ipoteza este c programul de pregtire influeneaz numrul de accidente rutiere comise, cu ipoteza nul conform creia nu exist niciun efect al programului de pregtire asupra numrului de accidente comise. De data aceasta vom avea dou variabile dependente: numrul de accidente comise, variabil pe care o tii deja i numrul de accidente dup pregtire, noua variabil.

Vom folosi meniul Analyze, apoi Compare means i, n final, Paired-Samples T Test. Fereastra difer destul de mult de celelalte ferestre. n acest caz va trebui s construim perechile de variabile dependente. Vom face click pe prima variabil dependent, numr de accidente i vom apsa butonul de transfer. Se observ c aceast variabil este inclus n lista Paired Variables n caseta Variable 1 din dreptul primei perechi (Pair). Apoi facem click pe a doua variabil dependent, numrul de accidente dup instruire i apsm din nou butonul de transfer. Variabila se va include n caseta Variable 2 din cadrul aceleiai perechi. Astfel am creeat perechea de variabile care ne intereseaz. n acelai mod putem crea oricte perechi dorim. Nu rmne dect s apsm butonul OK pentru a lansa analiza. Vom obine tabelul descriptiv al ambelor variabile dependente, aa cum tii deja, cu mediile, abaterile standard, numrul de cazuri i eroarea standard a mediilor (Paired Samples Statistics), un tabel al... corelaiilor, vedem imediat ce e cu el i tabelul care ne intereseaz, Paired Samples Test.

Testul este semnificativ, prin urmare putem respinge ipoteza nul coform creia nu exist nicio influen a cursurilor de instruire suplimentar asupra numrului de accidente comise. ntr-adevr, dup instruire se comit semnificativ mai puine accidente n comparaie cu situaia de dinainte de instruire (t(30)=3,57; p<0,05). Aadar, instruirea a avut efect. Tabelul ne furnizeaz i alte date referitoare la diferenele dintre cele dou medii, pe care le tii deja.

Totui, apare o surpriz: un tabel de corelaii (Paired Samples Correlations). Ce naiba caut corelaiile ntr-un test statistic? Iaca caut (cacofonie intentionat). Acest tabel indic pstarea ordinii rangurilor. n cazul nostru corelaia este semnificativ i pozitiv (r=0,663; p<0,01), adic fetele care au comis iniial multe accidente vor comite n final mai puine accidente, ns tot multe comparativ cu numrul accidentelor comise n final de cele care iniial au fcut puine accidente. Wow. Tare formularea. Ai prins ideea? Mai citii nc o dat. Asta e treaba cu testele t Student. Sunt tehnici foarte uoare, rapide i puternice n condiiile n care se respect asumpiile. Dac nu, avem alte proceduri pe care le vom trata n urmtoarele articole. S v fie de folos!

Asumpiialetehnicilordeanaliza datelor(III)Analizafactoriali regresii


Posted by Cristian Opariuc-Dan on Friday, 14 December 2012 in Blog profesional

Font size: Larger Smaller Hits: 810 0 Comments Subscribe to this entry Print

More Sharing ServicesBookmark

inShare Bine v-am regsit. Astzi vom aborda cteva elemente referitoare la asumpiile necesare pentru a putea efectua analiza factorial, aa cum o cunoatem, cea parametric precum i cele care vizeaz regresiile.

Analiza factorial
O cunoatem cu toii. Rolul analizei factoriale este acela de a extrage factorii comuni sau componentele principale. Cu alte cuvinte, de a vedea dac anumite variabile au sau nu au ceva n comun, dac exist sau nu un factor latent aflat n spatele acestora. Atunci cnd nu tim nimic despre natura factorilor lateni, cnd nu avem niciun model teoretic sau empiric ce poate s explice variana variabilelor, vom folosi analiza factorial exploratorie prin care explorm, aflm ce se ntmpl la nivelul variabilelor. Dac avem un model explicativ i dorim s vedem dac acesta se susine n practic, vom utiliza analiza factorial confirmatorie. Analiza factorial se utilizeaz n principal n procesul de asigurare a validitii unui instrument de evaluare psihologic, n special validitatea de construct. Si analiza factorial poate fi parametric - cea clasic, aa cum o cunoatem - i neparametric, analiza factorial pentru date categoriale, atunci cnd din cauza nclcrii asumpiilor nu se poate utiliza analiza factorial parametric. Dar care sunt asumpiile? S vedem:

Nivelul de msur n sensul strict al tehnicii, trebui s respecte minimum scala de interval. Dei se poate utiliza n cazul scalelor Likert, spre exemplu, este greu de presupus c acestea ndeplinesc strict criteriul intervalelor egale. Mai mult, numeroase instrumente psihologice folosesc itemi dihotomici, fr posibilitatea stabilirii unor relaii de ordine ntre variantele de rspuns. n aceast situaie, utilizarea analizei factoriale este discutabil. Prin forarea acestei asumpii este acceptat i scala ordinal n analiza factorial, ns, sub aspect pur statistic, utilizarea analizei factoriale parametrice pentru date ordinale nu este indicat Corelaiile liniare reprezint o a doua asumpie important n analiza factorial parametric. Alturi de faptul c toate variabilele supuse analizei factoriale parametrice trebuie s covarieze, postulatul indic i tipul de corelaie cea liniar. Se tie c pot exista corelaii ntre variabile care nu au un caracter liniar (vezi exemplul corelaiei dintre motivaie i performan). n aceste situaii, analiza factorial parametric nu se poate folosi. De aceea, naintea includerii variabilelor n analiza factorial va trebui identificat natura relaiilor dintre acestea. Distribuii univariate i multivariate normale probabil cea mai problematic asumpie. Analiza factorial parametric presupune existena normalitii distribuiei pentru fiecare dintre variabilele supuse acestui procedeu. Este dificil, dac nu imposibil, s asigurm normalitatea distribuiei fiecrui item, nelund n discuie faptul c unii itemi nici nu pot fi analizai sub acest aspect (de exemplu itemii dihotomici sau cei pur categoriali). Cei mai muli analiti pur i simplu ignor aceast asumpie, ns dac ne gndim c ntregul proces al analizei factoriale are la baz corelaiile, acestea fiind puternic afectate de lipsa de omogenitate a varianelor, atunci ne putem face o imagine legat de modul n care va fi afectat modelul general al tehnicii.

Mrimea lotului de cercetare reprezint un alt criteriu important. Raportul optim dintre numrul de variabile incluse n analiza factorial parametric i numrul de subieci necesari este de 1:20. Pentru fiecare variabil inclus n analiza factorial sunt necesari circa 20 de subieci. Astfel, spre exemplu, pentru un chestionar cu 20 de itemi sunt necesari peste 400 de subieci pentru ca tehnica s prezinte relevan n cazul n care aceste asumpii sunt ndeplinite, putem utiliza fr probleme analiza factorial parametric. Dac una dintre ele este nclcat, singura variant o reprezint utilizarea analizei factoriale pentru date categoriale (CATPCA).

Regresia liniar
Din nou, o tehnic extrem de utilizat n psihologie, prin care putem estima o variabil (numit criteriu) prin intermediul scorurilor obinute la mai multe variabile (numite predistori) n baza unei ecuaii de regresie (sau ecuaie de predicie). Ecuaiile de regresie sunt folosite att n practica de zi cu zi, ct i n procesul de asigurare a validitii instrumenelor de evaluare psihologic, n special validitatea predictiv (component a validitii la criteriu). Regresia liniar presupune ca att predictorii, ct i criteriul s fie variabile continui, situate la un nivel de msur cel puin de interval. Iat asumpiile de baz ale regresiei liniare:

Liniaritatea relaiilor dintre criteriu i predictori - postuleaz c tipul corelaiei dintre criteriu i fiecare predictor trebuie s fie unul liniar i monoton. nclcarea acestei asumpii are consecine extrem de serioase asupra modelului de regresie liniar; Independena reziduurilor - erorile modelului (reziduurile) trebuie s fie independente, necorelate. Cu alte cuvinte, acestea trebuie s fie pur ntmpltoare i s nu existe o alt variabil care ar putea exercita un efect asupra modelului de regresie. n cazul n care reziduurile sunt corelate semnificativ nseamn c modelul de regresie poate fi mbuntit, exist predictori care nu au fost luai n calcul; Nivelul de msur - aa cum s-a menionat deja, absolut toate variabilele trebuie s fie situate la un nivel de msur cel puin de interval. Regresia liniar nu poate fi folosit pentru variabile nominale sau ordinale; Homoscedasticitatea - sau egalitatea varianelor. La nivelul predictorilor, abaterile standard trebuie s fie relativ egale. Exist teste specifice n cadrul modelelor de regresie liniar prin care se poate verifica aceast egalitate a varianelor. n cazul n care abaterile standard sunt semnificativ inegale, modelul de regresie nu se poate utiliza; Normalitatea distribuiei variabilelor - este o asumpie legat de caracterul parametric al tehnicii. Distribuiile predictorilor i a criteriului trebuie s fie asimilate unor distribuii normale, altminteri modelul de regresie se invalideaz; Normalitatea distribuiei reziduurilor - nu doar variabilele trebuie s aib o distribuie normal, ci i reziduurile. Aceast asumpie este legat att de independena erorilor, deoarece reziduurile independente au o distribuie normal, ct i de normalitatea distribuiei variabilelor. Dac variabilele nu se distribuie normal, este puin probabil ca erorile acestora s aib o distribuie normal.

Regresia logistic

Regresia logistic presupune ca variabila criteriu s fie una dihotomic, de tipul manager performant - manager neperformant, anxios-neanxios, alcoolic-nealcoolic etc. i se folosete, la fel ca cea liniar, att n practica de uz curent (de exemplu la compararea profilului unui subiect cu un profil tip) ct i la analiza validitii probelor psihologice (validitatea predictiv). Spre deosebire de regresia liniar, regresia logistic nu mai presupune existena unei corelaii liniare ntre criteriu i predictori, fiind, astfel, un model de regresie neliniar. Similar, nu mai este necesar o normalitate multivariat la nivelul predictorilor i nici la nivelul reziduurilor, cu toate c prezena acestei normaliti multivariate conduce la modele mai bune. Similar, nu se mai impune egalitatea varianelor i nici restricia privind nivelul de msur, regresia logistic funcionnd cu variabile ordinale i chiar nominale. De aceea, modelele de regresie logistic sunt destul de permisive, chiar dac se situeaz la un nivel parametric. Totui, se impun o serie de asumpii:

Variabila criteriu trebuie s fie una dihotomic - astfel criteriul trebuie s aib doar dou niveluri, nefiind acceptate alte tipuri de variabile cu mai mult de dou niveluri, indiferent de nivelul de msur la care se situeaz; Variabila criteriu trebuie codat 0 i 1 - nu sunt acceptate alte tipuri de codri (de exemplu 1 i 2). Din cauza specificului modelului, valoarea 1 este un indicator al prezenei caracteristicii iar valoarea 0 indic absena acesteia. Folosirea altor coduri invalideaz modelul de regresie logistic; Modelul de regresie logistic trebuie s fie perfect adecvat - acest lucru indic faptul c trebuie s introducem nu doar predictorii relevani ci toi predictorii relevani. Modelul nu trebuie s suprareprezinte i nici s subreprezinte datele. Din fericire exist mai muli indicatori ai adecvrii modelului la date, numii indicatori goodness of fit; Lipsa multicoliniaritii - predictorii trebuie s fie independeni unii fa de alii i, n acelai timp, observaiile trebuie s fie absolut independente. Asta nseamn c planurile de tip msurri repetate, cu eantioane dependente, nu pot fi utilizate pentru regresia logistic; Relaia logistic - postuleaz c ntre criteriu i predictori trebuie s existe o relaie logistic. Evident dac ne gndim c variabila criteriu este una binar. De multe ori aceast asumpie se rezolv prin transformarea predictorilor din variabile continui n variabile categoriale (situate la un nivel de msur ordinal); Mrimea eantionului - spre deosebire de regresia liniar, cea logistic impune un lot de cercetare de mai mari dimensiuni. Este, n definitiv, o cerin a modelelor de tip logistic. Majoritatea recomandrilor sugereaz minimum 30 de subieci pentru fiecare variabil predictor inclus n analiz. Dac avem un model de predicie logistic n care exist 6 predictori, pentru a avea minime anse ca modelul s fie valid ne vor trebui cel puin 6x30=180 subieci

Am descris asumpiile principalelor modele de regresie utilizate n psihologie. Atunci cnd avem de a face cu relaii liniare putem utiliza regresia liniar. Dac legtura nu este obligatoriu liniar iar criteriul este dihotomic, se poate folosi regresia logistic. Ce ne facem dac avem un criteriu ordinal i polihotomic sau dac avem un criteriul continuu dar relaia nu este una liniar? Avem la dispoziie alte tipuri de regresii, cele mai ntlnite fiind regresiile categoriale (CATREG), cele polinominale sau cele nonliniare (regresii cuadrice,

cubice etc.). Despre acestea nu vom discuta aici deoarece sunt destul de rar folosite. Dac v intereseaz, scriei-mi i le pot dezvolta.

Acesta a fost ultimul episod al serialului. Pn la anul sunt puine anse s mai scriu i altceva, de aceea v doresc tuturor la muli ani i mpliniri n anul care vine. Putei posta la comentarii despre ce ai dori s discutm la anul. Eu m gndesc s ncep un serial destinat utilizrii R n analiza datelor, aplicaia R fiind un program absolut gratuit destinat analizei de date i extrem de performant. Deoarece va fi mult de scris, nu a dori s ncep ceva lipsit de interes. Dac vor exista solicitri, voi ncepe acest proiect. Dac nu, voi pstra pentru mine ceea ce tiu.

S-ar putea să vă placă și