Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
1. Analiza de frecvente
Mai multe variante de raportare a frecventelor apar in practica. Mai jos sunt listate si definite cel mai
frecvent intalnite variante.
histograma: la prima vedere, histograma este asemănătoare cu graficul de tip bar; ea este
insa mai adecvată pentru situaţiile când variabila pe care dorim să o reprezentăm este de tip
„continuu” (adică poate lua orice valoare pe o scală numerică, de ex., număr de răspunsuri
corecte, timpul de reacţie, lungimea).
poligonul de frecvenţe: este o reprezentare alternativă la histogramă. Punctele centrale ale
suprafeţelor rectangulare care reprezintă frecvenţa sunt unite cu o linie care delimitează
suprafaţa poligonului.
graficul frecvenţei cumulate: este un grafic de tip liniar care reprezintă valorile frecvenţei
absolute cumulate
graficul circular: este utilizat în situaţiile în care valorile sunt „parte a unui întreg”. De exemplu,
poate fi utilizat la reprezentarea distribuţiei de frecvenţe grupate, pentru a avea o imagine
directă a ponderii frecvenţei fiecărei clase de interval în raport cu celelalte.
graficul de tip „stem and leaf” („tulpină şi frunze”); atunci când utilizăm o distribuţie de
frecvenţe grupate, cazurile individuale „se pierd” la nivelul fiecărei clase de interval fără a mai
putea şti unde se plasează fiecare valoare iniţială în interiorul fiecărui interval. Reprezentarea
de tip stem-and-leaf (pe scurt stem plot), are tocmai avantajul de a realiza graficul distribuţiei
cu păstrarea valorilor individuale
Mediana (Me) = valoarea „din mijlocul” unei distribuţii, adică aceea care are 50% dintre valori
deasupra ei şi 50% dintre valori dedesubtul ei
Media aritmetică (m) = raportul dintre suma valorilor distribuţiei şi numărul acestora
Notaţii uzuale:
μ (miu), atunci când este media întregii populaţii de referinţă
m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent)
Abaterea medie (d de la deviaţie medie) = distanţa dintre o valoare anumită şi media distribuţiei se
numeşte abaterea valorii (Xi-m); media abaterilor într-o distribuţie este întotdeauna egală cu zero
Abaterea standard = Abaterea standard se obţine prin extragerea radicalului din expresia abaterii
medii pătratice (dispersiei).
Notaţii uzuale:
s (pentru eşantioane)
σ (pentru populaţie)
SD (Standard Deviation, în standardul APA ) ab.std.
Distributia normala
Reprezentarea grafică a rezultatelor măsurărilor reale poate lua diverse forme, curba
distribuţiei putând fi unimodală sau multimodală, aplatizată sau înaltă, simetrică sau
asimetrică. În statistică există însă un tip special de distribuţie, numită „distribuţie normală”,
care corespunde reprezentării grafice a unei caracteristici pentru care există un mare număr
de măsurări, tinzând spre infinit
Conceptul de „curbă normală” (expresia grafică a „distribuţiei normale”) se referă la un
anumit tip de distribuţie teoretică care are câteva proprietăţi caracteristice:
o are formă de „clopot”. Cea mai mare parte a valorilor se concentrează în zona centrală
(medie);
o este perfect simetrică pe ambele laturi ale sale;
o linia curbei se apropie la infinit de axa OX (orizontală), fără a o atinge vreodată;
o în conformitate cu proprietatea 2, de fiecare parte a mediei se află exact jumătate
dintre valorile distribuţiei.
Distribuţia normală z
Curba normală în care valorile sunt exprimate în scoruri z se numeşte curba normal
standardizată. Ea are toate proprietăţile enunţate mai sus, având însă şi parametrii oricărei
distribuţii z: m=0 şi s=1. Rezultă astfel că distribuţia normală standardizată (z) este este
simetrică în jurul lui 0.
Curba normal standardizată are câteva caracteristici pe care este important să le reţinem:
o Aproximativ 34% dintre scorurile distribuţiei normale se află între medie şi o abatere
o standard deasupra mediei (z=+1)
o Între – 1z şi +1z se află aproximativ 68% dintre valorile distribuţiei
o Aproximativ 96% dintre scoruri se află între –2z şi +2z
4. Teste statistice
1.1. Testele t
Testele t = procedură de testare a semnificației statistice a diferenței dintre două medii – variabila
dependentă este măsurată pe scală cantitativă (interval-raport)
Tipuri de teste t
Raportare
ANOVA nu este altceva decât o extensie a logicii testului t pentru situaţiile în care se doreşte
compararea a mai mult de două medii independente
Există mai multe tipuri de ANOVA, două fiind mai frecvent folosite
ANOVA unifactorială, care se aplică atunci când avem o variabilă dependentă măsurată pe o scală de
interval/raport măsurată pentru trei sau mai multe valori ale unei variabile independente categoriale.
În contextul ANOVA, variabila independentă este denumită „factor”, iar valorile pe care acesta le ia se
numesc „niveluri”. Din acest motiv, modelul de analiză de varianţă cu o singura variabilă independentă
se numeşte „ANOVA unifactorială”, „ANOVA simplă” sau, cel mai frecvent, „ANOVA cu o singură cale”
(One-way ANOVA).
ANOVA multifactorială, care se aplică atunci când avem o singură variabilă dependentă (la fel ca
în cazul ANOVA unifactorială) dar două sau mai multe variabile independente, fiecare cu două sau
mai multe valori, măsurate pe o scală categorială (nominală sau ordinală).
Marimea efectului pentru ANOVA
Se pot calcula mai mulţi indicatori ai mărimii efectului, precum: f, eta pătrat, omega pătrat ş.a.m.d.
f al lui Cohen
Indicatorul propus de Cohen (1988) ia valori pozitive, zero fiind limita inferioară corespunzătoare
absenţei oricărui efect, în timp ce nu există limită maximă pentru un efect puternic. Totuşi, în
majoritatea cazurilor f ia valori între 0 şi 1, având drept valori de referinţă f de .10 pentru un efect
scăzut, .25 pentru un efect mediu şi .40 pentru un efect mare.
De asemenea, f poate fi transformat relativ uşor în alţi indicatori statistici utilizaţi frecvent, precum d
sau r. Cohen (1988) detaliază procedura de transformare din f în d şi viceversa, aceasta fiind integrată
în programul PowerStaTim 1.0. Fiind folosit în vederea calculării puterii statistice, f este considerat
principalul indicator al mărimii efectului în cazul testelor ANOVA, chiar dacă există şi alţi indicatori
statistici. Nu în ultimul rând, f permite o abordare bazată pe procentul de dispersie explicată, prin
transformarea sa în η²p sau în ω², indicatori similari lui r² ca şi interpretare.
eta pătrat
Acest indicator este o generalizare a coeficientului punct biserial r², utilizat în cazul corelaţiilor sau al
comparaţiilor dintre două grupe, η² fiind egal cu r² în contextul respectiv. Totuşi, r² nu poate fi calculat
în situaţia comparării a mai mult de două grupe, ceea ce duce la utilizarea lui η², interpretarea făcându-
se într-un mod similar (ex.: η² = .35 indică faptul că nu mai puţin de 35% din variaţia criteriului este
asociată cu modul în care variază VI (influenţată de tipul de tratament primit)).
omega pătrat
Acest indicator este similar celor din categoria eta pătrat, diferenţa constând în faptul că eta pătrat se
referă la eşantionul studiat, în timp ce ω² este o estimare a mărimii efectului la nivelul populaţiei din
care au fost extrase loturile studiate. Din acest motiv, valorile omega pătrat vor fi întotdeauna mai
mici decât cele ale lui eta pătrat.
5. Corelatia
Corelaţia Pearson = tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre
două variabile cantitative continue normal distribuite
Coeficientul de corelaţie Pearson
Simbol: r, R
• Ia valori între -1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi
direcţia (interpretăm semnul coeficientului) asocierii lineare.
Valoarea absolută indică puterea asocierii
• + (direct proporţional)/- indică (invers proporţional) direcţia asocierii
Linia de regresie
Având reprezentarea norului de puncte specific unei anumite corelaţii, tendinţa relaţiei este dată de
dreapta care aproximează cel mai bine variaţia perechilor de valori X/Y. Traiectoria acestei linii se
fixează pe baza unui model matematic, numit „metoda celor mai mici pătrate”, care asigură
minimizarea distanţelor dintre punctele reale şi linia de predicţie, numită şi linie de regresie
Indiferent de tipul de regresie la care se face apel, exista doi indicatori principali ai marimii efectului:
R² sau r², respectiv f². Primii sunt mai cunoscuti, fiind vorba de nimic altceva decat de coeficientul de
determinare, intalnit si in cazul corelatiei liniare. Diferenta dintre R² si r² este data de faptul ca, R² se
refera la marimea efectului combinat al tuturor predictorilor inclusi asupra criteriului, in timp ce r²
(mai precis part r² sau coeficientul de determinare semipartial) arata marimea efectului unui anumit
predictor asupra criteriului, dupa ce a fost eliminata influenta celorlalti predictori asupra predictorului
respectiv, dar nu si asupra criteriului. Acest aspect poate fi important mai ales in conditiile in care
predictorii coreleaza intre ei, astfel ca prin eliminarea influentei acestor predictori asupra
predictorului avut in vedere vom putea observa „efectul pur” al acestui predictor asupra criteriului.
Alti indicatori similari lui R² sunt ΔR², respectiv R² ajustat. R² ajustat este similar lui R², valoarea sa fiind
insa corectata pentru a tine seama de factori precum N (numarul de participanti testati) si k (numarul
de predictori inclusi in ecuatie), permitand astfel comparatii intre multiple ecuatii de regresie, chiar
daca acestea au fost obtinute in cazuri cu un numar de participanti sau cu un numar de predictori
diferiti. In schimb, asa cum se deduce din titulatura, ΔR² nu este altceva decat diferenta dintre doi R²
calculati in cazul regresiei ierarhice. Intr-un asemenea context, se calculeaza cate un R² pentru fiecare
pas (ecuatie introdusa). De pilda, in exemplul descris vom avea doi R²: unul pentru situatia cu un singur
predictor (IQ -> Interpers), celalalt pentru situatia cu doi predictori (IQ + EI -> Interpers). Interesant
este faptul ca ΔR² este in acest caz egal cu part r² pentru predictorul EI, deoarece in cel de-al doilea
pas a fost introdusa o singura noua variabila. In situatia in care s-ar fi introdus in pasul urmator mai
mult de un predictor nou, ΔR² nu ar mai fi fost egal cu part r² pentru un anumit predictor, ci cu suma
tuturor part r² pentru predictorii introdusi suplimentar in pasul respectiv.
Cel de-al doilea indicator major al marimii efectului in cazul regresiei este f². Cu toate ca are aceeasi
logica ca si f (indicatorul de marime a efectului utilizat in cazurile ANOVA), Cohen (1988) propune
utilizarea lui f² ca fiind o modalitate mai apropiata de spiritul coeficientilor de determinare
fundamentati pe procentul explicat din totalul dispersiei observate.
Acelasi autor propune urmatoarele valori pentru f², respectiv R², in interpretarea magnitudinii marimii
efectului:
• efect scazut (f² = .02, R² = .02);
• efect mediu (f² = .15, R² = .13);
• efect puternic (f² = .35, R² = .26).
Aceste valori ale lui R² pot fi oricand transformate in procente. Astfel, un R² de .13 inseamna ca
aproximativ 13% din dispersia (varianta) criteriului este explicat de actiunea comuna a predictorilor
avuti in vedere. Explicatii similare pot fi oferite si in cazul coeficientilor de determinare semipartiali
(part r²), ce explica actiunea unui singur predictor asupra criteriului.
Hunter si Schmidt (1995) propun utilizarea coeficientilor de corelatie simpla sau a coeficientilor de
determinare ca indicatori ai marimii efectului pentru studii bazate pe tehnica regresiei, motivand
aceasta decizie prin faptul ca studiile respective pot fi comparate direct cu studiile ce implica corelatii
de tip r (o relatie bivariata), deoarece prin coeficientii de corelatie simpla nu se elimina influenta altor
variabile asupra predictorului avut in vedere. Daca aceasta perspectiva are sens in realizarea de meta-
analize, ea conduce insa la pierderea posibilitatii de a interpreta cu finete rezultatele (ex.: Care este
efectul „pur” al increderii in conducerea companiei (TRUST) asupra satisfactiei legate de munca
(SATISF), in conditiile in care eliminam influenta pe care alte variabile, precum salariul (PAY), o au
asupra perceperii conducerii). Astfel, daca part r² este mult mai mic decat r², se poate afirma ca mare
parte din corelatia initiala dintre TRUST si SATISF este falsa, ea fiind determinata doar de faptul ca
TRUST are o parte comuna cu alte variabile precum PAY, aceasta din urma fiind cea care coreleaza real
cu satisfactia in munca.
Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele situaţii pot fi utilizate
ambele proceduri, dar fiecare dintre ele sunt recomandabile cu precădere în anumite situaţii, astfel:
Se calculează corelaţia liniară:
- atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte evaluarea
gradului de asociere între variabile;
Se calculează regresia liniară:
- atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile;
- atunci când una dintre variabile este manipulată, se calculează regresia;
Atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în ecuaţia de regresie
se va obţine o linie de regresie diferită, în timp ce, dacă se inversează ordinea variabilelor în calcularea
corelaţiei, se obţine acelaşi coeficient r. Cea mai firească utilizare a analizei de regresie este în situaţiile
în care dorim să facem predicţii. De exemplu, dacă am efectuat analiza de regresie între cunoştinţele
de matematică şi performanţa finală la cursul de statistică, într-un an, putem, în anul următor, să
estimăm rezultatul final la statistică pe baza parametrilor ecuaţiei de regresie calculaţi anterior. În
acest scop, aplicăm acelaşi test de cunoştinţe de matematică, după care construim predicţii pentru
fiecare student în parte. Finalitatea acestui demers ar putea fi aceea de identifica din timp studenţii
care au cele mai mari „şanse” de a nu obţine notă de trecere, şi de a efectua cu ei o pregătire
suplimentară, care să prevină această situaţie
De asemenea, analiza de regresie este utilă în controlul statistic al variabilelor externe, acelea care se
suprapun peste variabilele studiate, şi al căror efect dorim să îl „eliminăm”. Acest demers este specific
unor proceduri statistice avansate (regresia multiplă şi analiza de covarianţă)
Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –Regression –Linear.
În Dependent se va transfera variabila dependentă.
Variabilele independente, Independent(s), pot fi grupate pe blocuri:
1. se transferă variabilele dorite,
2. se precizează în Method modul de introducere a acestor variabile în regresie (Enter – toate simultan,
Forward, Backward, Stepwise),
3. se defineşte un nou bloc prin Next.
Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a
cazurilor în funcţie de valorile variabilei de selecţie.
În Case Labels se poate preciza variabila care identifică cazurile, etichetele fiind considerate la
reprezentările grafice. Prin WLS Weight se poate preciza variabila de ponderare pentru metoda celor
mai mici pătrate ponderate.
Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. In fereastra
deschisa se pot selecta (nb. nele opţiuni sunt selectate şi în mod implicit):
- Estimates – coeficienţii estimaţi,
- Confidence intervals – intervalele de încredere ale coeficienţilor,
- Model fit – calcularea statisticilor R, R2şi a tabelului ANOVA,
- R squared change – modificărea coeficientului de determinare şi testarea semnificaţiei
schimbării la adăugarea fiecărui bloc de variabile,
- Descriptive – statisticile esenţiale pentru iecare variabilă,
- Collinearity diagnostics – calcularea toleranţelor, a statisticilor IF şi studiul multicoliniarităţii
prin analiza în componente principale (a se vedea apitolul urmăor al cursului).
În zona Residuals se produce o analiza a reziduurilor entru a putea decide asupra normalităţii acestora
şi a diagnostica valorile aberante.
Prin Plots se afişează dialogul sinonim în care se pot indica reprezentările grafice orite. În lista
variabilelor disponibile pentru diagrame se află DEPENDNT – variabila dependentă – şi variabile
derivate din regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile standardizate
(*ZRESID).
Diagramele indicate în Standardized Residual Plots sunt utile pentru verificarea normalităţii
reziduurilor.
Dialogul Save permite calcularea şi salvarea ca variabile noi a alorilor prognozate şi a reziduurilor sub
diferite forme, precum şi salvarea altor statistici de interes.
Predicted Values – valorile prognozate prin model pentru fiecare caz: Unstandardized, Standardized
pentru valorile nestandardizate şi standardizate, Adjusted valoarea prognozată pentru un caz din
ecuaţia de regresie estimată fără a considera acel caz, S.E. of mean predictions abaterile standard ale
valorilor prognozate, utile pentru calcularea intervalelor de încredere ale acestor valori.
Distances – distanţele cazurilor de la punctul mediu, pentru identificarea valorilor berante:
Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este măsura a cât de mult
se modifică reziduurile dacă se limină cazul espectiv din estimarea modelului (o valoare mare arată o
influenţăconsiderabilă a azului în estimarea coeficienţilor), Leverage values măsoarăinfluenţa
cazurilor în stimare.
Prediction Intervals sunt intervalele de incredere pentru valorile estimate, a nivelul de încredere
precizat în Confidence Interval. Sunt generate două variabile.
Residuals – reziduurile estimării în diferite forme: standardizate, nestandardizate, tudentizate
(reziduul este împărţit la estimaţia abaterii sale standard, roprie fiecărui az). Deleted, Studentized
deleted se referă la reziduurile obţinute din modelul la stimarea ăruia cazul respectiv a fost exclus.
Influence Statistics sunt modificările n coeficienţi (inclusiv cei standardizaţi), DfBeta(s)şi Standardized
DfBeta, şi în alorile prognozate, DfFitşi Standardized DfFit, rezultate după excluderea cazului in
estimare.
În sfârşit, prin butonul Options se deschide dialogul sinonim în care se pot fixa parametri ai estimării:
pragurile de intrare şi excludere la metodele pas cu as recum şi modul de tratare a valorilor lipsă dintr-
o variabilă implicată.
Regresie simpla
Regresie ierarhica