Sunteți pe pagina 1din 15

SINTEZA ANALIZA DATELOR

1. Analiza de frecvente
Mai multe variante de raportare a frecventelor apar in practica. Mai jos sunt listate si definite cel mai
frecvent intalnite variante.

 Frecventa simpla: frecvenţa de apariţie a fiecărei valori dintr-o distribuţie


 Frecvenţa cumulată (fc). Totalul valorilor care se cumulează începând de la valoarea cea mai
mare până la valoarea cea mai mică din tabel.
 Frecvenţa relativă raportată la unitate fr(1). Este raportul dintre frecvenţa absolută şi suma
frecvenţelor absolute (fa/Σfa).
 Frecvenţa relativă cumulată, raportată la unitate fr(1): Este similară frecvenţei cumulate
absolute, cu deosebirea că în acest caz se cumulează frecvenţele relative.
 Frecvenţa relativă procentuală fr(%): Exprimă procentul valorilor care se situează până la o
anumită valoare din cadrul distribuţiei. Se calculează fie prin înmulţirea fr(1) cu 100, fie prin
calcularea direct procentului pe care îl reprezintă o anumită valoare raportat la totalul
valorilor dintr-o distribuţie. Suma frecvenţelor relative procentuale este întotdeauna egală cu
100.
 Frecvenţa relativă cumulată procentuală (frc%): Exprimă procentul valorilor dintr-o
distribuţie care se plasează până la o anumită valoare (inclusiv aceasta). Frecvenţa relativă
procentuală cumulată se numeşte si rang percentil.

2. Prezentarea grafica a datelor

Prezentarea grafică a datelor statistice depinde de necesitatile de evidentiere a rezultatelor. Cel


mai frecvent utilizate grafice sunt
 graficul de tip bară: este cel mai simplu mod de reprezentare grafică a datelor. Se utilizează
atunci când dorim să reprezentăm o variabilă „discretă” (care prezintă valori întregi, de
exemplu, numărul de răspunsuri corecte la un test în funcţie de nivelul de instruire al
subiecţilor).

 histograma: la prima vedere, histograma este asemănătoare cu graficul de tip bar; ea este
insa mai adecvată pentru situaţiile când variabila pe care dorim să o reprezentăm este de tip
„continuu” (adică poate lua orice valoare pe o scală numerică, de ex., număr de răspunsuri
corecte, timpul de reacţie, lungimea).
 poligonul de frecvenţe: este o reprezentare alternativă la histogramă. Punctele centrale ale
suprafeţelor rectangulare care reprezintă frecvenţa sunt unite cu o linie care delimitează
suprafaţa poligonului.

 graficul frecvenţei cumulate: este un grafic de tip liniar care reprezintă valorile frecvenţei
absolute cumulate
 graficul circular: este utilizat în situaţiile în care valorile sunt „parte a unui întreg”. De exemplu,
poate fi utilizat la reprezentarea distribuţiei de frecvenţe grupate, pentru a avea o imagine
directă a ponderii frecvenţei fiecărei clase de interval în raport cu celelalte.

 graficul de tip „stem and leaf” („tulpină şi frunze”); atunci când utilizăm o distribuţie de
frecvenţe grupate, cazurile individuale „se pierd” la nivelul fiecărei clase de interval fără a mai
putea şti unde se plasează fiecare valoare iniţială în interiorul fiecărui interval. Reprezentarea
de tip stem-and-leaf (pe scurt stem plot), are tocmai avantajul de a realiza graficul distribuţiei
cu păstrarea valorilor individuale

3. Indicatori ai tendintei centrale

Modul (Mo) = valoarea cu frecvenţa cea mai mare de apariţie

Mediana (Me) = valoarea „din mijlocul” unei distribuţii, adică aceea care are 50% dintre valori
deasupra ei şi 50% dintre valori dedesubtul ei

Media aritmetică (m) = raportul dintre suma valorilor distribuţiei şi numărul acestora
Notaţii uzuale:
 μ (miu), atunci când este media întregii populaţii de referinţă
 m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent)

Abaterea medie (d de la deviaţie medie) = distanţa dintre o valoare anumită şi media distribuţiei se
numeşte abaterea valorii (Xi-m); media abaterilor într-o distribuţie este întotdeauna egală cu zero

Dispersia (varianţa, abaterea medie pătratică) = pentru a elimina inconvenientul abaterilor de la


medie de a avea suma egală cu zero, se operează ridicarea la pătrat a abaterilor valorilor individuale
Notaţii uzuale:
 s2 (când se calculează pentru eşantion)
 σ2 (când se calculează pentru întreaga populaţie)

Abaterea standard = Abaterea standard se obţine prin extragerea radicalului din expresia abaterii
medii pătratice (dispersiei).
Notaţii uzuale:
 s (pentru eşantioane)
 σ (pentru populaţie)
 SD (Standard Deviation, în standardul APA ) ab.std.

Distributia normala

 Reprezentarea grafică a rezultatelor măsurărilor reale poate lua diverse forme, curba
distribuţiei putând fi unimodală sau multimodală, aplatizată sau înaltă, simetrică sau
asimetrică. În statistică există însă un tip special de distribuţie, numită „distribuţie normală”,
care corespunde reprezentării grafice a unei caracteristici pentru care există un mare număr
de măsurări, tinzând spre infinit
 Conceptul de „curbă normală” (expresia grafică a „distribuţiei normale”) se referă la un
anumit tip de distribuţie teoretică care are câteva proprietăţi caracteristice:
o are formă de „clopot”. Cea mai mare parte a valorilor se concentrează în zona centrală
(medie);
o este perfect simetrică pe ambele laturi ale sale;
o linia curbei se apropie la infinit de axa OX (orizontală), fără a o atinge vreodată;
o în conformitate cu proprietatea 2, de fiecare parte a mediei se află exact jumătate
dintre valorile distribuţiei.

Distribuţia normală z
 Curba normală în care valorile sunt exprimate în scoruri z se numeşte curba normal
standardizată. Ea are toate proprietăţile enunţate mai sus, având însă şi parametrii oricărei
distribuţii z: m=0 şi s=1. Rezultă astfel că distribuţia normală standardizată (z) este este
simetrică în jurul lui 0.
 Curba normal standardizată are câteva caracteristici pe care este important să le reţinem:
o Aproximativ 34% dintre scorurile distribuţiei normale se află între medie şi o abatere
o standard deasupra mediei (z=+1)
o Între – 1z şi +1z se află aproximativ 68% dintre valorile distribuţiei
o Aproximativ 96% dintre scoruri se află între –2z şi +2z
4. Teste statistice

1.1. Testele t
Testele t = procedură de testare a semnificației statistice a diferenței dintre două medii – variabila
dependentă este măsurată pe scală cantitativă (interval-raport)

Distribuția teoretică de referință (distribuția de nul)

 normală, pentru eșantioane mai mari de 30 de subiecți


 t - Student, pentru eșantioane mai mici de 30 de subiecți

Tipuri de teste t

 Testul t pentru un eșantion


 Testul t pentru două eșantioane independente
 Testul t pentru două eșantioane dependente

Testul t pentru un eșantion

 Testează diferența dintre media unui eșantion și media populației


 Mai general, diferența dintre media eșantionului și o valoare de referință…
 Procedura SPSS – Analyze/Compare means/One Sample T Test…

Raportare

 Media și abaterea standard a eșantionului


 Media populației (valoarea de referință)
 Intervalul de încredere pentru diferența dintre medii
 Mărimea efectului: d m /

Testul t (Student) pentru un singur eşantion


 testul t poate fi utilizat doar atunci când cunoaştem media populaţiei de referinţă şi avem la
dispoziţie un eşantion „mare” (adică de cel puţin 30 de subiecţi, în cazul unei variabile despre
care avem motive să credem că se distribuie normal).
 distribuţia mediei de eşantionare urmează legea curbei normale standardizate doar pentru
eşantioane de minim 30 de subiecţi, conform teoremei limitei centrale.

Condiţiile în care putem calcula testul t pentru eşantioane independente


 Eşantioane aleatoare (ideal), sau neafectate de erori de eşantionare (bias);
 Eşantioane independente (distincte din punctul de vedere al variabilei independente, care
determină constituirea grupurilor);
 Variabila supusă măsurării să se distribuie normal în ambele populaţii. Aceasta ne garantează
că şi distribuţia diferenţelor dintre medii se distribuie normal. Totuşi, teorema limitei centrale
ne permite asumarea normalităţii distribuţiei mediei de eşantionare chiar şi în cazul
variabilelor care nu se distribuie normal la nivelul populaţiei, pentru eşantioane mari. Dacă
însă, analiza distribuţiilor indică forme aberante, iar volumul grupurilor comparate este foarte
mic, se va allege soluţia unui test neparametric.
 Dispersia celor două eşantioane să fie omogenă. Testul t poate fi aplicat strict în cazurile în
care dispersiile celor două populaţii („practicanţi”, „nepracticanţi”) au aceeaşi dispersie
(omogenitatea dispersiei). Din fericire, există trei situaţii în care această condiţie nu trebuie
să ne preocupe:
o când eşantioanele sunt suficient de mari (cel puţin 100 fiecare)
o când cele două eşantioane au acelaşi volum (N1=N2)
o când dispersiile celor două eşantioane nu diferă semnificativ (dar, chiar şi pentru acest
caz, există formule care ţin cont de diferenţa dispersiilor).

Analiza de varianţă (mai mult de două eşantioane independente)

ANOVA nu este altceva decât o extensie a logicii testului t pentru situaţiile în care se doreşte
compararea a mai mult de două medii independente

Există mai multe tipuri de ANOVA, două fiind mai frecvent folosite

ANOVA unifactorială, care se aplică atunci când avem o variabilă dependentă măsurată pe o scală de
interval/raport măsurată pentru trei sau mai multe valori ale unei variabile independente categoriale.
În contextul ANOVA, variabila independentă este denumită „factor”, iar valorile pe care acesta le ia se
numesc „niveluri”. Din acest motiv, modelul de analiză de varianţă cu o singura variabilă independentă
se numeşte „ANOVA unifactorială”, „ANOVA simplă” sau, cel mai frecvent, „ANOVA cu o singură cale”
(One-way ANOVA).

ANOVA multifactorială, care se aplică atunci când avem o singură variabilă dependentă (la fel ca
în cazul ANOVA unifactorială) dar două sau mai multe variabile independente, fiecare cu două sau
mai multe valori, măsurate pe o scală categorială (nominală sau ordinală).
Marimea efectului pentru ANOVA
Se pot calcula mai mulţi indicatori ai mărimii efectului, precum: f, eta pătrat, omega pătrat ş.a.m.d.

f al lui Cohen
Indicatorul propus de Cohen (1988) ia valori pozitive, zero fiind limita inferioară corespunzătoare
absenţei oricărui efect, în timp ce nu există limită maximă pentru un efect puternic. Totuşi, în
majoritatea cazurilor f ia valori între 0 şi 1, având drept valori de referinţă f de .10 pentru un efect
scăzut, .25 pentru un efect mediu şi .40 pentru un efect mare.
De asemenea, f poate fi transformat relativ uşor în alţi indicatori statistici utilizaţi frecvent, precum d
sau r. Cohen (1988) detaliază procedura de transformare din f în d şi viceversa, aceasta fiind integrată
în programul PowerStaTim 1.0. Fiind folosit în vederea calculării puterii statistice, f este considerat
principalul indicator al mărimii efectului în cazul testelor ANOVA, chiar dacă există şi alţi indicatori
statistici. Nu în ultimul rând, f permite o abordare bazată pe procentul de dispersie explicată, prin
transformarea sa în η²p sau în ω², indicatori similari lui r² ca şi interpretare.

eta pătrat

Acest indicator este o generalizare a coeficientului punct biserial r², utilizat în cazul corelaţiilor sau al
comparaţiilor dintre două grupe, η² fiind egal cu r² în contextul respectiv. Totuşi, r² nu poate fi calculat
în situaţia comparării a mai mult de două grupe, ceea ce duce la utilizarea lui η², interpretarea făcându-
se într-un mod similar (ex.: η² = .35 indică faptul că nu mai puţin de 35% din variaţia criteriului este
asociată cu modul în care variază VI (influenţată de tipul de tratament primit)).

omega pătrat
Acest indicator este similar celor din categoria eta pătrat, diferenţa constând în faptul că eta pătrat se
referă la eşantionul studiat, în timp ce ω² este o estimare a mărimii efectului la nivelul populaţiei din
care au fost extrase loturile studiate. Din acest motiv, valorile omega pătrat vor fi întotdeauna mai
mici decât cele ale lui eta pătrat.

5. Corelatia
Corelaţia Pearson = tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre
două variabile cantitative continue normal distribuite
Coeficientul de corelaţie Pearson

 Simbol: r, R
• Ia valori între -1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi
direcţia (interpretăm semnul coeficientului) asocierii lineare.
 Valoarea absolută indică puterea asocierii
• + (direct proporţional)/- indică (invers proporţional) direcţia asocierii

Cohen (1988) propune urmatoarele valori pentru r, respectiv r², în interpretarea


magnitudinii marimii efectului:

 efect scazut (r = .10, r² = .01);


 efect mediu (r = .30, r² = .09);
 efect puternic (r = .50, r² = .25).
6. Regresia
6.2. Regresia liniară simplă
Să presupunem că suntem interesaţi să facem un studiu cu privire la relaţia dintre nivelul cunoştinţelor
de matematică al studenţilor la psihologie şi rezultatele la cursul de statistică. În acest scop, evaluăm
cunoştinţele de matematică şi cunoştinţele de statistică, după care aplicăm testul de corelaţie liniară
Pearson între cele două serii de valori. Coeficientul r ne va spune cât de intensă este relaţia dintre cele
două variabile. Cu cât acesta va fi mai mare, cu atât relaţia dintre cunoştinţele de matematică şi
rezultatele la statistică este mai mare. La limită, dacă r=1 atunci între cele două variabile este o
asociere perfectă. În acelaşi timp, semnul corelaţiei (+ sau -) ne va spune în ce mod se relaţionează
cele două variabile. Astfel, dacă semnul este +, atunci pe măsură ce valorile unei variabile cresc, cresc
şi valorile celeilalte variabile. Dacă semnul este -, atunci valorile unei variabile cresc, în timp ce valorile
celeilalte variabile scad. Pe scurt, coeficientul de corelaţie descrie intensitatea şi sensul relaţiei dintre
cele două variabile.

Să presupunem că am descoperit o corelaţie semnificativă între cunoştinţele de matematică şi


rezultatele la statistică. Întrebarea firească pe care ne-o putem pune este dacă putem face o predicţie
asupra rezultatului la statistică, înainte de parcurgerea cursului, pornind de la evaluarea cunoştinţelor
de matematică. Acest obiectiv este posibil prin analiza de regresie, una dintre utilizările practice
importante ale analizei de corelaţie. Dacă aflăm corelaţia dintre două variabile putem să prezicem
valorile uneia dintre ele (denumită variabilă „criteriu”) pe baza valorilor celeilalte (denumită variabilă
„predictor”)1 Acest lucru nu trebuie interpretat în sensul unei relaţii cauzale între „cunoştinţele de
matematică” şi „rezultatele la statistică”. Este suficient să ne gândim că relaţia dintre ele poate fi
determinată de alte variabile, cum ar fi: motivaţia şcolară, tipul de inteligenţă (abstractă sau intuitivă),
metoda de predare etc.
Conceptul de regresie a fost introdus de Sir Francis Galton (1822-1911) care, studiind relaţia dintre
înălţimea copiilor şi a părinţilor a observat că părinţii cu înălţimi excesive tind să aibă copii cu înălţime
mai mică decât a lor, adică mai aproape de medie decât a părinţilor. Să luăm un exemplu ilustrativ.
Galton a găsit un coeficient de corelaţie între înălţimea părinţilor (X) şi cea a copiilor (Y) r=+0.67. Aşa
cum se observă, părinţii a căror înălţime cu două abateri standard mai mare decât media, pot avea
copii a căror înălţime să se abată doar cu 1.34 abateri standard de la medie. Galton a denumit această
tendinţă ca „regresie către mediocritate”, dar termenul consacrat acum este cel de „regresie către
medie”. Faptul că se bazează pe corelaţia de tip liniar ne permite să vorbim de o „regresie liniară către
medie”.

Linia de regresie

Având reprezentarea norului de puncte specific unei anumite corelaţii, tendinţa relaţiei este dată de
dreapta care aproximează cel mai bine variaţia perechilor de valori X/Y. Traiectoria acestei linii se
fixează pe baza unui model matematic, numit „metoda celor mai mici pătrate”, care asigură
minimizarea distanţelor dintre punctele reale şi linia de predicţie, numită şi linie de regresie

Marimea efectului pentru regresia liniara

Indiferent de tipul de regresie la care se face apel, exista doi indicatori principali ai marimii efectului:
R² sau r², respectiv f². Primii sunt mai cunoscuti, fiind vorba de nimic altceva decat de coeficientul de
determinare, intalnit si in cazul corelatiei liniare. Diferenta dintre R² si r² este data de faptul ca, R² se
refera la marimea efectului combinat al tuturor predictorilor inclusi asupra criteriului, in timp ce r²
(mai precis part r² sau coeficientul de determinare semipartial) arata marimea efectului unui anumit
predictor asupra criteriului, dupa ce a fost eliminata influenta celorlalti predictori asupra predictorului
respectiv, dar nu si asupra criteriului. Acest aspect poate fi important mai ales in conditiile in care
predictorii coreleaza intre ei, astfel ca prin eliminarea influentei acestor predictori asupra
predictorului avut in vedere vom putea observa „efectul pur” al acestui predictor asupra criteriului.
Alti indicatori similari lui R² sunt ΔR², respectiv R² ajustat. R² ajustat este similar lui R², valoarea sa fiind
insa corectata pentru a tine seama de factori precum N (numarul de participanti testati) si k (numarul
de predictori inclusi in ecuatie), permitand astfel comparatii intre multiple ecuatii de regresie, chiar
daca acestea au fost obtinute in cazuri cu un numar de participanti sau cu un numar de predictori
diferiti. In schimb, asa cum se deduce din titulatura, ΔR² nu este altceva decat diferenta dintre doi R²
calculati in cazul regresiei ierarhice. Intr-un asemenea context, se calculeaza cate un R² pentru fiecare
pas (ecuatie introdusa). De pilda, in exemplul descris vom avea doi R²: unul pentru situatia cu un singur
predictor (IQ -> Interpers), celalalt pentru situatia cu doi predictori (IQ + EI -> Interpers). Interesant
este faptul ca ΔR² este in acest caz egal cu part r² pentru predictorul EI, deoarece in cel de-al doilea
pas a fost introdusa o singura noua variabila. In situatia in care s-ar fi introdus in pasul urmator mai
mult de un predictor nou, ΔR² nu ar mai fi fost egal cu part r² pentru un anumit predictor, ci cu suma
tuturor part r² pentru predictorii introdusi suplimentar in pasul respectiv.
Cel de-al doilea indicator major al marimii efectului in cazul regresiei este f². Cu toate ca are aceeasi
logica ca si f (indicatorul de marime a efectului utilizat in cazurile ANOVA), Cohen (1988) propune
utilizarea lui f² ca fiind o modalitate mai apropiata de spiritul coeficientilor de determinare
fundamentati pe procentul explicat din totalul dispersiei observate.
Acelasi autor propune urmatoarele valori pentru f², respectiv R², in interpretarea magnitudinii marimii
efectului:
• efect scazut (f² = .02, R² = .02);
• efect mediu (f² = .15, R² = .13);
• efect puternic (f² = .35, R² = .26).
Aceste valori ale lui R² pot fi oricand transformate in procente. Astfel, un R² de .13 inseamna ca
aproximativ 13% din dispersia (varianta) criteriului este explicat de actiunea comuna a predictorilor
avuti in vedere. Explicatii similare pot fi oferite si in cazul coeficientilor de determinare semipartiali
(part r²), ce explica actiunea unui singur predictor asupra criteriului.
Hunter si Schmidt (1995) propun utilizarea coeficientilor de corelatie simpla sau a coeficientilor de
determinare ca indicatori ai marimii efectului pentru studii bazate pe tehnica regresiei, motivand
aceasta decizie prin faptul ca studiile respective pot fi comparate direct cu studiile ce implica corelatii
de tip r (o relatie bivariata), deoarece prin coeficientii de corelatie simpla nu se elimina influenta altor
variabile asupra predictorului avut in vedere. Daca aceasta perspectiva are sens in realizarea de meta-
analize, ea conduce insa la pierderea posibilitatii de a interpreta cu finete rezultatele (ex.: Care este
efectul „pur” al increderii in conducerea companiei (TRUST) asupra satisfactiei legate de munca
(SATISF), in conditiile in care eliminam influenta pe care alte variabile, precum salariul (PAY), o au
asupra perceperii conducerii). Astfel, daca part r² este mult mai mic decat r², se poate afirma ca mare
parte din corelatia initiala dintre TRUST si SATISF este falsa, ea fiind determinata doar de faptul ca
TRUST are o parte comuna cu alte variabile precum PAY, aceasta din urma fiind cea care coreleaza real
cu satisfactia in munca.

Regresia liniara simpla pe scurt:


- Regresia liniară simplă este o procedură de predicţie, pe baza corelaţiei dintre două variabile
cantitative (I/R).
- Precizia predicţiei este dată de valoarea coeficientului de corelaţie Pearson dintre variabile.
Cu cât r este mai mare, cu atât predicţia valorilor unei variabile (numită criteriu) pornind de la valorile
celeilalte variabile (numită predictor) este mai bună. La limită, când r=1, predicţia este perfectă.
- Modelul de regresie se exprimă grafic printr-o dreaptă, al cărui traseu prin norul de puncte
minimizează distanţele dintre punctele dreptei şi cele ale scatterplot-ului corelaţiei.
- Ecuaţia de regresie, în termenii scorurilor brute este Y’=ayx+byx*X, unde Y’ reprezintă valorile
prezise, ayx reprezintă punctul de origine al liniei de regresie, byx înclinarea acesteia, iar X, valorile
variabilei predictor.
- Împrăştierea valorilor în jurul liniei de regresie se numeşte varianţă reziduală (sau varianţa
estimării) şi exprimă gradul de eroare (imprecizie) al modelului de predicţie.
- Eroarea de estimare este 0 atunci când corelaţia este perfectă şi din ce în ce mai mare, pe
măsură ce valorile lui r sunt mai mici.
- Utilitatea regresiei liniare este în studii de predicţie

Ce utilizăm, corelaţia sau regresia?

Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele situaţii pot fi utilizate
ambele proceduri, dar fiecare dintre ele sunt recomandabile cu precădere în anumite situaţii, astfel:
Se calculează corelaţia liniară:
- atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte evaluarea
gradului de asociere între variabile;
Se calculează regresia liniară:
- atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile;
- atunci când una dintre variabile este manipulată, se calculează regresia;
Atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în ecuaţia de regresie
se va obţine o linie de regresie diferită, în timp ce, dacă se inversează ordinea variabilelor în calcularea
corelaţiei, se obţine acelaşi coeficient r. Cea mai firească utilizare a analizei de regresie este în situaţiile
în care dorim să facem predicţii. De exemplu, dacă am efectuat analiza de regresie între cunoştinţele
de matematică şi performanţa finală la cursul de statistică, într-un an, putem, în anul următor, să
estimăm rezultatul final la statistică pe baza parametrilor ecuaţiei de regresie calculaţi anterior. În
acest scop, aplicăm acelaşi test de cunoştinţe de matematică, după care construim predicţii pentru
fiecare student în parte. Finalitatea acestui demers ar putea fi aceea de identifica din timp studenţii
care au cele mai mari „şanse” de a nu obţine notă de trecere, şi de a efectua cu ei o pregătire
suplimentară, care să prevină această situaţie
De asemenea, analiza de regresie este utilă în controlul statistic al variabilelor externe, acelea care se
suprapun peste variabilele studiate, şi al căror efect dorim să îl „eliminăm”. Acest demers este specific
unor proceduri statistice avansate (regresia multiplă şi analiza de covarianţă)

Dreapta de regresie in SPSS

Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –Regression –Linear.
În Dependent se va transfera variabila dependentă.
Variabilele independente, Independent(s), pot fi grupate pe blocuri:
1. se transferă variabilele dorite,
2. se precizează în Method modul de introducere a acestor variabile în regresie (Enter – toate simultan,
Forward, Backward, Stepwise),
3. se defineşte un nou bloc prin Next.
Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a
cazurilor în funcţie de valorile variabilei de selecţie.
În Case Labels se poate preciza variabila care identifică cazurile, etichetele fiind considerate la
reprezentările grafice. Prin WLS Weight se poate preciza variabila de ponderare pentru metoda celor
mai mici pătrate ponderate.
Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. In fereastra
deschisa se pot selecta (nb. nele opţiuni sunt selectate şi în mod implicit):
- Estimates – coeficienţii estimaţi,
- Confidence intervals – intervalele de încredere ale coeficienţilor,
- Model fit – calcularea statisticilor R, R2şi a tabelului ANOVA,
- R squared change – modificărea coeficientului de determinare şi testarea semnificaţiei
schimbării la adăugarea fiecărui bloc de variabile,
- Descriptive – statisticile esenţiale pentru iecare variabilă,
- Collinearity diagnostics – calcularea toleranţelor, a statisticilor IF şi studiul multicoliniarităţii
prin analiza în componente principale (a se vedea apitolul urmăor al cursului).
În zona Residuals se produce o analiza a reziduurilor entru a putea decide asupra normalităţii acestora
şi a diagnostica valorile aberante.
Prin Plots se afişează dialogul sinonim în care se pot indica reprezentările grafice orite. În lista
variabilelor disponibile pentru diagrame se află DEPENDNT – variabila dependentă – şi variabile
derivate din regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile standardizate
(*ZRESID).
Diagramele indicate în Standardized Residual Plots sunt utile pentru verificarea normalităţii
reziduurilor.
Dialogul Save permite calcularea şi salvarea ca variabile noi a alorilor prognozate şi a reziduurilor sub
diferite forme, precum şi salvarea altor statistici de interes.
Predicted Values – valorile prognozate prin model pentru fiecare caz: Unstandardized, Standardized
pentru valorile nestandardizate şi standardizate, Adjusted valoarea prognozată pentru un caz din
ecuaţia de regresie estimată fără a considera acel caz, S.E. of mean predictions abaterile standard ale
valorilor prognozate, utile pentru calcularea intervalelor de încredere ale acestor valori.
Distances – distanţele cazurilor de la punctul mediu, pentru identificarea valorilor berante:
Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este măsura a cât de mult
se modifică reziduurile dacă se limină cazul espectiv din estimarea modelului (o valoare mare arată o
influenţăconsiderabilă a azului în estimarea coeficienţilor), Leverage values măsoarăinfluenţa
cazurilor în stimare.
Prediction Intervals sunt intervalele de incredere pentru valorile estimate, a nivelul de încredere
precizat în Confidence Interval. Sunt generate două variabile.
Residuals – reziduurile estimării în diferite forme: standardizate, nestandardizate, tudentizate
(reziduul este împărţit la estimaţia abaterii sale standard, roprie fiecărui az). Deleted, Studentized
deleted se referă la reziduurile obţinute din modelul la stimarea ăruia cazul respectiv a fost exclus.
Influence Statistics sunt modificările n coeficienţi (inclusiv cei standardizaţi), DfBeta(s)şi Standardized
DfBeta, şi în alorile prognozate, DfFitşi Standardized DfFit, rezultate după excluderea cazului in
estimare.
În sfârşit, prin butonul Options se deschide dialogul sinonim în care se pot fixa parametri ai estimării:
pragurile de intrare şi excludere la metodele pas cu as recum şi modul de tratare a valorilor lipsă dintr-
o variabilă implicată.

5.2. Regresia logistică;


Definitie

Regresia logistică modelează relaţia dintre o mulţime de variabile independente xi (categoriale,


continue) şi o variabilă dependentă dihotomică (nominală, binară) Y. O astfel de variabilă dependentă
apare, de regulă, atunci când reprezintă apartenenţa la două clase, categorii – prezenţă/absenţă,
da/nu etc. Ecuaţia de regresie obţinută discutate, oferă informaţii despre:
- importanţa variabilelor în diferenţierea claselor,
- clasificarea unei observaţii într-o clasă.

Regresia logistica este utilizată cu precădere în studiile epidemiologice, in vederea identificarii


caracteristicilor individuale asociate cu contractarea anumitor boli insa a câștigat mult în popularitate
si în afara domeniului medical. Ea este utilă cu precădere dacă distribuția valorilor VD este neliniară în
raport cu mai multe VI sau atunci când valorile VI au o pondere diferită asupra VD. De ex.:
probabilitatea de a pica la un examen poate fi afectată în mai mică măsură de o diferență de 2 unități
QI în cazul candidaților cu QI ridicat, decât în cazul celor cu QI mai scăzut.
Regresia logistică reprezinta, asadar, un model de predicție în care VD (criteriu), este de natură
categorială.
In regresia logistică binomială, VD este de tip dihotomic (are doar două categorii). Exemple:
- Persoanele supuse unei situații traumatice: să facă sau să nu facă PTSD
- Studenții piloți: să finalizezesau să nu finalizeze școala de pilotaj?
- Pasagerii de pe Titanic: să moarăs au să se salveze
In regresia logistică multinomială, VD are mai multe categorii. De exemplu tipologia delincvenților care
fură: furt din locuințe, furt de buzunare, furt cybernetic.

Concepte cheie în regresia logistică

Estimarea verosimilității maxime (maximum-likelihoodestimation-MLE)


- echivalentul metodei minimizării sumei pătratelor din regresia liniară
- se bazează pe transformarea VD într-o variabilă e tip logit(logaritmul natural al șansei ca
evenimentul să se producă sau nu)
- în regresia logistică se stimează probabilitatea de aparițiea unuia din evenimentele posibile
definite de categoriile criteriului
- se obține o valoare estimată a criteriului pentru fiecare subiect în parte
- MLE este un lgoritm iterativ, utilizat pentru calcularea coeficienților logitai ecuației de regresie
o la primul pas e fixează o valoare arbitrară a coeficienților logit
o apoi se determină direcția și mărimea cu care ceștia sunt modificați pentru a mări
o verosimilitatea logaritmică (log ikelihood-LL)
o la pașii rmători valorile reziduale sunt retestate și are loc re-estimarea LL
o procesul se repetă de mai ulte ri, până ce LL nu se mai modifică semnificativ

Mărimea efectului regresiei logistice


- Există mai mulți coeficienți R2, care cuantifică intensitatea relației dintre predictori și criteriu
- nu există un coeficient general acceptat, deoarece calcularea lor ridică probleme teoretice
(sunt enumiți și pseudo R2)
- toate variantele lor descriu, în esență, același lucru
o Coeficienții R2 pot fi și discordanți!!
- la fel ca și coeficientul R2din regresia liniară, coeficienții R2din regresia logistică pot fi
interpretați ca procentul varianței VD ce este explicat de varianța VI
- SPSS calculează doi coeficienți de mărime a efectului:
o R2al lui Cox & Snell
o R2al lui Nagelkerke

Regresie simpla
Regresie ierarhica