Documente Academic
Documente Profesional
Documente Cultură
„Modul specific în care variaţia unui set de variabile influenţează variaţia altor variabile” (Culic, 2004: 66).
Exemple: regresia liniară şi non-lineară, regresia multivariată, analiza path, analiza loglineară, regresie logistică,
analiza ANOVA şi MANOVA.
2. Tehnici de interdependență – nu presupune diferenţe între statutul ontologic al variabilelor. Analiza le implică
în mod simultan şi în acelaşi fel. Acestea sunt folosite pentru a identifica structura datelor, fie prin reducerea
variabilelor, fie prin gruparea obiectelor şi cazurilor, fie prin reprezentarea relaţiilor dintre obiecte şi atributele lor
pe o hartă perceptuală.
• Există diferenţe ale venitului mediu între persoanele cu ocupaţii diferite sau educaţie diferită?
• Există diferenţe în performanţa medie educaţională la copii proveniţi din medii sociale diferite?
• Există diferenţe între indicatorii KPI corespunzători indivizilor care lucreză în departamente
diferite ale aceleaşi companii?
• Prin care se testează dacă există dovezi în privinţa diferenţelor între un set
de medii ale unor grupuri.
În cazul în care grupurile se suprapun parţial, care este criteriul utilizat pentru a decide dacă există
diferenţe? Mai ales dacă trebuie să luăm în calcul şi erorile de eşantionare, iar in acest caz media nu este
un indicator suficient al diferenţelor (ea se generalizează la nivelul populaţiei sub forma unui interval).
Formularea problemei de rezolvat
Ho: Ipoteza nulă
Media variabilei cantitative Y este aceeaşi pentru toate cele m grupuri formate
de variabila categorială X.
= 1 = 2 = … = m
O altă strategie ar fi să calculăm toate distanţele faţă de un punct dat (de exemplu media) şi
să calculăm media acestor distanţe. Dar abaterea standard este tocmai abaterea medie a
valorilor de la medie. Prin urmare vom estima mărimea unui grup i cu ajutorul variantei:
2
2
𝛴 ( 𝑌 Y1 𝑗 − 𝑌 𝑖 )
𝜎´ 𝑖 =
𝑛𝑖
Putem calcula mărimile tuturor grupurilor, iar apoi le putem aduna. Adică:
2 2 2
𝑤𝑠𝑠=𝛴 𝑌 − 𝑌
´ 𝛴 𝑌 − 𝑌
´
( 1 𝑗 1 ) ( 2 𝑗 Unde
+ …+ 𝛴 𝑌
2 ) m este numărul
+ − 𝑌
´
( 𝑚 total 𝑚de) grupuri.
𝑗
Astfel am obţinut o mărime sintetică a mărimi tuturor grupurilor: suma intragrupală a distanţelor pătratice faţă
de medie (Within Sum of Squares)
B. Distanţa dintre grupuri: suma intergrupală a distanţelor pătratice
faţă de medie
Pentru a calcula cât de depărtate sunt grupurile între ele:
Vom calcula, prin urmare, media distanţelor de la mediile fiecărui grup la media generală, adică o abaterea standard.
𝜎 ´ )2
𝛴 ( 𝑌´ 1 − 𝑌
2
´ 𝑦=
𝑚 −1
Pentru că fiecare grup este posibil să aibă un număr diferit de cazuri, ponderăm aceste distanţele cu mărimea fiecărui
grup:
𝑌´ 1 ´ )2
𝛴 𝑛𝑖 ( 𝑌´ 𝑖 − 𝑌
2
𝐵𝑆 𝑆 =
𝑌´ 𝑚 −1
𝑌 ´ 2
- media variabilei cantitative (venitul subiectului) ar reprezenta media μ a unei populaţii, iar fiecare grup format de
´ 1 , 𝑌´ 2 , 𝑌´ 3 , … , 𝑌´ 𝑚
variabila categorială ar fi un subeşantion care aproximează această medie: 𝑌
Distribuţia de eşantionare a fiecărui Yi este o distribuţie centrată în jurul mediei și are o abatere standard (eroarea
standard): ⅇ= 𝜎
√𝑛
Adică noi putem calcula dispersia mediilor fiecărui grup de la media generală:
2
𝜎 = 𝛴 ( 𝑌´ 𝑖 − 𝑌´ )
2
𝑛 ∗ 𝛴 ( 𝑌
´ − 𝑌
´ )
2
𝜎 2
𝑛𝑖 ∗ 𝛴 ( 𝑌´ 𝑖 − 𝑌´ )
𝜎
´ 2
=
𝐵𝑆𝑆
sau 2
𝜎 =
𝑖 ´ = sau 𝑦
𝑛 𝑚− 1 𝑚 −1
𝑦
𝑚− 1 𝑚− 1
= 𝑊𝑆𝑆
Suma tuturor acestor erori o constituie varianţa intragrupală: 𝜎
𝑁 −𝑚
C. Testarea Ho
Ipoteza nulă: valoare medie a variabilei Y este aceeaşi pentru toate cele m grupuri create de categoriile
variabilei X: = 1 = 2 = … = m
Valoarea de test:
Deci valori relativ mari a lui F reprezintă argumente puternice împotriva Ho.
Valoarea P este probabilitatea de a obţine o valoare F care este cel puţin la fel de mare ca cea observată de
noi dacă Ho ar fi adevărară. Prin urmare cu cât este mai mic p cu atât şansele ca Ho să fie adevărate sunt mai
mici. Pentru p < 0.05 putem respinge Ho.
C. Testarea Ho: Exemplu
Ipoteza nulă: valoare medie a variabilei “venit subiect” este aceeaşi pentru toate cele 3 grupuri create de
categoriile variabilei educaţie: = superior = mediu = elementar
Suma intergrupală a pătratelor = 3659,794 grade de libertate = 3-1=2
Suma intragrupală a pătratelor = 15943,278 grade de libertate = 1353-3 = 1350
3659,794/2
F= 15943,278/1350
Ipoteza nulă se respinge: valoarea p = 0.000 este probabilitatea de a obţine o valoare F care este cel
puţin la fel de mare ca cea observată dacă Ho ar fi adevărară. Adică este o valoare foarte mică.
Se acceptă ipoteza alternativă: cel puţin două medii sunt egale. Care?
O soluţie incompletă: cine este diferit?
Testul F al analizei de varianţe verifică dacă toate mediile variabilei Y sunt egale în categoriile variabilei X.
Dacă nu sunt egale şi se confirmă ipoteza alternativă nu ştim care sunt categoriile în care mediile diferă.
De aceea putem compara toate mediile între ele pe rând. Însă şi aici pot interveni erorile de eşantionare:
dacă avem m categorii, atunci va trebui să facem m(m-1)/2 comparaţii
ne aşteptăm ca în medie doar 95% dintre intervalele de confidenţă în jurul diferenţelor să conţină valoarea reală.
Cu cât avem mai multe comparaţii de făcut cu atât este mai mare şansa de a face o inferenţă greşită.
Soluţia se găseşte în intervale de confidenţă simultane: atunci când dorim să facem un număr mare de
comparaţii folosim proprietatea că toate intervalele conţin cu o anumită probabilitate adevăratele
diferenţe între mediile grupurilor.
O soluţie incompletă: cine este diferit?
De exemplu:
• pentru o variabilă cu m=10 categorii va trebui să facem 10(9-1)/2=45 comparaţii între mediile în fiecare
categorie.
• noi ştim cu o probabilitate de 95% că cele 45 de diferenţe i-j conţin valoarea adevărată.
• de aceea vom construi intervale de confidenţă simultane pentru toate diferenţele pentru un anumit
nivel de probabilitate.
Au fost propuse mai multe moduri de abordare, precum: metoda Scheffé, metoda Tukey,
metoda Duncan, metoda Bonferonni, iar toate aceste teste se numesc teste post hoc de
comparaţie.
Pentru ca testul F să fie robust şi puternic este nevoie să fie testate trei asumpţii legate de date:
Ho: σ1=σ2=…=σm
Dacă L > F(α, m-1, N-m) atunci ipoteza nulă (Ho) este respinsă şi acceptată ipoteza alternativă (Ha). p este probabilitate
de a obţine o valoare F cel puţin cât cea observată (L). Dacă p<0.05 atunci ipoteza nulă se respinge.În acest caz se
respinge Ho, cel puţin două abateri sunt egale
Violările acestei asumpţii sunt mai moderate dacă mărimea subeşantioanelor este similară n1= n2 =…= nm
Referințe: