Manual STATISTICA

CURS STATISTICĂ - Unitatea de învăţare nr.
LEGĂTURI STATISTICE DINTRE VARIABILE
Cuprins:
1. Noţiuni introductive privind legăturile statistice dintre variabile.

2. Tipuri de legături statistice
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi
procesele economico-sociale
4. Metode analitice parametrice de măsurare a legăturilor dintre fenomene şi procese
economico-sociale
5. Metode neparametrice de măsurare a legăturilor dintre fenomene
6. Teste de autoevaluare
7. Răspunsuri şi comentarii la testele de autoevaluare.
8. Teme de control.
9. Rezumatul unităţii de învăţare.
10. Bibliografia unităţii de învăţare.
1. Noţiuni introductive privind legăturile statistice dintre variabile
Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea

legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se
manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi
socială trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea
deciziilor la nivelul agentului economic. De aceea, selectarea dependenţelor care au
caracter de stabilitate şi măsurarea acestora a constituit o preocupare prioritară a teoriei
şi cercetării economice.
Asupra fenomenelor social-economice acţionează o multitudine de factori,
principali şi secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau
cuantificabili cu aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă.
1
2. Tipuri de legături statistice
Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor
de influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode
specifice, poate studia manifestarea concretă a acestor legături, le poate exprima
cantitativ şi măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se
caracterizează prin faptul că, la modificarea unui factor de influenţă, factorul influenţat
răspunde cu o distribuţie de valori.
Legăturile statistice se pot clasifica astfel:
1) După natura relaţiei de cauzalitate distingem:
a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este
cauza iar celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul
cauză cu “x” şi fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)
b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul
combinării influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite.
Relaţia matematică este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile
fenomenelor cauză care au fost înregistrate; y = valorile fenomenului efect.
☺ Exemplu
O legatura stohastica este legătura dintre capacitatea de cazare (x i) şi valoarea
încasărilor din activitatea hotelieră (yi). Între cele două caracteristici există o legătură
statistică pentru că asupra încasărilor acţionează şi alte cauze: tarifele practicate, gradul
de confort etc.
2) După numărul de caracteristici incluse în modelul de corelaţie distingem:

a) legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă
rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu
acţiune constantă).
☺ Exemplu
2
Un exemplu de legătura simpla este cea dintre suprafaţa comercială şi valoarea
vânzărilor.
b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în

funcţie de mai mulţi factori înregistraţi sau dependenţa mai mulor variabile rezultative
(y1, y2, ….. , yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x 1, x2,
x3,...,xn) şi y1, y2,..., yi,...yn = f(xi).
☺ Exemplu
Un exemplu de legătura multiplă este cea dintre valoarea încasărilor ce depinde de zona
de amplasare (x1), de categoria de confort (x2), de baza materială (x3) etc.
3) După direcţia legăturii distingem:

a) legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de
dezvoltare al caracteristicii factoriale, se modifică în acelaşi sens şi nivelul
caracteristicii rezultative.
b) legături inverse (negative): au în vedere modificări în sens contrar nivelului de
dezvoltare (o variabilă creşte iar cealaltă scade).
4) După forma de exprimare a variabilelor corelate distingem:
a) legături de asociere. Acestea exprimă relaţia dintre două sau mai multe caracteristici
exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă şi una cantitativă
(exprimată numeric).
b) legături de corelaţie. Exprimă relaţia de interdependenţă dintre două sau mai multe
caracteristici statistice exprimate numeric.
5) După forma de realizare a legăturii distingem:
a) legăturile liniare exprimate printr-o funcţie liniară, de gradul intai;
b) legăturile neliniare exprimate printr-o curbă (exponenţială, parabolă, hiperbolă etc.);
6) După timpul în care se realizează:
a) legături sincrone: au loc în acelaşi timp şi se pot urmări în dinamică pentru
aceeaşi perioadă.
☺ Exemplu
3
O astfel de legatura este legătura dintre dinamica desfacerilor de mărfuri şi dinamica
câştigului mediu salarial.
b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii

rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii
corespunde funcţiei matematice de regresie (de estimare) care se alege pe baza
graficului de corelaţie (corelogramei).
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre
fenomenele şi procesele economico-sociale
Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se
încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode
sunt uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind
informaţii asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.
Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:
1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute
prin operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate.
Se pot folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea
de a stabili existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor
perechii x, y. Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un
număr foarte mare de termeni şi implică într-o măsură importantă subiectivismul
cercetătorului.
2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot
cerceta legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea
combinată.
☺ Exemplu
Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:
Gruparea salariaţilor după Valoarea încasărilor

Număr salariaţi
vechime (mil lei)
<5 2 80
5 - 10 5 83
4
10 - 15 7 85
15 - 20 5 87
> 20 3 89
Gruparea simplă presupune gruparea unităţilor statistice după o caracteristică
principală de grupare şi calculul şi interpretarea mediilor parţiale sau a mărimilor
relative parţiale pentru caracteristica rezultativă. Gruparea combinată se bazează pe
împărţirea unităţilor statistice în grupe concomitente după variaţia a două caracteristici
de grupare (x,y), iar rezultatele grupării se prezintă într-un tabelul combinat cu dublă
intrare (vezi capitolul II). Metoda grupării trebuie utilizată doar în cazul unui număr
mare de observaţii statistice, când aplicarea metodelor analitice de calcul nu se poate
face fără o grupare prealabilă a datelor înregistrate.
3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă
intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri
empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune
(nij) se distribuie în rubricile interioare ale tabelului. Dacă frecvenţele n ij tind a se
concentra către cele două diagonale trasate în tabelul următor, legătura între x i şi yj va fi
intensă. În schimb, dacă se împrăştie la întâmplare în reţeaua tabelului, legătura este
slabă sau poate lipsi. În concluzie, procedeul tabelului de corelaţie este o combinare
a metodei grupării cu principiile de construire şi interpretare a unei reprezentări
grafice.
xi \ yj y1, y2, ……...…. yj ………..……. yp Total

xr nr·
xr-1 nr-1·
: :
xi ni·
nij
: :
x2 n2·
x1 n1·
n·1, n·2, ……...…. n·j ………..…….

Total 
n·p
5
4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru
construcţia acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se
înscriu valorile caracteristicii principale de grupare (x), iar pe axa OY valorile
caracteristicii secundare de grupare (y). Intersecţia abscisei cu ordonata se concretizează
printr-un număr de puncte ce se dispun sub formă de nor, numărul punctelor fiind egal
cu numărul de unităţi statistice luate în calcul. După modul de distribuire a punctelor în
reţeaua graficului, printre acestea se trasează vizual o dreaptă sau o curbă ale cărei
ecuaţii se cunosc. În cazul în care curba sau dreapta se trasează pe prima diagonală,
legătura este directă, dacă se trasează pe cea de a doua diagonală, legătura este inversă.
Metoda grafică se utilizează ca metodă empirică pentru alegerea funcţiei matematice ce
se analizează în cazul regresiei şi corelaţiei statistice.
4. Metode analitice de măsurare a legăturilor dintre fenomene
Metodele analitice iau în consideraţie valorile reale ale varibilelor corelate şi

parametrii corespunzători acestora. Acestea poartă denumirea de metode parametrice şi
sunt:
1) metoda regresiei;
2) metoda covarianţei;
3) metoda raportului de corelaţie;
4) metoda coeficientului de corelaţie;
5) metoda analizei dispersionale.
1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre

variabile cu ajutorul unor funcţii, numite funcţii de regresie. Funcţia de regresie se alege
printr-o modalitate empirică folosind graficul de corelaţie (corelograma) si prin
aplicarea testelor de semnificaţie (de exemplu: testul “F” de analiză dispersională). În
funcţie de numărul de variabile incluse în model, distingem: regresie unifactorială (o
6
varibilă factorială xi şi o variabilă rezultativă yi) şi regresie multifactorială (mai multe
variabile factoriale şi o singură variabilă rezultativă).
a) Regresia unifactorială liniară are la bază ecuaţia dreptei (funcţia de gradul
întâi):
y x  a  bx i
i
De menţionat că dependenţa liniară dintre “yi” şi “xi” se consideră o dependenţă

stohastică în care unei valori “xi” îi pot corespunde mai multe valori “yi”. Funcţia yxi =
valorile ajustate ale lui “yi” după ecuaţia dreptei şi presupune înlocuirea valorilor
empirice cu valori teoretice obţinute prin calcul în urma aplicării unei metode sau unui
model de calcul statistic; xi = variabila factorială; yi = variabila rezultativă; a, b =
parametrii ecuaţiei de regresie care pot fi interpretaţi în sens geometric şi în sens
statistic. Parametrul “a”  exprimă în sens geometric ordonata la origine şi poate lua
atât valori pozitive, cât şi valori negative. Are caracter de mărime medie, în sensul că
valoarea sa arată la ce nivel ar fi ajuns valoarea caracteristicii “y i” dacă toţi factorii –
mai puţin cel înregistrat “xi” – ar fi avut o acţiune constantă. Parametrul “b”  exprimă
în sens geometric panta liniei drepte şi poartă denumirea de coeficient de regresie.
Măsoară cu cât se modifică în medie variabila rezultativă (yi) dacă variabila factorială
(xi) se modifică cu o unitate (semnul lui “b” ne indică direcţia legăturii). Parametrii a şi
b se determină din sistemul de ecuaţii normale obţinut prin metoda celor mai mici
pătrate, care se bazează pe minimizarea pătratelor abaterilor dintre valorile individuale
înregistrate şi valorile teoretice (corespunzătoare funcţiei). Această funcţie obiectiv
presupune identificarea punctului de extrem (are în vedere determinarea parametrilor
funcţiei) si verificarea dacă punctul de extrem este minim sau maxim (se realizează prin
semnul derivatei de ordinul II dacă este pozitiv (semnifică minim) dacă este negativ
(semnifică maxim). Relaţia de minimizare este:  ( y i  y xi ) 2 = minim. Pentru tendinţa

liniară a legăturii avem: f   ( y i  a  bx i ) 2 = minim. In functia de mai sus condiţia de
minim a unei funcţii de două derivabile se anulează când derivatele parţiale, în raport cu
df
cei doi parametri (a, b), sunt:  2 ( y i  a  bx i )(1)  0 si
da
7
df  na  b  x i   y i

 2 ( y i  a  bx i )( x i )  0   ; i= 1, n . Rezolvand sistemul
db 
a  x i  b  x i   x i y i
2
se calculeaza termenul liber, a, si panta dreptei, b, dupa metoda determinantilor, astfel:
 yi  xi
a  x i yi  x i2  y i  x i2   x i  x i y i
a   ;i= 1, n
 n  xi n  x i2  ( x i ) 2
 xi  x i2
n  yi
b  xi  x i yi n x i yi   x i  yi
b   ; i= 1, n
 n  xi n  x i2  ( x i ) 2
 xi  x i yi
Interpretarea pantei: daca b > 0  legătura de corelaţie este directă (pe măsură ce
cresc valorile lui xi cresc şi valorile ecuaţiei de regresie calculate); daca b < 0 
legătura de corelaţie este inversă (pe măsură ce creşte valoarea caracteristicii factoriale
(xi) scade valoarea caracteristicii rezultative (yi) si daca b = 0  cele două variabile sunt
independente şi yxi = 0. Funcţia de regresie exprimă statistic modul în care caracteristica
rezultativă (yi) se modifică, dacă ar influenţa numai caracteristica factorială (x i), iar
ceilalţi factori sunt consideraţi cu acţiune constantă.
a) y b) y
yxi = -a +bxi yxi = a - bxi

tgα x tgα x
a < 0 şi b > 0  legătură directă a > 0 şi b < 0  legătură inversă
figura 1.1 figura 1.2
c) y d) y
yxi = a yxi = bxi
8
a > 0 şi b = 0  lipsa legăturii a = 0 şi b > 0  legătură funcţională
figura 1.3 figura 1.4
Fig. 1 Interpretarea geometrică a parametrilor
Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de

informaţii negrupate, dar prezentate sub forma a două serii paralele interdependente (x i şi yi) – caz
prezentat anterior si pentru un număr mare de informaţii sistematizate prin grupare simplă
(xi, yi, ni valori cunoscute) si grupare combinată (yj, ni, nj, nij, xi valori cunoscute).
Pentru cazul (1) (grupare simplă) sistemul de ecuaţii normale se determină prin
analogie cu cel prezentat anterior, cu deosebirea că se va ţine seamă de frecvenţele
comune (ni) pentru cele două varibile xi şi yi. Sistemul de ecuaţii normale este:


 a n i  b x n  y n
i i i i
 a
 x i2 n i   y i n i   x i n i   x i y i n i

a x i n i  bx n  x y n
2
i i i i i  n i   x i2 n i  ( x i n i ) 2
 n i   x i yi n i   x i n i   yi n i
b
 n i   x i2 n i  ( x i n i ) 2
Pentru cazul (2) (grupare combinată) rezultatele se prezintă într-un tabel combinat
cu dublă intrare, iar sistemul de ecuaţii se determină prin analogie cu cel de la cazul (1):
 K m K m
   ij
a n  b x n 
 i i  y jn j
i j i j
 K K K m
a  x i n i  b x i2 n i    x i y j n ij
 i i i j
 Din rezolvarea sistemului de ecuaţii normale se obţin formulele uzuale de calcul al

parametrilor “a” şi “b”. Legăturile dintre fenomene nu se bazează mereu pe modele
simple de regresie pentru că pot exista mai multe variabile factoriale şi o singură
variabilă rezultativă de forma: y = f(x1, x2,……,xi, ……, xn). Asemenea legături poartă
denumirea de modele de regresie multifactoriale care au la bază funcţia: liniară,
exponenţială, hiperbolică, parabolică.
2) Metoda covarianţei se utilizează pentru măsurarea intensităţii legăturilor de tip
statistic între două sau mai multe variabile la nivelul întregii colectivităţi. Covarianţa
este un indicator sintetic de corelaţie simbolizat prin cov(x,y), se obţine ca o medie
aritmetică a produselor abaterilor variabilelor faţă de media lor conform relaţiei:
9
1 n
cov(x , y)   ( x i  x )( y i  y)
n i 1 . Semnul indicatorului arată direcţia legăturii: plus
cov( x , y)   x   y
(legătura directă), minus (legătura indirectă), iar covarianţa nulă ne indică lipsa legăturii
de corelaţie (variabilele sunt independente). Covarianţa are ca neajuns faptul că depinde
de unităţile în care se măsoară variabilele aleatoare.
3) Metoda raportului de corelatie
Pentru stabilirea intensităţii legăturii dintre două varibile (x i, yi) se calculează un
indicator sintetic de corelaţie numit “raport de corelaţie” simbolizat cu Rx/y. Acesta
permite măsurarea gradului de intensitate a realizării legăturii dintre caracteristica
considerată factor de influenţă (xi) şi caracteristica rezultativă (yi), indiferent de forma
legăturii: liniară sau neliniară. Calculul se bazează pe descompunerea variaţiei totale
(dispersiei) a caracteristicii rezultative “y” astfel:
(y i  y 0 ) = (y i  y xi ) + (y xi  y 0 )
 
abaterea abaterea
întâmplătoare sistematică
Prin însumare şi ridicare la pătrat se obţine:
 ( y i  y 0 ) 2   [( y i  y x i )  ( y x i  y 0 )] 2   (y  yi xi )2  2 ( yi  y xi )( y xi  y 0 )   ( yxi  y 0 )2
  
0
 ( y i  y xi ) 2  (y xi  y 0 ) 2
 (y i  y 0 )2  
  
  (y i  y 0 )2

 ( y i  y xi ) 2   (y xi  y 0 ) 2
n
n n
 
  2y  2y
 2y
= r + x
  
Dispersia totală: Dispersia reziduală: Dispersia

arată influenţa arată acea parte din sistematică:
tuturor factorilor variaţia variabilei arată influenţa
esenţiali şi rezultative “yi” factorului “xi”
întâmplători datorată acţiunii asupra variaţiei
care determină factorilor caracteristicii
10
variaţia totală a
variabilei rezultative
“yi” întâmplători rezultative “yi”
Raportul de corelaţie se determină pornind de la regula de adunare a dispersiilor
(prezentată anterior), utilizând coeficientul de determinaţie ( R 2y / x ) şi coeficientul de
 2y / x  2y / r
nedeterminaţie ( K 2y / x ): R 2y / x   100 si K 2y / r   100 . Raportul de corelaţie se
 2y  2y
calculează ca rădăcină pătrată din coeficientul de determinaţie astfel:
 (y i  y xi ) 2
 2y / x  2y   2y / r  2y / r n 1
 (y  y )
i xi
2
    
 R y / x  R 2y / x    1  1  (y  y ) 2
; i=
    2y  2y  2y  (yi  y 0 ) 2 i 0
(1)     (3)
( 2) n
1, n
Formula de calcul simplificat a raportului de corelaţie se determină astfel:
 y i2  a  y i  b x i y i
R y/x  1
( y i )
2
; i= 1, n . Raportul de corelaţie ia valori în intervalul
 yi 
2
n
[0,1]
= 0 – lipsă de legătură (varibilele sunt necorelate)

 0 – legatură foarte slabă sau poate lipsi
Ry/x[0,1] = 1 – legătură de tip funcţional, variabila “yi” depinde în

exclusivitate de variabila “xi”
 1 – legătură puternică, intensă
În cazul legăturilor de tip invers, semnul raportului de corelaţie este dat de către semnul
coeficientului de regresie (b). În funcţie de informaţiile folosite în calcul şi de modelul lor de
sistematizare, raportul de corelaţie se calculează în următoarele două cazuri:
1) Număr mic de informaţii, în care se dau valorile x i, yi, caz în care Ry/x se
calculează după formulele 1,2,3, explicitate anterior;
2) Număr mare de informaţii:
a) se dau valorile lui xi, yi şi ni frecvenţele lor comune:
11
 ( y i  y xi ) 2 n i
R y/x  1 ; i= 1, n
 ( y i  y) 2 n i
 y i2 n i  a  y i n i  b x i y i n i
 1
2n   i i
( y n )2 ; i= 1, r
 i i
y
 ni
b) se dau valorile lui xi, frecvenţele după variabila xi (ni), frecvenţele după
variabila yj (nj) şi frecvenţa comună nij:
 ( y j  y x i ) 2 n ij
Ry/x  1 
 (y j  y 0 ) 2 n j
 y 2j n j  a  y j n j  b  x i y j n ij
1
= ( y j n j ) 2 ; j= 1, m ; i= 1, K
2n 
 j j
y
nj
4) Metoda coeficientului de corelaţie

Coeficientul de corelaţie este un indicator sintetic prin care se măsoară legătura
dintre două variabile (xi, yi) statistice a căror distribuţie este asimptotic normală sau
normală. Calculul coeficientului de corelaţie se bazează în forma iniţială pe produsul
abaterilor normale normate (pentru un număr de date individuale negrupate):
xi  x
Zx 
x
yi  y
Zy 
y
Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale

normate:
 x i  x  y i  y 
   
 
  x   y   ( x i  x )( y i  y) ; i= 1, n
ry / x  
n n x   y
Dacă în relaţia (1) vom înlocui: x 

 x i ; y   yi ; i= ;  ( x i  x ) 2 şi
1, n x 
n n n
n x i yi   x i  yi
 ( y i  y) 2 se obţine relaţia: ry/x = ; i =
y 
n [n  x i2  ( x i ) 2 ][ n  y i2  ( y i ) 2 ]
1, n (2)
12
cov(x i , y i )
Folosind covarianţa: ry/x =   
xi yi
Interpretare:
1) ry/x  [-1,1]  apreciem din punct de vedere al semnului direcţia legăturii şi
din punct de vedere al mărimii intensitatea legăturii.
Dacă: ry/x = 0  legătura lipseşte şi variabilele xi şi yi sunt independente;
ry/x  0  legătura dintre cele două varibile este slabă;
ry/x = 1  legătură de tip funcţional (fie directă dacă semnul coeficientului

este pozitiv, fie inversă dacă semnul coeficientului este negativ);
ry/x  1  variabilele sunt puternic corelate, legătura fiind intensă.
2) ry/x = Ry/x se apreciează că legătura de corelaţie este de forma liniară, ceea ce
înseamnă că se poate folosi fie coeficientul, fie raportul de corelaţie.
3) Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, motiv
pentru care acest indicator este semnificativ pentru corelaţiile de tip liniar şi mai puţin
semnificativ pentru corelaţiile de tip neliniar (în cazul din urmă folosindu-se raportul de
corelaţie).
4) În cazul legăturii liniare se mai poate calcula ca o medie geometrică a
coeficienţilor de regresie (b) astfel:
ry / x  by/ x  bx / y
by/x 
n  x i2  ( x i ) 2
unde: ; i= 1, n
bx/ y 
n  y i2  ( y i ) 2
Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de

modul în care au fost sistematizate informaţiile. Astfel:
a) - număr mic de informaţii în care se dau valorile lui x i, yi sub forma a două serii
paralele; ry/x se calculează după formula (1), (2) şi (3) prezentate anterior.
b) - număr mare de informaţii, cunoscându-se xi, yi şi frecvenţele lor comune (ni)
 ( x i  x )( y i  y)n i
ry / x  ; i= 1, n
 n ix  y
 xini  yi n i  (x i  x) 2 n i  ( y i  y) 2 n i
unde: x  ;y  ;x  ;y  ;i= 1, n
 ni  ni  ni  ni
13
Înlocuind în formula (1) a lui ry/x se obţine:
ry / x 
n x y n  x n y n
i i i i i i i i
[ n  x n  ( x n ) ][ n  y n  ( y n )
2 2 2 2
]
; i= 1, n
i i i i i i i i i i
c) se cunosc valorile lui xi, yj, ni, nj, nij, obţinute prin gruparea combinată, rezultatul
fiind prezentat într-un tabel combinat cu dublă intrare şi atunci relaţia de calcul devine:
n x y n ij i j ij  x n y n i i j j
i  1, n
ry / x 
i j
;
n x  x n ) ][ n  y y n j  1, m
2 2 2 2
[ i i ni ( i i j jnj ( j j) ]
5) Metoda analizei dispersionale. Raportul de determinare

O modalitate eficientă folosită în caracterizarea conexiunilor este metoda analizei
dispersionale (metoda coeficientului de determinare), care se poate folosi în mai multe
cazuri şi anume: la verificarea independenţei unui fenomen comercial sau turistic, la
verificarea stabilităţii mediei şi dispersiei pentru mai multe eşantioane succesive, la
verificarea dependenţei unui fenomen comercial sau turistic de factorii săi de influenţă .
Dacă analiza dispersională se utilizează după aplicarea corelaţiei statistice, atunci
aceasta este considerată o metodă prin care se testează semnificaţia curbei (funcţiei) de
regresie explicitate.Analiza dispersională are la bază metoda grupării, prin care unităţile
observate se separă în grupe după variaţia caracteristicii de grupare (considerat factor de
influenţă). Aplicarea acesteia are la bază gruparea combinată (după cele două variabile
xi şi yj). Poate fi utilizată atât ca metodă simplă de caracterizare a corelaţiilor, prin care
se stabileşte dacă variabila factorială influenţează semnificativ variabila rezultativă, dar
şi ca metodă analitică de combinare a acesteia cu analiza regresiei. Analiza
dispersională se poate utiliza în următoarele situaţii: înainte de aplicarea metodei
corelaţiei, caz în care se poate verifica gradul de semnificaţie a factorului considerat
principal pentru producerea variaţiei caracteristicii rezultative si după utilizarea metodei
regresiei şi corelaţiei, caz în care se poate verifica corectitudinea funcţiei matematice cu
ajutorul căreia s-au estimat valorile caracteristicii rezultative în raport cu variaţia
caracteristicii factoriale.
Pentru prezentarea modelului analizei dispersionale prin care se testează forma de
legătură, pornim de la variaţia totală a varibilei (Y) care se descompune în următoarele
trei elemente: (yj - y0 ) = (yj - yi ) + ( y i - yxi) + (yxi - y0 ),
unde: y0 = media totală a variabilei Y
14
yj = valorile variabilei Y
yi = mediile condiţionate ale variabilei Y
Yxi = valorile ajustate ale variabilei “Y” în funcţie de “X”
Calculul raportului de determinare se bazează pe descompunerea variaţiei seriei
de date y1,…,yT în funcţie de influenţa factorilor incluşi în modelul de regresie şi factori
aleatori neînregistraţi: SST   ( yi  y ) 2 ; relaţia anterioara cuantifică dispersia seriei
valorilor variabilei endogene sub acţiunea tuturor factorilor de inferenţă. Influenţa

factorilor de regresie este data de SSE   ( yi  y ) 2   ei2 . Pe baza abaterilor menţionate
se calculează dispersiile medii corelate ale variabilei Y, respectiv dispersia totală S 2y,
dispersia în postura de estimaţii ale dispersiei totale, adică: Pentru măsurarea
dependenţei legăturii între variabila endogenă şi factorii de regresia se calculează
raportul de determinare (R2).
SSR SSE
R2  1
SST SST
Calculele necesare determinării lui R2 sunt realizate din cadrul unei analize
dispersionale (ANOVA).
Tabel ANOVA pot fi folosite pentru modelul de regresie
Sursa variabilei Suma pătratelor Grade de libertate Media sumei
pătratelor
Regresia reziduală SSR K-1 MSSR=SSR/K-1
SSE T-K MSSE=SSE/T-K
TOTAL SST T-1
Rezultatele ANOVA pot fi folosite pentru construirea testului F

MSSR
F
MSSE
F urmează o distribuţie Fisher cu K-1 şi T-K grade de libertate. Pentru un prag de

semnificaţie α se stabileşte valoarea teoretică Fα;K-1;T-K
Dacă:
F cal < Fα;K-1;T-K – influenţa regresiei diferă semnificativ de cea a factorilor
reziduali; deci modelul este valid.
F cal > Fα;K-1;T-K – modelul este invalid.
De asemenea dacă:
15
• F calc > F teoretic atunci apreciem că legătura dintre X, Y este semnificativă şi se pot
aplica în continuare şi alte metode de calcul statistic pentru a cuantifica legătura
dintre X şi Y.
• F calc < F teoretic legătura nu este semnificativă, variabilele sunt necorelate.
☺ Exemplu
În vederea estimării cheltuielilor lunare pentru alimentaţia publică,
s-a efectuat o cercetare prin sondaj, pe baza unui eşantion de 15%, selectat întâmplător
şi nerepetat din numărul total de persoane. Persoanele chestionate au fost împărţite în
cinci grupe tipice, după veniturile medii lunare nete. În urma înregistrării şi prelucrării
datelor, s-au obţinut rezultatele:
Colectivitate generală Colectivitate de selecţie

Numărul
Coeficientul persoanelor
Cheltuieli medii
Grupe tipice de variaţie plasate peste
lunare pentru
de persoane după Numărul al cheltuielilor media
alimentaţie
venituri lunare persoanelor pentru cheltuielilor
publică
(zeci mii u.m.) alimentaţie pentru
(zeci mii u.m.)
publică (%) alimentaţie
publică pe grupe
sub 70 1000 8 25 50
70-74 1500 7 18 100
74-78 2000 11 20 150
78-82 1200 15 15 95
peste 82 800 18 22 70
Total 6500 - - 465
Se cere considerând că media cheltuielilor lunare pentru cele 6500 de persoane este
11,8 zeci mii u.m.:
1. Precizaţi dacă veniturile lunare reprezintă un factor semnificativ al cheltuielilor medii

pentru alimentaţia publică; folosind a) regula de adunare a dispersiilor; b) testul „F” de
analiză dispersională, ştiind că pentru P = 0,99;
2. Să se măsoare intensitatea legăturii dintre veniturile lunare şi cheltuielile medii pentru

alimentaţie publică pentru persoanele din eşantion, folosind un indicator de corelaţie
adecvat.
Rezolvare:
16
Calculam media generala si dispersiile din fiecare grupa aplicand regula de adunare a
dispersiilor:
 yi n i 8  150  7  150  11  300  15  180  18  120
y   11,2  11 zecimiiUM
 ni 11,8
Deoarece dy% = -5%; n = 975 persoane este reprezentativ.

Regula de adunare a dispersiilor  02   02   2 ;  02  5,34  14,06  19,4 
2 14,06
R2   100   100  72%
0
2
19,4
Dispersiile de grupă:  i2   i    12  4 ;  22  1,6 ;  42  5,1 ;  52  15,7

2
Media dispersiilor de grupă  i 

2  n 2
4  150  1,6  225  4,8  300  5,1  180  15,7  120
 i i
  5,34
n
1
i 975
Dispersia dintre grupe:   
 2

 y  y  n   8  11 150   7  11  225  11  11
i
2
i
2 2
 300

n i 975

15  11 2  180  18  11 2  120  14,06
975
Dacă R 2  72% , adică k 2  28% . Pentru ca R 2  k 2 ; 72%  28% veniturile lunare

constituie factor semnificativ pentru cheltuielile cu alimentaţia publică. Pentru
certitudine, se va folosi testul „F” de analiză dispersională.
S y2 / x 2y / x 2y / z
y   n 
2 2
 y ni
b) Fcalc  S 2   i i
: i
:
y/z nx nz r 1 n  r i
13708,5 5206,5
 :  638 , Deoarece Fcalc  Fteoretic ; 638  4,62 , veniturile lunare
4 970
influenţează semnificativ cheltuielile pentru alimentaţia publică.
5. Metode neparametrice de măsurare a legaturilor dintre fenomenele

economico-sociale
17
Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie
de tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru
caracteristicile cantitative, dar şi pentru cele calitative. Poartă denumirea de metode
neparametrice deoarece nu iau în calcul întotdeauna valorile variabilelor corelate şi nici
parametrii lor corespunzatori. În concluzie, se folosesc în următoarele situaţii: când
distribuţia variabilelor corelate nu e normală sau asimptotic normală; când nu este
cunoscută forma de distribuţie a variabilelor; când variabilele corelate sunt asimetrice,
deci prezintă asimetrie pronunţată sicând avem de-a face cu variabile calitative şi
cantitative care în prealabil necesită o anumită cuantificare.
Metodele neparametrice uzuale sunt:
1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere,
care este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ
(DA/NU; F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:
n11 n12
n21 n22
în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în
interiorul tabelulului se trec frecvenţele corespunzătoare lor.
 Exemplu: Dacă avem în vedere două variabile statistice “x i” şi “yi” şi
considerăm că sunt variabile de tip alternativ, atunci asocierea dintre “x i” şi “yi” se
prezintă astfel:
yi
DA NU Total
xi
DA n11 n12 n11 + n12
NU n21 n22 n21 + n22
Total n11 + n21 n12 + n22 
(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două

variabile corelate “xi” şi “yi”). Pentru stabilirea valorii numerice a coeficientului de
asociere care să indice existenţa şi intensitatea legăturii, se calculează coeficientul lui
Yule conform relaţiei:
n 11  n 22  n 21  n 12
Q
n 11  n 22  n 21  n 12
; unde Q  [-1,1]
Dacă: Q = 0 lipsa de asociere între xi şi yi
18
Q  0 asociere redusă între xi şi yi
Q  ±1 asociere puternică între xi şi yi
Q= ±1 asociere perfectă între xi şi yi
Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i”
şi “yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul
utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele
provin de la unităţi statistice complexe.
2) Coeficienţii de corelaţie a rangurilor
Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale
variabilelor cu numărul lor de ordine numit RANG. Rangurile se atribuie după ce în
prealabil s-au ordonat datele individuale ale celor două variabile în ordine crescătoare,
astfel încât va trebui să vedem dacă există concordanţă între rangurile caracteristicii
factoriale de la 1  n şi rangurile
caracteristicii rezultative de la 1  n. Avantajul utilizării acestora:
1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;
2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica
reprezentativitatea datelor parţiale.
a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului
de corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]
Acesta se calculează parcurgând următoarele etape:
1) se identifică cele două variabile corelate xi şi yi;
2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi”
cât şi pentru variabila “yi”;
Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală
cu 1.
3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;
6 d i 2
4) se aplică formula de calcul: rS  1   [-1,1] ce măsoară intensitatea legăturii
n3  n
dintre rangurile celor două variabile corelate, unde: d i = diferenţa dintre rangurile
variabilei “xi” şi rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori
corelate.
19
Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independenţă,
statistică);
rS  0 legătură foarte slabă sau poate lipsi;
rS  ± 1 legătură puternică;
rS = ± 1 legătură funcţională.
b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc
valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:
1) se identifică variabilele corelate “xi” şi “yi”;

2) se ordonează crescător variabila “xi” şi, în corespondenţă cu aceasta, se trec valorile
corespunzatoare variabilei “yi”;
3) se acordă ranguri crescătoare în aceeaşi manieră ca şi la coeficientul Spearman;
4) se determină concordanţa notată cu P şi discordanţa notată cu Q;
5) se calculează scorul sau diferenţa (S = P – Q);
2S
6) se aplică formula de calcul: rk 
n ( n  1)
unde: ∑S = ∑P – ∑Q  [-1, 1]
Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare

fiecarui rang considerat al variabilei yi. Discordanţa (Q) este mereu negativă şi
reprezintă numărul de ranguri inferioare fiecărui rang considerat al variabilei yi.
Coeficientul rangurilor calculat după formula lui Kendall este de obicei mai mic decât
cel calculat după formula lui Spearman, având aceeaşi interpretare.
☺ Exemplu
Pentru exemplificare, presupunem că notele înregistrate la examenul de bacalaureat şi
media înregistrată la examenul de admitere la Colegiu Comerţ pentru 10 candidaţi se
caracterizează prin datele:
Media Media Ranguri

2
bacalaureat admisă di P Q S
(xi) (yi) Rx i (  ) Ry i (  )
20
7,00 6,90 1 4 9 6 3 3
7,07 6,50 2 2 0 7 1 6
7,75 6,00 3 1 4 7 0 7
7,80 7,20 4 6 4 4 2 2
7,90 7,10 5 5 0 4 1 3
8,00 6,80 6 3 9 4 0 4
8,15 7,25 7 7 0 3 0 3
8,65 7,30 8 8 0 2 0 2
9,25 7,80 9 10 1 0 0 -1
9,80 7,60 10 9 1 0 0 0
28 37 7 29
Pentru a caracteriza legătura dintre media la bacalaureat şi media la admitere folosind
metode neparametrice, vom determina cei trei coeficienţi prezentaţi anterior. (Yule,
Spearmen, Kendall). Pentru coeficientul de asociere Yule, se întocmeşte tabelul de
asociere, stabilind poziţia fiecărui candidat faţă de media celor 10 candidaţi:
x
 xi 
81,37
 8,137 si Asocierea dintre “xi” şi “yi”, în raport cu media, va fi:
n 10
yi
Sub y Peste y Total
xi
Sub x n11 = 4 n12 = 2 6
Peste x n21 = 0 n22 = 4 4
Total 4 6 10
n 11 n 22  n 21n 12 4  4  0  2 16
Q1    1
n 11 n 22  n 21n 12 4  4  0  2 16
 [-1,1]
Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la

admitere este directă şi foarte intensă deoarece Q = 1. Se calculează coeficientul
6 d 3i 6  28
Spearman conform relaţiei: rS  1   1
1000  10
 0,83 . Apreciem că legătura
n n
3
dintre rangurile notelor la bacalaureat şi cele de la admitere este destul de intensă,

deoarece coeficientul se încadrează între 0,8 şi 0,9. Calculând coeficientul de
determinaţie (rs)2 = (0,83)2 = 0,69 sau 69%, deci, influenţa notelor la bacalaureat asupra
mediei la admitere este în proporţie de 69%, restul de 31% reprezintă influenţa altor
cauze (factori) care nu au fost luate (luaţi) în consideraţie.
21
2S 2  29
Se calculează coeficientul Kendall conform relaţiei: rk    0,64 care
n ( n  1) 10(10  1)
se interpretează în aceeaşi manieră ca şi coeficientul Spearman.
6. Testul de autoevaluare 1
1. Un număr de 150 de studenţi din două centre universitare participă la un examen de
burse în străinătate. Cei 100 de studenţi din prima universitate obţin un punctaj mediu
de 88 puncte, cu un coeficient de variaţie de 8%, iar cei din a doua universitate obţin un
punctaj mediu de 96 puncte, cu o abatere standard de 0,65 puncte. În ce măsură factorul
de grupare centrul universitar contribuie la variaţia punctajelor obţinute de studenţi? În
ce măsură diferă semnificativ punctajul de la un centru universitar la altul?
2. Pentru zona de amplasare a 2 centre comerciale cu 10 si15 magazine, se cunosc

datele:
Profitul mediu pe
Zona de Dispersia
Număr magazine un magazin (mil.
amplasare profitului
RON)
Centrală 10 20 12
Periferie 15 26 22
Să se determine în ce proporţie zona de amplasare influenţează variaţia profitului
3. Din datele furnizate de Ancheta Integrată în Gospodării se cunosc următoarele date pentru zece familii.
Venituri lunare ce revin în medie
Famili Cheltuieli pentru achiziţionarea
pe o perioadă pe familie (zeci mii
a produsului „x” (zeci mii u.m)
u.m)
1 7,2 3,2
2 9,9 3,8
3 8,5 4,0
4 11,8 5,5
5 19,2 6,2
6 10,9 4,1
7 13,4 5,4
8 12,5 5,9
9 11,5 6,0
10 16,1 6,3
Se cere: Să se caracterizeze şi să se măsoare legătura dintre venituri şi cheltuieli
folosind:
a) graficul de corelaţie;
b) metoda regresiei;
c) metoda raportului de corelaţie;
d) metoda coeficientului de corelaţie;
22
7. Răspunsuri şi comentarii la testele de autoevaluare
1. Rezolvare:
Se cunosc următoarele elemente pentru determinarea coeficientului de
determinare  R 2  : n1  100 y  88 1  8% 1
n2  50 y 2  96  2  0,65
• Coeficientul de determinare R  :2
2 14,22
R2   100   100  30% unde
0
2
47,40
• Dispersia dintre grupe  2  :
y 
m
2
 y 0  ni
  2 i 1
i

 88  90,66  100   96  90,66  50
2 2
 14,22
m
150
ni 1
i
• Media pe total colectivitate ( y 0 )

m
y i  ni
88  100  96,50
y0  i 1
m
  90,67 puncte
150
n
i 1
i
• Media dispersiilor de grupă:

m
2
 i
2
 ni
0,4225  50  49,56  100 4977,125
 
i
i 1
m
   33,18
150 150
n
i 1
i
 
Deoarece 1  8%  0,08 , 1  y  0,08  88   1  88  0,08  7,04
1 1
 1   12   12    1  2   7,04 2  49,56 ,  2  0,65   22   0,65  0,4225

2
Regula de adunare a dispersiilor:

2
 x2   2   i  33,18  14,22  47,40
Pentru că coeficientul de determinare este 30%, înseamnă că 30% din variaţia

punctajului este explicată de centrul universitar, iar restul de 70% se datorează altor
factori. Deoarece R 2  K 2 apreciem că centrul universitar nu contribuie semnificativ la
variaţia punctajelor obţinute de studenţi. Punctajele studenţilor nu diferă semnificativ de
la un centru la altul
2. Rezolvare: Notaţii: xi  zona de amplasare; ni  număr magazine; y  i
profitul mediu;  i2  dispersia profitului. Pentru a determina în ce proporţie factorul
23
principal de grupare influenţează variaţia profitului se determină coeficientul de
2 8,64
determinare după relaţia: R   2  100  26,64 100  32,43% . Dispersia dintre grupe:
2
y 
m
2
 y 0  ni
 
2 i 1
i

 20  23,6  107   26  23,6  15 129,6  86,4
2 2
  8,64
m
25 25
n i 1
i
y i  ni
20  10  26  15 590
Media pe total colectivitate : y 0     23,6
i 1
m
25 25
n
i 1
i
mil. RON/magazin Media dispersiilor de grupă:

m
 i
2
 ni
12  10  22  15 120  330
 
i
2 i 1
m
   18
25 25
ni 1
i
Regula de adunare a dispersiilor:

2
 i2   2   i  8,64  18  26,64 si R 2  K 2 =
100  K 2  67,57% (coeficientul de non-
determinare)  R 2  K 2 deci zona de amplasare a centrelor comerciale nu influenţează
semnificativ variaţia profitului; acesta este influenţat de alţi factori, cum ar fi: calitatea
şi preţul mărfurilor, calificarea personalului, etc.
3. Rezolvare:
1. (a) Corelaţia dintre veniturile lunare (medii) pe o persoană din familie şi cheltuielile
pentru achiziţionarea produsului „z”
7,2
x x
6,2 x x
x x
5,2
Yxi  a  bxi
4,2 x
x
3,2
0 7,2 10,2 13,2 16,2 19,2 X
Diagrama de împrăştiere
24
Scara: 0X – 1 cm = 3 zeci mii u.m. (venituri)
0Y – 1 cm = 1 zeci mii u.m. (cheltuieli)
an  b  xi   yi
Yxi  a  b  xi  1,799  0,268  xi  aa 10

b)
 b  121  50, 4

a  xi  b  xi   xi yi

2 121  b  1576,06  639,83
Deci funcţia de regresie este Yx  1,8  0,268  xi

a  1,79885  1,8 zeci mii u.m.

b  0, 26786  0, 268 zeci mii u.m. i
 y Y 
2
i xi 3,59
c) R y / x  1   1  0,83 sau
  y  y
2
i
11,824
Ry / x  1
y 2
i  a  yi  b xi yi
 1
265,84  1,8  50,4  0,268  639,83
 0,83
 y  2
265,84 
50,4 2
y 2
i 
n
i
10
n xi yi   xi   yi
d) ry / x  
n   x 2
i
2

   xi   n   yi2    yi 
2

10  639,83  121 50,4
 0,824  0,83
10 1576,06  121   10  265,84   50,4 
2 2
Algoritmul de calcul necesar determinării abaterilor medii pătratice şi a indicatorilor de

corelaţie este redat în tabelul următor:
Nr. xi yi  xi  x  2  yi  y  2 xi yi
crt.
0 1 2 3 4 5
1 7,2 3,2 24,01 3,3856 23,04
2 9,9 3,8 4,84 1,5376 37,62
3 8,5 4,0 12,96 1,0816 34,0
4 11.8 5,5 0,09 0,2116 64,9
5 19,2 6,2 50,41 1,3456 119,04
6 10,9 4,1 1,44 0,8836 44,69
7 13,4 5,4 1,69 0,1296 72,36
8 12,5 5,9 0,16 0,7396 73,75
9 11,5 6,0 0,36 0,9216 69,0
10 16,1 6,3 16,0 0,5876 101,43
121 50,4 111,96 11,824 639,83
Total    
 i x  i y  i x  x
2
 i y  y
2
 xi yi
continuare tabelul
Nr.
crt.
xi2 yi2 Yx  1,8  0,268  xi i
 yi  Yx 
2
i
0 6 7 8 9
1 51,84 10,24 3,7 0,25
2 98,01 14,44 4,5 0,49
3 72,25 16,00 4,1 0,01
4 139,24 30,25 5,0 0,25
5 368,64 38,44 6,9 0,49
25
6 118,81 16,81 4,7 0,36
7 179,56 29,16 5,4 0
8 156,25 34,81 5,2 0,49
9 156,25 36,0 4,9 1,21
10 259,21 39,69 6,1 0,04
1576,06 265,84 50,5 3,59
 y 
Total
x i
2
y 2
i Y xi i  Yxi
2
8. Teme de control
1. Identificaţi funcţia de regresie liniară ce modelează legătura dintre două variabile

utilizând metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi
comentaţi interpretarea coeficienţilor funcţiei de regresie
2. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor
gospodăriei şi cheltuielile zilnice ale gospodăriei din tabelul următor
Venituri <mii 40 30 20 50 60 40 30
RON>
Cheltuieli <mii 35 26 18 38 42 30 22
RON>
a. Reprezentaţi grafic legătura dintre cele două variabile prin graficul de împrăştiere;
b. Identificaţi funcţia de regresie liniară ce modelează legătura dintre cele două
variabile utilizând metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi
comentaţi coeficienţii funcţiei de regresie;
c. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă parametrică
adecvată.
d. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă
neparametrică adecvată.
3. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor
gospodăriei şi cheltuielile zilnice ale gospodăriei, în tabelul următor:
Numar membrii 4 3 2 5 6 4 3
26
Venit pe membru al 350 260 180 380 420 300 220
gospodariei
<RON>
Calculaţi şi comentaţi coeficienţii funcţiei de regresie, reprezentaţi grafic legătura dintre
cele două variabile prin graficul de împrăştiere.
4. Despre un eşantion stratificat de angajaţi de 5%, selectat întâmplător, nerepetat din totalul angajaţilor unei
societăţi comerciale se cunosc datele:
Vânzări medii Număr de angajaţi care se

Vechime Numărul
zilnice plasează peste media
(ani) angajaţilor
(mii RON) vânzărilor zilnice
sub 10 90 500 30
10-20 150 640 80
20-30 100 980 50
peste 30 60 … 25
TOTAL 400 - 185
Ştiind că pentru grupa de angajaţi cu peste 30 de ani vechime, vânzările maxime
au fost de 1.100 mii RON, abaterea maximă pozitivă a vânzărilor faţă de media
vânzărilor acestei grupe a fost de 250 mii RON iar, pe total, valoarea modală a
vânzărilor eşantionului a fost de 800 mii RON, cu un coeficient de asimetrie (Cas =
-0,35), se cere:
1) Să se stabilească dacă factorul principal de grupare (vechimea în muncă) este

semnificativ pentru variaţia vânzărilor medii zilnice, folosind coeficientul de
determinare şi cel de nondeterminare.
2) Să se caracterizeze şi să se măsoare corelaţia dintre vechime şi vânzările medii

zilnice, folosind metoda regresiei bazată pe o funcţie de regresie corespunzătoare.
9. Rezumatul Unităţii de învăţare
Asupra fenomenelor social-economice acţionează o multitudine de factori,

principali şi secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau
cuantificabili cu aproximaţie, care se găsesc într-o relaţie de interdependenţă
reciprocă. Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este
factor de influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi
metode specifice, poate studia manifestarea concretă a acestor legături, le poate
27
exprima cantitativ şi măsura intensitatea cu care se produc. Legăturile statistice pot fi
simple sau multiple, directe sau inverse, de asociere sau de corelaţie, liniare sau
neliniare, sincrone sau asincrone. Pentru caracterizarea statistică a legăturilor dintre
variabile se pot folosi două categorii de metode: metode simple (metoda grafică,
metoda tabelului de corelaţie, metoda grupărilor, metoda seriilor paralele
interdependente) şi metode analitice (metoda regresiei, metoda covarianţei, metoda
raportului de corelaţie, metoda coeficientului de corelaţie, metoda analizei
dispersionale). În afara metodelor analitice menţionate mai sus, ce intră în categoria
metodelor parametrice, legăturile dintre variabilele statistice se mai pot analiza cu
ajutorul metodelor neparametrice (metoda coeficientului de asociere al lui Yule,
metoda coeficientului de corelaţie a rangurilor Spearman şi metoda coeficientului de
corelaţie a rangurilor Kendall).
10. Bibliografia Unităţii de învăţare
1. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg. (191 - 416) ISBN 978 - 973 – 594 – 986 – 2;
2. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban
D., Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg.
(189 - 219), Bucureşti, 1998, ISBN 973-590-086-6;
3. Isaic Maniu, Al., Mitruţ, C., Voineagu, V., Statistica Pentru afaceri, ed. Economică,
Bucuresti 2003.
28

Manual STATISTICA

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual STATISTICA

Încărcat de

Drepturi de autor:

Formate disponibile

CURS STATISTICĂ - Unitatea de învăţare nr.

LEGĂTURI STATISTICE DINTRE VARIABILE

1. Noţiuni introductive privind legăturile statistice dintre variabile.

1. Noţiuni introductive privind legăturile statistice dintre variabile

Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea

2) După numărul de caracteristici incluse în modelul de corelaţie distingem:

b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în

3) După direcţia legăturii distingem:

b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii

Gruparea salariaţilor după Valoarea încasărilor

xi \ yj y1, y2, ……...…. yj ………..……. yp Total

n·1, n·2, ……...…. n·j ………..…….

4. Metode analitice de măsurare a legăturilor dintre fenomene

Metodele analitice iau în consideraţie valorile reale ale varibilelor corelate şi

1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre

De menţionat că dependenţa liniară dintre “yi” şi “xi” se consideră o dependenţă

(semnifică maxim). Relaţia de minimizare este:  ( y i  y xi ) 2 = minim. Pentru tendinţa

se calculeaza termenul liber, a, si panta dreptei, b, dupa metoda determinantilor, astfel:

yxi = -a +bxi yxi = a - bxi

yxi = a yxi = bxi

Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de

 Din rezolvarea sistemului de ecuaţii normale se obţin formulele uzuale de calcul al

Dispersia totală: Dispersia reziduală: Dispersia

calculează ca rădăcină pătrată din coeficientul de determinaţie astfel:

Formula de calcul simplificat a raportului de corelaţie se determină astfel:

= 0 – lipsă de legătură (varibilele sunt necorelate)

Ry/x[0,1] = 1 – legătură de tip funcţional, variabila “yi” depinde în

4) Metoda coeficientului de corelaţie

Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale

Dacă în relaţia (1) vom înlocui: x 

ry/x = 1  legătură de tip funcţional (fie directă dacă semnul coeficientului

Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de

5) Metoda analizei dispersionale. Raportul de determinare

Rezultatele ANOVA pot fi folosite pentru construirea testului F

F urmează o distribuţie Fisher cu K-1 şi T-K grade de libertate. Pentru un prag de

Colectivitate generală Colectivitate de selecţie

1. Precizaţi dacă veniturile lunare reprezintă un factor semnificativ al cheltuielilor medii

2. Să se măsoare intensitatea legăturii dintre veniturile lunare şi cheltuielile medii pentru

Deoarece dy% = -5%; n = 975 persoane este reprezentativ.

Dispersiile de grupă:  i2   i    12  4 ;  22  1,6 ;  42  5,1 ;  52  15,7

Media dispersiilor de grupă  i 

Dispersia dintre grupe:   

Dacă R 2  72% , adică k 2  28% . Pentru ca R 2  k 2 ; 72%  28% veniturile lunare

5. Metode neparametrice de măsurare a legaturilor dintre fenomenele

(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două

Dacă: Q = 0 lipsa de asociere între xi şi yi

1) se identifică variabilele corelate “xi” şi “yi”;

Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare

Media Media Ranguri

Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la

dintre rangurile notelor la bacalaureat şi cele de la admitere este destul de intensă,

se interpretează în aceeaşi manieră ca şi coeficientul Spearman.

2. Pentru zona de amplasare a 2 centre comerciale cu 10 si15 magazine, se cunosc

• Media pe total colectivitate ( y 0 )

• Media dispersiilor de grupă:

 1   12   12    1  2   7,04 2  49,56 ,  2  0,65   22   0,65  0,4225

Regula de adunare a dispersiilor:

Pentru că coeficientul de determinare este 30%, înseamnă că 30% din variaţia

profitul mediu;  i2  dispersia profitului. Pentru a determina în ce proporţie factorul

mil. RON/magazin Media dispersiilor de grupă:

Regula de adunare a dispersiilor:

0 7,2 10,2 13,2 16,2 19,2 X

Deci funcţia de regresie este Yx  1,8  0,268  xi

Algoritmul de calcul necesar determinării abaterilor medii pătratice şi a indicatorilor de