Curs 9 Statistica

CURS STATISTICĂ - Unitatea de învăţare nr.
LEGĂTURI STATISTICE DINTRE VARIABILE
Cuprins:
1. Noţiuni introductive privind legăturile statistice dintre variabile.

2. Tipuri de legături statistice
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi
procesele economico-sociale
4. Metode analitice parametrice de măsurare a legăturilor dintre fenomene şi procese
economico-sociale
5. Metode neparametrice de măsurare a legăturilor dintre fenomene
6. Teste de autoevaluare
7. Răspunsuri şi comentarii la testele de autoevaluare.
8. Teme de control.
9. Rezumatul unităţii de învăţare.
10. Bibliografia unităţii de învăţare.
1. Noţiuni introductive privind legăturile statistice dintre variabile
Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea

legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se
manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi socială
trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea deciziilor la
nivelul agentului economic. De aceea, selectarea dependenţelor care au caracter de stabilitate
şi măsurarea acestora a constituit o preocupare prioritară a teoriei şi cercetării economice.
Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi
secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu
aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă.
1
2. Tipuri de legături statistice
Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de
influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode
specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi
măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se caracterizează prin
faptul că, la modificarea unui factor de influenţă, factorul influenţat răspunde cu o distribuţie
de valori.
Legăturile statistice se pot clasifica astfel:
1) După natura relaţiei de cauzalitate distingem:
a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este cauza iar
celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” şi
fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)
b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării
influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite. Relaţia matematică
este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile fenomenelor cauză care au
fost înregistrate; y = valorile fenomenului efect.
☺ Exemplu
O legatura stohastica este legătura dintre capacitatea de cazare (xi) şi valoarea încasărilor din
activitatea hotelieră (yi). Între cele două caracteristici există o legătură statistică pentru că
asupra încasărilor acţionează şi alte cauze: tarifele practicate, gradul de confort etc.
2) După numărul de caracteristici incluse în modelul de corelaţie distingem:

a) legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă
rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu
acţiune constantă).
☺ Exemplu
Un exemplu de legătura simpla este cea dintre suprafaţa comercială şi valoarea vânzărilor.
b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în funcţie

de mai mulţi factori înregistraţi sau dependenţa mai mulor variabile rezultative (y1, y2, ….. ,
2
yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x1, x2, x3,...,xn) şi y1, y2,...,
yi,...yn = f(xi).
☺ Exemplu
Un exemplu de legătura multiplă este cea dintre valoarea încasărilor ce depinde de zona de
amplasare (x1), de categoria de confort (x2), de baza materială (x3) etc.
3) După direcţia legăturii distingem:

a) legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de
dezvoltare al caracteristicii factoriale, se modifică în acelaşi sens şi nivelul caracteristicii
rezultative.
b) legături inverse (negative): au în vedere modificări în sens contrar nivelului de dezvoltare
(o variabilă creşte iar cealaltă scade).
4) După forma de exprimare a variabilelor corelate distingem:
a) legături de asociere. Acestea exprimă relaţia dintre două sau mai multe caracteristici
exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă şi una cantitativă
(exprimată numeric).
b) legături de corelaţie. Exprimă relaţia de interdependenţă dintre două sau mai multe
caracteristici statistice exprimate numeric.
5) După forma de realizare a legăturii distingem:
a) legăturile liniare exprimate printr-o funcţie liniară, de gradul intai;
b) legăturile neliniare exprimate printr-o curbă (exponenţială, parabolă, hiperbolă etc.);
6) După timpul în care se realizează:
a) legături sincrone: au loc în acelaşi timp şi se pot urmări în dinamică pentru aceeaşi
perioadă.
☺ Exemplu
O astfel de legatura este legătura dintre dinamica desfacerilor de mărfuri şi dinamica
câştigului mediu salarial.
b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii

rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii
corespunde funcţiei matematice de regresie (de estimare) care se alege pe baza graficului de
corelaţie (corelogramei).
3
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre
fenomenele şi procesele economico-sociale
Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se
încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt
uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind informaţii
asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.
Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:
1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute prin
operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate. Se pot
folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea de a stabili
existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor perechii x, y.
Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un număr foarte mare
de termeni şi implică într-o măsură importantă subiectivismul cercetătorului.
2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta
legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.
☺ Exemplu
Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:
Gruparea salariaţilor după Valoarea încasărilor

Număr salariaţi
vechime (mil lei)
<5 2 80
5 - 10 5 83
10 - 15 7 85
15 - 20 5 87
> 20 3 89
Gruparea simplă presupune gruparea unităţilor statistice după o caracteristică
principală de grupare şi calculul şi interpretarea mediilor parţiale sau a mărimilor relative
parţiale pentru caracteristica rezultativă. Gruparea combinată se bazează pe împărţirea
unităţilor statistice în grupe concomitente după variaţia a două caracteristici de grupare (x,y),
iar rezultatele grupării se prezintă într-un tabelul combinat cu dublă intrare (vezi capitolul II).
Metoda grupării trebuie utilizată doar în cazul unui număr mare de observaţii statistice, când
aplicarea metodelor analitice de calcul nu se poate face fără o grupare prealabilă a datelor
înregistrate.
4
3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă
intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri
empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune (nij) se
distribuie în rubricile interioare ale tabelului. Dacă frecvenţele nij tind a se concentra către
cele două diagonale trasate în tabelul următor, legătura între xi şi yj va fi intensă. În schimb,
dacă se împrăştie la întâmplare în reţeaua tabelului, legătura este slabă sau poate lipsi. În
concluzie, procedeul tabelului de corelaţie este o combinare a metodei grupării cu
principiile de construire şi interpretare a unei reprezentări grafice.
xi \ yj y1, y2, ……...…. yj ………..……. yp Total

xr nr·
II-le
g
ătu irectă
xr-1 nr-1·
ră d
: :
ră in veă
-le gătu nijrs
xi I ni·
: :
x2 n2·
x1 n1·
Total n·1, n·2, ……...…. n·j ………..……. n·p 
4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru

construcţia acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se înscriu
valorile caracteristicii principale de grupare (x), iar pe axa OY valorile caracteristicii
secundare de grupare (y). Intersecţia abscisei cu ordonata se concretizează printr-un număr de
puncte ce se dispun sub formă de nor, numărul punctelor fiind egal cu numărul de unităţi
statistice luate în calcul. După modul de distribuire a punctelor în reţeaua graficului, printre
acestea se trasează vizual o dreaptă sau o curbă ale cărei ecuaţii se cunosc. În cazul în care
curba sau dreapta se trasează pe prima diagonală, legătura este directă, dacă se trasează pe cea
de a doua diagonală, legătura este inversă. Metoda grafică se utilizează ca metodă empirică
pentru alegerea funcţiei matematice ce se analizează în cazul regresiei şi corelaţiei statistice.
4. Metode analitice de măsurare a legăturilor dintre fenomene
Metodele analitice iau în consideraţie valorile reale ale varibilelor corelate şi parametrii
corespunzători acestora. Acestea poartă denumirea de metode parametrice şi sunt:
5
1) metoda regresiei;
2) metoda covarianţei;
3) metoda raportului de corelaţie;
4) metoda coeficientului de corelaţie;
5) metoda analizei dispersionale.
1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre variabile cu ajutorul
unor funcţii, numite funcţii de regresie. Funcţia de regresie se alege printr-o modalitate empirică
folosind graficul de corelaţie (corelograma) si prin aplicarea testelor de semnificaţie (de exemplu:
testul “F” de analiză dispersională). În funcţie de numărul de variabile incluse în model,
distingem: regresie unifactorială (o varibilă factorială xi şi o variabilă rezultativă yi) şi
regresie multifactorială (mai multe variabile factoriale şi o singură variabilă rezultativă).
a) Regresia unifactorială liniară are la bază ecuaţia dreptei (funcţia de gradul întâi):
y xi  a  bx i
De menţionat că dependenţa liniară dintre “yi” şi “xi” se consideră o dependenţă

stohastică în care unei valori “xi” îi pot corespunde mai multe valori “yi”. Funcţia yxi =
valorile ajustate ale lui “yi” după ecuaţia dreptei şi presupune înlocuirea valorilor empirice cu
valori teoretice obţinute prin calcul în urma aplicării unei metode sau unui model de calcul
statistic; xi = variabila factorială; yi = variabila rezultativă; a, b = parametrii ecuaţiei de
regresie care pot fi interpretaţi în sens geometric şi în sens statistic. Parametrul “a” 
exprimă în sens geometric ordonata la origine şi poate lua atât valori pozitive, cât şi valori
negative. Are caracter de mărime medie, în sensul că valoarea sa arată la ce nivel ar fi ajuns
valoarea caracteristicii “yi” dacă toţi factorii – mai puţin cel înregistrat “xi” – ar fi avut o
acţiune constantă. Parametrul “b”  exprimă în sens geometric panta liniei drepte şi poartă
denumirea de coeficient de regresie. Măsoară cu cât se modifică în medie variabila rezultativă
(yi) dacă variabila factorială (xi) se modifică cu o unitate (semnul lui “b” ne indică direcţia
legăturii). Parametrii a şi b se determină din sistemul de ecuaţii normale obţinut prin metoda
celor mai mici pătrate, care se bazează pe minimizarea pătratelor abaterilor dintre valorile
individuale înregistrate şi valorile teoretice (corespunzătoare funcţiei). Această funcţie
obiectiv presupune identificarea punctului de extrem (are în vedere determinarea parametrilor
funcţiei) si verificarea dacă punctul de extrem este minim sau maxim (se realizează prin
semnul derivatei de ordinul II dacă este pozitiv (semnifică minim) dacă este negativ
(semnifică maxim). Relaţia de minimizare este:  ( y i  y x i ) 2 = minim. Pentru tendinţa liniară
6
a legăturii avem: f   ( y i  a  bx i ) 2 = minim. In functia de mai sus condiţia de minim a unei
funcţii de două derivabile se anulează când derivatele parţiale, în raport cu cei doi parametri
df df
(a, b), sunt:  2 ( y i  a  bx i )(1)  0 si  2 ( y i  a  bx i )( x i )  0 
da db
 na  b x i   y i
 ; i = 1, n . Rezolvand sistemul se calculeaza termenul liber, a, si panta
a  x i  b x i2   x i y i
 yi  xi
dreptei, b, dupa metoda determinantilor, astfel: a  x i y i  x i2  y i  x i2   x i  x i y i ;i= 1, n
a  
 n  xi n  x i2  ( x i ) 2
 xi  x i2
n  yi
b  x i  x i yi n x i yi   x i  yi ; i = 1, n
b  
 n  xi n  x i2  ( x i ) 2
 xi  x i yi
Interpretarea pantei: daca b > 0  legătura de corelaţie este directă (pe măsură ce
cresc valorile lui xi cresc şi valorile ecuaţiei de regresie calculate); daca b < 0  legătura de
corelaţie este inversă (pe măsură ce creşte valoarea caracteristicii factoriale (xi) scade valoarea
caracteristicii rezultative (yi) si daca b = 0  cele două variabile sunt independente şi yxi = 0.
Funcţia de regresie exprimă statistic modul în care caracteristica rezultativă (yi) se modifică,
dacă ar influenţa numai caracteristica factorială (xi), iar ceilalţi factori sunt consideraţi cu
acţiune constantă.
a) y b) y
yxi = -a +bxi yxi = a - bxi
tgα x tgα x
a < 0 şi b > 0  legătură directă a > 0 şi b < 0  legătură inversă
figura 1.1 figura 1.2
c) y d) y
yxi = a yxi = bxi
a > 0 şi b = 0  lipsa legăturii a = 0 şi b > 0  legătură funcţională

figura 1.3 figura 1.4
7
Fig. 1 Interpretarea geometrică a parametrilor
Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de

informaţii negrupate, dar prezentate sub forma a două serii paralele interdependente (x i şi yi) – caz
prezentat anterior si pentru un număr mare de informaţii sistematizate prin grupare simplă (xi,
yi, ni valori cunoscute) si grupare combinată (yj, ni, nj, nij, xi valori cunoscute).
Pentru cazul (1) (grupare simplă) sistemul de ecuaţii normale se determină prin analogie
cu cel prezentat anterior, cu deosebirea că se va ţine seamă de frecvenţele comune (ni) pentru
cele două varibile xi şi yi. Sistemul de ecuaţii normale este:

 a

 ni  b x n  y n
i i i i
 a
 x i2 n i   y i n i   x i n i   x i y i n i

a xini  b x n  x y n
2
i i i i i  n i   x i2 n i  ( x i n i ) 2
 n i   x i yi n i   x i n i   yi n i
b
 n i   x i2 n i  ( x i n i ) 2
Pentru cazul (2) (grupare combinată) rezultatele se prezintă într-un tabel combinat cu
dublă intrare, iar sistemul de ecuaţii se determină prin analogie cu cel de la cazul (1):
 K m K m
 a   n ij  b  x n
i i   y jn j
i j i j
 K K K m
a  x i n i  b x i2 n i    x i y j n ij
 i i i j
 Din rezolvarea sistemului de ecuaţii normale se obţin formulele uzuale de calcul al

parametrilor “a” şi “b”. Legăturile dintre fenomene nu se bazează mereu pe modele simple de
regresie pentru că pot exista mai multe variabile factoriale şi o singură variabilă rezultativă de
forma: y = f(x1, x2,……,xi, ……, xn). Asemenea legături poartă denumirea de modele de
regresie multifactoriale care au la bază funcţia: liniară, exponenţială, hiperbolică, parabolică.
2) Metoda covarianţei se utilizează pentru măsurarea intensităţii legăturilor de tip
statistic între două sau mai multe variabile la nivelul întregii colectivităţi. Covarianţa este un
indicator sintetic de corelaţie simbolizat prin cov(x,y), se obţine ca o medie aritmetică a
produselor abaterilor variabilelor faţă de media lor conform relaţiei:
1 n
cov( x , y)   ( x i  x )( y i  y) .
n i 1 Semnul indicatorului arată direcţia legăturii: plus (legătura
cov( x , y)   x   y
directă), minus (legătura indirectă), iar covarianţa nulă ne indică lipsa legăturii de corelaţie
(variabilele sunt independente). Covarianţa are ca neajuns faptul că depinde de unităţile în
care se măsoară variabilele aleatoare.
3) Metoda raportului de corelatie
8
Pentru stabilirea intensităţii legăturii dintre două varibile (xi, yi) se calculează un
indicator sintetic de corelaţie numit “raport de corelaţie” simbolizat cu Rx/y. Acesta permite
măsurarea gradului de intensitate a realizării legăturii dintre caracteristica considerată factor
de influenţă (xi) şi caracteristica rezultativă (yi), indiferent de forma legăturii: liniară sau
neliniară. Calculul se bazează pe descompunerea variaţiei totale (dispersiei) a caracteristicii
rezultative “y” astfel:
(yi  y 0 ) = ( y i  y xi ) + ( y xi  y 0 )
 
abaterea întâmplătoare abaterea sistematică
Prin însumare şi ridicare la pătrat se obţine:
 ( y i  y 0 ) 2   [( y i  y x i )  ( y x i  y 0 )] 2 
 (y  y i xi )2  2 ( yi  yxi )( yxi  y 0 )   ( y xi  y 0 )2

0
 
 (y i  y0 )2  ( y i  y xi ) 2  ( y xi  y 0 ) 2
  
  (yi  y0 )2

 ( y i  y xi ) 2

 ( y xi  y 0 ) 2
n n n
 
  2y =  2y +  2y
r x

Dispersia totală: arată  
influenţa tuturor factorilor Dispersia reziduală: arată Dispersia sistematică:
esenţiali şi întâmplători acea parte din variaţia arată influenţa factorului
care determină variabilei rezultative “yi” “xi” asupra variaţiei
variaţia totală a variabilei datorată acţiunii factorilor caracteristicii
rezultative “yi” întâmplători rezultative “yi”
Raportul de corelaţie se determină pornind de la regula de adunare a dispersiilor
(prezentată anterior), utilizând coeficientul de determinaţie ( R 2y / x ) şi coeficientul de
 2y / x  2y / r
nedeterminaţie ( K 2y / x ): R 2y / x   100 si K 2y / r   100 . Raportul de corelaţie se
 2y  2y
calculează ca rădăcină pătrată din coeficientul de determinaţie astfel:
 ( y i  y xi ) 2
 R y / x  R 2y / x 
 2y / x

 2y   2y / r
 1
 2y / r
 1
n
 1

( yi  y xi ) 2
; i = 1, n

(1)
 2y  2y

 2y  (yi  y 0 ) 2

  
( yi  y0 ) 2

(2) n (3)
9
Formula de calcul simplificat a raportului de corelaţie se determină astfel:
R y/x  1
 y i2  a  y i  b x i y i ; i = 1, n . Raportul de corelaţie ia valori în intervalul [0,1]
2
( y i )
 y i2 
n
= 0 – lipsă de legătură (varibilele sunt necorelate)

 0 – legatură foarte slabă sau poate lipsi
Ry/x[0,1] = 1 – legătură de tip funcţional, variabila “yi” depinde în
exclusivitate de variabila “xi”
 1 – legătură puternică, intensă
În cazul legăturilor de tip invers, semnul raportului de corelaţie este dat de către semnul
coeficientului de regresie (b). În funcţie de informaţiile folosite în calcul şi de modelul lor de
sistematizare, raportul de corelaţie se calculează în următoarele două cazuri:
1) Număr mic de informaţii, în care se dau valorile xi, yi, caz în care Ry/x se calculează
după formulele 1,2,3, explicitate anterior;
2) Număr mare de informaţii:
a) se dau valorile lui xi, yi şi ni frecvenţele lor comune:
 (y i  y xi ) 2 n i
R y/x  1 ; i = 1, n
 ( y i  y) 2 n i
 y i2 n i  a  y i n i  b  x i y i n i
 1 ; i = 1, r
( y i n i ) 2
 yi n i 
2
 ni
b) se dau valorile lui xi, frecvenţele după variabila xi (ni), frecvenţele după variabila
yj (nj) şi frecvenţa comună nij:
 ( y j  y x i ) 2 n ij
R y/x  1 
 (y j  y 0 ) 2 n j
 y 2j n j  a  y j n j  b x i y j n ij
= 1 ; j = 1, m ; i = 1, K
( y j n j ) 2
 y 2j n j 
nj
4) Metoda coeficientului de corelaţie

Coeficientul de corelaţie este un indicator sintetic prin care se măsoară legătura dintre
două variabile (xi, yi) statistice a căror distribuţie este asimptotic normală sau normală.
Calculul coeficientului de corelaţie se bazează în forma iniţială pe produsul abaterilor normale
normate (pentru un număr de date individuale negrupate):
10
xi  x
Zx 
x
yi  y
Zy 
y
Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale

normate:
 x i  x  y i  y 
   
 
  x   y   ( x i  x )( y i  y) ; i = 1, n
ry / x  
n n x   y
Dacă în relaţia (1) vom înlocui: x    yi

xi
; i = 1, n ;  x   (x i  x) şi
2
; y
n n n
 ( y i  y) 2 n x i yi   x i  yi
y  se obţine relaţia: ry/x = ; i = 1, n (2)
n [n  x i2  ( x i ) 2 ][n  y i2  ( y i ) 2 ]
cov( x i , y i )
Folosind covarianţa: ry/x =
 x i   yi
Interpretare:
1) ry/x  [-1,1]  apreciem din punct de vedere al semnului direcţia legăturii şi din
punct de vedere al mărimii intensitatea legăturii.
Dacă: ry/x = 0  legătura lipseşte şi variabilele xi şi yi sunt independente;
ry/x  0  legătura dintre cele două varibile este slabă;
ry/x = 1  legătură de tip funcţional (fie directă dacă semnul coeficientului este
pozitiv, fie inversă dacă semnul coeficientului este negativ);
ry/x  1  variabilele sunt puternic corelate, legătura fiind intensă.
2) ry/x = Ry/x se apreciează că legătura de corelaţie este de forma liniară, ceea ce
înseamnă că se poate folosi fie coeficientul, fie raportul de corelaţie.
3) Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, motiv pentru
care acest indicator este semnificativ pentru corelaţiile de tip liniar şi mai puţin semnificativ
pentru corelaţiile de tip neliniar (în cazul din urmă folosindu-se raportul de corelaţie).
4) În cazul legăturii liniare se mai poate calcula ca o medie geometrică a coeficienţilor
de regresie (b) astfel:
ry / x  b y / x  b x / y
11
n x i yi   x i  yi
by/x 
n  x i2  ( x i ) 2
unde: ; i = 1, n
n x i yi   x i  yi
bx / y 
n  y i2  ( y i ) 2
Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de modul

în care au fost sistematizate informaţiile. Astfel:
a) - număr mic de informaţii în care se dau valorile lui xi, yi sub forma a două serii
paralele; ry/x se calculează după formula (1), (2) şi (3) prezentate anterior.
b) - număr mare de informaţii, cunoscându-se xi, yi şi frecvenţele lor comune (ni)
 (x i  x )( y i  y)n i
ry / x  ; i = 1, n
 nix  y
 xini  yi n i  (x i  x) 2 n i  ( y i  y) 2 n i
unde: x  ;y  ;x  ;y  ; i = 1, n
 ni  ni  ni  ni
Înlocuind în formula (1) a lui ry/x se obţine:
ry / x 
n x y n  x n y n
i i i i i i i i
; i = 1, n
[ n  x n  ( x n ) ][ n  y n  ( y n ) ]
i
2
i i i i
2
i
2
i i i i
2
c) se cunosc valorile lui xi, yj, ni, nj, nij, obţinute prin gruparea combinată, rezultatul
fiind prezentat într-un tabel combinat cu dublă intrare şi atunci relaţia de calcul devine:
n x y n  x n  y n
ij i j ij i i j j i  1, n
ry / x 
i j ;
n x n  x n ) ][ n  y n y n ) j  1, m
2
[ i
2
i i ( i i
2
j
2
j j ( j j ]
5) Metoda analizei dispersionale. Raportul de determinare

O modalitate eficientă folosită în caracterizarea conexiunilor este metoda analizei
dispersionale (metoda coeficientului de determinare), care se poate folosi în mai multe cazuri
şi anume: la verificarea independenţei unui fenomen comercial sau turistic, la verificarea
stabilităţii mediei şi dispersiei pentru mai multe eşantioane succesive, la verificarea
dependenţei unui fenomen comercial sau turistic de factorii săi de influenţă . Dacă analiza
dispersională se utilizează după aplicarea corelaţiei statistice, atunci aceasta este considerată o
metodă prin care se testează semnificaţia curbei (funcţiei) de regresie explicitate.Analiza
dispersională are la bază metoda grupării, prin care unităţile observate se separă în grupe după
variaţia caracteristicii de grupare (considerat factor de influenţă). Aplicarea acesteia are la bază
gruparea combinată (după cele două variabile xi şi yj). Poate fi utilizată atât ca metodă simplă
de caracterizare a corelaţiilor, prin care se stabileşte dacă variabila factorială influenţează
semnificativ variabila rezultativă, dar şi ca metodă analitică de combinare a acesteia cu
12
analiza regresiei. Analiza dispersională se poate utiliza în următoarele situaţii: înainte de
aplicarea metodei corelaţiei, caz în care se poate verifica gradul de semnificaţie a factorului
considerat principal pentru producerea variaţiei caracteristicii rezultative si după utilizarea
metodei regresiei şi corelaţiei, caz în care se poate verifica corectitudinea funcţiei matematice
cu ajutorul căreia s-au estimat valorile caracteristicii rezultative în raport cu variaţia
caracteristicii factoriale.
Pentru prezentarea modelului analizei dispersionale prin care se testează forma de
legătură, pornim de la variaţia totală a varibilei (Y) care se descompune în următoarele trei
elemente: (yj - y 0 ) = (yj - y i ) + ( y i - yxi) + (yxi - y 0 ),
unde: y 0 = media totală a variabilei Y

yj = valorile variabilei Y
y i = mediile condiţionate ale variabilei Y
Yxi = valorile ajustate ale variabilei “Y” în funcţie de “X”

Calculul raportului de determinare se bazează pe descompunerea variaţiei seriei de
date y1,…,yT în funcţie de influenţa factorilor incluşi în modelul de regresie şi factori aleatori
neînregistraţi: SST   ( yi  y ) 2 ; relaţia anterioara cuantifică dispersia seriei valorilor
variabilei endogene sub acţiunea tuturor factorilor de inferenţă. Influenţa factorilor de


regresie este data de SSE   ( yi  y) 2   ei2 . Pe baza abaterilor menţionate se calculează
dispersiile medii corelate ale variabilei Y, respectiv dispersia totală S2y, dispersia în postura
de estimaţii ale dispersiei totale, adică: Pentru măsurarea dependenţei legăturii între variabila
endogenă şi factorii de regresia se calculează raportul de determinare (R2).
SSR SSE
R2  1
SST SST
Calculele necesare determinării lui R2 sunt realizate din cadrul unei analize dispersionale
(ANOVA).
Tabel ANOVA pot fi folosite pentru modelul de regresie
Sursa variabilei Suma pătratelor Grade de libertate Media sumei pătratelor
Regresia reziduală SSR K-1 MSSR=SSR/K-1
SSE T-K MSSE=SSE/T-K
TOTAL SST T-1
Rezultatele ANOVA pot fi folosite pentru construirea testului F
13
MSSR
F
MSSE
F urmează o distribuţie Fisher cu K-1 şi T-K grade de libertate. Pentru un prag de semnificaţie
α se stabileşte valoarea teoretică Fα;K-1;T-K
Dacă:
F cal < Fα;K-1;T-K – influenţa regresiei diferă semnificativ de cea a factorilor reziduali;
deci modelul este valid.
F cal > Fα;K-1;T-K – modelul este invalid.
De asemenea dacă:
•F calc >F teoretic atunci apreciem că legătura dintre X, Y este semnificativă şi se pot
aplica în continuare şi alte metode de calcul statistic pentru a cuantifica legătura dintre
X şi Y.
• F calc < F teoretic legătura nu este semnificativă, variabilele sunt necorelate.
☺ Exemplu
În vederea estimării cheltuielilor lunare pentru alimentaţia publică,
s-a efectuat o cercetare prin sondaj, pe baza unui eşantion de 15%, selectat întâmplător şi
nerepetat din numărul total de persoane. Persoanele chestionate au fost împărţite în cinci
grupe tipice, după veniturile medii lunare nete. În urma înregistrării şi prelucrării datelor, s-au
obţinut rezultatele:
Colectivitate generală Colectivitate de selecţie

Numărul
Coeficientul
Grupe tipice Cheltuieli medii persoanelor plasate
de variaţie
de persoane după Numărul lunare pentru peste media
al cheltuielilor
venituri lunare persoanelor alimentaţie publică cheltuielilor pentru
pentru alimentaţie
(zeci mii u.m.) (zeci mii u.m.) alimentaţie publică
publică (%)
pe grupe
sub 70 1000 8 25 50
70-74 1500 7 18 100
74-78 2000 11 20 150
78-82 1200 15 15 95
peste 82 800 18 22 70
Total 6500 - - 465
Se cere considerând că media cheltuielilor lunare pentru cele 6500 de persoane este 11,8 zeci
mii u.m.:
1. Precizaţi dacă veniturile lunare reprezintă un factor semnificativ al cheltuielilor medii

pentru alimentaţia publică; folosind a) regula de adunare a dispersiilor; b) testul „F” de
analiză dispersională, ştiind că pentru P = 0,99;
14
2. Să se măsoare intensitatea legăturii dintre veniturile lunare şi cheltuielile medii pentru
alimentaţie publică pentru persoanele din eşantion, folosind un indicator de corelaţie adecvat.
Rezolvare:
Calculam media generala si dispersiile din fiecare grupa aplicand regula de adunare a
dispersiilor:
 yi n i 8  150  7  150  11  300  15  180  18  120
y   11,2  11 zecimiiUM
 ni 11,8
Deoarece dy% = -5%; n = 975 persoane este reprezentativ.

Regula de adunare a dispersiilor  02   02   2 ;  02  5,34  14,06  19,4 
2 14,06
R  2  100 
2
 100  72%
0 19,4
Dispersiile de grupă:  i2   i    12  4 ;  22  1,6 ;  42  5,1;  52  15,7

2
Media dispersiilor de grupă  i  


2  n 2
4  150  1,6  225  4,8  300  5,1  180  15,7  120
 i i
  5,34
n
1
i 975
Dispersia dintre grupe:  
 2

y  y  n  8  11 150  7  11  225  11  11
i
2
i
2 2
 300

n i 975

15  112  180  18  112  120  14,06
975
Dacă R 2  72% , adică k 2  28% . Pentru ca R2  k 2 ; 72%  28% veniturile lunare
constituie factor semnificativ pentru cheltuielile cu alimentaţia publică. Pentru certitudine, se
va folosi testul „F” de analiză dispersională.
 y   n 
2
S y2 / x 2y / x 2y / z  y ni 2
b) Fcalc   :  i
: i i
S y2 / z nx nz r 1 n  r
i
13708,5 5206,5
 :  638 , Deoarece Fcalc  Fteoretic ; 638  4,62 , veniturile lunare
4 970
influenţează semnificativ cheltuielile pentru alimentaţia publică.
15
5. Metode neparametrice de măsurare a legaturilor dintre fenomenele
economico-sociale
Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie de
tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru caracteristicile
cantitative, dar şi pentru cele calitative. Poartă denumirea de metode neparametrice deoarece
nu iau în calcul întotdeauna valorile variabilelor corelate şi nici parametrii lor corespunzatori.
În concluzie, se folosesc în următoarele situaţii: când distribuţia variabilelor corelate nu e
normală sau asimptotic normală; când nu este cunoscută forma de distribuţie a variabilelor;
când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunţată sicând avem de-a
face cu variabile calitative şi cantitative care în prealabil necesită o anumită cuantificare.
Metodele neparametrice uzuale sunt:
1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care
este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU;
F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:
n11 n12
n21 n22
în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul
tabelulului se trec frecvenţele corespunzătoare lor.
 Exemplu: Dacă avem în vedere două variabile statistice “xi” şi “yi” şi considerăm că
sunt variabile de tip alternativ, atunci asocierea dintre “xi” şi “yi” se prezintă astfel:
yi
DA NU Total
xi
DA n11 n12 n11 + n12
NU n21 n22 n21 + n22
Total n11 + n21 n12 + n22 
(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două variabile
corelate “xi” şi “yi”). Pentru stabilirea valorii numerice a coeficientului de asociere care să
indice existenţa şi intensitatea legăturii, se calculează coeficientul lui Yule conform relaţiei:
n 11  n 22  n 21  n 12
Q ; unde Q  [-1,1]
n 11  n 22  n 21  n 12
Dacă: Q = 0 lipsa de asociere între xi şi yi

Q  0 asociere redusă între xi şi yi
Q  ±1 asociere puternică între xi şi yi
16
Q = ±1 asociere perfectă între xi şi yi
Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i” şi
“yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul
utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele provin de la
unităţi statistice complexe.
2) Coeficienţii de corelaţie a rangurilor
Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale variabilelor cu
numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat
datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să
vedem dacă există concordanţă între rangurile caracteristicii factoriale de la 1  n şi rangurile
caracteristicii rezultative de la 1  n. Avantajul utilizării acestora:
1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;
2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica
reprezentativitatea datelor parţiale.
a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului de
corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]
Acesta se calculează parcurgând următoarele etape:
1) se identifică cele două variabile corelate xi şi yi;
2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi” cât şi
pentru variabila “yi”;
Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală cu 1.
3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;
4) se aplică formula de calcul: rS  1  

2
6 di
 [-1,1] ce măsoară intensitatea legăturii dintre
3
n n
rangurile celor două variabile corelate, unde: di = diferenţa dintre rangurile variabilei “xi” şi
rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.
Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independenţă,
statistică);
rS  0 legătură foarte slabă sau poate lipsi;
rS  ± 1 legătură puternică;
rS = ± 1 legătură funcţională.
b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc
valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:
17
1) se identifică variabilele corelate “xi” şi “yi”;
2) se ordonează crescător variabila “xi” şi, în corespondenţă cu aceasta, se trec valorile
corespunzatoare variabilei “yi”;
3) se acordă ranguri crescătoare în aceeaşi manieră ca şi la coeficientul Spearman;
4) se determină concordanţa notată cu P şi discordanţa notată cu Q;
5) se calculează scorul sau diferenţa (S = P – Q);
2S
6) se aplică formula de calcul: rk  unde: ∑S = ∑P – ∑Q  [-1, 1]
n (n  1)
Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare fiecarui
rang considerat al variabilei yi. Discordanţa (Q) este mereu negativă şi reprezintă numărul de
ranguri inferioare fiecărui rang considerat al variabilei yi. Coeficientul rangurilor calculat
după formula lui Kendall este de obicei mai mic decât cel calculat după formula lui
Spearman, având aceeaşi interpretare.
☺ Exemplu
Pentru exemplificare, presupunem că notele înregistrate la examenul de bacalaureat şi media
înregistrată la examenul de admitere la Colegiu Comerţ pentru 10 candidaţi se caracterizează
prin datele:
Media Ranguri
Media 2
admisă di P Q S
bacalaureat (xi)
(yi) Rx i (  ) Ry i (  )
7,00 6,90 1 4 9 6 3 3
7,07 6,50 2 2 0 7 1 6
7,75 6,00 3 1 4 7 0 7
7,80 7,20 4 6 4 4 2 2
7,90 7,10 5 5 0 4 1 3
8,00 6,80 6 3 9 4 0 4
8,15 7,25 7 7 0 3 0 3
8,65 7,30 8 8 0 2 0 2
9,25 7,80 9 10 1 0 0 -1
9,80 7,60 10 9 1 0 0 0
28 37 7 29
Pentru a caracteriza legătura dintre media la bacalaureat şi media la admitere folosind metode
neparametrice, vom determina cei trei coeficienţi prezentaţi anterior. (Yule, Spearmen,
Kendall). Pentru coeficientul de asociere Yule, se întocmeşte tabelul de asociere, stabilind
poziţia fiecărui candidat faţă de media celor 10 candidaţi: x  

x i 81,37
  8,137 si
n 10
Asocierea dintre “xi” şi “yi”, în raport cu media, va fi:
18
yi
Sub y Peste y Total
xi
Sub x n11 = 4 n12 = 2 6
Peste x n21 = 0 n22 = 4 4

Total 4 6 10
n 11n 22  n 21n 12 4  4  0  2 16
Q1     1  [-1,1]
n 11n 22  n 21n 12 4  4  0  2 16
Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la admitere

este directă şi foarte intensă deoarece Q = 1. Se calculează coeficientul Spearman conform
6 d 3i 6  28
relaţiei: rS  1   1  0,83 . Apreciem că legătura dintre rangurile notelor la
n n
3 1000  10
bacalaureat şi cele de la admitere este destul de intensă, deoarece coeficientul se încadrează
între 0,8 şi 0,9. Calculând coeficientul de determinaţie (rs)2 = (0,83)2 = 0,69 sau 69%, deci,
influenţa notelor la bacalaureat asupra mediei la admitere este în proporţie de 69%, restul de
31% reprezintă influenţa altor cauze (factori) care nu au fost luate (luaţi) în consideraţie.
2S 2  29
Se calculează coeficientul Kendall conform relaţiei: rk    0,64 care se
n (n  1) 10 (10  1)
interpretează în aceeaşi manieră ca şi coeficientul Spearman.
6. Testul de autoevaluare 1
1. Un număr de 150 de studenţi din două centre universitare participă la un examen de burse
în străinătate. Cei 100 de studenţi din prima universitate obţin un punctaj mediu de 88 puncte,
cu un coeficient de variaţie de 8%, iar cei din a doua universitate obţin un punctaj mediu de
96 puncte, cu o abatere standard de 0,65 puncte. În ce măsură factorul de grupare centrul
universitar contribuie la variaţia punctajelor obţinute de studenţi? În ce măsură diferă
semnificativ punctajul de la un centru universitar la altul?
2. Pentru zona de amplasare a 2 centre comerciale cu 10 si15 magazine, se cunosc datele:

Profitul mediu pe un
Zona de amplasare Număr magazine Dispersia profitului
magazin (mil. RON)
Centrală 10 20 12
Periferie 15 26 22
Să se determine în ce proporţie zona de amplasare influenţează variaţia profitului
3. Din datele furnizate de Ancheta Integrată în Gospodării se cunosc următoarele date pentru
zece familii.
Venituri lunare ce revin în medie pe o Cheltuieli pentru achiziţionarea
Familia
perioadă pe familie (zeci mii u.m) produsului „x” (zeci mii u.m)
1 7,2 3,2
2 9,9 3,8
19
3 8,5 4,0
4 11,8 5,5
5 19,2 6,2
6 10,9 4,1
7 13,4 5,4
8 12,5 5,9
9 11,5 6,0
10 16,1 6,3
Se cere: Să se caracterizeze şi să se măsoare legătura dintre venituri şi cheltuieli
folosind:
a) graficul de corelaţie;
b) metoda regresiei;
c) metoda raportului de corelaţie;
d) metoda coeficientului de corelaţie;
7. Răspunsuri şi comentarii la testele de autoevaluare
1. Rezolvare:
Se cunosc următoarele elemente pentru determinarea coeficientului de determinare
R : n
2
1  100 y1  88 1  8%
n2  50 y 2  96  2  0,65
• Coeficientul de determinare R 2 :  
2 14,22
R2   100   100  30% unde
0
2
47,40
• Dispersia dintre grupe  2 :  
 y 
m
2
 y 0  ni
  2 i 1
i

88  90,66  100  96  90,66  50
2 2
 14,22
m
n
150
i
i 1
• Media pe total colectivitate ( y 0 )

m
y i  ni
88  100  96,50
y0  i 1
m
  90,67 puncte
n
150
i
i 1
• Media dispersiilor de grupă:

m
2
 i
2
 ni
0,4225  50  49,56  100 4977,125
  i
i 1
m
   33,18
n
150 150
i
i 1
20
1 1
Deoarece 1  8%  0,08 , 1   0,08    1  88  0,08  7,04
y1 88
 1   12   12   1 2  7,042  49,56 ,  2  0,65   22  0,652  0,4225
Regula de adunare a dispersiilor:

2
 x2   2   i  33,18  14,22  47,40
Pentru că coeficientul de determinare este 30%, înseamnă că 30% din variaţia
punctajului este explicată de centrul universitar, iar restul de 70% se datorează altor factori.
Deoarece R 2  K 2 apreciem că centrul universitar nu contribuie semnificativ la variaţia
punctajelor obţinute de studenţi. Punctajele studenţilor nu diferă semnificativ de la un centru
la altul
2. Rezolvare: Notaţii: xi  zona de amplasare; ni  număr magazine; y i  profitul
mediu;  i2  dispersia profitului. Pentru a determina în ce proporţie factorul principal de
grupare influenţează variaţia profitului se determină coeficientul de determinare după relaţia:
2 8,64
R2   100   100  32,43% . Dispersia dintre grupe:
0
2
26,64
 y 
m
2
 y 0  ni
2  i 1
i

20  23,62  107  26  23,62  15  129,6  86,4  8,64
m 25
n
25
i
i 1
Media pe total colectivitate : y i  ni

20  10  26  15 590 mil. RON/magazin Media
y0  i 1
m
   23,6
n
25 25
i
i 1
m
 i
2
 ni
12  10  22  15 120  330
dispersiilor de grupă:  2  i 1
   18
i m
n
25 25
i
i 1
Regula de adunare a dispersiilor:

2
 i2   2   i  8,64  18  26,64 si R 2  K 2 = 100  K 2  67,57% (coeficientul de non-
determinare)  R 2  K 2 deci zona de amplasare a centrelor comerciale nu influenţează
semnificativ variaţia profitului; acesta este influenţat de alţi factori, cum ar fi: calitatea şi
preţul mărfurilor, calificarea personalului, etc.
3. Rezolvare:
1. (a) Corelaţia dintre veniturile lunare (medii) pe o persoană din familie şi cheltuielile pentru
achiziţionarea produsului „z”
21
Y
7,2
x x
6,2 x x
x x
5,2
Yxi  a  bxi
4,2 x
x
3,2
0 7,2 10,2 13,2 16,2 19,2 X

Diagrama de împrăştiere
Scara: 0X – 1 cm = 3 zeci mii u.m. (venituri)
0Y – 1 cm = 1 zeci mii u.m. (cheltuieli)
b) an  b x   y
i Yx  a  b  xi  1,799  0,268  xi  a 10  b 121  50,4
i

a 121  b 1576,06  639,83
i
a x  b x   x y
2
i i i i
a  1,79885  1,8 zeci mii u.m. Deci funcţia de regresie este Yxi  1,8  0,268  xi

b  0,26786  0,268 zeci mii u.m.
 y  Y 
2
c) 3,59
Ry / x  1   1  0,83
i xi
 y  y 
2
i
11,824
sau
Ry / x  1 
y 2
i  a  yi  b xi yi
 1
265,84  1,8  50,4  0,268  639,83
 0,83
 y  2
265,84 
50,4 2
y 2
i 
n
i
10
d) r  n xi yi   xi   yi 10  639,83  121 50,4

  0,824  0,83
y/x
n   x 2
i
2

  xi   n   yi2   yi 
2
 10 1576,06  121  10  265,84  50,4 
2 2
Algoritmul de calcul necesar determinării abaterilor medii pătratice şi a indicatorilor de

corelaţie este redat în tabelul următor:
Nr. crt. xi yi xi  x 2  yi  y 2 xi yi
0 1 2 3 4 5
1 7,2 3,2 24,01 3,3856 23,04
2 9,9 3,8 4,84 1,5376 37,62
3 8,5 4,0 12,96 1,0816 34,0
4 11.8 5,5 0,09 0,2116 64,9
5 19,2 6,2 50,41 1,3456 119,04
6 10,9 4,1 1,44 0,8836 44,69
7 13,4 5,4 1,69 0,1296 72,36
8 12,5 5,9 0,16 0,7396 73,75
9 11,5 6,0 0,36 0,9216 69,0
10 16,1 6,3 16,0 0,5876 101,43
121 50,4 111,96 11,824 639,83
Total
x y  x  x   y  y x y
2 2
i i i i i i
22
continuare tabelul
Nr. crt. xi2 yi2 Yxi  1,8  0,268  xi y  Y 
i xi
2
0 6 7 8 9
1 51,84 10,24 3,7 0,25
2 98,01 14,44 4,5 0,49
3 72,25 16,00 4,1 0,01
4 139,24 30,25 5,0 0,25
5 368,64 38,44 6,9 0,49
6 118,81 16,81 4,7 0,36
7 179,56 29,16 5,4 0
8 156,25 34,81 5,2 0,49
9 156,25 36,0 4,9 1,21
10 259,21 39,69 6,1 0,04
1576,06 265,84 50,5 3,59
Total
x y Y  y  Yxi 
2 2 2
i i xi i
8. Teme de control
1. Identificaţi funcţia de regresie liniară ce modelează legătura dintre două variabile utilizând
metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi comentaţi interpretarea
coeficienţilor funcţiei de regresie
2. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor
gospodăriei şi cheltuielile zilnice ale gospodăriei din tabelul următor
Venituri <mii RON> 40 30 20 50 60 40 30
Cheltuieli <mii RON> 35 26 18 38 42 30 22
a. Reprezentaţi grafic legătura dintre cele două variabile prin graficul de împrăştiere;
b. Identificaţi funcţia de regresie liniară ce modelează legătura dintre cele două variabile
utilizând metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi comentaţi
coeficienţii funcţiei de regresie;
c. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă parametrică
adecvată.
d. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică
adecvată.
3. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor
gospodăriei şi cheltuielile zilnice ale gospodăriei, în tabelul următor:
23
Numar membrii 4 3 2 5 6 4 3
Venit pe membru al 350 260 180 380 420 300 220
gospodariei <RON>
Calculaţi şi comentaţi coeficienţii funcţiei de regresie, reprezentaţi grafic legătura dintre cele
două variabile prin graficul de împrăştiere.
4. Despre un eşantion stratificat de angajaţi de 5%, selectat întâmplător, nerepetat din totalul
angajaţilor unei societăţi comerciale se cunosc datele:
Vechime Numărul Vânzări medii zilnice Număr de angajaţi care se plasează
(ani) angajaţilor (mii RON) peste media vânzărilor zilnice
sub 10 90 500 30
10-20 150 640 80
20-30 100 980 50
peste 30 60 … 25
TOTAL 400 - 185
Ştiind că pentru grupa de angajaţi cu peste 30 de ani vechime, vânzările maxime au
fost de 1.100 mii RON, abaterea maximă pozitivă a vânzărilor faţă de media vânzărilor
acestei grupe a fost de 250 mii RON iar, pe total, valoarea modală a vânzărilor eşantionului a
fost de 800 mii RON, cu un coeficient de asimetrie (Cas = -0,35), se cere:
1) Să se stabilească dacă factorul principal de grupare (vechimea în muncă) este

semnificativ pentru variaţia vânzărilor medii zilnice, folosind coeficientul de determinare şi
cel de nondeterminare.
2) Să se caracterizeze şi să se măsoare corelaţia dintre vechime şi vânzările medii

zilnice, folosind metoda regresiei bazată pe o funcţie de regresie corespunzătoare.
9. Rezumatul Unităţii de învăţare
Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi

secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu aproximaţie,
care se găsesc într-o relaţie de interdependenţă reciprocă. Legăturile ce se pot forma sunt legături
stohastice, în care un fenomen este factor de influenta, iar celălalt este efect. Statistica, printr-o gamă
largă de procedee şi metode specifice, poate studia manifestarea concretă a acestor legături, le poate
exprima cantitativ şi măsura intensitatea cu care se produc. Legăturile statistice pot fi simple sau
multiple, directe sau inverse, de asociere sau de corelaţie, liniare sau neliniare, sincrone sau
asincrone. Pentru caracterizarea statistică a legăturilor dintre variabile se pot folosi două categorii
de metode: metode simple (metoda grafică, metoda tabelului de corelaţie, metoda grupărilor, metoda
seriilor paralele interdependente) şi metode analitice (metoda regresiei, metoda covarianţei, metoda
raportului de corelaţie, metoda coeficientului de corelaţie, metoda analizei dispersionale). În afara
metodelor analitice menţionate mai sus, ce intră în categoria metodelor parametrice, legăturile dintre
variabilele statistice se mai pot analiza cu ajutorul metodelor neparametrice (metoda coeficientului de
24
asociere al lui Yule, metoda coeficientului de corelaţie a rangurilor Spearman şi metoda coeficientului
de corelaţie a rangurilor Kendall).
10. Bibliografia Unităţii de învăţare
1. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg. (191 - 416) ISBN 978 - 973 – 594 – 986 – 2;
2. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,
Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg. (189 -
219), Bucureşti, 1998, ISBN 973-590-086-6;
3. Isaic Maniu, Al., Mitruţ, C., Voineagu, V., Statistica Pentru afaceri, ed. Economică,
Bucuresti 2003.
25

Curs 9 Statistica

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 9 Statistica

Încărcat de

Drepturi de autor:

Formate disponibile

CURS STATISTICĂ - Unitatea de învăţare nr.

LEGĂTURI STATISTICE DINTRE VARIABILE

1. Noţiuni introductive privind legăturile statistice dintre variabile.

1. Noţiuni introductive privind legăturile statistice dintre variabile

Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea

2) După numărul de caracteristici incluse în modelul de corelaţie distingem:

b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în funcţie

3) După direcţia legăturii distingem:

b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii

Gruparea salariaţilor după Valoarea încasărilor

xi \ yj y1, y2, ……...…. yj ………..……. yp Total

4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru

4. Metode analitice de măsurare a legăturilor dintre fenomene

De menţionat că dependenţa liniară dintre “yi” şi “xi” se consideră o dependenţă

yxi = -a +bxi yxi = a - bxi

yxi = a yxi = bxi

a > 0 şi b = 0  lipsa legăturii a = 0 şi b > 0  legătură funcţională

Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de

 Din rezolvarea sistemului de ecuaţii normale se obţin formulele uzuale de calcul al

Raportul de corelaţie se determină pornind de la regula de adunare a dispersiilor

(prezentată anterior), utilizând coeficientul de determinaţie ( R 2y / x ) şi coeficientul de

calculează ca rădăcină pătrată din coeficientul de determinaţie astfel:

= 0 – lipsă de legătură (varibilele sunt necorelate)

4) Metoda coeficientului de corelaţie

Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale

Dacă în relaţia (1) vom înlocui: x    yi

Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de modul

5) Metoda analizei dispersionale. Raportul de determinare

unde: y 0 = media totală a variabilei Y

Yxi = valorile ajustate ale variabilei “Y” în funcţie de “X”

variabilei endogene sub acţiunea tuturor factorilor de inferenţă. Influenţa factorilor de

Rezultatele ANOVA pot fi folosite pentru construirea testului F

Colectivitate generală Colectivitate de selecţie

1. Precizaţi dacă veniturile lunare reprezintă un factor semnificativ al cheltuielilor medii

Deoarece dy% = -5%; n = 975 persoane este reprezentativ.

Dispersiile de grupă:  i2   i    12  4 ;  22  1,6 ;  42  5,1;  52  15,7

Media dispersiilor de grupă  i  

Dispersia dintre grupe:  

Total n11 + n21 n12 + n22 

Dacă: Q = 0 lipsa de asociere între xi şi yi

4) se aplică formula de calcul: rS  1  

poziţia fiecărui candidat faţă de media celor 10 candidaţi: x  

Sub x n11 = 4 n12 = 2 6

Peste x n21 = 0 n22 = 4 4

Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la admitere

interpretează în aceeaşi manieră ca şi coeficientul Spearman.

2. Pentru zona de amplasare a 2 centre comerciale cu 10 si15 magazine, se cunosc datele:

7. Răspunsuri şi comentarii la testele de autoevaluare

• Media pe total colectivitate ( y 0 )

• Media dispersiilor de grupă:

 1   12   12   1 2  7,042  49,56 ,  2  0,65   22  0,652  0,4225

Regula de adunare a dispersiilor:

Media pe total colectivitate : y i  ni

Regula de adunare a dispersiilor:

0 7,2 10,2 13,2 16,2 19,2 X

d) r  n xi yi   xi   yi 10  639,83  121 50,4

Algoritmul de calcul necesar determinării abaterilor medii pătratice şi a indicatorilor de

2. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

3. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

1) Să se stabilească dacă factorul principal de grupare (vechimea în muncă) este

2) Să se caracterizeze şi să se măsoare corelaţia dintre vechime şi vânzările medii

9. Rezumatul Unităţii de învăţare

Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi

10. Bibliografia Unităţii de învăţare