Sunteți pe pagina 1din 14

Corelația și regresia

statistică
Obiective:
 Noțiuni generale
 Tipuri de regresie
 Metode elementare de caracterizare a legăturilor dintre
variabile
 Metoda regresiei
 Indicatori statistici ai corelației
 Proprietăţile coeficientului de corelaţie
 Exercițiu practic
Noțiuni generale

Prin corelație statistică se înțelege


intensitatea și direcția legăturii
statistice dintre două sau mai multe
variabile. Este important de reținut
faptul că legătura sau corelația
statistică dintre două sau mai multe
variabile nu implică necesar și legătura
cauzală dintre acestea.
Tipuri de regresie
după numărul • legături simple
variabilelor
cercetate: • legături multiple

• legături directe
după direcţia
legăturilor • legături inverse

după expresia • legături liniare


analitică a
legăturilor • legături neliniare

după felul de • legături între variabile numerice


exprimare a
variabilelor • legături între variabile exprimate prin cuvinte

după timpul în care • legături concomitente sau sincrone


se produce legătura • legături asincrone sau cu decalaj
Metode elementare de caracterizare a
legăturilor dintre variabile

metoda seriilor
metoda tabelului de
metoda grafică metoda grupărilor paralele sau
corelație
interdependente
Metoda regresiei
  Constituie o metodă statistică de cercetare a legăturilor dintre variabile cu ajutorul unor func ții, denumite
funcții de regresie, adică cum se schimbă variabila dependentă y în urma modificării cu o unitate a variabilei
independente x.
Dacă notăm cu y variabila dependentă și cu x1, x2,… variabilele independente, vom obține o ecuație de
regresie:
y = f(x1, x2,…)
Modelul teoretic se înlocuiește cu modelul de dependență statistică:
Y = f(x1, x2,…) + ε,
unde ε reprezinta eroarea aleatoare.
            În funcție de numărul factorilor (x1, x2,…, xn) deosebim: regresie unifactorială (simplă) și regresie
multifactorială (multiplă).

Modele de
Modele de a) modelul liniar regresie
regresie
unifactoriale multifactorial
e
b)modelul modelul liniar
exponențial

c) modelul teoretic
al parabolei de
gradul doi
  Modelul liniar
Dacă considerăm că legătura dintre y si x este liniară rezultă că:
y = α + b*x + ε
unde: a și b sunt coeficienți (parametrii) ce vor fi calculați.
Parametrii a si b se estimeaza cu ajutorul metodei celei mai mici pătrate în urma căreia ob ținem
următoarele formule de calcul:
ˆ ̄
â = ŷ-b*x
ŷ =b=

Coeficientul a, poate lua atât valori pozitive cât și negative și reprezintă ordonata la origine, adică valoarea
lui y când x este nul.
Coeficientul b (coeficientul de regresie) arată masura în care se modifică caracteristica dependentă în cazul
în care caracteristica independentă se modifică cu o unitate.
În cazul în care b<0, corelația este inversă.
Dacă b>0, corelatia este directa.
Dacă b=0, variabilele x si y sunt independente.
 Modelul exponențial

Se utilizează în cazul în care variabila dependentă cre ște în progresie aritmetică, iar variabila
independentă crește in progresie geometrică

Prin logaritmare modelul devine liniar:

lg Y = lg a + x · lg b
Făcând următoarele înlocuiri:

y' = lg Y; a' = lg a; b' = lg b


rezultă ecuația unei drepte, respectiv:

y' = a' + b' · x


            Procedând la rezolvarea sistemului ca și în cazul precedent rezultă coeficien ții a ' și b', pe baza
cărora, prin antilogaritmare se obțin coeficien ții a și b.
Modelul teoretic al parabolei de gradul doi

Se utilizează pentru dependente care prezintă un punct de maxim (minim), ecua ția de regresie fiind de forma:

Y = a + bxi + cxi2 + ε

   Determinarea celor trei parametri ai ecuației de regresie de tip parabolic se face folosind metoda celor mai mici
pătrate, respectiv determinând minimul expresiei:
Modele de regresie multifactoriale

Între fenomenele economico-sociale există legături complexe, care se pot exprima cu ajutorul ecua ției de
regresie multiplă:

Y = f(x1, x2,…, xp) + ε,


in care  x1, x2,…, xp reprezintă caracteristicile independente, iar ε este o variabilă reziduu, cu dispersia
constantă și media nulă.
            Cel mai utilizat model de regresie multifactorială este modelul liniar:

Y = α0 + α1x1 + α2x2 +…+αpxp,


unde: α0 reprezintă coeficientul care exprimă influen ța factorilor neinclu și în model, considera ți cu ac țiune
constantă;
            αi , i = 1,2,…,p sunt coeficienți de regresie multiplă.
            Calculul coeficienților se face ca și în cazul modelelor de regresie unifactorială.
Indicatori statistici ai corelației

 Măsurarea intensității legăturii se face cu ajutorul următorilor indicatori: 


 coeficientul de corelație:

rxy=
 raportul de corelație:

R=
Proprietăţile coeficientului de corelaţie

 O statistică standardizată – nu se modifică dacă schimbăm unităţile de măsură ale variabilelor;

 Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X;

 Valoarea este destul de instabilă pentru n mic;

 Vulnerabil la valori extreme;

 Are o distribuţie asimetrică.


Exercițiu practic

Problemă
Despre un eșantion de unități comerciale selectat întâmplător și nerepetat și care reprezintă 10 % din
numărul total al unităților, se cunosc datele:

Număr curent al unității Vânzări totale Număr de


comerciale (bucăți) clienți
(persoane)
1 71 25
2 86 29
3 65 23
4 63 21
5 50 17
6 45 15
TOTAL 380 130
Se cere: să se măsoare intensitatea legăturii, prin:
-        metoda regresiei;
-        metoda raportului de corela ție;
-        metoda coeficientului de corela ție.
  Metoda regresiei

Nr. curent al u. xi yi x*y x2 Yx (yi-Yx)2 (yi-y)2 y2


c. 5 041
25 71 1 775 625 72,79 3,20 58,83
1 7 396
29 86 2 494 841 84,15 3,42 513,93
2 4 225
23 65 1 495 529 67,11 4,45 2,79
3 3 969
21 63 1 323 441 61,43 2,46 0,11
4 2 500
17 50 850 289 50,07 0,01 177,69
5 2 025
15 45 675 225 44,39 0,37 335,99
6 25 156
130 380 8 612 2 950 379,94 13,91 1 089,34
TOTAL