Sunteți pe pagina 1din 22

Statistică

Analiza statistică
descriptivă a datelor
bivariate
30 Martie 2020
Date bivariate Unitatea Variabila Variabila
statistică X Y
(xi) (yi)
 Definiție: un set de date statistice care se 1 x1 y1
referă la două variabile statistice 2 x2 y2
 Analiza: vizează caracterizarea legăturii 3 x3 y3
dintre variabile …
…. ….
 Metode: n xn yn
 Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
 Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Clasificarea legăturilor dintre variabilele
statistice
 1. După natura variabilelor și scalele lor de măsurare:
 legături între variabile cantitative (corelaţii)
 legături între variabile calitative sau între o variabilă cantitativă şi una
calitativă (asocieri)
 2. După numărul variabilelor studiate:
 legături simple (între 2 variabile – date bivariate)
 legături multiple (între 3 sau mai multe variabile – date multivariate)
 3. După direcția sau sensul legăturii:
 legături directe (variabilele se modifică în același sens)
 legături inverse (variabilele se modifică în sensuri diferite)
Clasificarea legăturilor dintre variabilele
statistice
 4. După forma legăturii:
 legături liniare (tendinţa legăturii se modelează cu ajutorul unei
funcţii liniare)
 legături neliniare (tendinţa legăturii se modelează cu ajutorul unei
funcţii neliniare)
 5. După modul de manifestare în timp a legăturii:
 legături sincrone sau concomitente (variabilele se modifică
aproximativ în același timp)
 legături asincrone sau cu decalaj (una dintre variabile se modifică
după un anumit timp de la modificarea celeilalte variabile)
Metode de analiză descriptivă a datelor
bivariate (a legăturilor dintre variabile)
 Metode elementare:
 Metoda grafică
 Metode complexe:
 Metoda regresiei – liniare / neliniare
 Metoda corelației – parametrice / neparametrice
 Notații:
 X — variabila cauzală/independentă/exogenă/explicativă;
 Y — variabila efect/dependentă/endogenă/explicată.
Metoda grafică - corelograma
 Corelograma (digrama norului de puncte, diagrama de împrăștiere)
 Indică:
 existența
 direcția legăturii dintre variabile
 forma
 Existența legăturii

Există Nu există Nu există Nu există


legătură legătură legătură legătură
Metoda grafică - corelograma
 Sensul legăturii:

Legătură Legătură
directă inversă

 Forma legăturii

Legătură
liniară Legături neliniare
Metoda regresiei liniare
 Scop:
 Explică comportamentul unei variabile dependente în funcție de variația
valorilor unei variabile independente, pe baza unui model matematic numit
model de regresie.;
 Permite previzionarea unei noi valori a variabilei efect;
 Permite ajustarea şi controlul variabile efect, prin intervenţia asupra
variabilei cauză
 Presupune stabilirea relației de cauzalitate
 Model determinist (matematic, teoretic): Y = f(X)
 Model probabilistic (nedeterminist, statistic): Y = f(X) + e
unde e = eroare aleatoare (reziduală) – influența factorilor aleatori
Metoda regresiei liniare

 Dacă f este o funcție liniară, atunci modelul devine:

𝒚 𝒊=𝒃𝟎 +𝒃𝟏 𝒙 𝒊+𝒆𝒊 𝑴𝒐𝒅𝒆𝒍 𝒅𝒆𝒓𝒆𝒈𝒓𝒆𝒔𝒊𝒆𝒍𝒊𝒏𝒊𝒂𝒓 ă 𝒔𝒊𝒎𝒑𝒍 ă


 unde:
(xi, yi) sunt valorile variabilelor X și Y la unitatea statistică “i” din eșantion.
ei – valoarea reziduală (eroarea) la unitatea statistică “i” din eșantion
coeficienții funcției de regresie
- intercepția dreptei de regresie cu axa Oy
- panta dreptei de regresie
Metoda regresiei liniare

𝒚 𝒊=𝒃𝟎 +𝒃𝟏 𝒙 𝒊+𝒆𝒊



Componenta
Eroarea
predictibilă (

 Ecuația de regresie liniară


unde este valoarea ajustată a lui Y

 - valoarea medie a variabilei Y atunci când valoarea variabilei X este 0.


 - cu câte unități de măsură se modifică în medie Y dacă X se modifică cu o
unitate de măsură.
Metoda regresiei liniare

Semnul lui b1 arată direcția sau sensul legăturii

^
𝑦 =𝑏0 +𝑏 1 ∙ 𝑥
^𝑦 =𝑏0 +𝑏 1 ∙ 𝑥
^𝑦 =𝑏0 +𝑏 1 ∙ 𝑥 𝑏1 <0
𝑏 1=0
𝑏1 >0

Linii de regresie cu
a) pantă pozitivă (legatura directa)
b) pantă negativă (legatura inversa)
c) pantă egală cu zero (nu exista legatura liniara)

11
Metoda regresiei liniare

Y
yi

ei Panta = b1
^
𝑦𝑖

Intercepția = b0

xi X
Metoda regresiei liniare

 Determinarea dreptei de regresie = determinarea valorilor lui b0 și b1, astfel încât valorile estimate ale
variabilei dependente () să fie cât mai apropiate de valorile observate (yi) (dreapta de regresie să
treacă cât mai aproape de toate punctele din corelogramă)
 Determinarea valorilor lui b0 și b1 se face prin Metoda celor mai mici pătrate
 Metoda celor mai mici pătrate presupune maximizarea similitudinii, a gradului de asemănare a
valorilor teoretice cu valorile reale, deci minimizarea erorilor. Cum erorile se pot produce intr-un
sens sau în altul faţă de valorile reale, ea presupune minimizarea sumei pătratelor reziduurilor

 Se obține următorul sistem:

13
Metoda regresiei liniare

Erorile pot fi pozitive sau negative, dupa cum


punctele sunt situate deasupra sau dedesubtul
dreptei de regresie

14
Metoda regresiei liniare
Aplicând metoda determinanţilor, se obţine:

15
Metoda regresiei liniare

 Sistemul de ecuaţii normale are următoarele proprietăţi:

 Variabila aleatoare are media 0

 Principiul conservării informaţiilor

 Dreapta de regresie trece prin punctul

16
Exemplu - Excel
La un showroom de mobilă, s-au colectat date
privind numărul de spoturi publicitare difuzate și
numărul de vizitatori (sute persoane) pentru 7 zile.
Datele sunt prezentate în tabelul următor (vezi tabelul
de 2 coloane din slide-ul urmator)

Cerințe:

Analizați grafic legătura dintre cele 2 variabile.


Identificați ecuația de regresie liniară în eșantion
și interpretați valorile coeficienților;
-Selectati datele pe care doriti sa le reprezentati grafic
- Din menu alegeti: Insert / Charts / Scatter, apoi se selecteaza primul tip de scatter
- Corelograma (scatter ) va fi afisata
SCATTER PLOT (Corelograma)
Nr. de vizitatori (yi) vs. nr. de spoturi publicitare difuzate(xi)

45

40

35

30

25

20

15

10

0
0 2 4 6 8 10 12

Interpretare:
Există o legătură liniară directă între cele două variabile
Pentru a găsi valorile coeficienților modelului liniar de regresie, se poate
utiliza corelograma astfel:

45

40

35

30
f(x) = 2.68055555555556 x + 2.91666666666667
25

20

15

10

0
0 2 4 6 8 10 12
… sau se pot utiliza funcțiile Excel“INTERCEPT” și“SLOPE”:

intercept(valorile yi; valorile xi) slope(valorile yi; valorile xi)

Scrie intr-o
celula: Se vor afisa urmatoarele rezultate:

Interpretari:
b0 = 2,9167 inseamna ca: daca nu se difuzeaza nici
un spot publicitar, atunci numarul mediu de
vizitatori ar fi de 2,92 sute persoane /zi.
b1 = 2,68 inseamna ca: daca nr. de spoturi difuzate
creste cu 1, atunci numarul de vizitatori creste, in
medie cu 2,68 sute persoane.
b1>0 inseamna ca exista o legatura directa intre
variabile
Corelograma dintre numărul de spoturi publicitare (Ox) şi numărul de
vizitatori (Oy – sute pers.)

S-ar putea să vă placă și