Documente Academic
Documente Profesional
Documente Cultură
Analiza statistică
descriptivă a datelor
bivariate
30 Martie 2020
Date bivariate Unitatea Variabila Variabila
statistică X Y
(xi) (yi)
Definiție: un set de date statistice care se 1 x1 y1
referă la două variabile statistice 2 x2 y2
Analiza: vizează caracterizarea legăturii 3 x3 y3
dintre variabile …
…. ….
Metode: n xn yn
Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Clasificarea legăturilor dintre variabilele
statistice
1. După natura variabilelor și scalele lor de măsurare:
legături între variabile cantitative (corelaţii)
legături între variabile calitative sau între o variabilă cantitativă şi una
calitativă (asocieri)
2. După numărul variabilelor studiate:
legături simple (între 2 variabile – date bivariate)
legături multiple (între 3 sau mai multe variabile – date multivariate)
3. După direcția sau sensul legăturii:
legături directe (variabilele se modifică în același sens)
legături inverse (variabilele se modifică în sensuri diferite)
Clasificarea legăturilor dintre variabilele
statistice
4. După forma legăturii:
legături liniare (tendinţa legăturii se modelează cu ajutorul unei
funcţii liniare)
legături neliniare (tendinţa legăturii se modelează cu ajutorul unei
funcţii neliniare)
5. După modul de manifestare în timp a legăturii:
legături sincrone sau concomitente (variabilele se modifică
aproximativ în același timp)
legături asincrone sau cu decalaj (una dintre variabile se modifică
după un anumit timp de la modificarea celeilalte variabile)
Metode de analiză descriptivă a datelor
bivariate (a legăturilor dintre variabile)
Metode elementare:
Metoda grafică
Metode complexe:
Metoda regresiei – liniare / neliniare
Metoda corelației – parametrice / neparametrice
Notații:
X — variabila cauzală/independentă/exogenă/explicativă;
Y — variabila efect/dependentă/endogenă/explicată.
Metoda grafică - corelograma
Corelograma (digrama norului de puncte, diagrama de împrăștiere)
Indică:
existența
direcția legăturii dintre variabile
forma
Existența legăturii
Legătură Legătură
directă inversă
Forma legăturii
Legătură
liniară Legături neliniare
Metoda regresiei liniare
Scop:
Explică comportamentul unei variabile dependente în funcție de variația
valorilor unei variabile independente, pe baza unui model matematic numit
model de regresie.;
Permite previzionarea unei noi valori a variabilei efect;
Permite ajustarea şi controlul variabile efect, prin intervenţia asupra
variabilei cauză
Presupune stabilirea relației de cauzalitate
Model determinist (matematic, teoretic): Y = f(X)
Model probabilistic (nedeterminist, statistic): Y = f(X) + e
unde e = eroare aleatoare (reziduală) – influența factorilor aleatori
Metoda regresiei liniare
^
𝑦 =𝑏0 +𝑏 1 ∙ 𝑥
^𝑦 =𝑏0 +𝑏 1 ∙ 𝑥
^𝑦 =𝑏0 +𝑏 1 ∙ 𝑥 𝑏1 <0
𝑏 1=0
𝑏1 >0
Linii de regresie cu
a) pantă pozitivă (legatura directa)
b) pantă negativă (legatura inversa)
c) pantă egală cu zero (nu exista legatura liniara)
11
Metoda regresiei liniare
Y
yi
ei Panta = b1
^
𝑦𝑖
Intercepția = b0
xi X
Metoda regresiei liniare
Determinarea dreptei de regresie = determinarea valorilor lui b0 și b1, astfel încât valorile estimate ale
variabilei dependente () să fie cât mai apropiate de valorile observate (yi) (dreapta de regresie să
treacă cât mai aproape de toate punctele din corelogramă)
Determinarea valorilor lui b0 și b1 se face prin Metoda celor mai mici pătrate
Metoda celor mai mici pătrate presupune maximizarea similitudinii, a gradului de asemănare a
valorilor teoretice cu valorile reale, deci minimizarea erorilor. Cum erorile se pot produce intr-un
sens sau în altul faţă de valorile reale, ea presupune minimizarea sumei pătratelor reziduurilor
13
Metoda regresiei liniare
14
Metoda regresiei liniare
Aplicând metoda determinanţilor, se obţine:
15
Metoda regresiei liniare
16
Exemplu - Excel
La un showroom de mobilă, s-au colectat date
privind numărul de spoturi publicitare difuzate și
numărul de vizitatori (sute persoane) pentru 7 zile.
Datele sunt prezentate în tabelul următor (vezi tabelul
de 2 coloane din slide-ul urmator)
Cerințe:
45
40
35
30
25
20
15
10
0
0 2 4 6 8 10 12
Interpretare:
Există o legătură liniară directă între cele două variabile
Pentru a găsi valorile coeficienților modelului liniar de regresie, se poate
utiliza corelograma astfel:
45
40
35
30
f(x) = 2.68055555555556 x + 2.91666666666667
25
20
15
10
0
0 2 4 6 8 10 12
… sau se pot utiliza funcțiile Excel“INTERCEPT” și“SLOPE”:
Scrie intr-o
celula: Se vor afisa urmatoarele rezultate:
Interpretari:
b0 = 2,9167 inseamna ca: daca nu se difuzeaza nici
un spot publicitar, atunci numarul mediu de
vizitatori ar fi de 2,92 sute persoane /zi.
b1 = 2,68 inseamna ca: daca nr. de spoturi difuzate
creste cu 1, atunci numarul de vizitatori creste, in
medie cu 2,68 sute persoane.
b1>0 inseamna ca exista o legatura directa intre
variabile
Corelograma dintre numărul de spoturi publicitare (Ox) şi numărul de
vizitatori (Oy – sute pers.)