Sunteți pe pagina 1din 31

STATISTICA PENTRU AFACERI

CURS 6: 23 MARTIE 2020


OBSERVAȚIE IMPORTANTĂ

Cursul urmează structura din lucrarea


“Statistică pentru Afaceri”, Anderson et. al,
2011, disponibilă la biblioteca facultății.

2
STRUCTURĂ

Măsuri ale asocierii între variabile numerice

Covarianța

Corelația

Aplicații

3
ASOCIEREA DINTRE DOUĂ VARIABILE
MODURI DE REZUMAREA
DATELOR

Tabele, grafice, hărți etc.

Numere (medie, dispersie, abatere standard,


quartile)

Dacă însă vrem să rezumăm relații, avem nevoie de


măsuri ale asocierii
CARE ESTE IDEEA?

Y: suma cheltuită lunar

X: venitul lunar

Întrebări:

Există vreo relație între aceste două variabile?

Dacă există o relație, ce tipar urmează aceasta?

Cât de puternică este relația, cum evoluează aceste variabile împreună?

Cum putem măsura totul într-un singur număr?


I. COVARIANȚA

este o măsură a asocierii liniare dintre două variabile


EXEMPLU

Relația dintre numărul de reclame difuzate în


weekend și nivelul vânzărilor din săptămâna
următoare

Sursa: Anderson et al., 2011, p. 115


DATELE

SĂPT. NUMĂR RECLAME VÂNZĂRI


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
O relație puternică, liniară

Cum putem măsura acest lucru?


FORMULA

N, în cazul populației sxy = 11


INTERPRETARE
x=3

II I
y = 51

III IV
INTERPRETARE
(xi -x ̄)(yi - y ̄) < 0 x=3 (xi -x ̄)(yi - y ̄) > 0

II I
y = 51

III IV

(xi -x ̄)(yi - y ̄) > 0 (xi -x ̄)(yi - y ̄) < 0


INTERPRETARE
Dacă valoarea covarianței este pozitivă, cea mai mare influență o au
punctele din cadranele 1 și 3

Deci, o valoare pozitivă pentru covarianță arată o relație liniară pozitivă


între variabile.

O covarianță negativă arată influența punctelor din cadranele 2 și 4


asociere negativă.

Desigur, dacă punctele sunt distribuite oarecum în mod egal între cele
patru cadrane, covarianța va fi aproape de 0; nu vom vedea relație de
asociere între cele două variabile
LIMITE ALE COVARIANȚEI

Depinde de unitatea de măsură folosită

Ex: corelația dintre înălțime și greutate; dacă


înălțimea este măsurată în cm în loc de m,
covarianța va crește, dar relația ca atare dintre
variabile nu ar trebui să se schimbe
II. COEFICIENTUL DECORELAȚIE

Este o măsură a relației dintre două variabile,


care nu este afectată de unitatea de măsură
CUM SE POATE CALCULA?
ÎN EXEMPLULNOSTRU
COEFICIENTUL DE CORELAȚIE
E BINE DE ȘTIUT

valorile coeficientului de corelație sunt între -1 și 1:


-1 ≤ r ≤ +1

• Când este pozitiv: relație directă între variabile


• Când este negativ: relație indirectă între variabile
Corelograma (Diagrama de
imprastiere / Scatter Plot)
= reprezentarea grafica a corelatiei dintre valorile
variabilelor, ce permite identificarea existentei, formei si
sensului dependentelor statistice.

Relație directă, pozitivă; Relație indirectă,


r aproape 1 negativă, r aproape -1
CÂND R ESTE ZERO?
DOUĂ CAZURI

Când nu există relație,

dar și când

Relația nu este liniară


Nu există corelație deloc
Relația este neliniară.
Coeficientul de corelație este aproape de 0,
dar o relație există, în mod evident!
OBSERVAȚII

Corelația dintre două variabile, X și Y, nu


înseamnă neapărat că între acestea există o
relație cauzală.

 O relație de asociere ne vorbește doar despre


faptul că două variabile se modifică împreună
într-o manieră specifică

 Uneori poate fi cauzal: putem admite că


atunci când venitul crește, cheltuielile cresc
de asemenea
 dar….
INSA UNEORI ESTE DOAR O COINCIDENȚĂ,
CARE NU ÎNSEAMNĂ NIMIC!
Exemplu:

Source: http://www.tylervigen.com/spurious-correlations
Conceptul de “BIG DATA” si
corelatiile

BIG DATA
 Seturi mari de date care
pot fi analizate
computațional pentru a
dezvălui trend-uri, tipare
și asociații, în special
legate de comportamentul
uman si interacțiuni
Se poate referi la toată Toate companiile care își
informația pe care cineva o
înregistrează ”în scopul doresc să se dezvolte / au
îmbunătățirii serviciilor” sale. ceva de vanzare
Include analiza informațiilor -> folosesc BIG DATA.
offline și online.
Ex. Google
Conceptul de “BIG DATA” si
corelatiile
 Am fost învățați și ne-am obișnuit că efectul este determinat de o cauză,
motiv pentru care în mod natural suntem tentați să aflăm "de ce?".
 În lumea Big Data corelația devine mai importantă decât cauzalitatea.

Exemplu: Amazon
Printr-un algoritm intitulat "item-to-item collaborative filtering" dezvoltat de
către Amazon, recomandările se fac în mod complet automatizat, dinamic și
cu un impact masiv în vânzări (1/3 din veniturile generate de comerțul
electronic provenind din recomandările automate).
Amazon nu vrea să știe de ce clienții care cumpără "The Lord of the Rings" de
J. R. R. Tolkien sunt interesați să cumpere și "Friendship and the Moral Life"
de Paul J. Wadell, însă ce-i interesează este că există o corelație puternică
între aceste două titluri, iar aceast fapt le va genera venituri de trei ori mai
mari decât în lipsa unui astfel de sistem.

 Sursa: https://www.todaysoftmag.ro/article/388/big-data-big-confusion
PE DATA VIITOARE!

S-ar putea să vă placă și