Sunteți pe pagina 1din 29

ANALIZA

DE
DATE
PENTRU
AFACERI

CURS 4 – 3 noiembrie 2020

1
Structura cursului de azi

– Erorile de tip I si II in testarea ipotezelor

– Comparatia dintre doua grupe


– Teste parametrice
– Teste neparametrice

– Comparatie dintre mai mult de doua grupe


– Tehnicile ANOVA

– MANOVA
Erorile de tip I si II in testarea
ipotezelor

– La interpretarea pragului de semnificatie se poate adauga discutarea a doua


erori ce pot aparea in testarea ipotezelor

– Eroarea de tip I este situatia in care un cercetator decide sa respinga ipoteza


nula, desi aceasta nu trebuie respinsa
– Eroarea de tip II esta data de cazul in care ipoteza nula nu a fost respinsa, desi
trebuia sa fie respinsa
Erorile de tip I si II in testarea
ipotezelor
– Cei mai multi cercetatori tind sa tina cont doar de eroarea de tip I si sa ignore
eraorea de tip II

– Din perspectiva teoriei lui Neyman si Pearson, p = 0.05, stabilit a priori, nu


reprezinta altceva decat eroarea de tip I  acest prag, notat cu α, reprezinta o
probabilitate de 5% de a obtine datele culese in conditiile in care ipoteza nula
este adevarata  reprezinta, de fapt, o probabilitate de 5% de a gresi,
respingand ipoteza nula cand ea este adevarata
Erorile de tip I si II in testarea
ipotezelor
– Eroarea de tip II poate fi prestabilita si este importanta mai ales din perspectiva
puterii statistice a unei cercetari
– Daca eroarea de tip I este fixata conventional la valoarea de 0.05, eroarea de tip
II, notata cu β, nu are o asemenea valoare
– Totusi, cel mai frecvent se allege o valoare de patru ori mai mare decat prima,
adica 0.20
– Transformand probabilitatile in sanse, von constata ca o eroare de tip II de 0.2
indica de 4 ori mai putine sanse de a comite aceasta eroare decat de a lua o
decizie corecta (0.2 / 0.8)
Comparatia dintre doua grupe

Teste parametrice – cand rezultatele comparate sunt masurate prin scale


numerice:
– Testele t si z de comparare a diferentelor dintre doua medii
– Testul t sau z pentru un esantion
– Testul t sau z independent
– Testul t sau z dependent
Testele t si z de comparare a
diferentelor dintre doua medii

Pasii unui test statistic


– Formularea problemei in termenii ipotezelor statistice (H0, H1)
– Alegerea statisticii adaptata problemei (z sau t)
– Alegerea nivelului de semnificatie alfa
– Calcularea pragului de separare (valoarea critica)
– Calcularea valorii statisticii (zcalc / tcalc) folosind datele esantionului
– Compararea valorii calculate cu valoarea critica pentru a decide daca ipoteza nula se
respinge sau nu
Comparatia dintre doua grupe

Teste neparametice – cand rezultatele comparate sunt masurate prin scale


ordinale:
– Testul U a lui Mann-Whitney – pt 2 esantioane independente
– Testul T (Z) a lui Wilcoxon – pt 2 esantioane perechi
Comparatia dintre doua grupe

Teste neparametice – cand rezultatele comparate sunt masurate prin scale


nominale:
– Testul χ² - categorii indepedente
– Testul χ² McNemar – categorii perechi
Tehnicile ANOVA

Comparatie dintre mai mult de doua grupe


ANOVA

– Test statistic utilizat cand dorim sa comparam mai mult de doua grupe de subiecti

– Compara in acelasi timp mediile mai multor esantioane

– Acronim de la “Analysis of Variance”  analiza dispersionala/analiza de varianta

Exemplu:
– Putem utiliza ANOVA pentru a compara consumul mediu de energie al gospodăriilor
din cele patru regiuni din SUA
ANOVA

– Ipotezele testului:
H0: nu sunt diferente intre medii
H1: mediile sunt diferite una fata de cealalta

– Exemplu:
H0: m1 = m2 =m3 = m4 (pentru 4 esantioane)
H1: cel putin doua medii difera semnificativ
Interpretare:
p > 0.05 => nu se respinde H0, diferenta este nesemnificativa la pragul de incredere de 95%
p < 0.05 => se respinge H0 cu pragul de semnificatie de 95% => Cel putin doua medii difera semnificativ
ANOVA

Exista mai multe tipuri de ANOVA, acestea fiind cel mai des intalnite:
– ANOVA unifactoriala
– Se aplica atunci cand avem o variabila depedenta masurata pe o scala de interval/raport
pentru 3 sau mai multe valori ale unei variabile independente categoriale masurata pe o
scala nominal/ordinala

– ANOVA bifactoriala
– ANOVA multifactoriala
ANOVA unifactoriala
(One-Way ANOVA )

Aplicatie 1. a.
– testarea efectelor a 3 tipuri de îngrășăminte asupra randamentului culturilor.
ANOVA unifactoriala
Cod in R
install.packages(c("ggplot2", "ggpubr", "tidyverse", "broom", "AICcmodavg"))
library(ggplot2)
library(ggpubr)
library(tidyverse)
library(broom)
library(AICcmodavg)

summary(crop_data)
ANOVA unifactoriala
Datele

crop_data
ANOVA unifactoriala
(One-Way ANOVA )
Conditii:

– Esantioane aleatoare si independente

– Distributie normala

– Egalitatea abaterilor standard


ANOVA unifactoriala
Cod in R
one.way <- aov(yield ~ fertilizer, data = crop_data)

summary(one.way)

Interpretare:
p <0,001, deci se pare că tipul de îngrășământ utilizat are un impact real asupra
randamentului final al culturii
ANOVA unifactoriala
Output
– Output-ul listează mai întâi variabilele independente testate în model (în acest
caz avem doar una, „îngrășământ”) și reziduurile modelului („residuals”).
– Toată variația care nu este explicată de variabilele independente se numește
varianță reziduală.
ANOVA unifactoriala
Output
Df afișează gradele de libertate.
Sum Sq afișează suma pătratelor (adică variația totală între media grupului și
media generală).
Mean Sq este media sumei pătratelor, calculată prin împărțirea sumei pătratelor la
gradele de libertate pentru fiecare parametru.
F value este testul statistic (F-test), iar cu cât aceasta valoare este mai mare, cu
atât este mai probabil ca variația cauzată de variabila independentă să fie reală și
nu datorată întâmplării.
Pr (> F) este valoarea p a statisticii F.
ANOVA bifactoriala
(Two-Way ANOVA )
Aplicatie 1. b.
– adăugăm o variabilă independentă suplimentară: densitatea plantării.
– testarea efectelor a 3 tipuri de îngrășăminte și a 2 densități diferite de plantare
asupra randamentului culturilor
ANOVA bifactoriala
Cod in R
two.way <- aov(yield ~ fertilizer + density, data = crop_data)

summary(two.way)

Interpretare:
Adăugarea variabilei pare să fi îmbunătățit modelul: a redus varianța reziduală
(suma reziduală a pătratelor a trecut de la 35,89 la 30,765)
Densitatea plantării și tipul de îngrășământ sunt semnificative din punct de vedere
statistic (ambele avand p <0,001)
ANOVA bifactoriala
Output
ANOVA bifactoriala
Adăugarea de interacțiuni între variabile

– Uneori variabilele independente au mai degrabă un efect de interacțiune decât


un efect aditiv

– De exemplu, în experimentul de recoltare a culturilor, este posibil ca densitatea


plantării să afecteze capacitatea plantelor de a prelua îngrășământ.
– Acest lucru ar putea influența efectul tipului de îngrășământ într-un mod care
nu este luat în considerare de modelul bifactorial aplicat.
ANOVA bifactoriala
Cod in R
interaction <- aov(yield ~ fertilizer*density, data = crop_data)
summary(interaction)

Interpretare:
Variabila „îngrășământ: densitate” are o valoare mică a sumei pătratelor și o
valoare p ridicată, ceea ce înseamnă că nu există prea multe variații care pot fi
explicate prin interacțiunea dintre îngrășământ și densitatea plantării.
MANOVA
Analiza de varianta multivariata
– Este o varianta a analizei ANOVA care aplica atunci cand dorim sa analizam mai
multe variabile dependente concomitent

– Aceste variabile trebuie sa fie de tip scor, nu categoriale

– Analizeaza o variabila compozita, bazata pe cateva variabile dependente, dupa


care testeaza daca mediile grupurilor pentru variabilele dependente combinate
difera semnificativ
MANOVA
Exemplu
Cercetarea eficientei diferitelor metode de team building in sport
– Exista 3 grupuri: team building cu un psiholog sportiv / cu un antrenor / fara team
building
– Ipoteza este ca tehnicile de team building au o influenta pozitiva asupra coeziunii
echipei
– Cele 3 variabile dependente:
– Diferenta dintre evaluarile primite de cei mai simpatizati/antipatizati membri ai echipei
– Numarul sedintelor de antrenament la sala la care s-a participat in mod voluntar
– Numarul de jocuri avute
MANOVA

Team building cu psiholog Team building cu antrenor Fara team building


Simpatie Sala Joc Simpatie Sala Joc Simpatie Sala Joc
9 12 14 4 6 15 9 6 10
5 9 14 5 4 12 1 2 5
8 11 12 4 9 15 6 10 12
4 6 5 3 8 8 2 5 6
9 12 3 4 9 9 3 6 7
9 11 14 5 3 8 4 7 8
6 13 14 2 8 12 1 6 13
6 11 18 6 9 11 4 9 12
8 11 22 4 7 15 3 8 15
Va multumesc!

S-ar putea să vă placă și