Documente Academic
Documente Profesional
Documente Cultură
MCS 13 Alegerea Metodei - Stoma
MCS 13 Alegerea Metodei - Stoma
Alegerea metodei de
analiza a datelor
1
Alegerea metodei
Programe
Analiza
Biostatistica
Tipuri de
studii
Variabila Statistica Prezentarea
cantitativa descriptiva esantionului
- centralitate
- dispersie
3
Statistica
descriptiva
Variabila Prezentarea
- Frecvente (FA,
calitativa esantionului
FR, FACC,
FRCC, FACD,
FRCD)
4
Variabila
cantitativa
Regresie Coeficient de
corelatie +
Test de semnificatie
Variabila
cantitativa
5
Variabila
calitativa
Variabila
calitativa
6
Variabila
calitativa
Variabila
cantitativa
7
Relatii de cauzalitate xP, r
Testarea ipotezelor
statistice
Testarea ipotezelor statistice
Formularea de noi ipoteze (sau model sau teorie)
este una dintre cele mai importante aspecte ale
cercetării ştiinţifice.
Aceste ipoteze experimentale încercă să descrie
sau să explice anumite fenomene reale.
In multe cazuri există ipoteze anterioare
(descrieri sau explicaţii) pe care oamenii de
ştiinţă doresc să le înlocuiască cu altele noi.
Este însă insuficient să se formuleze sau să fie
prezentată numai o nouă ipoteză.
O ipoteză nouă trebuie testată pentru a vedea că
are temei (în concordanţă cu observaţiile) şi
pentru a justifica că este “mai bună” decât alte
ipoteze anterioare.
10
Metode pentru testarea ipotezelor
Inferenţă negativă
Scopul testului statistic este de a
dovedi că ipoteza nulă H0 este falsă
relativ la cea alternativă
nu putem niciodată afirma acceptăm
ipoteza nulă
O putem nega sau nu o putem nega
12
Metode pentru testarea ipotezelor
Prin respingerea ipotezei nule
cercetătorul afirmă că rezultatele
observate nu sunt datorate
întâmplării
= efect semnificativ
Când ipoteza nulă nu este rejectată
cercetătorul afirmă că diferenţele
observate sunt datorate întâmplării şi
rezultatele nu sunt semnificative
13
Decizia
Stabilirea semnificaţiei testului pe baza valorii
lui p se face frecvent cu următoarea regulă
empirică:
1. Dacă 0,01 <= p<0,05 , rezultatele sunt considerate semnificative.
2. Dacă 0,001 <= p<0,01, rezultatele sunt considerate înalt
semnificative.
3. Dacă p<0,001, rezultatele sunt considerate foarte înalt
semnificative.
4. Dacă p>=0,05, rezultatele sunt considerate nesemnificative statistic.
5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă spre
considerarea unei semnificaţii statistice.
Valoare lui p nu este un indicator al validităţii
ipotezei statistice. P se utilizează doar pentru a
face decizia semnificativă sau nu.
14
Erori în testarea ipotezelor statistice
Adevăr
H0 H0
adevărată Falsă
H0 se Eroare tip
Corect
respinge I (α)
Rezultat
H0 nu se Corect
Eroare tip
respinge II (β)
15
Eroarea de tip I
Adevăr
H0 adevărată H0
Falsă
Adevăr
H0 adevărată H0
Falsă
Relații de
cauzalitate
www.info.umfcluj.ro
Independenţa a două evenimente
21
Diagrama de dispersie
Diagrama de
dispersie asociată
unei tabel de date
bidimensional:
X: X1, X2,..., Xn II I
*
* *
*
* *
Y: Y1, Y2,..., Yn *
* *
*
se obţine
*
Y *
* * * *
*
reprezentând grafic *
*
*
*
*
*
punctele de *
* II
I
IV
coordonate (Xi,Yi) X
i=1,2,...,n. 22
Diagrama de dispersie
II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X
23
Diagrama de dispersie
II I
* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
X 24
Diagrama de dispersie
* II I
* *
*
*
*
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV
X 25
Atenție!
Coeficientul de corelaţie Pearson
Pentru a obţine un indicator independent şi de unităţile
de măsură ale celor două variabile se utilizează
coeficientul de corelaţie sau coeficientul Bravais-
Pearson:
COV ( X , Y ) n XY X Y
r
Sx Sy
n X 2 X 2 n Y 2
Y
2
S s2 i
( X X ) 2
s2 i 1
n
unde s este variatia.
27
Coeficientul de corelaţie Pearson
Coeficientul de corelaţie măsoară intensitatea
relaţiei dintre variabilele X şi Y şi valoarea sa r este
totodată cuprinsă între -1 şi 1.
Dacă r=1 punctele sunt situate pe o dreaptă de
pantă pozitivă (crescătoare).
Dacă 0 < r < 1, norul de puncte poate fi înlocuit
(ajustat) printr-o dreaptă de pantă pozitivă .
Dispersia punctelor în jurul dreptei de regresie va fi
cu atât mai mare cu cât r se apropie de 0 şi cu atât
mai mică cu cât r se apropie de 1.
Dacă -1 < r < 0 atunci norul de puncte poate fi
aproximat cu o dreaptă de pantă negativă.
Dispersia punctelor faţă de dreaptă va fi cu atât mai
mică cu cât r este mai apropiat de -1.
Dacă r=-1 atunci toate punctele sunt situate pe o
dreaptă de pantă negativă.
28
Regulile empirice Colton (1974)
un coeficient de corelaţie de la -0.25 la
0,25 înseamnă o corelaţie slabă sau nulă,
un coeficient de corelaţie de la 0.25 la 0.50
(sau de la -0.25 la -0.50) înseamnă un
grad de asociere acceptabil
un coeficient de corelaţie de la 0.5 la 0.75
(sau de la -0.5 la -0.75) înseamnă o
corelaţie moderată spre bună
un coeficient de corelaţie mai mare decât
0.75 (sau mai mic decât -0.75) înseamnă o
foarte bună asociere sau corelaţie
29
Testul de semnificaţie
Semnificaţia coeficientului de corelaţie Pearson
poate fi evaluată dacă valoarea observată a
apărut datorită întâmplării (dacă este semnificativ
diferită de zero).
Interpretarea este că datele experimentale
permit sau nu ne permit enunţarea existenţei
unei relaţii între variabilele luate în calcul
30
Interpretarea r,p
Valoarea r p > 0,05 p < 0,05
-0.25 la 0,25 corelaţie slabă corelaţie slabă
sau nulă sau nulă
0.25 la 0.50 Nu are un grad de
(-0.25 la - semnificatie asociere
0.50) statistica acceptabil
0.5 la 0.75 Nu are o corelaţie
(-0.5 la -0.75) semnificatie moderată spre
statistica bună
0.75 (sau mai Nu are o foarte bună
mic decât - semnificatie asociere sau
0.75) statistica corelaţie
r < -1; r > 1 Eroare Eroare 31
Interpretarea r,p
Atenție:
Variabilele corelate trebuie sa fie cantitative
Intre variabilele pentru care se calculeaza
corelație trebuie sa existe o relație logică
32
Coeficientul de corelaţie Spearman
Coeficientul de corelaţie Spearman, notat
rs, este analogul nonparametric al
coeficientul de corelaţie Pearson, calculat
pentru a fi utilizat cu date ordinale.
6 X Y
2
rs
n(n 1)
2
33
Testul de semnificaţie
Semnificaţia coeficientului de corelaţie
Spearman poate fi evaluată dacă valoarea
observată a apărut datorită întâmplării
(dacă este semnificativ diferită de zero).
Valorile obţinute pentru rs trebuie să fie
mai mari sau egale decât valorile critice
din tabel pentru ca să fie semnificative
34
InfoMed
Variabila
cantitativa
36
Compararea a două medii
Compararea mediilor eşantioanelor pentru
determinarea statistică a diferenţelor se face
prin două caracteristici:
Media – diferenţa mediilor între grupuri
caracterizează nivelul de separare între
grupuri
Varianţa – caracterizează variabilitatea în
interiorul grupurilor
Ambele caracteristici sunt o sursă de
variabilitate utilizabilă pentru a descrie
efectele tratamentului
Compararea a două medii - situatia ideală
Situaţia reală
Există diferenţe între grupuri
Există diferenţe în interiorul grupurilor
Trebuie demonstrat dacă diferenţele observate
între mediile parametrului studiat sunt datorate
experimentului şi nu întâmplării
Testul t Student
Subtipuri:
Testul t pentru eşantioane independente:
• Varianţe egale
– O coadă
– Două cozi
• Varianţe inegale
Testul t pentru eşantioane perechi
Testul t pentru eşantioane independente
Utilizat pentru compararea a două eşantioane
independente
Eşantioanele sunt considerate independente
deoarece sunt compuse din seturi
independente de subiecţi între care nu există
nici o relaţie derivată din studiu
Prezumţia de egalitate a varianţelor
Testul t pentru eşantioane independente se
bazează pe această prezumţie
Se mai numeşte şi omogenitatea varianţelor
În mod normal omogenitatea varianţelor se
testează statistic
Testul F
Testul Levene sau testul Barlett
• Bazate pe statistica F
Dacă varianţele nu sunt semnificativ statistic
diferite (p>0,05) atunci pot fi considerate
egale
Dacă sunt diferite se aplică altă formulă de
calcul a lui t
Testul t pentru varianţe inegale
46
Sunt datele normal distribuite?
Parametrii de statistică descriptivă
care indică distribuția normală:
Media, modulul și mediana au valori identice
sau apropiate
Modulul este apropiat de centrul distribuției
Asimetria aproape de 0
Boltirea aproape de 0
47
Sunt datele normal distribuite?
Teste de verificare a normalității datelor:
Testul Kolmogorov-Smirnov
Dacă n < 50 se folosește testul Shapiro-Wilk
H0 = nu există diferențe statistice
semnificative între distribuția observată
și cea normală
H1 = există diferențe statistice
semnificative între distribuția observată
și cea normală
p < 0,05 se respinge ipoteza nulă, datele
nu sunt normal distribuite 48
Teste parametrice și neparametrice
Teste Teste neparametrice
parametrice echivalente
ANOVA Kruskal-Wallis
Student Mann–Whitney U
(eșantioane Mann–Whitney–Wilcoxon
independente) Wilcoxon–Mann–Whitney
Wilcoxon rank-sum
Student Wilcoxon signed-rank
(eșantioane
pereche)
49
Teste parametrice și neparametrice
Z (n>30)
2 eșantioane
independente
Student
(n<30)
Normal
distribuite 2 eșantioane Student
perechi pereche
>2
ANOVA
eșantioane
Date de
analizat
Mann–
2 eșantioane
Whitney–
independente
Wilcoxon
>2
Kruskal-Wallis
eșantioane 50
Vă mulțumesc pentru atenție!