Sunteți pe pagina 1din 74

Inferență referitoare la medii

Algoritmi, baze de date şi sisteme de gestiune a bazelor de date


Metode de inferență pentru medii
• Eșantioane mari
– O singură medie: Metoda normală (metoda z)
– Date în perechi: Metoda normală (metoda z)
– Două eșantioane: Metoda normală (metoda z)
• Eșantioane mici
– O singură medie: Metoda t pentru un eșantion
– Date în perechi: Metoda t pentru eșantioane perechi
– Două eșantioane: Metoda t pentru două eșantioane (metoda t
pentru eșantioane independente, metoda t pentru două grupuri)
• Mai mult de două eșantioane
– Analiza de varianță unidirecțională (ANOVA)
O singură medie, metoda pentru
eșantioane mari
Idee: Interval de încredere care folosește distribuția normală.
Metoda se poate folosi pentru orice eșantion mare. Datele pot
să provină din orice distribuție.
Ex: Distribuția greutății la naștere a copiilor în cazul a 1749
sarcini de tip singleton la mamele caucaziene din sudul Londrei.

1: Media = 3296.0 g
Abaterea standard = 563.2 g
Frecvența

Eroarea standard a mediei =


13.5 g = 563.2 / 1749

Brooke OG, Anderson HR, Bland JM, Peacock JL, Stewart


CM. (1989) Effects on birth weight of smoking, alcohol,
caffeine, socioeconomic factors, and psychosocial stress.
British Medical Journal, 298, 795-801.
Greutatea la naștere (g)
O singură medie, metoda pentru
eșantioane mari
2: Interval de încredere (CI) care folosește distribuția normală.
Media = 3296.0 g, Abaterea standard (SD) = 563.2 g,
Eroarea standard a mediei = 13.5 g.
Eșantioane mari  media eșantioanelor au distribuția normală
cu media = 3296.0 și SD = 13.5 (estimate din date).
3: 95% din observații dintr-o
distribuție normală se află în
intervalul 1.96  SD de o
Frecvența

parte și de alta a mediei.


95% CI:
Lim inf: 3296.0 - 1.96  13.5
Lim sup: 3296.0 + 1.96  13.5
adică (3270, 3322).
Greutatea la naștere (g)
O singură medie, metoda pentru
eșantioane mari
Presupuneri:
Observațiile sunt independente între ele.
Un grup cu 100 observații obținute de la 10 subiecți
(de ex 10 observații pentru fiecare subiect) nu
formeaza un grup de observații independente.
Eșantionul trebuie să fie suficient de mare astfel
încât eroarea standard să poată fi bine
determinată. O regulă empirică: ar trebui să fie 100
observații pentru un grup.
Date în perechi, metoda pentru
eșantioane mari
Idee: Interval de încredere (CI) pentru media diferențelor
bazat pe distribuția normală.
Ex: Modificările stării de depresie cu ajutorul internetului.
Au fost recrutați 525 indivizi cu simptome de depresie
indentificate într-un sondaj.
Acestia au fost alocați aleatoriu la 3 site-uri web:
-BluePages care oferă informaţii despre depresie (n = 166),
-MoodGYM care se referă la o terapie cognitiv
comportamentă (n = 182)
-Control un grup care folosește placebo (n = 178).
Christensen H, Griffiths KM, Jorm AF. (2004) Delivering interventions for depression by using the internet: randomised controlled
trial. British Medical Journal 328, 265-268.
Date în perechi, metoda pentru
eșantioane mari
Scorul de bază în depresie și după șase săptămâni de tratament pentru
un grup de 525 pacienți cu depresie et al. (2004)

90 (17%) dintre subiecţii nu au răspuns la chestionar și autorii au


presupus că scorurile lor au rămas neschimbate.
Aceasta înseamnă că indiferent de distribuţia iniţială a scorurilor,
distribuția diferenţelor trebuie să aibă un vârf mare care apare pentru
un număr de cel puţin 90 de observaţii. Astfel nu putem avea o
distribuţie normală!
Date în perechi, metoda pentru
eșantioane mari
1: BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9,
abaterea standard = 9.1.
2: Eroarea standard a mediei = 0.71
3: Intervalul de 95% încredere pentru media diferențelor
este:
Lim inf: 3.9 - 1.96 x 0.71
Lim sup: 3.9 + 1.96 x 0.71
(2.5, 5.3) puncte pe scala depresiei.
Aceasta reprezintă o estimație de tip interval pentru media
diferențelor între punctajele depresiei presupunând că
răspunsul nonrespondenților este același.
Date în perechi, metoda pentru
eșantioane mari
BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9, abaterea
standard = 9.1,
eroarea standard a mediei = 0.71
Idee: Test de semnificație:
- Ipoteza nulă: Media schimbărilor în populație este 0.
- Ipoteza alternativă: Există o schimbare (în orice direcție).
Eșantioane mari  media estimată urmează o distribuție
normală cu abarerea egală cu eroarea standard a mediei.
Diferența dintre media observată în eşantionul și media
populației (aici 0) împărţită prin eroarea standard
(statistica testului) va urma distribuţia normală standard.
Date în perechi, metoda pentru
eșantioane mari
BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9, abaterea standard = 9.1,
eroarea standard a mediei = 0.71
Test de semnificație:
- Ipoteza nulă: Media schimbărilor în populație este 0.
Dacă ipoteza nulă este adevărată atunci media observată în
eşantionul împărţită prin eroarea standard va urma distribuţia
normală standard.
z = 3.9/0.71 = 5.49.
p = 0.00000004 (vom scrie p <0.0001)
Atentie! 95%CI: (2.5, 5.3) – 0 nu se află în interval!
Aceasta este testul pentru o singură medie in cazul eșantioanelor
mari (de distribuție normală), test cunoscut, de asemenea, și sub
denumirea de testul z pentru o singură medie.
Date în perechi, metoda pentru
eșantioane mari
Presupuneri:
 Observaţiile din fiecare grup sunt independente.
(diferenţele intre observaţiile corespondente sunt
independente)
 Grupurile (esantioanele) sunt mari. Regula empirică
spune că trebuie cel puțin 100 observații pentru un grup.
 Studierea marimii efectului in esantion (indicatorul
Cohen).
Putem verifica ultima afirmație printr-o reprezentare grafică
a mediilor si diferenţelor dintre două măsurători pentru un
subiect.
Aceasta va fi descrisă în detaliu mai târziu la testul t în
perechi.
Date independente, metoda
pentru eșantioane mari

Idee: Intervalul de încredere pentru diferența mediilor:


(BluePages – MoodGYM) 2  0.672
Diferența = -0.3 (4.2-3.9) 0.71
Eroarea standard a diferenței = = 0.98
Observație: Formula se aplică doar în cazul grupurilor independente.
Intervalul de 95% încredere pentru media diferențelor este: Lim inf:
-0.3 - 1.96 x 0.98
Lim sup: -0.3 + 1.96 x 0.98,
Adică (-2.2, +1.6) puncte pe scala depresiei.
Date independente, metoda
pentru eșantioane mari

Idee: Ipoteza nulă pentru testarea egalitatății mediilor (BluePages versus


MoodGYM).
Diferența = -0.3,
Eroarea standard a diferenței = .712  0.672
=00.98
Dacă ipoteza nulă este adevărată: diferența/eroarea standard (statistica testului)
va avea o distribuție normală standard.
Diferența/eroarea standard = -0.3/0.98=-0.31
Pentru distribuția normală p = 0.76.
Atentie! 95%CI: (-2.2, +1.6) – 0 se află în interval!
Acesta este testul z pentru eșantioane mari idenpendente sau testul z pentru
două medii.
Date independente, metoda
pentru eșantioane mari

BluePages versus Control:


Diferența = 2.9,
Eroarea standard a diferenței = 0.95
95%CI: (1.0, 4.8) – 0 nu se află în interval!
Diferența/eroarea standard = 2.9/0.95=3.05
Pentru distribuția normală p = 0.002. (0.002 x 3 = 0.006!!)
MoodGYM versus Control:
Diferența = 3.2,
Eroarea standard a diferenței = 0.92
95%CI: (1.4, 5.0) – 0 nu se află în interval!
Diferența/eroarea standard = 3.2/0.92=3.48
Pentru distribuția normală p = 0.0005. (0.0005 x 3 = 0.0015 !!)
Date independente, metoda
pentru eșantioane mari
Presupuneri:
 Observaţiile din fiecare grup şi grupurile sunt
independente între ele. Nu trebuie să existe legături
între observaţiile dintre cele două grupuri, precum ar fi
un studiu în care fiecare subiect într-un grup este
relaționat, de exemplu, prin vârstă/sex etc cu un subiect
din celălalt grup.
 Eșantioanele (grupurile) trebuie să suficient de mari
pentru ca erorile standard să fie bine estimate. Regula
empirică spune că pentru un singur eșantion ar trebui să
avem cel puţin 100 de observaţii iar pentru două
eşantioane de cel puţin 50 de observații în fiecare.
Metoda t pentru eșantioane mici
Ex: 9 pacienți cu răni cronice nevindecte (Shukla et al., 2004).
Biopsiile au fost evaluate folosind scorul obținut cu ajutorul
unui sistem care gradează angiogeneza microscopică (MAGS)
și care furnizează un indice care evaluează cât de bine vasele
mici de sânge sunt în curs de dezvoltare deci, prin urmare,
evaluează regenerarea epitelială. Scorurile mari sunt cele mai
bune.
Cele nouă observaţiile au fost: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Shukla VK, Rasheed MA, Kumar M, Gupta SK, Pandey SS. (2004) A trial to determine the role of placental extract in the
treatment of chronic non-healing wounds. Journal of Wound Care 13, 177-9,
Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Idee: Interval de 95% încredere pentru medie!
Dacă am fi avut eșantioane mari se putea folosi formula:
media – 1.96  eroarea , media + 1.96  eroarea
standard a mediei standard a mediei
Nu putem folosi metoda pentru eșantioane mari bazată pe
distribuția normală deoarece eșantionul este prea mic!
În acest caz eroarea standard nu este suficient de bine estimată!
Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Idee: Interval de 95% încredere pentru medie!
media – 1.96  eroarea , media + 1.96  eroarea
standard a mediei standard a mediei
Vom folosi distribuția Student T.
Interval de 95% încredere pentru medie:
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei
Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Idee: Interval de 95% încredere pentru medie!
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei
Ce este t0.05?
Aceasta este o valoare care provine din distribuția Student T, definită
ca fiind distribuția urmată de diferența dintre media unui eșantion și
media populației împărțită la eroarea standard, când observațiile
urmează o distribuție normală.
t0.05 este valoarea critică pentru pragul de 5% bilateral al distribuției t
cu un număr de grade de libertate egal cu nr de observații minus unu.
Distribuția Student t
Familia de distribuții t cu un parametru (numărul gradelor
de liberate): 1 grad de libertate 4 grade de libertate

probabilitate
Densitate de
probabilitate
Densitate de

t t
20 grade de libertate Distribuția normală standard

probabilitate
probabilitate
Densitate de

Densitate de

t t
Cu cât numărul gradelor de libertate crește cu atât distribuția
t tinde să devină mai apropiată de distribuția normală
standard!
Valori critice pentru distribuția normală

Teste unilaterale Teste bilaterale


Valoarea critică pentru pragul de 5%
pentru distribuția t cu 4 grade de libertate
Densitate de probabilitate

H0
adevărată

Regiune de
acceptare

t cu 4 grade de libertate
Valori critice pentru distribuția t
Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Idee: Interval de 95% încredere pentru medie!
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei
Ce este t0.05?
t0.05 este valoarea critică pentru pragul de 5% (caz bilateral) al
distribuției t cu un număr de grade de libertate egal cu nr de
observații minus unu.
Acestea sunt gradele de libertate folosite și la calculul varianței
(dispersiei) eșantionului.
Avem 9 observații astfel 9 – 1 = 8 grade de libertate.
Valori critice pentru distribuția t
Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei este de 4.2.
Idee: Interval de 95% încredere pentru medie!
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei
t0.05 = 2.31.
Interval de 95% încredere pentru medie:
(41.7 – 2.31  4.2, 41.7 + 2.31  4.2)=
= (32.0, 51.4) unități MAGS
Metoda t pentru eșantioane mici
Presupuneri:

Observaţiile din grup sunt independente între ele

Observațiile provin dintr-o distribuție normală


Metoda t pentru eșantioane mici
Presupunere: Observațiile provin dintr-o distribuție
normală
Dificil de verificat cu ajutorul unei histograme pentru un eșantion
mic:
Frecvența

Scoruri MAGS înainte de tratament


Se poate verifica presupunerea referitoare la normalitate cu
ajutorul unei reprezentări grafice a normalității (Normal plot).
Reprezentarea grafică a
normalității
Construcție:
1. Se ordonează observaţiile:
20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Care va fi prima observație într-un eșantion normal distribuit
cu 9 observații?
Valoarea teoretică (așteptată) pentru cea mai mică
observație într-un eșantion cu 9 observații extras ditr-o
distribuție normală standard este -1.28.
2. Estimăm cea de-a doua observație, cea de-a treia, a patra
etc ca fiind:
-1.28, -0.84, -0.52, -0.25, 0.00, 0.25, 0.52, 0.84, 1.28
Reprezentarea grafică a
normalității
Observaţiile ordonate:
20, 31, 34, 39, 43, 45, 49, 51 şi 63.
2: Valorile medii pentru prima observație, cea de-a doua
observație, cea de-a treia, a patra etc dintr-un eșantion cu 9
observații extras dintr-o distribuție normală standard:
-1.28, -0.84, -0.52, -0.25, 0.00, 0.25, 0.52, 0.84, 1.28
3: Pentru un eșantion extras dintr-o distribuție normală cu
media și abaterea standard precum MAGS, vom multiplica
cu abaterea standard = 12.5 și vom aduna cu media 41.7:
25.6, 31.1, 35.1, 38.5, 41.7, 44.8, 48.2, 52.2, 57.7
Reprezentarea grafică a
normalității
MAGS: 20, 31, 34, 39, 43, 45, 49, 51, 63.
Normala: 25.6, 31.1, 35.1, 38.5, 41.7, 44.8, 48.2, 52.2, 57.7
4: Dacă vom face reprezentarea grafică a normalității pentru
datele MAGS în raport cu valorile normale va trebui să ca
cele mai multe dintre observaţii să fie aproape de linie, dacă
scorurile MAGS urmează o distribuţie normală.
Scoruri MAGS

Diagramă de Linie de
corelație – egalitate
scatter
(Normal plot
sau
Normal
probability plot) Valori teoretice
Reprezentarea grafică a
normalității
Distribuțiile asimetrice produc în jurul liniei de egalitate o
curbă sau o încovoiere.

Colesterol seric (mmol/L)


Distribuție
Frecvența

pozitiv
asimetrică Formă de
sau tip
asimetrică la ”ține apa”
dreapta!

Colesterol (mmol/L) Valori teoretice


Reprezentarea grafică a
normalității
Distribuțiile asimetrice produc în jurul liniei de egalitate o
curbă sau o încovoiere.
Pt greutatea la naștere (toate valorile):

Greutatea la naștere (g)


Distribuție
negativ
asimetrică Formă de
Frecvența

sau tip
asimetrică la ”nu ține apa”
stânga!

Greutatea la naștere (g) Valori teoretice


Reprezentarea grafică a
normalității
Distribuțiile asimetrice produc în jurul liniei de egalitate o
curbă sau o încovoiere.
Pt greutatea la naștere (la termen):

Greutatea la naștere (g)


Distribuție Linie
aproximativ dreaptă!
Frecvența

simetrică

Greutatea la naștere (g) Valori teoretice


Reprezentarea grafică a
normalității
Există mai multe modalități de obținere a reprezentărilor grafice pentru
normalitate:
-Unele programe (ex SPSS) pun valorile calculate pe baza distribuției normale
pe axa verticală iar datele observate pe axa orizontală. Astfel o curbă de tip ”nu
ține apă” indică o asimetrie pozitivă iar o curba de tip ”ține apă” o asimetrie
negativă (invers).
- Alte programe folosesc valorile distribuției normale standard ca valori
calculate în locul celor pentru o distribuţie normală cu aceeaşi medie şi abatere
standard ca și cele calculate pentru datele observate, caz în care .. linia dreaptă
depinde de medie şi abatere standard, deci nu avem o linia de egalitate.
-Mai există și cazul în care se oferă o reprezentare grafică a valorilor
probabilității pentru distribuția normală și nu o reprezentare grafică a
cuantilelor pentru distribuția normală, însă acestea arată similar şi sunt
interpretate în acelaşi mod.
Teste de semnificație: Shapiro-Wilk, Shapiro-Francia,
Kolmogorov-Smirnov .
Metoda t pentru eșantioane
perechi
Scorurile MAGS înainte şi după tratamentul local cu extract de placentă la
pacienții cu răni nevindecate (Shukla et al., 2004)

media diferențelor= 9.33,


abaterea standard pt diferențe = 4.03,
eroarea standard a mediei diferențelor = 1.34
Metoda t pentru eșantioane
perechi
Pentru eșantioane mici, va trebui să presupunem că
diferențele urmează o distribuție normală.
Intervalul de 95% încredere:
media – t0.05  eroarea , media + t0.05  eroarea
standard a mediei standard a mediei
t0.05 este valoarea critică pentru pragul de 5% (caz bilateral) al
distribuției t cu un număr de grade de libertate egal cu nr de
observații minus unu.
Testul de semnificație se referă la
media_diferențelor/eroarea_standard (statistica testului)
care urmează o distribuție t cu un număr de grade de
libertate egal cu numărul de observații minus 1.
Metoda t pentru eșantioane
perechi
Ex: Creșterea scorului MAGS
Media diferențelor = 9.33,
SE = 1.34 litri/min
9 diferențe, deci 9 – 1 = 8 grade de libertate.
Valori critice pentru distribuția t
Metoda t pentru eșantioane
perechi
Ex: Creșterea scorului MAGS
Media diferențelor = 9.33,
SE = 1.34 litri/min
9 diferențe, deci 9 – 1 = 8 grade de libertate.
Din randul cu 8 grade de libertate (d.f) se obține valoarea t 0.05
= 2.31.
Intervalul de 95% încredere:
(9.33 – 2.31  1.34, 9.33 + 2.31  1.34)=
=(6.2, 12.4)
Test de semnificație:
Media/SE = 9.33/1.34 = 6.96
Metoda t pentru eșantioane
perechi
Ex: Creșterea scorului MAGS
Media diferențelor = 9.33,
SE = 1.34 litri/min
9 diferențe, deci 9 – 1 = 8 grade de libertate.
Din randul cu 8 grade de libertate (d.f) se obține valoarea t 0.05
= 2.31.
Idee: Intervalul de 95% încredere:
(9.33 – 2.31  1.34, 9.33 + 2.31  1.34)=
=(6.2, 12.4)
Idee: Test de semnificație:
Media/SE = 9.33/1.34 = 6.96
Din tabelul t, p<0.001. Dintr-un program de analiză statistică
p = 0.0001.
Metoda t pentru eșantioane
perechi
Presupuneri:
Observațiile din fiecare grup sunt independente
între ele (diferenţele intre observaţiile corespondente
sunt independente).
Diferențele urmează o distribuție normală
Studierea marimii efectului in esantion
Metoda t pentru eșantioane
perechi
Verificarea presupunerilor pentru metoda t pentru
eșantioane perechi:
Diferențele urmează o distribuție normală (Verificarea
histogramei și a reprezentării grafice a normalității)
Diferența în scorurile MAGS,
(după minus înainte)

Valori teoretice
Metoda t pentru eșantioane
perechi
Verificarea presupunerilor pentru metoda t pentru
eșantioane perechi:
Diferențele urmează o distribuție normală (Verificarea
histogramei și a reprezentării grafice a normalității)
 Studierea marimii efectului

MAGS pt cele 2 momente


Diferențe intre scorurile
in esantion – adica media și
abaterea standard a
diferențelor este constantă
(verificarea reprezentării
grafice a diferențelor în
raport cu mediile)
Mediile scorurilor MAGS
Metoda t pentru eșantioane
perechi
Abateri de la presupuneri:
Diferențele nu urmează o distribuție normală
Sunt necesare cel puțin 100 de observații pentru a
ignora normalitatea. Totuși, diferențele tind să aibă o
distribuție simetrică astfel că această presupunere este
îndeplinită cu ușurință.
Existenta unui efect legat de dimensiunea
esantionului.
Transformări….
Metoda t pentru două eșantioane
Aceasta este cunoscută și sub numele de: metoda t pentru
eșantioane neperechi, testul t nepereche, metoda t pentru
două grupuri sau testul Student t pentru două eșantioane.
Ex: Densitatea capilară (măsurată pe mm2) pentru două grupuri
de pacienți: un grup de pacienţii cu ulcer diabetic la picior şi un
grup de control fără ulcer (Marc Lamah)
Metoda t pentru două eșantioane
Nu se poate folosi metoda pentru eșantioane mari bazată pe
distribuția normală deoarece eșantioanele sunt prea mici!
Eroarea standard nu este suficient de bine estimată!
Distribuția erorilor standard estimate depinde de distribuția
observațiilor.
Pentru metoda t pentru două eșantioane independente vom
face următoarele presupuneri :
• observaţiile din grupuri (esantioane) provin din distribuţii
normale,
• distribuţii celor două populaţii din care au fost extrase
eșantioanele au aceeaşi varianță. (Atenție! Populaţiile și
nu eșantioanele extrase din ele au aceeaşi varianţă.)
Metoda t pentru două eșantioane
În cazul în care distribuţiile celor două populaţii au aceeaşi
varianţă avem nevoie doar de o estimare a varianţei. Noi numim
aceast estimare varianţă comună sau grupată (amestecată).
Gradele de libertate necesare pentru această estimare a
varianţei comune sunt egale cu numărul de observaţii minus 2.
Vom utiliza această estimare pentru varianţă si pentru a estima
eroarea standard a diferenţei dintre medii.
Ex: Densitatea capilară
Varianța comună = 53.31,
SD = 7.30 capilare/mm2,
df = 19 + 23 - 2 = 40
SE pentru diferență = 2.26 capilare/mm2
Diferența = 34.08 – 22.59 = 11.49 capilare/mm2
(control – ulcer)
Metoda t pentru două eșantioane
Ex: Densitatea capilară
Varianța comună = 53.31,
SD = 7.30 capilare/mm2,
df = 19 + 23 - 2 = 40
SE pentru diferență = 2.26 capilare/mm2
Diferența = 34.08 – 22.59 = 11.49capilare/mm2
(control – ulcer)
Intervalul de 95% încredere pentru diferență:
(11.49 - ?  2.26, 11.49 + ?  2.26)
? nu provine din distribuția normală ci din distribuția t cu 40
grade de libertate
Valori critice pentru distribuția t
Metoda t pentru două eșantioane
Ex: Densitatea capilară
Varianța comună = 53.31,
SD = 7.30 capilare/mm2,
df = 19 + 23 - 2 = 40
SE pentru diferență = 2.26 capilare/mm2
Diferența = 34.08 – 22.59 = 11.49capilare/mm2
(control – ulcer)
Intervalul de 95% încredere pentru diferență:
(11.49 - ?  2.26, 11.49 + ?  2.26)
? nu provine din distribuția normală ci din distribuția t cu 40
grade de libertate
(11.49 – 2.02  2.26, 11.49 + 2.02  2.26) =
= (6.29, 16.07) capilare/mm2
Metoda t pentru două eșantioane
Ex: Densitatea capilară
Varianța comună = 53.31,
SD = 7.30 capilare/mm2,
df = 19 + 23 - 2 = 40
SE pentru diferență = 2.26 capilare/mm2
Diferența = 34.08 – 22.59 = 11.49capilare/mm2
(control – ulcer)
Testul de semnificație:
Ipoteza nulă stabilește că în populație diferența între medii = 0:
(diferența – 0)/SE = 11.49/2.26 = 5.08
Dacă ipoteza nulă este adevărată atunci acest raport urmează o
distribuție t cu 40 grade de libertate.
Metoda t pentru două eșantioane
Ex: Densitatea capilară
Testul de semnificație:
ipoteza nulă stabilește că în populație diferența între medii = 0:
(diferența – 0)/SE = 11.49/2.26 = 5.08
Dacă ipoteza nulă este adevărată atunci acest raport urmează o
distribuție t cu 40 grade de libertate.

Din tabel, probabilitatea observării unei astfel de valori extreme


este mai mică de 0.001.
Folosind un program de analiză statistică se afisează valoarea
p = 0.0000, ceea ce înseamnă că p<0.0001.
Metoda t pentru două eșantioane
Presupuneri:
 Observațiile din fiecare grup si grupurile sunt
independente între ele.
 Distribuția observatiilor este normală pentru
fiecare grup.
 Varianțele sunt aceleași în fiecare populație.
Metoda t pentru două eșantioane
Presupuneri:
 Distribuția observatiilor este normală pentru
fiecare grup.
 Varianțele sunt aceleași în fiecare populație.
Control Ulcere
Problemă:
Observațiile nu
Frecvența
Frecvența

sunt suficiente
pentru a trage
vreo concluzie!

Densitatea capilarelor Densitatea capilarelor


Metoda t pentru două eșantioane
Presupuneri:
Distribuția observatiilor este normală pentru
fiecare grup.
 Varianțele sunt aceleași în fiecare populație.
Soluție:
Vom combina cele două grafice
scăzând media grupului din fiecare
Frecvența

observație pentru a obține


reziduurile.
Reziduurile au media = 0.
Reprezentarea grafică pare destul de
simetrică însă tot avem prea puține
observaţii. O altă soluție (mai bună)
ar fi să întocmească o reprezentare
Reziduuri grafică a normalității pentru reziduuri.
Metoda t pentru două eșantioane
Ex: Densitatea capilară
Frecvența

Reziduuri

Reziduuri Normala inversă


Distribuția pare apropiată de cea normală.
Metoda t pentru două eșantioane
Presupuneri:
 Distribuția observatiilor este normală pentru fiecare grup.
 Varianțele sunt aceleași în fiecare populație.

Ex: Densitatea capilară


Control Pacienți cu ulcer

Abaterile standard sunt similare.


Testarea egalității varianțelor: Testul F, testul Levene, testul
Bartlett etc!
Metoda t pentru două eșantioane
Presupuneri:
 Distribuția observatiilor este normală pentru fiecare
grup.
 Varianțele sunt aceleași în fiecare populație.
Densitatea capilarelor

Control Ulcere
Grup de pacienți
Metoda t pentru două eșantioane
Efectele neîndeplinirii presupunerilor:
1. Metodele care folosesc distribuția t depind de îndeplinirea
anumitor condiții (presupuneri) referitoare la distribuția din
care provin datele.
În general, pentru două eşantioane de dimensiuni egale,
metoda t este foarte rezistentă la abaterile de la normalitate,
însă pe măsură ce eşantioanele devin mai puţin egale ca
mărime, aproximarea devine și ea mai puţin bună.
Acesta este probabil un efect al asimetriei care duce la
pierderea puterii.
Valorile p devin astfel prea mari iar intervale de încredere prea
largi.
Asimetria se poate, de obicei, corecta cu ajutorul unei
transformări!
Metoda t pentru două eșantioane
Efectele neîndeplinirii presupunerilor:
2. Dacă nu putem presupune o varianță uniformă, efectul,
de obicei, este mic dacă cele două populaţii urmează o
distribuţie normală.
Varianţele inegale sunt adesea asociate cu asimetrii ale
datelor, caz în care, este necesară o transformare pentru a
corecta acest defect.
Dacă distribuţiile sunt normale, putem folosi corecția
Satterthwaite a gradelor de libertate adesea numită și
metoda t pentru două eșantioane (grupuri) cu varianţe
inegale sau necomune.
Metoda t pentru două eșantioane
Varianțe inegale: corecția Satterthwaite pentru gradele de
libertate.
În cazul în care varianțele sunt inegale, nu se poate face o
estimație a varianţei comune.
Vom folosi, în schimb, un model care se aplică eșantioanelor
mari pentru a calcula eroarea standard a diferenţei dintre
medii. Vom înlocui valoarea t pentru intervale de încredere şi
de testele de semnificaţie cu un alt t cu mai puţine grade de
libertate.
Gradele de libertate Satterthwaite depind de dimensiunile
relative ale varianțelor. Varianţe mari domină şi în cazul în care
una dintre ele este mult mai mare decât cealaltă, doar gradele
de libertate pentru acel grup sunt luate în considerare ca fiind
gradele de libertate.
Metoda t pentru două eșantioane
Varianțe inegale: corecția Satterthwaite pentru gradele
de libertate.
Ex: Densitatea capilară
Grade de libertate: 40 (= 19 + 23 – 2)
Grade de libertate Satterthwaite: 38.56.
Rotunjim valoarea la 38 pentru a folosi tabelul t.
Varianțe egale: 95% CI = (6.92, 16.07), p<0.0001.
Varianțe inegale: 95% CI = (6.91, 16.07), p<0.0001.
Observație: Metoda Satterthwaite este o aproximare
folosită în condiţii neobişnuite. Metoda varianţelor egale
este testul standard t.
Mai mult de două eșantioane
Analiza de varianță unidirecțională (ANOVA).
Presupunerile sunt la fel ca în cazul testului t pentru
două eșantioane indiferent de dimensiunea
eșantionului.
Algoritmi, baze de date şi
sisteme de gestiune a
bazelor de date
Algoritmi şi baze de date

Algoritm = secvenţă “finită” de instrucţiuni, fiecare putând fi


efectuată într-un timp determinat şi “rezonabil”.
Exemplu:
dacă BMI>26 şi Vârsta=14 şi Sexul=M, atunci Cat=“obez”

Datele primare:
G
BMI  2 -Vârstă 14
I -Sex M
-Înălţime 1.74
5%=15.9 -Greutate 82.5
85%=22.6 se înregistrează în baze de date.
95%=26

BMI se calculează! 26.9


66
Sisteme de gestiune a bazelor de date
Dată - două înţelesuri principale:
1) reprezentare formalizată a unor fapte, concepte sau
instrucţiuni, adecvată comunicării, interpretării umane sau
prelucrării automate;
2) reprezentare prin caractere cărora li s-a atribuit un înţeles
Aceeaşi dată poate fi înregistrată, pe suportul fizic, în multiple
feluri. De exemplu, numărul 123 ar putea fi plasat – într-o
memorie – fie prin reprezentarea sa binară:
01111011
fie ca succesiune de cifre “1”, “2”, “3” reprezentate ASCII,
adică astfel:
00110001 00110010 00110011
67
Sisteme de gestiune a bazelor de date
Logic: BD = colecţie de date cu legături între ele.
Informatic: BD = ansamblu complex de diverse obiecte
informatice. Cele mai importante sunt tabelele de date.

Tabelele de date sunt formate din


înregistrări (records), organizate în
câmpuri (fields) de diverse tipuri. sex vârst greutate …
a

Înregistrare (obiect concret)


M 14 86.5
Câmp (atribut al obiectelor)

Valoare a înregistrării/liniei
(compatibilă cu tipul câmpului)
68
Sisteme de gestiune a bazelor de date
Toate înregistrările dintr-un tabel trebuie să fie asociate cu
obiecte (“entităţi”) similare !
Datele provenite de la o “entitate” (un “individ”) pot să fie
stocate în tabele separate!
Recomandare: datele personale de identificare (CNP, data
naşterii, numele/prenumele NU SE ÎNREGISTREAZĂ în acelaşi
tabel cu diagnosticul sau medicaţia prescrisă!
Între două tabele de
date pot exista
legături, de trei (1)
tipuri:
- una-la-una (1) (3)
- una-la-multe (2) (2)
- multe-la-multe (3)

69
Sisteme de gestiune a bazelor de date
Identificarea unei anumite înregistrări: prin folosirea aşa-numitelor
chei primare (primary key).
O cheie primară este o formulă de identificare (unică) a înregistrării pe
baza valorilor din anumite câmpuri.
Fiecare dată particulară stocată în baza de date va fi accesibilă prin
indicarea “adresei” sale, care se “calculează” rapid odată cunoscute
numele tabelului de date, numele câmpului şi valoarea cheii
primare.
Exemple de sisteme de gestiune a bazelor de date:
(Microsoft) Access, componentă a suitei Office,
(Microsoft) SQL Server,
(Microsoft) Visual FoxPro,
(IBM) DB2,
Oracle,
MySQL.
70
Limbajul SQL
Structured Query Language
Comenzile sunt de trei tipuri posibile:
1) Tipul DD (de definire a datelor). Principala comandă din
acest tip este cea de creare.
Create Table spitale
2) Tipul DM (de manipulare a datelor). Patru comenzi: de
selectare (Select), de inserare de date noi (Insert), de
modificare (Update) şi de ştergere (Delete).
Select * From spitale Where oras="Bucuresti"
Insert Into spitale Values("SUUB","Bucuresti","814")
3) Tipul DC (de control al datelor). Comanda Grant din acest tip
permite acordarea de drepturi speciale unor utilizatori.
Grant Select,Insert On spitale To ionescu
Alte funcţii pt calcule statistice: Count(), Average(), Sum(),
Min(), Max(),
71
MySQL
Este o implementare open source a limbajului SQL, gratuită, şi
poate fi folosită sub licenţă publică.
Avantaj: realizare de pagini web dinamice (în combinație cu PHP)
Sistemul de securitate folosit de MySQL este bazat pe:
• numele de utilizator (username),
• parola de protecţie (password),
• privilegiile/drepturile utilizatorului
În mod implicit există o bază de date (mysql) cu 5 tabele care
conţine datele privind utilizatorii, precum şi drepturile şi
privilegiile acestora: user
db
host
tabels-priv
colum-priv
72
MySQL
Fiecare tabel al unei baze de date este format din trei fişiere
având acelaşi nume (conţinute în subfolderul specific bazei
de date):
• formularul ce conţine structura tabelului (frm)
• fişierul de date (myd)
• fişierul index, ce conţine ordonările asociate datelor din
fişierul de date (myi)
Toate cele trei fişiere sunt create automat, în urma execuţiei
unei comenzi
Create Table nume_tabel ;
Exemplu:
Create Table studenti ( studID Integer Auto-Increment Not Null Primary Key,
numepren Char(30), annastere Year, Index alfa(numepren) ) ;

73
MySQL
Comenzi administrator (root):
Grant privilegii (listă câmpuri) On identificatoare_tabele To username
(Identified By password);
Revoke …
Comenzi utilizatori:
Show Databases ; Show Tables ;
Use nume_bază_de_date;
Create Database nume_bază_de_date;
Create Table nume_tabel ( structură şi indecşi);
Insert Into nume_tabel Values( lista_valori);
Load Data Infile identificator_fişier_sursă Into Table nume_tabel;
Select listă_câmpuri From listă_tabele Where condiţie_de_selecţie;
Update nume_tabel Set listă_modificări Where condiţie_de_identificare ;
Delete From nume_tabel Where condiţie_de_îndeplinit;
Drop Table If Exists nume_tabel;
Alte comenzi: pt șiruri de caractere, funcții calendaristice, conversii etc.

74

S-ar putea să vă placă și