Documente Academic
Documente Profesional
Documente Cultură
Statistic A
Statistic A
a - notite de curs
Stefan Balint, Loredana Tanasie
Cuprins
1 Ce este statistica?
2 Notiuni de baz
a
3 Colectarea datelor
11
5 Prezentarea datelor
14
19
22
25
26
28
11 Teorema limit
a central
a
32
35
13 Estimarea punctual
a a unui parametru; intervalul de ncredere
36
14 Generalit
ati privind ipotezele statistice si problema verific
arii ipotezelor
statistice
38
41
48
17 Inferent
a statistic
a privind media populatiei dac
a nu se cunoaste
abaterea standard a populatiei
52
18 Inferent
a relativ
a la variant
a si estimarea variantei
59
19 Generalit
ati despre corelatie. Corelatie liniar
a
65
20 Analiz
a de corelatie liniar
a
73
21 Inferent
a privind coeficientul de corelatie liniar
a
76
22 Regresie liniar
a
80
83
24 Inferent
a referitoare la panta unei drepte de regresie liniar
a
87
Ce este statistica?
Notiuni de baz
a
Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numerice
obtinute prin masuratori ale carei proprietati trebuiesc analizate.
Remarca 2.1. Populatia este colectia complet
a de indivizi, obiecte sau date numerice
obtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).
Conceptul de populatie este fundamental n statistica. Populatia trebuie definita cu grija
si se considera complet definita daca lista membrilor este specificata. Multimea studentilor
Facultatii de Matematica si Informatica este o populatie bine definita.
Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statistica
populatia poate fi o multime de animale, de obiecte fabricate sau de date numerice
obtinute prin masuratori. De exemplu multimea naltimilor studentilor facultatii de
Matematica si Informatica este o populatie.
Definitia 2.2. Esantionul este o submultime a unei populatii.
Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate din
populatie (de catre colectorul de esantion).
Definitia 2.3. O variabil
a de r
aspuns (simplu variabil
a) este o caracteristica (de
obicei numerica) care prezinta interes n cazul fiecarui element (individ) al unei populatii.
Remarca 2.3. Varsta studentului, media lui, culoarea parului, naltimea, greutatea
s.a.m.d. sunt variabile de raspuns n cazul populatiei: studentii de la Facultatea de
Matematica si Informatica.
Definitia 2.4. O dat
a (la singular) este valoarea unei variabile de raspuns n cazul
unui element al populatiei sau esantionului.
Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui este
castaniu, naltimea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cinci
valori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolae
sunt cinci date.
Definitia 2.5. Valorile unei variabile de raspuns n cazul unei populatii sau a unui
esantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea ori
de cate ori variabila are aceasta valoare.
Exemplul 2.2. Cele 25 de naltimi n cazul unui esantion de 25 de studenti este un set
de 25 de date nu neaparat diferite.
Definitia 2.6. O activitate planificata n urma careia se obtine un set de date se numeste
experiment sau sondaj.
Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.
Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica care
au promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazul
populatiei: studentii de la Facultatea de Matematica si Informatica.
Remarca 2.4. Parametrul este o valoare numerica care se refera la ntreaga populatie.
In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.
5
Colectarea datelor
Prima problema a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.
Exemple de obiective:
a) Compararea eficacitatii unui medicament nou cu eficacitatea unui medicament
standard;
b) Estimarea venitului mediu al unei familii din judet.
Exemple de populatii si variabile corespunz
atoare:
a) pacientii care sufera de o boala care se trateaza cu medicamentul considerat
reprezinta populatia, iar timpul de recuperare reprezinta variabila;
b) familiile din judet reprezinta populatia, iar venitul total al unei familii din judet
reprezinta variabila.
Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituie
pentru ntreaga populatie sau doar pentru un esantion. Daca setul de date se constituie
pentru ntreaga populatie atunci se face un recensamant.
am
ant este o enumerare sau o listare a fiecarui element al
Definitia 3.1. Un recens
populatiei mpreuna cu data (valoarea variabilei) corespunzatoare elementului.
In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificil
si costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensamant,
setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectia
elementelor pentru esantion se face dintr-un cadru de esantionare.
Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,
din care va fi extras esantionul.
Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectate
pentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fie
reprezentativ pentru populatie.
Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefon
sunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acestea
pot fi cadre de esantion potrivite sau nepotrivite.
Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului de
alegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.
Definitia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere a
elementelor esantionului din cadrul esantionului.
Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedee
mpreuna cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazate
pe reprezentativitate si procedee probabiliste.
7
245
numarul de elemente din cadrul esantionului
k=
=
= 16
numarul de elemente din esantion
15
3) se alege punctul de plecare ntre 1 si numarul k cu ajutorul unui tabel de numere
aleatoare.
Daca acest numar este 10, atunci obtinem esantionul:
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k =
= 16, 33, nu este un numar ntreg, pasul de numarare poate fi si 17. In
15
acest caz esantionul sistematic obtinut este de numai 14 elemente.
Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj n cazul
populatiilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populatie, un
element din 100/x va fi selectat (daca 100/x nu este ntreg se ia partea ntreaga).
Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia este
repetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)
Exemplul 3.4. Daca se doreste estimarea numarului studentilor admisi la Facultatea de
Matematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionarea
sistematica extrag
and din lista candidatilor admisi numai pe cei de pe pozitiile care sunt
multiplu de 5, exista posibilitatea ca toti candidatii admisi pe pozitiile respective sa aiba
sub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidati peste 20 de
ani, ceea ce nu poate fi sustinut.
Cand se esantioneaza populatii foarte mari, atunci cand este posibil se mparte populatia
n doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,
iar straturile sunt esantionate separat.
Definitia 3.9. Un esantion obtinut n urma stratificarii cadrului esantionului si prin
selectarea unui numar dat de elemente din fiecare strat se numeste esantion stratificat.
Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se mparte n doua sau
mai multe straturi si n fiecare strat se proiecteaza un subesantion. Aceste subesantioane
pot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblate
ntr-un singur esantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facultatea de Matematica si Informatica, aceasta populatie poate fi mpartita:
- pe domenii: informatica, matematica
- pe ani de studiu.
a (sau esantion proportional) este un
Definitia 3.10. Esantion cot
esantion stratificat care se construieste prin selectarea unui numar de elemente din fiecare
strat dupa o anumita cota sau proportional cu marimea stratului.
9
Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatia
studentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii de
studiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectat
va fi proportional cu numarul total de studenti din anul respectiv:
Anul de studiu
Numar studenti
Cota
Anul I
Anul II
Anul III
Anul IV
431
303
206
240
36.49%
25.65%
17.44%
20.40%
Nr. studenti
selectat n esantion:
54
40
26
30
Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 de
studenti din anul III si 30 de studenti din anul IV.
O alta metoda de esantionare care pleaca de la stratificarea populatiei este esantionul
ciorchine.
Definitia 3.11. Esantionul ciorchine este un esantion stratificat care se construieste
prin selectarea de esantioane din anumite straturi (nu din toate).
Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentii
Universitatii de Vest din Timisoara, aceasta populatie poate fi startificata n functie
de specializarea pe care au ales-o studentii selectionand esantioane doar de la cateva
specializari (nu de la toate).
Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metoda
sistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupa
care fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza un
esantion ciorchine.
Intr-un caz concret procedeul de esantionare care se foloseste depinde de populatie de
variabila de dificultatea esantionarii si de cost. Dupa determinarea esantionului se poate
trece la colectarea setului de date.
10
Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinarea
frecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si este
utilizat atunci cand numarul datelor este mare.
Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:
3
4
4
2
2
4
3
1
2
1
2
3
3
2
0
3
2
2
2
1
Valoarea 0 apare n acest set o singura data prin urmare frecventa pentru 0 este unu.
Valoarea 1 apare n acest set de trei ori prin urmare frecventa pentru 1 este trei.
Valoarea 2 apare n acest set de opt ori prin urmare frecventa pentru 2 este opt.
Valoarea 3 apare n acest set cinci ori prin urmare frecventa pentru 3 este cinci.
Valoarea 4 apare n acest set de doua ori prin urmare frecventa pentru 4 este doi.
Frecventa datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:
x
0
1
2
3
4
f
1
3
8
5
3
74
68
78
52
88
72
84
76
66
92
96
82
58
86
76
78
Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obtinem
urmatoarele cinci clase:
50 59; 60 69; 70 79; 80 89; 90 99
(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).
Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricare
din date apartine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai mici
decat limita superioara a clasei.
11
Definitia 4.2. L
atimea unei clase definita ca diferenta dintre limita inferioar
a a clasei
urmatoare si limita inferioar
a a clasei (este egal
a cu 10 si este aceeasi pentru toate clasele
n exemplul de mai sus) latimea clasei nu este egal
a cu diferenta dintre limita superioar
a
si limita inferioar
a a clasei.
a
Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioar
a clasei si limita inferioar
a a clasei urmatoare sunt:
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.
Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara si
limita inferioar
a a clasei, n acest caz este:
54.5 =
50 + 59
2
n cazul clasei
50 59
64.5 =
60 + 69
2
n cazul clasei
60 69
74.5 =
70 + 79
2
n cazul clasei
70 79
84.5 =
80 + 89
2
n cazul clasei
80 89
90 + 99
n cazul clasei 90 99
2
Frecventa n acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:
94.5 =
n cazul clasei
50 59
2 date
n cazul clasei
60 69
3 date
n cazul clasei
70 79
8 date
n cazul clasei
80 89
5 date
n cazul clasei
90 99
2 date
12
i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:
R = H L.
ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfel
ca produsul m c sa fie putin mai mare ca plaja R.
iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.
Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:
I, I + c, I + 2c, I + 3c, ..., I + (m 1)c
Aceste numere sunt limitele inferioare ale claselor.
iv) Limitele superioare se stabilesc astfel ncat sa fie respectate conditiile 1) si 2).
v) Se determina frecventa fiecarei clase numarand elementele din fiecare clasa.
13
Prezentarea datelor
Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrarea
primara a datelor.
Prezentarea datelor sub forma de serii
Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre care
primul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul de
frecvente corespunzatoare.
Exemplul 5.1. In cazul setului de date statistice:
3
4
4
2
seria de distributie este:
2
4
3
1
2
1
2
3
3
2
0
3
2
2
2
1
0 1 2 3 4
1 3 8 5 3
Exemplul 5.2. In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obtinute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
seria de distributie este:
50 59 60 69 70 79 80 89 90 99
X
2
3
8
5
2
In general, o serie de distributie arata n felul urmator:
x1 x2 x3 xn
X
f1 f2 f3 fn
si oricare ar fi nivelul de grupare al datelor, xi avand frecventa fi , se numeste termenul
seriei de distributie.
Remarca 5.1. Adesea n prezentarea seriilor de distributie n locul frecventei fi se
foloseste frecventa relativa:
fi
fi0 = n
X
fj
j=1
Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ntr-o serie de
distributie de date statistice se numeste mod.
Definitia 5.3. Clasa cu cea mai mare frecventa ntr-o serie de distributie de date grupate
se numeste clas
a modal
a.
Definitia 5.4. Serie bimodal
a este o serie de distributie de date grupate n care apar
doua clase modale, separate de clase cu frecventa mai joasa.
Definitia 5.5. Frecventa cumulat
a a unei clase este suma frecventelor tutror claselor
cu valori mai mici (marca mai mica).
Definitia 5.6. Seria dinamic
a (temporal
a, cronologic
a) este un sir dublu dintre
care primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirul
de momente de timp la care variabila are aceste valori. In general, o serie dinamica
(temporala) se noteaza astfel:
x1 x2 x3 xn
X
t1 t2 t3 tn
Prezentarea datelor sub forma de tabele statistice
Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statistice
dintr-un set de date n vederea aplicarii metodelor de calcul si de interpretare statistica.
In functie de numarul de caracteristici prezentate n tabel exista tabele simple, tabele cu
dubla intrare, tabele pe grupe, etc.
Prezentarea datelor sub forma grafica
Exista mai multe metode de prezentare grafica a unui set de date statistice. Metoda
de prezentare grafica este determinata de tipul de date si de ideea de prezentare. De
la nceput trebuie sa fie clar ca exista mai multe cai de a dispune grafic anumite date
statistice. Judecata analistului si circumstantele din jurul problemei joaca un rol major
n alegerea modului de dispunere grafica a datelor statistice.
Definitia 5.7. Graficele de reprezentare a seriilor statistice fara grupare se numesc
diagrame.
Definitia 5.8. Diagrama cerc a seriei de distributie (fara grupare)
x1 x2 x3 xn
X
f1 f2 f3 fn
este un cerc mpartit n n sectoare de cerc S1 , S2 , ..., Sn astfel ncat aria sectorului Si este
egala cu
fi
fi00 = n
100
X
fj
j=1
0 1 2 3 4
X
1 3 8 5 3
cercul se mparte n cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Ox, iar naltimile lor sunt f1 , f2 , ..., fn
Exemplul 5.4. In cazul seriei de distributie din exemplul 5.1:
0 1 2 3 4
X
1 3 8 5 3
diagrama coloana este:
16
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .
Exemplul 5.5. In cazul seriei de distributie din exemplul 5.1:
0 1 2 3 4
X
1 3 8 5 3
diagrama linie este:
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri care reprezinta clasele. Bazele acestor dreptunghiuri
sunt egale (clasele au aceeasi latime) si sunt asezate pe axa Ox, iar naltimile lor sunt
f1 , f2 , ..., fn .
Exemplul 5.6. In cazul seriei de distributie din exemplul 5.2:
50 59 60 69 70 79 80 89 90 99
X
2
3
8
5
2
histograma este:
17
Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spre
deosebire de diagrama coloana.
Remarca 5.3. O histograma are urmatoarele componente:
i) Un titlu care identifica populatia la care se refera;
ii) O scara orizontala pe care se identifica variabila X, valorile limitelor claselor,
frontierele claselor, marcile claselor.
iii) O scara verticala pe care se identifica frecventele pentru fiecare clasa.
Definitia 5.12. O histogram
a de frecvente relative este o histograma obtinuta dintro histograma nlocuind frecventele cu frecvente relative.
Frecventa relativ
a (este o masura proportionala cu frecventa n cauza) se obtine prin
mp
artirea frecventei clasei la num
arul total de elemente din setul de date.
Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iar
natimile lor sunt frecventele relative cumulate.
Ogiva are urmatoarele componente:
1. Un titlu care identifica populatia.
2. O scara orizontala pe care sunt marcate frontierele superioare ale claselor.
3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecare
clasa.
18
O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametrii
tendintei centrale n cazul populatiilor si statistici ale tendintei centrale n cazul
esantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici ale
tendintei centrale.
Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui set
de date statistice care localizeaza ntr-un anumit sens mijlocul multimii de date statistice.
Definitia 6.2. Media aritmetic
a a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie suma acestor date mpartita la numarul datelor
n
X
x=
xi
i=1
Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie
(fara grupare n clase), media aritmetica se gaseste cu formula:
m
X
x=
xj f j
j=1
m
X
fj
j=1
Remarca 6.2. In cazul unei serii de distributie (cu grupare n clase) formula de calcul a
mediei este:
X
x fx
x= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.3. Media p
atratic
a a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul:
v
n
uX
u
u
x2i
t
i=1
xp =
n
Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media patratica se gaseste cu formula:
v
uX
m
u
u
x2j fj
u
u j=1
xp = u m
u X
t
f
j
j=1
19
Remarca 6.4. In cazul unei serii de distributie cu grupare n clase media patratica este
prin definitie:
v
uX 2
u
x fx
u
xp = t X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.4. Media armonic
a a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul:
n
xh = n
X 1
i=1
xi
Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media armonica se gaseste cu formula:
m
X
xh =
fj
j=1
m
X
j=1
1
fj
xj
Remarca 6.6. In cazul unei serii de distributie cu grupare n clase media armonica este
prin definitie:
n
X
fx
xh =
i=1
n
X
1
fx
x
i=1
Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media geometrica se gaseste cu formula:
Remarca 6.8. In cazul unei serii de distributie cu grupare n clase media geometrica este
prin definitie: n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma
se extinde pe ansamblul claselor.
20
Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marime
x1 < x2 < ... < xn este numarul care mparte setul de date n doua grupe egale ca numar:
- daca n = 2 k + 1, atunci me este valoarea de rangul k + 1: me = xk+1 ;
- daca n = 2 k, atunci orice numar ntre valorile xk si xk+1 satisface conditia din
acest caz se convine ca me sa fie media aritmetica a valorilor
definitia lui me . In
xk + xk+1
xk si xk+1 : me =
.
2
Exemplul 6.1. In cazul setului de date statistice:
4 7 12 26 32 38 59
mediana este me = 26.
In cazul setului de date statistice:
4 7 12 26 32 38
12 + 26
= 19.
2
Remarca 6.9. Mediana me n acest caz are proprietatea ca suma frecventelor valorilor
mai mari dec
at me este egal
a cu suma frecventelor valorilor mai mici dec
at me .
mediana este me =
Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sa nu fie adevarata. In cazul setului de date statistice:
1 1 1 2 3 3 4
Seria de distributie corespunzatoare este:
1 2 3 4
3 1 2 1
Conform definitiei lui me n acest caz me = 2, 5. Aceasta valoare a lui me nu raspunde
cerintei ca me este o valoare cu proprietatea ca valorile mai mari sau mai mici decat ea
apar cu frecvente cumulate egale; frecventa celor mai mici este 4, iar frecvena celor mai
mari este 3.
Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distributie cu sau fara
grupare me se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartitiei
uniforme a frecventelor n intervalul median.
Definitia 6.7. Mijlocul plajei este prin definitie numarul:
Mr =
L+H
2
unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X
21
Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:
care sunt parametrii si statisticile care caracterizeaza dispersia (mprastierea) datelor.
Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatia
standard si coeficientul de variatie. Aceste valori numerice descriu marimea mprastierii
ori a variabilitatilor datelor. Datele strans grupate vor avea mprastiere mica, iar cele
care nu sunt grupate (sunt mprastiate) vor avea o dispersie mai mare.
Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoare
a valorilor xi dintr-un set de date:
P =H L
Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de media
aritmetica.
Definitia 7.2. Deviatia fat
a de media aritmetic
a x a valorii xi a variabilei X este
di = xi x.
Deviatia este zero daca si numai daca xi = x.
Deviatia este pozitiva daca si numai daca xi > x.
Deviatia este negativa daca si numai daca xi < x.
n
X
S-ar putea crede ca suma deviatilor
(xi x) poate servi ca masura a dispersiei fata de
i=1
(xi x) =
n
X
xi n x = n x n x = 0
i=1
i=1
Remarca 7.1. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie fara grupare de date se calculeaza cu formula:
m
X
d=
|xj x| fj
j=1
m
X
j=1
22
fj
Remarca 7.2. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie cu grupare de date se calculeaza cu formula:
X
|x x| fx
X
d=
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Cu toate ca acest parametru al mprastierii nu se foloseste frecvent, el este o masura a
mprastierii si arata distanta medie la care se afla o valoare a variabilei X fata de media
aritmetica.
Mai exista o cale de eliminare a reducerii deviatiilor. Ridicand la patrat deviatiile
individuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul
n
X
este pozitiv. Suma patratelor deviatiilor fata de media aritmetica
(xi x)2 este folosita
i=1
n definirea variantei.
Definitia 7.4. Varianta s2 a setului de date statistice distincte {x1 , x2 , ..., xn } este prin
definitie:
n
X
(xi x)2
s2 =
i=1
n
Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date varianta s2 se calculeaza cu formula:
m
X
s2 =
(xj x)2 fj
j=1
m
X
fj
j=1
Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date varianta s2 se calculeaza cu formula:
X
(x x)2 fx
2
X
s =
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definitie:
1
n
X
2
(xi x)2
i=1
s=
23
Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date deviatia standard s se calculeaza cu formula:
1
X
m
2
(xj x)2 fj
j=1
s=
m
fj
j=1
Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date deviatia standard s se calculeaza cu formula:
X
1
2
(x x) fx 2
X
s=
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ntrebarea
ce reprezint
a ea n realitate? Un raspuns la aceast
a ntrebare poate fi dat cu inegalitatea
lui Cebsev din care rezult
a ca pentru orice serie de distributie fractiunea de date situata
la cel mult k unit
ati de deviatie standard fat
a de medie este cel putin 1 k12 , unde k este
un numar pozitiv oarecare mai mare ca 1. Rezult
a n particular ca pentru orice serie de
distributie fractiunea de date situata la cel mult k = 2 unit
ati de deviatie standard fata de
medie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de date
situate la cel mult o unitate de deviatie standard fata de medie este aproximativ 68%,
iar fractiunea de date situate la cel mult doua unitati de deviatie standard fat
a de medie
este aproximativ 95%.
Definitia 7.6. Coeficientul de variatie V este prin definitie:
V =
s
100
x
24
In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factoriali
ai variantei:
- varianta de grupa (partiala) s2j
- media variantelor de grupa s2
- varianta mediilor de grupa fata de media generala 2
- varianta totala (generala) s2 .
Definitia 8.1. Pentru o grupa de m date x1 , x2 , ..., xm , varianta de grup
a este definita
cu formula:
m
X
(xi xj )2 nij
s2j =
i=1
m
X
nij
i=1
n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avand
frecventele nij
Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai mari
sau mai mici n functie de eterogenitatea grupei.
Definitia 8.2. Prin definitie media variantelor de grup
a este:
k
X
s2 =
s2j nj
j=1
k
X
nj
j=1
m
X
i=1
a fat
a de media general
a este prin
Definitia 8.3. Varianta mediilor de grup
definitie:
k
X
(xj x)2 nj
2 =
j=1
k
X
j=1
25
nj
Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date n raport
cu celelalte date.
Definitia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupe
egale. Constanta q se numeste ordinul quantilei.
Mediana este quantila de ordinul doi.
Quantilele de ordinul patru mpart setul de date n patru grupe egale si se numesc
quartile. Quartilele sunt n numar de trei, notate de obicei cu Q1 , Q2 , Q3 .
Quartila Q1 este un numar cu proprietatea ca o patrime din date au valori mai mici decat
Q1 si trei patrimi din date au valori mai mari decat Q1 .
Quartila Q2 este un numar cu proprietatea ca jumatate din date au valori mai mici decat
Q2 si jumatate din date au valori mai mari decat Q2 . Quartila Q2 este chiar mediana.
Quartila Q3 este un numar cu proprietatea ca trei patrimi din date au valori mai mici
decat Q3 si o patrime din date au valori mai mari decat Q3 .
Alte categorii de quantile folosite sunt:
- decilele care mpart setul de date n 10 grupe egale.
- centilele care mpart setul de date n 100 grupe egale.
- promilele care mpart setul de date n 1000 grupe egale.
Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numerica cu
proprietatea ca k% din date are valori mai mici decat Pk , iar (100 k)% din date au
valori mai mari decat Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:
1) datele se ordoneaza crescator;
nk
2) trebuie gasita pozitia i a centilei k. Prima oara se determina numarul
, unde
100
nk
n este numarul de date. Daca
nu este un numar ntreg, atunci i este numarul
100
nk
nk
ntreg urmator (
= 17.2 i = 18). Daca
este un numar ntreg, atunci i
100
100
nk
nk
+ 0.5 (
= 23
este
100
100
i = 23.5).
3) localizarea valorii Pk : se numara de la valoarea L (cea mai mica valoare a datelor) i
valori daca i este ntreg. Daca i nu este ntreg atunci este un ntreg plus o jumatate.
In acest caz valoarea Pk este semisuma datelor de pe locurile n k si n k + 1
100
100
O statistica aditionala a pozitiei este scorul standard sau z-scor.
26
Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana x
n unitati de deviatie standard:
xx
z=
s
27
10
Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizam
statisticile de esantioane. Media x n cazul unui esantion nu este neaparat egala cu media
a populatiei. Suntem nsa multumiti daca media x este apropiata de . Daca se considera
media x0 n cazul unui al doilea esantion aceasta poate sa fie diferita de x si de . Ceea ce
putem spera este ca aceasta sa fie apropiata de valoarea si de x. Valabilitatea acestui
tip de comportament intereseaza pentru orice populatie si orice statistica.
Intrebarea care se naste n mod natural este ce nseamna aproape? Cum se masoara si se
determina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?
Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria de
distributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.
Tipul de statistica poate fi oricare din statisticile prezentate n sectiunile 6 si 7.
Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtine
urmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formam
esantioane de marime 2 de la care putem avea urmatoarele date statistice:
(0, 0)
(0, 2)
(0, 4)
(0, 6)
(0, 8)
(2, 0)
(2, 2)
(2, 4)
(2, 6)
(2, 8)
(4, 0)
(4, 2)
(4, 4)
(4, 6)
(4, 8)
(6, 0)
(6, 2)
(6, 4)
(6, 6)
(6, 8)
(8, 0)
(8, 2)
(8, 4)
(8, 6)
(8, 8)
1
2
3
4
5
2
3
4
5
6
3
4
5
6
7
4
5
6
7
8
Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria de
distributie a mediilor acestor esantioane este:
x
0
1
2
3
4
5
6
7
8
f 0 (x)
0.04
0.08
0.12
0.16
0.20
0.16
0.12
0.08
0.04
unde f 0 (x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioanelor
este:
28
2
0
2
4
6
4
2
0
2
4
6
4
2
0
2
8
6
4
2
0
f 0 (R)
0.20
0.32
0.24
0.16
0.08
29
Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statistice
care se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.
Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are media
x. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-un
tabel reprezentam rezultatele precum si mediile corespunzatoare:
Incercare
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Esantion
12322
45545
31524
56642
54164
35615
23632
53462
15534
41526
51332
15231
21153
51446
55633
Incercare
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
x
2.0
4.6
3.0
4.6
4.0
4.0
3.2
4.0
3.6
3.6
2.8
2.4
2.4
4.0
4.4
Esantion
52135
61335
65526
13556
31531
51143
46312
15345
34133
12414
52163
42563
43134
26533
63511
x
3.2
3.6
4.8
4.0
2.6
2.8
3.2
3.6
2.8
2.4
3.4
4.0
3.0
3.8
3.2
30
Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; este
maxim si este simetric fata de media proprie 3.5.
31
11
Teorema limit
a central
a
2
4
6
X:
1/3 1/3 1/3
Media si deviatia standard pentru aceasta variabila sunt:
v
!2
3
u 3
3
X
X
uX
=
xj f 0xj
=t
x2j f 0xj
xj f 0xj
j=1
j=1
12
=4
3
j=1
= 1, 63
In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Esantioanele au urmatoarele medii:
2 3 4
3 4 5
4 5 6
Esantion
(2,2)
(2,4)
(2,6)
(4,2)
(4,4)
(4,6)
(6,2)
(6,4)
(6,6)
Media
2
3
4
3
4
5
4
5
6
1
Esantioanele fiind aleatoare fiecare esantion are probabilitatea
sa fie ales si seria de
9
distributie a mediilor esantioanelor este:
2
3
4
5
6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distributie a mediilor esantioanelor x este x = 36/9 = 4, 0. Prin urmare
= x , iar deviatia standard a repartitiilor mediilor esantioanelor este:
v
5
!2 s
u 5
2
X
uX
156
36
2
0
0
t
xj f xj
= 1, 15
x =
xj f x j
=
9
9
j=1
j=1
1, 63
1, 63
= =
= 1, 15 = x
1, 44
n
2
Reprezentand seria de distributie a mediilor esantioanelor obtinem:
33
34
12
Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esantioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).
Ea stabileste relatia dintre media a populatiei si media x a seriei de distributie a
mediilor tuturor esantioanelor si relatia dintre deviatia standard a populatiei si deviatia
standard x a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributie
a mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintre
media populatiei si media unui esantion.
Exemplul 12.1. Consideram o populatie normala cu = 100 si = 20. Daca se alege
un esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestui
esantion sa fie ntre 90 si 110? Altfel spus, cat este P (90 < x < 110)?
Solutie: Conform teoremei limita centrala repartitia valorilor medii ale esantioanelor
este normala. Prin urmare va trebui sa transformam conditia P (90 < x < 110) ntr-o
conditie care sa permita folosirea tabelului de distributie normala standard. Aceasta se
face scriind:
110 x
90 x
P (90 < x < 110) =
=
x
x
10
10
10
110 100
=2
1=F
=
x
x
x
x
1
unde (X) =
2
ZX
1 2
t
1
e 2 dt si F (X) = (X) .
2
20
Deoarece x = , avem x = = 5 si astfel obtinem:
n
16
P (90 < x < 110) = 2 (2) 1 = 2F (2) = 0.9544
Efectul cresterii dimensiunii n a esantionului nu afecteaza x = si micsoreaza x . Prin
urmare P (90 < x < 110) creste, daca n creste.
Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medie
= 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copii
se determina media x. Care este probabilitatea ca aceasta medie sa fie ntre 90 cm si 110
cm?
Solutie:
10
x
35
13
Estimarea punctual
a a unui parametru; intervalul
de ncredere
x x
x
=
x
n
n n
z ( , ) = (
,
)
n
n
1
Astfel
scorului standard intervalul de estimare este intervalul (a, b) cu a =
n termenii
n
n
si b =
.
x
n
sa verifice:
n n
z (
,
)
n n
Intervalul de estimare este (
,
).
36
Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normala
si avem:
n
n
P ( 1 < x < + 1) = P
<z<
=
n
n
2P 0<z <
=2F
1
unde F (z) =
2
Zz
1 2
t
e 2 dt.
n
Deci nivelul de nencredere este 1 2 F
.
n
interval de ncredere cu coeficientul de ncredere 1 = 2 F
.
2
n
1
unde z
este solutia ecuatiei F (z) =
, iar intervalul de ncredere 1 pentru
2
2
este:
xz
,x + z
2
2
n
n
xz
este limita inferioara de ncredere, iar x+z
este limita superioara
2
2
n
n
de ncredere.
37
14
Generalit
ati privind ipotezele statistice si problema verific
arii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii n privinta credibilitatii unei
asertiuni (numita verificarea ipotezelor statistice) sa consideram urmatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zece
ntrebari. Fiecare ntrebare are cinci raspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul si din cele zece ntrebari el a raspuns corect la sapte. El
sustine ca a completat formularul fara sa citeasca ntrebarile si raspunsurile la ele si a
marcat raspunsurile aleator.
Intrebarea este n ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?
O asemenea ntrebare ne determina sa analizam si sa hotaram: este sau nu este rezonabil ca Popescu Nicolae sa obtina sapte raspunsuri corecte alegand aleator raspunsurile la
ntrebari? Descriem n cele ce urmeaza o analiza, care se numeste verificarea ipotezelor
statistice si care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentata si ilustrata n cazul exemplului considerat.
Etapa 1.
Etapa 2.
H0 : p(X) =
38
formularul aleator.
De la acest punct ncepand se admite ca ipoteza nula este adevarata. Situatia poate fi
comparata cu un proces la judecatorie, n care acuzatul este presupus nevinovat pana
cand se dovedeste contrariul.
Doar n etapa a 5-a a verificarii ipotezelor, vom lua una din cele doua decizii posibile:
vom decide n concordanta cu ipoteza nula H0 si spunem ca acceptam H0 sau decidem n
concordanta cu Ha si spunem ca respingem ipoteza H0 .
In functie de valoarea de adevar a ipotezei H0 si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate n tabelul urmator:
Decizia
Nu respingem H0
(acceptam)
Respingem H0
Ipoteza H0 este
Adevarata Falsa
decizie
corecta
Tip A
eroare
eroare
decizie
corecta
Tip B
Tip I
O
O
O
O
H0
H0
H0
H0
este
este
este
este
Tip II
adevarata si nu respingem H0
falsa si respingem H0
adevarata si H0 este respinsa
falsa si H0 nu este respinsa
Ar fi foarte frumos ca de fiecare data cand luam decizii sa luam decizii corecte, dar aceasta
este statistic imposibil pentru ca ne bazam pe informatii furnizate de esantioane. Cel mai
bun lucru la ce putem spera este sa controlam riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu si cea asignata
comiterii unei erori de tip II cu :
Eroarea
Tipul de eroare
Respingerea unei ipoteze adevarate
I
Acceptarea unei ipoteze false
II
Etapa 3
Probabilitate
0
0.1074
6
0.0055
1
0.2684
7
7.92104
2
0.302
8
7.38105
3
0.20133
9
4.098106
4
0.0881
10
1.02107
5
0.0264
Aceasta repartitie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multe
ntrebari este 0.0327, iar la 4 sau mai putin decat 4 ntrebari este 0.9673. Putem spune
ca aparitia valorilor 5, 6, 7, 8, 9, 10 nu sustine ipoteza H0 . Daca cineva spune ca a ghicit
raspunsul corect la 0, 1, 2, 3, 4 ntrebari, spunem ca este foarte probabil. Daca cineva spune
ca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ntrebari spunem ca este putin probabil.
Nivelul de semnificatie este probabilitatea de a face o eroare de tip I, adica de a
respinge H0 adevarat. In mod curent se da la nceput si acesta determina regiunea
critica. In cazul exemplului, daca = 0.033, atunci din P (x 5) = 0.0327 rezulta
regiunea critica x = 5, 6, 7, 8, 9, 10.
Regiunea critic
a: este multimea de valori (W ) pentru care P (X W ) si care ne
determina sa respingem ipoteza H0 . (nu sustin ipoteza H0 )
Valoarea critic
a: este prima valoare din regiunea critica.
Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipoteza
H0 este respinsa.
Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.
Etapa 4.
In cazul exemplului x = 7 (numarul de raspunsuri corecte) este valoarea testului statistic si este dat. Uzual valoarea testului statistic se calculeaza pe baza informatiilor
oferite de esantion.
Etapa 5.
15
In sectiunea precedenta am prezentat generalitati privind verificarea ipotezelor statistice. In aceasta sectiune trecem la prezentarea verificarii ipotezelor statistice n cazul
asertiunilor referitoare la media a unei populatii. Pentru a simplifica aceasta prezentare
la nceput presupunem ca deviatia standard a populatiei este cunoscuta.
Urmatoarele trei exemple se refera la diferite formulari ale ipotezei H0 si a ipotezei Ha .
Exemplul 15.1. Un ecologist sustine ca orasul Timisoara are o problema privind poluarea
aerului. Concret, el sustine ca nivelul mediu al monoxidului de carbon n aer n centrul
orasului depaseste valoarea 4, 9/106 = valoarea medie normala.
Pentru a formula n acest caz, ipotezele H0 si Ha , trebuie sa identificam: populatia,
parametrul populatiei n cauza si valoarea cu care aceasta urmeaza sa fie comparata.
Populatia n acest caz poate fi multimea locurilor din centrul orasului Timisoara. Variabila
X este concentratia monoxidului de carbon ale carei valori x variaza n functie de loc,
iar parametrul populatiei este valoarea medie a acestei variabile. Valoarea specifica cu
care aceasta medie trebuie comparata este 4, 9/106 egala cu valoarea (medie) normala.
Ecologistul face o asertiune privind valorea lui . Aceasta valoare poate fi: < 4, 9/106
sau = 4, 9/106 sau > 4, 9/106 . Cele trei situatii pot fi cuprinse n doua afirmatii dintre
care una exprima ceea ce ecologistul sustine, iar cealalta exprima contrariul.
Inegalitatea > 4, 9/106 este afirmatia: valoarea medie este mai mare ca 4, 9/106 .
Inegalitatea 4, 9/106 este echivalenta cu < 4, 9/106 sau = 4, 9/106 si este
afirmatia contrara: valoarea medie nu este mai mare ca 4, 9/106 .
Ecologistul sustine ca > 4, 9/106 . Pentru a formula ipoteza H0 si ipoteza Ha reamintim
ca:
1) In general, ipoteza H0 sustine ca media (parametrul n chestiune) are o valoare
specifica anume.
2) Inferenta privind media a populatiei se bazeaza pe media unui esantion si mediile
esantioanelor au o distributie aproximativ normala. (conform teoremei limita
centrala).
3) O distributie normala este complet determinata daca valoarea medie si deviatia
standard a distributiei sunt cunoscute.
Cele de mai sus sugereaza ca afirmatia = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatia
> 4, 9/106 ar trebui sa fie ipoteza alternativa:
H0 : = 4, 9/106
Ha : > 4, 9/106
Reamintim ca dupa ce ipoteza nula H0 este formulata, n testul statistic identificat se
presupune ca H0 este adevarata. Aceasta nseamna ca = 4, 9/106 este egala cu media
41
Si n statistica daca experimantatorul crede n ipoteza H0 nu face test pentru investigarea lui H0 . El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.
Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statistice
n cazul unei asertiuni care se refera la media unei populatii.
Exemplul 15.4. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pe
care-i nvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)
si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea este
daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profesorului la nivelul de semnificatie = 0, 05.
Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai mare
decat toate clasele dinainte. Daca media ei este egala sau mai mica decat media unei
clase anterioare, atunci ea nu este superioara.
Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu media
= 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.
De aceea:
Etapa 1.
Etapa 2.
Etapa 3.
Figura 1:
43
Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este superior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 a
fost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica
Z t2
1
1, 65 este solutia ecuatiei:
e 2 dt = 0, 05.
2
z
Figura 2:
Etapa 4.
x
75, 2 72
= 12/6 = 1, 6
Etapa 5.
H0 : = 54, 4 kg
Etapa 2.
Ha : 6= 54, 4 kg
44
Etapa 3.
t
Z
z
= 1, 96 z
este solutia ecuatiei:
e 2 dt = .
2
2
2
2
z
Figura 3:
Etapa 4.
x
= 1, 204
45
Figura 4:
Reamintim: Daca valoarea testului statistic este n regiunea critica respingem ipoteza
H0 daca nu, nu putem respinge ipoteza H0 .
Etapa 5.
<
6=
>
O regiune
la stanga
Doua regiuni
O regiune
de fiecare
la dreapta
parte cate una
test unilateral test bilateral test unilateral
st
anga
dreapta
3. Pentru multe cazuri semnul din ipoteza Ha indica directia n care regiunea critica
se gaseste
Valoarea lui se numeste nivel de semnificatie si reprezinta riscul (probabilitatea)
respingerii lui H0 atunci c
and aceasta estea adev
arat
a. Nu putem determina
46
dac
a ipoteza H0 este adev
arat
a sau fals
a. Putem doar decide c
a o respingem
sau c
a o accept
am.
Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cu
care facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.
47
16
Etapa 3.
Etapa 4.
x
= 1, 60
48
Etapa 5.
Etapa 6.
Figura 5:
Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind verificarea
ipotezelor statistice n varianta probabilista:
1. Ipotezele H0 si Ha se formuleaza n aceeasi maniera ca si n varianta clasica.
2. Se specifica nivelul de semnificatie care va fi folosit.
3. Valoarea testului statistic se calculeaza n Etapa 4 de aceeasi maniera ca n varianta
clasica.
4. P-valoarea este aria aflata ntre curba de densitate de probabilitate axa Oz si z = z .
Exista trei cazuri posibile: doua unilaterale si unul bilateral. Directia (sau semnul)
n ipoteza Ha este indiciul:
Cazul 1. Daca Ha este unilaterala la dreapta ( > ) atunci p = P (z > z ) si aria este
n dreapta lui z .
Cazul 2. Daca Ha este unilaterala stanga ( < ), atunci p = P (z < z ) este aria din
stanga lui z .
Cazul 3. Daca Ha este bilaterala ( 6= ), atunci p = P (z < |z |) + P (z > |z |) =
2 P (z > |z |)
49
Etapa 2.
Etapa 3.
Etapa 4.
n
6
Etapa 5.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece la
B. Fiecare va trebui sa stabileasca propriul nivel de semnificatie si sa ia o decizie n
consecinta.
51
17
Inferent
a statistic
a privind media populatiei dac
a
nu se cunoaste abaterea standard a populatiei
Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:
evaluarea intervalului de ncredere si verificarea ipotezelor statistice. In cele doua
tipuri de inferente statistice abaterea standard este considerata cunoscuta. In general
nsa abaterea standard nu este cunoscuta. Subiectul acestei sectiuni este inferenta
statistic
a privind media dac
a abaterea standard nu este cunoscut
a.
Daca dimensiunea esantionului este suficient de mare (n general vorbind, esantioane
a caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),
deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei si
putem susbstitui cu s n procedura discutata deja. Daca populatia pe care o investigam
este aproape normala si n 30, atunci procedeul se bazeaza pe distributia Student t.
Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:
t=
x
s
n
52
Figura 7:
Cu toate ca pentru fiecare marime de esantion (n=2,3,4,...) avem o distributie t separata
completa, n practica doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate n dreapta mediei sunt redate n tabelul urmator:
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0,40
0,30
0.25
0,20
0,10
0,05
0,025
0,010
0,005
0,001
0,0005
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
l,337
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
12,71
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
31,82
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
63,66
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
318,3
22,33
10,22
7,173
5,893
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
636,6
31,60
12,94
8,610
6,859
5,959
5,405
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
53
df
17
18
19
20
21
22
23
24
25
26
27
28
29
z
0,40
0,30
0,25
0,20
0,10
0,05
0,025
0,010
0,005
0,001
0,0005
0,257
0,257
0,257
0,257
0,257
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,534
0,534
0,533
0,533
0,532
0,532
0,532
0,531
0,531
0,531
0,531
0,530
0,530
0,530
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,674
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
3,646
3,611
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
Figura 8:
In acest tabel df are valorile de la 1 la 29 si este numarul gradelor de libertate.
Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptului
ca daca n 30 distributia t este cea normala (teorema limita centrala).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseste pentru a identifica distributia care trebuie folosita. In consideratiile
noastre df = n 1, unde n este marimea esantionului. Valoarea critica a testului t care
trebuie folosita n estimarea intervalului de ncredere precum si n verificarea ipotezelor
statistice se obtine din tabelul prezentat. Pentru a obtine aceasta valoare este nevoie de
a cunoaste:
1) df - numarul gradelor de libertate;
2) aria determinata de curba de repartitie aflata n dreapta valorii critice. Aceasta
valoare este notata t(df, ).
54
Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate n stanga mediei se obtin cu formula: t(df, ),
tinand seama de simetria distributiei t.
Figura 9:
Se observa usor ca t(df, ) = t(df, 1 ). Astfel: t(df ; 0, 05) = t(df ; 0, 95).
Exemplul 17.2. Determinati t(15; 0, 95). Avem: t(15; 0, 95) = t(15; 0, 05) = 1, 75.
Figura 10:
Statistica t este folosita n verificarea ipotezelor statistice privind asertiuni relative la
media de aceeasi maniera ca si statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: nivelul monoxidului de carbon n aer este mai mare decat 4, 9/106 .
Un esantion de 25 de determinari cu media x = 5, 1/106 si s = 2, 1/106 este un argument
suficient pentru a sustine afirmatia? Se foloseste nivelul de semnificatie = 0, 05.
Etapa 1.
H0 : = 4, 9/106
Etapa 2.
Ha : > 4, 9/106
55
Etapa 3.
Etapa 4.
n
Decizia: Nu putem respinge H0 (t nu este n regiunea critica).
Concluzie: Nu avem suficiente argumente pentru ca sa respingem
ipoteza ca nivelul monoxidului de carbon este 4, 96/106 .
t =
Etapa 5.
Figura 11:
Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoarea
critica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)
si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat contine doar
valorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel n cazul verificarii
ipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate fi
nsa estimata folosind tabelul.
Exemplul 17.4. Sa revenim la exemplul 17.3. Retinem t = 0, 48, df = 24 si Ha : > 49.
Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu pvaloarea avem:
p = P (t > 0, 48, stiind df = 24)
56
Figura 12:
Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:
Figura 13:
Comparand t = 0, 48, vedem ca p valoarea este mai mare ca 0, 25.
Exemplul 17.5. Sa se determine pvaloarea pentru urmatoarea ipoteza statistica:
H0 : = 55
Ha : 6= 55
n conditiile n care df = 15 si t = 1, 84.
Solutie: p = P (t < 1, 84) + P (t > 1, 84) = 2 P (t > 1, 84). Randul df = 15 din tabel
arata ca P (t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populatiei poate fi estimata daca este necunoscut de o maniera similara cu cazul
cunoscut. Diferenta este ca se foloseste distributia t n loc de distributia z si deviatia
standard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:
s
x t(df, ) , x + t(df, )
2
2
n
n
57
Figura 14:
unde df = n 1.
Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii lor
este 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% media
greutatii noilor nascuti.
Solutie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1 = 0, 95, implica: = 0, 05; df = 19,
iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:
s
0, 9
x t(19; 0, 025) = 3, 4 2, 09
n
20
3, 4 2, 09
0, 9
= 3, 4 0, 46
4, 472
58
18
Inferent
a relativ
a la variant
a si estimarea variantei
Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, o
companie de produse racoritoare are o masina de mbuteliat, care umple cu racoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusa n fiecare butelie este importanta, dar
cantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,
vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.
De aceea, compania doreste sa controleze varianta 2 a cantitatii x de racoritoare pusa n
fiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.
Vom prezenta n aceasta sectiune o inferenta privind varianta unei populatii. Adesea n
cazul acestei inferente se vorbeste despre deviatia standard n loc de varianta. Trebuie sa
subliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi despre
varianta este comparabil cu a vorbi despre deviatie standard.
Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceasta
companie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa n fiecare
butelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila si
compania va regla masina de mbuteliat daca varianta devine mai mare decat aceasta
valoare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este ca
varianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:
H0 : 2 = 0, 0004
Ha : 2 > 0, 0004
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul 2 .
Valoarea calculata a lui 2 se va obtine folosind formula:
2 =
n s2
2
unde s2 este varianta esantionului, n este marimea esantionului, iar 2 este valoarea
specificata n ipoteza nula.
Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta 2 , atunci
cantitatea ns2 / 2 are o distributie care se numeste distributia 2 . Formula care defineste
distributia 2 nu o vom da aici, dar pentru a folosi distributia 2 , prezentam urmatoarele
proprietati ale acesteia:
1. distributia 2 are valori nenegative, este zero sau este pozitiva;
2. distributia 2 nu este simetrica, este asimetrica la dreapta;
3. exista mai multe repartitii 2 . Ca si pentru distributiile t exista o distributie 2
pentru fiecare grad de libertate. Inferenta pe care o discutam aici se refera la cazul
df = n 1.
Valorile critice ale lui 2 sunt date n tabelul urmator:
59
df/
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0.995
0.01
0.071
0.207
0.412
0.676
0.990
1.34
1.73
2.16
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
8.03
8.64
9.26
9.89
10.5
11.2
11.8
12.5
13.1
13.8
20.7
28.0
5.5
43.3
51.2
59.2
67.3
0.990
0.020
0.115
0.297
0.554
0.872
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
8.90
9.54
10.2
10.9
11.5
12.2
12.9
13.6
14.3
15.0
22.2
29.7
37.5
45.4
53.5
61.8
70.1
0.975
0.050
0.216
0.484
0.831
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
10.3
11.0
11.0
12.4
13.1
13.8
14.6
15.3
16.1
16.8
24.4
32.4
40.5
48.8
57.2
65.7
74.2
0.950
0.103
0.352
0.711
1.15
1.64
2.17
2.73
3.33
3.94
4.58
5.23
5.90
6.57
7.26
7.96
8.67
9.39
10.1
10.9
11.6
12.3
13.1
13.9
14.6
15.4
16.2
16.9
17.7
18.5
26.5
34.8
43.2
51.8
60.4
69.1
77.9
0.900
0.211
0.584
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.1
10.9
11.7
12.4
13.2
14.0
14.9
15.7
16.5
17.3
18.1
18.9
19.8
20.6
29.1
37.7
46.5
55.3
64.3
73.3
82.4
60
0.10
4.61
6.25
7.78
9.24
10.6
12.0
13.4
14.7
16.0
17.2
18.6
19.8
21.1
22.3
23.5
24.8
26.0
27.2
28.4
29.6
30.8
32.0
33.2
34.4
35.6
36.7
37.9
39.1
40.3
51.8
63.2
74.4
85.5
96.6
108.0
114.0
0.05
6.0
7.82
9.50
11.1
12.6
14.1
15.5
17.0
18.3
19.7
21.0
22.4
23.7
25.0
26.3
27.6
28.9
30.1
31.41
32.7
33.9
35.2
36.4
37.7
38.9
40.1
41.3
42.6
43.8
55.8
67.5
79.1
90.5
102.0
113.0
124.0
0.025
7.38
9.35
11.1
12.8
14.5
16.0
17.5
19.0
20.5
21.9
23.3
24.7
26.1
27.5
28.9
30.2
31.5
32.9
34.2
35.5
36.8
38.1
39.4
40.7
41.9
43.2
44.5
45.7
47.0
59.3
71.4
83.3
95.0
107.0
118.0
130.0
0.01
9.21
11.4
13.3
15.1
16.8
18.5
20.1
21.7
23.2
24.7
26.2
27.7
29.1
30.6
32.0
33.4
34.8
36.2
37.6
39.0
40.3
41.6
43.0
44.3
45.6
47.0
48.3
49.6
50.9
63.7
76.2
88.4
100.0
112.0
124.0
136.0
0.005
10.6
12.9
14.9
16.8
18.6
20.3
22.0
23.6
25.2
26.8
28.3
29.8
31.3
32.8
34.3
35.7
37.2
38.6
40.0
41.4
42.8
44.2
45.6
46.9
48.3
49.7
51.0
52.3
53.7
66.8
79.5
92.0
104.0
116.0
128.0
140.0
Figura 15:
Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata sub
curba n dreapta valorii critice. Astfel 2 (df, ) este simbolul folosit pentru identificarea
valorii critice 2 cu df grade de libertate si cu aria sub grafic si n dreapta, asa cum
este prezentat pe figura urmatoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinati 2 (20; 0, 05) si 2 (14; 0, 90).
Din tabel se obtine: 2 (20; 0, 05) = 31, 4 si 2 (14; 0, 90) = 7, 79.
Remarca 18.1. Daca df > 2 valoarea medie a lui 2 este df . Valoarea medie este
localizata n dreapta modului (locul n care curba atinge valoarea maxima).
61
Figura 17:
Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controleze
varianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010
indica oare la nivelul de semnificatie 0, 05 ca procesul de mbuteliere nu este sub control
(referitor la varianta)?
Solutie:
Etapa 1.
Etapa 2.
Etapa 3.
Etapa 4.
2 =
Etapa 5.
Luarea deciziei.
n s2
28 0, 0010
=
= 70
2
0, 0004
Figura 18:
62
Etapa 2.
H0 : = 2, 5
Ipoteza Ha este ca medicamentul nu respecta specificatiile:
Etapa 3.
Etapa 4.
H0 : 6= 2, 5
Statistica folosita este media x, iar nivelul de semnificatie este = 0, 05.
Regiunea critica este:
Testul statistic este:
z=
x
2, 6 2, 5
0, 1
=
= 2, 5
s =
0, 4
0, 04
n
10
Etapa 2.
H0 : 6= 12
Etapa 3.
Etapa 4.
2 =
n s2
28 (10, 5)2
3087
=
=
= 21, 43
2
2
(12)
144
Etapa 5.
Nu se poate respinge H0 .
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0
64
19
Generalit
ati despre corelatie.
Corelatie liniar
a
In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem doua
seturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntre
cele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cum
sunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului unei
variabile n functie de comportamentul celeilalte. Iata cateva exemple:
Exemplul 19.1.
- In general o persoana care creste n naltime creste si n greutate. Se pune ntrebarea:
exista vreo relatie ntre naltime si greutate?
- Studentii si petrec timpul la universitate nvatand sau dand examene. Se pune
ntrebarea: studiind mai mult, obtii note mai mari?
- Doctorii care testeaza un nou medicament prescriu cantitati diferite si observa
raspunsul pacientilor; se pune ntrebarea: cantitatea de medicament prescrisa
determina oare timpul de nsanatosire al pacientului?
Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.
In cazul n care pentru o populatie avem doua seturi de date corespunzatoare la doua
variabile distincte se formeaza perechile de date (x, y), n care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile. De exemplu, x este natimea si y este
greutatea.
O pereche ordonata de date (x, y) se numeste dat
a bidimensional
a.
In mod traditional, variabila X (avand valorile x) se numeste variabil
a de intrare
(variabil
a independent
a), iar variabila Y (avand valorile y) se numeste variabil
a de
iesire (variabil
a dependent
a).
Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .
In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicament
prescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.
Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .
In cazul naltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat si
variabila de iesire. Rezultatele analizei vor fi nsa functie de alegerea facuta.
In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului se
prezinta sub forma unei diagrame de mprastiere.
Definitia 19.1. O diagram
a de mpr
astiere sau nor de puncte este reprezentarea
grafica a perechilor de date ntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y sunt
reprezentate pe axa Oy.
65
x
y
2
5
3
5
3 4 4 5
7 5 7 7
5 6 6
8 6 9
6
8
7
7
7
9
7 8 8
10 8 9
2 12
4 8
4 6 9 4 11 3 10 11
10 9 10 8 8 5 10 9
3 1 13
8 3 9
12
8
14
8
7 2 8
11 6 9
este:
Analiza de corelatie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.
Vom prezenta cateva diagrame de mprastiere pentru a ilustra corelatii posibile dintre
variabila de intrare X si variabila de iesire Y .
Definitia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y , atunci zicem ca nu avem
corelatie sau ca nu exist
a leg
atur
a ntre X si Y .
66
Definitia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y zicem ca avem o corelatie.
Zicem ca avem o corelatie pozitiv
a daca y tinde sa creasca si avem o corelatie
negativ
a daca y tinde sa descreasca odata cu cresterea lui x.
Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelatia.
Diagramele de mprastiere care urmeaza ilustreaza aceste idei:
67
68
Figura 23: Diagrama de mprastiere n cazul unei corelatii pozitive liniare perfecte
Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticala
nu exista corelatie intre cele doua variabile. Aceasta ntrucat schimbarea uneia nu
afecteaza valoarea celeilalte variabile.
Remarca 19.2. Diagramele de mprastiere nu sunt totdeauna de genul celor prezentate
pana acum si sugereaza corelatii care sunt de alta natura.
cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne asteptam
ca r sa fie negativ pentru ca n mod uzual valoarea automobilului descreste cu varsta lui.
Definitia 19.7. Coeficientul de corelatie liniar
a r n cazul unui esantion este prin
definitie:
P
(x x) (y y)
r=
n sx sy
n care sx , sy sunt deviatiile standard ale variabilelor x, y, iar n este numarul de perechi
(x, y).
Remarca 19.4. Pentru a calcula r de obicei se foloseste o formula alternativa echivalenta:
SS(x, y)
r=p
SS(x) SS(Y )
P 2
P 2
1 X 2
1 X 2
unde: SS(x) =
x
x , SS(y) =
y
y , SS(x, y) =
n
n
X
X
P
1
x
y .
xy
n
Exemplul 19.4. Sa se determine coeficientul de corelatie liniara r n cazul unui esantion
aleator de marime 10, daca tabelul de date este:
x
y
27 22 15 35 30
30 26 25 42 38
52
40
35
32
55
54
40
50
40
43
919, 0
r=p
(1396, 9) (858, 0)
= 0, 8394 0, 84.
Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelatie
liniara.
Daca valoarea calculata r este aproape de +1 sau 1, atunci banuim ca ntre cele doua
variabile exista corelatie liniara.
Intre 0 si 1 exista o valoare numita punct de decizie care indica daca exista sau nu exista
corelatie liniara. Un punct simetric exista si ntre 1 si 0. Valoarea punctului de decizie
depinde de marimea esantionului.
In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi de
esantionare cuprinse ntre 5 si 100.
70
punct de n punct de
decizie
decizie
5
0,878
12
0,576
6
0,811
13
0,553
7
0,754
14
0,532
8
0,707
15
0,514
9
0,666
16
0,497
10
0,632
17
0,482
11
0,602
18
0,468
Tabelul 1:Punctele de decizie
n
19
20
22
24
26
28
punct de
decizie
0,456
0,444
0,423
0,404
0,388
0,374
n
30
40
50
60
80
100
punct de
decizie
0,301
0,312
0,279
0,254
0,220
0,196
71
d
d) Valoarea r se estimeaza cu 1
, n care semnul se alege n functie de
D
orientarea diametrului D:
Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la mprastiere.
Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valori
a lui Y aproximatia este utila.
72
20
Analiz
a de corelatie liniar
a
In sectiunea 20 am vazut care este formula coeficientului de corelatie liniara r ntre doua
variabile X, Y menit sa masoare cat de stransa este relatia de dependenta liniara dintre
cele doua variabile.
In cele ce urmeaza vom prezenta o analiza mai amanuntita a acestei formule. Consideram
pentru ilustratie urmatorul set de date bidimensionale:
x
y
2 3
1 5
6
3
8
2
11 12
6 1
73
Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se mparte n patru submultimi. Fiecare data (x, y) se gaseste la o anumita distanta
de aceste linii; x x este distanta cu semn de la (x, y) la paralela la axa Oy si y y
este distanta cu semn de la (x, y) la paralela Ox. distantele cu semn sunt pozitive sau
negative n functie de pozitia lui (x, y) fata de (x, y).
i=1
n
Covarianta n cazul tabelului de date considerate este 0, 6.
Covarianta pozitiva nseamna ca diagrama de dispersie este dominata de date care se
gasesc deasupra si n dreapta centroidului sau dedesubt si n stanga acestuia. Aceasta
ntrucat produsele (x x) (y y) n puncte din aceste regiuni sunt pozitive.
Daca diagrama de dispersie este dominata de date care se gasesc deasupra si n stanga sau
dedesubt si n dreapta centroidului atunci covarianta este negativa pentru ca produsele
(x x) (y y) pentru puncte din aceste regiuni sunt negative.
Covarianta nsa nu este convenabila pentru a masura cat este de stransa relatia de
dependenta liniara ntre doua variabile fiindca depinde de unitatile de masura ale datelor.
Covarianta nu are o unitate de masura standardizata si mprastierea datelor influenteaza
foarte mult marimea covariantei.
Astfel de exemplu daca nmultim datele din tabelul considerat anterior cu 10 obtinem
tabelul de date:
x
y
20 30 60 80
10 50 30 20
110
60
120
10
Covarianta n cazul acestui tabel de date este 60, dar aceasta nu nseamna nicidecum ca
relatia de dependenta liniara ntre X, Y este mai stransa. Relatia de dependenta liniara
74
este aceeasi si doar datele sunt mai mprastiate. Aceasta este problema cu covarianta
atunci cand vrem sa masuram cu ajutorul ei dependenta liniara ntre doua variabile.
Trebuie sa gasim o cale de eliminare a efectului mprastierii datelor atunci cand masuram
dependenta.
Daca standardizam X si Y mpartind deviatia fiecareia de la media sa cu deviatia
standard:
xx
yy
x0 =
si y 0 =
sx
sy
si calculam covarianta lui X 0 si Y 0 , vom avea o covarianta care nu mai este influentata de
mprastierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelatie liniar r. Astfel coeficientul de corelatie liniar este:
r = covar(X 0 , Y 0 ) =
covar(X, Y )
sx sy
Coeficientul de corelatie liniara standardizeaza masura dependentei si ne permite sa comparam cat de stransa este dependenta liniara a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelatie liniara adesea poarta denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelatie liniara r n cazul setului de date considerat la nceput
este:
0, 6
r=
= 0, 07
(4, 099) (2, 098)
Pentru ca determinarea coeficientului de corelatie liniara cu ajutorul formulei:
r=
covarX, Y
sx sy
r=p
SS(X) SS(Y )
Aceasta din urma formula evita calculul separat al lui x, y, sx , sy precum si calculul
deviatiilor de la medie.
75
21
Inferent
a privind coeficientul de corelatie liniar
a
Etapa 2.
Etapa 3.
Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea testului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasesc
n urmatorul tabel la intersectia coloanei corespunzatoare valorii lui si a liniei corespunzatoare gradului de libertate df = n 2:
76
0,10
0,988
0,900
0,805
0,729
0,669
0,662
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,360
0,323
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164
0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,381
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195
0,02
1,000
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,445
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230
0,01
1,000
0,980
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,487
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui este dublul valorii lui ce se foloseste n verificarea ipotezelor statistice.
Etapa 4.
Etapa 5.
Neacceptarea ipotezei nule nseamna ca exista o proba a dependentei dintre cele doua
variabile ale populatiei
Mentiune: Aceasta nu nseamn
a c
a am stabilit o relatie de tip cauz
a efect ci
doar o relatie matematic
a care permite s
a se prezic
a comportamentul variabilei
77
2 3
1 5
6
3
8
2
11 12
6 1
avem n = 6, iar r = 0, 07. Intrebarea este daca aceasta valoare a lui r difera de zero n
mod semnificativ daca nivelul de semnificatie este = 0, 02?
Etapa 1.
H0 : = 0
Etapa 2.
H0 : 6= 0
Etapa 3.
Etapa 4.
Etapa 5.
Se accepta H0 .
79
22
Regresie liniar
a
Daca valoarea coeficientului de corelatie liniara r indica o corelatie liniara stransa atunci se
pune problema stabilirii unei relatii numerice exacte. Aceasta relatie exacta este obtinuta
prin regresie liniara.
In general statisticianul cauta o ecuatie care exprima relatia dintre doua variabile. Ecuatia
aleasa este cea mai buna fitare a diagramei de dispersie. Ecuatiile gasite se numesc ecuatii
de predictie, iar n continuare sunt prezentate cateva asemenea ecuatii:
y = b0 + b1 x - liniara
y = a + b x + c x2 - patratica
y = a bx - exponentiala
y = a logb x - logaritmica.
Obiectivul final este ca folosind ecuatii sa se faca predictii. In general valoarea exacta a
variabilei Y nu este prezisa. Ne multumim daca predictia este suficient de apropiata.
Definitia 22.1. Regresia liniar
a stabileste dependenta liniara n medie a lui y n functie
de x.
Vom descrie n continuare cum se stabileste cea mai buna dependenta liniara pentru un
set de date (x, y).
Daca relatia de dependenta liniara pare potrivita, cea mai buna relatie liniara se stabileste
cu metoda celor mai mici patrate.
Sa presupunem ca y = b0 + b1 x este cea P
mai buna relatie liniara. Metoda celor mai mici
patrate cere ca b0 si b1 sa fie astfel ncat (y y)2 sa fie minima.
Din teorema lui Fermat rezulta ca valorile minime ale functiei:
X
F (b0 , b1 ) =
(y b0 b1 x)2
se obtin pentru
P
(x x) (y y)
P
,
b1 =
(x x)2
b0 =
X
1 X
y b1
x
n
SS(x, y)
SS(x)
P
1 X X
1 X 2
x si SS(x, y) =
xy
x
y .
n
n
Mentionam aici ca expresiile SS(x, y) si SS(x) apar si n formula de calcul al coeficientului
de corelatie liniara. De aceea n momentul calcularii lui r putem afla si valoarea pantei
b1 .
unde: SS(x) =
x2
80
Exemplul 22.1. In cazul unui esantion de 10 indivizi consideram urmatorul set de date.
x
y
27 22 15 35 30
30 26 25 42 38
52
40
35
32
55
54
40
50
40
43
919, 0
= 0, 6599 0, 66.
1396, 9
65 65 62
105 125 11
67
120
69
140
65 61
135 95
67
130
81
Pentru a gasi cea mai buna relatie de dependenta liniara calculam SS(x, y) si SS(x) si
gasim:
SS(x, y) = 230, 0 si SS(x) = 48, 875
De aici avem:
230, 0
= 4, 706 4, 71.
48, 875
X i
1 hX
b0 =
y b1
x = 186, 478 186, 5
n
b1 =
de unde:
y = 186, 5 + 4, 71 x
Remarca 22.2. O estimare grosiera a celei mai bune relatii de dependenta liniara se
poate face n felul urmator:
- ca si n cazul aproximarii coeficientului de corelatie r se considera o curba nchisa
n jurul multimii de perechi (x, y);
- diametrul maxim al multimii este o aproximare a graficului de dependenta liniara;
- se scrie ecuatia de dependenta liniara ca ecuatia unei drepte ce trece prin doua
puncte de pe acest diametru;
- ca si n cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita ca
atare.
82
23
Analiz
a de regresie liniar
a
Modelul liniar folosit pentru a explica dependenta liniara a doua variabile referitoare la
aceeasi populatie este definit de ecuatia:
y = 0 + 1 x +
Aceasta ecuatie reprezinta relatia liniara dintre doua variabile x si y ntr-o populatie. In
aceasta relatie:
- 0 este ordonata la origine;
- 1 este panta;
- y este valoarea observata la o valoare data a lui x;
- 0 + x este media lui y pentru valoarea data a lui x
Remarcam ca eroarea depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = 0 + 1 xi + i , i = 1, 2, . . . , n
- este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezinta
deviatia valorii observate y de la medie.
Dreapta de regresie liniara obtinuta y = b0 + b1 x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne da b0 care este o estimare pentru 0 si b1 care este o estimare pentru 1 . Atunci vom
putea scrie yi = b0 + b xi + ei . Erorile sunt estimate prin yi yi care este diferenta
dintre valoarea observata yi si valoarea prezisa yi a lui y la o valoare data a lui x. Fiindca
yi = b0 + b1 xi avem ca:
ei = yi yi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmatoarele proprietati:
e > 0 y > y;
e < 0 y < y;
pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinta a metodei celor mai mici patrate; si astfel media erorilor
n
X
experimentale este zero:
ei = 0.
i=1
83
Daca pentru o valoare data x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala n x pe axa Ox.
O distributie similara apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x si se estimeaza cu y.
Altfel spus, deviatia standard a distributiei datelor y de la medie este aceeasi pentru orice
x:
84
s2
1X
=
(yi yi )2
n i=1
care arata ca varianta erorii este varianta variabilei y n jurul dreptei de regresie.
Varianta erorii s2 poate fi scrisa sub forma:
i
X
1X
1 hX 2
s2 =
(y b0 b1 xi )2 =
yi b0
y b 1 xi y i
n
n
si este o estimare a lui 2
Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companie
doreste sa stie n cat timp poate sa ajunga dimineata cu masina de la locuinta la locul de
munca. Pentru a gasi un raspuns la aceasta ntrebare el ntreaba un numar de 15 colegi la
ce distanta stau de locul de munca si n cat timp ajung la serviciu si ntocmeste urmatorul
tabel de date statistice:
coleg
x - distanta
(n km)
y - timpul
(n min)
10
11
12
13
14
15
10
11
12
12
13
15
15
16
18
19
20
20
20 15
25
17
20
35
26
25
35
32
44
37
45
(184)2
= 358, 9333
15
85
SS(x, y) = 5, 623
b1 =
b0 =
(184) (403)
= 679, 53333
15
358, 9333
= 1, 893202 1, 89
679, 53333
1
[403 (1, 893202) (184)] = 3, 643387 3, 64
15
y = 3, 64 + 1, 89 x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu n functie de distanta x la care locuieste.
Pentru a gasi abaterea standard de la valoarea estimata el va trebui sa calculeze si varianta
s2 . Folosind formulele de calcul el gaseste: s2 = 29, 17.
86
24
Inferent
a referitoare la panta unei drepte de regresie liniar
a
Dupa ce ecuatia dreptei de regresie liniara a fost determinata ne ntrebam cand putem
folosi aceasta ecuatie pentru a prezice valorile variabilei y n functie de x?
Raspunsul la ntrebare l vom da parcurgand procedeul de verificare a ipotezelor statistice.
Inainte de a face inferenta privind dreapta de regresie facem urmatoarele ipoteze:
- pentru fiecare x distributia datelor y observate este aproximativ normala;
- pentru fiecare x varianta distributiei datelor y observate este aceeasi.
Inainte sa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sa analizam distributia pantelor ce se obtin pentru esantioane aleatoare de
marime n. Aceste pante b1 au o distributie aproape normala avand media 1 panta n
cazul populatiei si varianta b21 data de:
b21
2
=P
(x x)2
Un estimator adecvat s2b1 a lui b21 se obtine prin nlocuirea lui 2 cu s2e :
s2b1 = P
s2e
(x x)2
s2e
s2e
P
=P
SS(x)
x ( x)2 /n
Etapa 2.
Etapa 3.
Etapa 4.
s2e
n cazul exemplului considerat
SS(X)
gasim ca valoarea testului statistic este:
Avand n vedere egalitatea s2b1 =
t =
b1 1
1, 89 0
= 6, 629 6, 63
=
sb1
0, 0813
b1 t(n 2; ) sb1
2
In cazul Exemplului 23.1 la nivelul de semnificatie = 0, 05:
p
1, 89 2, 16 0, 0813 = 1, 89 0, 62
capetele intervalului de ncredere sunt 1, 27 si 2, 51.
Deci intervalul de ncredere pentru 1 este (1, 27; 2, 51) la nivelul de semnificatie 0, 05.
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicatii, Editura All, 1995,
Bucuresti
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,
1991,Paris
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lectii de statistica descriptiva, Universitatea de Vest, 1998, Timisoara
[5] Bocsan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,
1995, Timisoara
[6] Yule G. Udny, Kendall, M.G., Introducere n teoria statisticii, Editura Stiintifica,
1969, Bucuresti
89