Sunteți pe pagina 1din 134

X;-x;x;-Xx

xConf.dr. Livia SANGEORZAN


Facultatea de MI
livia.sangeorzan@gmail.com
sangeorzan@unitbv.ro
NOTE DE CURS
BIOSTATISTIC

DR. LIVIA SNGEORZAN

STATISTIC APLICAT
dr.Livia Sngeorzan

CUPRINS
I. INTRODUCERE ..ERROR! BOOKMARK
NOT DEFINED.
II. NOIUNI GENERALE ............ ERROR!
BOOKMARK NOT DEFINED.
III. TEORIA PROBABILITILOR
ERROR! BOOKMARK NOT DEFINED.
1. Cmp de evenimente .. Error! Bookmark not
defined.
2. Clasificarea evenimentelor ................ Error!
Bookmark not defined.
3. Operaii cu evenimente .... Error! Bookmark
not defined.
4. Frecvena....... Error! Bookmark not defined.
5. Probabilitate . Error! Bookmark not defined.
2

STATISTIC APLICAT
dr.Livia Sngeorzan

6. Variabile aleatoare ..... Error! Bookmark not


defined.
6.1. .................. Operaii cu variabile aleatoare
Error! Bookmark not defined.
6.2. .............................................. Valori medii
Error! Bookmark not defined.
6.3. ...... Valori tipice ale variabilelor aleatoare
Error! Bookmark not defined.
Momente .... Error! Bookmark not defined.
Dispersia..... Error! Bookmark not defined.
6.4. ......... Funcia de repartiie a unei variabile
aleatoare X ... Error! Bookmark not defined.
6.5. ................................... Distribuia normal
7
IV.STATISTICA DESCRIPTIVA .............. 9
1. Caracteristica calitativ ...........................14
1.1. Funcia empiric de distribuie F x
..................... Error! Bookmark not defined.
n

STATISTIC APLICAT
dr.Livia Sngeorzan

1.2. Funcia empiric de distribuie


interpolat liniar ..........Error! Bookmark not
defined.
2. Caracteristica cantitativ .......................19
Prima metod .............................................19
A doua metod (gruparea datelor n clase).20
2.1. ....... Analiza statistic a unei caracteristici
cantitative utiliznd prima metod...............20
Reprezentarea box-and-whisker plot ..........29
2.2. ....... Analiza statistic a unei caracteristici
cantitative utiliznd a doua metod .............32
Gruparea pe clase .......................................32
a) lungimi de clas diferite..........................36
b) lungimi de clas egale ...........................37
3. Mrimile medii........................................39
3.1. .................... Clasificarea mrimilor medii
40
Media aritmetic ........................................41
Mediana .....................................................42
4

STATISTIC APLICAT
dr.Livia Sngeorzan

Modulul ......................................................47
Relaia dintre media aritmetic, modul i
median ......................................................49
3.2 ..................................... Indicatorii variaiei
50
4. Masurarea tendintei centrale i a variaiei
54
5 Conceptul de baza ale tehnicilor statistice
56
5.1 .............................. Asimetria ( Skewness)
58
5.2 ......................................Boltirea (Kurtosis)
58
5.3 ..................... Funciile tehniciilor statistice
59
5.4 ....................................... Metode statistice
59
6. Interval de siguran ...............................60
5

STATISTIC APLICAT
dr.Livia Sngeorzan

6.1 ................................. Prag de semnificaie.


61
6.2 . Comparaia statistic, ipoteza nul, testul
de semnificaie. ............................................62
Ipoteza nul ................................................62
DISTRIBUTIA NORMALA ......................77
DISTRIBUTIA t .........................................84
ANALIZ EXPLORATORIE .............. Error!
Bookmark not defined.
VI.6.1.2 ............................ Testul t Student.
Error! Bookmark not defined.
Estimaia mediei aritmetice. ............... Error!
Bookmark not defined.
VI.6.1.3..... Probleme de comparaie statistic
Error! Bookmark not defined.
BIBLIOGRAFIE ................................... 133

STATISTIC APLICAT
dr.Livia Sngeorzan

Distribuia normal
O repartitie deosebit de importanta e repartiia
normal (lege sau distribuie normal) care se
definete astfel: .
Fie X o variabila aleatoare continu, x (,+) i avnd densitatea de repartiie
f(x)=

1
2

*e

( x m )2
2 2

unde:
m - valoarea medie a variabilei aleatoare X
- dispersia variabilei aleatoare X
Funcia f(x) are forma unui clopt (clopotul lui
Gauss).
1. Daca m=0 atunci legea normal se spune
c este centrat;
7

STATISTIC APLICAT
dr.Livia Sngeorzan

2. m=0, =1 se spune c legea normal e


redus sau normalizat i n acest caz
densitatea de repartiie are forma de mai
jos:
f(x) =

1
2

*e

x2
2

Curba ce reprezinta densitatea de probabilitate


are urmatoarele caracteristici
1.Are un maxim n X=m
2.Are puncte de inflexiune n X=m
3.Este simetric fa de x=m
4.Axa OX e asimptot
5.Aria de sub curb are valoarea 1

STATISTIC APLICAT
dr.Livia Sngeorzan

IV. Statistica descriptiva


Scopul statisticii descriptive este:
1. reprezentarea datelor sub forma de
diagrame(bastonase,
pie(plcint),
boxplot,etc.);
2. calcularea unor mrimi speciale(ex.:
medii, dispersii, etc.);
3. reducerea datelor(mprirea datelor n
clase).
Vom numi populaie statistc orice mulime
care formeaz obiectul unei analize statistice.
Elementele unei populaii statistice se numesc
uniti statistice sau indivizi.
Trstura comun tuturor unitilor unei
populaii care ne intereseaz n cadrul unei
analize statistice se numete catracteristic.
9

STATISTIC APLICAT
dr.Livia Sngeorzan

Tipuri de caracteristici

calitative

cantitative

nominal
ordinal
discret
continuu
Fig.1 Prezentarea arborescen a tipurilor de
caracteristici
Exemple:
Caracteristici calitative
indicarea tipurilor fr utilizarea unei
numerotri;

10

STATISTIC APLICAT
dr.Livia Sngeorzan

exprimarea verbal a tipurilor unor


caracteristici calitative; ex:cel mic, ru,
suficient, eventual, etc.;
Caracteristica nominal
rspuns: da , nu
caracteristica binar:1,0
confesiune :ortodox,catolic
Caracteristica ordinal
tipurile pot fi diferite ntre ele i pot fi puse
ntr-o ordine de rang (scala rang sau scala
ordinal),
ex:foarte
bun,bun,mulumitoare ...
Caracteristica cantitativ
tipurile caracteristicilor sunt aici numere;
scala tipurilor este din domeniul numerelor
reale .
11

STATISTIC APLICAT
dr.Livia Sngeorzan

Caracteristica continu
toate valorile X sunt dintr-un interval de
nume reale.
Caracteristica discret
tipurile caracteristicilor sunt valori finite
sau numrabile, ex:numrare (numrul de
studeni dintr-o universitate)

Exemplu
Bifai caracteristicilor din tabelul de mai jos
tipul corespunztor:
calitativ
cantativ
Caracteristi nomin ordina
disc
c
al
l
continu ret

Lungime
X
drum
Ani
de
X
12

STATISTIC APLICAT
dr.Livia Sngeorzan

studiu
Alegere
meserie
Religie

X
X

Retribuie
X
Durata de
via a unei
maini
Lungimea
firului de
pr

Feele unui
zar
Vrsta

X
X

Numr
telefon

X
13

STATISTIC APLICAT
dr.Livia Sngeorzan

Tab.2 Exemple de tipuri de caracteristici


1. Caracteristica calitativ
tipuri ale caracteristicii caltitative i
x , x ,........x ; k n , valori luate de acestea i unde n
reprezinta frecvena absolut, adica numrul
de uniti statistici (sau indivizi) pe care i
studiem.
Fie
1

A1 , A2, ....... Ak
n

n ni
i 1

Reprezentarea datelor x1 ,...,xn se poate face


sub form de:
i)reprezentarea n batoane (bastonae);
ii)diagrama prin forme geometrice 3D
(prisme, paralelipipede, cilindrii, etc. );
iii)diagrama circular(sector de cerc , pie);
iv)boxplot.
14

STATISTIC APLICAT
dr.Livia Sngeorzan

Notaii:
Frecvena absolut a tipului de
caracteristic calitativ se noteaz cu ni,
adic numrul absolut de elemente
corespunztoare lui Ai ;
Frecvena relativ hi := h nn , cu 0hi1;
Frecvena procentual P:=hi100

Exemplu:
Fie o populaie statistic format din 10 uniti
statistice ( indivizi).Populaia este format din
indivizi cu o anumit culoare a pielii i anume:
alb, galben, roie i neagr.
S se studieze aceast caracteristic calitativ.
Avem 4 tipuri ale caracteristicii cantitative
reprezentand culoarea pielii:
15

STATISTIC APLICAT
dr.Livia Sngeorzan

A1 alb
A2 galben
A3 rosu

x1

x2

x3

x4

x5

x6

x7

x8

x 9 x10

A4 negru

Pentru valorile date vom ntocmi un tabel


(Tab.3) si vom reprezenta grafic valorile din
tabel.

Tabelul (Tab.3) pentru aceste valori arat


astfel:

16

STATISTIC APLICAT
dr.Livia Sngeorzan

ni

(a) 4

A1 alb

(1)
A2 galben

(g) 2

(2)
A3 rosu

(r)

(3)
A4 negru

(4)

(n) 3

hi

=
0,4
2 =
10
0,2
1 =
10
0,1
3 =
10
0,3
1

40%

10

20%
10%
30%

1
100
0
%
Tab.3
Organizarea datelor calitative ntr-un tabel
Observaie : Din tabelul 3 putem citi c 40%
din populaia statistic are culoare alb.
Reprezentarea grafica a datelor din tabelul 3
poate fi unul dintre graficele de mai jos
Diagrama sub forma de "pie"(placinta)

0.3

0.4

17

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.1 Reprezentarea grafic a datelor


din Tab.3
18

STATISTIC APLICAT
dr.Livia Sngeorzan

2. Caracteristica cantitativ
Fie o caracteristic cantitativ pentru care se
dau x , x ......x valori obinute printr-o msurare.
Exemplu de caracteristic cantitativ X poate
fi :greutatea, nlimea, salt n lungime, venit,
etc.
1

Datele observate se vor ordona cresctor, astfel


vom obine un ir ordonat cresctor de forma:
x(1)x(2)...x(n-1)x(n)
x(i) := o valoare observat.
Studiul acestei caracteristici cantitative se
poate face prin dou metode.
Prima metod
1. Ordonm irul cresctor.
19

STATISTIC APLICAT
dr.Livia Sngeorzan

2. Se face o reprezentare a datelor utiliznd


frecvena relativ. Se reprezint frecvena
relativ pe axa OY (aa cum am fcut
reprezentarea n cazul caracteristicii
calitative).
A doua metod (gruparea datelor n clase)
1. Ordonam irul cresctor;
2. Se face o grupare a datelor n clase.
2.1. Analiza
statistic
a
unei
caracteristici cantitative utiliznd prima
metod
Fie un ir de date a unei caracteristici
cantitative i avnd urmtoarele valori:
500 1000 1200 1300 800 1200
1000 900 1500

700
20

STATISTIC APLICAT
dr.Livia Sngeorzan

x 1
x 2
x 3
x10
700
800
800
900
900
900
1000
x11
.. x17
Etape de lucru :
1. Ordonm irul n mod cresctor
500 700 700 800 800 800
900 900 900
x(1)
x(2) x(3) x(4)
x(5)
x(6)
x(8)
x(9)
x(10)
1000
1300
x(11)
x(16)

1000
1500
x(12)
x(17)

900
x(7)

1000

1200

1200

x(13)

x(14)

x(15)

21

STATISTIC APLICAT
dr.Livia Sngeorzan

Datele le vom trece n tabelul 4 de mai jos


P(X<=700)=3/17
Date
ni
hi
de
frecven frecven
intrar a
a
e
absolut relativ

Fn(x)=h1+
h2+...+hi
Sume
pariale Si

500

1/17

1/17

700

2/17

3/17

800

3/17

6/17

900

4/17

10/17

1000

3/17

13/17

1200

2/70

15/17
22

STATISTIC APLICAT
dr.Livia Sngeorzan

1300

1/70

16/17

1500

1/17

17/17

17
1

Tab. 4 Organizarea datelor cantitative ntrun tabel


Interpretare
Din tabelul 4 putem citi urmtoarea
probabilitate i anume ca variabila
aleatoare X s ia valori mai mici sau
egale cu 700 este definit astfel :
P( X 700)

3
0,1764 17,64%
17

Astfel, putem spune c, 17,64% din


totalul valorilor de 17 sunt mai mici
sau agale cu 700. Calculm urmtoarea
expresie: 0,1764*17 = 2,99 adic 3
23

STATISTIC APLICAT
dr.Livia Sngeorzan

valori , ceea ce este i adevrat dac


analizm tabelul 4.

Fig.2
Funcia
distribuie a datelor din tab.4

empiric

de

24

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.3 Reprezentarea datelor din tab.4 sub


form de bastonae i paralelipiped

25

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.4 Reprezentarea datelor din tab.4 sub


form de diagram pie
Statistica sumar folosind MedCalc
reprezentarea Box-plot a datelor din tab.4

cu

26

STATISTIC APLICAT
dr.Livia Sngeorzan

JG6P63NBNX7T2JTA128NSZK3ACX4INFZ
MU17GWKBTH5JLOUZMSKANXDNX92U
HKG8LUP42JNOBHKL21
Fig.5 Statistica sumar i reprezentarea datelor
din tab.4 sub form box-plot

27

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.6

Datele din tab.4 i Summary statistics


pentru reprezentarea sub form de
histogram

28

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.7 Histograma datelor din fig.6 (am


folosit 4 clase i nu 9)
Reprezentarea box-and-whisker plot
Reprezentarea datelor sub form de box-andwhisker plot este un grafic exploratoriu ce a
fost creat de John W. Tukey i folosit pentru
a prezenta distribuia unui set de date.
In cele 2 figuri (fig.8 i fig.9) sunt prezentate
modul de interpretare a graficului box-plot.
29

STATISTIC APLICAT
dr.Livia Sngeorzan

Fig.8 prezint o reprezentare concret i


anume referitoare la numrul de caractere din
50 de eMailuri. Fig.9 prezint modul de
interpretare a unei reprezentri box-plot.
Aceast reprezentare este o reprezentare tipic
pentru domeniul statisticii.

Fig. 8. Reprezentarea box-plot a numrului de


caractere citite n 50 de eMailuri
30

STATISTIC APLICAT
dr.Livia Sngeorzan

[David M. Diez, Christopher D Barr, Mine


Cetinkaya-Rundel,
OpenIntro
Statistics,
Second
Edition,
June
2013,
http://openintro.org]

Fig. 9 Interpretarea reprezentrii boxplot


[http://flowingdata.com/2008/02/15/howto-read-and-use-a-box-and-whisker-plot/ ]

31

STATISTIC APLICAT
dr.Livia Sngeorzan

2.2. Analiza
statistic
a
unei
caracteristici cantitative utiliznd a
doua metod
Gruparea pe clase
Fie un interval [a,b]. Presupunem c toate
valorie variabilei cantitative se afl n
intervalul [a, b] adic x [a, b] , i=1...n.
Discretizarea ( = Gruparea datelor pe clase)
intervalului a,b=e0,ek,cu ei-1xei:
i

a e0
ei 1

e1

.. e
A1

e3

e2
k 1

.. e

ei

i 1

ek b

A2

Ai

Ai 1

Ak

unde
n numrul de uniti statistice;

32

STATISTIC APLICAT
dr.Livia Sngeorzan

este inceputul intervalului;


e b este sfritul intervalului;
k este numarul de clase pentru n uniti
statistice care poate fi stabilit astfel:
k = 4(0,75(n-1))1/5 , se utilizeaz
pentru n>250;
k=1+3,322 lgn ;
k=[n/5] formula lui Hahn
Shapiro
dac n<250 se recomand 10 clase
A este clasa i ;
ni numrul de uniti statistice a clasei A ;
h este frecventa relativ pentru clasa i ;
d lungime clasei care se poate determina
astfel
a e0
k

di = (b a ) / (1 + 3,322 lgn )( relaia


Sturgers) lg este logaritm n baza 10 ;
33

STATISTIC APLICAT
dr.Livia Sngeorzan

ki

pentru clase echidistante


h
nlimea
reprezinta
d
i

ba
k

;
clasei

de

histogram;
Datele astfel grupate pot fi trecute ntr-un table
conform tabelului de mai jos
Cl Inter Mijl Frec
asa val ocul vena
i de inter absol
clas valu ut
Ai (ei- lui ni
1,ei i
A1 e0,e1 1
)
A2
2
[e1,e2
. )
.

Frec
ven
a
relat
iv
hi

Lun
gim
e
clas

Fn
Funci
a de
distrib
uie
h1
h1+ h2

n1

h1

d1

n2

h2

d2

.
34

STATISTIC APLICAT
dr.Livia Sngeorzan

Ak .

nk

hk

h1+
h2+
+ hk
1

dk

[ek1,ek

Not :
Mijlocul intervalului
calculeaz astfel: i = (ei-1+ei)/2.
Aplicaie :
Fie urmtoarele valori:
500 700 700 800
900 900 900

800

800

se

900

35

STATISTIC APLICAT
dr.Livia Sngeorzan

x(1)
x(8)
1000
1300
x(11)
x(16)

x(2) x(3)
x(9)
x(10)

x(4)

x(5)

x(6)

x(7)

1000
1500
x(12)
x(17)

1000

1200

1200

x(13)

x(14)

x(15)

Alegem numrul de clase k=4.


a) lungimi de clas diferite
Interva Frecve Frecv Li
Clasa lul de na
ena mea
clas
absolu relati clase
i
(eit
v
i
hi
di
1,ei

500,7 3

3/17 200

nli
mea
coloa
nei
ki

0,000
36

STATISTIC APLICAT
dr.Livia Sngeorzan

882

00
2
3
4

6
(700,9
5
00
(900,1
3
200
(1200,
1500

6/17 200
5/17 300
3/17 300

0,001
765
0,000
983
0,000
588

17

1000

b) lungimi de clas egale


Clase echidistante de = (b-a)/k , unde: a :=
nceput interval
Interv Frecve Frec Li
Clas al de na
vena me ki
37

STATISTIC APLICAT
dr.Livia Sngeorzan

a
i
1
2
3
4

clas absolu relati clas


(ei-1,ei t ni v
hi
di
500,7
50)
[750,1
000)
[1000,
1250)
[1250,
1500]

3/17 250

7/17 250

5/17 250

2/17 250

17

0.00
08
0.00
16
0.00
12
0.00
05

100
0

Observaie
n cazul n care nu se indic numrul de clase
este util a se alege ntre 3 si 5 clase.
38

STATISTIC APLICAT
dr.Livia Sngeorzan

Dac k este foarte mare frecvena absolut


devine foarte mic!
3. Mrimile medii
Mrimile medii sunt instrumente statistice.
Aceste mrimi exprim n mod sintetic i
generalizat cea ce este :
normal;
esenial
general
n evoluia fenomenelor.
Media sintetizeaz normalul i ocup poziie
central spre care tind unitile unei
colectiviti. Media mai poart denumirea de
speran matematic.

39

STATISTIC APLICAT
dr.Livia Sngeorzan

3.1.
Clasificarea mrimilor medii
Clasificarea mrimilor medii se face n funcie
de rolul pe care l au n analiza statistic i
dup modul de obinere a lor (E.Jaba, 1998) :
dup modul lor n analiza statistic :
o mrimi medii fundamentale: media
aritmetic, modul, mediana
o mrimi medii cu aplicaii speciale:
media geometric, media armonic,
media ptratic, media progresiv,
media cronologic, medii mobile;
dup modul de obinere pot fi :
o mrimi medii de calcul: media
aritmetic, media geometric, media
armonic;
o medii de poziii: modul, mediana,
mediala.
1.

2.

40

STATISTIC APLICAT
dr.Livia Sngeorzan

Media aritmetic
Este cea mai utilizat form i se folosete
cnd fenomenul supus cercetrii nregistreaz
modificri aproximativ constante.
Media aritmetic este de dou feluri : simpl i
ponderat.
(i) Media aritmetic simpl:
x i 1 xi ,
n

i 1,..., n

unde : n-numrul de observaii:


Exemplu: media aritmetic a unui ir
x
=
(500+700+800+900+1000+1000+1200+1200+
1300+1500)/10
x = 1010
(ii)Media aritmetic ponderat xp
n
n ni

xp
i xi ,
i 1 n xi
i 1

n
i 1

i 1

unde:
41

STATISTIC APLICAT
dr.Livia Sngeorzan

n-numrul de observaii:x1,x2,...,xn
n ponderi:1,2,...,n.
Mediana
Mediana este termenul din mijlocul irului,
ordonat cresctor. Dac irul are numr par de
elemente, mediana este media aritmetic a
celor doi termini din mijlocul irului.
Mediana prezint unele avantaje fa de medie,
i anume :
aceasta nu este afectat de fluctoaiile
seleciei;
ea se poate determin graphic prin
construirea
curbei
frevenelor
cumulate,
iar
din
punctul
corespunztor lui (ni +1 )/0.5
coborm o perpendiculare pe abscis
unde se afl mediana. Se mai poate
construi ogiva frecvenelor, din al crei

42

STATISTIC APLICAT
dr.Livia Sngeorzan

punct de intersecie coborm o


perpendicular pe abscis i aflm
valoarea medianei.
Exemplu
n=17,
500 700 700 800 800 800
900
900 900 900
1000 1000
1000
1200
1200
1300
1500
mediana = 900

43

STATISTIC APLICAT
dr.Livia Sngeorzan

Mediana pentru date grupate se calculeaza


dup formula de mai jos :
Mediana

n
( (f )1 ) c
L1 2
f median

unde :
L1 valoare de nceput al intervalului n care
se afl mediana
n - numrul total de uniti statistice
44

STATISTIC APLICAT
dr.Livia Sngeorzan

(f)1 suma frecvenelor , a tutoror claselor


mai mici dect clasa ce include mediana
fmedian - frecvena clasei n care se afl
mediana
c - lungimea intervalului de clas a
medianei.
Fie exemplu de mai sus mprit pe clase
conform tabelului de mai jos :

Vom calcula mediana din tablel astfel:


1. avem 17 valori, deci mediana se afla la
mijlocul irului , deci pe poziia 9, caut
clasa in care sunt 9 elemente
2. clasa medianei este [750, 1000] ,
deoarece 7+3=10
45

STATISTIC APLICAT
dr.Livia Sngeorzan

3.
4.
5.
6.
7.

L1 = 750
n = 17
(f)1= 3
fmedian= 7
c=250

Mediana =

750

(8,5 3) 250
982,14
7

Exemplu: Reprezentarea mediei aritmetice i


a medianei ntr-o histogram i n
reprezentarea box-plot. [David M. Diez,
Christopher D Barr, Mine Cetinkaya-Rundel,
OpenIntro Statistics, Second Edition, June
2013, http://openintro.org]

46

STATISTIC APLICAT
dr.Livia Sngeorzan

Modulul
Modulul este valoarea cu frecvena cea mai
mare. Fie un ir cu n=17 uniti statistice i
anume
500 700 700 800 800 800 900 900
900 900
1000 1000
1000
1200
1200
1300
1500
Modulul este valoarea 900 deoarece apare de 4
ori.
Modulul pentru date grupate se calculeaza
dup formula de mai jos :
47

STATISTIC APLICAT
dr.Livia Sngeorzan

Modulul L
1

1 c
1 2

unde :
L1 valoare de nceput al intervalului n care
se afl modulul
n - numrul total de uniti statistice
1 diferena dintre frecvena clasei n care
se afl modulul i frecvena clasei inferioar
acesteia
2 diferena dintre frecvena clasei n care
se afl modulul i frecvena clasei superioare
acesteia
c - lungimea intervalului de clas a
medianei.
Fie exemplu de mai sus mprit pe clase
conform tabelului de mai jos :

48

STATISTIC APLICAT
dr.Livia Sngeorzan

Vom calcula mediana din table astfel:


1. clasa cu frecvea cea mai mare este [750,
1000) , aceasta este clasa modulului;
2. L1 = 750
3. 1 = 7-3= 4
4. 2 = 7-5= 2
5. c = 250
Modulul =

750

4 250
916,66
42

Relaia dintre media aritmetic, modul i


median
Media aritmetic Modul = 3 ( Media
aritmetic Median)
49

STATISTIC APLICAT
dr.Livia Sngeorzan

3.2 Indicatorii variaiei


Indicatorii statistici ai variaiei sunt ntlnii n
literatura de specialitate i sub denumirea
indicatori ai mprtierii sau ai dispersiei.
Dispersia exprim gradul de mprtiere a
valorilor individuale ale unei distribuii n jurul
valorii centrale i este datorat influenei
factorilor aleatori.
Indicatorii de variaie aduc un plus de
informare asupra:
verificarea reprezentativitii mediei ca
valoare tipic a unei serii de repartiie
verificarea gradului de omogenitate a
seriei;
comparri n timp sau spaiu a mai multor
serii de repartiie dup caracteristrici
independente sau interdependente;
cunoaterii gradului de influen a cauzelor
eseniale de cauzele ntmpltoare.

50

STATISTIC APLICAT
dr.Livia Sngeorzan

Dup gradul de generalitate se disting :


indicatori simplii ai variaiei:
Amplitudinea absolut a varianei (A)
este diferena dintre valoarea
maxim i valoarea minim a seriei
A = xmax xmin;
Amplitudinea relativ a varianei (A%)
se exprim n coefficient sau n
procente i este raportul dintre
amplitudinea absolut a variaiei i
valoarea medie A% media Aaritmetica 100

Abaterile individuale absolute di= xi


media aritmetic
Abaterile
individuale
relative
di %

media

di
100
aritmetica

indicatori sintetici ai variaiei (ai


mprtierii) caracterizeaz gradul de
variaie, lund n considerare toi termenii
seriei:
51

STATISTIC APLICAT
dr.Livia Sngeorzan

abaterea mediei

d ml i 1
n

| xi media

aritmetica |
n

deviaia standard (abaterea medie


ptratic) , este radical din dispersie
dispersia
(variana)
( x media
aritmetica ) n
;

2

n
i 1

ni
i 1

coeficientul de variaie
(V) se
calculeaz ca raport procentual ntre
abaterea medie liniar sau abaterea
medie ptratic i media aritmetic :
d
V
100 ;
media
aritmetica
ml

media

aritmetica

100

Coeficientul de variaie arat cte


uniti din abaterea medie liniar sau
din cea ptratic revin la 100 de uniti
de medie.Coeficientul de variaie poate
lua valori cuprinse ntre 0 100
%.Dac coeficientul de variaie tinde
52

STATISTIC APLICAT
dr.Livia Sngeorzan

spre zero, se consider o variaie slab,


o colectivitate omogen i o medie cu
un grad ridicat de reprezentativitate.
Dac coeficientul de variaie tinde apre
100%, se consider o variaie intens, o
colectivitate eterogen i o medie cu un
grad redus de reprezentativitate. Putem
stabili
urmtoarele
praguri
de
semnificaie:
0%
< V < 17% media este strict
reprezentativ (omogenitate mare);
17%<V < 35% media este moderat
reprezentativ (puin omogen);
35%< V < 50% media
este
reprezentativ n sens larg (mai puin
omogen) ;
V>50% media nereprezentativ (lips
de omogenitate).
o

53

STATISTIC APLICAT
dr.Livia Sngeorzan

4. Masurarea tendintei centrale i a


variaiei
Cnd avem un ir de date i dorim s folosim
un singur numr pentru a reprezenta tot irul.
Acest numr este media aritmetic, mediana
sau modulul.
In interiorul irului de date fiecare rezultat
individual va fi diferit ntr-un anumit grad fa
de tendina central. Gradul de diferen este
egal cu variabilitatea datei respective.
Termeni care descriu variabilitatea sunt :
- abaterea standard (radical din dispersie)
- dispersia (momentul centrat de ordinul n)
Tendina central a datelor : media(
aritmetica,mediana sau modulul)
Variabilitatea datelor din punct de vedere
statistic, abaterea standard se calculeaz astfel
54

STATISTIC APLICAT
dr.Livia Sngeorzan

s=

( X m)
1

n 1

(abaterea standard experimentala)

Media si abaterea standard reprezint


descriptori de date pentru un ir de date.
Daca abaterea standard e mare media nu e
buna pentru reprezentarea sirului respectiv.
_
_
Aproximativ 68% dintre valori trebuie s se
gseasc n intervalul [x-s , x + s].
_
_
Aproximativ 95% dintre valori trebuie s se
gseasc n intervalul [x-2s , x + 2s].
_
_
Aproximativ 99% dintre valori trebuie s se
gseasc n intervalul [x-3s , x + 3s].
In cazul unei aprecieri, mediana si media pot fi
utilizate mpreuna. Dac mediana, modulul i
55

STATISTIC APLICAT
dr.Livia Sngeorzan

media aritmetic sunt identice atunci irul


urmeaz legea normal care se noteaz N(,
) .
eroare standard (SE), variabilitatea din
cadrul eantioanelor de aceiai dimensiune se
numete eroare standard.
s
SE
,
n

unde
s este abaterea standard al eantionului
n studiu;
n este mrimea eantionului.
5 Conceptul de baza ale tehnicilor
statistice
Metode statistice:
Exista dou categorii de teste statistice i
anume :

56

STATISTIC APLICAT
dr.Livia Sngeorzan

1. teste statistice parametrice care presupun


2 condiii importante privind distribuia
datelor:
a. populaia din care este eantionul e
distribuit normal
b. eantionul selectat din populaia
respectiv trebuie s aib aceiai
varian a variabilei de interes
2. teste statistice neparametrice fr
distribuie (nu indeplinesc cele 2
condiii). In cazul n care cele dou
condiii de mai sus, sunt ndeplinite, sunt
preferate testele statistice parametrice,
deoarece sunt mai stabile, ceea ce
nseamn creterea ansei de a respinge o
fals ipoteza nul.

57

STATISTIC APLICAT
dr.Livia Sngeorzan

Cele dou condiii enunate pentru testele


parametrice pot fi verificate prin estimarea
asimetriei i boltirii curbei normale.
5.1 Asimetria ( Skewness)
Asimetria distribuiei descrie direcia n care e
deplasat cocoaa curbei de distribuiei fa de
mijloc i natura cozilor acesteia.
Cnd cocoaa e deplasat la stnga i coada
lunga e la dreapta rezulta asimetrie pozitiv
(+) in caz contrar asimetrie negativ (-).
5.2 Boltirea (Kurtosis)
Boltirea este dat de panta curbei de
distribuie. Boltirea sau excesul, este deci o
msur a formei serii sau distribuiei de valori,
care msoar nlimea aplatizrii (sau botiri)
unei distribuii n comparaie cu o distribuie
normal.
58

STATISTIC APLICAT
dr.Livia Sngeorzan

Aceasta poate fi ascuit sau plat. Cnd media


se gsete n centrul distribuiei (z=0) 50%
din distribuie e deasupra mediei.
5.3 Funciile tehniciilor statistice
Tehniciile statistice in general raspund la dou
intrebari:
- efectul sau relaia pe care dorim s le
studiem sunt valabile (dac experimentul se
va repeta se vor gasi aceleai rezultate)
- ct de important e efectul de care suntem
interesati
Importana unei relatii nu e interesant pn
cnd nu dovedim c ea e semnificativ.
5.4 Metode statistice
Metodele statistice sunt grupate in doua
categori:

59

STATISTIC APLICAT
dr.Livia Sngeorzan

-metode statistice pentru o testa relaii


ntre mai multe variabile dintr-un grup de
subieci (regresia,corelaia)
-metodei studiate pentru a analiza
diferene dintr-un grup de subieci (testul t
si analiza de varian).
6.
Interval de siguran
Estimaia unui parametru al populaiei nu este
punctiform. Nu se poate afirma c acest
parametru are o valoare i numai una. Nu se
poate determina cu siguran absolut c media
populaiei este M. Se poate determina doar un
interval, n care media M poate lua valori cu o
probabilitate dat. Adic, aceast medie M , nu
este mai mic dect o limit superioar Msup i
nu este mai mare dect o limit inferioar Minf.

60

STATISTIC APLICAT
dr.Livia Sngeorzan

Acest interval (Minf , Msup) se numete


interval de siguran.
6.1
Prag de semnificaie.
De fiecare dat intervalul de siguran este
legat de o probabilitate. Putem spune c media
M se afl n intervalul (Minf, Msup) cu o
probabilitate de 95%. Acest lucru nseamn c
fcnd un numr mare de extraii de eantioane
din populaia respectiv, n 95% din cazuri
media se afl n acel interval de siguran i
numai n 5% din cazuri riscm s greim.
Aceast probabilitate de a greii se numete
prag de semnificaie.
Cu ct pragul de semnificaie este mare cu att
mai mare este riscul de a grei i invers.

61

STATISTIC APLICAT
dr.Livia Sngeorzan

6.2
Comparaia statistic, ipoteza
nul, testul de semnificaie.
In practic se pune problema de a face
comparaie ntre
doi parametrii ( un parametru i valoarea
lui admis teoretic);
dou distribuii de frecven;
aciunea unui factor nainte i dup ;
etc.

In cazul comparaiei situaiei nainte i dup


aciunea unui factor , se rezolv prin ipoteza
nul.
Ipoteza nul
Presupunem c dou
aceiai populaie i
parametrii lor se
extragerii acestora, dar
este nul.

eantioane provin din


c diferena dintre
datorete ntmplrii
c n realitate diferena

62

STATISTIC APLICAT
dr.Livia Sngeorzan

In cercetarea statistica testul e raportat la o


tabel de probabilitate pentru a stabili ansele
ca rezultatul la care s-a ajuns sa fie datorat
ntmplri.
Inainte s se nceap studiul se stabilete un
nivel acceptabil al probabiliti de apariii
neateptate (). Acest nivel poate oscila dar
nu poate fi ignorat.
Pentru orice studiu sau cercetare exist
totdeauna probabilitatea ca rezultatele s se
datoreze ntmplri.
Probabilitatea de apariie ntmpltoare e
ales 0,05 sau 0,01, adica ansa ca apariia s
se datoreze ntmplrii este 5 % sau 1%.
Valorile lui sunt folosite pentru a controla
erorile de tip I.
Intr-un studiu se pot face doua tipuri de erori :
63

STATISTIC APLICAT
dr.Livia Sngeorzan

- tipI este de a respinge ipoteza nula cand


ea este adevarata
- tipII este de a accepta ipoteza nula cand
ea este falsa
Decizia corect e acceptarea ipotezei nule
adevarate sau respingerea uneia false.
Pentru evitarea erorilor de tipI trebuie s se
fac un control prin modul de alegere a lui .
In practic se respect urmtoarele valori:
1. dac probabilitatea este mai mare de 0,05
(5%) ipoteza este aceptat, diferena
este nesemnificativ;
2. dac probabilitatea este mai mic de 0,01
(1%) ipoteza se respinge, diferena este
semnificativ;
3. dac probabilitatea este curins ntre 0,01
i 0,05 atunci situaia este ndoielnic.
64

STATISTIC APLICAT
dr.Livia Sngeorzan

Cercetri ulterioare, prin mrirea


numrului de date, pot clarifica situaia.
Exemplu IPOTEZA NULA Interval de
ncredere pentru o medie aritmetic
Fie un eantion format din 50 de studeni
dintr-un colegiu. Acetia au fost ntrebai n
cte relaii exclusive de prientenie sunt
implicai. In urma chestionrii a acestora s-a
constat c au n medie 3,2 relaii de prietenie
exclusive cu o abatere standard de 1,74. S-a
constata c distribuia este uor asimetric
spre stnga . S se determine valoare medie a
relaiilor exclusive de prietenie adevrate
bazndu-ne pe acest eantion i folosind un
interval de ncredere de 95%.
Avem urmtoarele informaii:
n 50; x 3,2; s 1,74; SE 0,246
65

STATISTIC APLICAT
dr.Livia Sngeorzan

S se determine
1) intervalul de ncredere de 95% a
mediei aritmetice ;
2) probabilitatea p, n ipoteza nul i
alternativ .
P( X 3,2 | H 0 : 3)

Soluie :
1) n=50 ; s=1,74 ; x 3,2 ;
Calculm SE astfel SE

s
1,74

0,246
n
50

Determinm intervalul de ncredere de


95% pentru media aritmetic astfel :
IntervalDeIncredere95% x z * SE 3,2 1,96 (0,246) 3,2 0,48 (2,72 ; 3,46)

66

STATISTIC APLICAT
dr.Livia Sngeorzan

Obs.

95% are z*=1,96


90% are z*=1,65
99% are z*=2,58

Interpretare: Suntem 95% siguri c


studenii n medie sunt n relaii de
prietenie exclusive de la 2,72 la 3,46.
Determinarea valorii critice pentru
95% ncredere :

67

STATISTIC APLICAT
dr.Livia Sngeorzan

Valoarea 1,96 (valoarea critic pt.


ncrederea de 95%) se poate obine n
dou moduri :
utiliznd B1 Normal Probability
Tables i anume astfel se caut n
tabel valoarea 0,025 dup care pe
linia i coloana respectiv se citete
valoarea corespunztoare, adic n
acest caz -1,9 ;
se folosete funcia qnorm() din R n
care ca i parametru se introduce
0,025 (pt. exemplu dat mai sus),
adic qnorm(0.025).
Determinm p utiliznd SE, astfel
efectum urmtorii pai :
Calculm
3
0,81
a) Z xSE 30,,2246

b)

p P(Z 0,81) 1 0,7910 0,209

Not :
68

STATISTIC APLICAT
dr.Livia Sngeorzan

P(Z 3,50) 0,0002

P(Z 3,50) 0,9998

Valoarea de 0,209 se determin utiliznd


tabelul statistic B1 Normal Probability
Tables i proprietile disribuiei normale.
Deoarece aceast valoare p este mare dect
0,05 atunci NU PUTEM RESPINGE
IPOTEZA NULA .
Interpretare: In fapt, studenii au fost
n medie, n 3 relaii de prietenie
exclusive i c exist 21% anse ca un
eantion ales la ntmplare de
dimensiune 50 s aib o medie aritmetic
de 3,2 sau chiar mai mare de 3,2. Putem
spune c aceast medie aritmetic de 3,2
sau chiar mai mare de 3,2 se datoreaz
ansei sau variabilitii eantionului.
69

STATISTIC APLICAT
dr.Livia Sngeorzan

Obs. S calculm
p P( X 3,2 OR X 2,8 | H 0 : 3) P(Z 0,81) P(Z 0.81) 0,209 0,209 0,418

Exemplu IPOTEZA NULA Interval de


ncredere pentru dou medii care sunt
pereche
Exemplu 1
Au fost selectti 200 de subieci dintr-un
liceu. Aceti studeni au fost testai privind
citirea i scrierea. Se pune ntrebarea dac
scorul ntre distribuia de citire i scriere sunt
similare i cum sunt diferite.
Dac avem cu dou seturi de observaii care
au o anumit corespondena (nu indepentente)
spunem ca SUNT
PERECHE.
In analiza acestor date
pereche vom face
70

STATISTIC APLICAT
dr.Livia Sngeorzan

diferena ntre valorile observate pentru


fiecare subiect, n cazul nostru avem diff =
read write.

IntervalDeIncredere95% x diff z * SEdiff x diff z *


0.545 1,96 0,628 (1,78

SEdiff

sdiff
ndiff

sdiff
ndiff

0,69)

8,887
0,6284
200

Se analizeaz ipoteza H0 i HA, concluzia este


dat mai jos.
71

STATISTIC APLICAT
dr.Livia Sngeorzan

H 0 : diff 0
H A : diff 0
p P( x diff 0.867) 1 P( x diff 0.867) 1 0,1949 80,51%
H 0 este acceptata

deoarece

p 0,05

Interpretare
Intervalul de ncreder de 95% pentru diferen
este (-1,78 , 0,69)
Exist o ncredere de 95% c diferena ntre
scorul privind diferena dintre media de citire
i scriere este ntre -1,78 spre 0,69.
Exemplu IPOTEZA NULA Interval de
ncredere pentru dou medii care NU sunt
pereche (dou exemple)
Exemplu 1
S-a analizat % de grsime din corp
(BodyFat%=BF%) dintr-o populaie n mrine
de 13601 subieci n intervalul de vrst [20,
72

STATISTIC APLICAT
dr.Livia Sngeorzan

80] i pe gen (masculin, feminin).


Dimensiunea eantionului de gen masculin
este de 6580 i eantionului de gen feminin
este de 7021.Procentul de grsime BF%
pentru genul masculin este de 23,9 i pentru
genul feminin este de 35. Eroarea standard a
diferenei ntre media aritmetic de BF%
ntre genul masculin i feminin este de 0,114.
Analiznd datele putem observa o diferena de
a BF% n medie. Considerm c distribuia a
estimrii punctuale este aproape normal.
1 Enunam urmtoarele ipoteze:
H 0 : mas fem

H A : mas fem

2 Calculm estimarea punctul


xmas x fem 23,9 35 11,1

11,1 0
97,36
0,114

73

STATISTIC APLICAT
dr.Livia Sngeorzan

p P(Z 97,36) 0,0002

p P(Z 97,36) 0

4 Concluzie
Deoarece p< 1% H0 este respins, ceea ce
indic, c diferena de BF% este diferit
ntre genul masculin i feminin.
Exemplu 2. Dorim s estimm diferena
medie privind timpul de alergare la brbai i
la femei cu o ncredere de 95%. Au fost
extrase aleator dou eantioane de 45 de
brbai i 55 de femei dintre toi alergtorii
din 2012 de la Cherry Blossom Run. In
tabelul de mai jos se prezin summary
statistics i box-plot pentru fiecare eantion n
parte.

74

STATISTIC APLICAT
dr.Livia Sngeorzan

diff x1 x2 102,13 87,65 14,48

SE x

1 x2

12
n1

22
n2

) (

s12 s2 2

) SE 2 x1 SE 2 x2
n1
n2

15,2 2 12,52
(

) 2,77
55
45

Interval

de

incredere estimarea

punctuala z * SE
estimarea
punctuala ME 14,48 1,96 2,77

ME se numete EROAREA MARGINALA


Intervalul de ncredere este ( 9,05 , 19,91)
75

STATISTIC APLICAT
dr.Livia Sngeorzan

Interpretare Cu 95% ncredere putem spune


c brbaii alerag n medie ntre 9,05 i 19,91
minute mai repede dect femeile.

76

STATISTIC APLICAT
dr.Livia Sngeorzan

DISTRIBUTIA NORMALA
Distributia normala N ( 0, 1) se numete
distribuia normala standard
si se numesc parametrii distribuiei.
Folosim o tehnica de standardizare numit
scorul Z.
Z

Exemplu: Fie X o v.a cu N ( 3, 2) pp ca


avem x=5,19 (a) sa se determine scorul Z pt
aceasta valoare x.
Soluia este z 5,192 3 1,095
O variabil aleatoare X care urmeaz legea
normal se noteaz N(, ), unde , sunt
cei doi parametrii care caractereizeaz
aceast lege, adic este media aritmetic
77

STATISTIC APLICAT
dr.Livia Sngeorzan

i este abaterea standard. Dac o


distribuie normal are media aritmetic , i
abaterea standard scriem c distribuia
variabilei aleatoare X este N(, ).
Aplicaii:
1. S se scrie distribuia normal cu (a) media
aritmetic 5 i abaterea standard 3; (b) media
aritmetic -110 i abaterea standard 2,5 (c)
media aritmetic 0 i abaterea standard 1.
Soluie: (a) N(=5, =3); (b) N(=-110,
=2.5); N(=0, =1);
2. Dac avem o variabil aleatoare X care
urmeaz o distribie normal N(=5, =3). Se
dorete a se determina (a) P(X<4) (b) P(X>6);
(c) P( 4<X<6) trebuie s se aplice
standardizarea cu variabila Z.
78

STATISTIC APLICAT
dr.Livia Sngeorzan

Variabila aeatoare Z urmeaz o distribuie


normal N(=0, =1) pentru care avem date
tabele statistice. Transformarea variabilei X
ntr-o variabil Z se face astfel :
x
. Pentru a putea rezolva problema de mai
Z

sus vom parcurge dou etape, o etap de


transformare n scorul Z i n determinarea
probabilittii folosim B.1 Normal Probability
Table :
(a) Transformarea variabilei X cu N(=5, =3)
ntr-o variabil Z cu N(=0, =1) astfel
45
deci
P(X<4)=P(Z<Z
0,33
3
0,33)=0,3707=37,07%;
(b) Transformarea variabilei X cu N(=5, =3)
ntr-o variabil Z cu N(=0, =1) astfel
65
deci
P(X>6)=P(Z>0,33)=1Z
0,33
3
0,6293=37,07%;
(c) Transformarea variabilei X cu N(=5, =3)
ntr-o variabil Z cu N(=0, =1) astfel
79

STATISTIC APLICAT
dr.Livia Sngeorzan

; Z 2 6 3 5 0,33 deci P(4<X<6)=P(0,33<Z<0,33)=


P(Z<0,33)-P(Z<-0,33)=0,62930,3707=0,2586=25,86%;
Z1

45
0,33
3

Distributia Normala deplasat la stnga,


simetric i deplasat la dreapta (Asimetria)
80

STATISTIC APLICAT
dr.Livia Sngeorzan

81

STATISTIC APLICAT
dr.Livia Sngeorzan

82

STATISTIC APLICAT
dr.Livia Sngeorzan

83

STATISTIC APLICAT
dr.Livia Sngeorzan

DISTRIBUTIA t
Aceast distribuie este centrat n zero ( la
fal ca i distribuia normal) i are un
parametru numit grade de libertate (df).
Aceast distribuie se aplic pentr n<30.
Gradele de libertate determina grosimea
cozii

84

STATISTIC APLICAT
dr.Livia Sngeorzan

Distribuia
normal.

aproximeaz

distribuia

Regresia liniar i coeficientul de corelaie


Dac pentru o populaie avem dou seturi de
date corespunztoare formmperechile de date
(x; y), unde care x este valoarea primei
variabile i y este valoarea celei de-a doua
variabile. De exemplu, x este nlimea i y
este greutatea.
85

STATISTIC APLICAT
dr.Livia Sngeorzan

Pereche ordonat de date (x; y) se numete


dat bidimensional. Variabila X avnd
valorile x e numete variabil de intrare i este
variabil independent, iar variabila Y avnd
valorile y se numete variabil de ieire i este
variabila dependent.
Metoda statistic care care permite studierea i
msurarea, relaiei dintre dou sau mai multe
variabile se numete analiza de regresie.
Aceast metod permite estimarea valorilor
unei variabile n funcie de alt variabil sau de
mai multe.
Analiza dependenei funcionale a unei valori
de alta sau mai multe valori se realizeaz prin
urmtorii pai:
1 Reprezentarea grafic a perechilor printrun nor de puncte sau o diagram de
mprtiere. Dac pentru valorile x
crescnde ale variabilei de intrare X nu
exist o deplasare clar ale valorilor y ale
86

STATISTIC APLICAT
dr.Livia Sngeorzan

variabilei Y , atunci spunem c nu avem


corelaie sau c nu exist legtur ntre X
i Y . Legtura dintre cele dou variabile se
determin cu ajutorul coeficientului de
corelaie.
2 Dac punctul 1 este ndeplinit atunci se
stabilete tipului de regresie i se
determin dependena liniar ntre
variabile.
Formule pentru determinarea coeficientului de
corelaie i a parametrilor dreptei de regresie
Notaii:
x

1 n
xi
n i 1

(1)

- media aritmetic a valorilor

variabilei X;

87

STATISTIC APLICAT
dr.Livia Sngeorzan

x2

1 n 2
x i
n i 1

(2)

- media aritmetic a valorilor la

ptrat variabilei X;
xy

1 n
xi y i
n i 1

(3)

- media aritmetic a valorilor

variabilei XY;
Abaterea standard empiric
s xx

1 n
x x ( xi x ) 2
n i 1
2

s xy xy x y

(4)

1 n
( xi x)( yi y)
n i 1

(5)

Coeficientul de corelaie:
rxy

s xy
s xx s yy

1 rxy 1

(6)

Coeficientul de determinaie:
rxy
2

s xy 2
s xx s yy

0 rxy 2 1

(7 )

88

STATISTIC APLICAT
dr.Livia Sngeorzan

Interpretare:
rxy 2 1

rxy 2 0

exist o corelaie liniar foarte bun;


corelaia liniar este proast;

indic faptul c dac variabila X crete


varabila Y descrete;
rxy 0

Ecuaia dreptei de regresie liniar:


y a b x (8)

unde coeficienei dreptei de regresie , a i b, se


pot determina astfel:
b

s xy
s xx

a y b x

(9)
(10)
89

STATISTIC APLICAT
dr.Livia Sngeorzan

Aplicaie:
Fie urmtorul tabel cu perechi de date (xi,yi),
i=1,...,9 msurate [ Andre Tropartz, Statistik I,
Theorie und Aufgaben, :Verlag Shaker, Editura
Dr.Chaled Shaker, Achen, Germania,1994]
i
xi
yi

1 2
0 1
25 16

3
2
9

4
3
4

5
4
1

6
5
4

7
6
9

8 9
7 8
16 25

a) S se determine dreapta de regresie a


lui y n funcie de x i invers;
b) Perechile de date sunt corelate sau
necorelate?
c) Descriei legtura dintre x i y.
Soluie:
a) Dreapta de regresie a lui y n funcie de x
90

STATISTIC APLICAT
dr.Livia Sngeorzan

y=a +bx;
Se realizeaz urmtorul tabel:
i
1
2
3
4
5
6
7
8
9

xi
0
1
2
3
4
5
6
7
8
36
x4

yi
25
16
9
4
1
4
9
16
25
109
y 12

1
9

xi2
0
1
4
9
16
25
36
49
64
204
x 2 22

1
3

yi2
625
256
81
16
1
16
81
256
625
1957
y 2 217

xi yi
0
16
18
12
4
20
54
112
200
436

4
4
x y 48
9
9

91

STATISTIC APLICAT
dr.Livia Sngeorzan

1
2
s xx 22 4 2 6
3
3
4
1
s yy 217 (12 ) 2 70,768
9
9
1
1
s xy 48 4 12 0
9
9
0
b
0
2
6
3
1
a 12
9
1
y 12 0 x
9

b) Observaiile sunt necorelate deoarece s 0 ,


deci r 0 i vom avea c X i Y sunt empiric
necorelate.
xy

xy

Autorul englez Gosset ( ce avea pseudonimul


Student) a propus introducerea unui parametru
t.. Distribuia acestui parametru nu depinde de
nici un parametru al populaiei, ci numai de
efectivul n al eantionului.
92

STATISTIC APLICAT
dr.Livia Sngeorzan

Parametrul t este definit astfel:

xe xp

e
n 1

unde :
- este media eantionului (lotului);
x - este media populaiei ;
n - este efectivul eantionului,

xe

Valoarea GL= (n-1) se numete grad de


libertate.
Testu t , permite s se asigure o mai mare
certitudine a indicilor statistici, n cazul
eantioanelor cu numr mic de subieci. Pentru
a afla valoarea testului t n funcie de mrime
eantionului i de pragul de semnificaie
propus trebuiesc studiate tabelele gata
calculate ( vezi tabelul de mai jos).
93

STATISTIC APLICAT
dr.Livia Sngeorzan

Valorile lui t pentru diferite grade de


libertate (GL)
i prag de semnificaie ( 0,05 i 0,01 ) (
[5])
Grade de
libertate
(GL)
n-1
1
2
3
4
5
6
7
8
9

Prag de semnificaie ( )

0,05
12,7
4,30
3,18
2,78
2,57
2,45
2,37
2,31
2,26

0,01
63,66
9,93
5,84
4,60
4,03
3,71
3,50
3,35
3,25
94

STATISTIC APLICAT
dr.Livia Sngeorzan

10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,11
2,10
2,09
2,09
2,08
2,07
2,07
2,06
2,06
2,06
2,05
2,05
2,05

3,17
3,11
3,01
2,98
2,95
2,92
2,90
2,88
2,86
2,85
2,83
2,82
2,81
2,80
2,79
2,78
2,77
2,77
2,76
2,76
95

STATISTIC APLICAT
dr.Livia Sngeorzan

30

2,04
1,96

2,75
2,58

Exemplu ( [1] ):
Enun :
Fie msurat nlimea a 20 de personae ,
pentru care s-a determinat :
x = 170 cm i = 7 cm.
Pentru GL= (n-1) grade de libertate , adic GL
= 19 valoarea lui t pentru = 0,05 este t= 2,09
iar pentru =0,01 valoarea aestuia este t=2,85.

Concluzie:
La un prag de semnificaie de 5% intervalul de
siguran al mediei este:
170 2,09.

< x < 170 + 2,09.


19

7
19

166,6 < x < 173,4


96

STATISTIC APLICAT
dr.Livia Sngeorzan

Not:
1.cea mai bun estimaie pentru media
populaiei este media eantionului;
2.se determin intervalul de siguran
pentru acest parametru, legat de un prag
de semnificaie;
3.pentru n<30 se folosete tabelul
parametrului t, pentru GL= n-1;
4.pentru n>30 se folosete tabelul curbei
normale;.
Exemplu:
Sunt cunoscute coeficientul de inteligen (IQ)
a 16 studeni de la o anumit universitate. S-au
determintat :
- media aritmetic ( x ), n valoare de 107 ;
- abaterea standard ( s1) n valoare de 10.
_

97

STATISTIC APLICAT
dr.Livia Sngeorzan

Sunt cunoscute coeficientul de inteligen a 14


studeni de la o alt universitate. S-au
determintat :
- media aritmetic ( x ), n valoare de 112 ;
- abaterea standard (s2)n valoare de 8.
_

Se pune urmtoarea ntrebare:


- exist o diferen semnificativ, ntre
coeficienii de inteligen a celor dou
grupe ?
- Care este pragul de semnificaie?
Soluie
Avem de ales ntre dou ipoteze:
H0 : , nu exist diferene eseniale ntre
loturi ;
H1 : , exist diferene eseniale ntre
loturi ;
1

98

STATISTIC APLICAT
dr.Livia Sngeorzan

Lund in considerare H0 :, determinm


valoarea lui t conform relaiei de mai sus,
astfel:

16(10) 2 14(8) 2
9,44
16 14 2
112 107

9,44 1 16 1 14

1,45

Pentru = 0.01, vom putea respinge ipoteza H0


, dac t=1,45 (t , t ) .
Pentru GL = n1+n2-2 = 16+14-2= 28, avem
t
2,76 ( veti tabel Valorile lui t pentru diferite
grade de libertate (GL) )Deoarece t=1,45,
acesta aparine intervalului (-2,76 , +2,76) deci
nu putem respinge ipoteza H0.
0.995

0, 995

0, 995

Pentru = 0.05, vom putea respinge ipoteza H0


, dac t=1,45 (t , t ) .
0.995

0, 995

99

STATISTIC APLICAT
dr.Livia Sngeorzan

Pentru GL = n1+n2-2 = 16+14-2= 28, avem


t
2,05 ( veti tabel Valorile lui t pentru diferite
grade de libertate (GL) )Deoarece t=1,45,
acesta aparine intervalului (-2,05 , +2,05) deci
nu putem respinge ipoteza H0.
0, 995

Concluzie
Nu putem respinge ipoteza H0 pentru cele dou
praguri de semnificaie. Deci putem trage
concluzia, c nu exist nici o diferen
semnificativ ntre IQ-urile celor dou loturi.

100

STATISTIC APLICAT
dr.Livia Sngeorzan

Metode de eantionare
Dac elementele componente ale unei
populii
sunt de acelai tip aceasta se
numete omogen, sau neomogen la care
elementele componente sunt de tipuri diferite.
Metodele statistice se aplic numai populaiilor
omogene.

Exemplu de eantionare greit : Landon


(Republican) si Franklin Delano Roosvelt
101

STATISTIC APLICAT
dr.Livia Sngeorzan

Jurnalul theLiteraryDigest -a declarat


castigator pe Landon , dar a ctigat FDR cu
62%. Eantionarea a fost fcuta greit. Jurnalul
a trimis chestionarul celor care citeau acest
jurnal, acestia fiind oameni ce fceau partea
din prima i a doua ptur a societii i care
aveau cu tottul i cu totul alte opiuni dect
majoritatea popultiei.
Exist 3 metode de eantionare:
1. aleatoare simpl
2.stratificat
3.cluster

102

STATISTIC APLICAT
dr.Livia Sngeorzan

1.Aleatoare simpl

Fiecare caz are aceeai ans de a fi ales.


2.Stratificat

103

STATISTIC APLICAT
dr.Livia Sngeorzan

Imprim populaia n straturi omogene i din


fiecare strat alegem aleator indivizi statistici.
De exemplu straturile sa fie masculin si
feminin.

3.Cluster

104

STATISTIC APLICAT
dr.Livia Sngeorzan

Impart populaia in clustere (grupuri) , aleg


aleator cateva grupuri dupa care aleg aleator
indivizi din aceste grupuri. Nu sunt grupuri
omogene. De exemplu regiuni geografice sunt
aceste clustere

105

STATISTIC APLICAT
dr.Livia Sngeorzan

Framewok R
1996 a aparut R
Lucreaza cu obiecte, are 5 obiecte de baz:
Caractere
Numere reale
Intregi
Numere complexe
Boolean

Ce la mai
VECTORUL

important

obiect

este

NUMERE
1.Numerele sunt tratate ca i obiecte
numerice (simpla si dubla precizi)
2.Daca vreau EXPLICIT un intreg, pun
sufixul L Ex. 1L
106

STATISTIC APLICAT
dr.Livia Sngeorzan

3.Avem si numere speciale Inf ce


inseamna infinity ex. 1/0=Inf sau 1/Inf=0
4.NaN este not a number ex 0/0 = NaN
ATRIBUTE
Obiectele in R pot avea atribute:
1.nume
2.dimensiuni (matrices, array)
3.class
4.length
5.atribute definite de utilizatoriym
Accesarea atributelor unui obiect se face
prin functia attributes()
INPUT
In dreptul promputului R (>) introducem
expresii.
acesta este simbolul de asignare
ex:
a<-3
107

STATISTIC APLICAT
dr.Livia Sngeorzan

Creare VECTORI

108

STATISTIC APLICAT
dr.Livia Sngeorzan

EVALUARE

TIPARIRE

CREARE VECTOR
109

STATISTIC APLICAT
dr.Livia Sngeorzan

OBIECTE
MIXTE
constrangerea

funcioneaz

110

STATISTIC APLICAT
dr.Livia Sngeorzan

CONSTRANGERE
operatorul as.

EXPLICITA

PRIN

111

STATISTIC APLICAT
dr.Livia Sngeorzan

MATRICI

112

STATISTIC APLICAT
dr.Livia Sngeorzan

CREARE DE MATRICI DIN VECTORI

Crearea de matrici prin legarea

113

STATISTIC APLICAT
dr.Livia Sngeorzan

Liste

114

STATISTIC APLICAT
dr.Livia Sngeorzan

LISTE

Obiectele in R sunt vectori.


115

STATISTIC APLICAT
dr.Livia Sngeorzan

Realizarea se face cu functia c(...) ce vine de


la combine sau contacting
v=c(1,3,5,7)
Listele sunt vector ce contin elemente de
tipuri diferite , de ex:
l=c(Alb,2,6,Red)
Matrici
m=matrix(1:6,2,3) creez matricea cu
elementele de la 1 la 6 pe 2 linii si 3 coloane.
rbind(x,y) , cbind(x,y)
attributes(m)
data frame == matrix with data read.table()
Crearea unui dataframe numit d

116

STATISTIC APLICAT
dr.Livia Sngeorzan

d=data.frame(subjected=1:5,
gender=c(M,F,F,M,F),
score=c(8,3,6,5,5))
d
nrow(d) ne imdica numar linii
ncol(d) ne indica nr coloane
attributes(d) indica atributele
d[2,1]
Display datframe
View(d)
Edit dataframe
a <- (d[1,3]+d[2,3]+d[3,3]+d[4,3]+d[5,3])/5
d[1,3] <- d[1,3]+3

Edit(d)
117

STATISTIC APLICAT
dr.Livia Sngeorzan

118

STATISTIC APLICAT
dr.Livia Sngeorzan

getwd() indica folderul de unde se citeste


fiserul (aici t.txt)
setwd("C:/data")
or
setwd("/home/paradis/R") se schimba folderul pt date

119

STATISTIC APLICAT
dr.Livia Sngeorzan

120

STATISTIC APLICAT
dr.Livia Sngeorzan

121

STATISTIC APLICAT
dr.Livia Sngeorzan

122

STATISTIC APLICAT
dr.Livia Sngeorzan

123

STATISTIC APLICAT
dr.Livia Sngeorzan

124

STATISTIC APLICAT
dr.Livia Sngeorzan

125

STATISTIC APLICAT
dr.Livia Sngeorzan

de incarcat library(lattice) pt a utiliza


densityfunction
install packages
install.packages(psych) #Nedd to use
CRAN the 1 time
search()
#Load packages
library(psych)
TREBUIE
INSTALATE
DIVERSE
PACHETE PT CA R SA FUNCTIONEZE
CORECT.
De citit si de efectuat pasii de acolo
getting_started.pdf
http://personalityproject.org/r/psych/HowTo/getting_started.
pdf

126

STATISTIC APLICAT
dr.Livia Sngeorzan

Citire de la tastatura cu functia scan()

127

STATISTIC APLICAT
dr.Livia Sngeorzan

Sfarsit citire se poate efectua


CTRL+ENTER
Pe ecran se afiseazA: READ 8 items

cu

128

STATISTIC APLICAT
dr.Livia Sngeorzan

CONFIDENCE INTERVALS
MEDIE ARITMETICA

2, 4 , 4,

5, 6, 7,

PENTRU

8, 9

129

STATISTIC APLICAT
dr.Livia Sngeorzan

130

STATISTIC APLICAT
dr.Livia Sngeorzan

131

STATISTIC APLICAT
dr.Livia Sngeorzan

132

STATISTIC APLICAT
dr.Livia Sngeorzan

BIBLIOGRAFIE
1.Acad. Marius Iosifescu, Tiberiu Postelnicu,
Curs de Biomatematic, Note curs,
Facultatea de Medicina , Universitatea
Ecologic Bucureti, 1990
2.Marius Iosifescu, C. Moineagu, V. Trebici,
E. Ursianu, Mic Enciclopedie de statistic,
ed. Stiinific i Enciclopedic, Bucureti,
1985
3.Radu Trmbia, Metode statistice, ed. Presa
universitar Clujean, 2000
4.Acad. Gh. Mihoc, N. Micu, Elemente de
teoria probilitilor i statistic , ed.
Didactic i pedagogic , 1971, Bucureti
5.Vasile Dumitrescu, Metode statisticomatematice n sport, Ed. Stadion, 1970,
Bucureti
133

STATISTIC APLICAT
dr.Livia Sngeorzan

6.Sangeorzan Livia, Statistic aplicat n


educaie fizic i sport curs ID, Ed.
Transilvania Braov, 2005, Braov

134

S-ar putea să vă placă și