Sunteți pe pagina 1din 14

Seminar 1 – Inteligenta Computationala

Statistici descriptive- recapitulare

Problema 1

Un student a primit urmatoarele note (de la 0 la 10) pentru 10 teste pe care le-a dat intr-un semestru:
6,7, 6, 8, 5, 7, 6, 9, 10, 6. Aceste note pot fi aranjate sub forma de distributii de frecventa si reprezentate
grafic.

Nota Frecventa absoluta Frecventa relativa


5 1 0.1
6 4 0.4
7 2 0.2
8 1 0.1
9 1 0.1
10 1 0.1
Total 10 1

1
Problema 2

Cutiile de conserve dintr-un esantion de 20 de cutii contin greutati nete de fructe variind intre 19.3 si
20.9 uncii (ounces-lb engleza, 1 uncie=0.03664g):

19.7, 19.9, 20.2, 19.9, 20.0, 20.6, 19.3, 20.4, 19.9, 20.3, 20.1, 19.5, 20.9, 20.3, 20.8, 19.9, 20.0, 20.6, 19.9,
19.8.

Dorim sa aranjam greutatile de mai sus in distributii de frecventa, sa le grupam in intervale si sa


reprezentam grafic histograma frecventelor absolute, relative, poligonul de frecvente si distributia
frecventelor absolute cumulate crescator.

Rezolvare:

Vom grupa datele in 6 clase. Pentru simplitate, consideram 19.2 limita inferioara si 21 limita superioara
a intervalului in care se incadreaza greutatile cutiilor de conserve enumerate mai sus.

21  19.2
Marimea intervalului de grupare este:  0.3
6
Distributia frecventelor greutatilor este descrisa in tabelul:

Greutate Centrul Frecventa Frecventa relativa Frecvente


intervalului absoluta absolute
cumulate
crescator
[19.2,19.5) 19.35 1 0.05 1
[19.5, 19.8) 19.65 2 0.10 3
[19.8,20.1) 19.95 8 0.40 11
[20.1,20.4) 20.25 4 0.20 15
[20.4,20.7) 20.55 3 0.15 18
[20.7,21] 20.85 2 0.10 20
Total 20 1

2
Histograma frecventelor relative se traseaza similar.

Poligonul de frecvente, ca si histograma, indica forma distributiei unei serii de date.

3
4
Indicatorii tendintei centrale

Tendinta centrala se refera la locatia unei distributii. Cele mai importante masuri ale tendintei centrale
sunt:

1)media

2)mediana

3)abaterea standard

1)Media aritmetica

-pt date negrupate

Populatie:  
x
N

Esantion: x 
x
n

5
Unde  x =suma tuturor observatiilor, N=nr. observatiilor dn populatie, n=nr. observatiilor din
esantion.

-pt date grupate:

Populatie:  
 fx
N

Esantion: x 
 fx
n
f=frecventa fiecarei clase

x=centrul acelei clase (intervalului)

N 1
2)Mediana pentru datele negrupate este al -lea element din sirul de date ordonate fie crescator
2
fie descrescator.

n
F
Pentru datele grupate, Mediana=L+ 2 c
fm

L=limita inferioara a intervalului media

N=nr de observatii din setul de date

F=suma frecventelor pana la, dar neincluzand intervalul median

f m =frecventa intervalului median

c=lungimea intervalului median

3)Modul este valoarea care se repeta cel mai frecvent in setul de date (pentru date negrupate).

d1
Pentru date grupate, Modul=L+ c
d1  d 2

L=limita inferioara a intervalului modal

d1 =frecventa intervalului modal-frecventa intervalului precedent

d 2 =frecventa intervalului modal-frecventa intervalului urmator


c=lungimea intervalului modal

Media este cea mai uzuala masura a tendintei centrale. Media, totusi, este afectata de valorile extreme
din setul de date, in timp ce mediana si mediul nu sunt.

6
Pentru ambele probleme (problema 1: populatie, date negrupate; problema 2: esantion, date grupate)
determinam cei trei indicatori ai tendintei centrale:

Problema 1

Vom determina media pentru populatia din problema 1, folosind formula pentru datele negrupate:


 x  6  7  6  8  5  7  6  9  10  6  70  7
N 10 10
Mediana pentru datele negrupate:

Ordonam cele 10 note in ordine crescatoare: 5,6,6,6,6,7,7,8,9,10.

N  1 11 67
=  5.5 , deci determinam media artimetica dintre elementele 5 si 6 din sir:  6 .5
2 2 2
=Mediana.

Modul pt datele negrupate=6 (are frecventa maxima 4)

Problema 2

Putem estima media pentru datele grupate cu ajutorul tabelului urmator:

Interval Centrul intervalului Frecventa (f) fx Frecvente


(x) absolute
cumulate
crescator
[19.2, 19.5) 19.35 1 19.35 1
[9.5,19.8) 19.65 2 39.3 3
[19.8,20.1) 19.95 8 159.6 11
[20.1, 20.4) 20.25 4 81 15
[20.4,20.7) 20.55 3 61.65 18
[20.7,21] 20.85 2 41.7 20
Total 20 402.6

Media aritmetica a esantionului: x 


 fx  402.6  20.13
n 20
n 1
Prima frecventa absoluta cumulata crescator care depaseste da intervalul median.
2
n  1 21
  10.5
2 2
Prima frecventa absoluta cumulata crescator care depaseste 10.5 este 11, deci [19.8,20.1) este
intervalul median.

7
n 20
F 3
Mediana=L+ 2 c =19.8+ 2 x0.3  20.08
fm 8

F=1+2=3

fm  8

d1 82
Modul= L+ c=19.8+ x0.3  19.98
d1  d 2 (8  2)  (8  4)

Intervalul modal [19.8,20.1) are frecventa absoluta cea mai mare, 8.

Masuri ale dispersiei

Dispersia se refera la variabilitatea sau imprastirerea datelor. Cele mai importante masuri ale dispersiei
sunt:1) abaterea medie; 2) varianta; 3)abaterea standard.

1)Abaterea medie (AD=average deviation)

-pentru date negrupate:

Populatie: AD 
| x   |
N

Esantion: AD 
| x  x |
n
-pentru date grupate:

Populatie: AD 
 f |x|
N

Esantion: AD 
 f |xx|
n
f=frecventa clasei

x=centru intervalului de grupare

2)Varianta

-pentru date negrupate:

Populatie:  2

 (x  ) 2

Esantion: s 2

 (x  x) 2

n 1

8
-pentru date grupate:

Populatie:  2

 f (x  ) 2

Esantion: s 2

 f (x  x) 2

n 1
3)Abaterea standard

-pentru date negrupate:

Populatie:  
 (x  ) 2

Esantion: s 
 (x  x) 2

n 1
-pentru date grupate:

Populatie:  
 f (x  ) 2

Esantion: s 
 f (x  x) 2

n 1
Cea mai utilizata masura a dispersiei este abaterea standard. Alte masuri sunt: amplitudinea si intervalul
intercuartilic.

Amplitudinea=diferenta valorilor extreme

A= x max  x min

Intervalul intercuartilic= I Q  Q3  Q1

Notam cuartilele cu Q1 , Q2 , Q3 .

Q2 =Mediana.

Q3  Q1
Coeficientul de variatie intercuartilica este definit de raportul q 
Q2

Coeficientul de variatie cv este abaterea standard raportata la media aritmetica.


Pentru populatii: cv 

9
s
Pentru esantioane: c v 
x
Coeficientul de variatie exprimat procentual exprima cate unitati in abaterea standard revin la 100
unitati de medie.

Exista cazurile:

• cv  0  serie omogena, toti termenii sunt egali cu media.

• cv  5%  serie foarte omogena, variatia ei este foarte mica, media este foarte reprezentativa, iar
gruparea este bine executata.

• cv  35%  serie cu un grad de omogenitate ridicat

• cv  70  75%  variatie foarte mare, media nu este seminificativa, seria are o structura eterogena
care necesita repetarea operatiei de grupare.

In consecinta, coeficientul de variatie este utilizat pentru a verifica reprezentativitatea mediei variabilei
respective si pentru a compara omogenitatea seriilor de date.

Tema Determinati abaterea medie, varianta, abaterea standard si coeficientul de variatie pentru datele
din problemele 1 si 2.

Indicatori de asimetrie si aplatizare

Forma unei distributii se refera la:

1)simetria ei sau lipsa asimetriei (SKEWNESS)

2)forma varfului (KURTOSIS)

1)Simetria

O distributie este simetrica sau skewness=0 daca are graficul:

10
Media=Mediana=Mod

O distributie este asimetrica la dreapta (POSITIVELY SKEWED) daca Modul<Mediana<Media si are


graficul:

O distributie este asimetrica la stanga (NEGATIVELY SKEWED) daca Media<Mediana<Mod si are graficul:

11
Asimetria poate fi masurata prin coeficientul Pearson de asimetrie:

-pentru populatie:

3(   Med )
sk 

-pentru esantion:

3( x  Med )
sk 
s
Media si mediana sunt primul si al doilea moment al unei distributii. Asimetria poate fi masurata si prin
al treilea moment (=numaratorul) impartit la abaterea standard la cub:

-pentru date negrupate:

Populatie: s k 
 (x  ) 3

3

Esantion: s k 
 (x  x) 3

s3
-pentru date grupate:

Populatie: s k 
 f (x  ) 3

3

12
Esantion: s k 
 f (x  x) 3

s3
Pentru distributii simetrice, s k  0 .

2)aplatizarea=KURTOSIS

O curba se numeste leptocurtica daca este ascutita.

O curba se numeste platicurtica daca este plata.

Aplatizarea se masoara prin al patrulea moment al unei distributii (=numaratorul) impartit la abaterea
standard la puterea a 4-a:

Notam cu β coeficientul Pearson de aplatizare.

β>3  distributie leptokurtica

β<3  distributie platykurtica

β=3  distributie mesokurtica

-pentru date negrupate:

Populatie:  
 (x  ) 4

4

Esantion:  
 (x  x) 4

s4
-pentru date grupate:

13
Populatie:  
 f (x  ) 4

4

Esantion:  
 f (x  x) 4

s4

14

S-ar putea să vă placă și