Sunteți pe pagina 1din 2

Curs 3 – S1 – Descrierea variabilelor cantitative. Măsurile tendinţei centrale.

Pentru descrierea unei populaţii (pe mai multe dimensiuni ori variabile), forma grafică este utilă vizual, însă câteodată dorim să descriem populaţia în cuvinte. Pentru descrierea verbală ne trebuie nişte măsuri numerice. Ex. histograma veniturilor: care este venitul “tipic” al unei familii in România?

Cuvântul cheie aici este ”tipic”.

Forme ale histogramelor:

-

simetrice

-

alungite (non-simetrice) la stânga sau la dreapta

-

uniforme

Prin unirea mijloacelor de clase obţinem un fel de curbă (cu cât sunt mai multe clase, cu atât curba este mai fină)

Histograme cu curba normală adăugată

Exemplu in SPSS cu următoarele venituri:

3.0

Graphs/Histogram cu opţiunea “Display normal curve”

1.5

4.5

3.8

5.9

2.2

3.6

4.9

2.5

3.2

Introducere în R

obiect <- c(3.0, 1.5, 4.5, 3.8, 5.9, 2.2, 3.6, 4.9, 2.5, 3.2)

c vine de la concatenare (o funcţie a lui R)

Histograma valorilor:

hist(obiect)

- Explicarea semnului de sumă

- Explicarea mediei: suma observaţiilor supra numărul de observaţii (se poate afla suma observaţiilor dacă avem valoarea mediei şi a numărului de observaţii)

- Notaţii pentru media în populaţie şi media în eşantion. Regulă: litere greceşti pentru orice parametru din populaţie.

Media în populaţie se notează cu Media în eşantion se notează cu

Media în populaţie se notează cu Media în eşantion se notează cu
Media în populaţie se notează cu Media în eşantion se notează cu

x

Dacă cele 10 valori ar constitui întreaga populaţie, atunci

mean(obiect)

[1] 3.51

Dacă luăm însă eşantioane de câte trei valori

obiect[c(1,3,9)]

[1] 3.0 4.5 2.5

mean(obiect[c(1,3,9)])

[1] 3.333333

mean(obiect[c(1,7,2)])

[1] 2.7

mean(obiect[c(3,10,4)])

[1] 3.833333

Se poate observa că avem câte o medie pentru fiecare eşantion în parte, iar parametrul (media din populaţie) este fix.

- Conceptul de “valoare extremă” (în engl. “outlier”): observaţii care sunt foarte mici sau foarte mari in comparatie cu majoritatea observaţiilor unei variabile. Cum decidem dacă o valoare este extremă sau nu? Spre exemplu 8,0 este foarte mare sau nu? Dar 13? Cea mai buna metodă: Diagrame box-and-whiskers – cursul viitor. Deocamdată, metoda vizuală: modifică forma histogramei? Modifică substanţial media?

- Mediana: valoarea din mijlocul unei variabile ordonate de la minim la maxim. n 1

2

Adică observaţia numărul

Mediana pentru număr impar de observaţii şi mediana pentru număr par de observaţii.

- Modul: valoarea care apare cu cea mai mare frecvenţă într-o variabilă. Distribuţii unimodale, bi-modale şi multi-modale.

- Media pentru date grupate: nu mai putem afla suma observaţiilor, pentru că nu le mai avem. Dispunem doar de un tabel de frecvenţe; aplicăm aici artificiul de la medie, considerând mijlocul clasei ca un fel de medie de clasă.

x = i = 1

k

m i f i

unde

i

n

= 1

k

n

f i

numărul de clase

volumul eşantionului frecvenţa absolută a clasei i

- Frecvenţa clasei devine chiar o pondere, rezultând astfel o medie ponderată: fiecare clasă contribuie mai mult sau mai puţin la calcularea mediei, în funcţie de frecvenţa clasei respective.

Media combinată a două eşantioane:

x = n 1 x 1 n 2 n 1 n 2

x

2

Practic, se ponderează media fiecărui eşantion cu mărimea acestuia: un eşantion de mărime mai mare trebuie să cântărească mai mult în calcul decât un eşantion de mărime mai mică.