Sunteți pe pagina 1din 9

1.

Statistic descriptiv elemente fundamentale

Acest prim capitol al cursului este destinat cu precdere studenilor care nu au urmat niciodat un curs de statistic i nu au nici un fel de cunotine n acest domeniu. Scopul su este acela de a clarifica noiunile de baz pe care le vom utiliza ulterior pe parcursul acestui curs. Ne vom limita aici la noiunile de statistic descriptiv, adic acea parte a statisticii care se ocup cu descrierea unor fenomene folosind o serie de indicatori (parametri) specifici. Noiunile i conceptele care in de statistica inferenial, cea care studiaz legturile de interdependen dintre variabile (de tip cauz-efect), vor fi introduse n capitolele urmtoare.

Variabil, scor, distribuie


O variabil este acea proprietate a unui fenomen care poate lua diferite valori. De exemplu: zilele saptmnii (luni, mari, , duminic), nlimea, venitul impozabil, notele studenilor la examenul de Statistic etc. Orice variabil este descris de un set de valori. Valoarea particular pe care o ia variabila pentru un anumit membru al populaiei studiate poart numele de scor. Exemple de scoruri ale diverselor variabile: persoana X are nlimea de 1.68 metri, persoana Y are un salariu lunar de 4500000 lei, studentul Z a obinut nota 9 la examenul de Statistic. Distribuia unei variabile este dat de frecvena de apariie a diverselor scoruri (sau valori) care descriu variabila respectiv. Pentru a exemplifica, s presupunem c o grup de 40 de elevi particip la o prob sportiv la care se poate obine un punctaj de la 1 la 5. n tabelul de mai jos este redat situaia punctajelor obinute la finalul probei: xi 1 2 3 4 5 Total (N) ni 2 7 16 8 7 40 Tabelul 1. Distribuia unei variabile n prima coloan, am notat cu xi scorurile posibile ale variabilei (1-5), iar n coloana a doua se gsesc frecvenele de apariie ale scorurilor (ni). Aadar, 2 elevi au obinut punctajul 1, 7 elevi au obinut punctajul 2 .a.m.d. n sfrit, n coloana a treia se gsesc frecvenele relative ale scorurilor, care pot fi exprimate i procentual. Evident, suma frecvenelor relative este ntotdeauna egal cu 1. fi 0.04 0.18 0.40 0.20 0.18 1.00

Distribuia unei variabile poate fi reprezentat grafic prin intermediul unei histograme, ca n figura urmtoare:
20 15 n 10 5 0
1 2 3 4 5

Figura 1. Grafic de tip histogram Orice distribuie este definit prin trei caracteristici: 1. modalitatea, care se refer la numrul de maxime (ale frecvenelor) pe care l prezint distribuia. Distribuiile cu un singur maxim (cum este cea de mai sus) se numesc unimodale, iar cele cu mai multe maxime se numesc multimodale. 2. nclinarea, care ne arat dac n distribuie predomin valorile mici (cazul distrubuiilor nclinate spre stnga) sau valorile mari (cazul distrubuiilor nclinate spre dreapta). 3. turtirea, care ne arat ct de mult variaz scorurile. O distribuie turtit (sau aplatizat) prezint toate valorile posibile ale scorurilor, de la cele mai mici la cele mai mari, pe cnd n cazul unei distribuii ascuite scorurile variaz mai puin (valorile extreme au frecvene de apariie reduse).

Indicatorii (parametrii) unei distribuii


Aceti indicatori se mpart n dou mari categorii: indicatorii tendinei centrale i indicatorii mprtierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie. Indicatorii tendinei centrale Aceti indicatori exprim tendina scorurilor unei variabile de a se grupa n jurul unor valori semnificative. Cei trei indicatori ai tendinei centrale luai n discuie aici sunt media, mediana i modul. Media este desigur cel mai cunoscut indicator al tendinei centrale. Este bine tiut c ea se calculeaz nsumnd scorurile variabilelor i mprind aceast sum la numrul scorurilor.

m=

x
i

n cazul n care cunoatem distribuia variabilei (vezi tabelul 1), putem folosi urmtoarea formul de calcul a mediei:

x n m= n
i i i i

Revenind la exemplul figurat n tabelul 1, punctajul mediu al grupei de elevi la proba sportiv se calculeaz ca n tabelul 2: xi 1 2 3 4 5 Total ni 2 7 16 8 7 40 Tabelul 2. Elementele pentru calculul mediei xi * ni 2 14 48 32 35 131

x n m= n
i i i i

131 = 3.275 40

Dintre toate proprietile mediei o vom da aici pe cea mai important, exprimat prin formula:

(x
i

m ) ni = 0

Aadar, suma diferenelor dintre toate scorurile (valorile) variabilei i medie este egal cu zero. O alt modalitate de exprimare a acestei proprieti este urmtoarea: valorile egal deprtate fa de medie sunt egal probabile (au aceeai frecven de apariie probabil). Mediana este acea valoare care mparte o distribuie n dou pri egale. S revenim la exemplul cu proba sportiv i s presupunem c 12 elevi, alei aleator, obin urmtoarele punctaje: 2, 3, 2, 2, 2, 1, 4, 5, 4, 2, 3, 5 Care este mediana acestei distribuii? Pentru a o afla, trebuie mai nti s aezm scorurile n ordine cresctoare: 1, 2, 2, 2, 2, 2, 3, 4, 4, 4, 5, 5

Avnd un numr par de elemente, aceast serie se mparte uor n dou pri a cte ase elemente. Ct despre median, ea este dat de media aritmetic a scorurilor aflate n mijlocul seriei (2 i 3, n cazul nostru). Aadar, mediana distribuiei noastre este egal cu 2.50. Dac seria are un numr impar de elemente, mediana este dat de valoarea scorului din mijloc al seriei. S presupunem c tim c mediana salariilor lucrtorilor dintr-o firm este de 5000000 de lei. Cum interpretm acest fapt? n felul urmtor: jumtate din lucrtori au un salariu de pn la 5000000 de lei, iar cealalt jumtate au un salariu de peste 5000000 de lei. Modul unei distribuii este acea valoare a distribuiei care are cea mai mare frecven de apariie. n cazul anterior, modul distribuiei este egal cu 2, deoarece acest punctaj apare cel mai des (de cinci ori). n exemplul ilustrat n tabelul 1, modul distribuiei este 3, deoarece aceast valoare apare cel mai des (de 16 ori). Dup cum precizam anterior, exist posibilitatea ca o distribuie s prezinte mai multe moduri, caz n care o vom numi multimodal. Indicatorii mprtierii Cel mai des folosit indicator al mprtierii unei variabile este dispersia sau variana, al crei mod de calcul o vom prezenta n continuare. S presupunem c o ntreprindere are 6 departamente, numrul de persoane care lucreaz n fiecare departament fiind, respectiv: 5, 7, 10, 15, 9, 14 Pentru a calcula dispersia acestei distribuii va trebui s parcurgem urmtorii pai: 1. calculm media distribuiei. Vom obine foarte uor m=10. Dac vom studia ns seria, vom observa c numai ntr-un singur departament lucreaz exact 10 oameni; celelalte prezint abateri, uneori importante, de la aceast medie. Aadar, indicatorii tendinei centrale nu ne dau informaii complete cu privire la o distribuie; definirea i calculul unor indicatori ai mprtierii sunt absolut necesare. 2. calculm abaterile de la aceast medie i ptratele lor, ca n tabelul ce urmeaz: xi 5 7 10 15 9 14 Total xi - m -5 -3 0 5 -1 4 0 (xi m)2 25 9 0 25 1 16 76

Suma ptratelor abaterilor se noteaz uneori cu SS (de la cuvintele englezeti sum of squares suma ptratelor).

3. mprim suma ptratelor abaterilor la numrul de scoruri, obinnd astfel dispersia (notata cu 2 sau uneori cu Var):

2 =
sau:

(x
i

m) 2

N m ) 2 ni
i i

2 =

(x
i

n cazul nostru:

2 =

76 = 12.67 6

Cu ct valoarea dispersiei este mai mare, cu att distribuia respectiv este mai mprtiat. Un alt indicator al mprtierii, deosebit de important, este abaterea media ptratic sau abaterea standard, care nu este altceva dect rdcina ptrat a dispersiei:

= 2
Abaterea medie ptratic se noteaz uneori cu SD (de la cuvintele englezeti standard deviation abatere standard). n exemplul nostru ea este egal cu 3.56. De remarcat c abaterea standard are aceeai unitate de msur ca i variabila. Statisticienii au demonstrat c majoritatea scorurilor unei variabile (i anume cam 68%) se gsesc n interiorul intervalului care are drept capete valorile m- i m+ . Aceste scoruri se mai numesc scoruri medii, normale sau tipice pentru acea distribuie. Valorile care se gsesc n afara intervalului (m- ; m+ ) poart numele de valori atipice. Urmtorul grafic ilustreaz mai bine explicaia noastr:

m- valori atipice (16%)

m valori tipice, normale, medii (68 %)

m+ valori atipice (16%)

S lum un exemplu pentru a nelege mai bine. S presupunem c nlimea medie a brbailor aduli dintr-un ora oarecare este de 1.72 m, cu o abatere standard de 0.08 m. Putem trage de aici concluzia c c nlimea normal, tipic a unui brbat din acel ora

este cuprins ntre 1.64 i 1.80 m (adic 1.72 0.08); mai mult, putem ti c circa 68% din brbaii din ora se gsesc n acest interval. Un brbat mai scund de 1.64 m sau mai nalt de 1.80 m este un brbat atipic din punctul de vedere al nlimii.

Distribuia normal
Cunoscut i sub denumirea de distribuia Gauss-Laplace, distribuia normal este fr ndoial cea mai important dintre toate tipurile de distribuie ntlnite n statistic. Principala sa caracteristic: curba frecvenelor se prezint sub form de clopot (de unde i denumirea de clopotul lui Gauss). Pentru cei nclinai spre matematic, dm aici formula prin care se exprim legea normal: p ( x) = 1 e
( x m )2 2 2

unde p(x) este probabilitatea (frecvena) de apariie a unei valori oarecare x, iar m i sunt deja notaii familiare (media i abaterea ptratic a distribuiei). Aadar, aceti doi parametri (media i abaterea standard) definesc complet o distribuie normal. S mai spunem c distribuia normal de medie m i abatere se noteaz prescurtat astfel: N ( m, 2 ) . Curba distribuiei normale se prezint ca n figura urmtoare:
~

34% 14%

34% 14%

m-2

m-

m+

m+2

Figura 2. Clopotul lui Gauss curba distribuiei normale Cu ajutorul unor formule matematice, statisticienii au calculat ariile diverselor suprafee de sub bolta curbei lui Gauss, precizate i n n figura de mai sus. Semnificaiile lor sunt urmtoarele: - n intervalul (m- ; m+ ) se gsesc (aproximativ) 68% din valorile variabilei; - n intervalul (m- 2; m+ 2) se gsesc (aproximativ) 96% din valorile variabilei. Aceste valori ne vor fi deosebit de utile atunci cnd se va pune problema testrii ipotezelor statistice.

Distribuia normal standard. Scorurile z De multe ori, n practic se lucreaz cu variabile normale care au uniti de msur diferite. Pentru a putea compara aceste distribuii se folosesc scorurile z. Fie o variabil ce are media m i abaterea standard . Pentru o valoare oarecare x a acestei variabile, scorul z se calculeaz astfel: z= xm

Se observ c acest scor are un caracter sintetic, reunind ntr-o singur formul media i abaterea standard a distribuiei. Deasemenea, scorurile z nu au unitate de msur. Tocmai acest lucru face posibil compararea sau adunarea lor. Distribuia scorurilor z se numete distribuie normal standard (sau normat). Ea are media 0 i dispersia 1 i se noteaz uneori astfel: N (0,1) . n cazul exemplului dat anterior, cel cu nlimea brbailor aduli, putem calcula cu uurin scorul z al unui barbat ce are nlimea de 1.75 m: z= 1.75 1.72 = 0.375 0.08
~

Am vzut n paragraful anterior c valorile variabilei ce sunt situate n intervalul (m- ; m+ ) sunt considerate a fi valori tipice pentru acea variabil. Este foarte uor de constatat c scorurile z ale celor dou capete ale intervalului sunt 1 i 1, respectiv. Aadar, scorurile z situate n intervalul (-1; 1) sunt scoruri normale, tipice, iar scorurile z situate n afara acestui interval sunt scoruri atipice.

-1 m- valori atipice (16%)

0 m valori tipice, normale, medii (68 %)

1 m+ valori atipice (16%)

Scorurile z sunt foarte utile atunci cnd este vorba de a compara sau agrega dou distribuii diferite. Sperm c urmtorul exemplu va fi edificator. S presupunem c standardul de via al familiilor dintr-un ora este evaluat n funcie de dou criterii diferite: venitul pe cap de membru de familie n dolari (variabila X1) i suprafaa locuibil pe membru de familie n metri ptrai (variabila X2). Parametrii distribuiilor celor dou variabile sunt:

X1 m1 = 50 $ 1 = 10 $

X2 m2 = 9 mp 2 = 3 mp

O familie oarecare prezint urmtoarele valori ale acestor variabile: x1=48 $ i x2=15 mp. Ce se poate spune despre standardul de via al acestei familii? Vom calcula scorurile z pentru fiecare variabil. Pentru variabila venit avem: z1 = 48 50 = 0.2 10

ntruct aceast valoare este cuprins n intervalul (-1; 1), putem spune c aceast familie are un venit pe cap de membru normal, tipic. Pentru variabila suprafa locuibil avem: z2 = 15 9 =2 3

Valoarea 2 nu este o valoare tipic, nefiind cuprins n intervalul (-1; 1). Din punctul de vedere al suprafeei locuibile, aceast familie are un standard de via peste medie. ntruct scorurile z nu au unitate de msur, nimic nu ne mpiedic s le adunm n scopul de a determina standardul general de via al acestei familii: z = z1 + z 2 = 0.2 + 2 = 1.8 Acest scor ne spune c familia studiat de noi este una atipic, care se bucur de un standard de via ridicat, peste medie (lund n considerare, desigur, doar aceste dou criterii). Ce putei spune cu privire la standardul de via al unei familii cu un venit pe cap de membru de 65 $ i o suprafa locuibil pe membru de 7 mp?

Corelaia
n ncheierea acestui capitol vom vorbi despre corelaia dintre variabile. n natur i n societate se observ adesea faptul c unele fenomene sunt legate unele de altele, merg mpreun. Pentru a vedea cum se msoar ntr-un mod mai riguros intensitatea acestei legturi vom da urmtorul exemplu: se msoar (printr-o metod oarecare) gradul de stres a 6 manageri din firme diferite i se intenioneaz msurarea legturii dintre acest grad de stres (variabila X1) i numrul de subordonai ai fiecrui manager (variabila X2). Cele dou variabile se gsesc n primele dou coloane ale tabelului de mai jos. X1 9 11 6 X2 18 29 11 z1 0 0.50 -0.75 z2 -0.31 0.83 -1.04

14 12 2 M1 = 9

35 25 8 m2 = 21

1.25 0.75 -1.75

1.45 0.41 -1.35

Tabelul 3. Elemente pentru calculul coeficientului de corelaie Pentru msurarea intensitii legturii se folosete coeficientul de corelaie al lui Pearson, notat cu . El se determin dup formula:

z z
N

1 2

unde N este numrul de uniti din eantionul studiat (n cazul nostru 6). O alt formul pentru (de fapt cea mai folosit) este cea care face s intervin mediile i abaterile ptratice ale celor dou variabile:

(x

m1 )( x 2 m2 ) N 1 2

Coeficientul de corelaie poate lua valori cuprinse n intervalul [-1; 1]. Interpretarea sa se face astfel: - o valoare pozitiv a coeficientului de corelaie indic o legtur direct ntre cele dou variabile (cu alte cuvinte, valorilor mari ale uneia dintre variabile tind s le corespund tot valori mari ale celeilalte variabile). Dimpotriv, o valoare negativ indic o legtur indirect ntre variabile (valorilor mari ale uneia dintre variabile tind s le corespund valori mici ale celeilalte variabile). Valoarea 0 indic absena oricrei corelaii. - cu ct coeficientul de corelaie este mai apropiat de 1 n valoare absolut, cu att corelaia este mai puternic. n cazul nostru, valoarea lui este de 0.94. Aceasta indic existena unei corelaii pozitive: managerii cu muli subordonai tind a fi mai stresai. Mai mult, ntruct coeficientul este destul de mare (foarte apropiat de 1), corelaia este una puternic. Atenie! Un coeficient de corelaie mare nu indic neaprat existena unei legturi de cauzalitate ntre cele dou variabile; pur i simplu ne arat faptul c dou fenomene merg mpreun, fr a fi n mod necesar interdependente. Asupra coeficientului de corelaie vom reveni cu precizri suplimentare ntr-un capitol viitor.

S-ar putea să vă placă și