Sunteți pe pagina 1din 4

ANALIZA PRELIMINAR A DATELOR STATISTICE

Concepte fundamentale ale analizei datelor


Populaie i eantion. Populaia sau colectivitatea general este reprezentat
de mulimea tuturor msurtorilor care reprezint interes pentru cercettor sau
experimentator.
Atribut sau caracteristic. Reprezint trsturile, proprietile unitilor din
care este alctuit populaia.
Variabila. Variabila este un concept abstract care permite atribuirea de valori,
numerice sau nenumerice, unui atribut sau caracteristici. Ea trebuie s fie nzestrat cu
o sintax univoc i o semantic precis.
Variabilele pot fi de dou tipuri: variabile calitative i variabile cantitative.
Variabilele calitative sunt variabile ce difer prin tip, se refer la proprieti
nenumerice ale unitilor elementare aparinnd unei populaii i nu pot fi exprimate
numeric. Valorile variabilelor calitative sunt numite modaliti.
Variabilele cantitative sunt variabile care difer prin mrime, se refer la
proprieti numerice ale unitilor elementare dintr-o populaie i sunt exprimate n
uniti numerice. n funcie de natura valorilor pe care le iau, variabilele se mpart n
dou categorii: variabile de tip discret i variabile de tip continuu.
Variabile
Variabile calitative

Variabile cantitative

Densitatea de probabilitate msoar posibilitatea ca o variabil s ia o anumit


valoare. Este deci o funcie definit pe mulimea de valori posibile ale variabilei cu
valori n intervalul [0,1]:
f(x) = P(X=x),
unde X este variabila iar x este o valoare pe care o poate lua.
Exemplu. S presupunem c avem o variabil reprezentnd talia (nlimea)
unor subieci umani, exprimat n centimetrii. Probabilitatea ca variabila s ia valoarea
175 este:
P(X = 175) = f(175)
i exprim probabilitatea ca un individ s aib 175 cm nlime.
Densitatea de probabilitate ca funcie analitic, poate diferite forme
particulare, specifice. Diferenele sunt de natura domeniului de definiie i al valorilor
parametrilor determinate de forma analitica a funciei. De exemplu, chiar dac avem un
acelai domeniu de definiie, s zicem, subieci umani (persoane), densitatea de
probabilitatea a unei variabile talia va avea form diferit de variabila venit anual.
Exemple de densitate de probabilitate: Gaussian (normal), uniform,
Poisson etc.
Funcia de repartiie reprezint probabilitatea ca o variabil aleatoare s ia
valori dintr-un anumit interval:
x
F(x) = P(X x)=

f ( y)dy .

Din punct de vedere geometric F(x) este aria de sub curba densitii de probabilitate:
Nominale

Ordinale

Continue

Discrete

Asocierea valorilor la variabile se face n urma procesului de msurare.


Msurarea se face prin intermediul unor repere i sisteme de referin cunoscute sub
denumirea de scal. Scala nominal este asociat variabilelor calitative de tip nominal.
Scala ordinal este asociat variabilelor calitative de tip ordinal. Scale metrice: scala
interval , scala raport.

Spaiul variabilelor
Densitate de probabilitate i funcie de repartiie

Indicatori ai variabielor aleatoare


Exist trei grupe de indicatori:
- inicatori de poziie: media, mediana, percentilele, cuartilele i modulul;
- indicatori de mprtiere: amplitutinea, variana, abaterea medie absolut, abaterea
standard i coeficientul de variaie;
- indicatori de form a repartiiei: simetria i aplatizarea.
Media.
Cazul discret:

E( X )

x f x ,

xR
unde f(x) este probabilitatea ca variabila s ia valoarea x (densitatea de probabilitate).
Pentru o repartiie uniform cu n subieci:
n
1
E( X ) x
xi .
n
i 1

Cazul continuu: E ( X )

x f ( x)dx .

R
Mediana este acea valoare care imparte setul de valori posibile in dou: 50% valori mai
mici i 50% valori mai mari. Deci:
P(Xxme)=0.5
unde xme este mediana.
Percentila de ordinul p este acea valoare care are proprietatea c cel mult p% dintre
valorile seriei sunt mai mici dect ea i cel mult (100-p)% dintre valori sunt mai mari.
S presupunem c avem seria Yi, i=1,n. Notm cu Y[k] elementul de rang k al seriei (cel
care are k-1 elemente mai mici). Dac notm cu y(p) percentila de ordin p, aceasta se
calculeaz astfel:
y(p) = Y[k] + d (Y[k+1]-Y[k]),
unde:
k este parte ntreag din p(n+1)/100 i reprezint numrul valorilor din serie mai mici
dect percentila de ordin p, iar d reprezint p(n+1)/100-k (partea zecimal a numrului
real p(n+1)/100 ) i reflect distana procentual la care se afl percentila de elementul
Y[k]. Valoarea d locul unde se afl percentila fa de valorile din jurul ei.
Exemplu.
Y = (25,10,1,1200,1010).
Cutm percentila de ordin 61.
Prin sortarea cresctoare a lui Y obinem:

Y = (1,10,25,1010,1200).
p(n+1) = 61*6/100=3.66
Rezult: k = 3, d = 0.66.
y(61) = Y3+d(Y4-Y3) = 25 + 0.66(1010-25) = 675.1
Cuartila inferioar, notat cu Q1, este percentila de ordinul 25.
Cuartila de mijloc, notat cu Q2, este percentila de prdinul 50.
Cuartila superioar, notat cu Q3, este percentila de ordinul 75.
Indicatorul interquartile este diferena dintre cuartila superioar i cea inferioar.
Modulul este valoarea cea mai probabil. n mod uzual modulul se determin ca
valoarea cu frecvena cea mai mare.
Amplitudinea reprezint diferena dintre valoarea cea mai mare i valoarea cea mai
mic a unei variabile aleatoare:
A = Xmax - Xmin.
Abaterea medie absolut caracterizeaz mprtierea valorilor unei variabile aleatoare:
d=

x x f ( x) , pentru cazul discret,

xR
d=

x x f (x)dx , pentru cazul continuu.


R

Pentru o repartiie uniform, cu f(x) =

1
d=
n

1
, unde n reprezint numrul valorilor posibile,
n

xi x .

i 1
Variana caracterizeaz cel mai bine mprtierea valorilor unei variabile aleatoare. Aa
cum sugereaz i numele, este o msur a variabilitii valorilor posibile luate de
variabil:
n
2
2
1
2
2
2
2
xi x

x x f ( x) , x x f ( x)dx ,
n
i 1
xR
R

Pentru comparabilitate cu valorile variabilei aleatoare, din punct de vedere al unitilor


de msur, se utilizeaz abaterea medie ptratic sau abaterea standard: 2 .

Coeficientul de variaie se calculeaz ca raport ntre abaterea standard i media


variabilei: Cv

. Prin natura calculului coeficientul de variaie este standardizat,

x
nedepinznd de unitile de msur ale variabilelor. O variabil este cu att mai
omogen cu ct coeficientul de variaie este mai apropiat de 0.
Asimetria msoar graul n care valorile sunt distribuite de o parta sau de alta a valorii
centrale:
3( X me )
(Pearson),
Sp

SF

E (( X E ( X ))3 )

(Fisher).
E (( X E ( X )) 2 )
Aplatizarea:
E (( X E ( X )) 4 )
(Pearson),
KP
E (( X E ( X )) 2 ) 2
KF = KP-3 (Fisher).

Distribuii empirice
Indicatorii prezentai se refer la nivelul ntregii populaii studiate. n
majoritatea situaiilor, comportamentul unei variabile aleatoare la nivelul ntregii
populaii nu poate fi studiat din cauza problemelor de obinere complet a informaiilor.
Studiul efectiv al comportamentului unei variabile se face pe mulimea observaiilor
aparinnd unor eantioane ale colectivitii generale. Eantionul este fomat din
mulimea observaiilor {x1, x2, ..., xT} unde T reprezint volumul eantionului. Prin
distribuie empiric se nelege mulimea valorilor observate aparinnd eantionului.
1
n cadrul unui eantion densitatea de probabilitate are forma: fT ( X ) i se numete
T
densitatea de probabilitate empiric. Prin urmare, media i variana acestei distribuii
T
T
T
2
2
1
1
1
xi x sau 2
xi x pentru T-1 grade
xi , 2
sunt: x
T
T
T 1
i 1
i 1
i 1
de libertate.

Urmeaz o lege de probabilitate de tip discret. Rspunde urmtoarei ntrebri:


Care este probabilitatea de a obine de exact k ori un rezultat caracterizat de
probabilitatea p dintr-un numr total de n ncercri? Probabilitatea de a obine de k ori
rezultatul de probabilitate p este: pk. Aceast probabilitate trebuie inmulit cu
probabilitatea ca la restul de n-k incercri s nu se obin rezultatul respectiv: (1-p)n-k .
Dar avnd n vedere c distribuia celor k incercri n irul de n ncercri este dat de
combinri de n luate cte k, obinem:
n!
P(k ; p, n)
p k (1 p) n k .
(n k )!k!
Exemplu. Probabilitatea ca din zece aruncri cu zarul s se obin de 6 ori cifra 4:
1
6 ( 1 )6 (1 1 ) 4 0.00217.
P(6; ,10) C10
6
6
6
Densitatea de probabilitate binomial este deci:
f ( x) Cnx p x (1 p) n x , x 0,2,..., n .
Media unei distribuii binomiale este:
n
n
n!

xCnx p x (1 p) n x
x
p x (1 p) n x =
x!(n x)!
x 0
x 0
n
n!
x
p x (1 p) n x .
x!(n x)!
x 1

Legi de probabilitate - tipuri de distribuii


Distribuia binomial (Bernoulli)

Dac se efectueaz o schimbare de variabil y=x-1, se obine:


n 1
n!

( y 1)
p y 1(1 p) n 1 y
( y 1)!(n 1 y)!
y 0
n 1
n!
p
p y (1 p) n 1 y
y!(n 1 y)!
y 0
Fie m = n-1. Prin nlocuire n relaia de mai sus se obine:

y 0

(m 1)! y
p (1 p) m y p n
y!(m y)!

y 0

m!
p y (1 p) m y
y!(m y)!

p n p 1 p m p n.
Variana distribuiei este:
2 E X 2 E X 2 2 2 X E X 2 p2n2 2 p2n2 .

(1) 2 E X 2 p 2n2 .

Vom obine E(X2) din E(X2-X) astfel:


n
n
n!
n!
x
n

x
E X ( X 1)
x( x 1)
p (1 p)

x( x 1)
p x (1 p)n x
x!(n x)!
x!(n x)!
x 0
x 2

Vom face schimbarea de variabil ca mai sus, y=x-2.


n2
n!
E X 2 X
( y 2)( y 1)
p y 2 (1 p) n y 2

( y 2)!(n y 2)!
y 2
n2
n!
p2
p y (1 p) n y 2 . Notm m = n-2 i nlocuim:
y!(n y 2)!
y 0
m
(m 2)! y
E X 2 X p 2
p (1 p)m y

y!(m y)!
y 0
m
m!
p 2 (m 2)(m 1)
p y (1 p)m y p 2n(n 1).
y!(m y)!
y 0

E X 2 X E X 2 E X p2n2 p 2n .

E X 2 p 2n2 p 2n p n . Inlocuim E X 2 n relatia (1) i obinem:

2 p2n2 p2n p n p2n2 np(1 p) .


Distribuia normal (Gauss-Laplace)
Pentru o distribuie x cu medie m i abatere standard , densitatea de
probabilitate este:
x m2

2
1
e 2
f(x) = f(x;m, ) =
.
2
n cazul n care media este 0 i abaterea standard este 1 (distribuie standardizat) avem
distribuia normal normat:
x2

1
f(x) = f(x;0, 1) =
e 2 .
2

S-ar putea să vă placă și