Sunteți pe pagina 1din 6

Distribuia Poisson

Distribuia Poisson este utilizat pentru a modela de cte ori se obine un


rezultat ntr-un interval de timp dat. Spre deosebire de distribuia Bernoulli nu exist o
limitare a numrului de ncercri. Formula pentru densitatea de probabilitate Poisson
este:
e x
, x = 0, 1, 2, ...
P( x; ) f ( x)
x!
unde:
este numrul mediu de rezultate obinute n intervalul dat.
Deci f(x) reprezint probabilitatea ca in intervalul de timp dat s fie obinute x rezultate
tiind c numrul mediu de rezultate obinute in acest iterval este . n cazul distribuiei
Poisson nu se cunoate pracic numrul de ncercri ci mai degrab numrul mediu de
rezultate obinute. Deci: = pn, p fiind probabilitatea de a obine un rezultat din
distribuia binomial.
Teoretic, n poate fi considerat ca tinznd ctre infinit, deci:
n!
n!

p x (1 p) n x
( ) x (1 ) n (1 ) x =
x!(n x)!
x!(n x)! n
n
n
n
n
x
n!

(1 ) n (1 ) x .
x
x!
n
n
n (n x)!n

lim

- variana: 2 ;
- coeficientul de variaie: v =
- asimetria : S =

- aplatizarea: K = 3 +

1
.

Funcia de repartiie este:


x y
e
F(x; ) =
.
y!
y 0

lim

lim

n!

lim
x lim
n (n x)!n
n

n(n 1)(n 2) ... (n x 1)


1.
nx

(1 ) n e .
lim
n
n

lim
n

Figura 1. Distributia Poisson de medie 5

(1 ) x 1 .
n

Rezult c:

lim
n

n!
x e
p x (1 p) n x
.
x!(n x)!
x!

Prprieti ale desitii de probabilitate:


- media: = ;
- abaterea standard: =

- abaterea standard: 2r ;
- modulul: r-2;
Funcia de repartiie 2 este:
r
1 y
r
y
y

1
x
x 2 2 e 2
y2 e 2
2
F x
dy
dy
r
r
r
0 2 2 r
0
2 2

2
2
r
1 y
r
r
x y 2 e 2
x
x/2
1 y
1 y
1
1
y
2
y 2

dy
e 2 dy
2
e 2 dy

2
r
r 2
r

2
2 0
2 0
0
2
2
2
r x
,
2 2

r

2
Repartiia 2 este asimetrica stnga, asimetrie care se atenueaz cu ct numrul gradelor
de libertate este mai mare, tinznd astfel spre o disribuie normal-gaussian.

Figura 2. Distributia Poisson de medie 50


Distribuia 2
Fiind date r distribuii normale normate independente, Yi, i =1,r, se definete
distribuia r2 cu r grade de libertate, astfel:
r
r2
Yi .

i 1
Densitatea de probabilitate 2 este:
r
x
1
x2 e 2
2
, 0 x,
r
r
2 2
2
unde r reprezint numrul gradelor de libertate iar p

p e x dx , reprezint

0
funcia Gamma.
Mai mult dect modelarea unor clase de fenomene, distribuia 2 este utilizat n testele
de verificare a concordanei repartiiilor.
Proprieti ale distribuiei 2:
- media: r;
- variana: 2r;

Figura 3. Distribuia 2 cu 3 grade de libertate

Metodele de analiz a datelor adeseori fac presupuneri cu privire la distribuii, prepuneri


care trebuie verificate. Din multitudinea de teste de concordan, dou se detaeaz ca
frecven de utilizare: testul 2 i testul Smirnov-Kolmogorov.

Figura 4. Distribuia 2 cu 30 grade de libertate


Teste de concordan
O ipotez statistic este o presupunere cu privire la caracteristicile unei
repartiii, valoarea unor parametrii sau indicatori, existena unor legturi sau legi. Sunt
definite dou alternative:
- ipoteza nul sau H0 constnd n afirmaia fcut;
- ipoteza alternativ sau H1 care const n non-afirmaie.
Testul statistic este o procedur specific n urma creia se trege o concluzie logic
privind afirmaia din ipoteza nul: este adevrat sau fals. Aceast procedur este una
probabilistic. Testul are asociat un grad de ncredere. n cazul testelor de concordan
este verificat ipoteza c o distribuie empiric este distribuit dup o lege de
probabilitate specificat, sau c dou distribuii empirice urmresc aceeai lege.
Utilizarea clasic este cea legat de concordana dintre modelul empiric i modelul
teoretic considerat adecvat pentru populaia din care provin datele statistice. n orice
test sunt calculate dou mrimi:
- valoarea calculat a testului sau valoarea critic,
- valoarea efectiv a testului sau satistica testului.
Valoarea critic depinde de gradul n care sunt acceptate valori marginale, caraterizate
prin densiti mici de probabilitate. Acesta este pragul de semnificaie i reflect zona
de respingere a ipotezei nule. Complementar, gradul de incredere reflect zona de
acceptare. Dac valoarea efectiv este mai mic sau egal dect valoarea critic, ipoteza
H0 este acceptat, altfel este respins.

Testul 2
Testul 2 este un test general, care poate fi aplicat oricrei distribuii empirice
creia putem sa i calculm funcia de repartiie. Testul 2 se aplic datelor grupate (sau
datelor de frecven). Algoritmic, testul se aplic astfel:
1. Fie distribuia empiric X = {x1, x2, ..., xT}. Vor fi mprite observaiile n m grupe i
se vor determina frecvenele absolute ale grupelor:
fai, i = 1,m
2. Se calculeaz frecvenele medii estimate prin funcia de repartiie testat:
fei = T(F(li+1)-F(li)), i = 1, m,
unde F este funcia de repartiie testat iar li, i =1,m+1 sunt limitele grupelor
3. Se calculeaz valoarea efectiv a testului sau statistica testului:
m
fai fei 2
2
Calculat

fei
i 1
2
4. Se determin valoarea critic a testului Critic
( ;m c +1)
unde:
- este nivelul (pragul) de semnificaie al testului;
- c este numrul de parametri ai distribuiei F (distribuia normal-gaussian are doi
parametrii, media i abaterea standard);
- mc+1 numrul de grade de libertate ale distribuiei 2.
Aceast valoare se calculeaz aplicnd funcia de repartiie a distribuiei 2 pentru
parametrii specificai.
5. Decizia asupra acceptrii sau respingerii ipotezei H0 se ia astfel:
2
dac 2
atunci se accept ipoteza nul, respectiv datele provin din
Critic
Calculat
distribuia testat
altfel se respinge ipoteza nul, respectiv datele nu provin din distribuia testat.

Testul Smirnov-Kolmogorov
Este utilizat pentru testarea ipotezei de normalitate. Etapele algoritmului:
1. Fie distribuia empiric X = {x1, x2, ..., xT}. Se calculeaz media distribuiei i abaterea
standard, i .
2. Se ordoneaz cresctor valorile eantionului i se obine eantionul ordonat:
x(1), x(2), ..., x(T)
3. Se calculeaz funcia de repartiie normal pentru valorile ordonate:

F(x(1)), F(x(2)), ... , F(x(T))


4. Se calculeaz funcia de repartiie empiric:
j
Fe(x(j)) = , j=1,T, deoarece densitatea de probabilitate pentru repartiia empiric este
T
1
T
4. Se calculeaz valoarea efectiv a testului sau statistica testului:

Problema care se pune este de a msura intensitatea legturii dintre cele dou
variabile deoarece legtura nu este de regul absolut. De exemplu, dac urmrim
variabilele greutate i talie la un grup de persoane vom observa c ele variaz n general
mpreun i n acelai sens. Exist ns situaii n care indivizi cu talie mai mic pot
avea greuti mai mari dect indivizi cu talie mai mare.
Relaia dintre variabilele X i Y va fi cu att mai intens cu ct valorile
reziduale ei vor fi mai mici. Din punct de vedere matematic vom determina parametrii

D=

a i b astfel nct

Max Fex( j) F x( j)

x x
redus o notam cu z i se obine astfel: z i i
.

1
z
n

i 1

Var(z) =

1
zi
n

1
n

i 1

xi x

i 1

( zi z ) 2

1
n

( xi x )

i 1
n x

i 1

zi2

1
n

0
n

i 1

( xi x) 2
1.
Var( x)

Relaia dintre dou variabile cantitative. Legtura liniar simpl


Dac se noteaz cu X i cu Y dou variabile cantitative i cu xi i yi valorile
luate de variabile pentru individul i, legtura liniar simpl dintre cele dou variabile
este dat de relaia:
yi = axi +b + ei, i =1,n
unde ei este un termen rezidual.

2
i

s fie minim.

i 1

j
5. Se determin valoarea critic a testului, d1-,T, unde 1- este gradul de ncredere
6. Se ia decizia astfel:
-dac D d1-,T se accept ipoteza normalitii cu un grad de incredere 1-
- dac D> d1-,T se respinge ipoteza normalitii cu un grad de incredere 1-
Proprietile eseniale ale mediei i varianei sunt urmtoarele:
2
-oricare ar fi a i b reali, ax b a x b i Var(ax+b) = a Var(x);
- media unei variabile centrate este 0, iar variana unei variabile reduse este 1
c
c
Variabila centrat o notm cu x i se obine astfel: x i= xi- x , iar variabila

Soluia acestei probleme obinut aplicnd regula celor mai mici ptrate este:
n

( xi x)( yi y )
n

a i 1

Var( X )
b y a x

Dac se noteaz covariana dintre cele dou variabile cu Cov(X,Y) =

1
n

( x x)( y y) rezult:
i

i 1

Cov( X , Y )

a
Var( X ) .

b y ax

Fluctuaiile variabilei Y masurate prin varian, Var(y) reprezint variana


total. Fluctuaiile valorilor calculate pentru Y, care depind de X, sunt masurate prin
variana Var(ax+b) i reprezint variana explicat. Fluctuaiile valorilor reziduale ,
Var(e), reprezint variana rezidual. Relaia dintre cele trei variane este urmtoarea:
Variana total = Variana explicat +
Variana rezidual
Var(y) =
Var(ax+b) +
Var(e)

Var(y) =

1
n

( y y)
i

i 1

Deoarece, yi = axi +b +ei si b = y a x , rezult: yi y a( xi x) ei .


nlocuind n relaia varianei se obine:

Var(y) =

a2
n

2a
n

1
n

(a( xi x) ei ) 2

i 1

1
n

(a

( xi x) 2 2a( xi x)ei ei2 )

i 1

(xi x) 2 a 2Var( x) Var(ax) Var(ax b)

y
i 1

2
i

Cosinusul unghiului dintre cei doi vectori este :


n

( xi x)ei 2aCov( x, e) 2aCov( x, y ax b)

x, y
=
Cos( x, y )
x y

i 1
2a(Cov( x, y ) Cov( x, ax b))

Cov( x, y)
=2a(Cov(x,y) a Cov(x,x)) = 2a ( Cov(x, y) Var( x)) = 0.
Var( x)

1
n

xi yi

i 1

i 1

i 1

i 1

xi2 yi2

1
n

xi yi
i 1

xi2
i 1

1
n

yi2
i 1

Dac se consider vectorii X i Y dou variabile centrate, din relaia


anterioar obinem:
Cos(X,Y ) =

ei2 Var(e)

i 1

1
n

Cov( X , Y )

XY

= R(X,Y )

Se msoar intensitatea legturii dintre X i Y prin raportul dintre variana


2
explicat i variana total. Acest raport , numit raport de corelaie este notat R (x,y):

Var(ax b)
Var( x)
Cov( x, y) 2
.
R 2 ( x, y)
a2

Var( y)
Var( y) Var( x)Var( y)
2
Rdcina din R este numit coeficient de corelaie liniar i este:
Cov( x, y)
R=
.

Cos(G) = R(X,Y)

x y

Unghiul G

Interpretarea geometric a coeficientului de corelaie


n
O variabil X lund n valori poate fi reprezentat printr-un vector n spaiul R ,
n
numit i spaiul variabilelor. n spaiul R produsul scalar simplu dintre doi vectori X i
Y de coordonate (x1,...,xn) i (y1,...,yn) este:
n

<x,y> =

x y

Cnd coeficientul de corelaie este egal cu 1 cei doi vectori sunt coliniari, adic
valorile xi i yi sunt proporionale. Absena corelaiei se traduce printr-o valoare nul
pentru R, deci ntre cei doi vectori este un unghi de 90 de grade.

i i

i 1

iar normele celor doi vectori sunt :

x x, x

x
i 1

2
i

Descrierea unei variabile calitative


Ca i o variabila cantitativ, o variabil calitativ este dat de valorile pe care
le ia la cei n indivizi pe care-i descrie. Principalii indicatori care sunt calculati pentru
variabilele calitative sunt:

- frecvena absolut care reprezint numrul de indivizi la care se inregistreaz o


anumit modalitate
- frecvena relativ care reprezinta frecvena absolut raportat la numrul de indivizi.
Legtura dintre dou variabile calitative. Testul de independen 2
Fie dou distribuii X = {x1, x2, ... , xT} i Y = {y1, y2, ... , yT}. Variabila X are p
modaliti iar variabila Y, q modaliti. Frecvenele ncruciate sunt memorate n tabelul
F:
f11 f12 ... f1q
f

21 f 22 ... f 2q
. Un element oarecare, fij, reprezint numrul de instane
F
...

f p1 f p 2 ... f pq
la care variabila X are modalitatea i iar variabila Y are modalitatea j. Frecvenele
cumulate pe linii i coloan sunt definite astfel:
q
fi.
fij , i 1, p - numrul de instane la care se ntlnete mdalitatea i pentru

j 1
variabila X;
p
f. j
fij , j 1, q - numrul de instane la care se ntlnete mdalitatea j pentru

i 1
variabila Y.
Testul 2 este utilizat pentru a stabili dac exist o legtur ntre cele dou variabile
calitative (nominale). Ipoteza nul specific faptul c nu exist o relaie ntre cele dou
variabile, adic:
H0: Cele dou variabile sunt independente
H1: Cele dou variabile sunt dependente
Paii aplicrii testului sunt:
1. Se calculeaz frecvenele medii estimate:
fi. f. j
feij =
, i =1,p, j = 1,q
T
2. Se calculeaz statistica testului:
2
Calculat

p q

fij feij 2

i 1 j 1

feij

2
( ; r ) unde este pragul de
3. Se calculeaz valoarea critic a testului: Critic
semnificaie al testului iar r este numrul gradelor de libertate, n acest caz r = (p-1)(q1).
4. Decizia asupra acceptrii sau respingerii ipotezei H0 se ia astfel:
2
2
( ; r ) atunci se respinge ipoteza nul cu un nivel de incredere
Critic
dac Calculat
1-, deci cele dou variabile se influeneaz reciproc.

S-ar putea să vă placă și