Sunteți pe pagina 1din 20

CURS ECONOMETRIE

Unitatea de învățare 2:
FUNDAMENTAREA DECIZIILOR FOLOSIND TESTAREA IPOTEZELOR
STATISTICE

Cuprins:

1. Ce am învățat în Unitatea de învățare 1


2. Obiectivele Unității de învățare 2
3. Concepte generale în testarea ipotezelor statistice
4. Repartiții teoretice remarcabile
5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare
6. Răspunsuri și comentarii la testele de autoevaluare
7. Bibliografia Unității de învățare 2
8. Lucrare de verificare 2

1. Ce am învățat în Unitatea de învățare 1

“ Econometria poate fi definită ca analiza cantitativă a fenomenelor economice actuale


bazată pe dezvoltarea în paralel a teoriilor şi observaţiilor relativ la metodele de inferenţă
potrivite” (P.A. Samuelson, T.C. Koopmans, J.R.N. Stone – Econometrica 1954)
Modelul econometric: Descrie, cu ajutorul unui set de simboluri, relaţiile de dependenţă
dintre fenomenele economice, pe baza unei ecuaţii sau a unui sistem de ecuaţii, permiţând
înţelegerea, explicarea sau obţinerea de informaţii noi privind comportamentul fenomenelor
cercetate.
Variabilele economice determină structura modelului econometri: variabile exogene sau
variabile endogene
Variabila aleatoare (ε): sintetizează totalitatea variabilelor (în afara celor factoriale) care
influenţează variabila endogenă, dar nu sunt specificate în cadrul modelului (factori aleatori)
Variabila timp (t) se introduce în anumite modele econometrice ca variabilă fictivă.

Într-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi introdus cu
următoarele valori:

1
 Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură

specifice naturii fenomenului cu media x și dispersia  x2

Valori centrate : xi*  xi  x cu media 0 și dispersia  x


2

xi  x
Valori centrate şi normate: xi 
**
 cu media 0 și dispersia 1
x

Tipuri de date:
 date de tip profil : "tăieturi informaţionale" efectuate într-o populaţie la un moment dat
 date de tip serii de timp: "secţiuni informaţionale" de-a lungul axei timpului
 date de tip panel: "tăieturi informaţionale mixte" transversale şi longitudinale, în
raport cu axa timpului.

Relaţiile statistice pe care se formulează modelul econometric pot fi:


 relaţii de identitate: sunt formulări logice cu privire la procesul economic descris
 relaţii de comportament: ecuaţii stochastice care modelează răspunsul variabilei
endogene Y la un set de valori ale variabilei exogene X;
 relaţii tehnologice: restricţiile impuse output-urilor în raport cu input-urile
 relaţii instituţionale: reflectă unele reglementări impuse de lege

Tipologia modelelor econometrice


1. după numărul factorilor luaţi în considerare
 modele unifactoriale: Y = f(X)+ ε
 modele multifactoriale: Y = f(X1,X2,...,Xp)+ ε
2. după forma legăturii dintre variabila rezultativă şi variabilele cauză
 modele liniare
 modele neliniare
3. după sfera de cuprindere a modelului
 modele globale (agregate)
 modele parţiale
4. după includerea factorului timp în model
 modele statice: Yt = f(X1t,...,Xjt,...,Xkt) + εt
 modele dinamice: Yt = f(Xt,t) + ε t ; Yt = f(Xt,Yt-k) + ε t ;Yt = f(Xt,Xt-1,... Xt-k) + ε t
5. După numărul de ecuaţii din model
 modele cu o singură ecuaţie: toate modelele prezentate anterior
 modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii

2
2. Obiectivele Unității de învățare 2

După studiul acestei unități de învățare vei avea cunostințe despre:


1. Noțiunile generale privind testarea ipotezelor statistice
2. Repartițiile Normală, Student, 2 , Fisher
3. Testarea legii de repartiţie a unei variabile aleatoare

3. Concepte generale în testarea ipotezelor statistice

Procesul de luare a deciziilor presupune analiza, judecarea şi interpretarea evidenţelor


oferite de datele pe care le avem la dispoziţie. Managerii trebuie să fie pregătiţi să ia decizii
privind acţiunile viitoare pe baza informaţiilor disponibile. Astfel ei emit ipoteze pe care le
pot testa ştiinţific utilizând metodele şi tehnicile statistice.

Testarea ipotezelor statistice reprezintă o altă modalitate, alături de estimaţia pe interval


de încredere, de a realiza inferenţa statistică. Scopul acestui tip de inferenţe statistice este să
determinăm dacă există suficiente dovezi statistice care să ne permită să concluzionăm că o
afirmaţie (sau o ipoteză) despre un parametru este adevărată.

Exemplu
☺Exemplu
Sute de produse noi sunt lansate în fiecare an. Dintr-o varietate de motive, multe dintre
acestea nu reuşesc să cucerească piaţa. De aceea, produsele care ajung în stagiul final de
lansare pe piaţă sunt evaluate de specialiştii în marketing, care doresc să facă predicţii asupra
succesului produselor (cu alte cuvinte, cât de bine se vor vinde). Evident, informaţii complete
şi sigure nu se pot obţine şi atunci specialiştii vor dori să tragă concluzii valide, pe baza
datelor disponibile din cercetări parţiale. Să presupunem că un lanţ de magazine doreşte să
vândă un nou produs lansat pe piaţă şi speră să aibă succes. După o analiză financiară,
specialiştii determină că, dacă mai mult de 10% dintre potenţialii cumpărători vor cumpăra
produsul, lanţul de magazine va obţine profit. Un eşantion aleator de clienţi potenţiali este
selectat şi persoanele sunt întrebate dacă ar cumpăra produsul. Procedeul de eşantionare şi de
culegere a datelor este cunoscut, din capitolele precedente, iar parametrul reprezintă proporţia
clienţilor care ar cumpăra produsul. Testarea ipotezei statistice se referă, atunci, la a determina
dacă proporţia cumpărătorilor este mai mare de 10%.

3
În urma prelevării unui eşantion dintr-o populaţie statistică, prin prelucrarea datelor
provenite din sondaj se obţine un estimator al parametrului urmărit în populaţia de origine. Se
pune atunci problema în ce măsură parametrul estimat pe baza rezultatelor sondajului asigură
„credibilitatea” aprecierilor făcute asupra întregii colectivităţi. Estimatorul este, aşadar, o
„presupunere” asupra parametrului, deci o ipoteză statistică. Nu este nevoie să testăm ipoteze
statistice atunci când ştim totul despre un fenomen, ci doar când există incertitudine.

Ipoteza statistică este ipoteza care se face cu privire la parametrul unei repartiţii sau la
legea de repartiţie pe care o urmează anumite variabile aleatoare. O ipoteză statistică nu este
neapărat adevărată. Ea poate fi corectă sau greşită.

În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza alternativă.


Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea
constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea
că nu există deosebiri esenţiale. Respingerea ipotezei nule care este testată implică acceptarea
unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1. Cele două
ipoteze reprezintă teorii, mutual exclusive şi exhaustive, asupra valorii parametrului
populaţiei sau legii de repartiţie. Spunem că ele sunt mutual exclusive deoarece este
imposibil ca ambele ipoteze să fie adevărate. Spunem că ele sunt exhaustive deoarece
acoperă toate posibilităţile, adică ori ipoteza nulă, ori ipoteza alternativă trebuie să fie
adevărată.

Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu de


semnificaţie. O secvenţă generală de paşi se aplică la toate situaţiile de testare a ipotezelor
statistice. Există patru componente principale ale unui test privind o ipoteză:
• ipoteza nulă;
• ipoteza alternativă;
• testul statistic;
• regiunea critică (de respingere).

Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rămâne
acelaşi, parcurgându-se următorii paşi:

4
1) Se identifică ipoteza statistică specială despre parametrul populaţiei sau legea de
repartiţie (H0). Ipoteza statistică – numită şi ipoteză nulă – specifică întotdeauna o singură
valoare a parametrului populaţiei şi reprezintă status- quo-ul, ceea ce este acceptat până se
dovedeşte a fi fals.

2) Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de cercetat), H1, ce
reprezintă o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi, evidenţe, pentru a se stabili că este adevărată.
Ipoteza alternativă este cea mai importantă, deoarece este ipoteza care ne răspunde la
întrebare. Ipoteza alternativă poate căpăta trei forme, care răspund la trei tipuri de întrebări
referitoare la parametrul studiat:
- dacă parametrul este diferit (mai mare sau mai mic) decât valoarea specificată în ipoteza
nulă;
- dacă parametrul este mai mare decât valoarea specificată în ipoteza nulă;
- dacă parametrul este mai mic decât valoarea specificată în ipoteza nulă;

3) Se calculează indicatorii statistici în eşantion, utilizaţi pentru a accepta sau a respinge


ipoteza nulă şi se determină testul statistic ce va fi utilizat drept criteriu de acceptare sau de
respingere a ipotezei nule.

Pentru cele mai multe testări statistice ale ipotezelor, testul statistic este derivat din
estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media
eşantionului este un estimator punctual al mediei din colectivitatea generală, ea va fi utilizată
în testarea ipotezelor privind parametrul media colectivităţii generale.

4) Se stabileşte regiunea critică, Rc. Regiunea critică reprezintă valorile numerice ale
testului statistic pentru care ipoteza nulă va fi respinsă. Regiunea critică este astfel aleasă încât
probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată, să fie α, cu α
mic (α=0.01 etc). Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras
din populaţia X, care este o variabilă aleatoare. Dacă punctul definit de vectorul de sondaj
x1,x2,…,xn cade în regiunea critică Rc, ipoteza H0 se respinge, iar dacă punctul cade în afara
regiunii critice Rc, ipoteza H0 se acceptă. Regiunea critică este delimitată de valoarea critică,
C – punctul de tăietură în stabilirea acesteia.

5
În baza legii numerelor mari, numai într-un număr foarte mic de cazuri punctul rezultat
din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus
ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul
populaţiei este adevărată. Cu alte cuvinte, atunci când respingem ipoteza nulă, trebuie să ne
gândim de două ori, deoarece există două posibilităţi: ea este falsă într-adevăr şi ea este totuşi
adevărată, deşi pe baza datelor din sondaj o respingem.

La fel şi pentru situaţia în care acceptăm ipoteza nulă H 0. Când ipoteza nulă nu poate fi
respinsă (nu există suficiente dovezi pentru a fi respinsă), sunt două posibilităţi: ipoteza nulă
este adevărată şi ipoteza nulă este totuşi falsă, greşită, deşi nu am respins-o. De aceea, este
mai corect să spunem că pe baza datelor din eşantionul studiat, nu putem respinge ipoteza
nulă, decât să spunem că ipoteza nulă este adevărată.

Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată, se numeşte eroare
de genul întâi. Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi
(α) şi se numeşte nivel sau prag de semnificaţie.

Nivelul de încredere al unui test statistic este (1-α), iar în expresie procentuală, (1-α)100
reprezintă probabilitatea de garantare a rezultatelor.

Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se numeşte eroare de
genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se notează cu β.
Puterea testului statistic este (1-β).

Tabelul 1 ilustrează legătura dintre decizia pe care o luăm referitor la ipoteza nulă şi
adevărul sau falsitatea acestei ipoteze.

Tabelul 1 Erorile în testarea ipotezelor statistice


Ipoteza adevărată
Decizia de acceptare
H0 H1
Decizie corectă Eroare de gen II
H0
(probabilitate 1-α) (risc β)
Eroare de gen I Decizie corectă
H1
(risc α) (probabilitate 1-β)

6
Cu cât probabilităţile comiterii erorilor de genul întâi şi de genul al doilea sunt mai mici,
cu atât testul este mai bun. Acest lucru se poate realiza prin mărirea volumului eşantionului, n.
Nivelurile riscurilor se stabilesc în funcţie de considerente economice şi de natura testului.
Am văzut că:
α = P(respingere H0 | H0 este corectă) = P(eroare de gen I)
β = P(acceptare H0 | H0 este falsă) = P(eroare de gen II)

Alegerea nivelului (pragului) de semnificaţie depinde şi de costurile asociate cu


producerea unei erori de genul I.

☺Exemplu
Pragul de semnificaţie ales de o firmă ce fabrică îngheţată, interesată în greutatea medie a
cutiilor de îngheţată va putea fi diferit de pragul de semnificaţie ales de o companie
farmaceutică, interesată de cantitatea medie a unui ingredient activ dintr-un tip de
medicament. Evident, costul în prima situaţie prezentată este mult mai mic, comparativ cu
costul asociat în cazul producerii unei erori de genul I pentru compania farmaceutică: o can-
titate prea mică de ingredient activ poate face medicamentul ineficient; o cantitate prea mare
de ingredient activ poate cauza efecte secundare, dăunătoare sau poate avea, chiar, efecte
letale.

Similar, există costuri asociate cu producerea unei erori de genul al II-lea. Între eroarea de
genul I şi eroarea de genul al II-lea există o legătură, o condiţionare. O modalitate de a
vizualiza această legătură este să presupunem că există doar două distribuţii care ne
interesează. O distribuţie corespunde ipotezei nule H0, iar cealaltă corespunde ipotezei
alternativei H1. În acest caz, presupunem că şi ipoteza nulă şi cea alternativă sunt ipoteze
simple. Într-o manieră uşor de înţeles, să considerăm că ipoteza nulă este de forma H0: μ=μ0,
iar ipoteza alternativă este de forma H1:μ=μ1 (figura 1):

7
Figura 1 - Legătura dintre probabilităţile α şi β

Pe grafic se observă că cele două distribuţii se suprapun şi, din procesul de testare a
ipotezei nule, pot rezulta două tipuri de erori.

Eroarea de genul I apare atunci când respingem ipoteza nulă H0, în situaţia în care, de fapt,
aceasta este adevărată. Adică, deşi distribuţia lui x este cea corespunzătoare ipotezei H0,
respingem H0, deoarece media de sondaj este mai mare decât valoarea critică, C, şi se situează în
regiunea critică. Probabilitatea comiterii unei astfel de erori (  ) este aria de sub curba de dis-
tribuţie H0, care se situează la dreapta valorii critice C. Deseori, când lucrăm cu soft-ware
specializat, întâlnim „valoarea-p“ („p-value“). Aceasta reprezintă nivelul observat de
semnificaţie, adică cel mai mic nivel la care H0 poate fi respinsă pentru un set de valori date.
Eroarea de genul al doilea apare atunci când nu respingem (adică acceptăm) H0, deşi H1
în loc de H0 este corectă. În acest caz, deşi distribuţia lui x este cea corespunzătoare ipotezei
H1, acceptăm H0 deoarece media de sondaj este mai mică decât valoarea critică, C (nu se află în
regiunea critică). Probabilitatea comiterii unei astfel de erori (β) este aria de sub curba de
distribuţie H1, care se situează la stânga valorii critice, C.

Dacă alegem un prag de semnificaţie, α, mai mic (adică reducem riscul comiterii unei
erori de genul întâi), va creşte β (riscul comiterii unei erori de genul al doilea). Cu toate
acestea, prin creşterea volumului n al eşantionului, este posibil să reducem riscul β, fără a
creşte riscul α.

s
Cum s x  x , o dată cu creşterea volumului n al eşantionului, abaterile medii pătratice
n

ale distribuţiilor pentru H0 şi H1 devin mai mici şi, evident, atât α, cât şi β descresc (figura 2).

8
Figura 2 - α şi β când volumul eşantionului n' > n

5) După ce am stabilit pragul de semnificaţie şi regiunea critică, trecem la pasul următor,


în care vom face principalele presupuneri despre populaţia sau populaţiile ce sunt
eşantionate (normalitate etc.).
6) Se calculează apoi testul statistic şi se determină valoarea sa numerică, pe baza
datelor din eşantion.
7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie acceptată, fie respinsă,
astfel:
 dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),
respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este adevărată.
Vom şti că această decizie este incorectă doar în 100 α % din cazuri;
 dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se acceptă
ipoteza nulă H0.

Ipoteza alternativă poate avea, aşa cum am arătat, una din trei forme (pe care le vom
exemplifica pentru testarea egalităţii parametrului „media colectivităţii generale”, μ cu
valoarea μ0):

i) să testăm dacă parametrul din colectivitatea generală (media μ) este egal cu o anumită
valoare (inclusiv zero, μ0), cu alternativa media diferită de valoarea μ0. Atunci:
H0: μ = μ0,
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0)
şi acest test este un test bilateral;

ii) să testăm ipoteza nulă μ = μ0, cu alternativa media μ este mai mare decât μ0.
H0: μ = μ0,
H1: μ > μ0,

9
care este un test unilateral dreapta;

iii) să testăm ipoteza nulă μ = μ0, cu alternativa media μ este mai mică decât μ0.
H0: μ = μ0,
H1: μ < μ0,
care este un test unilateral stânga.

Regiunea critică pentru testul bilateral diferă de cea pentru testul unilateral. Când
încercăm să detectăm o diferenţă faţă de ipoteza nulă, în ambele direcţii, trebuie să stabilim o
regiune critică Rc în ambele cozi ale distribuţiei de eşantionare pentru testul statistic. Când
efectuăm un test unilateral, vom stabili o regiune critică într-o singură parte a distribuţiei de
eşantionare, astfel (figura 3):

μ μ μ
a) b) c)

Figura 3 Regiunea critică pentru:


a) test bilateral; b) test unilateral dreapta; c) test unilateral stânga

Test de autoevaluare 1
1. Într-un proces de verificare a ipotezelor statistice nivelul de încredere reprezintă
probabilitatea:
) 
b) 1-
) 
d) 1-
e) +

2. Într-un proces de testare a ipotezelor statistice, eroarea de genul al doilea este:


f) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;

10
g) eroarea pe care o facem acceptând ipoteza alternativă când ea este falsă;
h) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;
i) eroarea pe care o facem eliminând ipoteza nulă când ea este adevărată;
j) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este falsă.

3. Într-un proces de testare a ipotezelor statistice, eroarea de genul întâi este:


a) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;
b) eroarea pe care o facem acceptând ipoteza nulă atunci când ea este falsă;
c) eroarea pe care o faccem acceptând ipoteza alternativă când ea este adevărată;
d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;
e) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este adevărată.

4. Repartiții teoretice remarcabile

1. Curba normală reprezintă grafic densitatea de probabilitate a repartiţiei normale.


Pentru repartiţia normală standard se obţine imaginea următoare, mai cunoscută sub
denumirea de clopotul lui Gauss.

Figura 4 - Curba lui Gauss

Utilitatea acestei repartiţii se datorează mai multor cauze, printre care:

11
 Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei legi.
Astfel, deviaţiile stânga-dreapta de la medie ale erorilor de măsurare urmează această
lege simetrică şi cu proprietatea că, erori din ce în ce mai mari sunt din ce în ce mai
rare.
 O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii un rol
privilegiat prin faptul că suma unui număr mare de variabile aleatoare
independente una de alta, dar identic repartizate, este repartizată Gauss sau
aproximativ Gauss. Această teoremă ne asigură de exemplu, de faptul că, media
calculată pe un lot are o repartiţie Gauss sau apropiată.
 S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o
repartiţie Gauss prin transformări simple şi în felul acesta devin mai uşor de studiat.

2. Densitatea Student este o repartiţie care intervine mult în aplicaţiile referitoare la


testele statistice. Are o formă simetrică şi seamănă ca aspect cu distribuţia Gauss standard.

Este în realitate o familie infinită de repartiţii, pentru fiecare n, număr de grade de


libertate (df), având o formă diferită.

Figura 5 - Curbe de repartiţie Student corespunzător la 3, 6 şi n>120 grade de


libertate.

Această densitate are proprietatea că are un maxim în 0 şi este simetrică stânga-dreapta


lui 0, ca formă. Are un aspect cu atât mai aplatizat cu cât numărul de grade de libertate este
mai mic. Deşi pare să se asemene cu curba lui Gauss, a densităţii normale, în realitate, între
ele este o diferenţă.

12
Cînd numărul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de
forma repartiţiei Gauss.

3. Repartiţia chi pătrat este o repartiţie care intervine mult în calculul şi testele statistice
referitoare la disperiile şi deviaţiile standard ale variabilelor aleatoare. Se ştie că pentru
calculul dispersiilor trebuie sumate pătratele celor n diferenţe dintre valorile dintr-o serie de
date şi media lor. Cum toate aceste diferenţe pot fi de multe ori asimilate unor variabile
aleatoare distribuite Gauss cu media 0 şi abaterea standard s, a populaţiei din care provine
eşantionul, suma pătratelor este o variabilă aleatoare repartizată chi pătrat. Se spune că avem
o repartiţe chi pătrat cu dispersia s2 şi cu n grade de libertate.

Graficul repartiţiei chi pătrat este asimetric, cu atât mai asimetric cu cât n este mai mic. În
figura 6, sunt desenate graficele a patru repartiţii chi pătrat, corespunzător la un număr de
grade de libertate n=2, n=5, n=15 şi n=25. Se observă că odată cu creşterea lui n, graficul
devine din ce în ce mai simetric.

Figura 6 - Curbe de repartiţie 2

4. Repartiţia Fisher este introdusă ca o repartiţie utilă în testarea ipotezelor statistice


privind compararea a două dispersii. Repartiţia F depinde de doi parametri, ν1 şi ν2, ambii
având semnificaţia unor grade de libertate. Notaţia uzuală este F(ν1, ν2) sau Fν1; ν2.

13
Figura 6 - Curbe de repartiţie F

5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare

Până acum am presupus că repartiţia teoretică a variabilei aleatoare X este specificată, iar
în cele mai multe cazuri este repartiţia normală.
De foarte multe ori chiar specificarea repartiţiei reprezintă o ipoteză care trebuie
verificată. De aceea, practica statistică pune problema realizării unei legături între variabila
empirică (de selecţie) X * şi variabila teoretică X .
x x 2  xi  x k  k
 x 
Fie variabilele: X :  1
*

n2  ni  nk 
 ; n i  1 , şi X :   .
 n1 i 1  f ( x) 

Se va cerceta dacă şirul numeric al frecvenţelor absolute empirice ni reflectă legea

ipotetică a variabilei teoretice X , concretizată în funcţia f ( x; a1 ,..., a k ) .

Rezolvarea acestei probleme presupune parcurgerea următoarelor etape:


1. Estimarea parametrilor, făcută ţinând seama de eventualele semnificaţii pe care le pot
avea în legătură cu caracteristicile distribuţiei teoretice şi de calităţile estimaţiei respective.

2. Se construieşte, după estimarea parametrilor, variabila pseudo-teoretică:


x x2  xi  xk  k
X ' :  1  ;
 n ' k 
 n' i  1 , făcându-se legătura între variabila
 n'1 n' 2  n'i i 1

empirică X * şi variabila teoretică X .

14
Determinarea frecvenţelor absolute calculate ni este realizată prin intermediul funcţiei
de probabilitate, folosind relaţia:
ni*
 f ( x; a1 ,..., a k ) , de unde ni*  ni  f ( x; a1 ,..., a k ) , i  1,..., n .
ni

Datorită unor proprietăţi ale au funcţiilor de probabilitate f ( x ) pentru determinarea


frecvenţelor calculate n' i , de cele mai multe ori se folosesc formulele de recurenţă,
pornindu-se de la valoarea dominantă (cu maximum de probabilitate a realizării
argumentului).

1. Verificarea ipotezei H 0 de concordanţă între repartiţia empirică şi repartiţia teoretică,


ipoteză ce se verifică folosind aşa-numitele teste de concordanţă .
a) Testul de concordanţă  2 :
k
( ni  n ' i ) 2
Studiind funcţia   
2
, K.Pearson a arătat că, în cazul unui sondaj cu
i 1 n'i

revenire în populaţia studiată, când probabilităţile pi nu sunt apropiate de 0 sau 1, iar

produsele n 'i  ni  pi , unde pi  f ( xi ) , după estimarea parametrilor, nu sunt prea mici


(practic nu sunt mai mici decât 5), funcţia considerată are repartiţia  2 cu ( s  1)  k grade
de libertate, s fiind numărul de valori observate, iar k numărul parametrilor estimaţi.

Observaţii:
◊ Dacă legea presupusă este legea Poisson, ea are un singur parametru, deci k  1 , iar
numărul gradelor de libertate va fi ( s  1)  1  s  2 ; dacă legea presupusă este legea
normală, atunci k  2 şi avem ( s  1)  2  s  3 grade de libertate.
◊ După cum am precizat mai sus, legea  2 condiţia ca n' i  ni  pi să nu fie numere mai
mici decât 5. În cazul în care există astfel de numere, se vor cumula la prima frecvenţă ni
mai mare ca 5. Aceasta face ca numărul s să fie modificat corespunzător noii situaţii, devenind
s , iar numărul gradelor de libertate devenind ( ~
~ s  1)  k . Dacă între repartiţia de selecţie şi

repartiţia teoretică există concordanţă, atunci statistica 2 definită în relaţia

k
( ni  n ' i ) 2
2   trebuie să fie mai mică şi nu va depăşi o valoare determinată  ( s 1)  k ;
2

i 1 n'i

corespunzătoare numărului gradelor de libertate ( s  1)  k şi pragului de semnificaţie 

15
dat. Regiunea critică a testului va fi dată de inegalitatea    ( s 1)  k ; şi deci, dacă
2 2

 2   (2s 1)  k ; acceptăm ipoteza H 0 , în caz contrar o respingem.

b) Testul de concordanţă al lui Kolmogorov:


Din studierea convergenţei funcţiei empirice de repartiţie F ( x ) către funcţia teoretică de
repartiţie F ( x ) , Kolmogorov a demonstrat următoarea teoremă:
   

 ( 1)
2
lim P d n    K ( )  e  2 k 2 , unde   0 şi d n  max Fn ( x )  F ( x ) .
k
n 
 n k  

Funcţia K (  ) este calculată în tabele pentru diverse valori ale lui  (tabelul distribuţiei
Kolmogorov) .
Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei H 0 că
repartiţia empirică urmează o anumită lege de repartiţie.
Dacă ipoteza H 0 este adevărată, atunci diferenţele Fn ( x )  F ( x ) nu vor depăşi o

anumită valoare d  ;n pe care o fixăm astfel încât: P ( d n  d  ;n / H 0 )   , unde  este riscul


de gradul întâi. Dar P (d n  d  ;n )  1  P ( d n  d  ;n ) .

Luând d  ;n  , înseamnă că atunci când H 0 este adevărată şi n suficient de mare
n

     
avem: P d n     1  P d n     1  K (  )   .
 n  n

Unui prag de semnificaţie  dat îi corespunde prin relaţia K (  )  1   o valoare 


astfel încât, pentru un volum n dat al selecţiei găsim valoarea d  ;n  .
n

Regiunea critică pentru ipoteza H 0 este dată de relaţia d n  . Deci:
n

 dacă d n  , există concordanţă între Fn ( x ) şi F ( x ) şi se acceptă ipoteza H 0
n

 dacă d n  , nu există concordanţă şi respingem ipoteza H 0 .
n

Exemplu

16
Distribuţia unui lot de noi automobile, după consumul de carburant la 100 km parcurşi, se prezintă astfel:

Intervale de variaţie a consumului (l) Nr. automobile


6,2 – 6,6, 4
6,6 – 7,0 12
7,0 – 7,4 44
7,4 – 7,8 90
7,8 – 8,2 107
8,2 – 8,6 86
8,6 – 9,0 36
9,0 – 9,4 15
9,4 – 9,8 6
Total 400

Să se verifice normalitatea distribuţiei utilizând testul 2.

Rezolvare:
k
n  np )2
f)Pentru verificarea
Se calculează normalităţii
statistica 
 2  repartiţiei
i

i 1
empirice
i
.
npi
se parcurg următoarele etape:
a) Se calculează x şi sx pentru distribuţia prezentată în tabel.
3198,8calculat  3,44 .
2
g) Dintabel
x n rezultă:
i i
x   7,997  8 litri
 ni anexe400
Din tabelele 2
se citeşte valoarea lui  tab , 0, 05,l 6  12,5916 , unde l = numărul gradelor

 )
de libertate, l = r –2 k – 1 = 9 - 2 - 1 = 6.
 x  x ni 143,84
s x2  2 i 2   0,3596
Cum  calculat
 ni  tab , se 400
acceptă ipoteza că între distribuţia empirică şi cea teoretică există
concordanţă.
sx = 0,5997 litri
b) Se calculează valorile variabilei normale normate pentru limitele superioare ale intervalelor:
xi sup  x Limitele ni xi xini ( x i  x ) 2 ni
zi  intervalelor
 6,2-6,6 4 6,4 25,6 10,24
Limita superioară a ultimei grupe se consideră +, iar limita inferioară17,28
6,6-7,0 12 6,8 81,6 a primului interval se
7,0-7,4 44 7,2 316,8 28,16
consideră -, ţinând cont de faptul că distribuţia
7,4-7,8 90 normală
7,6 tinde către 684,0 0, asimptotic.
14,40
7,8-8,2 107 8,0 856,0 0
c) Se calculează probabilităţile
8,2-8,6 (zi), ce 86
reprezintă probabilităţile
8,4 ca o valoare13,76
722,4 z să fie cuprinsă între 0
8,6-9,0 36 8,8 316,8 23,04
şi zi, ţinând cont că 9,0-9,4
(  z i )   ( z i )
15 9,2 138,0 21,60
9,4-9,8 6 9,6
d) Probabilităţile teoretice ca o valoare să se situeze în intervalul i sunt: 57,6 15,36
Total 400 - 3198,8 143,84
pi  F ( zi sup )  F ( zi 1 sup ) sau pi   ( zi sup )   ( zi 1 sup ) .

Excepţie faceLimitele
primul interval, pentru   ( z1 sup )pi ( 0 ,5 ) np
p1(z) 0 ,5   ( z1 sup ) 2
xi sup care:
x i
 ni  npi )
intervalelor zi 
şi ultimul interval, pentru care: pr  0 s x,5   ( z r 1 sup ) . npi
6,2-6,6 de apariţie
Suma probabilităţilor -2,3340 -0,4901 este 1.
a evenimentelor 0,0099 4 0
6,6-7,0 -1,6675 -0,4525 0,0376 15 0,6
e) Frecvenţele teoretice
7,0-7,4 se determină,
-1,0005pe baza-0,3413
probabilităţilor teoretice,
0,1112 44astfel: 0
7,4-7,8 -0,3335 -0,1293 0,2120 85 0,29
niteor  n  pi 7,8-8,2 0,3335 0,1293 0,2586 104 0,09
8,2-8,6 1,0005 0,3413 0,2120 85 0,01
8,6-9,0 1,6675 0,4525 0,1112 44 1,45
9,0-9,4 2,3340 0,4901 0,0376 15 0
9,4-9,8  0,5000 0,0099 4 1
Total - - 17 1,00 400 3,44
Test de autoevaluare 2
1. Un analist economic studiază distribuţia firmelor după procentul din venituri cheltuit pentru
cercetare-dezvoltare. Pentru a verifica ipoteza normalităţii empirice obţinute, el utilizează

testul 2 şi obţine, pentru un număr de grade de libertate, l=10, valoarea  calc


2
 18,30 .

Probabilitatea maximă cu care se garantează rezultatul este:


a) 75%;

18
b) 90%;
c) 95%;
d) 99%;
e) 97,5%.

6. Răspunsuri și comentarii la testele de autoevaluare

Test de autoevaluare 1
1. b) 1-
2. c) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;
3. d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;

Test de autoevaluare 2
1. b)

7. Bibliografia Unității de învățare 2

 V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc, D.Pele – Teorie şi


practică econometricăm Ed; Meteor Press, 2007
 T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

8. Lucrare de verificare 2

1. Ce reprezintă regiunea critică?


2. Când comitem o eroare de genul întâi?
3. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statistice?
4. Pentru fiecare dintre următoarele regiuni critice, schiţaţi distribuţia lui z şi indicaţi locul
regiunii critice (Rc):
a) z > 1,96;
b) z > 1,645
c) z > 2,575

19
d) z < -1,29
e) z < -1,645 sau z > 1,645
f) z < -2,575 sau z > 2,575.
5. Care este diferenţa dintre H0 şi H1?

20

S-ar putea să vă placă și