Sunteți pe pagina 1din 59

Indicatorii variaţiei (împrăştierii)

suport
Cursurile 4 si 5
Necesitatea masurarii variabilitatii

 La nivelul colectivităţii legea comportamentului


acestor fenomene este reflectată sintetic de
indicatorii tendinţei centrale: media, mediana,
valoarea modala etc.
 Utilizarea corectă a indicatorilor tendinţei,
centrale în fundamentarea deciziilor, necesită
verificarea stabilităţii şi reprezentativităţii
valorilor înregistrate de aceştia.
Necesitatea masurarii variabilitatii

 Astfel, valoarea determinată a mediei este


reprezentativă numai în măsura în care ea este
calculată din date omogene, apropiate între ele ca
mărime.
 Aceasta înseamnă că determinarea valorii mediei
trebuie să fie însoţită de verificarea omogenităţii
valorilor individuale din care ea s-a calculat.
 Verificarea omogenităţii valorilor individuale necesită
măsurarea şi analiza împrăştierii şi concentrării faţă
de valorile tipice calculate.
Necesitatea masurarii variabilitatii

 Indicatorii împrăştierii (variaţiei) utilizaţi în analizele


statistice sunt clasificaţi după mai multe criterii:
 după numărul variantelor luate în calcul (sau după gradul
lor de sinteză), există indicatori simpli şi indicatori
sintetici;
 după modul de sistematizare a datelor primare există
indicatori ai variaţiei calculaţi pentru serii de distribuţie
unidimensionale şi indicatori ai variaţiei calculaţi pentru
serii multidimensionale;
 după modul de calcul şi exprimare există indicatori ai
variaţiei calculaţi ca mărimi absolute şi ca mărimi relative.
Indicatorii simpli ai variatiei

1) Amplitudinea împrăştierii sau variaţiei (A) se defineşte prin diferenţa


dintre cea mai mare şi cea mai mică valoare individuală înregistrată.
A = xmax - xmin
sau ca marime relativa:
𝑥𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛
𝐴 % = 100
𝑥ҧ

Observatie:
Ca măsură a împrăştierii valorilor individuale amplitudinea prezintă
dezavantajul că nu ţine seama de toate observaţiile şi este sensibilă la
prezenţa valorilor aberante.
Indicatorii simpli ai variatiei

2) Abaterea intercuantilică se calculează, ca diferenţă între


cuantila superioară şi cuantila inferioară de acelaşi ordin.
Abaterea intercuartilica, pentru r = 4: ∆𝑄 = 𝑄3 − 𝑄1 conţine 50% din
numărul observaţiilor
Observatie:
Calculul abaterii intercuartilice,
spre deosebire de cel al
amplitudinii prezintă avantajul că
evită valorile individuale extreme
sau aberante. Prin calculul acestui
indicator se pierd informaţii dar
are câştig de cauză omogenitatea
valorilor individuale.
Indicatorii simpli ai variatiei

3) Abaterile individuale ca măsuri ale împrăştierii într-o serie


exprimă cu câte unităţi de măsură sau de câte ori (sau cât la
sută) valoarea caracteristicii urmărită la fiecare unitate a
colectivităţii se abate de la mărimea unui indicator al
tendinţei centrale.

Abaterile individuale se exprimă în mărimi absolute sau


relative şi se calculează astfel:
𝑥𝑖 − 𝑥ҧ
𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑑𝑖 % = 100
𝑥ҧ
Indicatorii simpli ai variatiei

În analizele statistice se urmăresc în mod deosebit


abaterile maxime pozitive (dmax+) şi negative (dmax-)
calculate în cifre absolute sau relative astfel:
𝑥𝑚𝑎𝑥 − 𝑥ҧ
𝑑𝑚𝑎𝑥+ = 𝑥𝑚𝑎𝑥 − 𝑥ҧ 𝑑𝑚𝑎𝑥+ % = 100
𝑥ҧ

𝑥𝑚𝑖𝑛 − 𝑥ҧ
𝑑𝑚𝑎𝑥− = 𝑥𝑚𝑖𝑛 − 𝑥ҧ 𝑑𝑚𝑎𝑥− % = 100
𝑥ҧ
Indicatorii simpli ai variatiei

 Observatii:
a) Suma abaterilor individuale, calculate în raport cu
media variantelor caracteristicii, este nulă, deoarece
abaterile într-un sens sau altul, în sinteză, se
compensează reciproc.
b) În cursul seriilor de distribuţie de frecvenţe pe
intervale, pentru calculul abateriilor individuale se
iau în considerare centrele de interval (ci).
c) În cazul unei distribuţii simetrice 𝑑𝑚𝑎𝑥+ = 𝑑𝑚𝑎𝑥−
Indicatorii sintetici ai variaţiei

1) Abaterea medie absoluta sau liniară


Definiţie: Media aritmetică a abaterilor individuale faţă de medie (di)
luate în valoare absolută
Pentru o serie de frecvenţe sau pentru o
Pentru un şir simplu de valori: serie de date grupate pe intervale de


grupare:
d
x i x
d
 c  x n
i i
n n i

Obs. Abaterea medie liniară are ca unitate de măsură, unitatea de


măsură a variabilei analizate.
Indicatorii sintetici ai variaţiei

2) Dispersia sau momentul centrat de ordin 2


Definiţie: Media aritmetică a pătratelor abaterilor individuale faţă de
medie (di)
Pentru o serie de frecvenţe sau pentru o
Pentru un şir simplu de valori: serie de date grupate pe intervale de
grupare:
 x  x
2
 c  x  2
 ni
 2

i
 2
 i
n n i

Obs. Din considerente de interpretare vom lăsa dispersia fără unitate de


măsură.

Formula alternativă de calcul a dispersiei:  2  x p2  x 2


Indicatorii sintetici ai variaţiei

Dispersia variabilei de tip binar


2

 ix  x 2
ni
(1  p ) 2  N  (0  p ) 2  M 2 N  2 M 
2  i 1
 q   p  
2
N M N M  N M 
n
i 1
i

 q 2 p  p 2 q  pq( p  q )  pq  p(1  p )
Caracteristica Frecventa absoluta Frecventa relativa
X1=1
X2=0
M
N
p=M/M+N
q=N/M+N x p
total M+N p+q=1
Indicatorii sintetici ai variaţiei

Regula de adunare a dispersiilor


Dacă o colectivitate statistică cu este structurată în mai multe grupe,
atunci dispersia generală (a colectivităţii) este determinată în
funcţie de media dispersiilor corespunzătoare subcolectivităţilor şi
de dispersia mediilor parţiale de la media general.
𝜎 2 = 𝜎ത 2 + 𝛿 2
unde:
𝜎 2 - dispersia generala
𝜎ത 2 - media dispersiilor partiale (dispersiile grupelor)
𝛿 2 - dispersia mediilor grupelor de la media generala (a colectivitatii)
Indicatorii sintetici ai variaţiei

 𝜎ത 2 - media dispersiilor partiale (dispersiile grupelor)


Acesta sintetizeaza variatia din interiorul grupelor si se datoreaza
unor factori aleatori.
2
2
σ 𝜎𝑖 𝑛𝑖
𝜎ത =
σ 𝑛𝑖
 𝛿 2 - dispersia mediilor grupelor de la media generala sau
dispersia dintre grupe
Acesta sintetizeaza influenta factorului sistematic, de structurare a
colectivitatii.
σ ഥ
𝑥 −𝑥Ӗ 2𝑛
σ 𝑥ഥ𝑖 𝑛𝑖
𝛿 2= σ 𝑖 𝑖
cu 𝑥Ӗ = σ 𝑛𝑖
𝑛𝑖
Indicatorii sintetici ai variaţiei

 Pe baza acestor dispersii se calculeaza un coeficient care se


numeste grad de determinare 𝑅2
2
𝛿
𝑅 2 = 2 ∙ 100
𝜎
𝑅2 exprima masura in care variatia caracteristicii urmarite depinde
de factorul sistematic (de grupare) dupa care s-a structurat
colectivitatea
Indicatorii sintetici ai variaţiei

3) Abaterea standard sau abaterea medie pătratică


Definiţie: Rădăcina pătrată a dispersiei
  2
Proprietate: De obicei, între abaterea medie pătratică şi abaterea medie
absoluta există următoarea relaţie:
4
d 
5
Obs. Abaterea medie pătratică are ca unitate de măsură, unitatea de
măsură a variabilei analizate.
Indicatorii sintetici ai variaţiei

4) Coeficientul de variaţie sau de omogenitate


Definiţie: Este o exprimare în cifre relative (vezi indicatorii simpli ai
împrăştierii) a abaterii standard

CV  100
Proprietăţi: x
• de obicei CV ia valori în intervalul [0;100]
• valori mici (apropiate de limita inferioară) ale indicatorului indică o serie
omogenă (media, mediana, valoarea modală sunt reprezentative)
• valori mari (apropiate de limita superioară) ale indicatorului arată o serie
eterogenă (neomogenă) (media, mediana, valoarea modală sunt
nereprezentative)
Obs. pentru a considera o serie omogenă, teoria recomandă, ca
valoarea CV sa fie cel mult 30-35%
Studiul formei funcţiilor de repartiţie

Asimetria
1) Metode simple de analiză a asimetriei
a) metoda vizuală
serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta

43 43
43
38 38
38
33 33
33
Studenti

28

Studenti
28
Studenti

28
23 23
23
18 18
18

13 13 13
8 8
8
3 3
3
2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8 9 10
Nota Nota
Nota
Asimetria

b) metoda comparării indicatorilor tendinţei centrale ( x , Me şi Mo)


43

38

33
𝑥ҧ = 𝑀𝑒 = 𝑀𝑜
Studenti

28
Seria simetrica 23

18

13
8

3
2 3 4 5 Mo
6 7 8 9 10
Me Nota

x
Asimetria

b) metoda comparării indicatorilor tendinţei centrale ( x , Me şi Mo)


43

38

33

𝑀𝑜 < 𝑀𝑒 < 𝑥ҧ
Studenti

28
seria asimetrica 23
spre stanga 18

13
8

Mo2 3
Me x4 5 6 7 8 9 10
Nota
Asimetria

b) metoda comparării indicatorilor tendinţei centrale ( x , Me şi Mo)


43

38

33
𝑥ҧ < 𝑀𝑒 < 𝑀𝑜
Studenti

28
seria asimetrica 23
spre dreapta 18

13

3
2 3 x4 Me5 6Mo 7 8 9 10
Nota
Asimetria

2) Metode analitice de abordare

Coeficienţii de asimetrie ai lui Pearson

Cas 
x  Mo 3x  Me
Cas 
 
Proprietăţi şi interpretare: Proprietăţi şi interpretare:
• interval de valori [-1;+1 ] • interval de valori [-3;+3 ]
• semnul arată direcţia asimetriei • semnul arată direcţia asimetriei
• valori mici (apropiate de 0) indică • valori mici (apropiate de 0) indică
o asimetrie de mică intensitate o asimetrie de mică intensitate
• valori mari (apropiate de ±1) • valori mari (apropiate de ±3)
indică o asimetrie cu intensitate indică o asimetrie cu intensitate
foarte mare foarte mare
Asimetria

Coeficienţii lui Pearson (continuare) Coeficientul lui Bowley

32 Cas 
q3  q2   q2  q1 
Cas  1  3 q3  q2   q2  q1 
2
unde: Proprietăţi şi interpretare:
 x  x  n 2

2   2

i i • interval de valori [-1;+1 ]
n i • semnul arată direcţia asimetriei

(momentul centrat de ordin 2) • valori mici (apropiate de 0) indică


o asimetrie de mică intensitate
 x  x  n
3

3 
i i • valori mari (apropiate de ±1)
n i
indică o asimetrie cu intensitate
foarte mare
(momentul centrat de ordin 3)
Boltirea

1) Metoda vizuală

serie mezocurtică serie leptocurtică serie platicurtică

50 50 50
45 45 45
40 40 40
35 35 35
30
Studenti

Studenti

30 30

Studenti
25 25 25
20 20 20
15 15 15
10 10 10
5 5 5
0 0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Nota Nota Nota
2

Boltirea

2) Metoda analitică
Coeficientul lui Pearson Coeficientul lui Fischer
4
2  2 unde
 2  2  3
2

 ix  x 4
ni
4  Interpretare:
n i  2 =0 (repartiţie mezocurtică)
(momentul centrat de ordinul 4)
 2 >0 (repartiţie leptocurtică)
Interpretare:
 2 <0 (repartiţie platicurtică)
β2=3 (repartiţie mezocurtică)
β 2>3 (repartiţie leptocurtică)
β 2<3 (repartiţie platicurtică)
Sondajul statistic

suport
Cursurile 6 si 7
Introducere

• Datoria operativităţii si economicităţii obţinerii datelor,


metoda sondajului se află printre procedeele preferate în
obţinerea datelor.
• Sondajul este forma predominanta de obţinere a datelor
statistice.
• Rezultatele obţinute pe baza datelor de sondaj se
extrapolează la dimensiunea întregii populaţii. Extinderea
rezultatelor de la "parte" la "întreg" nu are caracter
determinist, ci probabilist, deci sunt supuse unui risc de a fi
eronate.

2
Erorile de sondaj

• erorile de reprezentativitate sistematice - având drept sursă


încălcarea principiilor alcătuirii corecte a eşantioanelor
• erorile întâmplătoare - ce îşi au sursa în însăşi natura
sondajului ca cercetare parţială, erori ce nu pot fi eliminate,
dar pot fi predimensionate, deci distorsiunile de apreciere
realizate prin cercetarea unui eşantion pot fi "prevăzute"
statistic
Observatie
Sursa principală a erorii o constituie nereprezentativitatea, iar erorile
ce provin din aceasta se numesc "de reprezentativitate" şi sunt
provocate de faptul că eşantionul nu reproduce, la scara redusa,
structura populaţiei în ansamblu.

3
Erorile de sondaj

Măsurarea erorii de reprezentativitate se poate efectua:


• absolut - ca dimensiune a deplasării indicatorului
(parametrului) de sondaj (𝑥)ҧ de la mărimea "adevărată" a
parametrului în populaţia generală (m), respectiv 𝑥ҧ − 𝑚
• relativ - caz în care indicatorul "eroare de eşantionare"
ҧ
𝑥−𝑚
se poate exprima: ∙ 100 ≤ 5%
𝑚
O eroare relativă situată sub 5% permite a se aprecia că
sondajul este reprezentativ şi oferă o imagine aproximativ
"fidelă" a realităţii. Dimensionarea erorii este o chestiune a
proiectării unui sondaj şi ţine de gasirea unui "compromis"
acceptabil între nivelul erorii şi costul măririi eşantionului.

4
Modalitati culegere date
Principalele tipuri de sondaj:
• A. Sondaje aleatoare: a. sondajul simplu; b. sondajul tipic (stratificat); c.
sondajul de serii; d. sondajul secvenţial; e. sondajul în trepte.
• B. Sondaje dirijate
• C. Sondaje sistematice
Fiecare din tipurile de sondaje enumerate se poate efectua în două
variante:
• - repetat - când o unitate prelevată este restituită populaţiei de
origine şi deci are şanse să mai reintre în eşantion;
• - nerepetat - când unităţile nu sunt (sau nu pot fi) restituite în
populaţia generală.
Modelul teoretic al acestor două variante de prelucrare se află în urna
lui Bernoulli cu bilă revenită şi nerevenită.

5

x
2

Sondajul aleator simpu


• Reprezinta varianta aleatoare elementară de sondaj, celelalte tipuri putând fi
înţelese ca soluţii obţinute prin particularizarea unor elemente ale acestui tip de
sondaj.
• El se poate realiza, din punct de vedere al prelevării unităţilor - repetat şi
nerepetat.
• Simbolurile utilizate: Numărul Media aritmetică pentru Dispersia caracteristicii
Indicatori de unităţi caracteristici
(volumul)
măsurabile binare măsurabile binare
În populaţia N m p p(1-p)
generală
2

În eşantion n w(1-w)
x w s2

• Prelevând n unităţi din cele N ale populaţiei şi înregistrând pentru fiecare unitate
din eşantion valoarea caracteristicii urmărite se obţine şirul valorilor: x1, x2, ...,
σ𝑥
xi, ..., xn pe baza căruia se calculează media 𝑥ҧ = 𝑖
𝑛
• Această medie va fi diferita, mai mult sau mai puţin, de media reală dar
necunoscută m din populaţia generală.

6
Sondajul aleator simplu
• Intr-o altă eşantionare, unităţile prelevate ar fi fost foarte probabil altele,
astfel încât tot altele ar fi fost valorile caracteristicii, respectiv media de
sondaj. Faptul că indicatorii statisticii calculaţi pe baza datelor de sondaj
diferă de la eşantion la eşantion, rezultă că ei pot fi interpretaţi ca
variabile aleatoare.
• Astfel, indicatorii estimaţi pe baza sondajului, fiind variabilă aleatoare,
pot fi extinşi la întreaga populaţie, daca sunt: estimaţii nedeplasate,
consistente si eficiente.
• Rezultatele obţinute pe baza datelor de sondaj constituie estimari ale
adevăratelor valori ale parametrilor necunoscuţi din populaţia generală.
Deci, rezultatele obţinute printr-un sondaj sunt afectate de erori. Ce se
poate obţine prin sondaj este nu valoarea exacta a parametrului căutat ci
un interval de încredere care, cu o probabilitate fixată de către
cercetător, acoperă valoarea adevărată dar necunoscută a parametrului
din populaţia generală - interval de estimaţie sau interval de încredere
(confidence interval).

7
Sondajul aleator simplu

Cele 2 limite de interval (𝜃𝑖𝑛𝑓 , 𝜃𝑠𝑢𝑝 ) se determina pe baza datelor de


sondaj 𝑥1 , 𝑥2 , 𝑥3 … 𝑥𝑖 … 𝑥𝑛 astfel incat, cu o probabilitate 𝑝 = 1 − 𝛼, sa
fie indeplinita relatia 𝑃 𝜃𝑖𝑛𝑓 < 𝜃 < 𝜃𝑠𝑢𝑝 = 1 − α.
• Probabilitatea 𝑝 = 1 − 𝛼 se numeste nivel de incredere (confidence
level) si caracterizeaza siguranta afirmatilor.
• Valoarea α se numeste nivel sau prag de semnificatie (significance
level), e valoare complementara a nivelului de incredere p
Observatie: frecvent, α se considera 99%, 95% sau 90% (respectiv p
este 0.01, 0.05 sau 0.10)

8
Sondajul aleator simplu

În statistica, abaterea standard este o măsură a cantității de variație


sau dispersie a unui set de valori. O abatere standard scăzută indică
faptul că valorile tind să fie apropiate de media setului, în timp ce o
abatere standard înaltă indică faptul că valorile sunt distribuite pe o
gamă mai largă.
𝑥ҧ ± 𝜎 ≈ 68.27%
𝑥ҧ ± 2𝜎 ≈ 95.45%
𝑥ҧ ± 3𝜎 ≈ 99.73%
9
Indicatorii sondajului aleator simplu
1. Eroarea medie de sondaj (standard error of the mean - SEM) 𝜎𝑥ҧ
a) cazul sondajului repetat
Observatiile inregistrate pe baza datelor esantionului 𝑥1 , 𝑥2 , 𝑥3 … 𝑥𝑖 … 𝑥𝑛 pot fi considerate
variabile aleatoare iar, folosind independenţa valorilor variabilei, se arată că media de sondaj
σ𝑥
𝑥ҧ = 𝑖 poate fi un estimator nedeplasat al mediei m a colectivităţii generale, dacă se
𝑛
îndeplineşte condiţia ca media de sondaj să fie egală cu media generală.
𝜎
Eroarea standard a mediei se exprima ca 𝜎𝑥ҧ =
𝑛
unde: 𝜎 – abaterea standard a populatiei
n – volumul esantionului
Deoarece abaterea standard a populației este foarte rar cunoscută, eroarea standard a
mediei este de obicei estimată ca abaterea standard a eșantionului divizată la rădăcina
pătrată a mărimii eșantionului (presupunând independența statistică a valorilor din eșantion).
𝑠
𝜎𝑥ҧ ≈
𝑛
unde:
s - abaterea standard a eșantionului (adică, estimarea pe bază de eșantion a abaterii
standard a populației)

10
Indicatorii sondajului aleator simplu
b) cazul sondajului nerepetat
La acest tip de sondaj, unitatile extrase din populatia generala nu mai sunt restituite
acesteia, deci nu mai au sansa sa reintre in esantion.
In acest caz, eroarea standard a mediei este:
𝜎 𝑛 𝑠 𝑛
𝜎𝑥ҧ = 1− ≈ 1−
𝑛 𝑁 𝑛 𝑁
unde:
𝜎 – abaterea standard a populatiei
n – volumul esantionului
s - abaterea standard a eșantionului (adică, estimarea pe bază de eșantion a abaterii standard a
populației)
N – volumul populatiei generale
Observatie:
Cand n volumul esantionului creste, precizia creste de aproximativ 𝑛, dupa cum
in acelasi raport se micsoreaza abaterea standard. Acest fapt permite să se
utilizeze în practică sondaje de volum nu prea ridicat, căci sporirea volumului
acestora nu se regăseşte proporţional în ridicarea preciziei sondajului.

11
Indicatorii sondajului aleator simplu

2. Eroarea limita sau eroarea maxim admisa Δ𝑥ҧ

• Se defineste ca fiind siguranta estimarii mediei m prin aproximarea


mediei de sondaj 𝑥ҧ .
• Se determina pornind de la variabila 𝑍𝛼 (functia Gauss-Laplace) care
are o repartiti normal, fiind valoarea tabelata, care satisface relatia
2Φ 𝑍𝛼 = 𝑝 1 − 𝛼
Astfel
ҧ
𝑥−𝑚 𝑠
a) Sondaj repetat: 𝑍𝛼 = 𝜎 de unde: 𝑥ҧ − 𝑚 ≈ 𝑍𝛼 = Δ𝑥ҧ
𝑛
𝑛

𝑠 𝑛
b) Sondaj nerepetat: 𝑍𝛼 1− = Δ𝑥ҧ
𝑛 𝑁

12
Indicatorii sondajului aleator simplu

3. Determinarea volumului esantionului n

• Marirea volumului n al esantionului sporeste precizia sondajului si


reduce eroarea medie.
• Un avantaj al sondajului, ca cercetare partiala, este costul redus.
Luand in considerare ambele aspect, se determina numarul minim de
unitati statistice, care sa satisfaca ambele atat exigentele de precizie,
cat si cele de economicitate.

Observatie: Calculul volumului esantionului se realizeaza pornind de la


eroarea limita.

13
Indicatorii sondajului aleator simplu
Astfel:
𝑠
a) Sondaj repetat: Δ𝑥ҧ = 𝑍𝛼 de unde
𝑛

𝑍𝛼2 𝑠 2
𝑛= 2
Δ𝑥ҧ

𝑠 𝑛
b) Sondaj nerepetat: Δ𝑥ҧ = 𝑍𝛼 1− de unde
𝑛 𝑁

𝑍𝛼2 𝑠 2
𝑛=
2 𝑍𝛼2 𝑠 2
Δ𝑥ҧ +
𝑁

Observatie: in cazul sondajului fara revenire este necesar volumul


colectivitatii generale N.

14
Indicatorii sondajului aleator simplu
4. Determinarea intervalului de incredere

• Acesta reprezinta zona probabila in interiorul careia se va plasa


media necunoscuta a colectivitatii generale m.
• Se determina pornind de la media cunoscuta a esantionului 𝑥,ҧ
corectata cu nivelul erorii maxim admise Δ𝑥ҧ

𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑚 ≤ 𝑥ҧ + 𝛥𝑥ҧ
Observatie: In unele situatii prezinta interes determinarea intervalului
de incredere in care se plaseaza nivelul agregat al variabilei in
colectivitatea generala.
! Acest lucru se poate realiza doar in cazul in care are sens si se
cunoaste volumul colectivitatii generale N.

N 𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑁 ∙ 𝑚 ≤ 𝑁 𝑥ҧ + 𝛥𝑥ҧ

15
Indicatorii sondajului aleator simplu
Pentru caracteristica alternativa:

• Eroarea medie de sondaj


𝑤(1−𝑤)
a) Sondaj repetat: 𝜎𝑥ҧ =
𝑛

𝑤(1−𝑤) 𝑛
b) Sondaj nerepetat: 𝜎𝑥ҧ = (1 − )
𝑛 𝑁

• Eroarea maxim admisa: 𝛥𝑥ҧ = 𝑍𝛼 𝜎𝑥ҧ

• Interval de incredere: 𝑤 − 𝛥𝑥ҧ ≤ 𝑝 ≤ 𝑤 + 𝛥𝑥ҧ

16
Sondajul tipic (stratificat)
Stratificarea consta in divizarea colectivitatii generale in clase sau grupe
cat mai omogene.
In cazul acestui sondaj:
• Eroarea medie de sondaj 𝜎𝑥ҧ
𝜎2 𝑠2
a) cazul sondajului repetat 𝜎𝑥ҧ = ≈
𝑛 𝑛
𝜎2 𝑛 𝑠2 𝑛
b) cazul sondajului nerepetat 𝜎𝑥ҧ = 1− ≈ 1−
𝑛 𝑁 𝑛 𝑁
• Eroarea maxim admisa: 𝛥𝑥ҧ = 𝑍𝛼 𝜎𝑥ҧ
• Volumul esantionului
𝑍𝛼2 𝑠 2
a) sondaj repetat 𝑛 = Δ2𝑥ഥ
𝑍𝛼2 𝑠 2
b) sondaj nerepetat 𝑛 = 𝑍 𝑠22
Δ2𝑥ഥ + 𝛼𝑁
• Interval de incredere: 𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑚 ≤ 𝑥ҧ + 𝛥𝑥ҧ

17
Sondajul tipic (stratificat)
In vederea repartizarii esantionului pe subesantioane se pot aplica 3
metode:
• 1) repartizarea in mod egal a esantionului n pe k subesantioane
𝑛
𝑛𝑖 =
𝑘
• 2) esantionul se separa pe subesantioane in functie de poderea
fiecarei grupe in colectivitatea generala
𝑁𝑖
𝑛𝑖 = 𝑛
σ 𝑁𝑖
• 3) la formarea subesantioanelor se ia in considerare atat ponderea
fiecarui strat, cat si gradul de omogenitate al grupelor
𝑁𝑖 𝜎𝑖
𝑛𝑖 = 𝑛
σ 𝑁𝑖 𝜎𝑖

18
Regresie si corelatie

suport
Cursurile 8 si 9
Introducere
• În multe decizii din domeniul economic este necesară predicţia
valorilor unor anumite variabile. Variabilele economice, fenomenele
social-economice în general, nu evoluează independent; ele sunt în
legătură cu alte variabile economice. Acest lucru dă posibilitatea ca,
utilizând cunoştinţele privind nivelurile unor variabile, să poată fi
prognozat nivelul altei variabile, cu care acestea se află într-o
anumită dependenţă.
• Regresia ne arată cum o variabilă este dependentă de altă variabilă
(sau de alte variabile).
Corelaţia ne arată gradul în care o variabilă este dependentă de o altă
variabilă (sau alte variabile).
• ! ! ! Se studiază dependenţa dintre o variabilă (caracteristică)
rezultativă (y) şi una sau mai multe variabile (caracteristici)
independente (x).
Caracteristica rezultativă se mai numeşte caracteristica dependentă,
endogenă sau efect, iar caracteristica independentă se mai numeşte
caracteristica factorială, exogenă sau cauză.

2
Clasificarea legăturilor statistice
Legăturile statistice se pot clasifica după mai multe criterii şi anume:
I. după numărul caracteristicilor independente luate în studiu:
1. legături simple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi o caracteristică independentă (x).
2. legături multiple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi două sau mai multe caracteristici independente (x1,
x2…xi…xn).
II. după direcţia legăturilor, acestea pot fi:
1 - legături directe când caracteristica dependentă se modifică în acelaşi sens
cu caracteristica independentă: dacă x creşte, y creşte; dacă x scade, y scade.
2 - legături inverse când caracteristica dependentă se modifică în sens invers
modificării caracteristicii independente. Dacă x creşte, y scade; dacă x scade, y
creşte.
III. după expresia analitică a legăturilor, acestea pot fi:
1 - legături liniare - acele dependenţe care pot fi exprimate cu ajutorul funcţiei
liniare.
2 - legături neliniare (curbilinii) - acele dependenţe care pot fi exprimate cu
ajutorul funcţiilor neliniare (parabolă, hiperbolă, funcţie exponenţială etc.).
3
Metode de studiere a legaturilor statistice
• In analiza calitativa, care precede aplicarea metodelor specific
corelatiei statistice, e necesar sa se cunoasca forma de manifestare a
legaturii si posibilitatea reflectarii acesteia prin functii matematice.
• 1. Metoda seriilor statistice – procedeu care consta in asezarea in
paralel a seriilor de date statistice in ordinea raportului de
dependenta dintre acestea.
• 2. Metoda grafica – consta in realizarea reprezentarii grafice care se
numeste corelograma (scatter); da posibilitatea stabilirii a existentei,
formei, sensului si intensitatii legaturii
• 3. Metoda gruparii statistice – asezarea in paralel a caracteristicii
rezultative si a celei factoriale, dupa care se face gruparea, da
posibilitatea stabilii unei eventuale legaturi intre variable
• 4. Metoda tabelului de corelatie - un tabel cu dublă intrare, ce
prezintă o grupare a unităţilor unei colectivităţii în funcţie de două
caracteristici: una dependentă şi alta independentă. Se foloseşte în
special în cadrul unui număr mare de observaţii. În funcţie de modul
de distribuţie a frecvenţelor în tabel se apreciează existenţa legăturii.

4
Regresia liniara simpla

Etapele construirii modelului de regresie:


• 1. identificarea modelului - faza descriptiva, in care se identifica
dependentele si tipurile de relatii care apar intre variabile
• 2. specificarea – etapa in care se cauta cea mai potrivita forma de
exprimare a legaturii
• 3. estimarea parametrilor modelului
• 4. testarea semnificatiei parametrilor estimati (testul t Student)
• 5. validarea modelului (testul F Fisher)
• 6. utilizarea modelului de regresie pentru simulare si predictie

5
Regresia liniara simpla
• În cazul regresiei liniare simple vom considera o funcţie liniară pentru
exprimarea legăturii dintre cele două variabile:
𝑦ෝ𝑖 = 𝑎 + 𝑏𝑥𝑖
Interpretarea parametrilor modelului
• Parametrul a exprimă valoarea lui y când x=0, deci este intersecţia
dreptei cu axa OY. Interpretarea din punct de vedere economic a lui a
se realizează în strânsă legătură cu problema practică analizată.
• Parametrul b este numit coeficient de regresie.
- dacă b>0 legătura este directă;
- Daca b=0 nu exista legatura intre variabile;
- dacă b<0 legătura este inversă.
! ! ! Mărimea coeficientului b (panta dreptei cu sens geometric) arată
cu cât se modifică in medie y (cu cat creste – daca b>0; cu cat scade –
daca b<0) când variabila x creste cu o unitate.

6
Regresia liniara simpla
• Estimarea parametrilor a şi b se realizează cu ajutorul metodei celor mai mici
pătrate (MCMMP), pe baza perechilor de valori (Xi,Yi) observante într-un eşantion
de volum n.
• Pentru ca functia de regresie aleasa sa fie cu adevarat semnificativa trebuie sa se
minimizeze suma 2
patratelor abaterilor valorilor estimate de la valorile reale:
𝑚𝑖𝑛 σ 𝑦𝑖 − 𝑦ෝ𝑖 . Aceasta conditie se verifica atunci cand se anuleaza derivatele
partiale in raport cu cei doi parametrii.
2
𝑚𝑖𝑛 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖

𝜕𝑓 2 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −1 = 0 𝑛𝑎 + 𝑏 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
=0
𝜕𝑎 → →
𝜕𝑓
=0 2 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −𝑥𝑖 = 0 𝑎 ෍ 𝑥𝑖 + 𝑏 ෍ 𝑥𝑖2 = ෍ 𝑥𝑖 𝑦𝑖
𝜕𝑏
de unde:
σ 𝑦𝑖 σ 𝑥𝑖
∆𝑎 σ 𝑥𝑖 𝑦𝑖 σ 𝑥𝑖2 σ 𝑥𝑖2 σ 𝑦𝑖 −σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖
• 𝑎= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2

𝑛 σ 𝑦𝑖
∆𝑏 σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖 𝑛 σ 𝑥𝑖 𝑦𝑖 −σ 𝑥𝑖 σ 𝑦𝑖
• 𝑏= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2

7
Corelatia liniara simpla
• Scopul analizei corelatiei este sa masoare gradul in care o variabila este
dependenta de un sau mai multe variabile independente. Acesta poate fi
estimate cu ajutorul marimii abaterilor valorilor empirice 𝑦𝑖 fata de
𝑦𝑖 .
functia de regresie, respective de valorile teoreticeෞ

• Exista doua cazuri particulare extreme:


1) Cazul in care imprastierea punctelor in corelograma este atat de mare
incat dreapta de regresie are panta 0 si este paralela cu abscisa –
acesta e cazul lipsei totale de corelatie intre variable
2) Cazul in care punctele corelogramei se gasesc pe dreapta de regresie,
adica valorile empirice coincide cu cele estimate – acesta e cazul unei
corelatii perfecte intre variabile

8
Corelatia liniara simpla
• Un caz general, în care punctele empirice nu se află pe linia de
regresie: 𝑦ෝ𝑖

B
A
C
𝑦ത

• Se observa ca variatia totala a variabilei dependente fata de media sa are


doua componenete: A = B + C
𝑦𝑖 − 𝑦ത = (𝑦𝑖 −𝑦ෝ𝑖 ) + (𝑦ෝ𝑖 − 𝑦)

variatia totala a lui y fata de medie =
variatia neexplicata de regresie + variatia explicate de regresie

9
Corelatia liniara simpla
Aceste abateri ne permit să calculăm următoarele dispersii:

σ 𝑦𝑖 − 𝑦ത 2 σ 𝑦𝑖 − 𝑦ෝ𝑖 2 σ 𝑦ෝ𝑖 − 𝑦ത 2
= +
𝑛 𝑛 𝑛
2 2
𝜎𝑦2 = 𝜎𝑦/𝑟 + 𝜎𝑦/𝑥

𝜎𝑦2 - dispersia totala a lui y (𝜎 2 ) sau varianta totala, care exprimă


influenţa tuturor factorilor asupra variabilei y
2
𝜎𝑦/𝑟 - dispersia reziduala (𝛿 2 ) varianta neexplicata de regresie, care
exprima influenta factorilor reziduali, neexplicati de model, asupra lui y
2
𝜎𝑦/𝑥 - dispersia explicata de regresie (𝜎 2 ) sau varianta explicata de
model, care exprima influenta variabilei independente x asupra
variabilei dependente y

10
Corelatia liniara simpla
Pentru caracterizarea intensitatii legaturii dintre variabilele x si y se
folosesc indicatorii:
1 – coeficient de determinare (R Square) exprima cat din variatia lui y este
explicata de variatia lui x
2 2
𝜎𝑦/𝑥 σ 𝑦ෝ𝑖 − 𝑦ത
𝑅2 = =
𝜎𝑦2 σ 𝑦𝑖 − 𝑦ത 2

𝑅2 ∈ 0,1 ; cu cat e mai apropiata de 1 cu atat partea din variatia lui y,


explicata de x, este mai mare si deci intensitatea legaturii dintre variabile este
mai puternica
2 – raportul de corelatie (Multiple R) se obtine ca radacina patrata din
coeficientul de determinare
σ 𝑦ෝ𝑖 − 𝑦ത 2
𝑅= 2
σ 𝑦𝑖 − 𝑦ത
𝑅2 ∈ 0,1 ; cu cat valoarea este mai apropiata de 1 legatura este mai
puternica, cu cat este mai aproape de 0 legatura este mai slaba.
Sensul legaturii se stabileste in functie de semnul coeficientului de regresie b.
! ! ! Raportul de corelatie depinde de ecuatia de regresie si deci de valorile
ajustate.
11
Corelatia liniara simpla
3 – coeficientul de corelatie (correlation) se determina ca medie
aritmetica simpla a produselor abaterilor normate, ale valorilor
variabilelor x si y, de la mediile lor
𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
σ
𝜎𝑥 𝜎𝑦 σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത 𝑐𝑜𝑣 𝑥, 𝑦
𝑟𝑥𝑦 = = =
𝑛 𝑛𝜎𝑥 𝜎𝑦 𝜎𝑥 𝜎𝑦
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
=
𝑛 σ 𝑥2 − σ 𝑥 2 ∙ 𝑛 σ 𝑦2 − σ 𝑦 2

𝑟𝑥𝑦 ∈ −1,1 ; cu cat valoarea este mai apropiata de 1 sau -1 legatura este mai
puternica, cu cat este mai aproape de 0 legatura este mai slaba.
• coeficientul de corelaţie indică sensul legăturii dintre cele două variabile fără a
mai fi nevoie să facem referire la coeficientul de corelatie b
• coeficientul de corelaţie nu necesită calculul prealabil al funcţiei de regresie (cum
este necesar dacă vrem să determinăm raportul de corelaţie)
Observaţie: coeficientul de corelaţie se calculează numai în cazul legăturilor liniare!
• Raportul de corelaţie se poate calcula în cazul oricărui tip de legătură. Deci,
în cazul legăturii liniare 𝑅 = 𝑟𝑥𝑦 .
• Dacă cei doi indicatori nu sunt egali, înseamnă că legătura nu este liniară şi
trebuie determinat raportul de corelaţie.
12
Inferenta statistica in cadrul modelului liniar
Parametrii modelului, şi deci modelul în ansamblu sunt obţinuţi pe baza
datelor dintr-un eşantion de observaţii (n<30). De aceea este necesară
verificarea rezultatelor obţinute prin teste statistice.
1. Validarea modelului de regresie
Pentru a verifica din punct de vedere statistic, modalitatea în care modelul
specificat reuşeşte să conducă la reconstituirea valorilor empirice 𝑦ෝ𝑖 prin
valorile teoretice se foloseşte Testul F (Fisher).

Variabila F se defineste ca raport de dispersii:


𝑠𝑦2
𝐹𝑐𝑎𝑙𝑐 = 2
𝑠𝑢
si urmeaza o distributie F cu k-1 si n-k grade de libertate.
unde:
k – numarul parametrilor modelului (in cazul modelului unifactorial k = 2)
n – numarul de observatii din esantion

13
Inferenta statistica in cadrul modelului liniar
Analiza dispersionala pentru validarea modelului (ANOVA)

Variatia Suma patratelor Grade de libertate Dispersia


(SS) (df) (MS)
Explicata de model k-1 σ 𝑦ෝ𝑖 − 𝑦ത 2
2
(Regression)
෍ 𝑦ෝ𝑖 − 𝑦ത 𝑠𝑦2 =
𝑘−1
Neexplicata n-k σ 𝑦𝑖 − 𝑦ෝ𝑖 2
2
(Residual)
෍ 𝑦𝑖 − 𝑦ෝ𝑖 𝑠𝑢2 =
𝑛
Total 2 n-1 -
෍ 𝑦𝑖 − 𝑦ത

Pentru un anumit nivel de semnificatie 𝛼, corespunzator gradelor de


libertate, se determina din tabelul functiei F valoarea teoretica
𝐹𝛼,𝑘−1,𝑛−𝑘 . Daca:
• 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼,𝑘−1,𝑛−𝑘 modelul este validat
• 𝐹𝑐𝑎𝑙𝑐 < 𝐹𝛼,𝑘−1,𝑛−𝑘 modelul nu este validat

14
Inferenta statistica in cadrul modelului liniar
2. Testarea semnificatiei estimatorilor parametrilor functiei de regresie
• 𝑏෠ este estimator al parametrului b din functia de regresie
Variabila t (Student):
𝑏෠ − 𝑏
𝑡= 𝑠𝑢
σ 𝑥 2 − 𝑛𝑥ҧ
Variabila t urmeaza o distributie Student cu n-2 grade de libertate.
Pentru un nivel de semnificatie 𝛼 se determina valoarea teoretica 𝑡𝛼,𝑛−2
2
Intervalul de incredere pentru parametrul b este:
𝑠𝑢

𝑏 ± 𝑡𝛼,𝑛−2
2 σ 𝑥 2 − 𝑛𝑥ҧ

15
Inferenta statistica in cadrul modelului liniar
• 𝑎ො este estimator al parametrului a din functia de regresie
Variabila t are forma:
𝑎ො − 𝑎
𝑡=
1 𝑥2
𝑠𝑢 +
𝑛 σ 𝑥𝑖 − 𝑥ҧ 2
iar pentru un nivel de semnificatie 𝛼, intervalul de incredere pentru
parametrul a este
1 𝑥2
𝑎ො ± 𝑡𝛼,𝑛−2 𝑠𝑢 + 2
2 𝑛 σ 𝑥𝑖 − 𝑥ҧ

16

S-ar putea să vă placă și