Documente Academic
Documente Profesional
Documente Cultură
suport
Cursurile 4 si 5
Necesitatea masurarii variabilitatii
Observatie:
Ca măsură a împrăştierii valorilor individuale amplitudinea prezintă
dezavantajul că nu ţine seama de toate observaţiile şi este sensibilă la
prezenţa valorilor aberante.
Indicatorii simpli ai variatiei
𝑥𝑚𝑖𝑛 − 𝑥ҧ
𝑑𝑚𝑎𝑥− = 𝑥𝑚𝑖𝑛 − 𝑥ҧ 𝑑𝑚𝑎𝑥− % = 100
𝑥ҧ
Indicatorii simpli ai variatiei
Observatii:
a) Suma abaterilor individuale, calculate în raport cu
media variantelor caracteristicii, este nulă, deoarece
abaterile într-un sens sau altul, în sinteză, se
compensează reciproc.
b) În cursul seriilor de distribuţie de frecvenţe pe
intervale, pentru calculul abateriilor individuale se
iau în considerare centrele de interval (ci).
c) În cazul unei distribuţii simetrice 𝑑𝑚𝑎𝑥+ = 𝑑𝑚𝑎𝑥−
Indicatorii sintetici ai variaţiei
grupare:
d
x i x
d
c x n
i i
n n i
q 2 p p 2 q pq( p q ) pq p(1 p )
Caracteristica Frecventa absoluta Frecventa relativa
X1=1
X2=0
M
N
p=M/M+N
q=N/M+N x p
total M+N p+q=1
Indicatorii sintetici ai variaţiei
Asimetria
1) Metode simple de analiză a asimetriei
a) metoda vizuală
serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta
43 43
43
38 38
38
33 33
33
Studenti
28
Studenti
28
Studenti
28
23 23
23
18 18
18
13 13 13
8 8
8
3 3
3
2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8 9 10
Nota Nota
Nota
Asimetria
38
33
𝑥ҧ = 𝑀𝑒 = 𝑀𝑜
Studenti
28
Seria simetrica 23
18
13
8
3
2 3 4 5 Mo
6 7 8 9 10
Me Nota
x
Asimetria
38
33
𝑀𝑜 < 𝑀𝑒 < 𝑥ҧ
Studenti
28
seria asimetrica 23
spre stanga 18
13
8
Mo2 3
Me x4 5 6 7 8 9 10
Nota
Asimetria
38
33
𝑥ҧ < 𝑀𝑒 < 𝑀𝑜
Studenti
28
seria asimetrica 23
spre dreapta 18
13
3
2 3 x4 Me5 6Mo 7 8 9 10
Nota
Asimetria
Cas
x Mo 3x Me
Cas
Proprietăţi şi interpretare: Proprietăţi şi interpretare:
• interval de valori [-1;+1 ] • interval de valori [-3;+3 ]
• semnul arată direcţia asimetriei • semnul arată direcţia asimetriei
• valori mici (apropiate de 0) indică • valori mici (apropiate de 0) indică
o asimetrie de mică intensitate o asimetrie de mică intensitate
• valori mari (apropiate de ±1) • valori mari (apropiate de ±3)
indică o asimetrie cu intensitate indică o asimetrie cu intensitate
foarte mare foarte mare
Asimetria
32 Cas
q3 q2 q2 q1
Cas 1 3 q3 q2 q2 q1
2
unde: Proprietăţi şi interpretare:
x x n 2
2 2
i i • interval de valori [-1;+1 ]
n i • semnul arată direcţia asimetriei
3
i i • valori mari (apropiate de ±1)
n i
indică o asimetrie cu intensitate
foarte mare
(momentul centrat de ordin 3)
Boltirea
1) Metoda vizuală
50 50 50
45 45 45
40 40 40
35 35 35
30
Studenti
Studenti
30 30
Studenti
25 25 25
20 20 20
15 15 15
10 10 10
5 5 5
0 0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Nota Nota Nota
2
Boltirea
2) Metoda analitică
Coeficientul lui Pearson Coeficientul lui Fischer
4
2 2 unde
2 2 3
2
ix x 4
ni
4 Interpretare:
n i 2 =0 (repartiţie mezocurtică)
(momentul centrat de ordinul 4)
2 >0 (repartiţie leptocurtică)
Interpretare:
2 <0 (repartiţie platicurtică)
β2=3 (repartiţie mezocurtică)
β 2>3 (repartiţie leptocurtică)
β 2<3 (repartiţie platicurtică)
Sondajul statistic
suport
Cursurile 6 si 7
Introducere
2
Erorile de sondaj
3
Erorile de sondaj
4
Modalitati culegere date
Principalele tipuri de sondaj:
• A. Sondaje aleatoare: a. sondajul simplu; b. sondajul tipic (stratificat); c.
sondajul de serii; d. sondajul secvenţial; e. sondajul în trepte.
• B. Sondaje dirijate
• C. Sondaje sistematice
Fiecare din tipurile de sondaje enumerate se poate efectua în două
variante:
• - repetat - când o unitate prelevată este restituită populaţiei de
origine şi deci are şanse să mai reintre în eşantion;
• - nerepetat - când unităţile nu sunt (sau nu pot fi) restituite în
populaţia generală.
Modelul teoretic al acestor două variante de prelucrare se află în urna
lui Bernoulli cu bilă revenită şi nerevenită.
5
x
2
În eşantion n w(1-w)
x w s2
• Prelevând n unităţi din cele N ale populaţiei şi înregistrând pentru fiecare unitate
din eşantion valoarea caracteristicii urmărite se obţine şirul valorilor: x1, x2, ...,
σ𝑥
xi, ..., xn pe baza căruia se calculează media 𝑥ҧ = 𝑖
𝑛
• Această medie va fi diferita, mai mult sau mai puţin, de media reală dar
necunoscută m din populaţia generală.
6
Sondajul aleator simplu
• Intr-o altă eşantionare, unităţile prelevate ar fi fost foarte probabil altele,
astfel încât tot altele ar fi fost valorile caracteristicii, respectiv media de
sondaj. Faptul că indicatorii statisticii calculaţi pe baza datelor de sondaj
diferă de la eşantion la eşantion, rezultă că ei pot fi interpretaţi ca
variabile aleatoare.
• Astfel, indicatorii estimaţi pe baza sondajului, fiind variabilă aleatoare,
pot fi extinşi la întreaga populaţie, daca sunt: estimaţii nedeplasate,
consistente si eficiente.
• Rezultatele obţinute pe baza datelor de sondaj constituie estimari ale
adevăratelor valori ale parametrilor necunoscuţi din populaţia generală.
Deci, rezultatele obţinute printr-un sondaj sunt afectate de erori. Ce se
poate obţine prin sondaj este nu valoarea exacta a parametrului căutat ci
un interval de încredere care, cu o probabilitate fixată de către
cercetător, acoperă valoarea adevărată dar necunoscută a parametrului
din populaţia generală - interval de estimaţie sau interval de încredere
(confidence interval).
7
Sondajul aleator simplu
8
Sondajul aleator simplu
10
Indicatorii sondajului aleator simplu
b) cazul sondajului nerepetat
La acest tip de sondaj, unitatile extrase din populatia generala nu mai sunt restituite
acesteia, deci nu mai au sansa sa reintre in esantion.
In acest caz, eroarea standard a mediei este:
𝜎 𝑛 𝑠 𝑛
𝜎𝑥ҧ = 1− ≈ 1−
𝑛 𝑁 𝑛 𝑁
unde:
𝜎 – abaterea standard a populatiei
n – volumul esantionului
s - abaterea standard a eșantionului (adică, estimarea pe bază de eșantion a abaterii standard a
populației)
N – volumul populatiei generale
Observatie:
Cand n volumul esantionului creste, precizia creste de aproximativ 𝑛, dupa cum
in acelasi raport se micsoreaza abaterea standard. Acest fapt permite să se
utilizeze în practică sondaje de volum nu prea ridicat, căci sporirea volumului
acestora nu se regăseşte proporţional în ridicarea preciziei sondajului.
11
Indicatorii sondajului aleator simplu
𝑠 𝑛
b) Sondaj nerepetat: 𝑍𝛼 1− = Δ𝑥ҧ
𝑛 𝑁
12
Indicatorii sondajului aleator simplu
13
Indicatorii sondajului aleator simplu
Astfel:
𝑠
a) Sondaj repetat: Δ𝑥ҧ = 𝑍𝛼 de unde
𝑛
𝑍𝛼2 𝑠 2
𝑛= 2
Δ𝑥ҧ
𝑠 𝑛
b) Sondaj nerepetat: Δ𝑥ҧ = 𝑍𝛼 1− de unde
𝑛 𝑁
𝑍𝛼2 𝑠 2
𝑛=
2 𝑍𝛼2 𝑠 2
Δ𝑥ҧ +
𝑁
14
Indicatorii sondajului aleator simplu
4. Determinarea intervalului de incredere
𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑚 ≤ 𝑥ҧ + 𝛥𝑥ҧ
Observatie: In unele situatii prezinta interes determinarea intervalului
de incredere in care se plaseaza nivelul agregat al variabilei in
colectivitatea generala.
! Acest lucru se poate realiza doar in cazul in care are sens si se
cunoaste volumul colectivitatii generale N.
N 𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑁 ∙ 𝑚 ≤ 𝑁 𝑥ҧ + 𝛥𝑥ҧ
15
Indicatorii sondajului aleator simplu
Pentru caracteristica alternativa:
𝑤(1−𝑤) 𝑛
b) Sondaj nerepetat: 𝜎𝑥ҧ = (1 − )
𝑛 𝑁
16
Sondajul tipic (stratificat)
Stratificarea consta in divizarea colectivitatii generale in clase sau grupe
cat mai omogene.
In cazul acestui sondaj:
• Eroarea medie de sondaj 𝜎𝑥ҧ
𝜎2 𝑠2
a) cazul sondajului repetat 𝜎𝑥ҧ = ≈
𝑛 𝑛
𝜎2 𝑛 𝑠2 𝑛
b) cazul sondajului nerepetat 𝜎𝑥ҧ = 1− ≈ 1−
𝑛 𝑁 𝑛 𝑁
• Eroarea maxim admisa: 𝛥𝑥ҧ = 𝑍𝛼 𝜎𝑥ҧ
• Volumul esantionului
𝑍𝛼2 𝑠 2
a) sondaj repetat 𝑛 = Δ2𝑥ഥ
𝑍𝛼2 𝑠 2
b) sondaj nerepetat 𝑛 = 𝑍 𝑠22
Δ2𝑥ഥ + 𝛼𝑁
• Interval de incredere: 𝑥ҧ − 𝛥𝑥ҧ ≤ 𝑚 ≤ 𝑥ҧ + 𝛥𝑥ҧ
17
Sondajul tipic (stratificat)
In vederea repartizarii esantionului pe subesantioane se pot aplica 3
metode:
• 1) repartizarea in mod egal a esantionului n pe k subesantioane
𝑛
𝑛𝑖 =
𝑘
• 2) esantionul se separa pe subesantioane in functie de poderea
fiecarei grupe in colectivitatea generala
𝑁𝑖
𝑛𝑖 = 𝑛
σ 𝑁𝑖
• 3) la formarea subesantioanelor se ia in considerare atat ponderea
fiecarui strat, cat si gradul de omogenitate al grupelor
𝑁𝑖 𝜎𝑖
𝑛𝑖 = 𝑛
σ 𝑁𝑖 𝜎𝑖
18
Regresie si corelatie
suport
Cursurile 8 si 9
Introducere
• În multe decizii din domeniul economic este necesară predicţia
valorilor unor anumite variabile. Variabilele economice, fenomenele
social-economice în general, nu evoluează independent; ele sunt în
legătură cu alte variabile economice. Acest lucru dă posibilitatea ca,
utilizând cunoştinţele privind nivelurile unor variabile, să poată fi
prognozat nivelul altei variabile, cu care acestea se află într-o
anumită dependenţă.
• Regresia ne arată cum o variabilă este dependentă de altă variabilă
(sau de alte variabile).
Corelaţia ne arată gradul în care o variabilă este dependentă de o altă
variabilă (sau alte variabile).
• ! ! ! Se studiază dependenţa dintre o variabilă (caracteristică)
rezultativă (y) şi una sau mai multe variabile (caracteristici)
independente (x).
Caracteristica rezultativă se mai numeşte caracteristica dependentă,
endogenă sau efect, iar caracteristica independentă se mai numeşte
caracteristica factorială, exogenă sau cauză.
2
Clasificarea legăturilor statistice
Legăturile statistice se pot clasifica după mai multe criterii şi anume:
I. după numărul caracteristicilor independente luate în studiu:
1. legături simple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi o caracteristică independentă (x).
2. legături multiple când se studiază dependenţa dintre o caracteristică
dependentă (y) şi două sau mai multe caracteristici independente (x1,
x2…xi…xn).
II. după direcţia legăturilor, acestea pot fi:
1 - legături directe când caracteristica dependentă se modifică în acelaşi sens
cu caracteristica independentă: dacă x creşte, y creşte; dacă x scade, y scade.
2 - legături inverse când caracteristica dependentă se modifică în sens invers
modificării caracteristicii independente. Dacă x creşte, y scade; dacă x scade, y
creşte.
III. după expresia analitică a legăturilor, acestea pot fi:
1 - legături liniare - acele dependenţe care pot fi exprimate cu ajutorul funcţiei
liniare.
2 - legături neliniare (curbilinii) - acele dependenţe care pot fi exprimate cu
ajutorul funcţiilor neliniare (parabolă, hiperbolă, funcţie exponenţială etc.).
3
Metode de studiere a legaturilor statistice
• In analiza calitativa, care precede aplicarea metodelor specific
corelatiei statistice, e necesar sa se cunoasca forma de manifestare a
legaturii si posibilitatea reflectarii acesteia prin functii matematice.
• 1. Metoda seriilor statistice – procedeu care consta in asezarea in
paralel a seriilor de date statistice in ordinea raportului de
dependenta dintre acestea.
• 2. Metoda grafica – consta in realizarea reprezentarii grafice care se
numeste corelograma (scatter); da posibilitatea stabilirii a existentei,
formei, sensului si intensitatii legaturii
• 3. Metoda gruparii statistice – asezarea in paralel a caracteristicii
rezultative si a celei factoriale, dupa care se face gruparea, da
posibilitatea stabilii unei eventuale legaturi intre variable
• 4. Metoda tabelului de corelatie - un tabel cu dublă intrare, ce
prezintă o grupare a unităţilor unei colectivităţii în funcţie de două
caracteristici: una dependentă şi alta independentă. Se foloseşte în
special în cadrul unui număr mare de observaţii. În funcţie de modul
de distribuţie a frecvenţelor în tabel se apreciează existenţa legăturii.
4
Regresia liniara simpla
5
Regresia liniara simpla
• În cazul regresiei liniare simple vom considera o funcţie liniară pentru
exprimarea legăturii dintre cele două variabile:
𝑦ෝ𝑖 = 𝑎 + 𝑏𝑥𝑖
Interpretarea parametrilor modelului
• Parametrul a exprimă valoarea lui y când x=0, deci este intersecţia
dreptei cu axa OY. Interpretarea din punct de vedere economic a lui a
se realizează în strânsă legătură cu problema practică analizată.
• Parametrul b este numit coeficient de regresie.
- dacă b>0 legătura este directă;
- Daca b=0 nu exista legatura intre variabile;
- dacă b<0 legătura este inversă.
! ! ! Mărimea coeficientului b (panta dreptei cu sens geometric) arată
cu cât se modifică in medie y (cu cat creste – daca b>0; cu cat scade –
daca b<0) când variabila x creste cu o unitate.
6
Regresia liniara simpla
• Estimarea parametrilor a şi b se realizează cu ajutorul metodei celor mai mici
pătrate (MCMMP), pe baza perechilor de valori (Xi,Yi) observante într-un eşantion
de volum n.
• Pentru ca functia de regresie aleasa sa fie cu adevarat semnificativa trebuie sa se
minimizeze suma 2
patratelor abaterilor valorilor estimate de la valorile reale:
𝑚𝑖𝑛 σ 𝑦𝑖 − 𝑦ෝ𝑖 . Aceasta conditie se verifica atunci cand se anuleaza derivatele
partiale in raport cu cei doi parametrii.
2
𝑚𝑖𝑛 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖
𝜕𝑓 2 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −1 = 0 𝑛𝑎 + 𝑏 𝑥𝑖 = 𝑦𝑖
=0
𝜕𝑎 → →
𝜕𝑓
=0 2 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −𝑥𝑖 = 0 𝑎 𝑥𝑖 + 𝑏 𝑥𝑖2 = 𝑥𝑖 𝑦𝑖
𝜕𝑏
de unde:
σ 𝑦𝑖 σ 𝑥𝑖
∆𝑎 σ 𝑥𝑖 𝑦𝑖 σ 𝑥𝑖2 σ 𝑥𝑖2 σ 𝑦𝑖 −σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖
• 𝑎= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2
𝑛 σ 𝑦𝑖
∆𝑏 σ 𝑥𝑖 σ 𝑥𝑖 𝑦𝑖 𝑛 σ 𝑥𝑖 𝑦𝑖 −σ 𝑥𝑖 σ 𝑦𝑖
• 𝑏= = =
∆ 𝑛 σ 𝑥𝑖 𝑛 σ 𝑥𝑖2 − σ 𝑥𝑖 2
σ 𝑥𝑖 σ 𝑥𝑖2
7
Corelatia liniara simpla
• Scopul analizei corelatiei este sa masoare gradul in care o variabila este
dependenta de un sau mai multe variabile independente. Acesta poate fi
estimate cu ajutorul marimii abaterilor valorilor empirice 𝑦𝑖 fata de
𝑦𝑖 .
functia de regresie, respective de valorile teoreticeෞ
8
Corelatia liniara simpla
• Un caz general, în care punctele empirice nu se află pe linia de
regresie: 𝑦ෝ𝑖
∙
B
A
C
𝑦ത
9
Corelatia liniara simpla
Aceste abateri ne permit să calculăm următoarele dispersii:
σ 𝑦𝑖 − 𝑦ത 2 σ 𝑦𝑖 − 𝑦ෝ𝑖 2 σ 𝑦ෝ𝑖 − 𝑦ത 2
= +
𝑛 𝑛 𝑛
2 2
𝜎𝑦2 = 𝜎𝑦/𝑟 + 𝜎𝑦/𝑥
10
Corelatia liniara simpla
Pentru caracterizarea intensitatii legaturii dintre variabilele x si y se
folosesc indicatorii:
1 – coeficient de determinare (R Square) exprima cat din variatia lui y este
explicata de variatia lui x
2 2
𝜎𝑦/𝑥 σ 𝑦ෝ𝑖 − 𝑦ത
𝑅2 = =
𝜎𝑦2 σ 𝑦𝑖 − 𝑦ത 2
𝑟𝑥𝑦 ∈ −1,1 ; cu cat valoarea este mai apropiata de 1 sau -1 legatura este mai
puternica, cu cat este mai aproape de 0 legatura este mai slaba.
• coeficientul de corelaţie indică sensul legăturii dintre cele două variabile fără a
mai fi nevoie să facem referire la coeficientul de corelatie b
• coeficientul de corelaţie nu necesită calculul prealabil al funcţiei de regresie (cum
este necesar dacă vrem să determinăm raportul de corelaţie)
Observaţie: coeficientul de corelaţie se calculează numai în cazul legăturilor liniare!
• Raportul de corelaţie se poate calcula în cazul oricărui tip de legătură. Deci,
în cazul legăturii liniare 𝑅 = 𝑟𝑥𝑦 .
• Dacă cei doi indicatori nu sunt egali, înseamnă că legătura nu este liniară şi
trebuie determinat raportul de corelaţie.
12
Inferenta statistica in cadrul modelului liniar
Parametrii modelului, şi deci modelul în ansamblu sunt obţinuţi pe baza
datelor dintr-un eşantion de observaţii (n<30). De aceea este necesară
verificarea rezultatelor obţinute prin teste statistice.
1. Validarea modelului de regresie
Pentru a verifica din punct de vedere statistic, modalitatea în care modelul
specificat reuşeşte să conducă la reconstituirea valorilor empirice 𝑦ෝ𝑖 prin
valorile teoretice se foloseşte Testul F (Fisher).
13
Inferenta statistica in cadrul modelului liniar
Analiza dispersionala pentru validarea modelului (ANOVA)
14
Inferenta statistica in cadrul modelului liniar
2. Testarea semnificatiei estimatorilor parametrilor functiei de regresie
• 𝑏 este estimator al parametrului b din functia de regresie
Variabila t (Student):
𝑏 − 𝑏
𝑡= 𝑠𝑢
σ 𝑥 2 − 𝑛𝑥ҧ
Variabila t urmeaza o distributie Student cu n-2 grade de libertate.
Pentru un nivel de semnificatie 𝛼 se determina valoarea teoretica 𝑡𝛼,𝑛−2
2
Intervalul de incredere pentru parametrul b este:
𝑠𝑢
𝑏 ± 𝑡𝛼,𝑛−2
2 σ 𝑥 2 − 𝑛𝑥ҧ
15
Inferenta statistica in cadrul modelului liniar
• 𝑎ො este estimator al parametrului a din functia de regresie
Variabila t are forma:
𝑎ො − 𝑎
𝑡=
1 𝑥2
𝑠𝑢 +
𝑛 σ 𝑥𝑖 − 𝑥ҧ 2
iar pentru un nivel de semnificatie 𝛼, intervalul de incredere pentru
parametrul a este
1 𝑥2
𝑎ො ± 𝑡𝛼,𝑛−2 𝑠𝑢 + 2
2 𝑛 σ 𝑥𝑖 − 𝑥ҧ
16