Sunteți pe pagina 1din 34

Estimarea intervalului de încredere

pentru parametri bivariați


Studiile descriptive & Studii predictive

Coeficient de corelație:

Coeficient de regresie & intercept:


1. Recapitulare: estimarea parametrilor univariați
(mediei populației - µ)
1. Distribuția mediilor – sumarizează modul în care se comportă
eșantioanele extrase întâmplător dintr-o populație.

2. Variabilitatea distribuției mediilor depinde de numărul de subiecți din


eșantion (Teorema Limitelor Centrale – N crește se reduce).

- valorile distribuției fluctuează între valoarea minimă și maximă a scalei


de măsurare utilizată. Oricât de departe s-ar situa o valoare de
media distribuției mediilor (care este și media populației),
probabilitatea de apariție a ei nu este nulă. Este puțin probabilă, dar
nu este zero.

- din acest punct de vedere toate valorile posibile ale mediilor extrase
întâmplător din populația vor fluctua între min. și max., însă nu toate
valorile vor avea aceeași probabilitate de a fi extrase (ex.
probabilitatea ca media unui eșantion să fie valoarea extremă a scalei
de măsurare este foarte mică – depinde de valoarea reală a mediei
populației și de volumul eșantionului).
Recapitulare: estimarea parametrilor univariați
(mediei populației - µ)

3. Distribuția mediilor eșantioanelor selectate întâmplător tinde să


fie normală (cu toate trăsăturile acesteia).

4. Media distribuției mediilor eșantioanelor selectate întâmplător


este egală cu media populației (µm=µ).

- știm că media eșantionului nostru este una dintre acele


eșantioane care aparțin unei distribuții al cărei medie (media
mediilor) este însăși media populației.

- ceea ce nu știm, unde se situează în această populație media


eșantionului nostru (deasupra, sub sau chiar egal cu media
populației).
Recapitulare: estimarea parametrilor univariați
(mediei populației - µ)

5. Distribuția mediilor standardizată (µ=0)

- ca și orice distribuție standard media va fi 0, iar un anumit


procent din distribuție se va situa într-un anumit interval a
scalei. Întrebarea este cât și unde?
Recapitulare: estimarea parametrilor univariați
(mediei populației)

6. Standardizarea distribuției mediilor va rezullta o distribuție


normală standardizată (deoarece distribuția mediilor tinde să fie
standardizată)

7. Această similaritate a distribuției mediilor și distribuția normală


este mai mică sau mai mare, în funcție de tranformarea efectuată.

1.96 ?≥1.96 în funcție de N


Recapitulare: estimarea parametrilor univariați
(mediei populației - µ)

8. Stabilim limitele care includ 95% din distribuția mediilor


eșantioanelor

- disociem acele valori care sunt tipice (șanse mari de a fi


extrase întâmplător) și cele atipice (șanse mici să apară la o
extragere întâmplătoare) – adică setăm valoarea lui alfa =
asumăm un risc al estimării!

- Fără risc estimarea nu are nicio valoare informativă. De obicei


riscul asumat este de 5 %.
Recapitulare: estimarea parametrilor univariați
(mediei populației)
9.1 În această distribuție zµ = 9.2 În această distribuție tµ=
0 și 95% dintre posibilele 0 și 95% dintre posibilele
eșantioane se situează în eșantioane se situează în
intervalul zµ +/- zα/2*σm intervalul tµ +/- tα/2*σm
(distribuția mediilor tinde să (distribuția mediilor tinde să
fie standardizată) fie standardizată)
Recapitulare: estimarea parametrilor univariați
(mediei populației)

10. Oricare ar fi distribuția z sau t, dacă m este în intervalul


centrat pe zµ sau tµ, atunci și µ va fi inclus în intervalul centrat pe m.

Li,s=

Li,s=
2. Estimarea valorii corelației la nivelul populației
(ρ )

1. Coeficientul de corelație liniar rxy reprezintă estimatorul ρxy

2. Ne referim la mărimea coeficientului de corelație și la semnul


acestuia (la nivelul populației)

3. Calculând valoarea lui rxy știm că această valoare care descrie


relația dintre cele două variabile, în cazul unui alt eșantion ar fi
foarte probabil alta.
Estimarea valorii corelației la nivelul populației
(ρ )

Dintr-o populație în care relația dintre cele două variabile este ρxy
= 0, pot să apară o serie de alte eșantioane (N), în care relația
calculată este alta

rxy = -.37
rxy = .27
rxy = .15

variabilitate valorilor = fluctuație


de eșantionare (depinde de N)
Estimarea valorii corelației la nivelul populației
(ρ )
1. Distribuția corelațiilor eșantioanelor selectate aleator sumarizează
modul în care se comportă corelațiile eșantioanelor extrase întâmplător
dintr-o populație (a cărei corelație nu o știm!)

2. Variabilitatea distribuției corelațiilor depinde de numărul de subiecți


din eșantion (Teorema Limitelor Centrale – N crește se reduce).

- valorile distribuției fluctuează între valoarea minimă și maximă a


valorii posibile (-1 și 1). Oricât de departe s-ar situa o valoare de
valoarea de mijloc a distribuției (care este valorea 0), probabilitatea
de apariție a ei nu este nulă. Este puțin probabilă, dar nu este zero.

- din acest punct de vedere toate valorile posibile ale corelațiilor


extrase întâmplător din populația vor fluctua între min. și max.
posibil, însă nu toate valorile vor avea aceeași probabilitate de a fi
extrase (ex. probabilitatea ca corelația unui eșantion să fie valoarea
extremă -1 sau 1 este foarte mică – depinde de valoarea reală a
corelației și de volumul eșantionului).
Estimarea valorii corelației la nivelul populației
(ρ )

3. Distribuția corelațiilor eșantioanelor selectate întâmplător


respectă o distribuție t cu df=N-2 (aproximează o distribuție t
dacă ρ = 0).

4. Media distribuției corelațiilor eșantioanelor selectate


întâmplător este egală cu corelația populației (ρm= ρ).

- știm că, corelația eșantionului nostru aparține uneia dintre acele


eșantioane care aparțin unei distribuții de corelații în care
media corelațiilor este însăși corelația la nivelul populației.

- ceea ce nu știm, unde se situează în această populație corelația


eșantionului nostru (deasupra, sub sau chiar egal cu corelația
populația).
Estimarea valorii corelației la nivelul populației
(ρ )

5. Dacă ρ ≠ 0, distribuția corelațiilor eșantioanelor selectate


întâmplător nu este nici măcar simetrică, va fi cu atât mai
asimetrică cu cât diferența față de 0 este mai mare.
Estimarea valorii corelației la nivelul populației
(ρ )

5. În acest caz trebuie să


recurgem la un artificiu de
calcul, în loc să gândim în
termenii corelațiilor posibile
(valori între -1 și 1) vom derula
raționamentul în unități
transformate, adică ne vom
folosi de tranformarea Fisher
(marcat cu Z sau z’)
Estimarea valorii corelației la nivelul populației
(ρ )

6. Distribuția tranformată Fisher a corelațiilor este distribuită normal


(adică chiar z), varianța distribuției fiind

7. Stabilim limitele care includ 95% din distribuția corelațiilor la nivelul


eșantioanelor

- disociem acele valori care sunt tipice (șanse mari de a fi extrase


întâmplător) și cele atipice (șanse mici să apară la o extragere
întâmplătoare) – adică setăm valoarea lui alfa = asumăm un risc al
estimării!

- fără risc estimarea nu are nicio valoare informativă. De obicei riscul


asumat este de 5 %.
Estimarea valorii corelației la nivelul populației
(ρ )

7. Oricare ar fi distribuția z sau t, dacă m este în intervalul


centrat pe zµ sau tµ, atunci și µ va fi inclus în intervalul centrat pe m.

Ls=

Li=
3. Estimarea valorii coeficientului de regresie la
nivelul populației (β1)

1. Ambii parametrii fac parte dintr-o distribuție a coeficienților


de regresie/interceptului (b1) aparținând unor eșantioane selectate
întâmplător dintr-o populația (β1).

2. b1 reprezintă o estimare în medie, nu înseamnă că toți indivizii


cu scor x vor avea aceeași scor real (scorul prezis va fi unul,
deoarce modelul este o dreaptă)
Estimarea valorii coeficientului de regresie la
nivelul populației (β1)

3. varianța reziduală reprezintă sumă pătratică a abaterilor


valorilor reale față de valorile prezise.
Estimarea valorii coeficientului de regresie la
nivelul populației (β1)

4.1 În baza vrianței reziduale se estimează eroarea standard al


coeficientului de regresie.

5.1 Având calculată eroarea standard b1 putem calcula limitele de


încredere pentru valoarea β1

Li,s =

Li,s =
Estimarea valorii interceptului la nivelul populației
(β0)

4.2 În baza vrianței reziduale se estimează eroarea standard al


coeficientului de regresie.

5.2 Având calculată eroarea standard b1 putem calcula limitele de


încredere pentru valoarea β0

Li,s =

Li,s =
4. Estimarea intervalului de încredere pentru o
valoare concretă prezisă (Y)

1. Estimarea fluctuației valorilor prezise trebuie să țină cont de


două componente: fluctuația dreptei de regresie (dacă N este mai
mare va fluctua mai puțin) și eroarea de predicție (depinde de
valoarea coeficientului de corelație).
Estimarea intervalului de încredere pentru o
valoare concretă prezisă (Y)

2. Eroarea de predicție este coroborată cu un factor de corecție


care ține cont de fluctuația de eșantionare a celor doi parametrii
(b0 și b1)

3. Intervalul de încredere pentru o anumită valoare prezisă va fi

Li,s = tcritic (N-2)


5. Validarea coeficientului de corelație liniară
a. Restrângerea intervalului de variație
Validarea coeficientului de corelație liniară
a. Restrângerea intervalului de variație
Validarea coeficientului de corelație liniară
b. Prezența valorilor extreme
Studiile corelaționale. Coeficientul de corelație
liniară
5. Validarea coeficientului de corelație
b. Prezența valorilor extreme

- subiecții poziționați on-line – distorionează valoarea


coeficientului accentuând gradul asocierii

- subiecții poziționați off-line – distorionează valoarea


coeficientului reducând gradul asocierii
Studiile corelaționale. Coeficientul de corelație
liniară
5. Validarea coeficientului de corelație
b. Prezența valorilor extreme

- outliers univariat – valoarea mai mare de 2.5 – 3 (în cote


standard)

- outliers bivariat – valoarea poate fi mai mică decât 2.5 – 3


(în cote standard), dar combinația celor două scoruri să
poziționeze subiectul în extremă în distribușia bivariată (în
afara trendului de evoluție a majorității subiecților)
Validarea coeficientului de corelație liniară
c. Caracterul non-liniar al distribuției
Validarea coeficientului de corelație liniară
d. Heteroscedascitatea distribuției bivariate
Validarea coeficientului de corelație liniară
e. Fidelitatea instrumentelor de măsurare
Interpretarea coeficientului de corelație liniară

Criteriile cauzalității
1. Covarianța

2. Ordonarea în timp a cauzei și efectului (cauza precede


efectul) (studii transversale și studii longitudinale)

3. Cauza prezentă, efectul prezent. Cauza absentă, efectul


lipsește.
Studiile corelaționale. Coeficientul de corelație
liniară
6. Interpretarea coeficientului de corelație
Vacanță placută!