Sunteți pe pagina 1din 41

Cursul 2

ESTIMARE

Abaterea standard-exemplu
{1,2,3,4,5}

n=5/m= 3

Xi/n

Ct de departe fa de medie se afl fiecare valoare?

12345
2 1 0 1 2 - - - - - - (2+1+0+1+2)/5=1.2 - - - - - - - -1.2 (distana medie fa de medie)

(Xi-m) /n
(1-3)+(2-3)+(3-3)+(4-3)+(5-3)=?
Dac se ignor semnele (pozitiv i negativ), considernd toate cifrele ca fiind pozitive (adic valori absolute- dificulti din punct
de vedere matematic (modulul nu are proprieti de continuitate si derivabilitate), ceea ce nu se dovedete a fi foarte util pentru
analiza statistic.
Exist ns i o alt posibilitate de a scpa de semne i anume folosind ptratul acestor abateri. Astfel, prin nsumarea ptratelor
abaterilor vom obine un numr pozitiv numit suma ptratelor abaterilor fa de medie.
(Xi-m)2 /n varian (dispersie)

Suma ptratelor abaterilor fa de medie depinde de dimensiunea eantionului, iar indicatorul statistic
pe care dorim s l obinem este o medie i nu o sum.
Cnd eantionul are o singur valoare observat (media va fi egal cu valoarea observat singular,
diferena dintre valoarea observat i aceast medie calculat va fi nul) - abaterea fa medie va fi
ntotdeauna zero pentru o singur observaie.
Astfel, pentru a estima variabilitatea este necesar ca eantionul s conin cel puin dou observaii.
La o dimensiune a eantionului de o observaie, suma de ptrate este ntotdeauna zero. Astfel, pentru
un calcul corect, suma ptratelor diferenelor fa de medie trebuie s fie proporional cu numrul de
observaii minus 1 i nu cu numrul de observaii
Numrul de observaii minus unu = grade de libertate pentru varian. Astfel, variana se estimeaz
ca media ptratelor abaterilor fa de medie, adic un raport ntre suma de ptrate mprit la
numrul de observaii minus unu (adic la numrul de grade de libertate pentru varian).

Variana eantionului este suma ptratelor abaterilor fa de medie mprit la


gradele de libertate.

(Xi-m)2 /(n-1)

Preliminarii: Distribuia Normal


Scurt istoric:
Originea acestui model o gsim n lucrarea Dialog despre cele dou sisteme fundamentale ale lumii a lui
Galileo GALILEI (1564-1642)- i expune prerile referitoare la msurarea distanelor dintre diferite corpuri
cereti
Repartiia normal apare de fapt pentru prima oar n 1733 ntr-o lucrare a lui Abraham de MOIVRE (16671754), matematician cunoscut mai curnd prin formula Moivre referitoare la numerele complexe
Abia odat cu lucrrile lui Carl Friedrich GAUSS (1777-1855) i cele ale lui Pierre Simon, Marquis de
LAPLACE (1749-1827) se pun n lumin proprietile i importana deosebit a acestei legi statistice
Laplace (1810/1811 n Theorie analitique des Probabilites din 1812) arat rolul teoretic (i practic)
excepional jucat de legea normal prin aa-numita TEOREM LIMIT CENTRAL.
-numit si distribuia Gauss (descoperit de ctre Carl Friedrich Gauss)
-este o distribuie continu (cea mai important distribuie continu), simetric i unimodal
-valabilitatea multor metode statistice este real dac se poate presupune c datele urmeaz o
distribuie normal
-numeroase variabile care apar n mod natural, biologic urmeaz distribuii care sunt foarte
asemntoare cu distribuia normal

Distribuie normal

Distribuia normal este reprezentat de o familie de


curbe definite prin doi parametri: media aritmetic ()
i deviaia standard () a seriei de valori. Distribuia
normal de medie i abatere standard se noteaz
N (, ).
Parametrul (termen matematic)=nr. care definete un
membru al unei anumite clase. i identific membrul
familiei distribuiei normale.
Curbele au ntotdeauna form de clopot simetric, iar
gradul de alungire sau de aplatizare al clopotului
depinde de valoarea deviaiei standard a eantionului.
Faptul c o curb are form de clopot, nu nseamn c
reprezint o distribuie normal, deoarece i alte
distribuii pot avea forme similare
ntruct poate fi orice numr real, iar orice numr
real strict pozitiv, rezult c exist, de fapt, o infinitate
de distribuii normale

Distribuia normal nu este doar o distribuie, ci o ntreag familie de distribuii

Distribuia normal standard (cunoscut,de asemenea, sub numele de distribuie Z) este


distribuia normal cu media zero i variana 1 i se noteaz N (0, 1) .
Aceasta este adesea numit clopotul lui Gauss, deoarece graficul densitii de probabilitate
arat ca un clopot.

Perechi de distribuii normale care difer prin:

Doar prin medii

Doar prin abaterile standard

Prin ambele

Distribuia normal importan


Numeroase variabile care apar n mod natural, biologic urmeaz distribuii care sunt foarte
asemntoare cu distribuia normal ne permite utilizarea n analiza lor a metodelor
statistice care cer distribuia normal

n cazul n care o variabil nu urmeaz o distribuie normal, dac am extrage mai multe
eantioane de observaii, mediile calculate n aceste eantioane urmeaz o distribuie normal
(teorema limit central) miracolul lui Gauss

Distribuia normal
Distribuia normal are multe proprieti utile dar, din pcate, nu exist nici o formul simpl care s lege
variabila de aria de sub curb. Prin urmare, nu putem gsi o formul pentru a calcula frecvena ntre dou valori
alese ale variabilei i, pe de alt parte, nici valoarea respectiv n cazul n care s-ar depi un anumit procent de
observaii
n decursul timpului s-au dezvoltat mai multe metode numerice de calcul pentru toate aceste situaii, cu o
precizie acceptabil
S-au obinut tabele extinse de valori pentru distribuia normal, ale cror exemplificri pot fi gsite n multe cri
de statistic sau specializate n tabele
Pachetele de programe statistice (i nu numai) au implementate majoritatea metodelor numerice de calcul a
frecvenelor, att pentru distribuia normal ct i pentru alte distribuii cunoscute
Estimarea punctual
O valoare a parametrului teoretic estimat - m (media eantionului) este un estimator punctual al mediei
populaiei ( )
Este influenat de fluctuaiile de eantionare
Poate s fie foarte departe de valoarea real a parametrului estimat

Intervalul de ncredere - De ce?


Este recomandabil ca estimarea unui parametru teoretic s
se realizeze prin intermediul unui interval, nu a unei singure
valori
- Acest interval se numete interval de ncredere
(confiden)
- Parametrul estimat aparine cu mare probabilitate
intervalului de ncredere

Regula celor 3 (de eliminare a valorilor aberante):


Estimm c 68% din observaii se afl n intervalul de o abatere standard de o parte i de alta a mediei
Estimm c 95% din observaii se afl n intervalul de 1.96 abateri standard de o parte i de alta a
mediei
Estimm c 99.7% din observaii se afl n intervalul de 3 abateri standard de o parte i de alta a mediei
Aceste afirmaii sunt adevrate pentru orice distribuie normal indiferent de medie, varian sau abatere
standard

Regula celor 3 (de eliminare a valorilor aberante):


Estimm c 68% din observaii se afl n intervalul de o abatere standard de o parte i de alta a mediei
Estimm c 95% din observaii se afl n intervalul de 1.96 abateri standard de o parte i de alta a mediei
Estimm c 99.7% din observaii se afl n intervalul de 3 abateri standard de o parte i de alta a mediei
Aceste afirmaii sunt adevrate pentru orice distribuie normal indiferent de medie, varian sau abatere standard

EANTIONAREA

S presupunem c ne aflm n faa unei populaii cu un


numr foarte mare de indivizi, ceea ce, din punct de vedere
statistic = practic infinit
Presupunem pentru simplitate c media populaiei respective
n ceea ce privete un anumit parametru este , iar deviaia
standard este , valori care sunt de obicei necunoscute, iar
distribuia variabilei respective este normal.
S mai presupunem c aproximm media a populaiei prin
medii obinute pe eantioane de volum n, adic eantioane cu
n indivizi.
Putem considera foarte multe astfel de eantioane (poate
chiar pe toate). Vom obine foarte multe medii aproximative
(medii de eantionare de volum n ), aproximaii care sunt,
unele mai departe de adevrata medie, altele mai apropiate.
Rezult o serie statistic, a acestor medii extrem de important, cu anumite proprieti care ne vor ajuta n a estima ct
de bune sunt aproximrile prin medii de eantionare
Ex: nivelul de glucoz din snge (glicemia) mostr de snge - prin calculul concentraiei de glucoz n aceast mostr poate fi
estimat valoarea glicemiei pentru tot sngele pacientului respectiv

Fie seria statistic Mn: m1, m2, m3.........., seria acestor


medii de eantionare de volum n. Se poate demonstra c:
media seriei statistice Mn este aceeai cu a populaiei,
adic m.
deviaia standard a seriei Mn este sn=s/n1/2, adic mai
mic dect a populaiei, care este s.
distribuia seriei Mn este Gauss.

DISTRIBUII DE EANTIONARE
Estimrile care se pot obine de la toate eantioanele posibile (extrase n acelai mod
ca i eantionul studiat) au o distribuie care se numete distribuie de eantionare
1, 2, 3, 4, 5, sau 6
Obinerea fiecarui numr este posibil n aceeai
proporie i anume de 1/6 sau 0.167
Me=(1 +2 +3 +4 +5 +6) / 6 = 3.5 (valoarea medie
pe care ne ateptm s o obinem n cazul mai
multor aruncri)
Se poate, de asemenea, calcula i o abatere
standard a valorilor obinute. Aceasta este de
1.71 i reprezint deviaia standard a distribuiei

Source: http://www.mathsisfun.com/data/standard-deviation-calculator.html

Source: http://www.mathsisfun.com/data/standard-deviation-calculator.html

Pp. c suntem n situaia de a nu


cunoate media valorilor
Vom considera un eantion de
rezultate provenite din aruncarea
simultan de zaruri care ne va permite
estimarea mediei
Vom calcula media celor dou valori obinute pentru estimarea mediei populaiei tuturor valorilor obinute prin aruncarea
de zaruri.
Primul zar are ase fete diferite i pentru fiecare din acestea, al doilea zar poate arta ase fee diferite, astfel nct, n
total exist 6x6 =36 de rezultate posibile
Cea mai mic valoare posibil a punctajului mediu este de 1.0 dar acest lucru nu se poate ntmpla foarte frecvent. Ambele
zaruri ar trebui s arate faa cu valoarea 1 i astfel am obine o medie egal cu 1.0 n cele 36 de aruncri, deci proporia
de aruncri cu acest rezultat este de 1/36 = 0.028
Urmtoarea medie posibil este de 1.5 i se obine atunci cnd pentru un zar se obine faa 1 iar pentru cellalt faa cu
2. Acest lucru se poate ntmpla de dou ori n 36 de aruncri, adic primul zar arat faa 1 i cel de-al doilea 2 sau
primul arat faa 2 i al doilea 1. Proporia de aruncri, n cazul n care media are valoarea de 1.5 este de 2/36 = 0.056

Putem enumera toate posibilitile de aruncare pentru cele dou zaruri i calcula mediile valorilor obinute, i n consecin i
proporiile de aruncri pentru fiecare valoare posibil a mediei
Media=1 (1,1). Prop.=1/36=0.0277
Media=1.5 (1,2), (2,1). Prop.=2/36=0.0555
Media=2 (1,3), (3,1), (2,2). Prop.=3/36=0.0833
Etc.

De asemenea, se poate calcula media i abaterea standard a tuturor acestor medii de valori posibile obinute prin aruncarea a dou
zaruri. Valoarea mediei va fi de 3.5, la fel n cazul aruncrii unui singur zar, dar abaterea standard nu va mai fi aceeai, ci doar
1.21, deci mai mic dect 1.71 care este valoarea obinut n cazul aruncrii unui singur zar

Pentru a estima media populaiei tuturor valorilor posibile ale zarurilor, aruncarea unui singur zar nu este att de concludent,
ntruct, aa cum am vzut, rezultatele pot fi extrem de variabile.
Prin aruncarea a dou zaruri i calculul mediei valorilor obinute din cele dou aruncri se obine o estimaie ceva mai bun.
Estimrile bune sunt considerate cele situate cel mai aproape de mijlocul distribuiei de valori posibile i nu de capetele
acesteia, i, prin urmare, vor fi mai aproape de media real.
Cu ct aruncm mai multe zaruri deodat, cu att estimarea mediei pentru populaie cu ajutorul mediei eantionului
studiat va fi mai exact

Distribuiile de eantionare pentru mediile valorilor obinute


prin aruncarea simultan a patru, respectiv ase zaruri

Observaii:
1. media distribuiei este ntotdeauna aceeai, i anume 3.5
2. variabilitatea distribuiilor este mult mai mic atunci cnd
numrul de zaruri aruncate crete - n aceast situaie exist mult
mai multe proporii mici de aruncri productoare de medii
apropiate de 1.0 sau 6.0 iar abaterile standard corespunztoare
devin mai mici
3. forma distribuiei se modific cnd numrul de zaruri aruncate
simultan este mai mare, aceasta tinznd s arate mult mai familiar
i fiind similar curbei care corespunde distribuiei normale

1. Dac se consider un eantion format din cteva observaii i se calculeaz media acestora, indiferent de distribuia
populaiei din care a fost extras eantionul, media eantionului va avea o distribuie care are aceeai medie cu media ntregii
populaii
2. Deviaia standard calculat pentru mediile eantioanelor va fi mai mic dect cea a ntregii populaii, i, cu ct eantionul va fi
mai mare ca dimensiune cu att vom avea o abatere standard mai mic pentru mediile eantioanelor
3. Forma distribuiei mediilor eantioanelor se apropie de o distribuie normal cnd numrul de observaii din eantion crete
4. Numim statistic orice numr care se poate calcula pe baza datelor care provin dintr-un eantion, de exemplu media,
proporia, mediana sau abaterea standard.
5. Orice statistic, care se calculeaz pe baza datelor care provin dintr-un eantion va avea asociat o distribuie de eantionare

Eroarea standard
- Utilizat la descrierea/raportarea unei estimri
- Provine de la distribuia de eantionare
- Abaterea standard a distribuiei de eantionare arat ct de potrivit este statistica calculat pe
eantionul studiat ca o estimare a valorii reale din populaie
- Este cunoscut sub numele de eroarea standard a estimrii
Termenii de "eroare standard" i "abatere standard" sunt adesea confundai.
Prin convenie:
"abatere standard" - cnd se vorbete despre distribuia unui eantion sau a unei populaii
"eroare standard" - cnd se vorbete despre o estimaie calculat pe baza datelor dintr-un eantion
(abatere standard a unei statistici)
Erorile standard sunt frecvent menionate n majoritatea lucrrilor publicate sau n rapoartele de cercetare
Eroarea standard asosciat unei estimaii exprim de fapt, cum pot fi estimaiile variabilei respective n cazul
n care am extrage alte eantioane din populaie ntr-un mod similar cu eantionul studiat (propriu)
Cel mai adesea lucrrile de cercetare includ intervalele de ncredere (mai jos) i valorile p (cursurile
urmtoare) care sunt derivate din utilizarea erorilor standard
Pentru majoritatea statisticilor calculate pentru datele observate sunt menionate erorile standard estimate,
care sunt folosite pentru a face estimri referitoare la populaia din care a fost extras eantionul

Intervale de ncredere
Un estimator este cu att mai eficace cu ct variaia sa este mai mic (precizia sa depinde de
mrimea variaiei sale).
Estimarea punctual a unui parametru teoretic furnizeaz o valoare pentru parametrul
teoretic estimat. Valoarea sa este tributar fluctuaiilor de eantionare i poate fi la o mare
distan de valoarea real a parametrului estimat.
Este recomandabil s se estimeze un parametru teoretic nu printr-o singur valoare ci printrun interval, numit interval de ncredere, n care s se poat afirma c parametrul estimat se
gsete cu o probabilitate ridicat.
Intervalele de ncredere reprezint o alt modalitate de a determina ct de apropiate sunt
estimrile din eantioane fa de cantitatea total pe care dorim s o estimm

Mai sunt denumite i estimri de tip interval, deoarece acestea estimeaz o limit inferioar
i una superioar ntre care sperm s se afle valoarea real
O estimare de tip interval este o estimare sub forma unei zone continue de valori posibile
O estimare care este reprezentat printr-un un singur numr este denumit estimare
punctual

Intervale de ncredere
Intervalul de ncredere este un interval mrginit de valori (limitele poart numele de limite de
ncredere); include media caracteristicii studiate.
Cu ct intervalul este mai larg cu att suntem mai siguri c media caracteristicii studiate se va
regsi n acel interval.
Mrimea ncrederii, confidena, este dat de probabilitatea ca valoarea (valorile) studiate s
se gseasc n acel interval.

Ex: Fie P o populaie n care variabila X are o medie teoretic necunoscut. Din populaia P se
extrage la ntmplare eantionul E reprezentativ. In eantionul E pentru variabila X se observ o
medie m i se calculeaz o variaie punctual estimat

Se ncearc s se determine pentru valoarea necunoscut a mediei teoretice un interval de


ncredere cu pragul , (cu ajutorul lui m i S2 observate), adic s se determine un interval [a,b] n
care probabilitatea ca media teoretic s se afle, este 1-

Intervale de ncredere
Nu este posibil s se calculeze estimri utile de tip interval care s conin ntotdeauna
valoarea necunoscut din populaie (exist mereu o probabilitate foarte mic ca un eantion
s fie (foarte) extrem i s conin o mulime de observaii, fie foarte mici, fie foarte mari, sau
s existe dou grupuri care s difere foarte mult nainte i dup aplicarea tratamentului

Intervalul calculat final va rezulta din cele mai multe intervale calculate care conin valoarea
real din populaie, adic ceea ce dorim s estimm
Dac, considerm un interval de ncredere de 95% calculat pe baza datelor din eantion,
aceasta nseamn c 95% din intervalele calculate pe baza datelor din eantion vor conine
valoarea real din populaia global
Intervalele de ncredere nu includ ns ntotdeauna valoarea real a populaiei. Dac 95% din
intervalele de 95% ncredere o includ rezult c exist 5% care nu o includ

G merelor dintr-o livad le putem


cntri individual - - imposibil

SAU

Eantion

Inferena
(Extrapolare)

DS scade odat cu creterea eantionului

FOLOSIM NTOTDEAUNA INTERVALE DE 95% NCREDERE?


Alegerea ncrederii de 95% a fost ntmpltoare i nu a existat un anumit motiv
pentru care am folosit-o (am fi putut, la fel de bine s folosim un alt procent
pentru intervalele de ncredere, cum ar fi 99% sau 90%).
Dup cum ne-am putea atepta, dac avem 99% ncredere c intervalul include
valoarea real a populaiei, atunci acesta trebuie s fie mai mare dect
intervalul de 95% ncredere. Printr-un raionament similar, intervalele de 90%
ncredere sunt mai restrnse.
Alegerea unui interval de ncredere de 95% = un compromis ntre dorina de a
avea un interval de ncredere care s includ i valoarea populaiei, i dorina ca
acesta s fie suficient de ngust pentru a oferi informaii utile

GREELI COMUNE N FOLOSIREA I INTERPRETAREA INTERVALELOR DE


NCREDERE
1. Nu se citeaz intervalele de ncredere (autorii persist n a furniza numai valorile p, dei majoritatea jurnalelelor
precizeaz, n instruciunile ctre autori c rezultatele ar trebui s fie furnizate sub form de intervale de ncredere)
Ex: -n instruciunile revistei Lancets pentru autori se afirm:

"Atunci cnd este posibil, gsii cuantificri i prezentai-le cu indicatori adecvai de msurare a erorii sau
incertitudinii (cum ar fi intervale de ncredere). Evitai calculele bazate exclusiv pe testarea ipotezelor statistice, cum
ar fi utilizarea valorii p, care nu reuete s transmit informaii cantitative importante."
2. Autorii furnizeaz intervale de ncredere pentru mediile msurtorilor nainte i dup intervenie, n loc s
furnizeze valoarea intervalului pentru media diferenei
3. Calculul intervalului de ncredere pentru o estimaie obinut ntr-un eantion de dimensiuni reduse folosind o
metod conceput pentru eantioane mari