Sunteți pe pagina 1din 81

Ce este statistica?

i e
Statistica este tiina care culege, sintetizeaz,

ac
BIOSTATISTICA descrie, interpreteaz datele referitoare la fenomene
generale (DEX 98)
1. Introducere n statistic

rm
2. Statistica descriptiv
Obiectul statisticii moderne l constituie colectarea,
organizarea, analiza i interpretarea datelor n
vederea adoptrii deciziilor.

Fa
Curs 3

de
Ce este statistica?
a Ce este statistica?
te
Clasificare: Statistica matematic este o ramur a matematicii
Statistica matematic care elaboreaz noiunile i metodele folosite n
lta

Statistica economic statistic


Statistica industrial Statistica economic (sau Statistica pentru afaceri =
Statistica social Business Statistics) este ramura statisticii care
studiaz fenomenele i procesele economice, cu
cu

Statistica medical (biostatistica)


aplicaii n asigurri, finane, marketing, management
.a.
Fa

1
Biostatistica statistic aplicat n medicin
Ce este statistica?

e
Obiectivele biostatisticii:
1. Starea sntii populaiei:

i
- Reproducerea i mortalitatea populaiei;
Statistica industrial (n englez Engineering

ac
- Morbiditatea i invaliditatea;
Statistics sau Industrial Statistics) studiaz - Parametrii dezvoltrii fizice.
fenomenele i procesele din inginerie i industrie, cu 2. Legtura dintre influena mediului ambiant i factorilor sociali asupra
aplicaii n proiectarea experimentelor, controlul sntii populaiei.
statistic al calitii, fiabilitate etc.)

rm
3. Acumularea i analiza datelor referitor la activitatea instituiilor i
Statistica social studiaz fenomenele sociale, cu cadrelor medicale.
aplicaii n demografie, recensminte, analize politice
4. Evaluarea eficacitii metodelor de profilaxie i tratament.
etc.
5. Planificarea, economia i finanarea ocrotirii sntii.
Statistica medical (biostatistica): aplicaii n

Fa
medicin, farmacie i tiine biologice Pornind de la obiective, deosebim urmtoarele compartimente ale
biostatisticii:
- Statistica sntii populaiei;
- Statistica ocrotirii sntii;
- Statistica managementului de profilaxie, tratament i altor activiti n medicin.

Scopul statisticii
de Biostatistica scopuri
a Descriptiv (statistica descriptiv): evidenierea caracteristicilor
te
Scopul statisticii poate fi dedus din clasificarea acesteia:
importante ale unui set de date medicale.
- statistica descriptiv Metode:
- statistica analitic. Organizarea
lta

Sumarizarea
Caracterizarea unui set de date
Statistica descriptiv se ocup de prezentarea, clasificarea i
Instrumente:
sintetizarea datelor din observaii. Aceasta prezint informaia existent
n datele respective cu ajutorul indicatorilor statistici - numere ce Grafice:
cu

exprim caracteristici sau tendine ale fenomenului studiat. Distribuia de frecvene (histograma)
Distribuia de frecvene (histograma diferenelor pentru date
perechi)
Statistica analitic (inferenial) folosete teoria probabilitilor Compararea grafic a distribuiilor datelor
Fa

pentru extragerea i prelucrarea informaiei statistice; n multe cazuri Identificarea relaiilor liniare
aceste metode pun n eviden legiti statistice. Compararea relaiilor liniare

2
Metode de colectare a datelor
Biostatistica scopuri

e
Principalele metode de colectare sau de culegere a

i
datelor sunt:

ac
Inferenial (statistica inferenial):
Cum (i cnd) generalizm rezultatele obinute
de la un eantion la populaia general
Populaia

rm
SURSE DE
DATE
STATISTICE

EXPERIMEN-
OBSERVARE SONDAJ SIMULARE

Fa
TARE

Eantionul

Inferentastatistica

de
Metode de colectare a datelor
a Metode de colectare a datelor
te
Observarea direct este cea mai simpl metod de obinere Tehnicile de sondaj utilizeaz:
a datelor statistice i const din observarea i nregistrarea interviuri (directe, telefonice)
lta

direct (nemijlocit) a datelor dintr-un anumit eantion sau chestionare (directe, prin pot, e-mail, internet)
populaie statistic

Experimentele reprezint o metod de a obine date Pentru analiza datelor statistice i pentru decizie se
cu

statistice prin proiectarea i planificarea modalitii de utilizeaz i date obinute prin metode de simulare
obinere a datelor statistice respective
Indiferent de metoda de colectare a datelor, pentru
Sondajele statistice reprezint o metod de culegere a
inferena statistic este important eantionarea datelor
Fa

datelor statistice, ce const n obinerea de informaii de la


diferite categorii de populaii

3
Populaie statistic i eantion Populaie statistic i eantion
statistic statistic

e
Definiie: O populaie statistic este o mulime sau o

i
Definiie: Msurile numerice ce caracterizeaz o

ac
colecie de obiecte despre care observm i
nregistrm date, n scopul unei analize statistice. populaie statistic se numesc parametri statistici.

De obicei, prin populaie statistic, n mod empiric, nelegem o

rm
mulime de persoane umane:
persoanele din Judeul Constana care sufer de hipertensiunea Parametrii unei populaii se noteaz cu litere
arterial esenial (HTA) greceti
persoanele din judeul Constana de sex feminin care sufer de
HTA De exemplu, media unei populaii se

Fa
persoanele din Romnia care sufer de o afeciune i care au fost
operate, etc.
noteaz cu , iar abaterea standard cu .

Populaie statistic i eantion

de Populaie statistic i eantion


statistic
a statistic
te
Definiie: Un eantion statistic este o submulime de EANTIONARE
obiecte extrase dintr-o populaie statistic. POPULAIE
lta



Definiie: Msurile numerice ce caracterizeaz un

eantion statistic se numesc statistici sau indicatori EANTION

cu

statistici.

De exemplu, media unui eantion se
INFEREN
Fa

noteaz cu , iar abaterea standard cu s.


Populaie i eantion
4
Metode de eantionare Metode de eantionare

i e
Metodele de eantionare sunt de dou tipuri:

ac
EANTIONARE

aleatoare (sau probabiliste)


nealeatoare (sau deterministe) NEALEATOARE ALEATOARE

rm
Eantionarea aleatoare se bazeaz pe tehnica RAIONAMENT SIMPL

numerelor aleatoare (ntmpltoare) i pe teoria


probabilitilor COT PARTE SISTEMATIC

Fa
Eantionarea nealeatoare se bazeaz, n general pe STRATIFICAT

raionament i pe modul n care datele sunt disponibile


PE GRUPURI

de
Un eantion aleator simplu de efectiv n este una Un eantion aleator sistematic de efectiv k se obine
eantion selectat ntmpltor dintr-o populaie astfel nct prin divizarea populaiei cu efectivul N n k
orice eantion diferit s aib aceeai probabilitate de eantioane cu efectivul n i apoi extragerea
te
prelevare sau de extragere. elementului de acelai rang (ales ntmpltor) din
fiecare eantion format
lta






cu







Fa

5
Un eantion aleator stratificat de efectiv n se obine Un eantion aleator pe grupuri (pe clustere) de
prin separarea populaiei cu efectivul N n n efectiv n se obine prin separarea populaiei cu

e
subpopulaii sau straturi i apoi extragerea de efectivul N n n grupuri sau clustere i apoi
eantioane aleatoare simple din fiecare strat. extragerea aleatoare a unui anumit grup.

i
ac

rm



Fa

Tipuri de date statistice


de Tipuri de date statistice
a
Datele statistice pot fi clasificate dup:
te
Unitatea statistic reprezint elementul component al unei
colectiviti statistice (de ex. n cazul populaiei unei ri, Modul de exprimare:
unitile statistice sunt indivizii). Unitile statistice sunt
elementele de observare, msurare i nregistrare; prin ele se
lta

observ, msoar i nregistreaz o populaie.


A. CALITATIVE
O variabil statistic este o anumit caracteristic nregistrat la
nivelul unitilor statistice ale unei populaii sau ale unui eantion 1. nominale - exprimate n cuvinte: profesie, culoarea prului,
culoarea tegumentelor, starea la externare a unui bolnav,
cu

Valorile unei variabile statistice sunt valorile observate i posibile


ale variabilei respective grupa de aciune farmacologic (antiinflamator, antipiretic,
antireumatic), etc.;
Datele statistice sunt valorile observate i nregistrate ale unei 2. ordinale - sunt date calitative nominale, n care
variabile statistice caracteristicile sau categoriile sunt ordonate: Graduarea unei
Fa

afectiuni (Incipient, Moderat, Sever, Stare critic)


Informaiile statistice rezult din prelucrarea i analiza datelor
statistice
6
Variabila calitativ Tip Valori / UM
Tipuri de date statistice Clasificarea Ordinal *, **, ***, ****, *****

e
hotelurilor
Satisfacia clientului Nominal Foarte redus, Redus,
B. CANTITATIVE (numerice), exprimate n cifre:

i
Satisfctoare, Bun,
(calitatea produsului)

ac
nlime, greutate, tensiune arterial, puls, Foarte bun
Clasificarea funciilor Nominal Preparator, Asistent,
temperatur, etc. didactice Lector, Confereniar,
1. continue (msurabile)- pot lua orice valoare din scara lor Profesor

de variaie: greutatea unei persoane, nlimea,

rm
Variabila cantitativ Tip Valori / UM
temperatura, etc.;
2. discrete (numrabile)- pot lua numai valori ntregi: Faa aprut la Discret 1, 2, 3, 4, 5, 6
numrul de copii, numr de vizite, flux de pacieni / zi aruncare unui zar
ntr-o farmacie, etc; Nota obinut la un Discret 4, 5, ..., 9, 10

Fa
examen
Modul de obinere: nlimea Continu cm
- primare, obinute n etapa de colectare a datelor;
- derivate, obinute n procesul prelucrrii datelor statistice Greutatea Continu kg

de
Distribuiadatelorncolectivitateaselectiv

Poatefi:
Alternativ
a
Asimetric (pestnga)
Sistematizarea datelor statistice
te
Gruparea statistic reprezint o operaie de sistematizare a datelor
primare, prin care pentru caracteristicile nregistrate, evideniaz
Simetric tipurile calitative existente n cadrul populaiei cercetate.
Prin grupare se omogenizeaz unitile colectivitii din punct de vedere
lta

al variaiei uneia sau mai multor caracteristici.


Gruprile pot fi clasificate astfel:
Asimetric (bimodal) 1. dup obiectivul urmrit:
cu

- grupri destinate prezentrii sistematice a datelor culese;


Asimetrica(pedreapta)
- grupri destinate analizei statistice.
2. dup forma de exprimare a caracteristicilor:
- grupri dup caracteristici numerice sau cantitative;
Fa

- grupri dup caracteristici nenumerice sau calitative.

7
Prezentarea datelor statistice

e
Gruparea statistic
3. dup numrul de caracteristici n funcie de care se face gruparea: Tabele statistice

i
- grupri simple fcute dup o singur caracteristic;

ac
Un tabel statistic trebuie s cuprind urmtoarele elemente:
- grupri combinate fcute dup dou sau mai multe
caracteristici.
titlul general al tabelului i titlurile interioare, unitatea de
4. dup coninutul caracteristicilor:
msur utilizat, notele explicative, sursa datelor.
- grupri dup caracteristici de spaiu; Tabelele pot fi:

rm
- grupri dup caracteristici de timp; - simple (ce nu cuprind grupri)
- grupri dup caracteristice atributive. - de grupare (o singur caracteristic de grupare)
5. dup mrimea intervalelor de grupare: - combinate (grupri dup dou caracteristici)
- grupri cu intervale egale;

Fa
- de corelaie (grupri dup dou sau mai multe caracteristici,
- grupri cu intervale neegale (inegale).
legate ntre ele cauzal)

de
Prezentarea datelor statistice

Distribuii statistice unidimensionale


Prezentarea datelor statistice
a
te
Grafice Tabele de frecven
Elementele specifice ale unui grafic sunt urmtoarele: axele Serii unidimensionale cu variabila exprimat numeric (cantitativ)
de coordonate, scara, reeaua graficului, legenda.
Considerm o colectivitate P pentru care definim o variabil
lta

statistic X ale crei valori (variante) sunt:


{x1, ... ,xn}
Aceste valori pot fi grupate:
- pe variante xi, crora asociem frecvena de apariie
cu

corespunztoare ni, unde i=1,k n cazul unei variabile


Reprezentarea n coordonate rectangulare (I, II) i discrete
coordonate polare (III) - pe intervale Ji=(xi-1, xi), la care asociem frecvena de
Scrile utilizate n reprezentrile grafice pot fi scri apariie corespunztoare ni, unde i=1,k n cazul unei
Fa

uniforme (scara aritmetic n care diviziunile sunt variabile continue


echidistante) sau scri neuniforme (de tipul gaussian,
respectiv logaritmic).
8
Prezentarea datelor statistice

Distribuii statistice unidimensionale Realizarea tabelelor de frecven utiliznd

e
Serii unidimensionale cu variabila exprimat numeric (cantitativ) programul Excel
Variabile discrete

i
Aplicaie: Considerm o colectivitate statistic (P) formata din 19 pacienti (nou

ac
Tabelul de frecvene variabile discrete nascui) pentru care definim si urmrim experimental variabila scor apgar:
VSA = Variabila scor Apgar = {1,2,...,10}
Varianta Frecvena Frecvena Frecvena Frecvena
absolut relativ absolut cumulat relativ cumulat Funcia COUNTIF(Range, Criteria)
( ( ( (

rm
x1 n1 N1= n1 F1= f1

x2 n2 N2= N1 + n2 F2=F 1 + f2

... ... ... ...


xi ni Ni= Ni-1 + ni Fi=Fi-1 + fi

Fa
... ... ... ...
xk nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1

Total n 1 - -

de
Prezentarea datelor statistice Prezentarea datelor statistice

Distribuii statistice unidimensionale Distribuii statistice unidimensionale


Serii unidimensionale cu variabila exprimat numeric (cantitativ)
a
Grafic Coloan
Serii unidimensionale cu variabila exprimat numeric (cantitativ)
te
Variabile discrete Variabile continue
7
Reprezentri grafice folosind Excel 6
6 6
Tabelul de frecvene variabile continue
5
7 5

Intervale Frecvena Frecvena Frecvena Frecvena


lta

6 6 6 4

5 5 3 absolut relativ absolut cumulat relativ cumulat


4 Poligonul 2 ( ( ( (
1 1
3 Frecvenelor 1

0
0 0 0 0 0 (x0-x1] n1 N1= n1 F1= f1
2
1 2 3 4 5 6 7 8 9 10
1 1 1 Scor
(x1-x2] n2 N2= N1 + n2 F2=F 1 + f2
cu

0 0 0 0 0 0
1 2 3 4 5 6 7 8 9 10
... ... ... ...
0.00%
10 5
9 6 Grafic Pie 26.32%
5.26%
(xi-1-xi] ni Ni= Ni-1 + ni Fi=Fi-1 + fi
8 6 5.26%
7 1

... ... ... ...


Fa

6 1 31.58%
31.58%
Grafic 5
4
0
0
Bar 3 0
(xk-1-xk] nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1
2 0
1 0
0 2 4 6 8 1 2 3 4 5 6 7 8 9 10 Total n 1 - -
Scor

9
Prezentarea datelor statistice
Realizarea tabelelor de frecven utiliznd
Distribuii statistice unidimensionale programul Excel

e
Serii unidimensionale cu variabila exprimat numeric (cantitativ)

Variabile continue Aplicaie: Considerm o colectivitate statistic (P) formata din 19 pacienti (nou

i
nascui) pentru care definim si urmrim experimental variabila greutate:

ac
VG = Variabila greutate (Kg)

Funcia FREQUENCY(data_array, bins_array)

rm
Fa
de
Prezentarea datelor statistice Prezentarea datelor statistice

Distribuii statistice unidimensionale Distribuii statistice unidimensionale


Serii unidimensionale cu variabila exprimat numeric (cantitativ)
a Serii unidimensionale cu variabila exprimat numeric (cantitativ)
te
Variabile continue Variabile continue
Histograma permite s se
Reprezentri grafice folosind Excel cunoasc zonele de concentrare i Gruparea pe intervale neegale (gruparea tipologic) - se poate realiza fie
de dispersie a distribuiei, precum pornind de la intervalele egale stabilite anterior i regruparea acestora pentru
i compararea efectivelor unei
a diminua fluctuaia excesiv a frecvenelor de la o grup la alta, sau pentru
lta

Histogram grupe cu alta. 7


7 120.00% 6
6 a acoperi una sau mai multe grupe vide (fr uniti), fie pe baza particulari-
6 100.00% 5
4 4
tilor caracteristicii cercetate, sau a necesitilor analizei.
5
80.00%
4
Dac , efectivele nu se pot compara de la o clas la alta, fiind
Frequency

4 3

3
60.00%
2
2 2
1
necesar calculul frecvenele reduse ( .
40.00% Frequency 1
nlimea dreptunghiului corespunztor intervalului este proporional cu
cu

2
20.00% Cumulative% 0
1
(3,3-
3,7]
(3,7-
4,1]
(4,1-
4,5]
(4,5-
4,9]
(4,9-
5,3]
(5,3-
5,7]
frecvena redus ( calculat cu formula:
0 0.00%

Bin
Histograma i Poligonul 5% 10%
(3,3-3,7]

11% (3,7-4,1]
Frecvenelor
Fa

21% 21% (4,1-4,5]


(4,5-4,9]

32% (4,9-5,3] ki = coeficientul de reducere a frecvenelor


(5,3-5,7] Grafic Pie ni = efectivul corespunztor intervalului Ji=(xi-1, xi)
Li, Lmin = mrimea intervalului Ji, Jmin
10
Prezentarea datelor statistice Prezentarea datelor statistice

Distribuii statistice unidimensionale Distribuii statistice unidimensionale

e
Serii unidimensionale cu variabila exprimat numeric (cantitativ) Serii unidimensionale cu variabila exprimat calitativ (nenumeric)

Variabile continue Gruparea n funcie de o

i
caracteristic nominativ

ac
(calitativ sau nenumeric)
seamn cu gruparea
unitilor colectivitii
cercetate dup valorile
(variantele) distincte ale unei

rm
caracteristici numerice
(variabile discrete).
7 De ast dat, se ncepe cu
6
6
listarea strilor calitative
5
5
distincte ale caracteristicii de
4
grupare care pot fi identificate

Fa
hi
n colectivitatea cercetat. Cele mai uzuale metode de descriere i
3
2 Aceste stri calitative reprezentare grafic a mulimilor de date calitative
2
distincte se mai numesc i sunt:
1
atribute (variante calitative). graficul (diagrama) cu bare (coloan, bar)
0
(10-30] (30-40] (40-60] graficul circular (pie)
Cifra de afaceri

de
a
te
lta
cu
Fa

11
Curs 3

Sistematizarea i reprezentarea distribuiilor statistice

e
unidimensionale (Tabele de frecven, Reprezentare

i
grafic)

ac
Biostatistic Date cantitative
o Continue
o Discrete
Serii cronologice

rm
Date calitative (nenumerice)
Serii de spaiu
Curs 4
Distribuii bidimensionale
Serii de timp (cronologice)

Fa
Serii de spaiu
Sistematizarea i reprezentarea distribuiilor statistice
Curs 4
unidimensionale

de
a Reprezentarea grafic seriilor de
Serii de timp (Serii cronologice) timp (seriilor cronologice)
te
Variabila Numrul unitilor Reprezentarea grafic a seriilor de timp (cronologice) se
timp ti yi
Seria cronologic prezint variaia unei caracteristici realizeaz cu ajutorul cronogramei si a diagramelor polare.
t1 y1
n funcie de timp (yt = f(t)), unde: Cronograma se foloseste pentru a desprinde tendina de
lta

t2 y2 yt = variaia caracteristicii studiate; dezvoltare a fenomenelor pe fiecare etap analizat. Se


ti = variaia de timp.
... construieste n cadranul I; pe axa absciselor (OX) se
tk yk Dup timpul la care se refer pot fi:
o Serii cronologice de fluxuri (intervale) sunt construieste scara timpului, iar pe axa ordonatelor (OY),
Total yk scara valorilor seriei cronologice.
acele serii n care valorile caracteristicii studiate se
cu

nregistreaz pe luni, trimestre, ani etc. Valoarea La stabilirea scrii timpului si nivelurilor trebuie s se
Macheta tabelului cronologic centralizat se poate obine prin cumularea unitilor
respecte proporionalitatea, pentru c raportul dintre scri
nregistrate.
o Serii cronologice de stocuri sau de momente sunt are o importan mare asupra formei curbei si poate da o
imagine denaturat asupra dezvoltrii fenomenului.
Fa

valorile caracteristicii obinute la diferite momente de


timp

12
Cronogramele prin benzi, coloane i liniare Reprezentarea grafic seriilor de
timp (seriilor cronologice)

e
Diagrama polar (radial) ajut la interpretarea gradului

i
i formei de variaie sezonier. n statistica social-

ac
economic se ntlnesc frecvent fenomene care prezint
variaii sezoniere sptmnale, trimestriale etc., ca de
exemplu, consumul antibiotice, consumul de bere i buturi
rcoritoare .a. Fenomenele cu caracter sezonier sunt

rm
specifice ndeosebi activitilor din turism, comer i
agricultur.
La construirea graficului se folosete o reea de cercuri
concentrice, iar raza este proporional cu nivelul mediu al
indicatorilor; cercul se mparte n attea pri ci indicatori
sunt. Drept abscis servete circumferina cercului pe care

Fa
se noteaz timpul, iar ca ordonat raza sau poziia razei, pe
care se noteaz cantitile.

de
ProduciatrimestrialafabriciiX.
Trimestrul I II III IV Media

Producia (nr. cutii) 250 350 700 300


trimestrial
400
a Serii de spaiu
te
Uniti Valoarea
teritoriale caracteristicii
yi Seria teritorial prezint variaia teritorial a
A yA caracteristicii analizate.
lta

n aceste serii, valorile caracteristicii se refer la


B yB unitile teritoriale din care fac parte.
... Aceste serii se obin dup criterii administrativ-
T yT
teritoriale, ceea ce nseamn c spaiul este variabil,
cu

Total yT timpul i structura organizatoric fiind considerate


constante.
Macheta tabelului cronologic
Fa

13
Reprezentri grafice pentru seriile Reprezentri grafice pentru seriile
de spaiu de spaiu

e
Seriile de spaiu (teritoriale) se pot reprezenta grafic prin Cartodiagramele reprezint un tip special de cartogram, care

i
cartograme i cartodiagrame. const dintr-o combinaie a cartogramei cu diagramele (cerc,

ac
ptrat, coloane etc.) care se aplic pe cartogram. Pe hart se vor
Cartograma prezint distribuia n spaiu a intensitii de
construi figurile geometrice amintite mai sus, pentru a reda
manifestare a unui fenomen. Construirea graficului volumul sau structura diferiilor indicatori distribuii din punct de
presupune: vedere teritorial. La ntocmirea graficului se va ine seama de

rm
gruparea unitilor teritoriale dup o variabil considerat; obiectivul urmrit.
construirea unei hri n care se delimiteaz unitile teritoriale;
haurarea suprafeelor unitilor teritoriale n funcie de
La reprezentarea grafic a distribuiilor
intensitatea de manifestare a fenomenului studiat. teritoriale ale diferiilor indicatori se mai
pot folosi si figuri naturale sau simbolice,

Fa
care sunt proporionale cu valoarea
indicatorilor de reprezentat.

de
Distribuiilor statistice bidimensionale
a Distribuiilor statistice bidimensionale
te
O distribuie bidimensional prezint variaia unitilor
unei colectiviti simultan dup dou caracteristici de n funcie de modul de exprimare a variabilelor x, y se
grupare. pot trata urmtoarele tipuri de distribuii bidimensionale:
lta

distribuii cu ambele variabile exprimate numeric;


Considerm o colectivitate C cu n elemente la nivelul creia definim
dou variabile: distribuii cu o variabil exprimat numeric i o variabil
- X cu valorile xi, i=1, ,
cu

- Y cu valorile yj, j=1,...,p exprimat nenumeric;


Dac notm cu nij elementele colectivitii care au simultan valoarea
distribuii cu ambele variabile exprimate nenumeric.
xi i valoarea yj, atunci o distribuie bidimensional este definit prin
ansamblul de triplete:
Fa

(xi, yj, nij)

14
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
A. distribuii cu ambele variabile exprimate numeric A. Distribuii cu ambele variabile exprimate numeric

e
Prezentarea tabelar a unei distribuii bidimensionale (grupare pe variante)

i
Tabel de contingen

ac
Y y1 y2 ... yj ... yp ni
X

x1 n11 n12 ... n1j ... n1p n1


x2 n21 n22 ... n2j ... n2p n2

rm
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni
... ... ... ... ... ... ...
xm nm1 nm2 ... nmj ... nmp nm

Fa
nj n1 n2 ... nj ... np n=

n cadrul unei distribuii bidimensionale se disting dou distribuii


marginale, n X, respectiv n Y i (m+p) distribuii condiionate.

de
Exemplu: Considerm un eantion format din 30 de reprezentani medicali ai Distribuiilor statistice bidimensionale
unei firme de medicamente, pe care l analizm din punct de vedere al
A. Distribuii cu ambele variabile exprimate numeric
fiecare n parte (variabila Y) timp de o luna.
a
numrului produselor vndute (variabila X), respectiv al salariului obinut de
Reprezentare grafic
te
Corelograma (Diagrama nor de puncte)
Reprezentarea grafic se realizeaz cu corelograma cunoscut sub
denumirea diagrama nor de puncte. Se construieste n cadranul I al
sistemului de axe rectangulare. Pe axa OX (axa absciselor) se ia o
lta

scar a valorilor caracteristicii factoriale (x), iar pe OY (axa


ordonatelor) valorile caracteristicii rezultative. Pe fiecare ax se va
face ntrerupere n origine cu dou liniue paralele, pentru ca cele dou
1.Legtura dintre produsele vndute i salariul lunar diagrama scri de reprezentare s nceap cu valorile cele mai apropiate de
limitele inferioare nregistrate pentru cele dou caracteristici.
cu

nor de puncte.
2.Distribuia eantionului de reprezentani medicali n funcie de 1200
produsele vndute i salariul lunar diagrama 1000
paralelipipedelor.
800
3.Distribuia eantionului de reprezentani medicali n funcie de
600
produsele vndute i salariul lunar suprafa poliedral.
Fa

400

200

0
0 20 40 60 80
15
Fiecare unitate purttoare a celor dou caracteristici

e
(xi, yj), se reprezint pe grafic printr-un punct. Acest Legtura direct ntre cele dou variabile poate fi i
tip de grafic stabileste existena, direcia legturii i neliniar, n acest caz, pe grafic, aprnd o linie curb.

i
forma de legtur dintre cele dou variabile.

ac
Pentru interpretarea legturii putem folosi urmtoarele
variante de grafice care se refer la funciile liniare:

rm
Hiperbol Parabol Funcie exponenial

OBSERVAIE: Graficul prezint avantajul c pe baza lui se poate


constata nu numai existena legturii i sensul ei, dar mai ales forma

Fa
ctre care tinde s se realizeze, deci se poate elabora o ipotez
statistic care s fie utilizat la aplicarea metodelor analitice de
Legtur liniar direct Legtur liniar invers Lips de legtur corelaie.

de
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
A. Distribuii cu ambele variabile exprimate numeric A. Distribuii cu ambele variabile exprimate numeric
Reprezentare grafic
a Reprezentare grafic
te
Diagrama paralelipipedelor Suprafaa poliedral
Reprezint o transpunere a
Reprezint o transpunere a histogramei ntr-un spaiu cu trei 7
poligonului sau curbei frecvenelor 7
dimensiuni; aceast diagram se traseaz ridicnd pe ntr-un spaiu cu trei dimensiuni;
lta

fiecare suprafa luat ca baz, un paralelipiped acesta se construiete astfel: se 5


5

nij
4
proporional cu frecvena nij corespunztoare fiecrei ridic din centrul fiecrei suprafee 3 2 2 2

perechi de valori (xi, yi). luate ca baz, o linie vertical de 2 2 2 01


2 2
2

0
lungime proporional cu frecvena 1 0
0 0 01 0 (1000-
(800-1000]
cu

0
7
nij, apoi se unesc capetele acestor 0
00
0
0 0
(600-800]
(400-600]
(200-400]
Y
(20-30](30-40]
6
verticale (pentru fiecare grup i (40-50](50-60]
(60-70]
5
subgrup) fie printr-o linie frnt X
4
(varianta poligonului frecvenelor),
nij

3
fie printr-o curb (varianta curbei
Fa

1 (1000-1200]
frecvenelor)
(800-1000]
(600-800]
0 (400-600] Y
(20-30](30-40] (200-400]
(40-50](50-60]
X (60-70]
16
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
B. Serii cu ambele caracteristici exprimate atributiv B. Serii cu ambele caracteristici exprimate atributiv

e
Reprezentare grafic Reprezentare grafic
Pentru acest tip de distribuie datele sunt prezentate ntr-un tabel de .

i
contingen i sunt reprezentate grafic prin diagrame de structur construite

ac
n acelai plan.
Pentru un tabel de contingen, xi reprezint categorii ale variabilei X de
grupare, yi reprezint categorii ale variabilei Y de grupare, iar nij reprezint Situaia vaccinrii pe sexe din mediul rural i urban
efectivul care posed simultan categoria i i j ale celor dou variabile.

rm
O situaie aparte o ntlnim n cazul variabilelor alternative, cnd 3500 100%
90%
datele se pot prezenta ntr-un tabel de asociere de forma 3000
80%

2500 70%
60% 76%
91%
2000 2500 50% Feminin
Feminin

Fa
1500 40%
1950 30% Masculin
1000 Masculin 20%
500 10%
9% 24%
200 800 0%
0
Rural
Rural Urban
Urban

de
Distribuiilor statistice bidimensionale
C. Serii cu o caracteristic exprimat atributiv i una numeric
Reprezentare grafic
a
te
Reprezentarea grafic a distribuiilor bidimensionale cu o
variabil exprimat cantitativ i una atributiv se face prin
diagrame de tip piramida vrstelor. Construirea acestui tip de
lta

diagram const n ridicarea n acelai plan a dou histograme


rsturnate.
cu
Fa

Reprezentarea grafic a distribuiei unei populaii dup vrst, corelat


cu distribuia dup sex, utiliznd diagrama de tip piramida vrstelor
17
Obiective

e
Cunoaterea metodelor numerice de

i
METODE NUMERICE PENTRU

ac
descriere a datelor statistice
DESCRIEREA DATELOR STATISTICE
Analiza principalelor metode numerice

rm
INDICATORI AI TENDINEI pentru descrierea datelor cantitative
negrupate
CENTRALE, VARIAIEI I
FORMEI
Analiza principalelor metode numerice

Fa
pentru descrierea datelor cantitative grupate

Curs 5

de
Metode numerice pentru descrierea
Cuprins a datelor statistice
Indicatori ai tendinei centrale
te
Media Indicatorii numerici descriptivi sunt valori numerice
Modul calculate dintr-o mulime de date, care ne permit s
ne facem o imagine mental asupra distribuiei
lta

Mediana
datelor.
Indicatori ai variaiei
Amplitudinea
Anterior, metodele grafice pentru descrierea datelor
cu

Variana
Abaterea standard ne-au furnizat o reprezentare vizual asupra
Coeficientul de variaie
distribuiei datelor.
Indicatori ai formei
Fa

Coeficientul de asimetrie
Coeficientul de boltire
18
INDICATORI STATISTICI PRIMARI I 1. Indicatorii tendinei centrale
DERIVAI

e
O clasificare a indicatorilor tendinei centrale se poate face n funcie de
modul de determinare a lor, n:
DEFINIIE: Indicatorul statistic n sens larg reprezent expresia indicatori (mrimi) medii de calcul: media aritmetic, armonic,

i
numeric a unor fenomene i procese social-economice, definite n timp, ptratic, geometric etc.;

ac
spaiu i structur organizatoric. indicatori medii de poziie: modul, mediana.

Indicatorii statistici pot fi primari i derivai. Cele mai frecvent utilizate msuri ale tendinei centrale sunt:
media aritmetic
Indicatorii primari se obin de regul n etapa de mediana

rm
sistematizare a datelor statistice, prin centralizarea i modul.
agregarea acestora.
n definiiile i relaiile ce urmeaz, vom nota cele n valori ale
Indicatorii derivai se obin prin prelucrarea mrimilor eantionului de date negrupate cu:
absolute ale indicatorilor primari.

Fa
Cele trei proprieti majore ale seriilor de date numerice, pe care le Valorile ordonate ale eantionului le vom nota cu:
putem analiza folosind indicatorii statistici sunt cele privitoare la
sau
tendina central, la variabilitatea i la forma distribuiilor.

de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic
A. Variabile numerice negrupate
a B. Variabile numerice grupate pe variante (discrete)
te
Media aritmetic a unui eantion n care datele au
Definiie: Media aritmetic a unui eantion cu un efectiv de n valori
fost sistematizate ntr-o serie de distribuie unde
este prin definiie:
lta

valorile (xi ,i = 1, m) apar cu frecvenele ni este:


cu

Media aritmetic a unei populaii statistice cu un efectiv


de N valori este prin definiie:
Fa

Media aritmetic a unei populaii statistice =AVERAGE(range) Se numete i medie aritmetic ponderat.
se noteaz prin simbolul . Exemplu: =AVERAGE(A2:A20)
19
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic

e
B. Variabile numerice grupate pe variante C. Variabile numerice grupate pe intervale (continue)

i
Aplicaie: Considerm o colectivitate statistic format din 40 de Media aritmetic a unui eantion n care datele sunt

ac
hematii pentru care definim variabila statistic diametru Vd (microni).
Datele au fost sistematizate n tabelul de frecven: prezentate pe intervale de tipul Ji=(xi-1,xi), la care
asociem frecvena de apariie corespunztoare ni, cu
i=1,m atunci media este:

rm
unde este mijlocul intervalului Ji .

Fa
Se numete i medie aritmetic ponderat.

de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic
C. Variabile numerice grupate pe intervale
a D. Variabile nenumerice alternative
te
Aplicaie: Considerm o colectivitate statistic format din 19
nou nscui pentru care definim variabila statistic Greutate (Kg).
lta
cu
Fa

20
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.2 Modul

e
A. Variabile numerice negrupate

i
Media aritmetic este cea mai uzual msur a Definiie: Modul (sau dominanta) unui eantion ordonat

ac
tendinei centrale, utilizat pentru localizarea cresctor cu un efectiv de n valori
centrului unei distribuii statistice. este prin definiie valoarea
sau valorile cu cea mai mare frecven de apariie.

rm
Media aritmetic este influenat de prezena
valorilor extreme (denumite i valori aberante = =MODE(Range)

din punct de vedere statistic). Exemplu: =MODE(A2:A20)

Fa
de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.2 Modul 1.2 Modul
a
B. Variabile numerice grupate pe variante (discrete) C. Variabile numerice grupate pe intervale (continue)
te
Dac variabila este continu, iar datele sunt grupate pe
Dac variabila este discret, pentru determinarea intervale de variaie, pentru determinarea modului se gsete
modului se gsete mai nti frecvena maxim a seriei mai nti frecvena maxim nmax, iar apoi se citete intervalul
modal (xi-1, xi).
lta

(ni = nmax) i apoi se citete valoarea xi corespunztoare Modul se poate obine (prin interpolare n intervalul modal) cu
care este egal practic cu modul (Mo = xi). relaia:

Modul
cu

unde:
d = xi - xi-1 reprezint mrimea intervalului modal;
d1 = ni - ni-1 reprezint diferena dintre frecvena intervalului modal (ni) i frecvena
intervalului anterior celui modal (ni-1);
d2 = ni ni+1 reprezint diferena dintre frecvena intervalului modal (ni) i frecvena
Fa

intervalului urmtor celui modal (ni+1);


xi-1 reprezint limita inferioar a intervalului modal.

21
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.2 Modul 1.2 Modul

e
C. Variabile numerice grupate pe intervale (continue) Pentru intervale inegale, modul se determin asemntor, fie prin
interpolare n intervalul modal, fie pe cale grafic, dup ce n prealabil

i
Modul se poate aproxima grafic cu ajutorul histogramei frecvenei
s-au fcut coreciile necesare conform metodei descrise la construcia

ac
relative, cobornd o perpendicular pe abscis, din punctul n
histogramei pe intervale inegale.
care se intersecteaz dreptele trasate.
O distribuie cu un singur mod se numete unimodal;
O distribuie este bimodal dac are dou valori dominante (moduri) i
multimodal dac are mai mult de dou moduri.

rm
Fa
Distribuie de frecvene: a) unimodal; b) bimodal; c) multimodal

de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.3 Mediana 1.3 Mediana
A. Variabile numerice negrupate
a A. Variabile numerice negrupate
te
Definiie: Mediana unui eantion ordonat cresctor cu Exemplu: Se consider eantionul ordonat cu n = 11 valori:
un efectiv de n valori
lta

8,6 8,7 9,2 9,7 9,9 10,1 10,3 10,6 10,7 10,8 11,0
este prin definiie acea valoarea care mparte
datele n dou grupe egale :
cu

Exemplul: S se calculeze mediana pentru eantionul

3,9 4,4 4,5 4,8 4,9 5,1 5,5 5,6 5,6 5,9

Deoarece n = 10 par avem:


Fa

=MEDIAN(Range)

Exemplu: =MEDIAN(A2:A20)
22
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.3 Mediana 1.3 Mediana

e
B. Variabile numerice grupate pe variante (discrete) C. Variabile numerice grupate pe intervale (continue)

i
aflarea frecvenelor cumulate absolute (Ni)

ac
aflarea frecvenelor cumulate absolute (Ni) calcularea unitii mediane (m)

calcularea unitii mediane (m), m= localizarea lui m n irul frecvenelor cumulate (cu condiia ca Ni m)
determinarea intervalului median (IM) (n aceeai condiie)
localizarea acesteia n irul frecvenelor cumulate
calcularea medianei utiliznd relaia:
(cu condiia ca Ni m)

rm
unde:
Valoarea xi ce d reprezint mrimea IM;
corespunde lui Ni
xi-1 - reprezint limita inferioar a IM;

Fa
reprezint mediana
m - unitatea median;
Ni-1 frecvena cumulat anterior IM;
ni frecvena IM.

de
1. Indicatorii tendinei centrale
2. Indicatorii variaiei
1.4 Relaii ntre valorile tendinei centrale
a n analiza unei serii statistice de date cantitative ne intereseaz,
pe lng indicatorii tendinei centrale i indicatorii mprtierii
te
Pentru o distribuie unimodal simetric, valorile centrale, valorilor.
medie, mod, median, ocup acelai loc, iar ntre acestea Astfel, dou serii statistice pot diferi prin tendina central prin
mprtierea datelor sau prin amndou.
exist o relaie de egalitate.
lta

Pentru o distribuie unimodal asimetric, cele trei valori


centrale ocup locuri diferite dup cum urmeaz:
cu

a) Distribuii cu tendin central diferit; b) Distribuii cu variabilitate diferit; c) Distribuii cu tendin


central i variabilitate diferite

Cele mai frecvent utilizate msuri ale variaiei sunt:


amplitudinea
Fa

a) distribuie simetric; b) distribuie cu asimetrie pozitiv; c) distribuie cu asimetrie negativ


variana sau dispersia
abaterea standard sau deviaia standard
coeficientul de variaie
23
2. Indicatorii variaiei 2. Indicatorii variaiei
2.1 Amplitudinea 2.2 Variana sau dispersia

e
A. Variabile numerice negrupate
Definiie: Amplitudinea unui eantion cu un efectiv de n valori

i
este prin definiie diferena dintre cea mai mare i cea mai mic valoare a
Definiie: Dispersia unui eantion cu un efectiv de n

ac
eantionului, adic:
valori este prin definiie:
unde:

rm
Avantajul amplitudinii este reprezentat de simplitatea calculului
acesteia. unde este media aritmetic a eantionului .
Simplitatea este ns i un dezavantaj, deoarece amplitudinea se

Fa
determin numai din dou valori ale eantionului (maxim i
minim), fr a ine seama de celelalte valori. =VAR (Range)

Amplitudinea este o msur relativ insensibil la variaia datelor Dispersia sau variana unei populaii statistice se
unui eantion, ea fiind utilizat n practic pentru eantioane cu noteaz cu 2
efective reduse.

de
2. Indicatorii variaiei 2. Indicatorii variaiei
2.2 Variana sau dispersia 2.3 Abaterea standard
a
B. Variabile numerice grupate pe variante (discrete) A. Variabile numerice negrupate
te
Dispersia unui eantion cu un efectiv de n valori n care
valorile (xi ,i = 1, m) apar cu frecvenele ni este: Definiie: Abaterea standard a unui eantion cu un
efectiv de n valori este prin
lta

definiie:

C. Variabile numerice grupate pe intervale (continue)


cu

Dispersia unui eantion cu un efectiv de n valori n care unde este media aritmetic a eantionului .
datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:
=STDEV(Range)
Fa

Abaterea standard a unei populaii


unde este mijlocul intervalului Ji.
statistice se noteaz cu
24
2. Indicatorii variaiei 2. Indicatorii variaiei
2.3 Abaterea standard 2.3 Abaterea standard

e
B. Variabile numerice grupate pe variante (discrete) Regula lui Cebev: Pentru k 1, cel puin valori ale unui
eantion cu un efectiv de n valori

i
Abaterea standard a unui eantion cu un efectiv de n valori aparin

ac
n care valorile (xi ,i = 1, m) apar cu frecvenele ni este: intervalului
unde: este media aritmetic, iar s este abaterea standard a
eantionului.
Regula lui Cebev furnizeaz o legtur de natur algebric ntre media

rm
aritmetic i abaterea standard ale unui eantion de date
C. Variabile numerice grupate pe intervale (continue) Regula empiric: Dac mulimea de date are distribuia
frecvenei relative sub form de "clopot", atunci
Abaterea standard a unui eantion cu un efectiv de n valori urmtoarele reguli empirice pot fi utilizate pentru a
descrie mulimea de date:
n care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:

Fa
[1] Aproximativ 68% din valori vor aparine intervalului
[2] Aproximativ 95% din valori vor aparine intervalului
[3] Aproape toate valorile (99,7% din valori) vor aparine
unde este mijlocul intervalului Ji intervalului .

de
2. Indicatorii variaiei 2. Indicatorii variaiei
2.4 Coeficientul de variaie 2.4 Coeficientul de variaie
a
te
Coeficientul de variaie al unui eantion cu un efectiv
de n valori este prin definiie raportul dintre abaterea standard i
media eantionului, respectiv:
lta
cu

Coeficientul de variaie al unei populaii cu un efectiv de N valori este


prin definiie raportul dintre abaterea standard i media populaiei,
respectiv:
Fa

25
2. Indicatorii variaiei
Eliminarea valorilor aberante. Testul lui
Variabile nenumerice alternative
Grubbs

e
Variana - este egal cu produsul dintre

i
ponderea unitilor care poart

ac
caracteristica (p) i ponderea celor care
nu o poart (q):

rm
Fa
de
Eliminarea valorilor aberante. Testul lui
a Eliminarea valorilor aberante. Testul lui
Grubbs Grubbs
te
Etape Etape
lta
cu
Fa

26
3. Indicatorii formei 3. Indicatorii formei
3.1 Coeficientul de asimetrie

e
Forma unei distribuii de frecvene se analizeaz, Asimetria reprezint deviaia de la forma simetric de distribuie.

i
comparativ cu distribuia ideal, normal, prin:

ac
Coeficientul de asimetrie (Skewness)
Coeficientul de aplatizare (Kurtosis)

rm
o Coeficientul de asimetrie ne indic simetria Interpretare: (+) asimetrie dreapta; (-) asimetrie stanga
sau asimetria distribuiei frecvenei relative
o Coeficientul de aplatizare ne indic forma mai

Fa
boltit sau mai ascuit, respectiv mai Pentru variabile negrupate
plat sau mai turtit a distribuiei frecvenei =SKEW(Rage)

relative

de
3. Indicatorii formei a 3. Indicatorii formei
3.1 Coeficientul de asimetrie 3.2 Coeficientul de boltire
te
Coeficientul de asimetrie Pearson ( ) se calculeaz pe baza Boltirea (aplatizarea)
momentelor centrate 2 i 3 de ordin doi, respectiv trei: curba mezocurtic (coincide cu modelul; curb normal )
curba platicurtic (prezint o variaie puternic a variabilei X
nsoit de variaia slab a frecvenei fi)
lta

curba leptocurtic (prezint o variaie slab a variabilei X


nsoit de o variaie puternic a frecvenei fi)
unde
Interpretare
Pentru variabile negrupate
cu

=KURT(Rage)

(momentul centrat de ordin 2)


Fa

Interpretare: (+) distributie ascuit;


(-) distributie aplatizat
(momentul centrat de ordin 3)

27
3. Indicatorii formei Utilizarea funciei Descriptive Statistics
3.2 Coeficientul de boltire (din Data Analysis)

i e
Coeficientul lui Pearson Coeficientul lui Fischer

ac
unde

rm
Interpretare:
Interpretare:
=0 (repartiie mezocurtic)
2=3 (repartiie mezocurtic)

Fa
>0 (repartiie leptocurtic)
2>3 (repartiie leptocurtic)
<0 (repartiie platicurtic)
2<3 (repartiie platicurtic)

de
a
te
lta
cu
Fa

28
Introducere

e
n cursurile anterioare am analizat metodele grafice i

i
numerice pentru descrierea datelor statistice cu ajutorul

ac
Biostatistic crora am determinat modelul empiric al distribuiei
frecvenei relative, precum i statisticile eantionului.

ELEMENTE DE TEORIA

rm
Pentru inferen, respectiv pentru trecerea de la eantion la
PROBABILITILOR
populaie i de la modelul empiric la modelul teoretic
avem nevoie de probabiliti

Fa
Probabilitatea reprezint n mod intuitiv posibilitatea
sau ansa ca un anumit fenomen s se produc.

Curs 6

de
Experimente, spaii de eantionare, a Experimente, spaii de eantionare,
evenimente evenimente
te
Un experiment statistic aleator este procesul de Prima caracteristic a unui experiment statistic este
observare a unui anumit fenomen, care conduce la caracterul aleator, adic rezultatele sunt ntmpltoare,
apariia unuia sau a mai multor rezultate posibile. fr a fi determinate de anumite cauze speciale
lta

Dup efectuarea experimentului se obine un rezultat.


Acesta l vom numi prob. Lista rezultatelor unui experiment aleator trebuie s fie
exhaustiv, adic s includ toate rezultatele care pot s
Experimentul Rezultate posibile apar
cu

Aruncarea unei Apariia banului (B)


monede sau a coroanei (C)
Rezultatele experimentului trebuie s fie reciproc
Aruncarea unui zar Apariia feelor
exclusive, adic nu pot s apar n acelai timp dou
Fa

1,2,3,4,5 sau 6
rezultate diferite
Determinarea grupei Rezultate posibile :A,
sangvine B, AB, 0
29
Experimente, spaii de eantionare, Experimente, spaii de eantionare,
evenimente evenimente

e
Spaiul de eantionare (Spaiul probelor) al unui Spaiul de eantionare al unui experiment aleator se

i
ac
experiment aleator este mulimea tuturor rezultatelor poate reprezenta grafic prin aa-numita diagram
posibile ale acelui experiment. Rezultatele trebuie s fie Venn.
exhaustive i reciproce exclusive Diagrama Venn este o curb nchis, care conine,
reprezentate prin puncte, toate rezultatele posibile ale

rm
experimentului
Vom nota spaiul de eantionare cu i
R1 R2
rezultatele posibile cu R1, R2, ..., Rm, adic:
} R3 R4 R5

Fa
Rm-1 Rm

Diagrama Venn a unui spaiu de eantionare

de
Experimente, spaii de eantionare, a Experimente, spaii de eantionare,
evenimente evenimente
te
Un eveniment simplu este un rezultat individual al unui Un eveniment este o mulime sau un set de evenimente
spaiu de eantionare. simple ntr-un spaiu de eantionare.
Spaiul de eantionare al unui experiment este alctuit din
lta

Exemplu: n experimentul aruncrii unui zar s se determine evenimentele:


mulimea tuturor evenimentelor simple ale acelui experiment (a) apariia unui numr par;
(b) apariia unui numr > 3.
Exemplu: S se determine mulimea evenimentelor simple, respectiv spaiul de Rezolvare: Evenimentele simple sunt apariia feelor 1, 2, 3, 4, 5 sau 6, iar
eantionare, pentru experimentul aruncrii a dou monede. spaiul de eantionare este:
cu

Rezolvare:Notm cu B apariia valorii numerice sau a banului pe o fa a 1,2,3,4,5,6}


monedei i cu C apariia coroanei sau a stemei pe cealalt fa a monedei.
(a) Evenimentul
Aruncarea celor dou monede va conduce la apariia unui rezultat de forma R1, R2,
unde E1={Apariia unui numr par}
De exemplu, rezultatul BC nseamn c la prima moned a aprut faa B, iar la a este alctuit din evenimentele simple 2, 4, 6 i avem E1={2, 4, 6}.
Fa

doua moned a aprut faa C. (b) Evenimentul


Atunci evenimentele simple ale acestui experiment sunt: BB, BC, CB, CC E2={Apariia unui numr > 3}
iar spaiul de eantionare: este alctui din evenimentele simple 4, 5, 6 i avem
E2={4, 5, 6}.
BB, BC, CB, CC }
30
Experimente, spaii de eantionare, Experimente, spaii de eantionare,
evenimente evenimente

e
Vom nota, n continuare:

i
ntre evenimente se definesc operaii, inspirate din
- spaiul probelor cu

ac
teoria mulimilor: Egalitatea, Negaia, Reuniunea,
- mulimea evenimentelor cu K Intersecia, Incluziunea.
- evenimentele cu litere mari (A, B, C etc). A B - evenimentul care const n realizarea a cel puin unuia din
n mulimea evenimentelor se disting dou evenimente cu cele dou evenimente (se realizeaz A sau B)

rm
caracter special: A B - evenimentul care const n realizarea ambelor evenimente (se
evenimentul sigur este evenimentul care se produce cu certitudine; realizeaz A i B)
se noteaz cu . De exemplu, evenimentul cap sau pajur la A \ B - evenimentul care const n realizarea lui A i nerealizarea
aruncarea unei monede este un eveniment sigur. lui B.
evenimentul imposibil este evenimentul care nu se produce A= CA - evenimentul contrar lui A care const n nerealizarea lui

Fa
niciodat; se noteaz cu . Este evident c evenimentul sigur A (realizarea lui \ A)
este evenimentul contrar evenimentului imposibil i reciproc. Dou evenimente A i B se spun incompatibile dac
Se poate astfel spune c evenimentele sunt de trei categorii: intersecia lor este evenimentul imposibil, A B = , adic
sigure, imposibile i aleatorii. nu este posibil ca evenimentele A i B s se produc simultan.

de
Probabilitatea unui eveniment
a Probabilitatea unui eveniment
te
n prezentarea i prelucrarea datelor, msurate pe diverse Fie K mulimea evenimentelor. Se numete probabilitate
scale, noiunea de frecven relativ este o noiune orice funcie cu valori reale definit pe mulimea
lta

unificatoare: se regsete la toate scalele, valorile evenimentelor,P : K i care satisface:


obinute pot fi utilizate pentru comparaii etc.

probabilitatea oricrui eveniment este un numr


nenegativ: P(A) 0;
Practica arat c atunci cnd o experien este repetat de un
cu

probabilitatea evenimentului sigur este egal cu 1: P() = 1;


numr mare de ori, frecvena relativ a apariiei unui fapt tinde probabilitatea oricrei reuniuni de evenimente incompatibile
s se stabilizeze. dou cte dou este egal cu suma probabilitilor
evenimentelor: P(AB) = P(A)+P(B) atunci cnd A i B sunt
Acest fenomen este formalizat n teoria probabilitilor incompatibile (A B = )
Fa

prin introducerea noiunii de probabilitate.


Se spune c tripleta (, K,P) definete un spaiu de probabilitate.
31
Probabilitatea unui eveniment
Probabilitatea unui eveniment

e
Considerm evenimentele simple care alctuiesc un
eveniment ca fiind cazuri favorabile producerii acelui
Dac rezultatele sau evenimentele simple ale unui spaiu eveniment, iar evenimentele simple care alctuiesc spaiul

i
ac
de eantionare au aceeai ans sau probabilitate de de eantionare ca fiind cazuri posibile producerii acelui
apariie (evenimentele sunt echiprobabile), atunci eveniment.
probabilitatea de apariie a fiecrui eveniment simplu va Probabilitatea unui eveniment A este:
fi:

rm
denumit i formula clasic a probabilitilor
De exemplu, n experimentul aruncrii unui zar, probabilitatea de apariie Exemplul S se determine probabilitatea extragerii unei figuri (J, Q, R) dintr-un pachet

Fa
a unei fee va fi (innd cont c rezultatele de baz, respectiv una din de 52 de cri, utiliznd formula clasic a probabilitilor.
feele 1, 2, 3, 4, 5 sau 6, au aceeai ans de apariie): Rezolvare: Numrul cazurilor favorabile, respectiv figurile roii i negre ( ) este
. .Numrul cazurilor posibile este 52, egal cu numrul de cri din pachet. Atunci
probabilitatea extragerii unei figuri este:

de
Formule fundamentale a Formule fundamentale
Probabilitatea condiionat Probabilitatea condiionat
te
Atunci cnd dispunem de informaii privind legtura ntre evenimente,
informaii care ar putea condiiona rezultatul unui experiment, vom Dou evenimente A i B se numesc evenimente
determina probabiliti condiionate
independente dac
lta

Se numete probabilitatea evenimentului A, condiionat


de evenimentul B raportul dintre probabilitatea
sau
interseciei celor dou evenimente i probabilitatea
evenimentului care condiioneaz:
cu

Din relaiile de mai sus rezult c dou evenimente sunt independente


dac probabilitatea unui eveniment nu este afectat de apariia celuilalt
probabilitatea evenimentului B, condiionat de
Fa

eveniment
evenimentul A

32
Formule fundamentale Formule fundamentale

e
Regula multiplicativ pentru evenimente independente Regula lui Bayes

i
Probabilitatea interseciei a dou evenimente independente Probabilitile condiionate iau n considerare

ac
A i B este informaia despre probabilitatea unui eveniment
pentru a face predicia asupra probabilitii unui
alt eveniment.
Regula aditiv

rm
Probabilitatea reuniunii a dou evenimente A i B este
Conceptul poate fi extins pentru a revizui
probabilitile, pe baza unor informaii
suplimentare, pentru a determina probabilitatea ca
Regula aditiv pentru evenimente reciproc exclusive un anumit efect s fie datorat unei cauze speciale.

Fa
Probabilitatea reuniunii a dou evenimente reciproc
exclusive A i B este Aceast procedur este dat de regula sau
teorema lui Bayes.

de
Formule fundamentale a Formule fundamentale
Regula lui Bayes Regula lui Bayes
te
Fie dat evenimentul B i evenimentele reciproc
Regula (teorema) lui Bayes
exclusive pentru care se cunosc valorile Probabilitatea evenimentelor reciproc exclusive
lta

probabilitilor asociate. condiionate de evenimentul B este


Probabilitile
se numesc probabiliti anterioare
cu

Probabilitile
se numesc probabiliti verosimile
Probabilitile
Fa

se numesc probabiliti posterioare

33
Aplicaii Aplicaii

e
1. Masa, rezistena i nlimea sunt caracteristici independente ale unui 2. Un produs farmaceutic este prelucrat n dou etape A si B. n prima etap are
comprimat. Probabilitile ca un comprimat s nu corespund din aceste puncte de loc comprimarea propriu-zisa, iar n a doua etap are loc ambalarea produsului

i
vedere sunt: 0,03; 0,05 si 0,02. Care este probabilitatea ca tableta s corespund n intermediar obinut. Dup etapa A, comprimatele vrac sunt controlate obinndu-

ac
raport cu cele trei caracteristici? se un randament de 97%. Comprimatele vrac corespunztoare vor fi prelucrate n
Soluie: Fie E1, E2, E3 evenimentele care se realizeaz cnd produsul corespunde etapa B obinndu-se un randament de 95%. Care este probabilitatea ca produsul
n raport cu fiecare dintre caracteristici. finit s corespund?

Soluie

rm
P(A)=P(comprimat vrac corespunztor)= 0,97
PA(B)=P( comprimat ambalat corespunztor)=0,95

Fa
Aplicaii
de
a
3. Se consider dou recipiente cu reactivii B1 si B2. In recipientul B1 se afl
Reguli de numrare
te
pastile de KOH, iar n recipientul B2 pastile de KOH i de NaOH n numr egal.
O pastil scoas la ntamplare din unul din recipienti se dovedeste a fi KOH. Care
este probabilitatea ca aceast pastil s provin din B1? n algoritmul pentru calculul probabilitii unui
eveniment unul din paii dificili l constituie
lta

determinarea numrului evenimentelor simple ale


spaiului de eantionare
cu

Pentru rezolvarea acestei probleme vom analiza n


continuare aa-numitele reguli de numrare, cunoscute
n matematic sub denumirea de elemente de
combinatoric
Fa

34
Reguli de numrare Reguli de numrare

i e
Exemplu S se determine numrul tripletelor care se pot

ac
Regula multiplicativ Fie k mulimi care conin forma din mulimile
respectiv n1, n2,..., nk elemente. Numrul de
mulimi cu cte k elemente formate prin lund cte un element din fiecare mulime.

rm
alegerea a cte unui singur element din
fiecare mulime este Rezolvare: Avem i rezult

Obinem din primele dou mulimi A i B perechile

Fa
(a,c), (a,d), (a,e), (b,c), (b,d), (b,e) la care adugm al
treilea element din mulimea C, adic
(a,c,f), (a,d,f), (a,e,f),..., (b,c,i), (b,d,i), (b,e,i)

de
Reguli de numrare
a Reguli de numrare
te
Se numesc permutri ale unei mulimi A cu n Exemplu S se determine numrul permutrilor mulimii
elemente toate mulimile ordonate de n elemente
lta

care se pot forma cu elementele lui A. Rezolvare: Avem n = 3 i

Regula permutrilor Numrul permutrilor a n


cu

Mulimile ordonate cu cte 3 elemente vor fi:


elemente, , este (a,b,c), (b,c,a), (a,c,b), (c,a,b), (b,a,c), (c,b,a)
Simbolul n! se citete n factorial
Fa

Prin definiie i

35
Reguli de numrare Reguli de numrare

i e
Numrul permutrilor cu repetiie a n elemente, n care

ac
Se numesc aranjamente a n elemente luate cte k, k
fiecare element se poate repeta pn la n ori este:
n, ale unei mulimi A cu n elemente, toate
submulimile ordonate cu cte k elemente care se pot
Exemplu S se determine numrul permutrilor cu repetiie forma cu elementele lui A.

rm
ale mulimii
Rezolvare: Avem n = 3 i
Regula aranjamentelor Numrul aranjamentelor
a n elemente, luate cte k, este

Fa
Mulimile ordonate cu cte 3 elemente i repetiie vor fi de
forma:
(a,a,a), (a,a,b), ..., (c,c,b), (c,c,c)

de
Reguli de numrare
a Reguli de numrare
te
Numrul aranjamentelor cu repetiie a n elemente, luate
cte k, n care fiecare element se poate repeta pn la k Se numesc combinri a n elemente luate cte k,
ori este: k n, ale unei mulimi A cu n elemente, toate
lta

submulimile cu cte k elemente care se pot forma


cu elementele lui A.
Exemplu (a) S se determine numrul aranjamentelor a 3
elemente luate cte 2.
cu

(b) S se determine numrul aranjamentelor cu repetiie a Regula combinrilor Numrul combinrilor a n


3 elemente luate cte 2.
elemente, luate cte k, este
Rezolvare: (a)
Fa

(b)
36
Reguli de numrare Reguli de numrare

e
Numrul combinrilor cu repetiie a n elemente, luate

i
ac
cte k, n care fiecare element se poate repeta pn la k
ori este: Regula partiionrilor
Fie o mulime cu n elemente distincte.
Numrul partiiilor mulimii date n k

rm
Exemplu (a) S se determine numrul combinrilor a 3 submulimi, fiecare coninnd respectiv n1,
elemente luate cte 2.
n2,..., nk elemente este
(b) S se determine numrul combinrilor cu repetiie a 3
elemente luate cte 2.
Rezolvare: (a)

Fa
unde
(b)

de
Reguli de numrare
a Exemple aplicaii lucrare LP-uri
te
Distribuia farmacitilor n funcie de numrul de zile de concediu de
Exemplu La un concurs cu premii se atribuie 12 obiecte odihn dintr-un an se prezint astfel:
diferite primilor trei clasai, astfel:
Locul 1: 5 obiecte
lta

Se cere:
Locul 2: 4 obiecte s se reprezinte grafic seria;
Locul 3: 3 obiecte s se calculeze indicatorii tendinei centrale;
s se caracterizeze gradul de boltire
n cte moduri se pot atribui aceste obiecte?
cu

Sau
Rezolvare: Conform regulii partiionrilor avem k = 3, Se cere
n = 12, n1 = 5, n2 = 4, n3 = 3 i rezult: s se calculeze indicatorii variaiei;
s se caracterizeze gradul de asimetrie;
s se reprezinte grafic poligonul frecvenelor;
Fa

37
Exemple aplicaii lucrare LP-uri Exemple aplicaii lucrare LP-uri

i e
ac
Notele obtinute de 40 de studenti sunt urmtoarele: Au fost nregistrate numrul de ore petrecute de
8; 10; 4; 9; 6; 8; 10; 7; 8; 3; studenti cu nvatul:
9; 6; 5; 4; 8; 7; 10; 9; 6; 5;

rm
4; 3; 6; 9; 10; 8; 7; 7; 7; 6;
5; 5; 6; 7; 9; 10; 7; 6; 3; 4;
S se prezinte datele sub forma unui tabel statistic;
S se reprezinte grafic datele;

Fa
S se grupeze datele pe 4 intervale; S se calculeze numrul mediu de ore petrecut de un student cu
nvatul
S se calculeze frecventele cumulate cresctor; S se calculeze coeficientul de variaie. Discuii
S se reprezinte seria de date. S se realizeze histograma

de
a
te
lta
cu
Fa

38
Obiective

i e
ac
Cunoaterea principalelor concepte de
teoria distribuiilor statistice

rm
Analiza principalelor repartiii de
probabilitate discrete.
Repartiia Binomial

Fa
Repartiia Poisson

Curs 7

de
Variabile aleatoare
a Variabile aleatoare
te
Atunci cnd efectum un experiment, ne
intereseaz evenimente pe care le cuantificm Definiie: O funcie real X: , se numete
prin valori numerice, adic realizm variabil aleatoare dac mulimea | X() x
lta

experimentul i nregistrm valorile numerice a evenimentelor elementare pentru care v.a. X


ale uneia sau mai multor variabile statistice. are valori mai mici sau egale cu x, oricare ar fi x,
este tot un eveniment.
cu

Dac repetm experimentul aleator de n ori i


numrm evenimentele aprute pentru o Variabilele aleatoare pot fi:
anumit variabil statistic, obinem o mulime
de date cantitative discrete, iar variabila - discrete, definite pe o mulime cel mult numrabil;
Fa

statistic va fi o variabil aleatoare. - continue, definite pe o mulime msurabil;

39
Variabile aleatoare discrete. Exemple Variabile aleatoare discrete

e
Numrul de internri ntr-un spital ntr-un interval

i
ac
de timp dat X={0,1,,n,}
Variabil aleatoare infinit

Numrul de bacterii ntr-un mililitru de ap

rm
X={0,1,,n,}
Variabil aleatoare infinit

Numrul de indivizi cu RH-negativ dintr-un grup

Fa
de n persoane luate la ntmplare X={0,1,,n}
Variabil aleatoare finit

de
Variabile aleatoare discrete
a Variabile aleatoare discrete
te
lta
cu
Fa

40
Variabile aleatoare discrete
Variabile aleatoare discrete

i e
ac
rm
Fa
de
Variabile aleatoare discrete
a Variabile aleatoare discrete
te
Exemplu
Fie urmtoarea variabil aleatoare: Distribuia de probabilitate a unei variabile
aleatoare discrete X furnizeaz un model pentru
lta

populaia de valori a lui X i pentru distribuia


frecvenei relative a populaiei descris de
S se determine funcia sa de repartiie. variabila aleatoare X.
Soluie:
cu

Vom putea descrie atunci distribuia de


probabilitate a unei variabile aleatoare discrete X
prin msuri numerice, cum sunt media, dispersia
sau abaterea standard.
Fa

41
Variabile aleatoare discrete Variabile aleatoare discrete
Caracteristici numerice Caracteristici numerice

e
Media Dispersia (sau variana)

i
ac
Se numete valoare medie (sau speran matematic) a unei valori
aleatoare X, numrul

Rdcina ptrat a dispersiei, , se numete abaterea medie

rm
ptratic (sau abaterea standard) a variabilei X
Proprieti ale valorii medii:
Proprieti ale dispersiei

Fa
de
Repartiia Binomial-B(n,p)
a Repartiia Binomial-B(n,p)
te
Caracteristici ce definesc o variabil aleatoare binomial
Multe experimente reale sunt analoge experimentului
aruncrii monedelor. Experimentul const n n ncercri identice
lta

Sunt posibile numai dou rezultate ale fiecrei


Sondajele opiniei publice sau ale preferinelor ncercri:
S succes
consumatorilor, atunci cnd acestea sunt de tipul DA /
F - insucces
NU, sunt similare experimentului aruncrii unei
Probabilitatea lui S este p i rmne aceeai la fiecare
cu

monede. ncercare. Probabilitatea lui F este q i avem p + q = 1.


ncercrile sunt independente
Acest tip de experimente sunt particularizri ale Variabila aleatoare binomial X este numrul de
variabilelor aleatoare binomiale succese (S) n n ncercri
Fa

42
Repartiia Binomial-B(n,p) Repartiia Binomial-B(n,p)

e
Probabilitatea de a avea de k ori succes n n ncercri Caracteristici numerice

i
este dat de formula:

ac
Media pentru o variabil aleatoare binomial X este:

unde: Dispersia pentru o variabil aleatoare binomial X


este:

rm
p = probabilitatea de succes ntr-o singur ncercare
q=1p
n = numrul de ncercri
k = numrul de succese S n n ncercri
Reprezentarea grafic a repartiiei binomiale, se realizeaz prin
diagrama n batoane i depinde de valoarea parametrilor si n i p.

Fa
Astfel:
Reprezentare sub form matricial
- diagrama este simetric dac p = q = 0.5;
- diagrama este asimetric dac p > q sau p < q;
- o distribuie asimetric devine tot mai simetric pe msur ce n
crete.

de
Repartiia Binomial-B(n,p)
a Repartiia Binomial-B(n,p)
te
Pentru calculul valorilor repartiiei binomiale se poate folosi funcia Exemplu
Testele pentru calitatea apei potabile ntr-un anumit Jude au pus n
statistic din Excel eviden faptul c 30% din sursele individuale conin o anumit
substan A, care nu este bun pentru consum.
BINOM.DIST(number_s,trials, probability_s, cumulative)
lta

Dac sunt alese n mod aleator 5 surse din Judeul respectiv, care
nuber_s (X) Este numrul de succese din experimente
este probabilitatea ca:
(a) Exact 3 surse s conin substana A;
trials(n) Este numrul de experimente independente (b) Cel puin 3 surse s conin substana A;
(c) Mai puin de 3 surse s conin substana A.
Probability_s (p) Este probabilitatea de succes la fiecare experiment
cu

Soluie: S confirmm mai nti c avem un experiment binomial.


Experimentul const n n = 5 ncercri, fiecare corespunztoare
Cumulative Este o valoare logic ce determin forma repartiiei de
unei surse alese n mod aleator. Rezultatele fiecrei ncercri
probabilitate returnat. Dac cumulativ este TRUE, BINOM.DIST constau dintr-un succes S (sursa conine substana A) sau dintr-un
insucces F (sursa nu conine A).
ntoarce probabilitatea Binomial cumulativ c numrul de
Deoarece numrul de surse de ap individuale este relativ mare,
Fa

evenimente ntmpltoare care vor aprea va fi cuprins ntre 0 i x probabilitatea alegerii unei surse care conine substana A o
considerm egal cu 0,3 pentru toate cele 5 surse selectate
inclusiv , P{X x} ; n cazul FALSE, va returna probabilitatea c aleator.
numrul de evenimente aprute va fi exact x, P{X = x}
43
Repartiia Binomial-B(n,p) Repartiia Binomial-B(n,p)

e
Exemplu Exemplu

i
Eantionarea fiind aleatoare, ncercrile sunt independente. Ne (c) Probabilitatea ca mai puin de 3 surse s conin substana A

ac
intereseaz numrul X de surse care conin substana A, dintr-un este:
eantion de n = 5.
Suntem deci n condiiile unui experiment binomial, cu n = 5 i p = 0.3,
q = 1 0,3 = 0,7.

rm
Probabilitatea ca exact 3 surse s conin substana A este:
BINOM.DIST(2, 5, 0.3, 1) = 0,83692
aceast probabilitate se poate calcula mai uor cu ajutorul relaiei de
complementaritate:
=BINOM.DIST(3, 5, 0.3, 0) = 0,1323

Fa
(b) Probabilitatea ca cel puin 3 surse s conin substana A este:

=1-BINOM.DIST(2, 5, 0.3, 1)

de
Repartiia Poisson P(
a Repartiia Poisson P(
te
Caracteristici ce definesc o variabil aleatoare Poisson
Repartiia Poisson ofer un model pentru frecvena Experimentul const n nregistrarea numrului x de
relativ a numrului de evenimente rare care apar apariii ale unui eveniment ntr-o unitate dat de timp
lta

ntr-o unitate de timp, arie, volum etc. (de volum, de arie, de greutate, de distan sau orice
Repartiia Poisson se utilizeaz mai ales n alt unitate de msur).
modelarea fenomenelor de ateptare, denumite cozi Probabilitatea ca evenimentul s apar ntr-o unitate
sau iruri de ateptare (ateptarea la case de dat de timp (de volum, de arie etc.) este aceeai
cu

marcat, la un service auto, la urgen, la semafor etc.) pentru toate unitile.


De asemenea, repartiia Poisson este folosit pentru Numrul de evenimente care apar ntr-o unitate dat
a aproxima o distribuie binomial n cazul n care p de timp (de volum, de arie etc.) este independent de
Fa

(sau q) are o valoare foarte mic i n este mare. numrul de evenimente care apar n celelalte uniti.

44
Repartiia Poisson P( Repartiia Poisson P(

e
Distribuia de probabilitate Caracteristici numerice

i
ac
Distribuia Poisson este determinat de un singur parametru: Media pentru o variabil aleatoare Poisson X este:
(media variabilei). Fie o variabil X ce ia valori discrete 0, 1, 2,
..., n, ntr-un interval continuu. Se spune c variabila X urmeaz
o lege Poisson atunci cnd probabilitatea pentru care X = k este Dispersia pentru o variabil aleatoare Poisson X este:
dat de:

rm
Aproximarea legii binomiale printr-o lege Poisson:
= media numrului de evenimente ntr-o anumit perioad Cnd p este mic i n este mare, legea Poisson
de timp; constituie o bun aproximare a legii binomiale.

Fa
e = 2,71828... n acest caz se folosete ca parametru al legii
Reprezentare sub form matricial Poisson sperana matematic a legii binomiale:

de
Repartiia Poisson P(
a Repartiia Poisson P(
te
Pentru calculul valorilor repartiiei Poisson se poate Repartiia Poisson apare n multiple situaii, ca de
folosi funcia statistic din Excel: exemplu:
lta

POISSON.DIST(X,mean,cumulative)
d probabilitile unui numr specificat de chemri telefonice
X Este numrul de evenimente; ntr-un anumit timp;
d probabilitile unui numr specificat de defecte pe o unitate
mean (Media) Este valoarea numeric ateptat.
de lungime a unui fir;
cumulative Este o valoare logic ce determin forma
cu

d probabilitile unui numr specificat de defecte pe o unitate


repartiiei de probabilitate returnat. Dac cumulativ este de arie a unei esturi;
TRUE, POISSON.DIST ntoarce probabilitatea Poisson
d probabilitile unui numr specificat de bacterii pe unitatea de
cumulativ c numrul de evenimente ntmpltoare care volum ntr-o solue;
vor aprea va fi cuprins ntre 0 i x inclusiv, P{X x}. n
Fa

d probabilitile unui numr specificat de accidente pe unitatea


cazul FALSE, va returna probabilitatea Poisson c numrul de timp.
de evenimente aprute va fi exact x, P{X = x}
45
Repartiia Poisson P(

e
Exemplu

i
ac
8% din recipientele cu materie prim sunt rebutate.
Care este probabilitatea ca din 20 de recipiente 2
s fie rebutate?
Soluie

rm
p=0.08, n=20.
Folosind repartiia Poisson pentru

Fa
=POISSON.DIST(2,1.6,FALSE)

de
a
te
lta
cu
Fa

46
Obiective

i e
ac
REPARTIII CONTINUE Cunoaterea principalelor proprieti ale
variabilelor aleatoare i distribuiilor continue

rm
Analiza principalelor distribuii
Repartiia Normal
Repartiia Fisher-Snedecor
Repartiia Hi-ptrat ( )

Fa
Repartiia Student

Curs 8

de
Variabile aleatoare continue
a Variabile aleatoare continue
te
Multe dintre variabilele aleatoare ntlnite n Diferena dintre variabilele aleatoare discrete i
practic nu sunt variabile aleatoare discrete, variabilele aleatoare continue este cel mai bine
sugerat de diferena dintre funciile de distribuie
lta

nefiind rezultatul unui proces de numrare i


neavnd deci valori ntr-o mulime numrabil cumulativ ale celor dou tipuri de variabile

Definiie: Funcia de repartiie F(x) a unei


cu

Variabilele aleatoare rezultate n urma unui


proces de msurare, care iau valori n mulimea variabile aleatoare x este egal cu
numerelor reale R (care are puterea continuului) probabilitatea
sunt variabile aleatoare continue F(x0) = Prob{x x0}
Fa

47
Variabile aleatoare continue
Variabile aleatoare continue

e
f(x) reprezint densitatea de repartiie, care poate fi

i
Pentru o variabil aleatoare discret, funcia de definit ca prim derivat (dac exist) a funciei de

ac
repartiie este suma probabilitilor de la cea mai repartiie F(x) adic:
mic valoare pe care o poate lua x i pn la x0.

Funcia de repartiie pentru o variabil aleatoare

rm
discret este o funcie discontinu, n scar, aa
cum am vzut anterior

Funcia de repartiie a unei variabile aleatoare

Fa
Graficul densitii de probabilitate Reprezentarea elementului de probabilitate.

continue este o funcie continu, monoton Mrimea f(x)dx se numete element de probabilitate i reprezint
cresctoare probabilitatea ca valoarea variabilei aleatoare s se gseasc n
intervalul ds. Aceast probabilitate este egal cu aria dreptunghiului
elementar cu baza egal cu ds.

de
Variabile aleatoare continue a Variabile aleatoare continue
Expresia P(X<x) se citete probabilitatea ca X s fie cel
Proprietile funciei de repartiie
te
mult egal cu x.

Dac ds0, aria dreptunghiului tinde spre zero, cea ce ne


duce la concluzia c probabilitatea obinerii unei valori x
lta

este egal cu zero, deci ar fi un eveniment imposibil.


Deoarece o astfel de concluzie este paradoxal trebuie,
evideniat definiia probabilitii care ne conduce la o Fie intervalul [a, b], probabilitatea ca o valoare x s aparin acestui interval,
interpretare care evideneaz faptul c frecvena unui respectiv P(aX<b) este
astfel de eveniment este zero i nu faptul c un astfel de
cu

eveniment nu poate avea loc


f(x) nu are semnificaia unei probabilliti aa cum se
prezint expresia , pentru variabila aleatoare
discret. n consecin, semnul sau folosit la variabila
Fa

aleatoare discret va fi nlocuit, n general, prin < sau >


Probabilitatea ca o variabil s aparin intervalului [a,b] este
pentru variabila aleatoare continu (probabilitatea egalitii
egal cu aria trapezului curbiliniu mrginit de axa x, curba densitii de
fiind nul) repartiie f(x) i dreptele x=a i x=b.
48
Variabile aleatoare continue
Repartiia Normal~N( )

e
Caracteristici numerice
Repartiia normal (cunoscut i sub numele de

i
Media

ac
Repartiia Gauss-Laplace sau popular sub
Valoarea medie (sau valoarea ateptat) a lui x este numele de clopotul lui Gauss) este una din cele
mai rspndite i utilizate repartiii

rm
Variana sau dispersia Numeroase fenomene i procese naturale,
economice, sociale sau medicale pot fi modelate
de repartiia normal

Fa
Abaterea standard
Repartiia normal este o funcie parametric
simetric, definit pe mulimea R

de
Repartiia Normal~N(
a ) Repartiia Normal~N( )
te
Fie o variabil X ={x1, ..., xn} care urmeaz o lege normal : , V = Proprieti ale distribuiei normale:
o distribuie normal este simetric n raport cu ordonata
Densitatea de repartiie valorii x = ; de asemenea, = Me = Mo
pentru o distribuie normal, cnd x tinde la , funcia f(x)
lta

tinde la zero (amplitudinea variabilei este infinit)


f(x) este maxim pentru x = i se diminueaz pe msur
ce valorile variabilei se deprteaz de medie
curba densitii de repartiie f(x) are puncte de inflexiune
cnd x = .
cu

Funcia de repartiie
o distribuie normal este unic determinat de medie i de
varian: X ~ N(; 2)
suma (sau diferena) a dou variabile aleatoare
Media:
independente X1 i X2 ce urmeaz legi normale N(1, 21)
Variana:
Fa

i N(2, 22), urmeaz tot o lege normal:


f(xi) se calculeaza cu functia: =NORM.DIST(xi, , , FALSE) X~N(12,21+22)
F(xi) = P(x < xi) se calculeaza cu functia: =NORM.DIST(xi, , , TRUE)
xi se calculeaza cu functia: =NORM.INV(F(xi), , ) 49
Repartiia Normal Standard~N(0 ) Repartiia Normal Standard~N(0 )

e
Fie o variabil Z ={z1, ..., zn} variabil centrat redus

i
O variabil aleatoare, X, normal repartizat

ac
cu media i deviaia standard diferite de 0
respectiv 1, poate fi transformat ntr-o Densitatea de repartiie
repartiie normal standard, Z, astfel:

rm
Funcia de repartiie

Fa
Repartiia normal standardizat, cu media 0 i Media: 0
abaterea standard 1. Variana:1
f(zi) se calculeaza cu functia: =NORM.S.DIST(zi,FALSE)
F(zi) = P(z < zi) se calculeaza cu functia: =NORM.S.DIST(zi, TRUE)
zi se calculeaza cu functia: =NORM.S.INV(F(zi))

de
a Repartiia Normal Standard~N(0 )
Repartiia Normal Standard~N(0 )
te
lta
cu
Fa

50
Repartiia Normal Standard~N(0 )
Repartiia Normal Standard~N(0 )

e
-

Pentru calculul unor probabiliti pe baza funciei de repartiie, se

i
utilizeaz funcia Laplace, ale crei valori calculate se pot obine

ac
din tabelele Gauss-Laplace.
Funcia Laplace este definit de relaia:

rm
Proprietile funciei lui Laplace:
- (0) = 0
- (-z) = - (z)

Fa
-
- Densitatea de repartiie a variabilei z.

- P(-z Z z) = 2 (z).

de
Repartiia hi-ptrat ( 2) a Repartiia hi-ptrat ( 2)
te
lta
cu
Fa

51
Repartiia hi-ptrat ( 2) Repartiia hi-ptrat ( 2)

e
=CHISQ.DIST.RT(x,deg_freedom) =CHISQ.INV(probability, deg_freedom)
sau

i
sau
=CHIINV(probability, deg_freedom)

ac
=CHIDIST(x,deg_freedom)
Returneaz inversa funciei de repartiie F (alungit la dreapta). Dac p =
CHIDIST(x,...), atunci CHIINV(p,...) = x

rm
Fa
Returneaz probabilitatea pentru hi-ptrat , unde o valoare numeric (x) este
o valoare calculat a lui 2 pentru care se vor calcula probabilitile.

de
Repartiia hi-ptrat ( 2) a Repartiia Fisher-Snedecor F( 1, 2)
te
lta
cu
Fa

52
Repartiia Fisher-Snedecor F( 1, 2) Repartiia Fisher-Snedecor F( 1, 2)

e
=F.DIST(x,deg_freedom1, deg_freedom2)

i
X Valoarea la care s se evalueze funcia

ac
deg_freedom1 Gradele de libertate pentru numrtor
deg_freedom 2 Gradele de libertate pentru numitor

rm
Fa
Densitatea de repartiie pentru
diferite valori ale lui 1, 2

de
Repartiia Fisher-Snedecor F( 1, 2)
a Repartiia Student distribuia t
te
lta
cu

=F.INV(probability,deg_freedom1,deg_freedom2)
Fa

probability Probabilitatea asociat cu funcia de repartiie F


deg_freedom1 Gradele de libertate ale numrtorului.
deg_freedom2 Gradele de libertate ale numitorului.

F.INV(0.05,3,60) Fcr = 2,758 53


Repartiia Student distribuia t Repartiia Student distribuia t

e
=TDIST(x,deg_freedom,tails)

i
x este valoarea numeric la care va fi evaluat repartiia.

ac
deg_freedom numrul gradelor de libertate.
Tails
Dac tails = 1, TDIST ntoarce o repartiie unilateral.
Dac tails = 2, TDIST ntoarce repartiia bilateral.

rm
Fa
TDIST(x, ,1) = aria haurat TDIST(x, ,2) = aria haurat

de
Repartiia Student distribuia t a Aplicaii. Verificarea normalitii unei distribuii
=T.INV(probability,deg_freedom)
te
O valoare t unilateral poate fi
ntoars nlocuind probabilitatea cu
lta

2*probabilitate.
Pentru o probabilitate de 0,05 i
grade de libertate 10, valoarea
bilateral este calculat cu
T.INV(0,05;10), care ntoarce
cu

2,28139. Valoarea unilateral pentru


aceeai probabilitate i grade de
libertate poate fi calculat cu
T.INV(2*0,05;10), care ntoarce
Fa

1,812462.

54
Aplicaii. Verificarea normalitii unei distribuii Aplicaii. Verificarea normalitii unei distribuii

i e
ac
rm
Fa
de
a
te
lta
cu
Fa

55
Eantionare . Probleme ale Eantionrii

e
EANTIONARE: selecia unei poriuni din populaie care e

i
reprezentativ pentru caracteristica de interes a

ac
Biostatistic populaiei.

Nu se poate investiga ntreaga populaie; (nepractic: timp


ndelungat, costuri mari, populaii care nu pot fi numrate)
Estimaii

rm
Testarea ipotezelor statistice Se consider un eantion: se calculeaz media
eantionului. Ne ateptm ca media eantionului s fie
Teste statistice:Testul Student, Testul rezonabil de aproape de media populaiei.

Fa
Repartiia de eantionare ne permite s evalum ct de
aproape este valoarea statisticii eantionului de valoarea
parametrului populaiei.

Curs 9

de
Eantionare. Probleme ale Eantionrii a Eantionare . Probleme ale Eantionrii
te
Populaia int - populaia pentru care vrem Eantionarea aleatorie simpl
Un eantion aleatoriu simplu este un eantion n care
s facem inferene fiecare membru al populaiei este la fel de probabil de a
fi inclus.
lta

Populaia eantionat - populaia din care Metoda presupune identificarea fiecrui membru al
populaiei i alegerea aleatorie a acestora.
extragem de fapt eantioane
Eantionarea aleatorie stratificat
Un eantion aleatoriu stratificat se obine prin separarea
cu

populaiei n seturi reciproc exclusive (sau straturi) i


apoi extrgnd eantioane aleatorii simple din fiecare
Problema eantionrii: set (strat).

Este populaia int aceeai cu populaia Eantionarea de grupuri


Fa

Un eantion de grupuri este un eantion aleatoriu simplu


eantionat? a unor grupuri de elemente.

56
Eantionarea aleatorie simpl in Excel Inferen Statistic

e
Pentru extragerea unui ntreg situat ntre a si b: Obiectivul (problema)

i
ac
RANDBETWEEN(bottom, top)
Tipul de date Descrierea unei singure
Pentru extragerea unui numr situat n intervalul [0, 1]: populaii
RAND () cantitative
Compararea a dou

rm
Pentru extragerea unei serii de N numere din una dintre calitative populaii
mai multe variante de distribuii,
ordinale. Compararea a dou sau
DATA >> DATA ANALYSIS >> Random Number Generation mai multor populaii

Fa
Pentru extragerea unui eantion dintr-o populatie: Analiza relaiei ntre dou
DATA >> DATA ANALYSIS >> Sampling sau mai multor variabile
LA FIECARE RECALCULARE A FOII DE CALCUL, VALORILE
SUNT GENERATE DIN NOU !

de
Inferen Statistic. Repartiia de
Inferen Statistic
ESANTION
a
POPULAIA STATISTIC
sondaj a mediei
te
Se consider o populaie statistic i o caracteristic continu X.
(STATISTIC) (PARAMETRU)
Fie M(X) = i D2(X) = . Repartiia variabilei X este
necunoscut (deci nu sunt cunoscute , , forma distribuiei sau
MEDIA: numai unele dintre aceste atribute).
lta

Din populaia respectiv se extrage un eantion de volum n, fie


acesta x1, x2, , xn, i se calculeaz media aritmetic x . Este
evident c se dorete ca aceast valoare s fie utilizat drept
DISPERSIA estimaie a mediei populaiei, .
cu

Repartiia de sondaj a mediei este caracterizat de

ABATEREA
STANDARD
Fa

COEFICIENTUL
DE VARIATIE
57
Inferen Statistic. Repartiia de
sondaj a mediei Inferen Statistic

e
Forma repartiiei de sondaj a mediei este determinat Estimarea

i
de rezultatele:

ac
Determinarea parametrului unei
dac X este repartizat normal, atunci media de sondaj populaii pe baza statisticii unui
este repartizat de asemenea normal, cu parametrii
precizai mai sus, indiferent de volumul eantionului eantion

rm
dac nu se cunoate repartiia lui X, atunci teorema
limit central afirm c repartiia de sondaj a mediei
devine normal la limit, pentru un volum mare al Testarea ipotezelor statistice
eantionului.
Scop: a determina dac exist
suficient eviden statistic pentru a

Fa
Practic, se poate accepta o repartiie ,
pentru n > 10, dac repartiia lui X este aproape simetric, susine o anumit afirmaie fcut
sau despre un parametru al populaiei
pentru n > 30, n repartiii cu asimetrie pronunat sau
necunoscut. statistice

de
a Estimaii
Inferen Statistic Deoarece aprecierea erorilor de estimare posibile, n cazul
estimaiile punctuale, este suficient de laborioas, s-a ncercat
te
Estimare i estimator
dezvoltarea unei metode care s pun accentul pe
Estimarea este calcularea unei valori specifice a
estimatorului. probabilitile de apariie ale erorilor. Aceast metod generic
este metoda determinrii intervalelor de ncredere sau metoda
lta

Exemplu: Media eantionului este un estimator al mediei


populaiei. Cnd calculm valoarea mediei eantionului, de estimare sub form de interval.
acea valoare reprezint o estimare a mediei populaiei.
Estimator punctual - realizeaz inferene despre o populaie Fie o populaie statistic, caracterizat de o v.a. continu X a
prin estimarea valorii unui parametru necunoscut utiliznd o crei repartiie depinde de un parametru , necunoscut.
cu

singur valoare sau un punct. Problema este ca, pornind de la datele de sondaj ale unui
Estimator al unui interval - realizeaz inferene despre o eantion de volum n, s se determine dou limite ntre care
populaie prin estimarea unui interval de variaie n care este valoarea parametrului s se afle cu o probabilitate fixat.
probabil ca valoarea parametrului s se afle.
Fa

Adic s se determine dou statistici, 1 i 2, astfel nct


P( 1 2 ) p
Numim eroare de estimare valoarea absolut a diferenei dintre
estimaia punctual i valoarea parametrului. unde p este o probabilitate independent de parametrul .
58
Estimaii Estimaii

e
Dac se repet procedeul pentru eantioane diferite,
atunci 100(1)% dintre intervalele determinate vor
Prin definiie, dac se pot determina 1 i 2

i
conine valoarea necunoscut a parametrului
astfel nct pentru o valoare prestabilit

ac
(evident c nu se va ti care sunt acele intervale).
(0<< 1) s aib loc:
Apare atunci necesitatea ca s fie ct mai mic, dar o dat cu
P( 1 2) 1
micorarea lui se mrete lungimea intervalului, deci erorile
atunci intervalul (1, 2) se numete interval de de estimare sunt mai mari.

rm
ncredere pentru parametrul necunoscut cu Uzual se alege = 0,05 sau = 0,01.
un coeficient (sau nivel) de ncredere egal cu Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere este
, sau cu o siguran statistic S = 1. bilateral.
n cazul cnd 1 este - sau 2 este +, ceea ce revine, n fapt, la

Fa
Valoarea se numete nivel (sau prag) de determinarea unei singure limite, intervalul este unilateral.
semnificaie.

de
Estimaii a Estimaii
Intervale de ncredere pentru valoarea medie
Intervale de ncredere pentru valoarea medie
Fie o populaie statistic caracterizat de o v.a. X repartizat
te
normal, cu parametrii i 2, X ~ N(, ).2

Presupunem c s-au obinut dintr-un eantion de volum n, media


de sondaj i dispersia de sondaj s2.
Fixm pragul de semnificatie .
lta

Limitele unui interval de ncredere depind att de eantion, ct i


de cunoaterea sau nu, a dispersiei populaiei.
Dac dispersia, 2, este cunoscut, intervalul de ncredere:
cu

Dac dispersia, 2 nu este cunoscut i <30:


,
,
Fa

Dac numrul de grade de libertate este > 30, atunci poate


fi aproximat cu .
59
Estimaii Estimaii

e
Intervale de ncredere pentru dispersie Este frecvent situaia n care, pornind de la un eantion de

volum n, cercettorul este interesat de frecvena relativ


Fie o populaie normal sau aproximativ

i
(exprimat eventual procentual) a cazurilor care prezint o
normal, cu parametrii i 2 necunoscui. Se

ac
anumit caracteristic.
demonstreaz c intervalul de ncredere bilateral
Situaia poate fi formalizat prin considerarea unei v.a. X,
pentru dispersia populaiei, cu ncrederea
statistic de 1, este dat de repartizat binomial, Bi(n; p), pentru care se consider
succes prezena caracteristicii dorite.

rm
Pentru cazul eantioanelor mari, sau mai precis cazul n care
se poate aproxima repartiia binomial prin repartiia normal,
se demonstreaz c intervalul de ncredere cu sigurana
statistic S = 1 este dat de
unde n este volumul eantionului, s2 este dispersia
de sondaj, iar / 2; i 1 / 2; sunt valorile <

Fa

repartiiei 2 de ordin /2, respectiv 1 cu =
n1 grade de libertate. unde fn este frecvena relativ a cazurilor succes din eantionul de
volum n, iar z/2 este valoarea critic a repartiiei normale standard
pentru ales.

de
Testarea ipotezelor statistice
a Testarea ipotezelor statistice
te
Testarea ipotezelor statistice este procedeul prin care Erori de testare:
se poate respinge sau accepta o ipotez fcut
asupra unui parametru sau asupra unei distribuii, Eroarea de tip I - este eroarea care se face cnd se
innd cont de anumite reguli de decizie. decide respingerea ipotezei nule H0 cnd n realitate
lta

Ipoteza pe care dorim s o testm se numete aceasta este adevrat. Probabilitatea asociat erorii
ipoteza nul i este notat H0. de tip I se noteaz cu i este numit prag de
H0 nu exist nici o diferen ntre valorile comparate. semnificaie, sau riscul acceptat n luarea deciziei de
respingere a H0 cnd H0 este adevrat.
cu

Ipoteza pe care dorim s o testm n opoziie cu


Eroarea de tip II - este eroarea care se face cnd se
ipoteza nul se numete ipoteza alternativ i se
noteaz cu H1. decide acceptarea ipotezei nule H0 atunci cnd
H1: exist diferene ntre valorile comparate. acesta este fals. Probabilitatea asociat erorii de tip
II este notat cu i reprezint riscul acceptat n
Fa

Ipoteza alternativ este ipoteza care o acceptm luarea deciziei c H0 este adevrat cnd H0 este
dac, prin regula de decizie, se respinge ipoteza nul. fals.
60
Testarea ipotezelor statistice
Testarea ipotezelor statistice

e
Regiunea de respingere sau regiunea critic este intervalul n
care se respinge ipoteza nul H0, considernd ipoteza
alternativ H1 adevrat. Se definete n acest context, un prag a) Stabilirea eantionului (eantioanelor) de lucru

i
critic (inferior Li superior Ls), de la care o estimaie tinde s b) Formularea ipotezelor alternative (H0, H1)

ac
confirme ipoteza H1 i s resping H0. Regiunii critice i se
asociaz o probabilitate , cuprins n general ntre 0.01 i 0.1. c) Alegerea testului statistic
Regiunea de acceptare sau intervalul de ncredere este un d) Specificarea pragului de semnificaie = 0.01, 0.05 ,
interval n care, pe baza unui test, nu se respinge ipoteza H0. 0.1

rm
Regiunii de acceptare a ipotezei H0 i se asociaz o probabilitate e) Definirea regiunii critice (RC)
1 , numit i coeficient de ncredere.
f) Calcularea valorii statistice a testului (Zcalc, tcalc)
H0: = 0 H0: = 0 H0: = 0 g) Compararea valorii statistice a testului Zcalc sau tcalc,
H1: 0 H1: > 0 H1: < 0
cu valoarea critic Zcr, respectiv tcr cu (n1) grade de
libertate pentru pragul de semnificaie ales

Fa
h) Luarea deciziei

de
Testarea ipotezelor statistice a Testarea ipotezelor statistice. Teste parametrice
e) Definirea regiunii critice (RC) f) Calcularea valorii statistice a testului (Zcalc, tcalc)
A. Statistica Z (n > 30, = 0.05) Ipoteza H0 este strict legat de un parametru al populaiei, iar
te
Test unilateral dreapta statistica testului are o repartiie cunoscut tocmai din aceast
zcr=NORM.S.INV(0.95)=1.645, RC=(1.645,+ ipotez.
Test unilateral stnga
lta

zcr=NORM.S.INV(0.05)= -1.645, RC=(- ,-1.645


Test bilateral
zcr=NORM.S.INV(0.975)= 1.96, RC = (-, -1.96)U(1.96, +)
cu

B. Statistica T (n < 30, = 0.05)- Valorile critice ale


repartiiei Student cu grade de libertate (= n-1), n=15
Test unilateral
Fa

tcr=TINV(2*0.05,14)=1.761, RC=(1.761,+ , RC=(- ,-1.761


Test bilateral
tcr=TINV(0.05,14)= 2144, RC = (-, -2.144)U(2.144, +)
61
Testarea ipotezelor statistice. Teste parametrice Testarea ipotezelor statistice. Teste parametrice

e
Testarea ipotezelor privind compararea a dou medii Testarea ipotezelor privind compararea a dou medii
A. Grupuri independente A. Grupuri independente

i
ac
H0: NU exist diferene semnificative ntre valoarea medie a variabilei X din
eantionul E1 i valoarea medie a variabilei X din eantionul E2. ( = .
H1: Exist diferene semnificative ntre valoarea medie a variabilei X din

rm
eantionul E1 i valoarea medie a variabilei X din eantionul E2. ( .
pentru eantioane de volum mare (n1 30, n2 30) se folosete
statistica Z (ce urmeaz o distribuie de probabilitate normal):

- cnd i sunt cunoscute, statistica Z este:

Fa
- cnd i sunt necunoscute, statistica Z este:

de
Testarea ipotezelor statistice. Teste parametrice a Testarea ipotezelor statistice. Teste parametrice
Testarea ipotezelor privind compararea a dou Testarea ipotezelor privind compararea a dou medii
medii Luarea deciziei
te
B. Grupuri dependente dac valoarea numeric calculat a statisticii (Zcalc sau tcalc) cade
n RC (Zcalc > Zcr sau tcalc>tcr ), respingem ipoteza nul H0 n
favoarea ipotezei alternative H1
lta

dac valoarea statisticii (Zcalc sau tcalc) NU cade n RC (Zcalc < Zcr
sau tcalc<tcr ), acceptm ipoteza nul H0 cu o ncredere de 1-

Observaie: O serie de programe de prelucrare statistic furnizeaz valoarea


p-value (probabilitatea asociata valorii statistice a testului).
cu

Astfel:
(1) dac p < atunci se poate afirma c exist o diferen
semnificativ ntre valoarea ipotetic a parametrului i valoarea
obinut pe baza datelor observate (se respinge H0 i se accept
H1 ).
Fa

(2) dac p > atunci nu se poate spune c exist o diferen


semnificativ ntre valoarea ipotetic i valoarea rezultat din
datele observate (se accept H0).
62
Testarea ipotezelor statistice. Testul Student
Testarea ipotezelor statistice. Testul Student Grupuri independente Grupuri dependente (perechi)

e
Calcularea probabilitatii (p) asociate valorii statistice a
testului

i
=T.TEST(array1,array2,tails,type)

ac
Funcia T.TEST se introduce ntr-o celul oarecare specificnd n
ordine:
=T.TEST(A3:A12,B3:B12,2,2)
a) zonele care conin datele celor dou serii de valori =T.TEST(A3:A14,B3:B14,2,1)

rm
Luarea deciziei
b) valoarea: 1 sau 2 pentru a indica dac testul este cu un capt (1) dac p < atunci se repinge ipoteza nul H0 i se accept ipoteza alternativ
(unilateral) sau cu dou capete (bilateral) H1. Prin urmare exist o diferen semnificativ ntre mediile caracteristicii n cele
c) tipul testului: 1, 2 sau 3 dou populaii.
1 - dac grupurile sunt dependente (2) dac p > atunci se accept ipoteza nul H0. Prin urmare nu exist o
diferen semnificativ ntre mediile caracteristicii n cele dou populaii.

Fa
2 - dac grupurile sunt independente i se presupune c populaiile au
aceeai dispersie
Obs. Dac testul este cu dou capete, atunci n cazul respingerii ipotezei H0 se consider
3 - dac grupurile sunt independente i se presupune c populaiile au c exist diferene ntre mediile celor dou caracteristici fr a se specifica care dintre cele
dispersii diferite dou medii este mai mare.
Dac testul este cu un capt, atunci n cazul respingerii ipotezei H0 este clar care dintre
mediile celor dou populaii este mai mare.

de
Testarea ipotezelor statistice. Testul Student a Utilizarea testului t n analiza
Grupuri independente Grupuri dependente (perechi)
comparativ a medicamentelor
te
La compararea efectului a dou medicamente, la
compararea rezultatului determinrilor analitice cu
valoare impus de standardul de control asupra
medicamentului precum i n multe alte situaii, apar
lta

rezultate diferite acolo unde ne ateptm ca acestea


s fie egale.
Ne punem ntotdeauna problema dac, diferenele
constatate n practic sunt semnificative sau nu.
cu

Deoarece rezultatele provin din testarea unor


eantioane reduse, nu putem fi niciodat siguri n
ceea ce privete parametrii ntregii populaii. Totui,
asumndu-ne un risc mai mare sau mai mic, trebuie
Fa

s lum decizii.

63
e
Dac, de exemplu, dozm cantitatea de substan La compararea mediilor a dou selecii independente,

i
activ din 10 comprimate care provin dintr-o arj de numite n experimentele cu medicamente grupuri

ac
1.000.000 de comprimate, alegerea celor 10 paralele, o atenia deosebit trebuie acordat
comprimate se presupune c s-a fcut aleator i ele verificrii independenei efective a acestora. De
exemplu la testarea efectelor unui medicament
reprezint un eantion reprezentativ pentru ntreaga asupra unui grup de pacieni n comparaie cu un alt

rm
arj. Problema este dac, n funcie de valoarea grup ce se numete placebo, trebuie avut n vedere
medie a coninutului pentru cele 10 comprimate i c pacienii s nu se influeneze ca urmare a
variabilitatea celor 10 valori, putem spune, discuiilor ntre ei. Dac loturile sunt de animale ce
asumndu-ne un anumit risc, c valoarea medie a triesc n aceiai cuc, medicamentul poate favoriza
concentraiei n substana activ pentru tot lotul este sau din contr, defavoriza un grup n lupta animalelor

Fa
cea declarat. n acest caz aplicarea testului t n pentru hran i adaug efecte suplimentare asupra
verificarea ipotezei asupra mediei, este imediat. rezultatelor finale ale testului.

de
Un caz foarte frecvent n testrile comparative ale efectelor sau nivelelor plasmatice ale

medicamentelor, este acela al observaiilor pereche, cnd lotul de subieci tratai se constituie ca
a Testarea ipotezelor statistice. Teste neparametrice
propriul martor. Acestea ofer unele avantaje asupra experimentului pe grupuri paralele.
n primul rnd, n experimentul pe grupe paralele, variabilitatea rezult din diferenele de rspuns
Testul
la medicament ntre cele dou grupuri, aa numita intervariabilitate. n experimentul pereche Testul CHI este un test neparametric ce poate compara
te
apare intravariabilitatea, variabilitatea n rspunsul aceluiai subiect la dou tratamente diferite
i avem motive s presupunem c aceasta este mai mic, de regul dect intervariabilitatea. dou sau mai multe repartiii de frecvene, dintre care una
Teoretic, intervariabilitatea include i intravariabilitatea i deci nu poate fi mai mic dect aceasta.
Din aceste motive, testul pereche ofer avantajul unei variabiliti mai mici.
se consider lot martor i alta lot experimental, provenite
din aceeai populaie, dar avnd o caracteristic diferit, de
lta

Testul pereche ofer avantajul c lotul poate fi mai mic. n experimentul pe grupe paralele, de
exemplu dou loturi de 10 subieci primesc dou medicamente diferite. n experimentul pereche
numai 10 subieci pot primi n prima administrare un medicament i n a doua perioad al doilea
exemplu:
medicament. - copii vaccinati i nevaccinati antigripal, mbolnvii sau nu;
Desigur c acest cuplare nu este ntotdeauna posibil. Cnd dozm cantitatea de substan
activ din comprimate sau determinm timpul de dizolvare, acestea sunt consumate n timpul - bolnavi tratai sau netratai cu medicamentul X,
cu

testrii.
nevindecai sau vindecai;
Testul pereche prezint dezavantajul c ntre cele dou tratamente trebuie s existe o perioada
destul de lung pentru ca primul medicament administrat s se elimine din organism care, n - copii decedai sau vindecai de tuse convulsiv, tratai la
cazul medicamentelor cu timp de njumtire mare cum ar fi de exemplu piroxicamul, depete
30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada ntre cele doua domiciliu sau la spital; etc.
administrari, de mai multe luni. n aceste situaii se prelungete destul de mult timpul pentru
Testul CHI se aplic numai n acele situaii cnd
Fa

definitivarea studiului.
Deasemenea, efectul primului medicament, n cazul c experimentele se fac pe pacieni, poate evenimentele ateptate se exclud unul pe cellalt, n sensul
duce la o mbuntire a strii de sntate a acestora i la o modificare considerabil a
rspunsului la al doilea tratament.
c nu este posibil s se produc dect unul dintre ele.
64
Testarea ipotezelor statistice. Teste neparametrice. Testarea ipotezelor statistice. Teste neparametrice
Testul Testul

e
Etapele aplicrii testului CHI: 6. Calcularea probabilitii asociate valorii statistice a testului (p)

i
1. Culegerea i nregistrarea datelor studiului: =CHISQ .TEST(actual_range, expected_range) sau

ac
Subiecii sunt clasificai ca bolnavi sau nu, expui la un anumit =CHITEST(actual_range, expected_range)
factor de risc sau nu, etc.
se stabilete numrul de subieci care fac parte din fiecare Valoarea unei celule
clas din matricea valorilor
estimate este egal

rm
2. Formularea ipotezelor alternative (H0, H1) cu produsul dintre
H0: ntre cele dou caracteristici studiate NU exist o asociere suma valorilor de pe
(o legatur). linia i suma valorilor
H1: Exist o asociere (o legtur) ntre cele dou caracteristici de pe coloana
matricei datelor test,
studiate.
totul mprit la suma

Fa
3. Specificarea pragului de semnificaie = 0.01, 0.05, 0.1 tuturor
4. Stabilirea numrului gradelor de libertate (gl) a testului * Luarea deciziei
(1) dac p < atunci se respinge ipoteza nul H0 i se accept
gl = (Nr.Rnduri -1)*(Nr.Coloane -1) ipoteza alternativ H1,
5. Calcularea valorii statistice a testului ( calc) * (2) dac p > atunci se accept ipoteza nul H0,

de
Testarea ipotezelor statistice. Teste neparametrice a Testarea ipotezelor statistice. Teste neparametrice
Testul Testul
* Stabilirea numrului gradelor de libertate (gl) a testului Aplicaie. Mortalitatea postoperatorie la bolnavii de ulcer gastric, n
te
gl = (Nr.Randuri -1)*(Nr.Coloane -1) Varianta 2 cazul utilizrii mai multor tehnici de rezecie gastric.
* Calcularea valorii statistice a testului ( calc)
=CHIINV(probability=p, degrees_freedom) Se poate face o asociere ntre numrul
lta

* Stabilirea valorii critice a testului ( cr) pentru considerat persoanelor decedate i tehnica de
rezecie utilizat?
1. =CHIINV(probability=, degrees_freedom)
2. Din tabelul valorilor critice ale testului cu pragul de
semnificaie i gradele de libertate (gl)
cu

Luarea deciziei H0: NU exist o asociere (o legtur) ntre mortalitatea postoperatorie


(1) dac calc > cr atunci se repinge ipoteza nul H0 i se i tehnicile chirurgicale utilizate.
accept ipoteza alternativ H1, H1: Exist o asociere (o legtur) ntre mortalitatea postoperatorie i
Fa

(2) dac calc < cr atunci se accept ipoteza nul H0, tehnicile chirurgicale utilizate.

Deoarece p = 0,47 > 0,05 se accept ipoteza nul H0. Prin urmare, nu exist o
asociere ntre numrul de decese i tehnica chirurgical folosit. 65
Context

e
Statistica dispune de o seam de metode de

i
studiere a dependenelor (legturilor) dintre dou

ac
sau mai multe variabile. Printre acestea sunt i cele
cuprinse n "analiza de regresie i corelaie".
n cadrul acesteia se studiaz dependena dintre
o variabil (caracteristic) rezultativ (y) i una sau
Regresie i corelaie mai multe variabile (caracteristici) independente (x).

rm
Caracteristica rezultativ se mai numete
caracteristica dependent, endogen sau efect, iar
caracteristica independent se mai numete
caracteristica factorial, exogen sau cauz.
Regresia ne arat cum (ca form analitic) o

Fa
variabil este dependent de alt variabil (sau de
alte variabile), iar corelaia ne arat gradul n care o
variabil este dependent de o alt variabil (sau alte
Curs 10 variabile).

de
Clasificri
a Introducere
te
a) dup numrul caracteristicilor independente Metode de regresie i corelaie pentru variabile
luate n studiu:
- legturi simple cantitative de tip interval
- legturi multiple
lta

b) dup direcia legturilor: Metoda de regresie i corelaie se bazeaz pe


- legturi directe
determinarea unei ecuaii matematice ce descrie
- legturi inverse
c) dup expresia analitic a legturilor: relaia dintre variabila care va fi prognozat, denumit
variabil dependent (notat cu y) i variabilele care
cu

- legturi liniare
- legturi neliniare (curbilinii) sunt legate de aceast variabil, denumite variabile
d) dup metodele de abordare: independente (notate cu x1, x2,..., xk).
- metode simple (elementare) Relaia funcional este
- metode analitice
Fa

y = f (x1, x2,..., xk)

66
Modelul de regresie Modelul de regresie

i e
ac
Modelul de regresie este un model probabilist (sau Modelul de regresie liniar (de ordinul I) va avea
stohastic) deoarece variabilele modelului sunt forma:
variabile aleatoare (sau variabile stohastice).

rm
unde:
Pentru a crea ns un model probabilist trebuie mai
y = variabila dependent
nti s crem un model determinist, care s
x = variabila independent
stabileasc, cu ajutorul unei relaii funcionale,
= intersecia cu axa Oy (intercept)

Fa
legturile dintre variabilele modelului.
= panta (coeficientul unghiular)
= variabila de eroare

de
Modelul de regresie
a Modelul de regresie
te
Am menionat anterior i am analizat modelul de
Pentru estimarea coeficienilor i ai
regresie liniar.
modelului de regresie liniar se utilizeaz
urmtorul algoritm:
lta

[1]: Se extrage un eantion de valori (xi, yi) din n practic, exist numeroase situaii cnd
populaia analizat; modelul liniar nu este adecvat, utilizndu-se
modele de regresie neliniare.
[2]: Se calculeaz coeficienii i
cu

[3]: Se reprezint dreapta de regresie.


Acestea pot fi modelate fie prin funcii polinomiale
Coeficienii i ai modelului de regresie
de grad 2 sau prin funcii exponeniale sau
liniar se determin cu ajutorul metodei celor
Fa

logaritmice.
mai mici ptrate.

67
Metoda celor mai mici ptrate Metoda celor mai mici ptrate

i e
Metoda celor mai mici ptrate determin

ac
dreapta care minimizeaz suma

unde:

rm
yi sunt valorile observate
sunt valorile calculate pe baza ecuaiei dreptei
de regresie

Fa
Metoda celor mai mici ptrate

de
Metoda celor mai mici ptrate. Dreapta de
Metoda celor mai mici ptrate regresie
a
te
Coeficienii i se determin cu relaiile
lta

unde:
cu

R2 = coeficient de determinare (ia valori ntre 0 si 1)


R2 arat ct de apropiate se afl punctele de dreapta determinat
41,14% din variaia (mprtierea) uneia din cele dou variabile este
Fa

determinat de variaia celeilalte variabile


sau:
cele dou variabile au n comun 41,14% din variaia ce le caracterizeaz,
restul pn la 100% din variabilitatea lor 58,86% provine din alte surse
68
Msurile numerice ale dependenei Msurile numerice ale dependenei
liniare liniare

e
Am descris anterior n mod grafic, cu ajutorul

i
ac
diagramei de mprtiere, legtura sau Definiie Covariana unei populaii statistice este
dependena dintre dou variabile. prin definiie:

Dac valorile reprezentate se situau aproximativ

rm
n apropierea unei drepte ce putea fi trasat
aveam o dependen liniar.
Covariana unui eantion statistic este prin
definiie:

Fa
Vom determina n continuare msurile numerice
ale dependenei liniare, i anume:
covariana
corelaia

de
Msurile numerice ale dependenei a Msurile numerice ale dependenei
liniare liniare. Coeficientul de corelaie
te
Dac cov(x,y) > 0, atunci avem o dependen liniar pozitiv
ntre variabilele analizate Definiia: Coeficientul de corelaie al unei
Dac cov(x,y) < 0, atunci avem o dependen liniar negativ populaii statistice este prin definiie:
ntre variabilele analizate
lta

Dac cov(x,y) = 0, atunci nu avem o dependen liniar ntre


variabilele analizate
y y y unde x i y sunt abaterile standard.
cu

Coeficientul de corelaie al unui eantion statistic


este prin definiie:
Fa

unde sx i sy sunt abaterile standard.


x x x
a) cov(x,y) > 0 b) cov(x,y) < 0 c) cov(x,y) = 0
69
Msurile numerice ale dependenei Msurile numerice ale dependenei
liniare. Coeficientul de corelaie liniare. Coeficientul de corelaie

i e
ac
Coeficientul de corelaie al eantionului
(coeficientul Pearson) poate fi determinat i cu
o relaie de calcul prescurtat:

rm
Fa
de
Msurile numerice ale dependenei liniare. Coeficientul de
Msurile numerice ale dependenei a corelaie
liniare. Coeficientul de corelaie Pentru a afla dac dou variabile studiate sunt corelate sau nu,
formulm urmtoarele ipoteze statistice:
te
- ipoteza nul (H0): cele dou variabile nu sunt corelate
y y y - ipoteza alternativ (H1): cele dou variabile sunt corelate
lta

Procedeu de lucru:
Se calculeaz coeficientul de corelaie r
Se calculeaz numrul gradelor de libertate (gl):
gl = nr. perechilor de date 2
Se alege un nivel de semnificaie: 0.10, 0.05, 0.02, 0.01.
cu

Pentru nivelul ales se citete din tabel valoarea critic (rcr)


x x x corespunztoare numrului de grade de libertate.

a) r(x,y) 1 b) r(x,y) 1 c) r(x,y) 0 Interpretare:


Fa

Dac r > rcr se respinge ipoteza H0 i se accept ipoteza H1 cu


Corelaia i dependena liniar nivelul de semnificaie respectiv (p < alfa).
Dac r < rcr atunci cele dou variabile sunt considerate necorelate
i se accept ipoteza H0 (p > alfa). 70
Msurile numerice ale dependenei liniare. Coeficientul de
corelaie
Evaluarea modelului de regresie

e
Tabelul 1. Valoarea critic a coeficientului de
corelaie pentru nivele diferite de semnificaie:
0,10; 0,05; 0,02; 0,01
Variabila de eroare , care apare n modelul de

i
ac
regresie trebuie s satisfac urmtoarele condiii:

Coeficientul de corelaie n EXCEL [1] Distribuia lui este normal;


=CORREL(Array1, Array2)
[2] Valoarea medie a lui este 0, adic

rm
M[]=0;
[3] Abaterea standard a lui respectiv , este
Interpretare: constant fa de valorile lui x;
[4] Valoarea lui asociat unei valori y este

Fa
= 0.05
gl = 17
rcr = 0.4555
independent de alt valoare a lui y.
r = 0,6414 > rcr
se respinge H0 i se accept H1.
Cele dou variabile studiate sunt corelate.

de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
n modelul de regresie, abaterile valorilor Estimatorul nedeplasat al dispersiei variabilei
observate de la dreapta de regresie de eroare este dat de relaia:
lta

se numesc valori reziduale.


Rdcina ptrat a lui s se numete eroarea
cu

Suma ptratelor acestor valori reziduale este:


standard a estimrii, adic
Fa

71
Evaluarea modelului de regresie Evaluarea modelului de regresie

e
O alt metod de evaluare a modelului de

i
ac
Coeficientul de determinare R2 msoar regresie este analiza rezidual.
intensitatea dependenei liniare dintre dou
variabile i este dat de relaia: O prim abordare este reprezentarea grafic, cu
ajutorul histogramei frecvenei relative a valorilor

rm
reziduale.

Cerina este ca histograma valorilor reziduale s


Coeficientul de determinare este ptratul

Fa
pun n eviden normalitatea, ceea ce ne arat
coeficientului de corelaie, adic faptul c eroarea este distribuit normal.

de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
Cerina ca dispersia variabilei de eroare s fie
Dac modelul de regresie este adecvat, putem
constant se numete homoscedasticitate.
s l utilizm pentru a face o prognoz sau o
lta

predicie asupra valorilor variabilei dependente.


Nerespectarea acestei cerine privind constana
Pentru valoarea x0 dat, valoarea de predicie
dispersiei se numete heteroscedasticitate. punctual este
cu

Alte elemente de evaluare ale modelului de


regresie se refer la independena sau
dependena variabilelor i la prezena sau nu a obinut prin nlocuirea valorii date n ecuaie
de regresie.
Fa

valorilor extreme.

72
Evaluarea modelului de regresie Evaluarea modelului de regresie

i e
Pentru predicia asupra unei valori individuale Pentru estimarea valorii medii a variabilei

ac
ale variabilei dependente, dat fiind o valoare dependente, dat fiind o valoare specificat x0
specificat x0 a variabilei independente se a variabilei independente se utilizeaz
utilizeaz intervalul de predicie de forma: intervalul de ncredere de forma:

rm
unde: unde:

Fa
de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
Determinarea coeficienilor dreptei
de regresie utiliznd Regression
din modulul Data Analysis.
lta
cu

Intervalul de ncredere pentru coeficientul lui x


Fa

(greutate) din funcia de regresie nu conine pe 0,


deci se poate afirma ca exist o corelaie
semnificativ ntre cele dou variabile.
73
LIMITRILE REGRESIEI SIMPLE

e
n foarte multe cazuri, modelul de regresie simpl nu explic

i
suficient de bine legatura variabilei dependente de variabila

ac
independent. R2 este prea mic si este prea mare pentru a
Biostatistic da veridicitate modelului.
Situaia se datoreaz de cele mai multe ori neglijrii unor
factori suplimentari de influen.

rm
Luarea n considerare corect a acestora aduce o cretere
considerabil a preciziei modelului.
Se poate cuantifica astfel contribuia fiecarui factor la
Regresie Multipl explicarea variabilei dependente

Fa
Factorii suplimentari de influen semnificativi (alte variabile
independente) trebuie identificai cu atenie i validai ca atare
prin construcia modelului.
Curs
11

de
Exemplu a Exemplu-rezolvare
Modelul obinut nu este satisfctor (coeficientul de
ntr-un lan de farmacii,
determinare R2 este destul de redus iar deprtarea
te
remunerarea personalului este
Angajat Venit lunar Experienta punctelor de dreapta-model este cam mare). Nivelul
de ateptat sa fie proporional # (lei) (ani)
salariului nu este explicat suficient de vechimea n
cu experiena fiecrui angajat 1 1650 3
meserie. Managerul ncearca s gaseasc explicaii pentru
lta

2 1280 1
(nr de ani n meserie). Dorind 3 2420 18
aceasta n influena altor factori asupra retribuiei.
sa verifice acest lucru, 4 3180 15
5 1920 6
managerul unitii colecteaz 6 1500 2 Venit lunar (lei)
datele referitoare la 12 7 3430 12 4500 y = 112.13x + 1321
cu

4000 R = 0.7689
8 2220 12
farmaciti alei aleator (tabelul 9 4210 22
3500

alturat) i construiete un 10 2240 7


3000
2500
Venit lunar (lei)
model de regresie liniar 11
12
1860
1940
5
4
2000
1500
Linear (Venit lunar (lei))

simpl. 1000
Fa

500
0
0 5 10 15 20 25

74
REGRESIA MULTIPL REGRESIA MULTIPL modelul

e
Este o generalizare a modelului de regresie simpl.

i
Modelul construit n acest fel conine mai multe variabile Pentru modelul :

ac
independente (predictori, variabile explicative). Pentru Y=0+ 1*X1+ 2*X2+..+ k*Xk+
variabila dependenta Y i un numr de k variabile ordonm eantionul de n seturi de valori de care dispunem
independente X1, X2,, Xk, modelul de baz este:
[Yi, X1i, X2i,, Xki,] unde i=1,,n
Y=0+ 1*X1+ 2*X2+..+ k*Xk+

rm
calculm coeficienii ecuaiei unei suprafete ntr-un spaiu cu k
Putem astfel evalua influenele mai multor factori asupra
variabilei dependente (variabila de rspuns) care ne dimensiuni de forma:
intereseaz. Y(X1,X2,,Xk)=b0+ b1*X1+ b2*X2+..+ bk* Xk
Modelul poate fi utilizat pentru: care indeplinete condiia

Fa
Confirmarea si explicarea dependenelor
|Yi, Y(X1i,X2i,,Xki)| = min unde i=1,,n
Previzionare
Identificarea factorilor de control cei mai eficieni

de
CALCULUL COEFICIENILOR a Exemplu
Nesatisfcut de modelul de
te
Pentru modelul : regresie simpl construit,
Venit Nivel
lunar Experienta expertiza
Y(X1,X2,,Xk)=b0+ b1*X1+ b2*X2+..+ bk* Xk managerul unittii identific alt
Angajat # (lei) (ani) (1-40)
1 1650 3 12
calculul algebric manual al coeficienilor b0,b1,.. bk este variabila independent care ar 2 1280 1 8
lta

extrem de laborios i expus erorilor. Se utilizeaza rutine de putea influena salariul 3 2420 18 25
4 3180 15 32
calcul furnizate de produse de software adecvate. angajailor: nivelul de expertiz, 5 1920 6 17
exprimat n clasele 1-40 n care 6 1500 2 15
7 3430 12 35
este ncadrat fiecare angajat din
cu

n Excel se folosesc functia LINEST i rutina REGRESSION. 8 2220 12 20


eantionul colectat. Datele 9 4210 22 38
Aceasta din urm folosete ea insi functia LINEST, dar
culese sunt n tabelul alturat. 10 2240 7 22
introducerea datelor nu cere manipulri vectoriale, iar 11 1860 5 16
Cu aceste date el construiete
rezultatele analizei sunt explicitate mult mai accesibil, sub 12 1940 4 19
un model de regresie multipl
Fa

forma tabelului ANOVA (Analysis of Variance).


cu 2 factori (vechimea n
meserie si nivelul de expertiz).
75
Exemplu - comentarii rezultate Exemplu - comentarii rezultate

e
Modelul obinut este satisfctor: coeficientul de determinare crescut R2 a
de la 0.769 n modelul simplu la 0.957 n modelul multiplu. Aceasta
nseamna c Experiena explic doar 77% din valoara venitului, n

i
timp ce Experien si Nivel expertiz explic 96%. F este foarte

ac
mare iar p este mult mai mic decat =1-Nivelul de incredere=1-
0.95=0.05 SUMMARY OUTPUT

Modelul este semnificativ statistic. Multiple R


Regression Statistics
0.978071814
Ofer informaii despre valorile estimate ale
coeficienilor modelului de regresie n
R Square 0.956624473

rm
Adjusted R Square 0.946985467
coloana Coefficients, erorile standard ale
Coeficientul de SUMMARY OUTPUT Variabila statistica F Standard Error 199.8732147
coeficientilor n coloana Standard Error,
elemente pentru aplicarea testului de
determinare R2 Observations 12
Regression Statistics (Trebuie sa fie cat mai semnificaie t-Student pentru fiecare
(Trebuie sa fie cat mai Multiple R 0.978071814 Nivelul coeficient (coloanele t Stat si P-value.). Tot
R Square 0.956624473 mare) observat de
ANOVA
aici avem informaii despre intervalele de
apropiat de 1) Adjusted R Square 0.946985467 Significanc
Standard Error 199.8732147
semnificatie p df SS MS F eF ncredere calculate pentru fiecare parametru
Observations 12 Regression 2 7929547.9 3964773.97 99.245 7.37E-07 din modelul de regresie.
(Trebuie sa fie Residual 9 359543.72 39949.302

Fa
ANOVA
Significan mai mic decat Total 11 8289091.7

ales initial, adica


df SS MS F ce F
Regression 2 7929547.9 3964773.97 99.245 7.37E-07
Standard Lower
Residual 9 359543.72 39949.302
Total 11 8289091.7 0.05) Coefficients Error t Stat P-value Lower 95% Upper 95% 95.0% Upper 95.0%
Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407

Coeficientii b0,b1,b2 Coefficients


Standard
Error t Stat P-value
Lower Lower
95% Upper 95% 95.0% Upper 95.0%
Experienta (ani)
Nivel expertiza (1-40)
15.32418547 17.872374 0.85742304
81.43728112 13.049062 6.24085313
0.4135 -25.1059 55.754305 -25.105934 55.75430463
0.0002 51.91825 110.95631 51.918251 110.9563107
Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407
Experienta (ani) 15.32418547 17.872374 0.85742304 0.4135 -25.1059 55.754305 -25.105934 55.75430463
Nivel expertiza (1-40) 81.43728112 13.049062 6.24085313 0.0002 51.91825 110.95631 51.918251 110.9563107

de
INTERPRETAREA MODELULUI a ALEGERA FORMEI VARIABILELOR
Modelul de regresie simpl INDEPENDENTE
te
V=1321+112*E
n cele mai multe cazuri variabilele independente sunt
sugereaz ca un nceptor la angajare (E=0) ar trebui s
castige 1321 lei/lun, iar n fiecare an veniturile ar trebui s-i mrimi msurabile cantitativ.
creasc cu 112 lei/lun. Puin probabil. Dac toate componentele eantionului pe care l modelm au
lta

acelai ordin de mrime, folosim valorile ca atare.


Modelul de regresie multipl cu 2 factori
Dac avem de-a face cu cazuri semnificativ diferite ca ordine de
V=427+15.3*E+81.44*N marime, folosim valori relative. (Ex: modelul care stabileste o legatur intre
sugereaz c un ncepator la angajare (E=0, N=0) ar trebui s profitul unei companii farmaceutice i factori precum cifra de afaceri, numrul de
cu

farmacii, numarul de personal, datorii, etc, este abordabil doar dac toate mrimile
castige 427 lei/lun, n fiecare an veniturile ar trebui s-i sunt raportate la un indicator de scal, de ex mrimea activelor. n acest mod putem
creasc cu 15.3 lei/lun dac nu ii crete nivelul de include n eantion companii mari i companii mici)
expertiz, iar la fiecare cretere cu o clas (din cele 40) a Unii factori sunt mai degrab calitativi (ex: supervizor sau nu,
nivelului de expertiz, veniturile ar trebui s-i creasc cu barbat/femeie, studii superioare sau nu, etc) sunt inclui n model sub
Fa

81.44 lei/lun forma binar (Ex: X3 =0 daca angajatul nu este supervizor, X3 =1 dac
angajatul este supervizor)

76
Exemplu Exemplu - comentarii rezultate

e
Modelul obinut este MAI BUN: coeficientul de determinare R2 a crescut
Modelul cu 2 variabile de la 0.957 pentru 2 factori la 0.973 la 4 factori . F este foarte mare iar
Venit Nivel
p este mic. Coeficientul de determinare ajustat R2A a crescut de la

i
independente pare destul de Angajat lunar Experienta expertiza Supervizor Barbat
0.947 pentru 2 factori la 0.957 la 4 factori.

ac
precis, totui managerul unittii # (lei) (ani) (1-40) (da/nu) (da/nu)
mai caut s identifice i alte 1 1650 3 12 0 1 Modelul cu 4 factori este semnificativ statistic i superior
variabile care ar putea 2 1280 1 8 0 1
modelului cu 2 factori.
influena veniturile. E convins 3 2420 18 25 0 1
c poziia de supervizor are o 4 3180 15 32 1 1 Coeficientul de Variabila statistica F Nivelul

rm
determinare ajustat Regression Statistics
observat de
(Trebuie sa fie cat mai
influen semnificativ, i 5 1920 6 17 0 0
R2 A
Multiple R 0.986261311

semnificatie p
R Square 0.972711374
Adjusted R Square 0.957117874 mare)
banuiete c barbaii i femeile 6 1500 2 15 0 1
(Trebuiesa creasca la Standard Error 179.7609209
Observations 12 (Trebuie sa fie
primesc tratamente diferite, 7 3430 12 35 1 0 adaugarea unor
ANOVA
mai mic decat
acestea din urm fiind 8 2220 12 20 0 1 factori semnificativi) Significan ales initial, adica
df SS MS F ce F
discriminate. Pentru extinderea 9 4210 22 38 1 1 Regression 4 8062893.7 2015723.44 62.379 1.48E-05 0.05)

Fa
Residual 7 226197.92 32313.9887
analizei, completeaz datele 10 2240 7 22 0 0 Total 11 8289091.7

binare respective. 11 1860 5 16 0 1 Coeficientii b0,b1, Coefficients


Standard
Error t Stat P-value
Lower Lower
95% Upper 95% 95.0% Upper 95.0%
12 1940 4 19 0 0 b2,b3,b4 Intercept 1054.995654 476.83388 2.21250146 0.0626 -72.5373 2182.5286 -72.537303 2182.528611
Experienta (ani) 40.76562985 27.813553 1.46567503 0.1862 -25.003 106.53423 -25.002972 106.5342313
Nivel expertiza (1-40) 37.4977339 31.238109 1.20038424 0.269 -36.3687 111.36412 -36.368657 111.3641244
Supervizor (da/nu) 640.524865 345.89451 1.85179254 0.1065 -177.386 1458.4354 -177.38567 1458.435403
Barbat (da/nu) -100.6697399 181.76215 -0.5538543 0.5969 -530.469 329.12944 -530.46892 329.1294362

de
INTERPRETAREA MODELULUI a Exemplu -UTILIZARI POSIBILE ALE
Modelul de regresie multipl cu 2 factori
MODELULUI
te
V=427+15.3*E+81.44*N Managerul care a construit modelul poate s-i fac o prere
sugereaz c un ncepator la angajare (E=0, N=0) ar trebui sa castige 427 dac sistemul de salarizare este echitabil i motivant:
lei/lun, n fiecare an veniturile ar trebui s-i creasca cu 15.3 lei/lun dac Abaterile individuale (erorile) fa de model ar trebui minimizate, pentru
nu i crete nivelul de expertiz, iar la fiecare cretere cu o clas (din cele
lta

obinerea unei echitti acceptabile.


40) a nivelului de expertiz veniturile ar trebui s-i creasc cu 81.44 Creterea coeficientilor b2 si b3 ar aduce o stimulare pentru cresterea n
lei/luna. expertiz si dobndirea statutului de supervizor. Scderea coeficientului b4, ar
Modelul de regresie multipl cu 4 factori elimina diferenele de tratament ntre sexe.
V=1055+40.8*E+37.5*N+640.5*S-101*B Pentru un nou angajat, introducerea n ecuaia modelului a
cu

sugereaz c un incepator la angajare (E=0, N=0) ar trebui s castige 1055 datelor sale personale conduce la stabilirea unui nivel de
lei/luna, n fiecare an veniturile ar trebui s-i creasc cu 40.8 lei/lun dac
nu ii crete nivelul de expertiz, iar la fiecare cretere cu o clas (din cele venituri n concordan cu cele ale personalului existent.
40) a nivelului de expertiz veniturile ar trebui s-i creasc cu 37.5 Pentru evoluia n timp a veniturilor individuale, orice
lei/lun. Cnd ar deveni supervizor, ar trebui s cstige n plus
modificare pentru un angajat ar trebui sa l aduc mai
Fa

670.5lei/lun. Dac e barbat, castig mai putin cu 101 lei/lun dect dac
ar fi femeie. aproape de valoarea furnizat de model.

77
REGRESIA N PAI EXEMPLE DE TIPURI DE PROBLEME DE

e
REGRESIE MULTIPL
Sunt recomandate dou tipuri de abordri ale modelrii prin

i
regresie multipl: Cteva tipuri de cercetare utiliznd regresia multipl:

ac
Regresie cu pai nainte: se construiete un model de Preul unor produse legat de caracteristicile acestora
regresie simpl, apoi se introduc succesiv factori Efectul timpului i duratei reclamelor asupra vnzarilor
suplimentari de regresie multipl, supraveghind cresterea Consumul specific al unor vehicule n funcie de
semnificaiei statistice i creterea la fiecare pas a

rm
caracteristicile lor
coeficientului de determinare ajustat R2A. Cnd acesta
ncepe s scad cu creterea numrului de factori, ultimul Rezultatele colare ale unor studeni funcie de diverse
factor introdus este eliminat i modelul ramne n aceast caracteristici ale muncii depuse
form. Costurile de mentenan ale sftware-ului farmaceutic n

Fa
Regresie cu pai napoi: se construiete cel mai complex funcie de versiunea instalat i configuraia sa
model posibil i se elimin succesiv factorii care prin
Preurile locuinelor n funcie de mai muli factori
dispariie fac s creasc R2A.
Cheltuielile pentru o vacan n funcie de mai muli factori

de ANALIZA DISPERSIONAL (ANOVA)


a
te
ANOVA unifactorial permite compararea mediilor a trei sau mai
ELEMENTE DE ANALIZ multor eantioane (grupe) sau populaii n vederea verificrii dac
DISPERSIONAL (ANOVA)
lta

exist sau nu diferene semnificative ntre ele ca urmare a aciunii


unui factor cauz (de exemplu tratament).
(ANOVA) Aplicarea analizei dispersionale impune:
condiia de independen (eantioanele de efective n1, ..., nk sunt
cu

selectate aleator i independent din populaiile respective)


condiia de normalitate (populaiile din care se extrag
eantioanele sunt distribuite normal)
condiia de homoscedasticitate (varianele celor k populaii sunt
Fa

egale ntre ele)

78
Analiza dispersional unifactorial
Analiza dispersional unifactorial

e
Procedeul presupune descompunerea varianei totale (VT) n dou componente:
Ipoteza nul susine egalitatea ntre mediile grupelor din colectivitatea variana intergrupe (VE) i variana intragrupe (VR).

i
general, alctuite dup variabila X:

ac
Ipoteza alternativ susine c cel puin dou medii ale grupelor nu sunt
egale:

rm
Se testeaz, deci, dac diferentele intre mediile de grup nu sunt prea
mari pentru a fi puse doar pe seama ntmplrii (a factorilor aleatori),
iar dac exist cel puin dou medii semnificativ diferite, nseamn c

Fa
factorul de grupare X are o influen semnificativ asupra variabilei Y.
Mediile grupelor din colectivitatea general sunt aproximate prin
mediile grupelor din eantion ( , ),

de
Analiza dispersional unifactorial
a Analiza dispersional unifactorial
te
Variana dintre grupe (variana factorial, sistematic) arat influena Pentru a asigura comparabilitatea varianelor, ele sunt raportate la numrul
factorului cauzal asupra variaiei lui Y: gradelor de libertate, obinndu-se dispersii corectate:
lta

Dispersia corectat factorial (intergrupe)

Variana din interiorul grupelor (variana rezidual) exprim influena


factorilor aleatori asupra lui Y:
cu

Dispersia corectat rezidual (intragrupe)

Variana total reflect influena tuturor factorilor (sistematici X i


reziduali) asupra lui Y:
Fa

79
Analiza dispersional unifactorial

e
Analiza dispersional unifactorial

i
ac
Testul F (Fisher) este raportul ntre dispersia corectat factorial Valoarea calculat a testului F se compar cu valoarea critic,
i cea rezidual corespunztoare nivelului de semnificaie i gradelor de
libertate (r-1) i (n-r): F ; r-1; n-r.
Regula de decizie este:
Dac Fcalc F ; r-1; n-r , atunci se accept H0, deci mediile de grup

rm
nu difer semnificativ unele de altele, iar eventualele diferene ce
Presupuneri pentru aplicarea testului F: pot apare pot fi puse pe seama ntmplrii. n acest caz, variabila Y
este independent de factorul de grupare X i analiza dispersional
cele r grupe din eantion sunt extrase aleator din cele r este punctul final al analizei.
grupe ale colectivitii totale; Dac Fcalc> F ; r-1; n-r , atunci se accept H1, deci ntre mediile de

Fa
Fiecare grup din colectivitatea general are o distribuie grup exist o diferen semnificativ, care nu poate fi pus pe
seama aciunii factorilor aleatori. n acest caz, variabila Y depinde
normal, iar abaterile medii ptratice ale acestora sunt egale: semnificativ de factorul de grupare X i trebuie aplicate n
continuare metodele de analiz a legturilor dintre variabile.

de
Aplicaie a
te
lta

Nivel minim de
Variana Variana Grade de Dispersie corec- semnificaie ->prob.
intergrupe intragrupe libertate tat sistematic maxim cu care
garantm c H1 adev.
ANOVA
cu

Source of Variation SS df MS F P-value F crit


Between Groups Ve 6.3705 1=r-1 2 3.185256 0.315492 0.732083 3.354131
Within Groups Vr 272.6 2=n-r 27 10.09615

Total Vt 278.97 =n-1 29


Fa

Variana total Val. calc. Val. critic


Dispersie corec- a test F
tat rezidual a test F

80
Concluzii

i e
ac
Modelele de analiz dispersional nu explic relaia dintre variabile
Verific doar msura n care valorile reale ale unei caracteristici se
abat de la valorile teoretice, precum i msura n care aceste variaii
sunt sau nu dependente de factorul/factorii de grupare.

rm
Metoda analizei dispersionale poate fi utilizat att naintea, ct i
dup aplicarea metodelor corelaiei i regresiei statistice.
Testul F se poate utiliza i pentru testarea validitii modelului de
regresie.
n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri

Fa
ale unei variabile categoriale (numite i tratamente), dar, cum ceea ce
este valabil pentru o scal inferioar (nominal) este valabil i pentru
orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza
se poate extinde.

de
a
te
lta
cu
Fa

81

S-ar putea să vă placă și