Documente Academic
Documente Profesional
Documente Cultură
i e
Statistica este tiina care culege, sintetizeaz,
ac
BIOSTATISTICA descrie, interpreteaz datele referitoare la fenomene
generale (DEX 98)
1. Introducere n statistic
rm
2. Statistica descriptiv
Obiectul statisticii moderne l constituie colectarea,
organizarea, analiza i interpretarea datelor n
vederea adoptrii deciziilor.
Fa
Curs 3
de
Ce este statistica?
a Ce este statistica?
te
Clasificare: Statistica matematic este o ramur a matematicii
Statistica matematic care elaboreaz noiunile i metodele folosite n
lta
1
Biostatistica statistic aplicat n medicin
Ce este statistica?
e
Obiectivele biostatisticii:
1. Starea sntii populaiei:
i
- Reproducerea i mortalitatea populaiei;
Statistica industrial (n englez Engineering
ac
- Morbiditatea i invaliditatea;
Statistics sau Industrial Statistics) studiaz - Parametrii dezvoltrii fizice.
fenomenele i procesele din inginerie i industrie, cu 2. Legtura dintre influena mediului ambiant i factorilor sociali asupra
aplicaii n proiectarea experimentelor, controlul sntii populaiei.
statistic al calitii, fiabilitate etc.)
rm
3. Acumularea i analiza datelor referitor la activitatea instituiilor i
Statistica social studiaz fenomenele sociale, cu cadrelor medicale.
aplicaii n demografie, recensminte, analize politice
4. Evaluarea eficacitii metodelor de profilaxie i tratament.
etc.
5. Planificarea, economia i finanarea ocrotirii sntii.
Statistica medical (biostatistica): aplicaii n
Fa
medicin, farmacie i tiine biologice Pornind de la obiective, deosebim urmtoarele compartimente ale
biostatisticii:
- Statistica sntii populaiei;
- Statistica ocrotirii sntii;
- Statistica managementului de profilaxie, tratament i altor activiti n medicin.
Scopul statisticii
de Biostatistica scopuri
a Descriptiv (statistica descriptiv): evidenierea caracteristicilor
te
Scopul statisticii poate fi dedus din clasificarea acesteia:
importante ale unui set de date medicale.
- statistica descriptiv Metode:
- statistica analitic. Organizarea
lta
Sumarizarea
Caracterizarea unui set de date
Statistica descriptiv se ocup de prezentarea, clasificarea i
Instrumente:
sintetizarea datelor din observaii. Aceasta prezint informaia existent
n datele respective cu ajutorul indicatorilor statistici - numere ce Grafice:
cu
exprim caracteristici sau tendine ale fenomenului studiat. Distribuia de frecvene (histograma)
Distribuia de frecvene (histograma diferenelor pentru date
perechi)
Statistica analitic (inferenial) folosete teoria probabilitilor Compararea grafic a distribuiilor datelor
Fa
pentru extragerea i prelucrarea informaiei statistice; n multe cazuri Identificarea relaiilor liniare
aceste metode pun n eviden legiti statistice. Compararea relaiilor liniare
2
Metode de colectare a datelor
Biostatistica scopuri
e
Principalele metode de colectare sau de culegere a
i
datelor sunt:
ac
Inferenial (statistica inferenial):
Cum (i cnd) generalizm rezultatele obinute
de la un eantion la populaia general
Populaia
rm
SURSE DE
DATE
STATISTICE
EXPERIMEN-
OBSERVARE SONDAJ SIMULARE
Fa
TARE
Eantionul
Inferentastatistica
de
Metode de colectare a datelor
a Metode de colectare a datelor
te
Observarea direct este cea mai simpl metod de obinere Tehnicile de sondaj utilizeaz:
a datelor statistice i const din observarea i nregistrarea interviuri (directe, telefonice)
lta
direct (nemijlocit) a datelor dintr-un anumit eantion sau chestionare (directe, prin pot, e-mail, internet)
populaie statistic
Experimentele reprezint o metod de a obine date Pentru analiza datelor statistice i pentru decizie se
cu
statistice prin proiectarea i planificarea modalitii de utilizeaz i date obinute prin metode de simulare
obinere a datelor statistice respective
Indiferent de metoda de colectare a datelor, pentru
Sondajele statistice reprezint o metod de culegere a
inferena statistic este important eantionarea datelor
Fa
3
Populaie statistic i eantion Populaie statistic i eantion
statistic statistic
e
Definiie: O populaie statistic este o mulime sau o
i
Definiie: Msurile numerice ce caracterizeaz o
ac
colecie de obiecte despre care observm i
nregistrm date, n scopul unei analize statistice. populaie statistic se numesc parametri statistici.
rm
mulime de persoane umane:
persoanele din Judeul Constana care sufer de hipertensiunea Parametrii unei populaii se noteaz cu litere
arterial esenial (HTA) greceti
persoanele din judeul Constana de sex feminin care sufer de
HTA De exemplu, media unei populaii se
Fa
persoanele din Romnia care sufer de o afeciune i care au fost
operate, etc.
noteaz cu , iar abaterea standard cu .
Definiie: Msurile numerice ce caracterizeaz un
eantion statistic se numesc statistici sau indicatori EANTION
cu
statistici.
De exemplu, media unui eantion se
INFEREN
Fa
i e
Metodele de eantionare sunt de dou tipuri:
ac
EANTIONARE
rm
Eantionarea aleatoare se bazeaz pe tehnica RAIONAMENT SIMPL
Fa
Eantionarea nealeatoare se bazeaz, n general pe STRATIFICAT
de
Un eantion aleator simplu de efectiv n este una Un eantion aleator sistematic de efectiv k se obine
eantion selectat ntmpltor dintr-o populaie astfel nct prin divizarea populaiei cu efectivul N n k
orice eantion diferit s aib aceeai probabilitate de eantioane cu efectivul n i apoi extragerea
te
prelevare sau de extragere. elementului de acelai rang (ales ntmpltor) din
fiecare eantion format
lta
cu
Fa
5
Un eantion aleator stratificat de efectiv n se obine Un eantion aleator pe grupuri (pe clustere) de
prin separarea populaiei cu efectivul N n n efectiv n se obine prin separarea populaiei cu
e
subpopulaii sau straturi i apoi extragerea de efectivul N n n grupuri sau clustere i apoi
eantioane aleatoare simple din fiecare strat. extragerea aleatoare a unui anumit grup.
i
ac
rm
Fa
e
hotelurilor
Satisfacia clientului Nominal Foarte redus, Redus,
B. CANTITATIVE (numerice), exprimate n cifre:
i
Satisfctoare, Bun,
(calitatea produsului)
ac
nlime, greutate, tensiune arterial, puls, Foarte bun
Clasificarea funciilor Nominal Preparator, Asistent,
temperatur, etc. didactice Lector, Confereniar,
1. continue (msurabile)- pot lua orice valoare din scara lor Profesor
rm
Variabila cantitativ Tip Valori / UM
temperatura, etc.;
2. discrete (numrabile)- pot lua numai valori ntregi: Faa aprut la Discret 1, 2, 3, 4, 5, 6
numrul de copii, numr de vizite, flux de pacieni / zi aruncare unui zar
ntr-o farmacie, etc; Nota obinut la un Discret 4, 5, ..., 9, 10
Fa
examen
Modul de obinere: nlimea Continu cm
- primare, obinute n etapa de colectare a datelor;
- derivate, obinute n procesul prelucrrii datelor statistice Greutatea Continu kg
de
Distribuiadatelorncolectivitateaselectiv
Poatefi:
Alternativ
a
Asimetric (pestnga)
Sistematizarea datelor statistice
te
Gruparea statistic reprezint o operaie de sistematizare a datelor
primare, prin care pentru caracteristicile nregistrate, evideniaz
Simetric tipurile calitative existente n cadrul populaiei cercetate.
Prin grupare se omogenizeaz unitile colectivitii din punct de vedere
lta
7
Prezentarea datelor statistice
e
Gruparea statistic
3. dup numrul de caracteristici n funcie de care se face gruparea: Tabele statistice
i
- grupri simple fcute dup o singur caracteristic;
ac
Un tabel statistic trebuie s cuprind urmtoarele elemente:
- grupri combinate fcute dup dou sau mai multe
caracteristici.
titlul general al tabelului i titlurile interioare, unitatea de
4. dup coninutul caracteristicilor:
msur utilizat, notele explicative, sursa datelor.
- grupri dup caracteristici de spaiu; Tabelele pot fi:
rm
- grupri dup caracteristici de timp; - simple (ce nu cuprind grupri)
- grupri dup caracteristice atributive. - de grupare (o singur caracteristic de grupare)
5. dup mrimea intervalelor de grupare: - combinate (grupri dup dou caracteristici)
- grupri cu intervale egale;
Fa
- de corelaie (grupri dup dou sau mai multe caracteristici,
- grupri cu intervale neegale (inegale).
legate ntre ele cauzal)
de
Prezentarea datelor statistice
e
Serii unidimensionale cu variabila exprimat numeric (cantitativ) programul Excel
Variabile discrete
i
Aplicaie: Considerm o colectivitate statistic (P) formata din 19 pacienti (nou
ac
Tabelul de frecvene variabile discrete nascui) pentru care definim si urmrim experimental variabila scor apgar:
VSA = Variabila scor Apgar = {1,2,...,10}
Varianta Frecvena Frecvena Frecvena Frecvena
absolut relativ absolut cumulat relativ cumulat Funcia COUNTIF(Range, Criteria)
( ( ( (
rm
x1 n1 N1= n1 F1= f1
x2 n2 N2= N1 + n2 F2=F 1 + f2
Fa
... ... ... ...
xk nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1
Total n 1 - -
de
Prezentarea datelor statistice Prezentarea datelor statistice
6 6 6 4
0
0 0 0 0 0 (x0-x1] n1 N1= n1 F1= f1
2
1 2 3 4 5 6 7 8 9 10
1 1 1 Scor
(x1-x2] n2 N2= N1 + n2 F2=F 1 + f2
cu
0 0 0 0 0 0
1 2 3 4 5 6 7 8 9 10
... ... ... ...
0.00%
10 5
9 6 Grafic Pie 26.32%
5.26%
(xi-1-xi] ni Ni= Ni-1 + ni Fi=Fi-1 + fi
8 6 5.26%
7 1
6 1 31.58%
31.58%
Grafic 5
4
0
0
Bar 3 0
(xk-1-xk] nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1
2 0
1 0
0 2 4 6 8 1 2 3 4 5 6 7 8 9 10 Total n 1 - -
Scor
9
Prezentarea datelor statistice
Realizarea tabelelor de frecven utiliznd
Distribuii statistice unidimensionale programul Excel
e
Serii unidimensionale cu variabila exprimat numeric (cantitativ)
Variabile continue Aplicaie: Considerm o colectivitate statistic (P) formata din 19 pacienti (nou
i
nascui) pentru care definim si urmrim experimental variabila greutate:
ac
VG = Variabila greutate (Kg)
rm
Fa
de
Prezentarea datelor statistice Prezentarea datelor statistice
4 3
3
60.00%
2
2 2
1
necesar calculul frecvenele reduse ( .
40.00% Frequency 1
nlimea dreptunghiului corespunztor intervalului este proporional cu
cu
2
20.00% Cumulative% 0
1
(3,3-
3,7]
(3,7-
4,1]
(4,1-
4,5]
(4,5-
4,9]
(4,9-
5,3]
(5,3-
5,7]
frecvena redus ( calculat cu formula:
0 0.00%
Bin
Histograma i Poligonul 5% 10%
(3,3-3,7]
11% (3,7-4,1]
Frecvenelor
Fa
e
Serii unidimensionale cu variabila exprimat numeric (cantitativ) Serii unidimensionale cu variabila exprimat calitativ (nenumeric)
i
caracteristic nominativ
ac
(calitativ sau nenumeric)
seamn cu gruparea
unitilor colectivitii
cercetate dup valorile
(variantele) distincte ale unei
rm
caracteristici numerice
(variabile discrete).
7 De ast dat, se ncepe cu
6
6
listarea strilor calitative
5
5
distincte ale caracteristicii de
4
grupare care pot fi identificate
Fa
hi
n colectivitatea cercetat. Cele mai uzuale metode de descriere i
3
2 Aceste stri calitative reprezentare grafic a mulimilor de date calitative
2
distincte se mai numesc i sunt:
1
atribute (variante calitative). graficul (diagrama) cu bare (coloan, bar)
0
(10-30] (30-40] (40-60] graficul circular (pie)
Cifra de afaceri
de
a
te
lta
cu
Fa
11
Curs 3
e
unidimensionale (Tabele de frecven, Reprezentare
i
grafic)
ac
Biostatistic Date cantitative
o Continue
o Discrete
Serii cronologice
rm
Date calitative (nenumerice)
Serii de spaiu
Curs 4
Distribuii bidimensionale
Serii de timp (cronologice)
Fa
Serii de spaiu
Sistematizarea i reprezentarea distribuiilor statistice
Curs 4
unidimensionale
de
a Reprezentarea grafic seriilor de
Serii de timp (Serii cronologice) timp (seriilor cronologice)
te
Variabila Numrul unitilor Reprezentarea grafic a seriilor de timp (cronologice) se
timp ti yi
Seria cronologic prezint variaia unei caracteristici realizeaz cu ajutorul cronogramei si a diagramelor polare.
t1 y1
n funcie de timp (yt = f(t)), unde: Cronograma se foloseste pentru a desprinde tendina de
lta
nregistreaz pe luni, trimestre, ani etc. Valoarea La stabilirea scrii timpului si nivelurilor trebuie s se
Macheta tabelului cronologic centralizat se poate obine prin cumularea unitilor
respecte proporionalitatea, pentru c raportul dintre scri
nregistrate.
o Serii cronologice de stocuri sau de momente sunt are o importan mare asupra formei curbei si poate da o
imagine denaturat asupra dezvoltrii fenomenului.
Fa
12
Cronogramele prin benzi, coloane i liniare Reprezentarea grafic seriilor de
timp (seriilor cronologice)
e
Diagrama polar (radial) ajut la interpretarea gradului
i
i formei de variaie sezonier. n statistica social-
ac
economic se ntlnesc frecvent fenomene care prezint
variaii sezoniere sptmnale, trimestriale etc., ca de
exemplu, consumul antibiotice, consumul de bere i buturi
rcoritoare .a. Fenomenele cu caracter sezonier sunt
rm
specifice ndeosebi activitilor din turism, comer i
agricultur.
La construirea graficului se folosete o reea de cercuri
concentrice, iar raza este proporional cu nivelul mediu al
indicatorilor; cercul se mparte n attea pri ci indicatori
sunt. Drept abscis servete circumferina cercului pe care
Fa
se noteaz timpul, iar ca ordonat raza sau poziia razei, pe
care se noteaz cantitile.
de
ProduciatrimestrialafabriciiX.
Trimestrul I II III IV Media
13
Reprezentri grafice pentru seriile Reprezentri grafice pentru seriile
de spaiu de spaiu
e
Seriile de spaiu (teritoriale) se pot reprezenta grafic prin Cartodiagramele reprezint un tip special de cartogram, care
i
cartograme i cartodiagrame. const dintr-o combinaie a cartogramei cu diagramele (cerc,
ac
ptrat, coloane etc.) care se aplic pe cartogram. Pe hart se vor
Cartograma prezint distribuia n spaiu a intensitii de
construi figurile geometrice amintite mai sus, pentru a reda
manifestare a unui fenomen. Construirea graficului volumul sau structura diferiilor indicatori distribuii din punct de
presupune: vedere teritorial. La ntocmirea graficului se va ine seama de
rm
gruparea unitilor teritoriale dup o variabil considerat; obiectivul urmrit.
construirea unei hri n care se delimiteaz unitile teritoriale;
haurarea suprafeelor unitilor teritoriale n funcie de
La reprezentarea grafic a distribuiilor
intensitatea de manifestare a fenomenului studiat. teritoriale ale diferiilor indicatori se mai
pot folosi si figuri naturale sau simbolice,
Fa
care sunt proporionale cu valoarea
indicatorilor de reprezentat.
de
Distribuiilor statistice bidimensionale
a Distribuiilor statistice bidimensionale
te
O distribuie bidimensional prezint variaia unitilor
unei colectiviti simultan dup dou caracteristici de n funcie de modul de exprimare a variabilelor x, y se
grupare. pot trata urmtoarele tipuri de distribuii bidimensionale:
lta
14
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
A. distribuii cu ambele variabile exprimate numeric A. Distribuii cu ambele variabile exprimate numeric
e
Prezentarea tabelar a unei distribuii bidimensionale (grupare pe variante)
i
Tabel de contingen
ac
Y y1 y2 ... yj ... yp ni
X
rm
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni
... ... ... ... ... ... ...
xm nm1 nm2 ... nmj ... nmp nm
Fa
nj n1 n2 ... nj ... np n=
de
Exemplu: Considerm un eantion format din 30 de reprezentani medicali ai Distribuiilor statistice bidimensionale
unei firme de medicamente, pe care l analizm din punct de vedere al
A. Distribuii cu ambele variabile exprimate numeric
fiecare n parte (variabila Y) timp de o luna.
a
numrului produselor vndute (variabila X), respectiv al salariului obinut de
Reprezentare grafic
te
Corelograma (Diagrama nor de puncte)
Reprezentarea grafic se realizeaz cu corelograma cunoscut sub
denumirea diagrama nor de puncte. Se construieste n cadranul I al
sistemului de axe rectangulare. Pe axa OX (axa absciselor) se ia o
lta
nor de puncte.
2.Distribuia eantionului de reprezentani medicali n funcie de 1200
produsele vndute i salariul lunar diagrama 1000
paralelipipedelor.
800
3.Distribuia eantionului de reprezentani medicali n funcie de
600
produsele vndute i salariul lunar suprafa poliedral.
Fa
400
200
0
0 20 40 60 80
15
Fiecare unitate purttoare a celor dou caracteristici
e
(xi, yj), se reprezint pe grafic printr-un punct. Acest Legtura direct ntre cele dou variabile poate fi i
tip de grafic stabileste existena, direcia legturii i neliniar, n acest caz, pe grafic, aprnd o linie curb.
i
forma de legtur dintre cele dou variabile.
ac
Pentru interpretarea legturii putem folosi urmtoarele
variante de grafice care se refer la funciile liniare:
rm
Hiperbol Parabol Funcie exponenial
Fa
ctre care tinde s se realizeze, deci se poate elabora o ipotez
statistic care s fie utilizat la aplicarea metodelor analitice de
Legtur liniar direct Legtur liniar invers Lips de legtur corelaie.
de
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
A. Distribuii cu ambele variabile exprimate numeric A. Distribuii cu ambele variabile exprimate numeric
Reprezentare grafic
a Reprezentare grafic
te
Diagrama paralelipipedelor Suprafaa poliedral
Reprezint o transpunere a
Reprezint o transpunere a histogramei ntr-un spaiu cu trei 7
poligonului sau curbei frecvenelor 7
dimensiuni; aceast diagram se traseaz ridicnd pe ntr-un spaiu cu trei dimensiuni;
lta
nij
4
proporional cu frecvena nij corespunztoare fiecrei ridic din centrul fiecrei suprafee 3 2 2 2
0
lungime proporional cu frecvena 1 0
0 0 01 0 (1000-
(800-1000]
cu
0
7
nij, apoi se unesc capetele acestor 0
00
0
0 0
(600-800]
(400-600]
(200-400]
Y
(20-30](30-40]
6
verticale (pentru fiecare grup i (40-50](50-60]
(60-70]
5
subgrup) fie printr-o linie frnt X
4
(varianta poligonului frecvenelor),
nij
3
fie printr-o curb (varianta curbei
Fa
1 (1000-1200]
frecvenelor)
(800-1000]
(600-800]
0 (400-600] Y
(20-30](30-40] (200-400]
(40-50](50-60]
X (60-70]
16
Distribuiilor statistice bidimensionale Distribuiilor statistice bidimensionale
B. Serii cu ambele caracteristici exprimate atributiv B. Serii cu ambele caracteristici exprimate atributiv
e
Reprezentare grafic Reprezentare grafic
Pentru acest tip de distribuie datele sunt prezentate ntr-un tabel de .
i
contingen i sunt reprezentate grafic prin diagrame de structur construite
ac
n acelai plan.
Pentru un tabel de contingen, xi reprezint categorii ale variabilei X de
grupare, yi reprezint categorii ale variabilei Y de grupare, iar nij reprezint Situaia vaccinrii pe sexe din mediul rural i urban
efectivul care posed simultan categoria i i j ale celor dou variabile.
rm
O situaie aparte o ntlnim n cazul variabilelor alternative, cnd 3500 100%
90%
datele se pot prezenta ntr-un tabel de asociere de forma 3000
80%
2500 70%
60% 76%
91%
2000 2500 50% Feminin
Feminin
Fa
1500 40%
1950 30% Masculin
1000 Masculin 20%
500 10%
9% 24%
200 800 0%
0
Rural
Rural Urban
Urban
de
Distribuiilor statistice bidimensionale
C. Serii cu o caracteristic exprimat atributiv i una numeric
Reprezentare grafic
a
te
Reprezentarea grafic a distribuiilor bidimensionale cu o
variabil exprimat cantitativ i una atributiv se face prin
diagrame de tip piramida vrstelor. Construirea acestui tip de
lta
e
Cunoaterea metodelor numerice de
i
METODE NUMERICE PENTRU
ac
descriere a datelor statistice
DESCRIEREA DATELOR STATISTICE
Analiza principalelor metode numerice
rm
INDICATORI AI TENDINEI pentru descrierea datelor cantitative
negrupate
CENTRALE, VARIAIEI I
FORMEI
Analiza principalelor metode numerice
Fa
pentru descrierea datelor cantitative grupate
Curs 5
de
Metode numerice pentru descrierea
Cuprins a datelor statistice
Indicatori ai tendinei centrale
te
Media Indicatorii numerici descriptivi sunt valori numerice
Modul calculate dintr-o mulime de date, care ne permit s
ne facem o imagine mental asupra distribuiei
lta
Mediana
datelor.
Indicatori ai variaiei
Amplitudinea
Anterior, metodele grafice pentru descrierea datelor
cu
Variana
Abaterea standard ne-au furnizat o reprezentare vizual asupra
Coeficientul de variaie
distribuiei datelor.
Indicatori ai formei
Fa
Coeficientul de asimetrie
Coeficientul de boltire
18
INDICATORI STATISTICI PRIMARI I 1. Indicatorii tendinei centrale
DERIVAI
e
O clasificare a indicatorilor tendinei centrale se poate face n funcie de
modul de determinare a lor, n:
DEFINIIE: Indicatorul statistic n sens larg reprezent expresia indicatori (mrimi) medii de calcul: media aritmetic, armonic,
i
numeric a unor fenomene i procese social-economice, definite n timp, ptratic, geometric etc.;
ac
spaiu i structur organizatoric. indicatori medii de poziie: modul, mediana.
Indicatorii statistici pot fi primari i derivai. Cele mai frecvent utilizate msuri ale tendinei centrale sunt:
media aritmetic
Indicatorii primari se obin de regul n etapa de mediana
rm
sistematizare a datelor statistice, prin centralizarea i modul.
agregarea acestora.
n definiiile i relaiile ce urmeaz, vom nota cele n valori ale
Indicatorii derivai se obin prin prelucrarea mrimilor eantionului de date negrupate cu:
absolute ale indicatorilor primari.
Fa
Cele trei proprieti majore ale seriilor de date numerice, pe care le Valorile ordonate ale eantionului le vom nota cu:
putem analiza folosind indicatorii statistici sunt cele privitoare la
sau
tendina central, la variabilitatea i la forma distribuiilor.
de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic
A. Variabile numerice negrupate
a B. Variabile numerice grupate pe variante (discrete)
te
Media aritmetic a unui eantion n care datele au
Definiie: Media aritmetic a unui eantion cu un efectiv de n valori
fost sistematizate ntr-o serie de distribuie unde
este prin definiie:
lta
Media aritmetic a unei populaii statistice =AVERAGE(range) Se numete i medie aritmetic ponderat.
se noteaz prin simbolul . Exemplu: =AVERAGE(A2:A20)
19
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic
e
B. Variabile numerice grupate pe variante C. Variabile numerice grupate pe intervale (continue)
i
Aplicaie: Considerm o colectivitate statistic format din 40 de Media aritmetic a unui eantion n care datele sunt
ac
hematii pentru care definim variabila statistic diametru Vd (microni).
Datele au fost sistematizate n tabelul de frecven: prezentate pe intervale de tipul Ji=(xi-1,xi), la care
asociem frecvena de apariie corespunztoare ni, cu
i=1,m atunci media este:
rm
unde este mijlocul intervalului Ji .
Fa
Se numete i medie aritmetic ponderat.
de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.1 Media aritmetic
C. Variabile numerice grupate pe intervale
a D. Variabile nenumerice alternative
te
Aplicaie: Considerm o colectivitate statistic format din 19
nou nscui pentru care definim variabila statistic Greutate (Kg).
lta
cu
Fa
20
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.1 Media aritmetic 1.2 Modul
e
A. Variabile numerice negrupate
i
Media aritmetic este cea mai uzual msur a Definiie: Modul (sau dominanta) unui eantion ordonat
ac
tendinei centrale, utilizat pentru localizarea cresctor cu un efectiv de n valori
centrului unei distribuii statistice. este prin definiie valoarea
sau valorile cu cea mai mare frecven de apariie.
rm
Media aritmetic este influenat de prezena
valorilor extreme (denumite i valori aberante = =MODE(Range)
Fa
de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.2 Modul 1.2 Modul
a
B. Variabile numerice grupate pe variante (discrete) C. Variabile numerice grupate pe intervale (continue)
te
Dac variabila este continu, iar datele sunt grupate pe
Dac variabila este discret, pentru determinarea intervale de variaie, pentru determinarea modului se gsete
modului se gsete mai nti frecvena maxim a seriei mai nti frecvena maxim nmax, iar apoi se citete intervalul
modal (xi-1, xi).
lta
(ni = nmax) i apoi se citete valoarea xi corespunztoare Modul se poate obine (prin interpolare n intervalul modal) cu
care este egal practic cu modul (Mo = xi). relaia:
Modul
cu
unde:
d = xi - xi-1 reprezint mrimea intervalului modal;
d1 = ni - ni-1 reprezint diferena dintre frecvena intervalului modal (ni) i frecvena
intervalului anterior celui modal (ni-1);
d2 = ni ni+1 reprezint diferena dintre frecvena intervalului modal (ni) i frecvena
Fa
21
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.2 Modul 1.2 Modul
e
C. Variabile numerice grupate pe intervale (continue) Pentru intervale inegale, modul se determin asemntor, fie prin
interpolare n intervalul modal, fie pe cale grafic, dup ce n prealabil
i
Modul se poate aproxima grafic cu ajutorul histogramei frecvenei
s-au fcut coreciile necesare conform metodei descrise la construcia
ac
relative, cobornd o perpendicular pe abscis, din punctul n
histogramei pe intervale inegale.
care se intersecteaz dreptele trasate.
O distribuie cu un singur mod se numete unimodal;
O distribuie este bimodal dac are dou valori dominante (moduri) i
multimodal dac are mai mult de dou moduri.
rm
Fa
Distribuie de frecvene: a) unimodal; b) bimodal; c) multimodal
de
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.3 Mediana 1.3 Mediana
A. Variabile numerice negrupate
a A. Variabile numerice negrupate
te
Definiie: Mediana unui eantion ordonat cresctor cu Exemplu: Se consider eantionul ordonat cu n = 11 valori:
un efectiv de n valori
lta
8,6 8,7 9,2 9,7 9,9 10,1 10,3 10,6 10,7 10,8 11,0
este prin definiie acea valoarea care mparte
datele n dou grupe egale :
cu
3,9 4,4 4,5 4,8 4,9 5,1 5,5 5,6 5,6 5,9
=MEDIAN(Range)
Exemplu: =MEDIAN(A2:A20)
22
1. Indicatorii tendinei centrale 1. Indicatorii tendinei centrale
1.3 Mediana 1.3 Mediana
e
B. Variabile numerice grupate pe variante (discrete) C. Variabile numerice grupate pe intervale (continue)
i
aflarea frecvenelor cumulate absolute (Ni)
ac
aflarea frecvenelor cumulate absolute (Ni) calcularea unitii mediane (m)
calcularea unitii mediane (m), m= localizarea lui m n irul frecvenelor cumulate (cu condiia ca Ni m)
determinarea intervalului median (IM) (n aceeai condiie)
localizarea acesteia n irul frecvenelor cumulate
calcularea medianei utiliznd relaia:
(cu condiia ca Ni m)
rm
unde:
Valoarea xi ce d reprezint mrimea IM;
corespunde lui Ni
xi-1 - reprezint limita inferioar a IM;
Fa
reprezint mediana
m - unitatea median;
Ni-1 frecvena cumulat anterior IM;
ni frecvena IM.
de
1. Indicatorii tendinei centrale
2. Indicatorii variaiei
1.4 Relaii ntre valorile tendinei centrale
a n analiza unei serii statistice de date cantitative ne intereseaz,
pe lng indicatorii tendinei centrale i indicatorii mprtierii
te
Pentru o distribuie unimodal simetric, valorile centrale, valorilor.
medie, mod, median, ocup acelai loc, iar ntre acestea Astfel, dou serii statistice pot diferi prin tendina central prin
mprtierea datelor sau prin amndou.
exist o relaie de egalitate.
lta
e
A. Variabile numerice negrupate
Definiie: Amplitudinea unui eantion cu un efectiv de n valori
i
este prin definiie diferena dintre cea mai mare i cea mai mic valoare a
Definiie: Dispersia unui eantion cu un efectiv de n
ac
eantionului, adic:
valori este prin definiie:
unde:
rm
Avantajul amplitudinii este reprezentat de simplitatea calculului
acesteia. unde este media aritmetic a eantionului .
Simplitatea este ns i un dezavantaj, deoarece amplitudinea se
Fa
determin numai din dou valori ale eantionului (maxim i
minim), fr a ine seama de celelalte valori. =VAR (Range)
Amplitudinea este o msur relativ insensibil la variaia datelor Dispersia sau variana unei populaii statistice se
unui eantion, ea fiind utilizat n practic pentru eantioane cu noteaz cu 2
efective reduse.
de
2. Indicatorii variaiei 2. Indicatorii variaiei
2.2 Variana sau dispersia 2.3 Abaterea standard
a
B. Variabile numerice grupate pe variante (discrete) A. Variabile numerice negrupate
te
Dispersia unui eantion cu un efectiv de n valori n care
valorile (xi ,i = 1, m) apar cu frecvenele ni este: Definiie: Abaterea standard a unui eantion cu un
efectiv de n valori este prin
lta
definiie:
Dispersia unui eantion cu un efectiv de n valori n care unde este media aritmetic a eantionului .
datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:
=STDEV(Range)
Fa
e
B. Variabile numerice grupate pe variante (discrete) Regula lui Cebev: Pentru k 1, cel puin valori ale unui
eantion cu un efectiv de n valori
i
Abaterea standard a unui eantion cu un efectiv de n valori aparin
ac
n care valorile (xi ,i = 1, m) apar cu frecvenele ni este: intervalului
unde: este media aritmetic, iar s este abaterea standard a
eantionului.
Regula lui Cebev furnizeaz o legtur de natur algebric ntre media
rm
aritmetic i abaterea standard ale unui eantion de date
C. Variabile numerice grupate pe intervale (continue) Regula empiric: Dac mulimea de date are distribuia
frecvenei relative sub form de "clopot", atunci
Abaterea standard a unui eantion cu un efectiv de n valori urmtoarele reguli empirice pot fi utilizate pentru a
descrie mulimea de date:
n care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:
Fa
[1] Aproximativ 68% din valori vor aparine intervalului
[2] Aproximativ 95% din valori vor aparine intervalului
[3] Aproape toate valorile (99,7% din valori) vor aparine
unde este mijlocul intervalului Ji intervalului .
de
2. Indicatorii variaiei 2. Indicatorii variaiei
2.4 Coeficientul de variaie 2.4 Coeficientul de variaie
a
te
Coeficientul de variaie al unui eantion cu un efectiv
de n valori este prin definiie raportul dintre abaterea standard i
media eantionului, respectiv:
lta
cu
25
2. Indicatorii variaiei
Eliminarea valorilor aberante. Testul lui
Variabile nenumerice alternative
Grubbs
e
Variana - este egal cu produsul dintre
i
ponderea unitilor care poart
ac
caracteristica (p) i ponderea celor care
nu o poart (q):
rm
Fa
de
Eliminarea valorilor aberante. Testul lui
a Eliminarea valorilor aberante. Testul lui
Grubbs Grubbs
te
Etape Etape
lta
cu
Fa
26
3. Indicatorii formei 3. Indicatorii formei
3.1 Coeficientul de asimetrie
e
Forma unei distribuii de frecvene se analizeaz, Asimetria reprezint deviaia de la forma simetric de distribuie.
i
comparativ cu distribuia ideal, normal, prin:
ac
Coeficientul de asimetrie (Skewness)
Coeficientul de aplatizare (Kurtosis)
rm
o Coeficientul de asimetrie ne indic simetria Interpretare: (+) asimetrie dreapta; (-) asimetrie stanga
sau asimetria distribuiei frecvenei relative
o Coeficientul de aplatizare ne indic forma mai
Fa
boltit sau mai ascuit, respectiv mai Pentru variabile negrupate
plat sau mai turtit a distribuiei frecvenei =SKEW(Rage)
relative
de
3. Indicatorii formei a 3. Indicatorii formei
3.1 Coeficientul de asimetrie 3.2 Coeficientul de boltire
te
Coeficientul de asimetrie Pearson ( ) se calculeaz pe baza Boltirea (aplatizarea)
momentelor centrate 2 i 3 de ordin doi, respectiv trei: curba mezocurtic (coincide cu modelul; curb normal )
curba platicurtic (prezint o variaie puternic a variabilei X
nsoit de variaia slab a frecvenei fi)
lta
=KURT(Rage)
27
3. Indicatorii formei Utilizarea funciei Descriptive Statistics
3.2 Coeficientul de boltire (din Data Analysis)
i e
Coeficientul lui Pearson Coeficientul lui Fischer
ac
unde
rm
Interpretare:
Interpretare:
=0 (repartiie mezocurtic)
2=3 (repartiie mezocurtic)
Fa
>0 (repartiie leptocurtic)
2>3 (repartiie leptocurtic)
<0 (repartiie platicurtic)
2<3 (repartiie platicurtic)
de
a
te
lta
cu
Fa
28
Introducere
e
n cursurile anterioare am analizat metodele grafice i
i
numerice pentru descrierea datelor statistice cu ajutorul
ac
Biostatistic crora am determinat modelul empiric al distribuiei
frecvenei relative, precum i statisticile eantionului.
ELEMENTE DE TEORIA
rm
Pentru inferen, respectiv pentru trecerea de la eantion la
PROBABILITILOR
populaie i de la modelul empiric la modelul teoretic
avem nevoie de probabiliti
Fa
Probabilitatea reprezint n mod intuitiv posibilitatea
sau ansa ca un anumit fenomen s se produc.
Curs 6
de
Experimente, spaii de eantionare, a Experimente, spaii de eantionare,
evenimente evenimente
te
Un experiment statistic aleator este procesul de Prima caracteristic a unui experiment statistic este
observare a unui anumit fenomen, care conduce la caracterul aleator, adic rezultatele sunt ntmpltoare,
apariia unuia sau a mai multor rezultate posibile. fr a fi determinate de anumite cauze speciale
lta
1,2,3,4,5 sau 6
rezultate diferite
Determinarea grupei Rezultate posibile :A,
sangvine B, AB, 0
29
Experimente, spaii de eantionare, Experimente, spaii de eantionare,
evenimente evenimente
e
Spaiul de eantionare (Spaiul probelor) al unui Spaiul de eantionare al unui experiment aleator se
i
ac
experiment aleator este mulimea tuturor rezultatelor poate reprezenta grafic prin aa-numita diagram
posibile ale acelui experiment. Rezultatele trebuie s fie Venn.
exhaustive i reciproce exclusive Diagrama Venn este o curb nchis, care conine,
reprezentate prin puncte, toate rezultatele posibile ale
rm
experimentului
Vom nota spaiul de eantionare cu i
R1 R2
rezultatele posibile cu R1, R2, ..., Rm, adic:
} R3 R4 R5
Fa
Rm-1 Rm
Diagrama Venn a unui spaiu de eantionare
de
Experimente, spaii de eantionare, a Experimente, spaii de eantionare,
evenimente evenimente
te
Un eveniment simplu este un rezultat individual al unui Un eveniment este o mulime sau un set de evenimente
spaiu de eantionare. simple ntr-un spaiu de eantionare.
Spaiul de eantionare al unui experiment este alctuit din
lta
e
Vom nota, n continuare:
i
ntre evenimente se definesc operaii, inspirate din
- spaiul probelor cu
ac
teoria mulimilor: Egalitatea, Negaia, Reuniunea,
- mulimea evenimentelor cu K Intersecia, Incluziunea.
- evenimentele cu litere mari (A, B, C etc). A B - evenimentul care const n realizarea a cel puin unuia din
n mulimea evenimentelor se disting dou evenimente cu cele dou evenimente (se realizeaz A sau B)
rm
caracter special: A B - evenimentul care const n realizarea ambelor evenimente (se
evenimentul sigur este evenimentul care se produce cu certitudine; realizeaz A i B)
se noteaz cu . De exemplu, evenimentul cap sau pajur la A \ B - evenimentul care const n realizarea lui A i nerealizarea
aruncarea unei monede este un eveniment sigur. lui B.
evenimentul imposibil este evenimentul care nu se produce A= CA - evenimentul contrar lui A care const n nerealizarea lui
Fa
niciodat; se noteaz cu . Este evident c evenimentul sigur A (realizarea lui \ A)
este evenimentul contrar evenimentului imposibil i reciproc. Dou evenimente A i B se spun incompatibile dac
Se poate astfel spune c evenimentele sunt de trei categorii: intersecia lor este evenimentul imposibil, A B = , adic
sigure, imposibile i aleatorii. nu este posibil ca evenimentele A i B s se produc simultan.
de
Probabilitatea unui eveniment
a Probabilitatea unui eveniment
te
n prezentarea i prelucrarea datelor, msurate pe diverse Fie K mulimea evenimentelor. Se numete probabilitate
scale, noiunea de frecven relativ este o noiune orice funcie cu valori reale definit pe mulimea
lta
e
Considerm evenimentele simple care alctuiesc un
eveniment ca fiind cazuri favorabile producerii acelui
Dac rezultatele sau evenimentele simple ale unui spaiu eveniment, iar evenimentele simple care alctuiesc spaiul
i
ac
de eantionare au aceeai ans sau probabilitate de de eantionare ca fiind cazuri posibile producerii acelui
apariie (evenimentele sunt echiprobabile), atunci eveniment.
probabilitatea de apariie a fiecrui eveniment simplu va Probabilitatea unui eveniment A este:
fi:
rm
denumit i formula clasic a probabilitilor
De exemplu, n experimentul aruncrii unui zar, probabilitatea de apariie Exemplul S se determine probabilitatea extragerii unei figuri (J, Q, R) dintr-un pachet
Fa
a unei fee va fi (innd cont c rezultatele de baz, respectiv una din de 52 de cri, utiliznd formula clasic a probabilitilor.
feele 1, 2, 3, 4, 5 sau 6, au aceeai ans de apariie): Rezolvare: Numrul cazurilor favorabile, respectiv figurile roii i negre ( ) este
. .Numrul cazurilor posibile este 52, egal cu numrul de cri din pachet. Atunci
probabilitatea extragerii unei figuri este:
de
Formule fundamentale a Formule fundamentale
Probabilitatea condiionat Probabilitatea condiionat
te
Atunci cnd dispunem de informaii privind legtura ntre evenimente,
informaii care ar putea condiiona rezultatul unui experiment, vom Dou evenimente A i B se numesc evenimente
determina probabiliti condiionate
independente dac
lta
eveniment
evenimentul A
32
Formule fundamentale Formule fundamentale
e
Regula multiplicativ pentru evenimente independente Regula lui Bayes
i
Probabilitatea interseciei a dou evenimente independente Probabilitile condiionate iau n considerare
ac
A i B este informaia despre probabilitatea unui eveniment
pentru a face predicia asupra probabilitii unui
alt eveniment.
Regula aditiv
rm
Probabilitatea reuniunii a dou evenimente A i B este
Conceptul poate fi extins pentru a revizui
probabilitile, pe baza unor informaii
suplimentare, pentru a determina probabilitatea ca
Regula aditiv pentru evenimente reciproc exclusive un anumit efect s fie datorat unei cauze speciale.
Fa
Probabilitatea reuniunii a dou evenimente reciproc
exclusive A i B este Aceast procedur este dat de regula sau
teorema lui Bayes.
de
Formule fundamentale a Formule fundamentale
Regula lui Bayes Regula lui Bayes
te
Fie dat evenimentul B i evenimentele reciproc
Regula (teorema) lui Bayes
exclusive pentru care se cunosc valorile Probabilitatea evenimentelor reciproc exclusive
lta
Probabilitile
se numesc probabiliti verosimile
Probabilitile
Fa
33
Aplicaii Aplicaii
e
1. Masa, rezistena i nlimea sunt caracteristici independente ale unui 2. Un produs farmaceutic este prelucrat n dou etape A si B. n prima etap are
comprimat. Probabilitile ca un comprimat s nu corespund din aceste puncte de loc comprimarea propriu-zisa, iar n a doua etap are loc ambalarea produsului
i
vedere sunt: 0,03; 0,05 si 0,02. Care este probabilitatea ca tableta s corespund n intermediar obinut. Dup etapa A, comprimatele vrac sunt controlate obinndu-
ac
raport cu cele trei caracteristici? se un randament de 97%. Comprimatele vrac corespunztoare vor fi prelucrate n
Soluie: Fie E1, E2, E3 evenimentele care se realizeaz cnd produsul corespunde etapa B obinndu-se un randament de 95%. Care este probabilitatea ca produsul
n raport cu fiecare dintre caracteristici. finit s corespund?
Soluie
rm
P(A)=P(comprimat vrac corespunztor)= 0,97
PA(B)=P( comprimat ambalat corespunztor)=0,95
Fa
Aplicaii
de
a
3. Se consider dou recipiente cu reactivii B1 si B2. In recipientul B1 se afl
Reguli de numrare
te
pastile de KOH, iar n recipientul B2 pastile de KOH i de NaOH n numr egal.
O pastil scoas la ntamplare din unul din recipienti se dovedeste a fi KOH. Care
este probabilitatea ca aceast pastil s provin din B1? n algoritmul pentru calculul probabilitii unui
eveniment unul din paii dificili l constituie
lta
34
Reguli de numrare Reguli de numrare
i e
Exemplu S se determine numrul tripletelor care se pot
ac
Regula multiplicativ Fie k mulimi care conin forma din mulimile
respectiv n1, n2,..., nk elemente. Numrul de
mulimi cu cte k elemente formate prin lund cte un element din fiecare mulime.
rm
alegerea a cte unui singur element din
fiecare mulime este Rezolvare: Avem i rezult
Fa
(a,c), (a,d), (a,e), (b,c), (b,d), (b,e) la care adugm al
treilea element din mulimea C, adic
(a,c,f), (a,d,f), (a,e,f),..., (b,c,i), (b,d,i), (b,e,i)
de
Reguli de numrare
a Reguli de numrare
te
Se numesc permutri ale unei mulimi A cu n Exemplu S se determine numrul permutrilor mulimii
elemente toate mulimile ordonate de n elemente
lta
Prin definiie i
35
Reguli de numrare Reguli de numrare
i e
Numrul permutrilor cu repetiie a n elemente, n care
ac
Se numesc aranjamente a n elemente luate cte k, k
fiecare element se poate repeta pn la n ori este:
n, ale unei mulimi A cu n elemente, toate
submulimile ordonate cu cte k elemente care se pot
Exemplu S se determine numrul permutrilor cu repetiie forma cu elementele lui A.
rm
ale mulimii
Rezolvare: Avem n = 3 i
Regula aranjamentelor Numrul aranjamentelor
a n elemente, luate cte k, este
Fa
Mulimile ordonate cu cte 3 elemente i repetiie vor fi de
forma:
(a,a,a), (a,a,b), ..., (c,c,b), (c,c,c)
de
Reguli de numrare
a Reguli de numrare
te
Numrul aranjamentelor cu repetiie a n elemente, luate
cte k, n care fiecare element se poate repeta pn la k Se numesc combinri a n elemente luate cte k,
ori este: k n, ale unei mulimi A cu n elemente, toate
lta
(b)
36
Reguli de numrare Reguli de numrare
e
Numrul combinrilor cu repetiie a n elemente, luate
i
ac
cte k, n care fiecare element se poate repeta pn la k
ori este: Regula partiionrilor
Fie o mulime cu n elemente distincte.
Numrul partiiilor mulimii date n k
rm
Exemplu (a) S se determine numrul combinrilor a 3 submulimi, fiecare coninnd respectiv n1,
elemente luate cte 2.
n2,..., nk elemente este
(b) S se determine numrul combinrilor cu repetiie a 3
elemente luate cte 2.
Rezolvare: (a)
Fa
unde
(b)
de
Reguli de numrare
a Exemple aplicaii lucrare LP-uri
te
Distribuia farmacitilor n funcie de numrul de zile de concediu de
Exemplu La un concurs cu premii se atribuie 12 obiecte odihn dintr-un an se prezint astfel:
diferite primilor trei clasai, astfel:
Locul 1: 5 obiecte
lta
Se cere:
Locul 2: 4 obiecte s se reprezinte grafic seria;
Locul 3: 3 obiecte s se calculeze indicatorii tendinei centrale;
s se caracterizeze gradul de boltire
n cte moduri se pot atribui aceste obiecte?
cu
Sau
Rezolvare: Conform regulii partiionrilor avem k = 3, Se cere
n = 12, n1 = 5, n2 = 4, n3 = 3 i rezult: s se calculeze indicatorii variaiei;
s se caracterizeze gradul de asimetrie;
s se reprezinte grafic poligonul frecvenelor;
Fa
37
Exemple aplicaii lucrare LP-uri Exemple aplicaii lucrare LP-uri
i e
ac
Notele obtinute de 40 de studenti sunt urmtoarele: Au fost nregistrate numrul de ore petrecute de
8; 10; 4; 9; 6; 8; 10; 7; 8; 3; studenti cu nvatul:
9; 6; 5; 4; 8; 7; 10; 9; 6; 5;
rm
4; 3; 6; 9; 10; 8; 7; 7; 7; 6;
5; 5; 6; 7; 9; 10; 7; 6; 3; 4;
S se prezinte datele sub forma unui tabel statistic;
S se reprezinte grafic datele;
Fa
S se grupeze datele pe 4 intervale; S se calculeze numrul mediu de ore petrecut de un student cu
nvatul
S se calculeze frecventele cumulate cresctor; S se calculeze coeficientul de variaie. Discuii
S se reprezinte seria de date. S se realizeze histograma
de
a
te
lta
cu
Fa
38
Obiective
i e
ac
Cunoaterea principalelor concepte de
teoria distribuiilor statistice
rm
Analiza principalelor repartiii de
probabilitate discrete.
Repartiia Binomial
Fa
Repartiia Poisson
Curs 7
de
Variabile aleatoare
a Variabile aleatoare
te
Atunci cnd efectum un experiment, ne
intereseaz evenimente pe care le cuantificm Definiie: O funcie real X: , se numete
prin valori numerice, adic realizm variabil aleatoare dac mulimea | X() x
lta
39
Variabile aleatoare discrete. Exemple Variabile aleatoare discrete
e
Numrul de internri ntr-un spital ntr-un interval
i
ac
de timp dat X={0,1,,n,}
Variabil aleatoare infinit
rm
X={0,1,,n,}
Variabil aleatoare infinit
Fa
de n persoane luate la ntmplare X={0,1,,n}
Variabil aleatoare finit
de
Variabile aleatoare discrete
a Variabile aleatoare discrete
te
lta
cu
Fa
40
Variabile aleatoare discrete
Variabile aleatoare discrete
i e
ac
rm
Fa
de
Variabile aleatoare discrete
a Variabile aleatoare discrete
te
Exemplu
Fie urmtoarea variabil aleatoare: Distribuia de probabilitate a unei variabile
aleatoare discrete X furnizeaz un model pentru
lta
41
Variabile aleatoare discrete Variabile aleatoare discrete
Caracteristici numerice Caracteristici numerice
e
Media Dispersia (sau variana)
i
ac
Se numete valoare medie (sau speran matematic) a unei valori
aleatoare X, numrul
rm
ptratic (sau abaterea standard) a variabilei X
Proprieti ale valorii medii:
Proprieti ale dispersiei
Fa
de
Repartiia Binomial-B(n,p)
a Repartiia Binomial-B(n,p)
te
Caracteristici ce definesc o variabil aleatoare binomial
Multe experimente reale sunt analoge experimentului
aruncrii monedelor. Experimentul const n n ncercri identice
lta
42
Repartiia Binomial-B(n,p) Repartiia Binomial-B(n,p)
e
Probabilitatea de a avea de k ori succes n n ncercri Caracteristici numerice
i
este dat de formula:
ac
Media pentru o variabil aleatoare binomial X este:
rm
p = probabilitatea de succes ntr-o singur ncercare
q=1p
n = numrul de ncercri
k = numrul de succese S n n ncercri
Reprezentarea grafic a repartiiei binomiale, se realizeaz prin
diagrama n batoane i depinde de valoarea parametrilor si n i p.
Fa
Astfel:
Reprezentare sub form matricial
- diagrama este simetric dac p = q = 0.5;
- diagrama este asimetric dac p > q sau p < q;
- o distribuie asimetric devine tot mai simetric pe msur ce n
crete.
de
Repartiia Binomial-B(n,p)
a Repartiia Binomial-B(n,p)
te
Pentru calculul valorilor repartiiei binomiale se poate folosi funcia Exemplu
Testele pentru calitatea apei potabile ntr-un anumit Jude au pus n
statistic din Excel eviden faptul c 30% din sursele individuale conin o anumit
substan A, care nu este bun pentru consum.
BINOM.DIST(number_s,trials, probability_s, cumulative)
lta
Dac sunt alese n mod aleator 5 surse din Judeul respectiv, care
nuber_s (X) Este numrul de succese din experimente
este probabilitatea ca:
(a) Exact 3 surse s conin substana A;
trials(n) Este numrul de experimente independente (b) Cel puin 3 surse s conin substana A;
(c) Mai puin de 3 surse s conin substana A.
Probability_s (p) Este probabilitatea de succes la fiecare experiment
cu
evenimente ntmpltoare care vor aprea va fi cuprins ntre 0 i x probabilitatea alegerii unei surse care conine substana A o
considerm egal cu 0,3 pentru toate cele 5 surse selectate
inclusiv , P{X x} ; n cazul FALSE, va returna probabilitatea c aleator.
numrul de evenimente aprute va fi exact x, P{X = x}
43
Repartiia Binomial-B(n,p) Repartiia Binomial-B(n,p)
e
Exemplu Exemplu
i
Eantionarea fiind aleatoare, ncercrile sunt independente. Ne (c) Probabilitatea ca mai puin de 3 surse s conin substana A
ac
intereseaz numrul X de surse care conin substana A, dintr-un este:
eantion de n = 5.
Suntem deci n condiiile unui experiment binomial, cu n = 5 i p = 0.3,
q = 1 0,3 = 0,7.
rm
Probabilitatea ca exact 3 surse s conin substana A este:
BINOM.DIST(2, 5, 0.3, 1) = 0,83692
aceast probabilitate se poate calcula mai uor cu ajutorul relaiei de
complementaritate:
=BINOM.DIST(3, 5, 0.3, 0) = 0,1323
Fa
(b) Probabilitatea ca cel puin 3 surse s conin substana A este:
=1-BINOM.DIST(2, 5, 0.3, 1)
de
Repartiia Poisson P(
a Repartiia Poisson P(
te
Caracteristici ce definesc o variabil aleatoare Poisson
Repartiia Poisson ofer un model pentru frecvena Experimentul const n nregistrarea numrului x de
relativ a numrului de evenimente rare care apar apariii ale unui eveniment ntr-o unitate dat de timp
lta
ntr-o unitate de timp, arie, volum etc. (de volum, de arie, de greutate, de distan sau orice
Repartiia Poisson se utilizeaz mai ales n alt unitate de msur).
modelarea fenomenelor de ateptare, denumite cozi Probabilitatea ca evenimentul s apar ntr-o unitate
sau iruri de ateptare (ateptarea la case de dat de timp (de volum, de arie etc.) este aceeai
cu
(sau q) are o valoare foarte mic i n este mare. numrul de evenimente care apar n celelalte uniti.
44
Repartiia Poisson P( Repartiia Poisson P(
e
Distribuia de probabilitate Caracteristici numerice
i
ac
Distribuia Poisson este determinat de un singur parametru: Media pentru o variabil aleatoare Poisson X este:
(media variabilei). Fie o variabil X ce ia valori discrete 0, 1, 2,
..., n, ntr-un interval continuu. Se spune c variabila X urmeaz
o lege Poisson atunci cnd probabilitatea pentru care X = k este Dispersia pentru o variabil aleatoare Poisson X este:
dat de:
rm
Aproximarea legii binomiale printr-o lege Poisson:
= media numrului de evenimente ntr-o anumit perioad Cnd p este mic i n este mare, legea Poisson
de timp; constituie o bun aproximare a legii binomiale.
Fa
e = 2,71828... n acest caz se folosete ca parametru al legii
Reprezentare sub form matricial Poisson sperana matematic a legii binomiale:
de
Repartiia Poisson P(
a Repartiia Poisson P(
te
Pentru calculul valorilor repartiiei Poisson se poate Repartiia Poisson apare n multiple situaii, ca de
folosi funcia statistic din Excel: exemplu:
lta
POISSON.DIST(X,mean,cumulative)
d probabilitile unui numr specificat de chemri telefonice
X Este numrul de evenimente; ntr-un anumit timp;
d probabilitile unui numr specificat de defecte pe o unitate
mean (Media) Este valoarea numeric ateptat.
de lungime a unui fir;
cumulative Este o valoare logic ce determin forma
cu
e
Exemplu
i
ac
8% din recipientele cu materie prim sunt rebutate.
Care este probabilitatea ca din 20 de recipiente 2
s fie rebutate?
Soluie
rm
p=0.08, n=20.
Folosind repartiia Poisson pentru
Fa
=POISSON.DIST(2,1.6,FALSE)
de
a
te
lta
cu
Fa
46
Obiective
i e
ac
REPARTIII CONTINUE Cunoaterea principalelor proprieti ale
variabilelor aleatoare i distribuiilor continue
rm
Analiza principalelor distribuii
Repartiia Normal
Repartiia Fisher-Snedecor
Repartiia Hi-ptrat ( )
Fa
Repartiia Student
Curs 8
de
Variabile aleatoare continue
a Variabile aleatoare continue
te
Multe dintre variabilele aleatoare ntlnite n Diferena dintre variabilele aleatoare discrete i
practic nu sunt variabile aleatoare discrete, variabilele aleatoare continue este cel mai bine
sugerat de diferena dintre funciile de distribuie
lta
47
Variabile aleatoare continue
Variabile aleatoare continue
e
f(x) reprezint densitatea de repartiie, care poate fi
i
Pentru o variabil aleatoare discret, funcia de definit ca prim derivat (dac exist) a funciei de
ac
repartiie este suma probabilitilor de la cea mai repartiie F(x) adic:
mic valoare pe care o poate lua x i pn la x0.
rm
discret este o funcie discontinu, n scar, aa
cum am vzut anterior
Fa
Graficul densitii de probabilitate Reprezentarea elementului de probabilitate.
continue este o funcie continu, monoton Mrimea f(x)dx se numete element de probabilitate i reprezint
cresctoare probabilitatea ca valoarea variabilei aleatoare s se gseasc n
intervalul ds. Aceast probabilitate este egal cu aria dreptunghiului
elementar cu baza egal cu ds.
de
Variabile aleatoare continue a Variabile aleatoare continue
Expresia P(X<x) se citete probabilitatea ca X s fie cel
Proprietile funciei de repartiie
te
mult egal cu x.
e
Caracteristici numerice
Repartiia normal (cunoscut i sub numele de
i
Media
ac
Repartiia Gauss-Laplace sau popular sub
Valoarea medie (sau valoarea ateptat) a lui x este numele de clopotul lui Gauss) este una din cele
mai rspndite i utilizate repartiii
rm
Variana sau dispersia Numeroase fenomene i procese naturale,
economice, sociale sau medicale pot fi modelate
de repartiia normal
Fa
Abaterea standard
Repartiia normal este o funcie parametric
simetric, definit pe mulimea R
de
Repartiia Normal~N(
a ) Repartiia Normal~N( )
te
Fie o variabil X ={x1, ..., xn} care urmeaz o lege normal : , V = Proprieti ale distribuiei normale:
o distribuie normal este simetric n raport cu ordonata
Densitatea de repartiie valorii x = ; de asemenea, = Me = Mo
pentru o distribuie normal, cnd x tinde la , funcia f(x)
lta
Funcia de repartiie
o distribuie normal este unic determinat de medie i de
varian: X ~ N(; 2)
suma (sau diferena) a dou variabile aleatoare
Media:
independente X1 i X2 ce urmeaz legi normale N(1, 21)
Variana:
Fa
e
Fie o variabil Z ={z1, ..., zn} variabil centrat redus
i
O variabil aleatoare, X, normal repartizat
ac
cu media i deviaia standard diferite de 0
respectiv 1, poate fi transformat ntr-o Densitatea de repartiie
repartiie normal standard, Z, astfel:
rm
Funcia de repartiie
Fa
Repartiia normal standardizat, cu media 0 i Media: 0
abaterea standard 1. Variana:1
f(zi) se calculeaza cu functia: =NORM.S.DIST(zi,FALSE)
F(zi) = P(z < zi) se calculeaza cu functia: =NORM.S.DIST(zi, TRUE)
zi se calculeaza cu functia: =NORM.S.INV(F(zi))
de
a Repartiia Normal Standard~N(0 )
Repartiia Normal Standard~N(0 )
te
lta
cu
Fa
50
Repartiia Normal Standard~N(0 )
Repartiia Normal Standard~N(0 )
e
-
i
utilizeaz funcia Laplace, ale crei valori calculate se pot obine
ac
din tabelele Gauss-Laplace.
Funcia Laplace este definit de relaia:
rm
Proprietile funciei lui Laplace:
- (0) = 0
- (-z) = - (z)
Fa
-
- Densitatea de repartiie a variabilei z.
- P(-z Z z) = 2 (z).
de
Repartiia hi-ptrat ( 2) a Repartiia hi-ptrat ( 2)
te
lta
cu
Fa
51
Repartiia hi-ptrat ( 2) Repartiia hi-ptrat ( 2)
e
=CHISQ.DIST.RT(x,deg_freedom) =CHISQ.INV(probability, deg_freedom)
sau
i
sau
=CHIINV(probability, deg_freedom)
ac
=CHIDIST(x,deg_freedom)
Returneaz inversa funciei de repartiie F (alungit la dreapta). Dac p =
CHIDIST(x,...), atunci CHIINV(p,...) = x
rm
Fa
Returneaz probabilitatea pentru hi-ptrat , unde o valoare numeric (x) este
o valoare calculat a lui 2 pentru care se vor calcula probabilitile.
de
Repartiia hi-ptrat ( 2) a Repartiia Fisher-Snedecor F( 1, 2)
te
lta
cu
Fa
52
Repartiia Fisher-Snedecor F( 1, 2) Repartiia Fisher-Snedecor F( 1, 2)
e
=F.DIST(x,deg_freedom1, deg_freedom2)
i
X Valoarea la care s se evalueze funcia
ac
deg_freedom1 Gradele de libertate pentru numrtor
deg_freedom 2 Gradele de libertate pentru numitor
rm
Fa
Densitatea de repartiie pentru
diferite valori ale lui 1, 2
de
Repartiia Fisher-Snedecor F( 1, 2)
a Repartiia Student distribuia t
te
lta
cu
=F.INV(probability,deg_freedom1,deg_freedom2)
Fa
e
=TDIST(x,deg_freedom,tails)
i
x este valoarea numeric la care va fi evaluat repartiia.
ac
deg_freedom numrul gradelor de libertate.
Tails
Dac tails = 1, TDIST ntoarce o repartiie unilateral.
Dac tails = 2, TDIST ntoarce repartiia bilateral.
rm
Fa
TDIST(x, ,1) = aria haurat TDIST(x, ,2) = aria haurat
de
Repartiia Student distribuia t a Aplicaii. Verificarea normalitii unei distribuii
=T.INV(probability,deg_freedom)
te
O valoare t unilateral poate fi
ntoars nlocuind probabilitatea cu
lta
2*probabilitate.
Pentru o probabilitate de 0,05 i
grade de libertate 10, valoarea
bilateral este calculat cu
T.INV(0,05;10), care ntoarce
cu
1,812462.
54
Aplicaii. Verificarea normalitii unei distribuii Aplicaii. Verificarea normalitii unei distribuii
i e
ac
rm
Fa
de
a
te
lta
cu
Fa
55
Eantionare . Probleme ale Eantionrii
e
EANTIONARE: selecia unei poriuni din populaie care e
i
reprezentativ pentru caracteristica de interes a
ac
Biostatistic populaiei.
rm
Testarea ipotezelor statistice Se consider un eantion: se calculeaz media
eantionului. Ne ateptm ca media eantionului s fie
Teste statistice:Testul Student, Testul rezonabil de aproape de media populaiei.
Fa
Repartiia de eantionare ne permite s evalum ct de
aproape este valoarea statisticii eantionului de valoarea
parametrului populaiei.
Curs 9
de
Eantionare. Probleme ale Eantionrii a Eantionare . Probleme ale Eantionrii
te
Populaia int - populaia pentru care vrem Eantionarea aleatorie simpl
Un eantion aleatoriu simplu este un eantion n care
s facem inferene fiecare membru al populaiei este la fel de probabil de a
fi inclus.
lta
Populaia eantionat - populaia din care Metoda presupune identificarea fiecrui membru al
populaiei i alegerea aleatorie a acestora.
extragem de fapt eantioane
Eantionarea aleatorie stratificat
Un eantion aleatoriu stratificat se obine prin separarea
cu
56
Eantionarea aleatorie simpl in Excel Inferen Statistic
e
Pentru extragerea unui ntreg situat ntre a si b: Obiectivul (problema)
i
ac
RANDBETWEEN(bottom, top)
Tipul de date Descrierea unei singure
Pentru extragerea unui numr situat n intervalul [0, 1]: populaii
RAND () cantitative
Compararea a dou
rm
Pentru extragerea unei serii de N numere din una dintre calitative populaii
mai multe variante de distribuii,
ordinale. Compararea a dou sau
DATA >> DATA ANALYSIS >> Random Number Generation mai multor populaii
Fa
Pentru extragerea unui eantion dintr-o populatie: Analiza relaiei ntre dou
DATA >> DATA ANALYSIS >> Sampling sau mai multor variabile
LA FIECARE RECALCULARE A FOII DE CALCUL, VALORILE
SUNT GENERATE DIN NOU !
de
Inferen Statistic. Repartiia de
Inferen Statistic
ESANTION
a
POPULAIA STATISTIC
sondaj a mediei
te
Se consider o populaie statistic i o caracteristic continu X.
(STATISTIC) (PARAMETRU)
Fie M(X) = i D2(X) = . Repartiia variabilei X este
necunoscut (deci nu sunt cunoscute , , forma distribuiei sau
MEDIA: numai unele dintre aceste atribute).
lta
ABATEREA
STANDARD
Fa
COEFICIENTUL
DE VARIATIE
57
Inferen Statistic. Repartiia de
sondaj a mediei Inferen Statistic
e
Forma repartiiei de sondaj a mediei este determinat Estimarea
i
de rezultatele:
ac
Determinarea parametrului unei
dac X este repartizat normal, atunci media de sondaj populaii pe baza statisticii unui
este repartizat de asemenea normal, cu parametrii
precizai mai sus, indiferent de volumul eantionului eantion
rm
dac nu se cunoate repartiia lui X, atunci teorema
limit central afirm c repartiia de sondaj a mediei
devine normal la limit, pentru un volum mare al Testarea ipotezelor statistice
eantionului.
Scop: a determina dac exist
suficient eviden statistic pentru a
Fa
Practic, se poate accepta o repartiie ,
pentru n > 10, dac repartiia lui X este aproape simetric, susine o anumit afirmaie fcut
sau despre un parametru al populaiei
pentru n > 30, n repartiii cu asimetrie pronunat sau
necunoscut. statistice
de
a Estimaii
Inferen Statistic Deoarece aprecierea erorilor de estimare posibile, n cazul
estimaiile punctuale, este suficient de laborioas, s-a ncercat
te
Estimare i estimator
dezvoltarea unei metode care s pun accentul pe
Estimarea este calcularea unei valori specifice a
estimatorului. probabilitile de apariie ale erorilor. Aceast metod generic
este metoda determinrii intervalelor de ncredere sau metoda
lta
singur valoare sau un punct. Problema este ca, pornind de la datele de sondaj ale unui
Estimator al unui interval - realizeaz inferene despre o eantion de volum n, s se determine dou limite ntre care
populaie prin estimarea unui interval de variaie n care este valoarea parametrului s se afle cu o probabilitate fixat.
probabil ca valoarea parametrului s se afle.
Fa
e
Dac se repet procedeul pentru eantioane diferite,
atunci 100(1)% dintre intervalele determinate vor
Prin definiie, dac se pot determina 1 i 2
i
conine valoarea necunoscut a parametrului
astfel nct pentru o valoare prestabilit
ac
(evident c nu se va ti care sunt acele intervale).
(0<< 1) s aib loc:
Apare atunci necesitatea ca s fie ct mai mic, dar o dat cu
P( 1 2) 1
micorarea lui se mrete lungimea intervalului, deci erorile
atunci intervalul (1, 2) se numete interval de de estimare sunt mai mari.
rm
ncredere pentru parametrul necunoscut cu Uzual se alege = 0,05 sau = 0,01.
un coeficient (sau nivel) de ncredere egal cu Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere este
, sau cu o siguran statistic S = 1. bilateral.
n cazul cnd 1 este - sau 2 este +, ceea ce revine, n fapt, la
Fa
Valoarea se numete nivel (sau prag) de determinarea unei singure limite, intervalul este unilateral.
semnificaie.
de
Estimaii a Estimaii
Intervale de ncredere pentru valoarea medie
Intervale de ncredere pentru valoarea medie
Fie o populaie statistic caracterizat de o v.a. X repartizat
te
normal, cu parametrii i 2, X ~ N(, ).2
e
Intervale de ncredere pentru dispersie Este frecvent situaia n care, pornind de la un eantion de
i
(exprimat eventual procentual) a cazurilor care prezint o
normal, cu parametrii i 2 necunoscui. Se
ac
anumit caracteristic.
demonstreaz c intervalul de ncredere bilateral
Situaia poate fi formalizat prin considerarea unei v.a. X,
pentru dispersia populaiei, cu ncrederea
statistic de 1, este dat de repartizat binomial, Bi(n; p), pentru care se consider
succes prezena caracteristicii dorite.
rm
Pentru cazul eantioanelor mari, sau mai precis cazul n care
se poate aproxima repartiia binomial prin repartiia normal,
se demonstreaz c intervalul de ncredere cu sigurana
statistic S = 1 este dat de
unde n este volumul eantionului, s2 este dispersia
de sondaj, iar / 2; i 1 / 2; sunt valorile <
Fa
repartiiei 2 de ordin /2, respectiv 1 cu =
n1 grade de libertate. unde fn este frecvena relativ a cazurilor succes din eantionul de
volum n, iar z/2 este valoarea critic a repartiiei normale standard
pentru ales.
de
Testarea ipotezelor statistice
a Testarea ipotezelor statistice
te
Testarea ipotezelor statistice este procedeul prin care Erori de testare:
se poate respinge sau accepta o ipotez fcut
asupra unui parametru sau asupra unei distribuii, Eroarea de tip I - este eroarea care se face cnd se
innd cont de anumite reguli de decizie. decide respingerea ipotezei nule H0 cnd n realitate
lta
Ipoteza pe care dorim s o testm se numete aceasta este adevrat. Probabilitatea asociat erorii
ipoteza nul i este notat H0. de tip I se noteaz cu i este numit prag de
H0 nu exist nici o diferen ntre valorile comparate. semnificaie, sau riscul acceptat n luarea deciziei de
respingere a H0 cnd H0 este adevrat.
cu
Ipoteza alternativ este ipoteza care o acceptm luarea deciziei c H0 este adevrat cnd H0 este
dac, prin regula de decizie, se respinge ipoteza nul. fals.
60
Testarea ipotezelor statistice
Testarea ipotezelor statistice
e
Regiunea de respingere sau regiunea critic este intervalul n
care se respinge ipoteza nul H0, considernd ipoteza
alternativ H1 adevrat. Se definete n acest context, un prag a) Stabilirea eantionului (eantioanelor) de lucru
i
critic (inferior Li superior Ls), de la care o estimaie tinde s b) Formularea ipotezelor alternative (H0, H1)
ac
confirme ipoteza H1 i s resping H0. Regiunii critice i se
asociaz o probabilitate , cuprins n general ntre 0.01 i 0.1. c) Alegerea testului statistic
Regiunea de acceptare sau intervalul de ncredere este un d) Specificarea pragului de semnificaie = 0.01, 0.05 ,
interval n care, pe baza unui test, nu se respinge ipoteza H0. 0.1
rm
Regiunii de acceptare a ipotezei H0 i se asociaz o probabilitate e) Definirea regiunii critice (RC)
1 , numit i coeficient de ncredere.
f) Calcularea valorii statistice a testului (Zcalc, tcalc)
H0: = 0 H0: = 0 H0: = 0 g) Compararea valorii statistice a testului Zcalc sau tcalc,
H1: 0 H1: > 0 H1: < 0
cu valoarea critic Zcr, respectiv tcr cu (n1) grade de
libertate pentru pragul de semnificaie ales
Fa
h) Luarea deciziei
de
Testarea ipotezelor statistice a Testarea ipotezelor statistice. Teste parametrice
e) Definirea regiunii critice (RC) f) Calcularea valorii statistice a testului (Zcalc, tcalc)
A. Statistica Z (n > 30, = 0.05) Ipoteza H0 este strict legat de un parametru al populaiei, iar
te
Test unilateral dreapta statistica testului are o repartiie cunoscut tocmai din aceast
zcr=NORM.S.INV(0.95)=1.645, RC=(1.645,+ ipotez.
Test unilateral stnga
lta
e
Testarea ipotezelor privind compararea a dou medii Testarea ipotezelor privind compararea a dou medii
A. Grupuri independente A. Grupuri independente
i
ac
H0: NU exist diferene semnificative ntre valoarea medie a variabilei X din
eantionul E1 i valoarea medie a variabilei X din eantionul E2. ( = .
H1: Exist diferene semnificative ntre valoarea medie a variabilei X din
rm
eantionul E1 i valoarea medie a variabilei X din eantionul E2. ( .
pentru eantioane de volum mare (n1 30, n2 30) se folosete
statistica Z (ce urmeaz o distribuie de probabilitate normal):
Fa
- cnd i sunt necunoscute, statistica Z este:
de
Testarea ipotezelor statistice. Teste parametrice a Testarea ipotezelor statistice. Teste parametrice
Testarea ipotezelor privind compararea a dou Testarea ipotezelor privind compararea a dou medii
medii Luarea deciziei
te
B. Grupuri dependente dac valoarea numeric calculat a statisticii (Zcalc sau tcalc) cade
n RC (Zcalc > Zcr sau tcalc>tcr ), respingem ipoteza nul H0 n
favoarea ipotezei alternative H1
lta
dac valoarea statisticii (Zcalc sau tcalc) NU cade n RC (Zcalc < Zcr
sau tcalc<tcr ), acceptm ipoteza nul H0 cu o ncredere de 1-
Astfel:
(1) dac p < atunci se poate afirma c exist o diferen
semnificativ ntre valoarea ipotetic a parametrului i valoarea
obinut pe baza datelor observate (se respinge H0 i se accept
H1 ).
Fa
e
Calcularea probabilitatii (p) asociate valorii statistice a
testului
i
=T.TEST(array1,array2,tails,type)
ac
Funcia T.TEST se introduce ntr-o celul oarecare specificnd n
ordine:
=T.TEST(A3:A12,B3:B12,2,2)
a) zonele care conin datele celor dou serii de valori =T.TEST(A3:A14,B3:B14,2,1)
rm
Luarea deciziei
b) valoarea: 1 sau 2 pentru a indica dac testul este cu un capt (1) dac p < atunci se repinge ipoteza nul H0 i se accept ipoteza alternativ
(unilateral) sau cu dou capete (bilateral) H1. Prin urmare exist o diferen semnificativ ntre mediile caracteristicii n cele
c) tipul testului: 1, 2 sau 3 dou populaii.
1 - dac grupurile sunt dependente (2) dac p > atunci se accept ipoteza nul H0. Prin urmare nu exist o
diferen semnificativ ntre mediile caracteristicii n cele dou populaii.
Fa
2 - dac grupurile sunt independente i se presupune c populaiile au
aceeai dispersie
Obs. Dac testul este cu dou capete, atunci n cazul respingerii ipotezei H0 se consider
3 - dac grupurile sunt independente i se presupune c populaiile au c exist diferene ntre mediile celor dou caracteristici fr a se specifica care dintre cele
dispersii diferite dou medii este mai mare.
Dac testul este cu un capt, atunci n cazul respingerii ipotezei H0 este clar care dintre
mediile celor dou populaii este mai mare.
de
Testarea ipotezelor statistice. Testul Student a Utilizarea testului t n analiza
Grupuri independente Grupuri dependente (perechi)
comparativ a medicamentelor
te
La compararea efectului a dou medicamente, la
compararea rezultatului determinrilor analitice cu
valoare impus de standardul de control asupra
medicamentului precum i n multe alte situaii, apar
lta
s lum decizii.
63
e
Dac, de exemplu, dozm cantitatea de substan La compararea mediilor a dou selecii independente,
i
activ din 10 comprimate care provin dintr-o arj de numite n experimentele cu medicamente grupuri
ac
1.000.000 de comprimate, alegerea celor 10 paralele, o atenia deosebit trebuie acordat
comprimate se presupune c s-a fcut aleator i ele verificrii independenei efective a acestora. De
exemplu la testarea efectelor unui medicament
reprezint un eantion reprezentativ pentru ntreaga asupra unui grup de pacieni n comparaie cu un alt
rm
arj. Problema este dac, n funcie de valoarea grup ce se numete placebo, trebuie avut n vedere
medie a coninutului pentru cele 10 comprimate i c pacienii s nu se influeneze ca urmare a
variabilitatea celor 10 valori, putem spune, discuiilor ntre ei. Dac loturile sunt de animale ce
asumndu-ne un anumit risc, c valoarea medie a triesc n aceiai cuc, medicamentul poate favoriza
concentraiei n substana activ pentru tot lotul este sau din contr, defavoriza un grup n lupta animalelor
Fa
cea declarat. n acest caz aplicarea testului t n pentru hran i adaug efecte suplimentare asupra
verificarea ipotezei asupra mediei, este imediat. rezultatelor finale ale testului.
de
Un caz foarte frecvent n testrile comparative ale efectelor sau nivelelor plasmatice ale
medicamentelor, este acela al observaiilor pereche, cnd lotul de subieci tratai se constituie ca
a Testarea ipotezelor statistice. Teste neparametrice
propriul martor. Acestea ofer unele avantaje asupra experimentului pe grupuri paralele.
n primul rnd, n experimentul pe grupe paralele, variabilitatea rezult din diferenele de rspuns
Testul
la medicament ntre cele dou grupuri, aa numita intervariabilitate. n experimentul pereche Testul CHI este un test neparametric ce poate compara
te
apare intravariabilitatea, variabilitatea n rspunsul aceluiai subiect la dou tratamente diferite
i avem motive s presupunem c aceasta este mai mic, de regul dect intervariabilitatea. dou sau mai multe repartiii de frecvene, dintre care una
Teoretic, intervariabilitatea include i intravariabilitatea i deci nu poate fi mai mic dect aceasta.
Din aceste motive, testul pereche ofer avantajul unei variabiliti mai mici.
se consider lot martor i alta lot experimental, provenite
din aceeai populaie, dar avnd o caracteristic diferit, de
lta
Testul pereche ofer avantajul c lotul poate fi mai mic. n experimentul pe grupe paralele, de
exemplu dou loturi de 10 subieci primesc dou medicamente diferite. n experimentul pereche
numai 10 subieci pot primi n prima administrare un medicament i n a doua perioad al doilea
exemplu:
medicament. - copii vaccinati i nevaccinati antigripal, mbolnvii sau nu;
Desigur c acest cuplare nu este ntotdeauna posibil. Cnd dozm cantitatea de substan
activ din comprimate sau determinm timpul de dizolvare, acestea sunt consumate n timpul - bolnavi tratai sau netratai cu medicamentul X,
cu
testrii.
nevindecai sau vindecai;
Testul pereche prezint dezavantajul c ntre cele dou tratamente trebuie s existe o perioada
destul de lung pentru ca primul medicament administrat s se elimine din organism care, n - copii decedai sau vindecai de tuse convulsiv, tratai la
cazul medicamentelor cu timp de njumtire mare cum ar fi de exemplu piroxicamul, depete
30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada ntre cele doua domiciliu sau la spital; etc.
administrari, de mai multe luni. n aceste situaii se prelungete destul de mult timpul pentru
Testul CHI se aplic numai n acele situaii cnd
Fa
definitivarea studiului.
Deasemenea, efectul primului medicament, n cazul c experimentele se fac pe pacieni, poate evenimentele ateptate se exclud unul pe cellalt, n sensul
duce la o mbuntire a strii de sntate a acestora i la o modificare considerabil a
rspunsului la al doilea tratament.
c nu este posibil s se produc dect unul dintre ele.
64
Testarea ipotezelor statistice. Teste neparametrice. Testarea ipotezelor statistice. Teste neparametrice
Testul Testul
e
Etapele aplicrii testului CHI: 6. Calcularea probabilitii asociate valorii statistice a testului (p)
i
1. Culegerea i nregistrarea datelor studiului: =CHISQ .TEST(actual_range, expected_range) sau
ac
Subiecii sunt clasificai ca bolnavi sau nu, expui la un anumit =CHITEST(actual_range, expected_range)
factor de risc sau nu, etc.
se stabilete numrul de subieci care fac parte din fiecare Valoarea unei celule
clas din matricea valorilor
estimate este egal
rm
2. Formularea ipotezelor alternative (H0, H1) cu produsul dintre
H0: ntre cele dou caracteristici studiate NU exist o asociere suma valorilor de pe
(o legatur). linia i suma valorilor
H1: Exist o asociere (o legtur) ntre cele dou caracteristici de pe coloana
matricei datelor test,
studiate.
totul mprit la suma
Fa
3. Specificarea pragului de semnificaie = 0.01, 0.05, 0.1 tuturor
4. Stabilirea numrului gradelor de libertate (gl) a testului * Luarea deciziei
(1) dac p < atunci se respinge ipoteza nul H0 i se accept
gl = (Nr.Rnduri -1)*(Nr.Coloane -1) ipoteza alternativ H1,
5. Calcularea valorii statistice a testului ( calc) * (2) dac p > atunci se accept ipoteza nul H0,
de
Testarea ipotezelor statistice. Teste neparametrice a Testarea ipotezelor statistice. Teste neparametrice
Testul Testul
* Stabilirea numrului gradelor de libertate (gl) a testului Aplicaie. Mortalitatea postoperatorie la bolnavii de ulcer gastric, n
te
gl = (Nr.Randuri -1)*(Nr.Coloane -1) Varianta 2 cazul utilizrii mai multor tehnici de rezecie gastric.
* Calcularea valorii statistice a testului ( calc)
=CHIINV(probability=p, degrees_freedom) Se poate face o asociere ntre numrul
lta
* Stabilirea valorii critice a testului ( cr) pentru considerat persoanelor decedate i tehnica de
rezecie utilizat?
1. =CHIINV(probability=, degrees_freedom)
2. Din tabelul valorilor critice ale testului cu pragul de
semnificaie i gradele de libertate (gl)
cu
(2) dac calc < cr atunci se accept ipoteza nul H0, tehnicile chirurgicale utilizate.
Deoarece p = 0,47 > 0,05 se accept ipoteza nul H0. Prin urmare, nu exist o
asociere ntre numrul de decese i tehnica chirurgical folosit. 65
Context
e
Statistica dispune de o seam de metode de
i
studiere a dependenelor (legturilor) dintre dou
ac
sau mai multe variabile. Printre acestea sunt i cele
cuprinse n "analiza de regresie i corelaie".
n cadrul acesteia se studiaz dependena dintre
o variabil (caracteristic) rezultativ (y) i una sau
Regresie i corelaie mai multe variabile (caracteristici) independente (x).
rm
Caracteristica rezultativ se mai numete
caracteristica dependent, endogen sau efect, iar
caracteristica independent se mai numete
caracteristica factorial, exogen sau cauz.
Regresia ne arat cum (ca form analitic) o
Fa
variabil este dependent de alt variabil (sau de
alte variabile), iar corelaia ne arat gradul n care o
variabil este dependent de o alt variabil (sau alte
Curs 10 variabile).
de
Clasificri
a Introducere
te
a) dup numrul caracteristicilor independente Metode de regresie i corelaie pentru variabile
luate n studiu:
- legturi simple cantitative de tip interval
- legturi multiple
lta
- legturi liniare
- legturi neliniare (curbilinii) sunt legate de aceast variabil, denumite variabile
d) dup metodele de abordare: independente (notate cu x1, x2,..., xk).
- metode simple (elementare) Relaia funcional este
- metode analitice
Fa
66
Modelul de regresie Modelul de regresie
i e
ac
Modelul de regresie este un model probabilist (sau Modelul de regresie liniar (de ordinul I) va avea
stohastic) deoarece variabilele modelului sunt forma:
variabile aleatoare (sau variabile stohastice).
rm
unde:
Pentru a crea ns un model probabilist trebuie mai
y = variabila dependent
nti s crem un model determinist, care s
x = variabila independent
stabileasc, cu ajutorul unei relaii funcionale,
= intersecia cu axa Oy (intercept)
Fa
legturile dintre variabilele modelului.
= panta (coeficientul unghiular)
= variabila de eroare
de
Modelul de regresie
a Modelul de regresie
te
Am menionat anterior i am analizat modelul de
Pentru estimarea coeficienilor i ai
regresie liniar.
modelului de regresie liniar se utilizeaz
urmtorul algoritm:
lta
[1]: Se extrage un eantion de valori (xi, yi) din n practic, exist numeroase situaii cnd
populaia analizat; modelul liniar nu este adecvat, utilizndu-se
modele de regresie neliniare.
[2]: Se calculeaz coeficienii i
cu
logaritmice.
mai mici ptrate.
67
Metoda celor mai mici ptrate Metoda celor mai mici ptrate
i e
Metoda celor mai mici ptrate determin
ac
dreapta care minimizeaz suma
unde:
rm
yi sunt valorile observate
sunt valorile calculate pe baza ecuaiei dreptei
de regresie
Fa
Metoda celor mai mici ptrate
de
Metoda celor mai mici ptrate. Dreapta de
Metoda celor mai mici ptrate regresie
a
te
Coeficienii i se determin cu relaiile
lta
unde:
cu
e
Am descris anterior n mod grafic, cu ajutorul
i
ac
diagramei de mprtiere, legtura sau Definiie Covariana unei populaii statistice este
dependena dintre dou variabile. prin definiie:
rm
n apropierea unei drepte ce putea fi trasat
aveam o dependen liniar.
Covariana unui eantion statistic este prin
definiie:
Fa
Vom determina n continuare msurile numerice
ale dependenei liniare, i anume:
covariana
corelaia
de
Msurile numerice ale dependenei a Msurile numerice ale dependenei
liniare liniare. Coeficientul de corelaie
te
Dac cov(x,y) > 0, atunci avem o dependen liniar pozitiv
ntre variabilele analizate Definiia: Coeficientul de corelaie al unei
Dac cov(x,y) < 0, atunci avem o dependen liniar negativ populaii statistice este prin definiie:
ntre variabilele analizate
lta
i e
ac
Coeficientul de corelaie al eantionului
(coeficientul Pearson) poate fi determinat i cu
o relaie de calcul prescurtat:
rm
Fa
de
Msurile numerice ale dependenei liniare. Coeficientul de
Msurile numerice ale dependenei a corelaie
liniare. Coeficientul de corelaie Pentru a afla dac dou variabile studiate sunt corelate sau nu,
formulm urmtoarele ipoteze statistice:
te
- ipoteza nul (H0): cele dou variabile nu sunt corelate
y y y - ipoteza alternativ (H1): cele dou variabile sunt corelate
lta
Procedeu de lucru:
Se calculeaz coeficientul de corelaie r
Se calculeaz numrul gradelor de libertate (gl):
gl = nr. perechilor de date 2
Se alege un nivel de semnificaie: 0.10, 0.05, 0.02, 0.01.
cu
e
Tabelul 1. Valoarea critic a coeficientului de
corelaie pentru nivele diferite de semnificaie:
0,10; 0,05; 0,02; 0,01
Variabila de eroare , care apare n modelul de
i
ac
regresie trebuie s satisfac urmtoarele condiii:
rm
M[]=0;
[3] Abaterea standard a lui respectiv , este
Interpretare: constant fa de valorile lui x;
[4] Valoarea lui asociat unei valori y este
Fa
= 0.05
gl = 17
rcr = 0.4555
independent de alt valoare a lui y.
r = 0,6414 > rcr
se respinge H0 i se accept H1.
Cele dou variabile studiate sunt corelate.
de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
n modelul de regresie, abaterile valorilor Estimatorul nedeplasat al dispersiei variabilei
observate de la dreapta de regresie de eroare este dat de relaia:
lta
71
Evaluarea modelului de regresie Evaluarea modelului de regresie
e
O alt metod de evaluare a modelului de
i
ac
Coeficientul de determinare R2 msoar regresie este analiza rezidual.
intensitatea dependenei liniare dintre dou
variabile i este dat de relaia: O prim abordare este reprezentarea grafic, cu
ajutorul histogramei frecvenei relative a valorilor
rm
reziduale.
Fa
pun n eviden normalitatea, ceea ce ne arat
coeficientului de corelaie, adic faptul c eroarea este distribuit normal.
de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
Cerina ca dispersia variabilei de eroare s fie
Dac modelul de regresie este adecvat, putem
constant se numete homoscedasticitate.
s l utilizm pentru a face o prognoz sau o
lta
valorilor extreme.
72
Evaluarea modelului de regresie Evaluarea modelului de regresie
i e
Pentru predicia asupra unei valori individuale Pentru estimarea valorii medii a variabilei
ac
ale variabilei dependente, dat fiind o valoare dependente, dat fiind o valoare specificat x0
specificat x0 a variabilei independente se a variabilei independente se utilizeaz
utilizeaz intervalul de predicie de forma: intervalul de ncredere de forma:
rm
unde: unde:
Fa
de
Evaluarea modelului de regresie
a Evaluarea modelului de regresie
te
Determinarea coeficienilor dreptei
de regresie utiliznd Regression
din modulul Data Analysis.
lta
cu
e
n foarte multe cazuri, modelul de regresie simpl nu explic
i
suficient de bine legatura variabilei dependente de variabila
ac
independent. R2 este prea mic si este prea mare pentru a
Biostatistic da veridicitate modelului.
Situaia se datoreaz de cele mai multe ori neglijrii unor
factori suplimentari de influen.
rm
Luarea n considerare corect a acestora aduce o cretere
considerabil a preciziei modelului.
Se poate cuantifica astfel contribuia fiecarui factor la
Regresie Multipl explicarea variabilei dependente
Fa
Factorii suplimentari de influen semnificativi (alte variabile
independente) trebuie identificai cu atenie i validai ca atare
prin construcia modelului.
Curs
11
de
Exemplu a Exemplu-rezolvare
Modelul obinut nu este satisfctor (coeficientul de
ntr-un lan de farmacii,
determinare R2 este destul de redus iar deprtarea
te
remunerarea personalului este
Angajat Venit lunar Experienta punctelor de dreapta-model este cam mare). Nivelul
de ateptat sa fie proporional # (lei) (ani)
salariului nu este explicat suficient de vechimea n
cu experiena fiecrui angajat 1 1650 3
meserie. Managerul ncearca s gaseasc explicaii pentru
lta
2 1280 1
(nr de ani n meserie). Dorind 3 2420 18
aceasta n influena altor factori asupra retribuiei.
sa verifice acest lucru, 4 3180 15
5 1920 6
managerul unitii colecteaz 6 1500 2 Venit lunar (lei)
datele referitoare la 12 7 3430 12 4500 y = 112.13x + 1321
cu
4000 R = 0.7689
8 2220 12
farmaciti alei aleator (tabelul 9 4210 22
3500
simpl. 1000
Fa
500
0
0 5 10 15 20 25
74
REGRESIA MULTIPL REGRESIA MULTIPL modelul
e
Este o generalizare a modelului de regresie simpl.
i
Modelul construit n acest fel conine mai multe variabile Pentru modelul :
ac
independente (predictori, variabile explicative). Pentru Y=0+ 1*X1+ 2*X2+..+ k*Xk+
variabila dependenta Y i un numr de k variabile ordonm eantionul de n seturi de valori de care dispunem
independente X1, X2,, Xk, modelul de baz este:
[Yi, X1i, X2i,, Xki,] unde i=1,,n
Y=0+ 1*X1+ 2*X2+..+ k*Xk+
rm
calculm coeficienii ecuaiei unei suprafete ntr-un spaiu cu k
Putem astfel evalua influenele mai multor factori asupra
variabilei dependente (variabila de rspuns) care ne dimensiuni de forma:
intereseaz. Y(X1,X2,,Xk)=b0+ b1*X1+ b2*X2+..+ bk* Xk
Modelul poate fi utilizat pentru: care indeplinete condiia
Fa
Confirmarea si explicarea dependenelor
|Yi, Y(X1i,X2i,,Xki)| = min unde i=1,,n
Previzionare
Identificarea factorilor de control cei mai eficieni
de
CALCULUL COEFICIENILOR a Exemplu
Nesatisfcut de modelul de
te
Pentru modelul : regresie simpl construit,
Venit Nivel
lunar Experienta expertiza
Y(X1,X2,,Xk)=b0+ b1*X1+ b2*X2+..+ bk* Xk managerul unittii identific alt
Angajat # (lei) (ani) (1-40)
1 1650 3 12
calculul algebric manual al coeficienilor b0,b1,.. bk este variabila independent care ar 2 1280 1 8
lta
extrem de laborios i expus erorilor. Se utilizeaza rutine de putea influena salariul 3 2420 18 25
4 3180 15 32
calcul furnizate de produse de software adecvate. angajailor: nivelul de expertiz, 5 1920 6 17
exprimat n clasele 1-40 n care 6 1500 2 15
7 3430 12 35
este ncadrat fiecare angajat din
cu
e
Modelul obinut este satisfctor: coeficientul de determinare crescut R2 a
de la 0.769 n modelul simplu la 0.957 n modelul multiplu. Aceasta
nseamna c Experiena explic doar 77% din valoara venitului, n
i
timp ce Experien si Nivel expertiz explic 96%. F este foarte
ac
mare iar p este mult mai mic decat =1-Nivelul de incredere=1-
0.95=0.05 SUMMARY OUTPUT
rm
Adjusted R Square 0.946985467
coloana Coefficients, erorile standard ale
Coeficientul de SUMMARY OUTPUT Variabila statistica F Standard Error 199.8732147
coeficientilor n coloana Standard Error,
elemente pentru aplicarea testului de
determinare R2 Observations 12
Regression Statistics (Trebuie sa fie cat mai semnificaie t-Student pentru fiecare
(Trebuie sa fie cat mai Multiple R 0.978071814 Nivelul coeficient (coloanele t Stat si P-value.). Tot
R Square 0.956624473 mare) observat de
ANOVA
aici avem informaii despre intervalele de
apropiat de 1) Adjusted R Square 0.946985467 Significanc
Standard Error 199.8732147
semnificatie p df SS MS F eF ncredere calculate pentru fiecare parametru
Observations 12 Regression 2 7929547.9 3964773.97 99.245 7.37E-07 din modelul de regresie.
(Trebuie sa fie Residual 9 359543.72 39949.302
Fa
ANOVA
Significan mai mic decat Total 11 8289091.7
de
INTERPRETAREA MODELULUI a ALEGERA FORMEI VARIABILELOR
Modelul de regresie simpl INDEPENDENTE
te
V=1321+112*E
n cele mai multe cazuri variabilele independente sunt
sugereaz ca un nceptor la angajare (E=0) ar trebui s
castige 1321 lei/lun, iar n fiecare an veniturile ar trebui s-i mrimi msurabile cantitativ.
creasc cu 112 lei/lun. Puin probabil. Dac toate componentele eantionului pe care l modelm au
lta
farmacii, numarul de personal, datorii, etc, este abordabil doar dac toate mrimile
castige 427 lei/lun, n fiecare an veniturile ar trebui s-i sunt raportate la un indicator de scal, de ex mrimea activelor. n acest mod putem
creasc cu 15.3 lei/lun dac nu ii crete nivelul de include n eantion companii mari i companii mici)
expertiz, iar la fiecare cretere cu o clas (din cele 40) a Unii factori sunt mai degrab calitativi (ex: supervizor sau nu,
nivelului de expertiz, veniturile ar trebui s-i creasc cu barbat/femeie, studii superioare sau nu, etc) sunt inclui n model sub
Fa
81.44 lei/lun forma binar (Ex: X3 =0 daca angajatul nu este supervizor, X3 =1 dac
angajatul este supervizor)
76
Exemplu Exemplu - comentarii rezultate
e
Modelul obinut este MAI BUN: coeficientul de determinare R2 a crescut
Modelul cu 2 variabile de la 0.957 pentru 2 factori la 0.973 la 4 factori . F este foarte mare iar
Venit Nivel
p este mic. Coeficientul de determinare ajustat R2A a crescut de la
i
independente pare destul de Angajat lunar Experienta expertiza Supervizor Barbat
0.947 pentru 2 factori la 0.957 la 4 factori.
ac
precis, totui managerul unittii # (lei) (ani) (1-40) (da/nu) (da/nu)
mai caut s identifice i alte 1 1650 3 12 0 1 Modelul cu 4 factori este semnificativ statistic i superior
variabile care ar putea 2 1280 1 8 0 1
modelului cu 2 factori.
influena veniturile. E convins 3 2420 18 25 0 1
c poziia de supervizor are o 4 3180 15 32 1 1 Coeficientul de Variabila statistica F Nivelul
rm
determinare ajustat Regression Statistics
observat de
(Trebuie sa fie cat mai
influen semnificativ, i 5 1920 6 17 0 0
R2 A
Multiple R 0.986261311
semnificatie p
R Square 0.972711374
Adjusted R Square 0.957117874 mare)
banuiete c barbaii i femeile 6 1500 2 15 0 1
(Trebuiesa creasca la Standard Error 179.7609209
Observations 12 (Trebuie sa fie
primesc tratamente diferite, 7 3430 12 35 1 0 adaugarea unor
ANOVA
mai mic decat
acestea din urm fiind 8 2220 12 20 0 1 factori semnificativi) Significan ales initial, adica
df SS MS F ce F
discriminate. Pentru extinderea 9 4210 22 38 1 1 Regression 4 8062893.7 2015723.44 62.379 1.48E-05 0.05)
Fa
Residual 7 226197.92 32313.9887
analizei, completeaz datele 10 2240 7 22 0 0 Total 11 8289091.7
de
INTERPRETAREA MODELULUI a Exemplu -UTILIZARI POSIBILE ALE
Modelul de regresie multipl cu 2 factori
MODELULUI
te
V=427+15.3*E+81.44*N Managerul care a construit modelul poate s-i fac o prere
sugereaz c un ncepator la angajare (E=0, N=0) ar trebui sa castige 427 dac sistemul de salarizare este echitabil i motivant:
lei/lun, n fiecare an veniturile ar trebui s-i creasca cu 15.3 lei/lun dac Abaterile individuale (erorile) fa de model ar trebui minimizate, pentru
nu i crete nivelul de expertiz, iar la fiecare cretere cu o clas (din cele
lta
sugereaz c un incepator la angajare (E=0, N=0) ar trebui s castige 1055 datelor sale personale conduce la stabilirea unui nivel de
lei/luna, n fiecare an veniturile ar trebui s-i creasc cu 40.8 lei/lun dac
nu ii crete nivelul de expertiz, iar la fiecare cretere cu o clas (din cele venituri n concordan cu cele ale personalului existent.
40) a nivelului de expertiz veniturile ar trebui s-i creasc cu 37.5 Pentru evoluia n timp a veniturilor individuale, orice
lei/lun. Cnd ar deveni supervizor, ar trebui s cstige n plus
modificare pentru un angajat ar trebui sa l aduc mai
Fa
670.5lei/lun. Dac e barbat, castig mai putin cu 101 lei/lun dect dac
ar fi femeie. aproape de valoarea furnizat de model.
77
REGRESIA N PAI EXEMPLE DE TIPURI DE PROBLEME DE
e
REGRESIE MULTIPL
Sunt recomandate dou tipuri de abordri ale modelrii prin
i
regresie multipl: Cteva tipuri de cercetare utiliznd regresia multipl:
ac
Regresie cu pai nainte: se construiete un model de Preul unor produse legat de caracteristicile acestora
regresie simpl, apoi se introduc succesiv factori Efectul timpului i duratei reclamelor asupra vnzarilor
suplimentari de regresie multipl, supraveghind cresterea Consumul specific al unor vehicule n funcie de
semnificaiei statistice i creterea la fiecare pas a
rm
caracteristicile lor
coeficientului de determinare ajustat R2A. Cnd acesta
ncepe s scad cu creterea numrului de factori, ultimul Rezultatele colare ale unor studeni funcie de diverse
factor introdus este eliminat i modelul ramne n aceast caracteristici ale muncii depuse
form. Costurile de mentenan ale sftware-ului farmaceutic n
Fa
Regresie cu pai napoi: se construiete cel mai complex funcie de versiunea instalat i configuraia sa
model posibil i se elimin succesiv factorii care prin
Preurile locuinelor n funcie de mai muli factori
dispariie fac s creasc R2A.
Cheltuielile pentru o vacan n funcie de mai muli factori
78
Analiza dispersional unifactorial
Analiza dispersional unifactorial
e
Procedeul presupune descompunerea varianei totale (VT) n dou componente:
Ipoteza nul susine egalitatea ntre mediile grupelor din colectivitatea variana intergrupe (VE) i variana intragrupe (VR).
i
general, alctuite dup variabila X:
ac
Ipoteza alternativ susine c cel puin dou medii ale grupelor nu sunt
egale:
rm
Se testeaz, deci, dac diferentele intre mediile de grup nu sunt prea
mari pentru a fi puse doar pe seama ntmplrii (a factorilor aleatori),
iar dac exist cel puin dou medii semnificativ diferite, nseamn c
Fa
factorul de grupare X are o influen semnificativ asupra variabilei Y.
Mediile grupelor din colectivitatea general sunt aproximate prin
mediile grupelor din eantion ( , ),
de
Analiza dispersional unifactorial
a Analiza dispersional unifactorial
te
Variana dintre grupe (variana factorial, sistematic) arat influena Pentru a asigura comparabilitatea varianelor, ele sunt raportate la numrul
factorului cauzal asupra variaiei lui Y: gradelor de libertate, obinndu-se dispersii corectate:
lta
79
Analiza dispersional unifactorial
e
Analiza dispersional unifactorial
i
ac
Testul F (Fisher) este raportul ntre dispersia corectat factorial Valoarea calculat a testului F se compar cu valoarea critic,
i cea rezidual corespunztoare nivelului de semnificaie i gradelor de
libertate (r-1) i (n-r): F ; r-1; n-r.
Regula de decizie este:
Dac Fcalc F ; r-1; n-r , atunci se accept H0, deci mediile de grup
rm
nu difer semnificativ unele de altele, iar eventualele diferene ce
Presupuneri pentru aplicarea testului F: pot apare pot fi puse pe seama ntmplrii. n acest caz, variabila Y
este independent de factorul de grupare X i analiza dispersional
cele r grupe din eantion sunt extrase aleator din cele r este punctul final al analizei.
grupe ale colectivitii totale; Dac Fcalc> F ; r-1; n-r , atunci se accept H1, deci ntre mediile de
Fa
Fiecare grup din colectivitatea general are o distribuie grup exist o diferen semnificativ, care nu poate fi pus pe
seama aciunii factorilor aleatori. n acest caz, variabila Y depinde
normal, iar abaterile medii ptratice ale acestora sunt egale: semnificativ de factorul de grupare X i trebuie aplicate n
continuare metodele de analiz a legturilor dintre variabile.
de
Aplicaie a
te
lta
Nivel minim de
Variana Variana Grade de Dispersie corec- semnificaie ->prob.
intergrupe intragrupe libertate tat sistematic maxim cu care
garantm c H1 adev.
ANOVA
cu
80
Concluzii
i e
ac
Modelele de analiz dispersional nu explic relaia dintre variabile
Verific doar msura n care valorile reale ale unei caracteristici se
abat de la valorile teoretice, precum i msura n care aceste variaii
sunt sau nu dependente de factorul/factorii de grupare.
rm
Metoda analizei dispersionale poate fi utilizat att naintea, ct i
dup aplicarea metodelor corelaiei i regresiei statistice.
Testul F se poate utiliza i pentru testarea validitii modelului de
regresie.
n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri
Fa
ale unei variabile categoriale (numite i tratamente), dar, cum ceea ce
este valabil pentru o scal inferioar (nominal) este valabil i pentru
orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza
se poate extinde.
de
a
te
lta
cu
Fa
81