Documente Academic
Documente Profesional
Documente Cultură
CUNOATEREA STATISTIC
Arsenalul de atac pentru cunoatere se mbogete cu
valori statistice tipice frecvene dispersii corelaii
Limitele cunoaterii:
principiul nedeterminrii al lui Heisenberg teoria cuantelor (limite ale msurrilor posibile)
1-2 Statistica descriptiva 2
Evoluia sferei noiunii statistic Teoria probabilitilor Blaise Pascal XVII statistik: Gottfried Achenwall 1749
NICHOLAS GEORGESCU-ROEGEN
statistica: stabilirea naturii informaiilor despre stat, a cadrului n care sunt expuse
a evoluat spre Economie Politic, Sociologie, Demografie 1874, Rumelin: Statistica nu este dect o metod
tiina numrtorii, tiina numerelor mari, tiina valorilor medii. Istorie de 150 de ani.
1-2 Statistica descriptiva 3
DEX: STATISTICA
1. Eviden numeric referitoare la diverse fenomene; numrtoare 2. Culegere, prelucrare i valorificare a unor date 3. tiin care culege, sintetizeaz, descrie i interpreteaz date referitoare la fenomene generale 4. Statistic matematic: ramur a matematicii care elaboreaz noiunile i metodele folosite de Statistic (1., 2., 3.) 5. Teorie fizic ce urmrete i descrie comportarea unui sistem format din numeroase particule.
1-2 Statistica descriptiva 4
FENOMENE COLECTIVE
Fenomene naturale:
tipice : P = UI colective (generale) : variaia preului petrolului, rate de schimb, variaia incidenei unei boli etc.
nainte de apariia tiinei, toate fenomenele preau atipice (colective avant la lettre) Grania dintre fenomenele considerate tipice i cele considerate colective s-a modificat mereu
prin identificarea, observarea i msurarea a noi factori ce influeneaz respectivele fenomene analog graniei dintre rezovabil i nerezolvabil
FENOMENE COLECTIVE
METODA
Fenomene tipice:
experiena de laborator, modelarea matematic
Fenomene colective:
observarea (rareori repetabile prin experiment: meteorologie, economie, sociologie etc.) trebuie observate multe repetri
pentru a distinge tipicul de accidental
LEGE STOCHASTIC
Fenomene tipice: legi rigide Spaiul parcurs este egal cu produsul dintre viteza de deplasare i timpul de deplasare Fenomene colective: legi stochastice Din stejar, stejar rsare Spiritul uman, prin abstractizare, tinde s rein ce este tipic, general i s ignore excepiile.
1-2 Statistica descriptiva 8
STABILITATEA FRECVENELOR
Cum se descoper legi stochastice? Ce le face adevrate? Punctul comun al teoriei statisticii i al realitii:
Axioma stabilitii frecvenelor Dac ntr-o serie de observaii coninnd N1, N2, , Np cazuri, obinute sub influena aceluiai complex de cauze, numrul de cazuri prezentnd calitatea A este de f1, f2, , fp, atunci raporturile f1/N1, f2/N2, , fp/Np nu difer prea mult ntre ele.
Frecvenele relative ale evenimentului A. Bernoulli Ars conjectandi, 1713: demonstraie.
1-2 Statistica descriptiva 9
STABILITATEA FENOMENELOR COLECTIVE Nu doar la experimente artificiale (moneda) Halley: tabele de mortalitate.
Exemplu: din 100 000 de brbai de 30 de ani, 698 vor deceda nainte de a avea 31 de ani
n medie, pe mai muli ani
Societi de asigurare: pariaz implicit, prin suma asigurat, c raportul este acesta (de fapt, mai mare)
Schimbarea dramatic a factorilor (rzboi etc.) nu se asigur! Factorii care influeneaz vitalitatea populaiei pot varia de la generaie la generaie, comportarea medie rmne aproximativ aceeai.
Populaiile mici prezint particularizri ale factorilor i legea poate s nu fie respectat.
sondaj viciat de interogarea la telefon (1932).
O lege stochastic este valabil doar pentru populaii ce prezint toate variaiile de cazuri, fiecare cu proporia sa
(sub)populaii cu structur complet dualitatea dintre maximizarea / minimizarea subpopulaiei considerate
DISPERSIA
Stabilitatea frecvenelor nu se exprim prin constan a valorilor
valori n jurul celei ateptate.
Dispersia: abaterea valorilor reale de la valoarea medie. Dispersia poate caracteriza acolo unde media nu distinge Exemplu: temperaturi anuale medii egale n orae cu tipuri diferite de clim.
1-2 Statistica descriptiva 12
Statistica descriptiv
sintetizarea i prezentarea datelor informeaz, aranjnd datele pentru decizii
Exist 500 000 de analfabei n Romnia Venitul mediu anual pe cap de locuitor este de $1200 Sperana de via este de 70,1 ani Se pot face deducii privind un singur locuitor? Evident nu, dar se reprezint sintetic o ntreag populaie. Statistici:
valori punctuale (numerice) calculate folosind un eantion pot estima valorile corespunztoare pentru populaie.
1-2 Statistica descriptiva 15
ELEMENTELE DEFINITORII ALE UNUI STUDIU STATISTIC Populaie: o colecie de obiecte (entiti elementare, indivizi), posednd toate o anumit caracteristic.
finite / infinite; concrete / abstracte definirea populaiei este esenial
Eantion: o submulime a populaiei definite. Atribut variabil: o caracteristic ce prezint valori ce pot diferi de la un individ la altul.
cantitative / calitative (sortabile / nesortabile).
EANTIONARE ALEATOARE
Eantionare subiectiv (exemple: selecia rocilor, pacieni pentru tratamente diferite) Eantionare aleatoare: fiecare individ din populaie are aceeai ans de a fi selectat.
metoda seleciei aleatoare (etichetarea tuturor indivizilor) selecia sistematic (din k n k; periodiciti?) selecia stratificat (proporiile straturilor) selecia pe grupe: strzi, careuri de teren, circumscripii selecia ierarhic: aleator judee comune strzi persoane.
Statistica descriptiva 17
1-2
PROIECTAREA EXPERIMENTELOR
Nu se caut structuri mici n date foarte numeroase. Prelucrarea statistic ncepe dup analizarea atent a datelor (familiarizarea cu datele). La dimensiunile actuale, Data mining
automatizarea cutrii de structuri necunoscute
Colectarea datelor: numai n conformitate cu analiza statistic ulterioar. Surse de erori - datele:
pot lipsi (cei cu durerile cele mai mari se trateaz) pot fi greit nregistrate (cifre semnificative lips) pot fi din alt populaie: definire, eantion ne-aleator
1-2 Statistica descriptiva 18
FRECVEN
Frecvena unei observaii n eantion: numrul de apariii ale acelei observaii (valori) n eantion. Frecvena relativ a unei observaii n eantion: raportul dintre numrul de apariii ale observaiei n eantion i numrul total de observaii (dimensiunea eantionului) Distribuia frecvenelor (atribut variabil discret): mulimea tuturor observaiilor distincte, mpreun cu frecvenele lor relative n eantion.
Exemplu: fumat Intens
F_abs f_rel
1-2
Rar
2818 0.170
Nu
6563 0.397
Total
16500 1.00
19
7149 0.433
Statistica descriptiva
ATRIBUTE CONTINUE
Clas interval: un subinterval inclus ntre valorea minim i cea maxim. Frecvena clasei interval: numrul de observaii ce aparin clasei respective. Distribuia frecvenelor unui atribut variabil continuu: mulimea claselor interval mpreun cu frecvena fiecreia.
1-2 Statistica descriptiva 20
Poligonul frecvenelor: se unesc centrele laturilor superioare ale dreptunghiurilor din histogram. Frecvene cumulate: suma frecvenelor valorilor mai mici dect o valoare dat
variabile continue.
1-2 Statistica descriptiva 21
1. Tendina central (mediana, medii, mod) 2. mprtierea (amplitudine, quartile, deviaii, dispersie)
1-2 Statistica descriptiva 22
MEDIANA
Descriere printr-o observaie (sau prin media a dou observaii) din eantion. Eantionul se sorteaz dup variabila studiat. Definiie: Mediana unui set de N observaii ordonate cresctor este egal cu
valoarea de pe poziia k+1, dac N=2k+1 media dintre valorile de pe poziiile k i k+1, dac N=2k.
Stabilitate: schimbarea valorii unei observaii, dar nu i a rangului ei, nu afecteaz mediana.
1-2 Statistica descriptiva 23
MEDIA ARITMETIC
Depinde de toate observaiile. Dac valoarea xi se repet de pi ori: M = (p1x1++pnxn) / n Notnd fi = pi / n : M = f1x1 + + fnxn
(1)
2.- Pentru frecvene distribuite pe intervale - media ponderat a centrelor intervalelor de grupare:
se alege mijlocul fiecrui interval (presupunnd distribuie omogen pe interval / principiul erorii minime) se nmulete cu numrul de observaii pe interval se sumeaz dup toate intervalele i se mparte la numrul de observaii
Statistica descriptiva 24
1-2
MEDIA ARITMETIC
Stabilitate:
(2)
valorile aberante o afecteaz mici modificri ale sumei practic nu o afecteaz reaezri de intervale nu o afecteaz prea mult
Liniaritate: M(ax+b) = aM(x) + b Abaterile n raport cu media aritmetic: i (xi x ) = 0 Definiia variaional: media aritmetic este numrul M care minimizeaz expresia i (xi x )2
legtura cu definirea dispersiei.
1-2 Statistica descriptiva 25
MEDIA ARMONIC
Un automobil parcurge distana Iai Pacani de mai multe ori, respectiv cu vitezele de 80 km/h, 90 km/h, 120 km/h, 60 km/h. Care a fost viteza sa medie? M = 87,5 km/h n realitate: H = 1/(1/80 +1/90 +1/120 +1/60) = 82,3km/h. Utilizat la calcule bursiere (HGM) distribuii n J.
1-2 Statistica descriptiva 26
MEDIA GEOMETRIC
Populaia SUA:
1840: 17 069 000 1850: 23 192 000 1860: 31 443 000
Dac nu am avea observaia din 1850: Media aritmetic M = 24 256 000 Media geometric G = 23 167 000
1-2 Statistica descriptiva 27
Valoarea dominant (cea mai frecvent). Vrful poligonului frecvenelor. n cazul intervalelor: Mod = L + i*(fz fl) / ((fz fl) + (fz fh))
MDUL
i lungimea intervalului L marginea inferioar a clasei modale fz,l,h frecvenele claselor modal, imediat inferioar ei i imediat superioar
tipic spiritului uman s extind calitatea cel mai des ntlnit la toate elementele observate.
La o distribuie simetric, coincid. Media aritmetic nu se poate calcula pentru distribuii deschise (ultimul interval nemrginit); Mediana da. Pentru distribuii asimetrice, mdul d impresia cea mai real. Mediana i mdul nu au proprieti de liniaritate.
1-2 Statistica descriptiva 29
AMPLITUDINE
Msur grosier a variabilitii. Definiie: diferena dintre cea mai mare i cea mai mic valoare ale observaiilor. Exemple:
amplitudinea salariilor; amplitudinea temperaturii (pentru concediu); amplitudinea notelor (relevana unui test).
1-2 Statistica descriptiva 30
QUARTILE
Definiie: Pentru un set de observaii, quartilele (q1, q2, q3), sunt valorile din irul ordonat al tuturor observaiilor, pentru care numrul de valori mai mici dect ele reprezint 25%, 50%, respectiv 75% din numrul total de observaii.
q2 este mediana; q1 este mediana valorilor din stnga medianei; q3 este mediana valorilor din dreapta medianei.
1-2 Statistica descriptiva 31
DEVIAII I DISPERSIE
Deviaie medie: media abaterilor absolute fa de media aritmetic. Rar folosit.
1 dm = N
x
i =1
x;
dm_interva
f x x l= f
i i i
observaii: V =
(x
x )2
i
33
1-2
Statistica descriptiva
COEFICIENTUL DE DISPERSIE
Deviaia standard raportat la medie: SD CV = x
Exemplu. Eantion de manageri; vrsta (medie1 = 51, SD1 = 11,74); IQ (medie2 = 125, SD2 = 20). Ce atribut are mprtiere mai mare? CV1 = 11,74 : 51 = 0,23 CV2 = 20 : 125 = 0,16. Concluzie: mai mult variaie la vrst.
1-2 Statistica descriptiva 34
MOMENTE
m1 (x =
i
x)
m3 =
3 (x x ) i
=0
m2 =
2 (x x ) i
=0: simetric; <0: asimetric negativ (mod dreapta); >0: asimetric pozitiv.
m3 a3 = SD 3
m4 =
(x i x ) 4
1-2
TEORIA PROBABILITILOR
Statistica prelucreaz date reale, concrete. Metodele statisticii deriv ns din modele matematice abstracte. Teoria probabilitilor este suportul abstract fundamental al statisticii infereniale. Teoria probabilitilor se ocup de fenomenele cu comportare aleatoare.
3-5 Introducere in Teoria Probabilitatilor 1
EXPERIMENT ALEATOR
Un experiment aleator este un act care satisface urmtoarele condiii: toate situaiile finale distincte posibile sunt cunoscute a priori; pentru oricare repetare particular a experimentului, situaia final nu este cunoscut a priori; experimentul poate fi repetat n condiii identice
3-5
Nu se cunoate dinainte rezultatul, dar se cunosc toate rezultatele posibile. Exemplu. La aruncarea unui zar sunt 6 rezultate elementare posibile.
Introducere in Teoria Probabilitatilor 2
EVENIMENTE
Toate situaiile finale legate de un experiment aleator i despre care, dup efectuarea experimentului, putem spune cu certitudine c s-au produs sau nu.
Un eveniment este o submulime a mulimii tuturor rezultatelor (situaiilor) finale elementare posibile.
Exemplu. Evenimentul ca un zar s arate, dup aruncare, un numr par.
Nu se poate prevedea rezultatul unei singure repetri a unui eveniment aleator (factori!); se poate prevedea ns structura rezultatelor.
3-5 Introducere in Teoria Probabilitatilor 3
EVENIMENTE CONTRARE
Exemple:
{1,3} i {2,4,5,6} S i .
Dat un eveniment E, lui i corespunde evenimentul contrar E , a crui producere nseamn prin definiie nerealizarea lui E. A contrar lui B B contrar lui A. Proprieti: A = A; S = ; = S .
3-5 Introducere in Teoria Probabilitatilor 5
EVENIMENTE COMPATIBILE
Evenimentele A i B sunt compatibile dac se pot produce simultan.
Exist rezultate finale favorabile i lui A, i lui B. Exemplu: La aruncarea unui zar, par i prim.
EVENIMENT IMPLICAT
Evenimentul A implic evenimentul B (B este implicat de A) dac B se produce ori de cte ori se produce A. Ca mulimi de rezultate finale elementare, A este inclus n B. Exemplu. La aruncarea unui zar
A putere nenul a lui 2; B par {2,4} {2,4,6} A impar; B prim {1,3,5} {1,2,3,5}
3-5 Introducere in Teoria Probabilitatilor 7
OPERAII CU EVENIMENTE
Reuniunea. Date evenimentele A i B, evenimentul reuniune A B se produce atunci cnd se produce cel puin unul dintre evenimentele A , B.
{1,2,5} {3,4,5} = {1,2,3,4,5}.
Intersecia. Date evenimentele A i B, evenimentul intersecie A B se produce atunci cnd se produc simultan i A i B.
par prim = {2} (compatibile) par impar = (incompatibile).
3-5 Introducere in Teoria Probabilitatilor 8
Spaiul de selecie se schimb n funcie de punctul de vedere din care este privit experimentul Exemplu. Aruncarea a dou monezi (o repetare):
{(BB),(BS),(SB),(SS)} ce fee apar {(2,0),(1,1),(0,2)} de cte ori apare fiecare fa {ID, DIF} sunt sau nu identice feele
3-5 Introducere in Teoria Probabilitatilor 9
FRECVEN
Fie un experiment i A un eveniment ataat. Se repet experimentul de n ori, de a ori producndu-se evenimentul A
iar de n-a ori, evenimentul contrar lui A. a Numrul f n = n este frecvena relativ a
3-5
au aceeai ans de a se produce, atunci ele sunt egal probabile (equally likely)
iar probabilitatea fiecruia este 1/n.
3-5 Introducere in Teoria Probabilitatilor 11
Exemple.
A - evenimentul imposibil: P(A) = 0. A evenimentul sigur: P(A) = 1.
Monotonie: 0 P(A) 1 .
3-5 Introducere in Teoria Probabilitatilor 12
Exemplu. Cel puin un 1 n dou aruncri ale unui zar: P(A) = (36-25) / 36 = 11 / 36 .
3-5 Introducere in Teoria Probabilitatilor 13
nm = 1 P(A) m
Dac exist o infinitate de cazuri elementare, atunci toate probabilitile sunt practic 0. La fenomene sociale definiia nu este aplicabil, cnd nu se cunoate numrul de cazuri.
Exemplu. Frecvena n populaie anul viitor depinde de numrul necunoscut de persoane de peste un an.
3-5 Introducere in Teoria Probabilitatilor 14
P(A
i =1
Demonstraie. A1 definit de n1 evenimente elementare, , Ak de nk evenimente elementare; A = Ai este definit (disjuncte!) de ni evenimente elementare.
3-5 Introducere in Teoria Probabilitatilor 15
Definiii. 1.- Orice mulime de puncte este un eveniment. 2.- Un eveniment se numete elementar dac are cardinalitate 1. 3.- Evenimentul A s-a produs dac rezultatul experimentului este un punct din mulimea ce definete A.
Evenimentul imposibil nu conine nici un punct. Orice alt eveniment este o reuniune de evenimente elementare.
3-5 Introducere in Teoria Probabilitatilor 18
1.- P() = 0 ( - evenimentul imposibil) Demonstraie. 1 = P(S) = P(S) = P(S)+P() = 1+P() 2.- A, A, A=i {ei}, ei evenimente elementare: P(A) = i P(ei) Demonstraie. Prin inducie. + P( E ) = 1 3.- P(E) k k Ei ) = P(Ei ) P(Ei Ej ) + P(Ei Ej Ek ) ... 4.- P( i =1 i< j i< j<k i =1
+ ( 1)k 1 P(E1 E2 ... Ek )
Introducere in Teoria Probabilitatilor 21
3-5
Definiie. Probabilitatea evenimentului A, dat faptul c B are loc (P(B)0), se numete probabilitate condiionat a lui A, dat B: P(A/B) = P(AB) / P(B)
Intuitiv: B devine noul spaiu de selecie, A mai putndu-se realiza numai prin evenimente din AB.
3-5 Introducere in Teoria Probabilitatilor 22
I.
Fr informaia suplimentar:
Suma 6: (1,5), (2,4), (3,3), (4,2), (5,1) P(E) = 5/36 < 1/6.
II.
3-5
23
E: nici unul nu alege propria plrie. Ec: cel puin unul alege propria plrie. Ei: persoana i alege plria proprie. P(Ei)=1/3 evident; P(EiEj)=P(Ei)P(Ej/Ei)=(1/3)(1/2)=1/6, ij; P(E1E2E3)=P(E1E2)P(E3/E1E2)=(1/6)1
P(Ec)=P(E1E2E3)=3(1/3)-3(1/6)+1/6=2/3 P(E)=1/3.
3-5 Introducere in Teoria Probabilitatilor 24
G i F sunt independente.
P(G F) = 1/36 = (6/36)(6/36) = P(G)P(F) Indiferent de valoarea primului zar, P(G) 0.
3-5 Introducere in Teoria Probabilitatilor 26
(1)
Teorem (nmulirea probabilitilor dependente). Dac A1, , Ak sunt evenimente pentru care P(A1Ak) 0, atunci: P(A1Ak) = P(A1)P(A2/A1)P(A3/A1A2)P(Ak/A1Ak-1)
Demonstraie: se aplic definiia. Pentru evenimente independente, P(A1Ak)=P(A1)P(Ak)
Teorem (formula probabilitii totale). Dac A1,, Ak realizeaz o partiie a spaiului de selecie S i dac X este un eveniment din S (XS), atunci: P(X) = P(A1)P(X/A1)++P(Ak)P(X/Ak)
(interpretare grafic)
3-5 Introducere in Teoria Probabilitatilor 27
(2)
Fie evenimentele A1,, Ak care realizeaz o partiie a spaiului de selecie S; fie X este un eveniment din S (XS); se cunosc probabilitile a priori: P(A1),,P(Ak), probabilitile condiionate P(X/A1),,P(X/Ak). Se efectueaz experimentul i se produce X. S se determine P(A1/X),,P(Ak/X) (probabilitile a posteriori).
3-5 Introducere in Teoria Probabilitatilor 28
(3)
P(A
j =1
) P(X/A j )
Ei: prizonierul i este ales pentru execuie. P(E1) = P(E2) = P(E3) = 1/3. Fi: prizonierul i este eliberat. P(F1) = P(F2) = P(F3)
P(E1/F2 ) =
3-5
P(F /E ) P(E )
i =1 i
P(E/F 1 ) P(F 1)
i
P(E/F ) P(F )
i =1 i
VARIABILE ALEATOARE
Cnd rezultatele experimentului aleator sunt exprimate prin numere, se pot ataa probabiliti nu doar evenimentelor, ci i unor unor valori obinute prin funcii de evenimente.
Exemplu. Probabilitatea ca suma a dou zaruri s fie 7; nu intereseaz probabilitatea s apar, de exemplu, (3,4).
Astfel de funcii reale definite pe (structuri de interes din) spaiul de selecie sunt variabile aleatoare. Cum fiecare valoare a unei variabile aleatoare este dat de rezultatul unui experiment, se pot asigna probabiliti valorilor posibile ale unei variabile aleatoare: f(x) = P{X = x}, unde X este variabila aleatoare.
6 Variabile aleatoare 1
UN EXEMPLU
Fie X suma obinut n urma aruncrii a dou zaruri
o funcie de rezultatul experimentului.
X este o variabil aleatoare. Probabilitile ataate: f(1) = P{X=1} = 0; f(2) = P{X=2} = P{(1,1)} = 1/36; f(3) = P{X=3} = P{(1,2),(2,1)} = 2/36; f(7)=P{X=7}=6/36; f(8)=5/36;;f(12)=1/36 Una i numai una dintre aceste situaii va aprea la fiecare repetare a experimentului: 1 = P(i=2..12{X=i}) = i=2..12P{X=i}
6 Variabile aleatoare 2
DEFINIII
1. O variabil aleatoare (v.a.) este o variabil (funcie) a crei valoare este de fiecare dat un numr determinat de evenimentul rezultat n urma unui experiment aleator. 2. Repartiia unei variabile aleatoare. Fie X o v.a. care poate lua valorile x1, x2, , xn, cu probabilitile f(x1), f(x2), , f(xn). Repartiia v.a. X este mulimea ale crei elemente sunt perechile ordonate (xi, f(xi)), i=1..n.
6 Variabile aleatoare 3
Fie trei bile identificate prin a, b, c, care se repartizeaz aleator n trei urne. Se cere: probabilitatea ca dou urne s fie ocupate; probabilitatea ca trei urne s fie ocupate;
Fie X v.a. care numr urnele ocupate.
33 moduri de a ocupa urnele.
EXEMPLE
Dac o variabil aleatoare X ia valorile distincte x1, x2, , xn , atunci X produce o partiie a spaiului de selecie, {A1, A2, An}, unde Ai se produce dac i numai dac X=xi
Evenimentele X=xi ca evenimente elementare.
_______________________________________ Cu variabile aleatoare se pot efectua diverse operaii. n cele ce urmeaz, fie X i Y v.a. cu repartiiile: (xi, f(xi)), i=1..n, (yk, f(yk)), k=1..m.
6 Variabile aleatoare 5
Variabile aleatoare
V. A. DISCRETE / CONTINUE
Variabilele aleatoare care iau valori ntr-o mulime finit sau numrabil se numesc v.a. discrete. Exemplu: suma valorilor a trei zaruri. Variabilele aleatoare care iau un continuum de valori se numesc v.a. continue. Exemplu: timpul necesar parcurgerii a 100 m
la modul ideal, nu ca rezultat al msurtorii.
6 Variabile aleatoare 10
P{X<b} = limh0+ P{X b-h} = limh0+ F(b-h) P{X=b} = F(b) - limh0+ F(b-h) (discrete; continue)
6 Variabile aleatoare 12
Pentru o variabil aleatoare discret X se definete funcia de (mas de) probabilitate ntr-un punct a prin: f(a) = P{X=a} f(a) > 0 pentru o mulime cel mult numrabil de valori ale lui a, adic: f(xi) > 0, i=1,2,; f(x) = 0 pentru orice alte valori ale lui x. Cum X ia de fiecare dat numai una dintre valorile xi, are loc: f(x ) = 1
i =1
toti x i a
Variabile aleatoare
f(x )
i
13
Dac X este numrul de succese n n repetri ale experimentului, atunci X se numete v.a. binomial cu parametrii (n, p). Funcia de probabilitate este dat de: i i n i f(i) = C n p (1 p ) , i = 0, n
6 Variabile aleatoare 16
3. La o fabric de becuri rebuturile reprezint 10% dintre produse. La serviciul de control al calitii un inspector verific 10 becuri. Care este probabilitatea s nu gseasc mai mult de 1 bec defect?
Nu este chiar o variabil binomial, cci experimentele (extragerile) nu sunt independente. Dac sunt destul de multe becuri, se poate aproxima binomial (probabilitatea alegerii unui bec defect se modific foarte puin). Aproximnd:
F(1) = P{X1}=P{X=0}+P{X=1}=0.3487+0.3874
6 Variabile aleatoare 20
X = B(10; 0.1) :
0.45
0.4 0.35
0.3 0.25
BINOMIALA
0.2 0.15
0.1 0.05
0 0 1 2 3 4 5
Variabile aleatoare
21
Un handbalist transform 75% din loviturile de la 7m. n finala campionatului, handbalistul trage 12 lovituri de la 7m, ratnd 5 dintre ele. A fost el stresat sau performana era de ateptat? Dac loviturile se transform independent, atunci nr. de lovituri transformate este dat de X = B(12; 0,75). p>0,5 se neag succesul: B(12; 0,25). P{X5} = P{X=5}++P{X=12} = 0,1032+0,0401+ +0,0115+0,0024+0,0040+(0) = 0,1576 Cam ntr-un meci din 10 va rata exact 5 din 12. Iar ntr-un meci din 6 va rata cel puin 5 din 12.
Variabile aleatoare 22
n =1
f (i ) = P{ X = i} = e
Tem: suma dupa i este 1 (formula lui Taylor). - O variabil binomial B(n,p) este aproximat de o variabil Poisson cu =n*p, pentru valori mari ale lui n i mici ale lui p.
6 Variabile aleatoare 25
i!
, i = 0,1,...
P{X B} = B f (x)dx
1 = P{ X ( , )} =
6 Variabile aleatoare
f ( x ) dx
27
PROPRIETI DE CALCUL
P { a X b } = f ( x ) dx a P{ X = a} = 0
b
X a+ } 2 2
Variabile aleatoare 28
VARIABILA ALEATOARE UNIFORM V.a. uniform distribuit pe (0,1): f (x) = if (0<x<1) then 1 else 0 endif. f(x)0 ; P{-<X<}=1 a,b(0,1): P{aXb}=b-a V.a. uniform distribuit pe (,): f (x) = if (<x<) then 1/(-) else 0 endif. Tem: F(a) = ?
6 Variabile aleatoare 29
Variabila aleatoare exponenial de parametru >0 are densitatea de probabilitate: x f (x) = if (x<0) then 0 else e endif.
6 Variabile aleatoare 30
VARIABILE ALEATOARE NORMALE V.a. X este normal distribuit cu parametrii si 2 dac densitatea ei de probabilitate este x 1 2 f ( x) = e ( 2) Proprieti: 1. X = N(, 2) Y = aX+b = N(a+b, b22) 2. X = N(, 2) Y = (X - ) / = N(0, 1) la cte deviaii standard de media se gsete fiecare observaie
2
Variabile aleatoare
31
M[X] =
x: f ( x)>0
x f (x)
M [ X ] = x f ( x ) dx
1 x dx = V.a. uniform: M[X] = = (+)/2 Tem:
Exponenial: M[X] = 1 / Normal: M[X] =
Variabile aleatoare
33
MEDIA UNEI FUNCII DE O V.A. (1) M[g(X)] = M[Y], unde Y = g(X). Exemplu: Dac X este uniform distribuit pe (0,1), s se calculeze M[X3]. Soluie. Y=X3. FY(a) = P{Ya}=P{X3a}=P{Xa1/3}=
a1 / 3
f ( x ) dx = dx = a
0
a1 / 3
1 3
1 2 / 3 af ( a ) da = a a da = 1 / 4 Y 3 0
M[X3]=M[Y]
34
X v.a. uniform: D2(X) = (-)2 / 12 X v.a. exponenial: D2(X) = 1 / 2 X v.a. (n,): D2(X) = n / 2
6 Variabile aleatoare 37
DISTRIBUIA UNUI VECTOR ALEATOR Fie X, Y dou variabile aleatoare Funcia de distribuie vectorial a lui X i Y F(a,b) = P{Xa, Yb}, a,bR Distribuiile variabilelor aleatoare iniiale se regsesc ca distribuii marginale (proiecii): FX(a) =P{Xa} = P{Xa, Y} = F(a, ) FY(b) =P{Yb} = P{X, Yb} = F(, b)
6 Variabile aleatoare 38
MASA I DENSITATEA DE PROBABILITATE VECTORIALE V.a. vectoriale discrete: funcia de (mas de) probabilitate vectorial a lui (X, Y) este: f(x,y) = P{X=x, Y=y} f (x, y) Marginale: fX(x) = P{X=x, YR}= y:f ( x,y)>0 V.a. vectorial continu: (X,Y) este v.a.v.c. dac exist f:R2R astfel nct, A,B R, f ( x , y ) dxdy P{XA, YB} = B A
Marginale: P{X A}= unde:
6
f ( x, y ) dxdy = f X ( x ) dx ,
f X ( x ) = f ( x, y ) dy
Variabile aleatoare 39
continue: M[g(X,Y)] = g(x, y) f (x, y)dxdy Exemplu: X suma a trei zaruri aruncate independent. X = X1 + X2 + X3 . Media:
M[X]=M[X1+X2+X3]=M[X1]+M[X2]+M[X3 ]=21/2 Tem. Din n persoane, n medie cte i recupereaz propria plrie? (Indicaie: Xi=if i da then 1 else 0 endif; P{Xi=1} = 1/n; M[Xi] = 1/n; M[X] = 1).
6 Variabile aleatoare 40
V. A. INDEPENDENTE
Definiie. V.a. X, Y sunt independente dac, a,bR: P{X a, Y b} = P{X a} P{Y b} (evenimentele {X a} i {Y b} sunt independente) n termenii funciei de distribuie vectorial F: a,bR: F(a,b) = FX(a) FY(b) n termenii funciei de probabilitate f, pentru (X,Y) discret sau continu: f(x,y) = fX(x) fY(y). Propoziie. Dac X, Y sunt independente, atunci, funcii g, h: M[g(X)h(Y)] = M[g(X)]M[h(Y)] Caz particular: M[XY] = M[X]M[Y].
6 Variabile aleatoare 41
COVARIAN Definiie. Fie X i Y dou v.a. Covariana lor este: cov(X,Y) = M[(X-M[X])[Y-M[Y])]. Propoziie: cov(X,Y) = M[XY]-M[X]M[Y]
Obs.: X,Y independente cov(X,Y) = 0; nu i reciproc! Intuitiv: cov(X,Y)>0 dac Y crete odat cu X, iar cov(X,Y)<0 dac Y descrete cnd X crete. Tem. X = if (A se realizeaz) then 1 else 0; Y = if (B se realizeaz) then 1 else 0. cov(X,Y) = 1 P{X=1,Y=1}-1 P{X=1}1 P{Y=1} cov(X,Y)>0 cnd, iar cov(X,Y)<0 cnd.
6 Variabile aleatoare 42
DISPERSIE I COVARIAN D2(X+Y) = D2(X) + D2(Y) + 2cov(X,Y) Independente: D2(X+Y) = D2(X) + D2(Y) D2(X1++Xn) = D2(X1) ++ D2(Xn) + 21 i<jncov(Xi,Xj) Tem. n exemplul anterior, care este dispersia numrului de persoane care i recupereaz propria plrie? (Rspuns: 1).
6 Variabile aleatoare 43
COEFICIENT DE CORELAIE Coeficientul de corelaie al v.a. X i Y este: cov( X , Y ) r ( X ,Y ) = D 2 ( X ) D 2 (Y ) X, Y independente r(X,Y) = 0 (nu i reciproc!) Pentru orice v.a. X i Y : r2(X,Y) 1. Dac Y = aX+b (a0,b - constante) atunci r(X,Y) = if (a>0) then +1 else 1 endif.
6 Variabile aleatoare 44
FUNCII GENERATOARE DE MOMENTE Funcia generatoare (de momente) a variabilei aleatoare X este, pentru orice tR
e f ( x ) dx Tem. Toate momentele lui X se obin ca valori n 0 ale derivatelor lui : M[Xn]= (n)(0) Indicaie: prin inducie. Pasul iniial: d d tX ' tX (x) = (M[e ]) = M[ e ] = M[XetX ] dt dt ' (0) = M[X]
6 Variabile aleatoare 45
(t ) = M [ e ] =
tX
x: f ( x ) > 0 + tx
e tx f ( x)
X=B(n,p). (t) = (pet+1-p)n XPoisson de parametru . (t) = e(e^t-1) X = N(,). (t) = M[etX] =
1 + tx = e e 2
( x )2 2 2
dx =e
t
2
+ t
Se deduc apoi, pentru fiecare caz, M[X], M[X2] i D2(X), folosind pentru calculul momentelor
6 Variabile aleatoare 46
PROPRIETILE FUNCIILOR GENERATOARE DE MOMENTE Funcia generatoare de momente a unei sume de variabile aleatoare independente este produsul funciilor lor generatoare.
X+Y(t) = M[et(X+Y)] = M[etXetY] = =M[etX]M[etY] = X(t)Y(t)
INEGALITATEA LUI MARKOV Dac X este o variabil aleatoare ce ia doar valori nenegative, atunci pentru oricare a>0 P{X a} (1/a) M[X] Demonstraie. a M[X] = x f (x)dx = x f (x)dx+ x f (x)dx
0
INEGALITATEA LUI CEBEV Consecin. Dac X este o variabil aleatoare cu media i dispersia 2 , atunci pentru oricare k>0: 2 P{ X k } 2 k Demonstraie. 2 i a=k2 Aplicm Markov pentru 2v.a. (X ) 2 2 Inegalitile Markov i Cebev dau margini pentru probabiliti cnd nu se tie distribuia v.a., ci doar media / dispersia ei.
7 Teoreme fundamentale 2
M[( X ) ] P{( X ) k } = 2 ; P{ X k} 2 2 k k k
2 2
Selecii repetate, independente, din aceeai populaie Experiment repetat independent: media tinde la parametru
Teoreme fundamentale 3
M[Xi ] = P{E}
Teorem. Fie X1, X2, un ir de v.a. independente identic distribuite fiecare cu media i dispersia 2. Atunci distribuia v.a. X 1 + X 2 + ... + X n n , n N , tinde la N(0,1). 2 /n x a Sau: X1 + X 2 + ...+ X n n 1 a} = limP{ e 2 dx n n 2
2
Teoreme fundamentale
Teoreme fundamentale
APROXIMAREA NORMAL A BINOMIALEI X = B(n,p) are aceeai distribuie ca 1..nXi, cu Xi = B(1,p) = Bernoulli(p) i Xi v.a. independente X M[ X ] X np Y= = = 2 Atunci distribuia lui np(1 p) D (X ) X1 + ... + X n tinde la N(0,1) cnd M[ X i ]) n( n = n (Y normal!) D2 ( X i ) n Aproximarea n N(0,1) este bun pentru: np(1-p)10.
7 Teoreme fundamentale 7
UN EXEMPLU
Fie X numrul de apariii ale feei ban la 40 de aruncri independente ale unei monede. Ct este P{X=20}? 19,5 20 X 20 20,5 20
} P{19,5 Xc 20,5} = P{ P{X = 20 Xc 20 +0,16 } (0,16) (0,16) P{0,16 10 10
c
10
10
}=
PROCESE STOCHASTICE
Definiie. Un proces stochastic {X(t), tT} este o colecie de variabile aleatoare. (t, X(t) e o v.a.). X(t) este starea procesului la momentul t
(un proces stochastic descrie evoluia n timp a unui proces).
Exemple. X(t) poate numra: clienii intrai n magazin pn la momentul t; clienii aflai n magazin pn la momentul t; banii ncasai pn la momentul t.
Teoreme fundamentale
10
RSPUNSURI RANDOMIZATE
Ai copiat la vreo lucrare (proiect) n facultate? Procedura de rspuns. Fiecare student arunc o moned n secret. Dac e BAN i nu a copiat, spune NU. n orice alt situaie, spune DA (a copiat sau STEMA). tiind c 30% din studeni au copiat mcar o dat i presupunnd moneda corect, s se construiasc un arbore de decizie probabilist. (0,5 BAN) (0,7 NU) (0,3 DA) DA 0,35 DA 0,15 NU 0,35 DA 0,15 Dar dac NU reprezint 39% din rspunsuri, ci studeni putem estima c nu au copiat? P{N} = P{N/B} = P{NB} / P{B} = 0,39 / 0,5 = 0,78
7 Teoreme fundamentale 11
Cazul discret. Date X,Y v.a., se definete funcia de (mas de) probabilitate condiionat a lui X dat c Y=y: P{X = x,Y = y} f X / Y ( x / y) = P{X = x / Y = y} = P{Y = y}
f (x, y) f X /Y (x / y) = , fY ( y)
8
cu
P{Y = y} > 0.
1
Medii conditionate
Media condiionat a variabilei X, dat Y=y: M[X/Y=y] = x xP{X=x/Y=y} = = x xfX/Y(x/y) Definiiile au acelai suport ca n cazul funciilor de probabilitate i de distribuie, respectiv al mediei, dar includ condiionarea de evenimentul Y=y. Definiiile coincid cu cele clasice atunci cnd X i Y sunt variabile independente, caz n care: fX/Y(x/y) = P{X=x}, pentru oricare y.
8 Medii conditionate 2
EXEMPLE
1.- (Tem). Dac X i Y sunt variabile aleatoare Poisson de parametri (medii) 1 i 2, atunci distribuia de probabilitate condiionat a lui X, dat X+Y=n este binomial: B ( n , 1 / (1 + 2 ) ). 2.- (Tem). Dac X i Y sunt variabile aleatoare independente, ambele B ( n , p ), atunci variabila X / X+Y=m este distribuit hipergeometric.
k mk Cn Cn Anume: P{X=k / X+Y=m} = C m 2n
M [ X / Y = y ] = x f X / Y ( x / y ) dx
Exemplu: Dac (X,Y) are densitatea vectorial f(x,y) = if (0<x< i 0<y<2) then 0,5y e-xy else 0 endif. Care este M[eX/2/Y=1] ?
f ( x ,1) f X / Y ( x / 1) = = fY (1) M [e
8
X /2
0,5 e x
x 0 , 5 e dx 0
= ex
/ Y = 1] = e
0
x/2
f X / Y ( x / 1) dx = e x / 2 e x dx = 2.
0
Medii conditionate
CALCULUL MEDIILOR PRIN CONDIIONARE Se poate considera funcia avnd ca argument v.a. Y i care are, n punctul Y=y, valoarea M[X/Y=y]. Notm aceast funcie ea nsi o v.a. - cu M[X/Y]. Propoziie (tem). Pentru orice v.a. X i Y are loc: M [ X ] = M [ M [ X / Y ] ]. Indicaie.M[X]=y M[X/Y=y] P{Y=y}, respectiv
UN EXEMPLU
Un miner este blocat ntr-o galerie cu trei ui. Prima duce afar dup 2 ore de drum, a doua l face s revin n galerie dup 3 ore, a treia la fel, ns dup 5 ore. Dac alegerile uilor sunt permanent echiprobabile, dup ct timp, n medie, va reui minerul s ias la lumin? Fie X timpul pn a ajunge afar, Y ua aleas. M[X] = M[X/Y=1]P{Y=1}+M[X/Y=2]P{Y=2}+ M[X/Y=3] P{Y=3} = (1/3)(M[X/Y=1]+M[X/Y=2]+ M[X/Y=3]) M[X/Y=1] = 2; M[X/Y=2] = 3+M[X]; M[X/Y=2] = 5+M[X] M[X] = (1/3) (2+(3+M[X])+(5+M[X]))=10. (ncearc tot)
8 Medii conditionate 7
M n = M [ X / Y = j ] (1 / n )
j =1
Sunt j-1 mai mici, n-j mai mari, trebuie n-1 comparaii pentru a le gsi: Mn = (1/n) j(n-1+Mj-1+Mn-j) = =( n-1)+2(1/n)(M0+M1++Mn-1), cu M0=0.
8 Medii conditionate 8
= n ( n 1) + 2 M k
k =1 n k =1
n 1
( n + 1) M n +1 = n ( n + 1) + 2 M k se scad : = ( n + 2 ) M n + 2 n.
( n + 1) M n +1
Medii conditionate
M [ X ] = M [ X / Y = i] P i = M [Zi / Y = i ] P i = M [Zi ] P i
i =1 i =1 i =1
8 Medii conditionate 11
M[ X ] = (1+
i=1
j i i
P + Pj
) P i = 1+ P i
i=1
j i i
P + Pj
12
Medii conditionate
k SUCCESE CONSECUTIVE
Se repet experimente independente, fiecare cu probabilitatea p de succes, pn se produc k succese consecutive. S se arate c numrul mediu de repetri necesare este: Mk = 1/p + 1/p2 ++1/pk. Fie Nk numrul de repetri necesare pentru k succese consecutive. Mk = M[Nk]. Recursie prin condiionare: Mk = M[Nk] = M[ M[Nk/Nk-1] ] Dar: M[Nk/Nk-1] = Nk-1+1+(1-p)M[Nk] De unde: Mk = Mk-1+1+(1-p)Mk Mk = 1/p + Mk-1 / p M1 = 1/p (geometric); M2 = 1/p+ 1/p2;
8 Medii conditionate 14
STATISTIC INFERENIAL
Statistica inferenial trage concluzii valabile pentru populaie din datele unuia sau mai multor eantioane, folosind calcule probabiliste. Fapte cunoscute generalizare la populaie. Fr suportul probabilitilor, e posibil ca un efect s fie considerat sistematic, cnd de fapt el este aleator (de exemplu, k succese consecutive). Alteori, dimpotriv, efecte sistematice pot trece neobservate. Exemple de inferen statistic: interval de ncredere pentru estimarea valorii unui parametru; teste de semnificaie pentru evaluarea unei aseriuni (ipoteze). Aceste paradigme arat ce s-ar ntmpla dac metoda de inferen s-ar aplica de multe ori. Metodele de inferen se bazeaz pe distribuii de sondaj (experimente: respectarea caracterului aleator!).
datele sunt privite ca provenind din eantionare aleatoare.
9 Statistica inferentiala 1
ESTIMAREA PARAMETRILOR
Estimarea parametrilor se face folosind statistici calculate din eantioane. Estimare punctual: parametrul este aproximat printr-o valoare. Estimare prin interval: o valoare inferioar i una superioar, ntre care se afl valoarea parametrului, cu o probabilitate dat.
9 Statistica inferentiala 2
REPARTIIA DE SONDAJ
Fie o populaie C format din N obiecte, descrise de valorile unei caracteristici X: a1, a2,, aN. n C, media i dispersia caracteristicii X sunt: M[X] = (1/N)iai = ; D2(X) = (1/N)i(ai-)2 = M[(X- )2] = 2 Estimarea de parametri (, 2 etc.) ai populaiei se face folosind eantioane aleatoare de volum n. n Pentru Xi = {xi1, , xin}, fie x i ( n ) = ( x 1 + ... + x i i )/n
Fiecare xij este o valoare a unei v.a. cu aceeai repartiie ca i X.
{x1 ( n ), x 2 ( n ), ... } sunt valori succesive ale v.a. a mediilor de sondaj pentru e.a. de volum n. Repartiia unei astfel de v.a. se numete repartiie de sondaj.
9 Statistica inferentiala 3
i =1
(X
xn )2
4
n 1
Statistica inferentiala
ESTIMAREA MEDIEI
Medie. Cu aproximarea anterioar pentru dispersie, din inegalitatea lui Cebev obinem:
1 P{ xn < k D ( xn )} 1 2 sau k 1 s s < < xn + k } 1 2 P{xn k n n k
2
Cu ct k este mai mare, cu att probabilitatea este mai aproape de 1. Aadar, o aproximare a lui s s ( x k , x + k ) n n este intervalul: n n 2 xn = N ( , ) Teorema Leapunov.
n
9 Statistica inferentiala 5
Media populaiei poate fi estimat prin media eantionului (sau mediana, mdul, media de ordin k, media geometric, media armonic a acestuia). Cum alegem un estimator? Acuratee: statistica trebuie s indice valoarea corect a parametrului. ncredere: valorile statisticii trebuie s fie cel mai frecvent aproape de valoarea parametrului.
9 Statistica inferentiala 6
2 ( xi x n )
INTERVALE DE NCREDERE
Intervalul de ncredere const dintr-un interval rezultat din eantion i un nivel de ncredere (probabilitatea ca intervalul s acopere valoarea parametrului). Nivelul de ncredere se specific (de regul, 0,90 sau mai mult). Se d de obicei , unde nivelul de ncredere este 1- ( 0,95 corespunde la =0,05). Definiie. Un interval de ncredere de nivel 1- pentru parametrul este dat de dou statistici U i L astfel nct: P { L U } = 1 - . L i U sunt variabile aleatoare, construite din statistici ale eantionului: la eantioane diferite, iau valori diferite.
9 Statistica inferentiala 9
Se dau: un e.a. de dimensiune n i nivelul 1-. Se cere: un interval de ncredere pentru . Baza: cunoatem distribuia mediei eantionului, anume N(, 2/n). Cutm numrul z* pentru care distribuia normal acoper probabilitatea (aria) 1- pe o distan de z* deviaii standard de la medie spre stnga i spre dreapta. z* se gsete n tabelele distribuiei normale standard. x=z* delimiteaz, la dreapta sa, aria /2.
9 Statistica inferentiala 10
VALOARE CRITIC
Exemplu. Dac nivelul de ncredere cerut este 90%, rezult = 0,1; / 2 = 0,05. Pentru N(0,1), x = z* trebuie s lase la dreapta sa aria 0,05 iar la stnga 0,95. Din tabel rezult c z* aparine intervalului [1,64; 1,65]. Se interpoleaz z* = 1,645 (deviaii standard de la medie). Definiie. Valoarea critic pentru nivelul de ncredere 1- este numrul z* pentru care dreapta x = z* delimiteaz sub curba de densitate normal standard aria / 2. x * + z *} = 1 P{ z sau
P{ x z
*
9
n x+z
*
} =1
11
Statistica inferentiala
Se selecteaz un e.a. de dimensiune n dintr-o populaie de medie necunoscut i deviaie standard cunoscut . Un interval de ncredere de nivel 1- pentru este: * * (x z ,x + z ) n n unde z* este valoarea critic superioar /2 pentru N(0,1). Acest interval este exact pentru populaii cu distribuie normal i aproximativ (n>>) pentru alte populaii.
9 Statistica inferentiala 12
Lungimea intervalului de ncredere este 2 z * n Dac se cere de la nceput o anumit lungime w a intervalului, atunci se alege n = (2z* /w)2. Ceea ce uneori este practic imposibil.
9 Statistica inferentiala 13
UN EXEMPLU
Se analizeaz mostre dintr-un produs farmaceutic pentru a stabili concentraia de substan activ. Rezultatele msurtorilor repetate ale aceleiai mostre urmeaz o distribuie normal; media a distribuiei este chiar concentraia real a mostrei. Deviaia standard a procesului de msurare este = 0,0068 grame pe litru. Se fac trei msurtori ale unei mostre i se raporteaz media lor. Dac cele trei msurtori ale unei mostre au fost 0,8403; 0,8363; 0,8447, s se construiasc un interval de ncredere la nivelul 99% pentru concentraia real .
x 3 = 0,8404;
= 0,01;
DEPENDENA DE n
n exemplul anterior, dac n ar fi fost 1, pentru acelai nivel de ncredere 99% i cu msurtoarea unic egal cu 0,8404, atunci intervalul de ncredere ar fi devenit (0,8229; 0,8579) - adic (0,8404-0,1750; 0,8404+ 0,1750). Pentru n mai mic se obine un interval mai mare, adic o precizie mai mic: eroarea marginal scade cnd n crete. Intervalul de ncredere poate fi vzut ca: estimarea_mediei +- z*_estimrii
9 Statistica inferentiala 15
TESTE DE SEMNIFICAIE
Evaluarea statistic a valorii de adevr a unei aseriuni (ipoteze), pe baza doar a datelor existente. Exemplul I (exemplele I i II introduc testele de semnificaie n Moore&McCabe Introduction to Statistics): Sistemul greoi de preferine i excepii la recrutare n armata american a fost eliminat n 1970 prin introducerea unei loterii la care fiecare dat de natere din 366 posibile primea n mod aleator un numr de ordine 1..366, recrutarea fcndu-se n ordinea acestor numere. X a cta zi din an e ziua de natere pentru fiecare tnr. Y numrul ataat de loterie zilei de natere a fiecrui tnr. La o loterie aleatoare, ntre X i Y nu trebuie s existe nici o asociere sistematic. Studiu descriptiv i studiu inferenial.
9 Statistica inferentiala 16
STUDIUL INFERENIAL
Asocierea dintre variabile poate fi msurat prin coeficientul de corelaie. Pe aplicarea datelor din 1970, a rezultat r=-0,226 (pe toate extragerile posibile n condiii identice populaia total ar fi , necunoscut). Estimarea - 0,226 este semnificativ deprtat de 0 pe scala [-1; 1]? Formalizare. Presupunnd c loteria este perfect aleatoare, care este probabilitatea ca ea s produc un coeficient de corelaie cel puin la fel de deprtat de 0 ca 0,226? Soluie. Probabilitatea este 0,001. Rezult din date - probe pentru a afirma c loteria din 1970 nu a fost perfect aleatoare. Motivul: numerele au fost introduse pe luni i insuficient amestecate.
9 Statistica inferentiala 17
FORMULAREA CONCLUZIILOR
r=-0,226 arat c tinerii nscui spre sfritul anului au avut numere de ordine mai mici, deci au fost recrutai cu precdere.
Intuitiv: o dat la o mie de ani (p = 0,001) este prea rar pentru a se ntmpla din primul an.
Dar: lipsa de experien din primul an poate explica situaia.
Exist totui dou posibiliti: 1.- Procesul a fost aleator i, prin hazard, spetrecut un eveniment la o mie de ani; 2.- Caracterul aleator a fost perturbat. ansa de a fi n situaia 1.- este att de mic, nct se accept 2.9 Statistica inferentiala 18
EXEMPLUL II (1)
O companie productoare de brnzeturi ia lapte de la mai muli productori. Exist bnuiala c unii productori adaug ap n lapte pentru a-i crete profiturile. Temperatura de ngheare a laptelui variaz normal cu media = -0,545C i deviaia standard =0,008C. Apa n lapte afecteaz aceast variaie normal, crescnd temperatura de ngheare. Se msoar temperatura de nghe la cinci loturi succesive de lapte de la acelai productor, media obinut fiind x 5 = 0,538 . Este aceasta o dovad c productorul respectiv adaug ap n lapte? Ipoteza de lucru.Media productorului este p == -0,545C Care este probabilitatea ca pe un eantion de 5, x 5 = 0,538 ? Soluie. Cu lapte natural, probabilitatea este 0,025. Concluzie. 1/40: exist dovezi c productorul adaug ap.
9 Statistica inferentiala 19
Datele sunt departe de ce s-ar ntmpla dac H0 ar fi adevrat este tipul de argument ce duce la respingerea ipotezei H0.
Se caut n date prezena unui anumit efect (corelaia mare din cazul loteriei, creterea temperaturii de nghe n cazul laptelui).
1.- Se presupune c efectul nu este prezent; 2.- Se verific n date tria dovezilor c ipoteza de la pasul 1.- este fals; 3.- Dac se gsesc dovezi puternice la pasul 2.-, atunci se accept ipoteza c efectul exist. 4.- n caz contrar, se afirm c dovezile nu sunt suficient de puternice pentru a respinge ipoteza absenei efectului.
9 Statistica inferentiala 20
IPOTEZA NUL
Ipoteza care se verific (c efectul nu este prezent, c nu exist nici o diferen, nici o corelaie etc.) este ipoteza nul H0 (status quo-ul, prezumia de nevinovie). H0 este o afirmaie referitoare la o populaie, exprimat prin unul sau mai muli parametri (n exemplul al doilea, H0 a fost p = -0,545C). Un test de semnificaie evalueaz ct de puternice sunt, n date, dovezile mpotriva ipotezei nule. De fapt, cnd se aplic un test de semnificaie, se crede sau se sper c o alt afirmaie i nu H0 este adevrat. Aceasta este
9 Statistica inferentiala 21
IPOTEZA ALTERNATIV
Ha este ipoteza alternativ (ipoteza de cercetare). n exemplul cu laptele, Ha a fost p > -0,545C. n exemplul cu loteria, Ha a fost 0, H0 fiind =0. Ca i H0, Ha se refer tot la populaie n ansamblu i, deci, se exprim tot prin parametri ai acesteia. Dificultate: Ha s se exprime simetric sau nu? Primul exemplu are Ha simetric, al doilea are Ha asimetric. Dac nu e evident altceva, Ha se alege simetric.
9 Statistica inferentiala 22
STATISTICA UTILIZAT
Orice test de semnificaie folosete valoarea unei statistici calculat din date (eantion). Prin comparaie, aceast valoare d argumentul pentru respingerea sau nu a ipotezei nule. De obicei, statistica folosit estimeaz parametrul ce apare n ipotezele nul i alternativ.
E de ateptat ca valori ale statisticii apropiate de cea din H0 s duc la ne-respingerea lui H0.
Valori ale statisticii deprtate de cea din H0 ofer dovezile mpotriva ipotezei nule (Ha arat ce sens trebuie s aib abaterea de la H0).
n exemple: r (H0: =0; Ha simetric conteaz |r| >>0), respectiv x5 (H0: p= = -0.545C; Ha asimetric numai >)
Statistica inferentiala
23
VALORI P
Ipoteza alternativ este cu att mai probabil cu ct faptul dedus din date este mai puin probabil n condiiile ipotezei nule.
n exemple, ca posibil argument mpotriva lui H0, am calculat urmtoarele probabiliti, considernd H0 adevrat: P{r -0,226 SAU r +0,226 / H0} P{ x5 -0,538 C / H0}
Definiie. Probabilitatea calculat considernd H0 adevrat ca statistica din test s ia o valoare cel puin la fel de extrem (de deprtat de H0) ca aceea din date se numete valoarea P (probabilitatea critic) a testului. Cu ct valoarea P este mai mic, cu att mai puternic este dovada c H0 este fals.
9 Statistica inferentiala
24
EXEMPLUL II (2)
Din populaia normal de msurtori, de medie p i = 0,008C, se extrage un eantion de 5 msurtori, rezultnd x 5=-0,538C Ha : p > -0,545C. H0 : p = -0,545C; P{ x 5 > -0,545C / p = -0,545C} = ? Cum x 5 are distribuie N(p , /sqrt(5)):
x5 (0,545) 0,538 (0,545) P{x5 > 0,545} = P{ > }= 0,008 / 5 0,008 / 5 P{Z > 1,96} = 1 0,9750 = 0,025
Statistica inferentiala
25
SEMNIFICAIE STATISTIC
Se poate decide a priori ce prag pentru valoarea P va separa acceptarea ipotezei nule de respingerea acesteia. Aceast valoare-limit se numete nivel de semnificaie i se noteaz cu . Exemplu. =0,05 nseamn: se accept H0 dac, presupunnd-o adevrat, datele existente nu ar aprea mai rar dect n 1 din 20 selecii (P0,05) Definiie. Datele sunt statistic semnificative la nivel dac se obine o valoare P mai mic sau egal dect . Atunci se respinge H0.
9 Statistica inferentiala 26
TIPURI DE ERORI
STAREA REAL A Ha Ha _________necunoscut ADEVRAT CONCLUZIE TEST
Statistica inferentiala
Descrierea testului Z:
ipoteza nul este: = 0 , unde 0 este o valoare dat; statistica testului este media de sondaj standardizat
x n 0 z = / n
NECUNOSCUT: TESTUL t
Deosebirea dintre testul t i testul z este c, dispersia fiind necunoscut, ea se estimeaz prin s estimatorul ei nedeplasat. Proceduri t bazate pe un eantion.
s n
mediei eantionului (cea exact nu se cunoate). Media standardizat a eantionului z = x / are distribuie N(0,1). Statistica t = x are distribuia t.
s/ n
10-11 Intervale de incredere. Testele Z, T
DISTRIBUIA t
(1)
Pentru e.a. de cardinalitate n, selectate dintr-o populaie distribuit dup N(,), statistica unix eantion t = are distribuie t cu n-1 grade s/ n de libertate. Variabila t este repartizat Student (Gosset) cu n grade de libertate dac densitatea sa de probabilitate este dat de: ((n + 1) / 2) f (t) = (1 + t 2 / n ) ( n +1) / 2 n (n / 2) M[t] = 0.
10-11 Intervale de incredere. Testele Z, T 9
DISTRIBUIA t
(2)
Teorem. Dac t este variabil aleatoare Student cu n grade de libertate, atunci irul de variabile t aleatoare t n = n /( n 2 ) , nN, tinde la N(0,1). Teorem. Statistica testului t este o v.a. t(n-1). Fiecare cardinalitate de eantion d o alt distribuie t, cu att mai apropiat de N(0,1) cu ct n (numrul de grade de libertate) este mai mare. i statistica s are n-1 grade de libertate: oricare n-1 deviaii de la medie o determin pe a n-a. t(n) are un plus de variabilitate fa de N(0,1), datorat aproximrii lui .
10-11 Intervale de incredere. Testele Z, T 10
DISTRIBUIA t
(3)
Proprieti ale distribuiei t: Media distribuiei t este 0; Distribuia este simetric fa de medie; Dispersia este mai mare dect 1. Cu ct n crete, cu att dispersia se apropie de 1; Vrful este mai puin nalt dect la N(0,1), iar cozile acoper o arie mai mare; t sunt o familie de distribuii una pentru fiecare n. Cnd n crete, t se apropie de N(0,1). Peste n=29, valorile t se consider a fi cele corespunztoare lui z la respectiv.
10-11 Intervale de incredere. Testele Z, T 11
TESTE t UNI-EANTION
Fa de testul z, singurele modificri sunt:
se nlocuiete /sqrt(n) prin s/sqrt(n): statistica z devine statistica t; valorile critice se iau din tabelele variabilei t.
Exemplu. n secolul trecut, Newcomb a msurat timpul de trecere a luminii pe o anumit distan. Cele 64 de msurtori au dat o medie de 27,750 i o eroare standard estimat s=5,083sqrt(5). Msurtorile moderne au dat o medie 33,02, considerat valoare corect. Exist diferen semnificativ n rezultatele lui Newcomb fa de rezultatul corect?
10-11 Intervale de incredere. Testele Z, T 12
TESTUL t EXEMPLUL II
(nivel )
t(df,) indic valoarea t dincolo de care (la dreapta) rmne aria sub curba t cu df grade de libertate. t(df,1-) = 1-t(df,) Exemplu. Nivelul mediu al polurii cu monoxid de carbon este cel mult 4,9. Dac la 25 de citiri ale nivelului s-a obinut o medie de 5,1 i o eroare standard estimat s=10,5 , se poate respinge afirmaia de mai sus? Soluie. H0 : = 4,9 (). Ha : > 4,9. ttabel (24; 0,05) = 1,71. teantion = 0,476 ( H0!)
10-11 Intervale de incredere. Testele Z, T 14
Exerciiu. Care este valoarea P dac H0 : =55; Ha : 55; df = 15; teantion= -1,84. Soluie. P = P{t15 < -1,84} + P{t15 > 1,84} = 2P{t15 > 1,84} 0,05 < P < 0,10.
10-11 Intervale de incredere. Testele Z, T 15
Exemplul I: interval de ncredere 99% . Valoarea critic 0,005 a lui t(63): t* = 2,660. s * x t Intervalul: : (26,06; 29,44). n 33,02 (26,06; 29,44), cu nivel de ncredere 99%.
10-11 Intervale de incredere. Testele Z, T 16
EXEMPLUL III
20 de biei de aceeai vrst arunc greutatea n medie la 6,87m, cu deviaie standard a eantionului de 1,76. S se estimeze la nivel de ncredere 0,95 distana medie la care arunc greutatea bieii de vrsta respectiv. x_medeantion=6,87, s=1,76, n=20; =0,05. Din tabel: t(19; 0,025) = 2,09. Rezult intervalul: (6,05; 7,69).
10-11 Intervale de incredere. Testele Z, T 17
TESTUL t
PENTRU PERECHI
Exemplu. 20 de profesori de francez urmeaz un curs de perfecionare. Se compar scorurile la dou teste cu ntrebri diferite: unul nainte, cellalt dup curs. Diferenele de punctaj au fost: 2; 0; 6; 6; 3; 3; 2; 3; -6; 6; 6; 6; 3; 0; 1; 1; 0; 2; 3 ; 3. A fost cursul util? Soluie. Studiem v.a. care d diferenele. x = 2,5; s = 2,89 H0 : = 0 (curs inutil). x 2,5 Ha : > 0. t= = = 3,87
s/ n 2,89 / 20
10-11
18
Cel mai simplu test non-parametric este testul semnelor. Statistica ipotezelor se modific: se utilizeaz mediana i nu media.
10-11 Intervale de incredere. Testele Z, T 19
TESTUL SEMNELOR
Exemplul. 17 schimbri de scor, dintre care una negativ. Fie p probabilitatea ca un profesor s-i creasc scorul. Mediana este 0 dac are loc H0 : Ha : p > 0,5. H0 : p = 0,5 (exclusiv ansa). 17 profesori nseamn 17 experimente independente, succes nsemnnd cretere a scorului. H0 afirm c X = B(17; 0,5). Valoarea P=P{X16 / H0}=P{X=16}+P{X=17}= 16 1 17 17 0 C16 ( 0 , 5 ) ( 0 , 5 ) + C ( 0 , 5 ) ( 0 , 5 ) = 0,00014 17 17 Cum P este foarte mic, H0 se respinge.
10-11 Intervale de incredere. Testele Z, T 20
Cu valoarea critic:
H0 : p = 0,15 (). Ha : p < 0,15. Pentru = 0,10 se gsete z* = -z(0,10) = -1,28. p = 17 / 200=0,085. p'p 0,085 0,150 0,065 zesantion = = = = 2,6 p(1 p) / n 0,15 0,85/ 200 0,025 Se respinge H0 : eantionul aduce dovezi c mai puin de 15% dintre studeni fumeaz.
Cu probabiliti:
P = P{z < z* / H0} = P{z < -2,60 / H0} = 0,0047. Pentru = 0,10 , informaia din eantion este semnificativ. Se respinge H0.
12 Proportii. Chi-2 3
Se observ c eroarea standard, necunoscut (depinde de p), se nlocuiete cu p. n exemplul anterior, cea mai bun estimare punctual a lui p este p = 0,085, iar intervalul de ncredere la nivelul =0,10 este (z(0,05)=1,645): 0,085+-0,033 (0,052; 0,118)
12 Proportii. Chi-2 4
DIMENSIONAREA EANTIONULUI
(1)
Dac se d eroarea maxim admis E pentru estimarea proporiei, atunci numrul de indivizi n necesari n eantion pentru a nu depi E, cu nivelul de ncredere cerut este: n = [z(/2)]2 p (1-p) / E2 . p se nlocuiete fie cu o estimare a proporiei, fie cu 0,5 (maximiznd astfel valoarea lui n de mai sus). Cte persoane trebuie incluse ntr-un eantion pentru a estima cu eroare cel mult 2%, la un nivel de ncredere 0,10, proporia celor ce intenioneaz s voteze? n(1,645)2(0,5)(0,5)/(0,02)2 = 1701,56. Deci, n=1702.
12 Proportii. Chi-2 5
DIMENSIONAREA EANTIONULUI
(2)
Exemplu. Furnizorul unei fabrici afirm c doar 5% din piesele pe care le livreaz spre asamblare au defecte. S se determine mrimea unui eantion care s permit estimarea proporiei de piese defecte, cu o precizie de 0,02 i la un nivel de ncredere de 90%. Soluie. z(/2)=1,645; E=0,02; p=0,05; 1-p=0,95. n consecin: n (1,645)2 (0,05) (0,95) / (0,02)2 = 323,3 n=324. Aici ns, se d valoarea lui p.
12 Proportii. Chi-2 6
DISTRIBUIA
(1)
Dac se extrag eantioane aleatoare de dimensiune n dintr-o populaie normal de dispersie cunoscut 2, atunci variabila aleatoare (n-1)s2/2 are distribuie 2. Proprieti ale distribuiei 2:
Valorile 2 sunt pozitive; Curba 2 este asimetric, cu mdul spre stnga; Pentru df>2, media aflat la dreapta mdului este chiar df (n-1 pentru inferenele prezentate); Exist cte o distribuie 2 pentru fiecare valoare df.
12 Proportii. Chi-2 8
DISTRIBUIA
(2)
2 = 1..n (k - )2 / 2, k fiind variabile normale independente N(, ). 2 are funcia de densitate de probabilitate (pentru x 0) definit prin:
f (x ) =
2
n 1 2
2n/2
e (n / 2)
x 2
Valorile critice se iau din tabele, sub forma 2(df; ), fiind aria de la dreapta valorii critice.
12 Proportii. Chi-2 9
n exemplul cu mbutelierea: 2 admis este 0,0004. Dac un eantion de 28 de sticle d o dispersie observat de 0,0010, se poate afirma, la nivelul de ncredere 0,05, c procesul de mbuteliere nu este sub control din punct de vedere al dispersiei? Regiunea critic se afl sub partea dreapt (>) a curbei de distribuie i are o arie de 0,05. 2 critic = 2(27; 0,05) = 40,1. 2eantion = (n-1) s2 / 2 = 270,001/0,0004 = 67,5. Concluzie: se respinge H0 (2eantion se afl n regiunea critic).
12 Proportii. Chi-2 10
EXEMPLUL I
EXEMPLUL II
Un test este util dac, n urma corectrii, notele au o mprtiere suficient de mare pentru a ierarhiza elevii, dar nu ntr-att nct diferenele de note s fie prea mari. Se afirm c un test cu punctaj total 100 este util dac deviaia standard este 12. La un test de 100 puncte dat la 28 de elevi, deviaia standard observat este 10,5. Putem afirma cu nivel de ncredere 95% c testul respectiv este util? H0: =12; Ha: 12. Ha simetric dou valori critice. 2critic1 = 2(27; 0,975) = 14,6; 2critic2 = 2(27; 0,025) = 43,2. 2eantion = (n-1)s2 / 2 = 2976,75/144 = 20,6719 Decizie. H0 nu se respinge: testul poate fi considerat util.
12 Proportii. Chi-2 11
Capetele intervalului de ncredere se obin din cele dou valori critice; pentru calculul intervalului de ncredere, eantionul furnizeaz doar n i valoarea lui s. 2 = (n-1)s2 / 2 2 = (n-1)s2 / 2. Dat nivelul , se obin valorile critice: 2(df;1-/2) < 2(df; /2). Capetele intervalului sunt: (n-1)s2 / 2(df; /2) ; (n-1)s2 / 2(df; 1-/2).
12 Proportii. Chi-2 12
S presupunem c testm ipoteza H0: zarul este corect, cu =0,05. Pentru a o testa, aruncm zarul de 60 de ori. H0 ar fi n mod ideal satisfcut dac fiecare fa a zarului ar fi aprut exact de 10 ori (frecvena ateptat). Observm frecvenele (n ordinea, irelevant, a numerelor de pe cele k=6 fee ale zarului): 7, 12, 10, 12, 8, 11. Din calcule, rezult: 2 = 2,2. =0,05, iar n cazul multinomial, df=k-1=6-1=5. 2 (5; 0,05) = 11,1 (cu regiunea critic la dreapta). Decizie: Nu se respinge H0.
12 Proportii. Chi-2 15
EXPERIMENTE MULTINOMIALE
n repetri n condiii identice ale aceluiai experiment; rezultatul fiecrei repetri este exact unul din k rezultate posibile; fiecare rezultat posibil are ataat o probabilitate prezumat fix. p1 + p2 + + pk = 1. experimentul d frecvenele observate O1,O2,,Ok (O1+O2++Ok=n). Ei = npi pentru statistica 2.
Ipoteza nul nu se exprim neaprat prin parametri. Valoarea critic se obine din nivelul de semnificaie i din numrul de grade de libertate df=k-1. Regiunea critic se afl la dreapta.
12 Proportii. Chi-2 16
Studenii doresc o ct mai mare libertate n alegerea cursurilor. apte cursuri similare, predate de cadre didactice diferite, au fost alese de 119 studeni astfel (ordinea este aleatoare): 18, 12, 25, 23, 8, 19, 14. Indic datele preferine pentru anumii profesori? H0 : distribuie fr preferine. = 0,05; 2(6; 0,05) = 12,6. pi = 1/7; 2esantion = (18-17)2 / 17 + (12-17)2 / 17 + (25-17)2 / 17 + (23-17)2 / 17 + (8-17)2 / 17 + (19-17)2 / 17 + (14-17)2 / 17 = 220 / 17 = 12,9411. Decizie. Se respinge H0!
12 Proportii. Chi-2 17
EXEMPLUL III
H0 : alegerea cursurilor este independent de sex. Ha : alegerea cursurilor este dependent de sex. Valoarea critic. Numrul de grade de libertate este numrul de celule ce pot fi completate fr restricii dac se dau totalurile: dou n acest caz. n general: (nr_linii 1)(nr_coloane 1). 2(2; 0,05) = 6,00. Regiunea critic este la dreapta: 2esantion > 2critic se respinge H0 Probabilitile pi,j ataate fiecrei celule: proporionale cu totalurile marginale (ce se ntmpl n general este valabil i pentru fiecare sub-populaie). De exemplu, biei
alegnd fiecare domeniu ar trebui s fie: (72/300)122; (113/300)122; (113/ 300)122.
Proportii. Chi-2
2esantion = (35 - 42,72)2 / 42,72 + (72 - 67,05)2 / 67,05 + (71 - 68,23)2 / 68,23 + (37 - 29,28)2 / 29,28 + (41 - 45,95)2 / 45,95 + (44 - 46,77)2 / 46,77 = 1,395 + 0,365 + 0,112 + 2,035 + 0,533 + 0,164 = 4,604 < 6,00!
OMOGENITATE - TABELUL
MEDIUL URBAN SUBURBAN RURAL TOTAL PENTRU 143 (101,6) 13 (50,8) 98 (101,6) 254 CONTRA 57 (98,4) 87 (49,2) 102 (98,4) 246 TOTAL 200 100 200 500
df = (3-1)(2-1) = 2. 2critic (2; 0,05) = 6,00. 2esantion = (143-101,6)2 / 101,6 + ... = 91,72. Decizie: Se respinge H0: proporiile difer.
12 Proportii. Chi-2
22
Eantionarea dependent se face atunci cnd se folosete aceeai mulime de surse pentru ambele (toate) populaii(le), selectarea unui element ntr-un eantion impunnd selectarea unui anumit element n al doilea (probabilitile de selecie sunt dependente v. exemplul
cursului de francez, la testul t pentru perechi).
Eantionarea independent cnd se folosesc mulimi de surse fr legtur ntre ele (testarea cauciucurilor pe
maini diferite, nu pe aceleai maini).
13-14 Doua populatii: normala, F, Student 1
Inferene asupra diferenei parametrilor 1 2 se fac pe baza diferenei statisticilor, x 1 x 2 . Dac se extrag eantioane independente de dimensiuni n1 i n2 din populaii mari de medii necunoscute 1 i 2 i dispersii cunoscute 12 , respectiv 22, atunci distribuia de selecie a variabilei X= x 1 x 2
este aproximativ normal; are media = 1 2 i dispersia 2 = 12 / n1 + 22 / n2
( x 1 x 2 ) ( 1 2 )
Se folosete statistica z =
13-14
2 (1 / n 1 ) + ( 2 2 / n 2)
EXEMPLUL I
Se extrag eantioane de cte 40 de indivizi din dou populaii diferite. Se obin mediile de eantion xmed_1=2,03 i xmed_2=2,21. Se presupun cunoscute deviaiile standard 1=2= 0,6. La nivel =0,05 se testeaz ipotezele: H0 : 1 = 2 (>); Ha : 1 < 2 (sau 1 2 < 0). zcritic = - z(0,05) = -1,645. zesantion = -0,18/0,134 = - 1,343 Decizie: Nu se respinge H0. Se pot construi intervale de ncredere pentru 1 2 n exemplul de mai sus, acesta este (-0,44; 0,08).
13-14 Doua populatii: normala, F, Student 4
Intervalul este (-1,09; +7,29). La nivel 0,05, se respinge, de exemplu, ipoteza 1 2 =10.
13-14 Doua populatii: normala, F, Student 5
EXEMPLUL I
Maina existent e: 22 teste, se2 = 0,0008; Maina rapid r: 25 teste, sr2 = 0,0018. Se poate respinge ( = 0,01) ipoteza companiei c maina mai rapid nu are dispersie mai mare? H0 : 12 = 22 (sau 12 / 22 = 1); Ha : 12 > 22 (sau 12 / 22 > 1). Fcritic = F(24; 21; 0,01) = 2,80. Feantion = s12 / s22 = 0,0018 / 0,0008 = 2,25. Nu se poate respinge H0. Interval de ncredere pentru 12 / 22 : ( (sA2 / sB2) / F (dfA; dfB; /2) ; (sA2 / sB2) / F (dfA; dfB; 1-/2) )
13-14 Doua populatii: normala, F, Student 7
2.- 12 22.
unde
( x 1 x 2 ) ( 1 2 ) , sp 1/ n1 + 1/ n 2
sp =
2 ( n 1 1) s 1 + ( n 2 1) s 2 2 n1 + n 2 2
EXEMPLUL II
(1)
Studiindu-se necesitile financiare ale studenilor, s-a ridicat ntrebarea dac fetele i bieii cheltuiesc la fel de mult pentru rechizite / cri. Pentru a se afla rspunsul, s-au luat dou eantioane de cte 25 de persoane. Pe baza datelor, se poate respinge ( = 0,10) ipoteza nul c fetele i bieii cheltuiesc la fel de mult la acest capitol? Fete: medie 10,55 (sute mii lei); s2 = 24,47; Biei: medie 10,22 (sute mii lei); s2 = 33,95. Soluie. Cum dispersiile sunt necunoscute, trebuie mai nti testat dac ele sunt egale sau nu, apoi aplicat cazul corespunztor pentru medii.
13-14 Doua populatii: normala, F, Student 9
EXEMPLUL II
Prima ipotez:
(2)
H0 : b2 = f2; Ha : 12 22. Fcritic_dr = F(24; 24; 0,05) = 1,98; Fcritic_st = 1 / F(24; 24; 0,95) = 1 / 1,98 = 0,505. Feantion = sb2 / sf2 = 33,95 / 24,47 = 1,387. Nu se poate respinge H0. Deci suntem n cazul 1.
A doua ipotez:
H0 : b = f ; Ha : b f . tcritic = t(48; 0,05) = 1,65. teantion = -0,2158. Nu se poate respinge H0.
13-14 Doua populatii: normala, F, Student 10
EXEMPLUL III
(1)
t1 : 10, 12, 10, 9(total C1 = 41; medie 10,25; k1=4); t2 : 7,6,7,8,7 (total C2 = 35; medie 7,0; k2=5); t3 : 3,3,5,4 (total C3 = 15; medie 3,75; k3=4). n = k1 + k2 + k3 = 13. H0 : 1 = 2 = 3. Ha : cel puin o medie difer de celelalte. Statistica i distribuia F (raport de dispersii). Se partiioneaz suma ptratelor abaterilor n partea de sum datorat factorului studiat i partea de sum datorat erorilor (de eantionare): SPA(total) = SPA(factor) + SPA(eroare)
13-14 Doua populatii: normala, F, Student 14
EXEMPLUL III
(2)
SPA(factor)=(C12 /k1+C22 /k2+C32 /k3+)(x)2 /n. SPA(temp)=412 /4 + 352 /5 + 152 /4 912/13 = 84,5. SPA(eroare)=(x2) - (C12 /k1+C22 /k2+C32 /k3+) SPA(er_exp) = 731-721,5 = 9,5. Sursa Factor Eroare Total
13-14
MS=SPA/df
42,25 0,95 15
EXEMPLUL III
(3)
Statistica este Fesantioane = MS(factor) / MS (eroare) n exemplu: Fesantioane = MS(temperatur) / MS(er_exp) = =42,25/0,95 = 44,47. Fcritic = F(2; 10; 0,05) = 4,10. Se respinge ipoteza H0. Intuitiv: Se compar MS(factor) variaia ntre niveluri cu MS(eroare) variaia n interiorul nivelurilor. Dac MS(factor) este n mod semnificativ mai mare dect MS(eroare), atunci se decide c mediile nu sunt egale.
13-14 Doua populatii: normala, F, Student 16