Sunteți pe pagina 1din 227

Octav Onicescu: Pn n secolul XX, tiina a trit iluzia mecanicist.

singura dificultate prea rezolvarea de noi i noi ecuaii difereniale.

Acum o sut de ani au nceput s fie puse sub semnul ntrebrii


determinismul cauzal imuabil imaginea lumii ca mecanism uria
1-2 Statistica descriptiva 1

CUNOATEREA STATISTIC
Arsenalul de atac pentru cunoatere se mbogete cu
valori statistice tipice frecvene dispersii corelaii

Limitele cunoaterii:
principiul nedeterminrii al lui Heisenberg teoria cuantelor (limite ale msurrilor posibile)
1-2 Statistica descriptiva 2

Evoluia sferei noiunii statistic Teoria probabilitilor Blaise Pascal XVII statistik: Gottfried Achenwall 1749

NICHOLAS GEORGESCU-ROEGEN

statistica: stabilirea naturii informaiilor despre stat, a cadrului n care sunt expuse
a evoluat spre Economie Politic, Sociologie, Demografie 1874, Rumelin: Statistica nu este dect o metod

coala englez: abordare calculatorie


Graunt: raportul 14/13 dintre numrul naterilor de biei i de fete aritmicieni politici

tiina numrtorii, tiina numerelor mari, tiina valorilor medii. Istorie de 150 de ani.
1-2 Statistica descriptiva 3

DEX: STATISTICA
1. Eviden numeric referitoare la diverse fenomene; numrtoare 2. Culegere, prelucrare i valorificare a unor date 3. tiin care culege, sintetizeaz, descrie i interpreteaz date referitoare la fenomene generale 4. Statistic matematic: ramur a matematicii care elaboreaz noiunile i metodele folosite de Statistic (1., 2., 3.) 5. Teorie fizic ce urmrete i descrie comportarea unui sistem format din numeroase particule.
1-2 Statistica descriptiva 4

FENOMENE COLECTIVE
Fenomene naturale:
tipice : P = UI colective (generale) : variaia preului petrolului, rate de schimb, variaia incidenei unei boli etc.

Fenomene tipice: n condiii identice sau similare, se produc n aceeai form


caracteristice pentru anumite niveluri ale lumii anorganice

Fenomene colective: nu se pot reproduce identic aproape niciodat


fenomene sociale fenomene biologice unele fenomene anorganice (meteorologie)
1-2 Statistica descriptiva 5

nainte de apariia tiinei, toate fenomenele preau atipice (colective avant la lettre) Grania dintre fenomenele considerate tipice i cele considerate colective s-a modificat mereu
prin identificarea, observarea i msurarea a noi factori ce influeneaz respectivele fenomene analog graniei dintre rezovabil i nerezolvabil

FENOMENE COLECTIVE

Exist fenomene absolut colective


numr foarte mare de cauze / factori care le influeeaz
Goethe: la realizarea fiecrui eveniment particip ntregul Univers

importan variabil a fiecrei cauze n diferite instanieri ale aceluiai fenomen


1-2 Statistica descriptiva 6

METODA
Fenomene tipice:
experiena de laborator, modelarea matematic

Fenomene colective:
observarea (rareori repetabile prin experiment: meteorologie, economie, sociologie etc.) trebuie observate multe repetri
pentru a distinge tipicul de accidental

Metod de studiu cu o altfel de modelare matematic. Noiunile noi:


variabil aleatoare lege stochastic
1-2 Statistica descriptiva 7

LEGE STOCHASTIC
Fenomene tipice: legi rigide Spaiul parcurs este egal cu produsul dintre viteza de deplasare i timpul de deplasare Fenomene colective: legi stochastice Din stejar, stejar rsare Spiritul uman, prin abstractizare, tinde s rein ce este tipic, general i s ignore excepiile.
1-2 Statistica descriptiva 8

STABILITATEA FRECVENELOR
Cum se descoper legi stochastice? Ce le face adevrate? Punctul comun al teoriei statisticii i al realitii:

Axioma stabilitii frecvenelor Dac ntr-o serie de observaii coninnd N1, N2, , Np cazuri, obinute sub influena aceluiai complex de cauze, numrul de cazuri prezentnd calitatea A este de f1, f2, , fp, atunci raporturile f1/N1, f2/N2, , fp/Np nu difer prea mult ntre ele.
Frecvenele relative ale evenimentului A. Bernoulli Ars conjectandi, 1713: demonstraie.
1-2 Statistica descriptiva 9

STABILITATEA FENOMENELOR COLECTIVE Nu doar la experimente artificiale (moneda) Halley: tabele de mortalitate.
Exemplu: din 100 000 de brbai de 30 de ani, 698 vor deceda nainte de a avea 31 de ani
n medie, pe mai muli ani

Societi de asigurare: pariaz implicit, prin suma asigurat, c raportul este acesta (de fapt, mai mare)
Schimbarea dramatic a factorilor (rzboi etc.) nu se asigur! Factorii care influeneaz vitalitatea populaiei pot varia de la generaie la generaie, comportarea medie rmne aproximativ aceeai.

Raionamentul statistic opereaz cu noiunea de stabilitate, nu de constan.


stabilitatea are loc n jurul unei valori care poate varia n timp.
1-2 Statistica descriptiva 10

CAUZE ALE ABATERILOR DE LA LEGI STOCHASTICE

Populaiile mici prezint particularizri ale factorilor i legea poate s nu fie respectat.
sondaj viciat de interogarea la telefon (1932).

O lege stochastic este valabil doar pentru populaii ce prezint toate variaiile de cazuri, fiecare cu proporia sa
(sub)populaii cu structur complet dualitatea dintre maximizarea / minimizarea subpopulaiei considerate

i fenomenele colective evolueaz


frecvenele sunt stabile pe o perioad de stabilitate a factorilor exempu: modificarea ratei mortalitii la vrste peste 50.
1-2 Statistica descriptiva 11

DISPERSIA
Stabilitatea frecvenelor nu se exprim prin constan a valorilor
valori n jurul celei ateptate.

Dispersia: abaterea valorilor reale de la valoarea medie. Dispersia poate caracteriza acolo unde media nu distinge Exemplu: temperaturi anuale medii egale n orae cu tipuri diferite de clim.
1-2 Statistica descriptiva 12

Statistica descriptiv
sintetizarea i prezentarea datelor informeaz, aranjnd datele pentru decizii

Statistica inferenial (matematic): modele i tehnici pentru


a obine concluzii din datele colectate a face estimri de parametri a verifica ipoteze statistice
1-2 Statistica descriptiva 13

FOLOSIRE IMPROPRIE A STATISTICII


Un anumit mod de a prelucra statistic impune un anumit mod de a colecta datele nu pot fi mixate
Date culese pentru a fi prelucrate ntr-un mod anumit nu pot fi prelucrate corect n alt mod.

Colectare incorect a datelor Analize statistice superficiale


1-2 Statistica descriptiva 14

Exist 500 000 de analfabei n Romnia Venitul mediu anual pe cap de locuitor este de $1200 Sperana de via este de 70,1 ani Se pot face deducii privind un singur locuitor? Evident nu, dar se reprezint sintetic o ntreag populaie. Statistici:
valori punctuale (numerice) calculate folosind un eantion pot estima valorile corespunztoare pentru populaie.
1-2 Statistica descriptiva 15

ELEMENTELE DEFINITORII ALE UNUI STUDIU STATISTIC Populaie: o colecie de obiecte (entiti elementare, indivizi), posednd toate o anumit caracteristic.
finite / infinite; concrete / abstracte definirea populaiei este esenial

Eantion: o submulime a populaiei definite. Atribut variabil: o caracteristic ce prezint valori ce pot diferi de la un individ la altul.
cantitative / calitative (sortabile / nesortabile).

Observaie: valoare a unui atribut variabil pentru un anumit individ.


1-2 Statistica descriptiva 16

EANTIONARE ALEATOARE
Eantionare subiectiv (exemple: selecia rocilor, pacieni pentru tratamente diferite) Eantionare aleatoare: fiecare individ din populaie are aceeai ans de a fi selectat.
metoda seleciei aleatoare (etichetarea tuturor indivizilor) selecia sistematic (din k n k; periodiciti?) selecia stratificat (proporiile straturilor) selecia pe grupe: strzi, careuri de teren, circumscripii selecia ierarhic: aleator judee comune strzi persoane.
Statistica descriptiva 17

1-2

PROIECTAREA EXPERIMENTELOR
Nu se caut structuri mici n date foarte numeroase. Prelucrarea statistic ncepe dup analizarea atent a datelor (familiarizarea cu datele). La dimensiunile actuale, Data mining
automatizarea cutrii de structuri necunoscute

Colectarea datelor: numai n conformitate cu analiza statistic ulterioar. Surse de erori - datele:
pot lipsi (cei cu durerile cele mai mari se trateaz) pot fi greit nregistrate (cifre semnificative lips) pot fi din alt populaie: definire, eantion ne-aleator
1-2 Statistica descriptiva 18

FRECVEN
Frecvena unei observaii n eantion: numrul de apariii ale acelei observaii (valori) n eantion. Frecvena relativ a unei observaii n eantion: raportul dintre numrul de apariii ale observaiei n eantion i numrul total de observaii (dimensiunea eantionului) Distribuia frecvenelor (atribut variabil discret): mulimea tuturor observaiilor distincte, mpreun cu frecvenele lor relative n eantion.
Exemplu: fumat Intens
F_abs f_rel
1-2

Rar
2818 0.170

Nu
6563 0.397

Total
16500 1.00
19

7149 0.433
Statistica descriptiva

ATRIBUTE CONTINUE
Clas interval: un subinterval inclus ntre valorea minim i cea maxim. Frecvena clasei interval: numrul de observaii ce aparin clasei respective. Distribuia frecvenelor unui atribut variabil continuu: mulimea claselor interval mpreun cu frecvena fiecreia.
1-2 Statistica descriptiva 20

REPREZENTAREA GRAFIC A DISTRIBUIEI FRECVENELOR


Histograme:
X axa valorilor; Y axa frecvenelor; aria fiecrui dreptunghi proporional cu frecvena relativ respectiv.

Poligonul frecvenelor: se unesc centrele laturilor superioare ale dreptunghiurilor din histogram. Frecvene cumulate: suma frecvenelor valorilor mai mici dect o valoare dat
variabile continue.
1-2 Statistica descriptiva 21

VALORI TIPICE NTR-UN EANTION


De la structur la numr
calitate cantitate simplificare, pentru a reprezenta succint o trstur tipic.

Se descrie un eantion printr-o valoare unic


atribut variabil numeric (cel puin sortabil)

1. Tendina central (mediana, medii, mod) 2. mprtierea (amplitudine, quartile, deviaii, dispersie)
1-2 Statistica descriptiva 22

MEDIANA
Descriere printr-o observaie (sau prin media a dou observaii) din eantion. Eantionul se sorteaz dup variabila studiat. Definiie: Mediana unui set de N observaii ordonate cresctor este egal cu
valoarea de pe poziia k+1, dac N=2k+1 media dintre valorile de pe poziiile k i k+1, dac N=2k.

Stabilitate: schimbarea valorii unei observaii, dar nu i a rangului ei, nu afecteaz mediana.
1-2 Statistica descriptiva 23

MEDIA ARITMETIC
Depinde de toate observaiile. Dac valoarea xi se repet de pi ori: M = (p1x1++pnxn) / n Notnd fi = pi / n : M = f1x1 + + fnxn

(1)

1.- Pentru atribute discrete: M = (x1++xn) / n

2.- Pentru frecvene distribuite pe intervale - media ponderat a centrelor intervalelor de grupare:
se alege mijlocul fiecrui interval (presupunnd distribuie omogen pe interval / principiul erorii minime) se nmulete cu numrul de observaii pe interval se sumeaz dup toate intervalele i se mparte la numrul de observaii
Statistica descriptiva 24

1-2

MEDIA ARITMETIC
Stabilitate:

(2)

valorile aberante o afecteaz mici modificri ale sumei practic nu o afecteaz reaezri de intervale nu o afecteaz prea mult

Liniaritate: M(ax+b) = aM(x) + b Abaterile n raport cu media aritmetic: i (xi x ) = 0 Definiia variaional: media aritmetic este numrul M care minimizeaz expresia i (xi x )2
legtura cu definirea dispersiei.
1-2 Statistica descriptiva 25

MEDIA ARMONIC
Un automobil parcurge distana Iai Pacani de mai multe ori, respectiv cu vitezele de 80 km/h, 90 km/h, 120 km/h, 60 km/h. Care a fost viteza sa medie? M = 87,5 km/h n realitate: H = 1/(1/80 +1/90 +1/120 +1/60) = 82,3km/h. Utilizat la calcule bursiere (HGM) distribuii n J.
1-2 Statistica descriptiva 26

MEDIA GEOMETRIC
Populaia SUA:
1840: 17 069 000 1850: 23 192 000 1860: 31 443 000

Dac nu am avea observaia din 1850: Media aritmetic M = 24 256 000 Media geometric G = 23 167 000
1-2 Statistica descriptiva 27

Valoarea dominant (cea mai frecvent). Vrful poligonului frecvenelor. n cazul intervalelor: Mod = L + i*(fz fl) / ((fz fl) + (fz fh))

MDUL

i lungimea intervalului L marginea inferioar a clasei modale fz,l,h frecvenele claselor modal, imediat inferioar ei i imediat superioar

tipic spiritului uman s extind calitatea cel mai des ntlnit la toate elementele observate.

Antimdul: clasa (valoarea) de frecven minim.


1-2 Statistica descriptiva 28

La o distribuie simetric, coincid. Media aritmetic nu se poate calcula pentru distribuii deschise (ultimul interval nemrginit); Mediana da. Pentru distribuii asimetrice, mdul d impresia cea mai real. Mediana i mdul nu au proprieti de liniaritate.
1-2 Statistica descriptiva 29

COMPARAIE NTRE MEDIAN, MEDIE ARITMETIC I MOD

AMPLITUDINE
Msur grosier a variabilitii. Definiie: diferena dintre cea mai mare i cea mai mic valoare ale observaiilor. Exemple:
amplitudinea salariilor; amplitudinea temperaturii (pentru concediu); amplitudinea notelor (relevana unui test).
1-2 Statistica descriptiva 30

QUARTILE
Definiie: Pentru un set de observaii, quartilele (q1, q2, q3), sunt valorile din irul ordonat al tuturor observaiilor, pentru care numrul de valori mai mici dect ele reprezint 25%, 50%, respectiv 75% din numrul total de observaii.
q2 este mediana; q1 este mediana valorilor din stnga medianei; q3 este mediana valorilor din dreapta medianei.
1-2 Statistica descriptiva 31

MSURI ALE MPRTIERII


Definiie: Amplitudinea (intervalul) semi-interquartil este 0,5*(q3 q1). ntre q1 i q3 se gsesc 50 % dintre valori. Sumarul celor 5 valori: (min,q1,q2,q3,Max) Definiie: Decilele Dk, k=1..9, sunt valorile din irul ordonat cresctor la stnga crora se afl 10*k % dintre observaii. Definiie: Percentilele Pk, k=1..100, sunt valorile din irul ordonat cresctor la stnga crora se afl k % dintre observaii Importante sunt P1 , P5 , P95 , P99 .
1-2 Statistica descriptiva 32

DEVIAII I DISPERSIE
Deviaie medie: media abaterilor absolute fa de media aritmetic. Rar folosit.
1 dm = N

x
i =1

x;

dm_interva

f x x l= f
i i i

Dispersia a N N Deviaia standard a unui eantion: SD= V 2 Pe intervale: SD = f i (x i x )


i

observaii: V =

(x

x )2

i
33

1-2

Statistica descriptiva

COEFICIENTUL DE DISPERSIE
Deviaia standard raportat la medie: SD CV = x

adimensional; comparabil pe atribute diferite.

Exemplu. Eantion de manageri; vrsta (medie1 = 51, SD1 = 11,74); IQ (medie2 = 125, SD2 = 20). Ce atribut are mprtiere mai mare? CV1 = 11,74 : 51 = 0,23 CV2 = 20 : 125 = 0,16. Concluzie: mai mult variaie la vrst.
1-2 Statistica descriptiva 34

MOMENTE
m1 (x =
i

x)

m3 =

3 (x x ) i

=0

m2 =

2 (x x ) i

=0: simetric; <0: asimetric negativ (mod dreapta); >0: asimetric pozitiv.

m3 a3 = SD 3

m4 =

m4 N SD 4 <3: plat(ikurtic); >3: cu vrf ascuit (leptokurtic) a4 =


Statistica descriptiva 35

(x i x ) 4

1-2

TEORIA PROBABILITILOR
Statistica prelucreaz date reale, concrete. Metodele statisticii deriv ns din modele matematice abstracte. Teoria probabilitilor este suportul abstract fundamental al statisticii infereniale. Teoria probabilitilor se ocup de fenomenele cu comportare aleatoare.
3-5 Introducere in Teoria Probabilitatilor 1

EXPERIMENT ALEATOR
Un experiment aleator este un act care satisface urmtoarele condiii: toate situaiile finale distincte posibile sunt cunoscute a priori; pentru oricare repetare particular a experimentului, situaia final nu este cunoscut a priori; experimentul poate fi repetat n condiii identice

3-5

Nu se cunoate dinainte rezultatul, dar se cunosc toate rezultatele posibile. Exemplu. La aruncarea unui zar sunt 6 rezultate elementare posibile.
Introducere in Teoria Probabilitatilor 2

EVENIMENTE
Toate situaiile finale legate de un experiment aleator i despre care, dup efectuarea experimentului, putem spune cu certitudine c s-au produs sau nu.

Un eveniment este o submulime a mulimii tuturor rezultatelor (situaiilor) finale elementare posibile.
Exemplu. Evenimentul ca un zar s arate, dup aruncare, un numr par.
Nu se poate prevedea rezultatul unei singure repetri a unui eveniment aleator (factori!); se poate prevedea ns structura rezultatelor.
3-5 Introducere in Teoria Probabilitatilor 3

EVENIMENT SIGUR EVENIMENT IMPOSIBIL


Evenimentul sigur S: un eveniment care se realizeaz cu certitudine la fiecare repetare a experimentului (zar: 1x6). Evenimentul imposibil : un eveniment care cu certitudine nu se produce la nici o repetare a experimentului (zar: x<1 sau 7x).
Aceste dou evenimente se ataeaz oricrui experiment aleator. Fiecare se realizeaz dac nu se realizeaz cellalt.
3-5 Introducere in Teoria Probabilitatilor 4

EVENIMENTE CONTRARE
Exemple:
{1,3} i {2,4,5,6} S i .

Dat un eveniment E, lui i corespunde evenimentul contrar E , a crui producere nseamn prin definiie nerealizarea lui E. A contrar lui B B contrar lui A. Proprieti: A = A; S = ; = S .
3-5 Introducere in Teoria Probabilitatilor 5

EVENIMENTE COMPATIBILE
Evenimentele A i B sunt compatibile dac se pot produce simultan.
Exist rezultate finale favorabile i lui A, i lui B. Exemplu: La aruncarea unui zar, par i prim.

Evenimentele A i B sunt incompatibile dac nu se pot produce simultan.


Ca mulimi de evenimente elementare
compatibile: nedisjuncte; incompatibile: disjuncte

Generalizare pentru orice n2


compatibile global sau dou cte dou.
3-5 Introducere in Teoria Probabilitatilor 6

EVENIMENT IMPLICAT
Evenimentul A implic evenimentul B (B este implicat de A) dac B se produce ori de cte ori se produce A. Ca mulimi de rezultate finale elementare, A este inclus n B. Exemplu. La aruncarea unui zar
A putere nenul a lui 2; B par {2,4} {2,4,6} A impar; B prim {1,3,5} {1,2,3,5}
3-5 Introducere in Teoria Probabilitatilor 7

OPERAII CU EVENIMENTE
Reuniunea. Date evenimentele A i B, evenimentul reuniune A B se produce atunci cnd se produce cel puin unul dintre evenimentele A , B.
{1,2,5} {3,4,5} = {1,2,3,4,5}.

Intersecia. Date evenimentele A i B, evenimentul intersecie A B se produce atunci cnd se produc simultan i A i B.
par prim = {2} (compatibile) par impar = (incompatibile).
3-5 Introducere in Teoria Probabilitatilor 8

SPAIUL DE SELECIE AL UNUI EXPERIMENT

Spaiul de selecie (evenimentelor) unui experiment este o mulime cu proprietatea c


orice eveniment elementar rezultat n urma experimentului corespunde unui singur element al acestei mulimi.

Spaiul de selecie se schimb n funcie de punctul de vedere din care este privit experimentul Exemplu. Aruncarea a dou monezi (o repetare):
{(BB),(BS),(SB),(SS)} ce fee apar {(2,0),(1,1),(0,2)} de cte ori apare fiecare fa {ID, DIF} sunt sau nu identice feele
3-5 Introducere in Teoria Probabilitatilor 9

FRECVEN
Fie un experiment i A un eveniment ataat. Se repet experimentul de n ori, de a ori producndu-se evenimentul A
iar de n-a ori, evenimentul contrar lui A. a Numrul f n = n este frecvena relativ a

evenimentului A n instanierea respectiv a experimentului. De la o instaniere la alta a experimentului, frecvena variaz: 0 a n; 0 fn 1.

Pentru multe fenomene, cnd n crete, fn se apropie de o constant.


Introducere in Teoria Probabilitatilor 10

3-5

DEFINIIA CLASIC A PROBABILITII (1)


Laplace, sec. al-XIX-ea.

Evenimente egal probabile Dac n evenimente posibile ntr-un experiment


ce nu pot fi descompuse n evenimente mai simple

au aceeai ans de a se produce, atunci ele sunt egal probabile (equally likely)
iar probabilitatea fiecruia este 1/n.
3-5 Introducere in Teoria Probabilitatilor 11

DEFINIIA CLASIC A PROBABILITII (2)


Probabilitatea evenimentului A
este egal cu raportul dintre numrul de evenimente egal probabile ce definesc A i numrul total de evenimente egal probabile.

Exemple.
A - evenimentul imposibil: P(A) = 0. A evenimentul sigur: P(A) = 1.

Monotonie: 0 P(A) 1 .
3-5 Introducere in Teoria Probabilitatilor 12

DEFINIIA CLASIC A PROBABILITII


Dac n urma efecturii unui experiment pot rezulta n evenimente elementare egal probabile i dac m dintre ele definesc evenimentul A atunci probabilitatea evenimentului A este: P(A) = m / n (numrul de cazuri favorabile mprit la numrul total de cazuri).
P( A ) =

Exemplu. Cel puin un 1 n dou aruncri ale unui zar: P(A) = (36-25) / 36 = 11 / 36 .
3-5 Introducere in Teoria Probabilitatilor 13

nm = 1 P(A) m

CRITICA DEFINIIEI CLASICE A PROBABILITII


Egal-probabilitatea nu exist dect n experimente artificiale (extrageri de bile de culori diferite)
zar sau moned perfecte nu exist.

Dac exist o infinitate de cazuri elementare, atunci toate probabilitile sunt practic 0. La fenomene sociale definiia nu este aplicabil, cnd nu se cunoate numrul de cazuri.
Exemplu. Frecvena n populaie anul viitor depinde de numrul necunoscut de persoane de peste un an.
3-5 Introducere in Teoria Probabilitatilor 14

DEFINIIA CLASIC A PROBABILITII (5)


Teorema 1. Dac A1 ,, Ak sunt evenimente kglobal incompatibile, atunci: k
P( A i ) =
i =1

P(A
i =1

Demonstraie. A1 definit de n1 evenimente elementare, , Ak de nk evenimente elementare; A = Ai este definit (disjuncte!) de ni evenimente elementare.
3-5 Introducere in Teoria Probabilitatilor 15

DEFINIIA CLASIC A PROBABILITII (6)


Teorema 2. Dac A i B sunt evenimente ntr-un spaiu de selecie finit S, atunci: P(A B) = P(A) + P(B) P(A B)
Demonstraie. P(A) + P(B) conine suma probabilitilor evenimentelor din A B de dou ori.

Teorema 3. Dac A1 ,, Ak sunt evenimente global incompatibile i dac Ai = S, atunci: P(Ai) = 1.


Demonstraie. Se aplic teorema 1, innd seama de faptul c P(Ai) = P(S) = 1.
3-5 Introducere in Teoria Probabilitatilor 16

DEFINIIA PROBABILITII BAZAT PE FRECVENE


Fie un experiment aleator i fie un eveniment A care se produce de m(A) ori la m repetri ale experimentului. Definiie. Probabilitatea evenimentului A se definete prin: P(A) = lim m(A) m m Exist limita ? (legea numerelor mari) Definiia este consistent numai n situaia (cvasiimposibil) - cnd condiiile rmn identice la toate repetrile experimentului aleator.
3-5 Introducere in Teoria Probabilitatilor 17

DEFINIIA AXIOMATIC A PROBABILITII


Spaiul de selecie al unui experiment aleator se consider a fi o mulime de elemente astfel nct oricrui rezultat elementar al experimentului s-i corespund un singur element (punct) al mulimii.

Considerm n continuare doar spaii finite.

Definiii. 1.- Orice mulime de puncte este un eveniment. 2.- Un eveniment se numete elementar dac are cardinalitate 1. 3.- Evenimentul A s-a produs dac rezultatul experimentului este un punct din mulimea ce definete A.
Evenimentul imposibil nu conine nici un punct. Orice alt eveniment este o reuniune de evenimente elementare.
3-5 Introducere in Teoria Probabilitatilor 18

PROBABILITATE AXIOME (1)


Fie spaiul de selecie S={e1,,en}. Asociem fiecrui eveniment un numr numit probabilitate: P : 2 S R Axiome. I. Probabilitatea asociat oricrui eveniment este mai mare sau egal cu 0. II. Probabilitatea asociat ntregului spaiu de selecie (evenimentul sigur) este 1. III. Dac evenimentele A i B sunt incompatibile (AB=), atunci: P(AB) = P(A)+P(B).
3-5 Introducere in Teoria Probabilitatilor 19

PROBABILITATE AXIOME (2)


Axiomele probabilitii sunt verificate de:
- definiia clasic - definiia cu frecvene - definiia subiectiv
- unde P(A) este gradul individual de ncredere c A se va produce.
3-5 Introducere in Teoria Probabilitatilor 20

CONSECINE ALE AXIOMELOR

1.- P() = 0 ( - evenimentul imposibil) Demonstraie. 1 = P(S) = P(S) = P(S)+P() = 1+P() 2.- A, A, A=i {ei}, ei evenimente elementare: P(A) = i P(ei) Demonstraie. Prin inducie. + P( E ) = 1 3.- P(E) k k Ei ) = P(Ei ) P(Ei Ej ) + P(Ei Ej Ek ) ... 4.- P( i =1 i< j i< j<k i =1
+ ( 1)k 1 P(E1 E2 ... Ek )
Introducere in Teoria Probabilitatilor 21

3-5

PROBABILITI CONDIIONATE (1)


Dac avem informaii despre producerea evenimentului B, le putem folosi pentru a calcula probabilitatea producerii, n aceste condiii, a evenimentului A.

Definiie. Probabilitatea evenimentului A, dat faptul c B are loc (P(B)0), se numete probabilitate condiionat a lui A, dat B: P(A/B) = P(AB) / P(B)
Intuitiv: B devine noul spaiu de selecie, A mai putndu-se realiza numai prin evenimente din AB.
3-5 Introducere in Teoria Probabilitatilor 22

PROBABILITI CONDIIONATE (2)


Se arunc dou zaruri. Primul dintre ele arat 4. Care este probabilitatea ca suma celor dou zaruri s fie 6?

I.

E: suma este 6; F: primul zar arat 4


( P(F) 0 ).

Fr informaia suplimentar:
Suma 6: (1,5), (2,4), (3,3), (4,2), (5,1) P(E) = 5/36 < 1/6.

II.

Cu informaia primul zar arat 4:


P(E/F) = P(EF) / P(F) = (1/36) / (6/36) = 1/6 (>5/36)

3-5

Introducere in Teoria Probabilitatilor

23

PROBABILITI CONDIIONATE (3)


Trei brbai i arunc plriile ntr-o camer ntunecoas, apoi aleg la ntmplare cte o plrie din camer. Care este probabilitatea ca nici unul dintre cei trei s nu-i nimereasc propria plrie?

E: nici unul nu alege propria plrie. Ec: cel puin unul alege propria plrie. Ei: persoana i alege plria proprie. P(Ei)=1/3 evident; P(EiEj)=P(Ei)P(Ej/Ei)=(1/3)(1/2)=1/6, ij; P(E1E2E3)=P(E1E2)P(E3/E1E2)=(1/6)1

P(Ec)=P(E1E2E3)=3(1/3)-3(1/6)+1/6=2/3 P(E)=1/3.
3-5 Introducere in Teoria Probabilitatilor 24

EVENIMENTE INDEPENDENTE (1)


Definiie. Evenimentele A i B se numesc independente dac apariia unuia nu influeneaz probabilitatea de apariie a celuilalt: P(A/B) = P(A) i P(B/A) = P(B). Teorem. Dac A i B sunt evenimente independente, atunci P(AB)=P(A)P(B). Definiie. Evenimentele A1, ,Ak sunt global independente dac oricum s-ar alege p evenimente dintre cele k (pk), oricare p-1 dintre acestea nu influeneaz probabilitatea celuilalt.
3-5 Introducere in Teoria Probabilitatilor 25

EVENIMENTE INDEPENDENTE (2)


E: suma celor dou zaruri este 6 F: primul zar arat 4 G: suma zarurilor este 7 E i F nu sunt independente!
P(E)P(F) = (5/36)(1/6) = 5/216 < 1/36 = P(EF) Intuitiv, valoarea primului zar poate face ca E s fie fals dac ea este 6.

G i F sunt independente.
P(G F) = 1/36 = (6/36)(6/36) = P(G)P(F) Indiferent de valoarea primului zar, P(G) 0.
3-5 Introducere in Teoria Probabilitatilor 26

FORMULA LUI BAYES

(1)

Teorem (nmulirea probabilitilor dependente). Dac A1, , Ak sunt evenimente pentru care P(A1Ak) 0, atunci: P(A1Ak) = P(A1)P(A2/A1)P(A3/A1A2)P(Ak/A1Ak-1)
Demonstraie: se aplic definiia. Pentru evenimente independente, P(A1Ak)=P(A1)P(Ak)

Teorem (formula probabilitii totale). Dac A1,, Ak realizeaz o partiie a spaiului de selecie S i dac X este un eveniment din S (XS), atunci: P(X) = P(A1)P(X/A1)++P(Ak)P(X/Ak)
(interpretare grafic)
3-5 Introducere in Teoria Probabilitatilor 27

FORMULA LUI BAYES

(2)

Fie evenimentele A1,, Ak care realizeaz o partiie a spaiului de selecie S; fie X este un eveniment din S (XS); se cunosc probabilitile a priori: P(A1),,P(Ak), probabilitile condiionate P(X/A1),,P(X/Ak). Se efectueaz experimentul i se produce X. S se determine P(A1/X),,P(Ak/X) (probabilitile a posteriori).
3-5 Introducere in Teoria Probabilitatilor 28

FORMULA LUI BAYES


Teorem (formula lui Bayes).
P(A i /X) = P(A i ) P(X/A i )

(3)

P(A
j =1

) P(X/A j )

Demonstraie. P(Ai)P(X/Ai) = P(X)P(Ai/X) = P(AiX) i se ine seama de formula probabilitii totale.


3-5 Introducere in Teoria Probabilitatilor 29

FORMULA LUI BAYES EXEMPLE (1)


Instanierea. Din trei prizonieri, unul, ales la ntmplare fr tirea lor, va fi executat, iar ceilali doi vor fi eliberai. Unul dintre prizonieri cere gardianului s-i indice pe unul dintre ceilali doi, care va fi eliberat (oricum, cel puin unul dintre cei doi va fi eliberat). Dac gardianul i rspunde, capt prizonierul mai mult informaie dect avea deja?

Ei: prizonierul i este ales pentru execuie. P(E1) = P(E2) = P(E3) = 1/3. Fi: prizonierul i este eliberat. P(F1) = P(F2) = P(F3)

P(E1/F2 ) =
3-5

P(F2 /E1 ) P(E1 )


2 i

P(F /E ) P(E )
i =1 i

1 (1/3) 1 1 = = > 1/3 + 0 + 1/3 2 3


30

Introducere in Teoria Probabilitatilor

FORMULA LUI BAYES EXEMPLE (2)


E-mail. Fie o cutie e-mail cu trei foldere i fie i probabilitatea de a gsi un mesaj dac acesta se afl n folderul i i folderul este examinat superficial. Presupunnd c mesajul a fost cutat n folderul 1 i nu a fost gsit, care este probabilitatea ca mesajul s se afle totui n folderul 1 ? Fi : mesajul se afl n folderul i. E: mesajul nu a fost gsit n folderul 1.
P(F 1/E) =
3-5

P(E/F 1 ) P(F 1)
i

P(E/F ) P(F )
i =1 i

(1 1 ) (1/3) 1 1 = = (1 1 ) (1/3) + 1/3 + 1/3 3 1


31

Introducere in Teoria Probabilitatilor

FORMULA LUI BAYES EXEMPLE (3)


Test-gril. Se d o singur ntrebare, cu m variante de rspuns. Fie p probabilitatea ca studentul S s tie s rspund corect la ntrebare; probabilitatea de a ghici rspunsul este 1/m. Notnd cu K evenimentul ca studentul s cunoasc rspunsul i cu C evenimentul ca S s rspund corect, s se calculeze P(K/C). P(C/K) P(K) P(K/C) = = P(C/K) P(K) + P(C/ K ) P( K ) 1 p m p = = p + (1/m) (1 p) 1 + (m 1) p m P(K/C) = 1.
3-5

(m=5, p=1/2) P(K/C)=5/6.


32

Introducere in Teoria Probabilitatilor

VARIABILE ALEATOARE
Cnd rezultatele experimentului aleator sunt exprimate prin numere, se pot ataa probabiliti nu doar evenimentelor, ci i unor unor valori obinute prin funcii de evenimente.
Exemplu. Probabilitatea ca suma a dou zaruri s fie 7; nu intereseaz probabilitatea s apar, de exemplu, (3,4).

Astfel de funcii reale definite pe (structuri de interes din) spaiul de selecie sunt variabile aleatoare. Cum fiecare valoare a unei variabile aleatoare este dat de rezultatul unui experiment, se pot asigna probabiliti valorilor posibile ale unei variabile aleatoare: f(x) = P{X = x}, unde X este variabila aleatoare.
6 Variabile aleatoare 1

UN EXEMPLU
Fie X suma obinut n urma aruncrii a dou zaruri
o funcie de rezultatul experimentului.

X este o variabil aleatoare. Probabilitile ataate: f(1) = P{X=1} = 0; f(2) = P{X=2} = P{(1,1)} = 1/36; f(3) = P{X=3} = P{(1,2),(2,1)} = 2/36; f(7)=P{X=7}=6/36; f(8)=5/36;;f(12)=1/36 Una i numai una dintre aceste situaii va aprea la fiecare repetare a experimentului: 1 = P(i=2..12{X=i}) = i=2..12P{X=i}
6 Variabile aleatoare 2

DEFINIII
1. O variabil aleatoare (v.a.) este o variabil (funcie) a crei valoare este de fiecare dat un numr determinat de evenimentul rezultat n urma unui experiment aleator. 2. Repartiia unei variabile aleatoare. Fie X o v.a. care poate lua valorile x1, x2, , xn, cu probabilitile f(x1), f(x2), , f(xn). Repartiia v.a. X este mulimea ale crei elemente sunt perechile ordonate (xi, f(xi)), i=1..n.
6 Variabile aleatoare 3

Fie trei bile identificate prin a, b, c, care se repartizeaz aleator n trei urne. Se cere: probabilitatea ca dou urne s fie ocupate; probabilitatea ca trei urne s fie ocupate;
Fie X v.a. care numr urnele ocupate.
33 moduri de a ocupa urnele.

EXEMPLE

X:{e1, e2, , e27}{1,2,3} Repartiia:((1, 3/27), (2, 18/27), (3, 6/27))

probabilitatea ca prima urn s conin trei bile.


Fie Y v.a. ce numr bilele din prima urn. Repartiia sa: ((0, 8/27), (1, 12/27), (2, 6/27), (3, 1/27))
6 Variabile aleatoare 4

Dac o variabil aleatoare X ia valorile distincte x1, x2, , xn , atunci X produce o partiie a spaiului de selecie, {A1, A2, An}, unde Ai se produce dac i numai dac X=xi
Evenimentele X=xi ca evenimente elementare.

_______________________________________ Cu variabile aleatoare se pot efectua diverse operaii. n cele ce urmeaz, fie X i Y v.a. cu repartiiile: (xi, f(xi)), i=1..n, (yk, f(yk)), k=1..m.
6 Variabile aleatoare 5

REPARTIIA COMUN A DOU VARIABILE ALEATOARE


Se ataeaz probabiliti cuplurilor din produsul cartezian al mulimilor de valori: P(xi, yk) = P{(X=xi) i (Y=yk)} = = P{(X=xi) (Y=yk)} Pentru exemplul anterior, avem: P{X=2 i Y=1} = 6/27; P{X=3 i Y=2} = 0.
6 Variabile aleatoare 6

OPERAII ARITMETICE (1)


1. Produsul dintre v.a. X i constanta c: v.a. cX are repartiia (cxi, f(xi)), i=1..n. 2. Suma a dou v.a. X i Y: v.a. X+Y are repartiia (xi+yk, P(xi, yk)), i=1..n, k=1..m. P(xi, yk) este repartiia comun a v.a. X i Y. 3. Produsul a dou v.a. X i Y: v.a. XY are repartiia (xi yk, P(xi, yk)), i=1..n, k=1..m.
6 Variabile aleatoare 7

OPERAII ARITMETICE (2)


4. Ridicarea la putere a unei v.a. X: v.a. Xq are repartiia ((xi)q, f(xi)), i=1..n. 5. Raportul a dou v.a. X i Y, dac Y nu ia valori egale cu 0: X v.a. Z = are repartiia (xi:yk, P(xi, yk)), Y i=1..n, k=1..m.

Variabile aleatoare

VARIABILE ALEATOARE INDEPENDENTE


Variabilele aleatoare X i Y (ce iau fiecare un numr finit de valori) sunt independente dac are loc: P(xi, yk) = P{X=xi}P{Y=yk}, i=1..n, k=1..m. Altfel scris: P{(X=xi) (Y=yk)} = P{X=xi}P{Y=yk} (evenimentele elementare determinate de X i Y sunt independente).
6 Variabile aleatoare 9

V. A. DISCRETE / CONTINUE
Variabilele aleatoare care iau valori ntr-o mulime finit sau numrabil se numesc v.a. discrete. Exemplu: suma valorilor a trei zaruri. Variabilele aleatoare care iau un continuum de valori se numesc v.a. continue. Exemplu: timpul necesar parcurgerii a 100 m
la modul ideal, nu ca rezultat al msurtorii.
6 Variabile aleatoare 10

FUNCIA DE REPARTIIE (DISTRIBUIE)


Definiie. Funcia de repartiie (distribuie) F a unei v.a. X se definete pentru orice numr real b, prin: F(b) = P{X b} Proprieti. 1) F(b) este funcie nedescresctoare n b
evenimentul X a implic evenimentul X b dac a<b, deci are probabilitate mai mic de a se produce.

2) limbF(b) = F() = 1; 3) limb-F(b) = F(-) = 0.


6

ntruct X ia doar valori finite.


Variabile aleatoare 11

FUNCIA DE DISTRIBUIE I CALCULE CU PROBABILITI


La orice ntrebare privind probabiliti referitoare la X se poate rspunde folosind funcia de distribuie. Exemple: P{a < X b} = F(b) - F(a)
Demonstraie. E1: {X b}; E2: {X a}. E1 - E2= {a < X b}. E1 = E2 (E1 - E2) incompatibile, deci: F(b) = F(a) + P{a < X b}

P{X<b} = limh0+ P{X b-h} = limh0+ F(b-h) P{X=b} = F(b) - limh0+ F(b-h) (discrete; continue)
6 Variabile aleatoare 12

Pentru o variabil aleatoare discret X se definete funcia de (mas de) probabilitate ntr-un punct a prin: f(a) = P{X=a} f(a) > 0 pentru o mulime cel mult numrabil de valori ale lui a, adic: f(xi) > 0, i=1,2,; f(x) = 0 pentru orice alte valori ale lui x. Cum X ia de fiecare dat numai una dintre valorile xi, are loc: f(x ) = 1

FUNCIA (MAS) DE PROBABILITATE

i =1

Pentru v.a. discrete: F(a) =


6

toti x i a
Variabile aleatoare

f(x )
i
13

CLASIFICARE A V.A. DISCRETE DUP FUNCIA DE PROBABILITATE



6

V.a. Bernoulli V.a. binomial V.a. geometric V.a. Poisson


Variabile aleatoare 14

VARIABILA ALEATOARE BERNOULLI


S = {0, 1} (succes / eec). Funcia de mas de probabilitate: dat 0 p 1 (probabilitatea de succes), f(0) = P{X = 0} = 1-p f(1) = P{X = 1} = p. Orice v.a. cu o astfel de funcie de probabilitate este o v.a. Bernoulli.
6 Variabile aleatoare 15

VARIABILA ALEATOARE BINOMIAL (1)


Presupunem realizarea a n experimente independente, fiecare avnd probabilitatea p de succes i 1-p de eec.
succesiv aceeai moned; nu i succesiv cri din pachet.

Dac X este numrul de succese n n repetri ale experimentului, atunci X se numete v.a. binomial cu parametrii (n, p). Funcia de probabilitate este dat de: i i n i f(i) = C n p (1 p ) , i = 0, n
6 Variabile aleatoare 16

VARIABILA ALEATOARE BINOMIAL (2)


Intuitiv: orice secven de experimente coninnd i succese i n-i eecuri, are probabilitatea pi(1-p)n-i, experimentele fiind independente. Se multiplic prin numrul de secvene diferite cu i succese i n-i eecuri. Se observ c sumnd de la 0 la n valorile f(i) se obine 1.
6 Variabile aleatoare 17

VARIABILA ALEATOARE BINOMIAL - EXEMPLE


1. Se arunc independent patru monede corecte. Care este probabilitatea de a obine de dou ori stema i de dou ori banul? Pentru v.a. X, fie stema = succes. X este v.a. binomial de parametri(4; 0.5). f(2) = P{X=2} = C42 (0.5)2 (0.5)2 = 3/8.
6 Variabile aleatoare 18

VARIABILA ALEATOARE BINOMIAL - EXEMPLE


2. O main produce rebuturi, independente unele de altele, cu probabilitatea p = 0.1 . Care este probabilitatea ca din 3 piese cel mult una s fie defect? X numr piesele defecte din 3 selectate. X = B (3; 0.1). F(1) = f(0) + f(1) = P{X=0} + P{X=1} = = 0.972
6 Variabile aleatoare 19

3. La o fabric de becuri rebuturile reprezint 10% dintre produse. La serviciul de control al calitii un inspector verific 10 becuri. Care este probabilitatea s nu gseasc mai mult de 1 bec defect?
Nu este chiar o variabil binomial, cci experimentele (extragerile) nu sunt independente. Dac sunt destul de multe becuri, se poate aproxima binomial (probabilitatea alegerii unui bec defect se modific foarte puin). Aproximnd:

VARIABILA ALEATOARE BINOMIAL - EXEMPLE

F(1) = P{X1}=P{X=0}+P{X=1}=0.3487+0.3874
6 Variabile aleatoare 20

X = B(10; 0.1) :
0.45

PROBABILITI PENTRU NUMRUL DE SUCCESE

0.4 0.35

0.3 0.25
BINOMIALA

0.2 0.15

0.1 0.05

0 0 1 2 3 4 5

Variabile aleatoare

21

VARIABILA ALEATOARE BINOMIAL EXEMPLE


4.

Un handbalist transform 75% din loviturile de la 7m. n finala campionatului, handbalistul trage 12 lovituri de la 7m, ratnd 5 dintre ele. A fost el stresat sau performana era de ateptat? Dac loviturile se transform independent, atunci nr. de lovituri transformate este dat de X = B(12; 0,75). p>0,5 se neag succesul: B(12; 0,25). P{X5} = P{X=5}++P{X=12} = 0,1032+0,0401+ +0,0115+0,0024+0,0040+(0) = 0,1576 Cam ntr-un meci din 10 va rata exact 5 din 12. Iar ntr-un meci din 6 va rata cel puin 5 din 12.
Variabile aleatoare 22

IMPORTANA V.A. BINOMIALE


Distribuia de sondaj (a unei statistici) distribuia valorilor luate de statistic pentru un numr mare de eantioane din aceeai populaie Statistica vzut ca o variabil aleatoare Distribuiile numrtorilor i ale proporiilor dintr-o populaie, sunt binomiale. Dac p este proporia succeselor n populaie (parametru!), atunci variabila X care numr succesele n eantioane aleatoare simple de dimensiune n (statistici!) este X = B(n,p).
6 Variabile aleatoare 23

VARIABILE ALEATOARE GEOMETRICE


X - nr. de repetri de experimente independente, fiecare cu probabilitatea "succesului" p, pn la primul "succes. Funcia sa de (mas de) probabilitate este:

f (n) = P{X = n} = (1 p) n 1 p Tema : f (n) = 1


- Dac probabilitatea producerii unei piese defecte este 10%, probabilitatea ca a doua pies produs s fie prima defect e: f(2) = P{X=2} = (1 0,1) 0,1 = 0,09.
6 Variabile aleatoare 24

n =1

VARIABILE ALEATOARE POISSON


- X este v.a. Poisson dac exist real astfel ca funcia de probabilitate a lui X s fie:

f (i ) = P{ X = i} = e

Tem: suma dupa i este 1 (formula lui Taylor). - O variabil binomial B(n,p) este aproximat de o variabil Poisson cu =n*p, pentru valori mari ale lui n i mici ale lui p.
6 Variabile aleatoare 25

i!

, i = 0,1,...

V.A. POISSON - EXEMPLU


O companie aerian face 52 de rezervri pentru cele 50 de locuri ale unui zbor, deoarece se tie c 5% dintre cei ce fac rezervri nu le folosesc. Care este probabilitatea ca toi cei ce se prezint la zbor s aib locuri? X numrul celor ce nu vin. X=B(52; 0.05). f(2) = P{X=2} = ((5251)/2)(5/100)2 (95/100)50 e- (i / i!) = e2,6 ((2,6)2/2) 0,08 3,38 = 0,27 Se calculeaz apoi P{X2}.
6 Variabile aleatoare 26

VARIABILE ALEATOARE CONTINUE


Mulime nenumrabil de valori ale variabilei. Definiie. X este o v.a. continu dac exist o funcie real nenegativ f(x), definit pentru orice x R, astfel ca pentru orice BR:

P{X B} = B f (x)dx

f este funcia de densitate de probabilitate a lui X.

1 = P{ X ( , )} =
6 Variabile aleatoare

f ( x ) dx
27

PROPRIETI DE CALCUL
P { a X b } = f ( x ) dx a P{ X = a} = 0
b

Relaia dintre funcia cumulativ de distribuie i densitatea de probabilitate:


F (a) = P{X (, a]} = F ' (a ) = f (a ) f (a) P{a 1

f ( x)dx = lim f ( x)dx


t t

X a+ } 2 2
Variabile aleatoare 28

VARIABILA ALEATOARE UNIFORM V.a. uniform distribuit pe (0,1): f (x) = if (0<x<1) then 1 else 0 endif. f(x)0 ; P{-<X<}=1 a,b(0,1): P{aXb}=b-a V.a. uniform distribuit pe (,): f (x) = if (<x<) then 1/(-) else 0 endif. Tem: F(a) = ?
6 Variabile aleatoare 29

ALTE V.A. CONTINUE


Variabila aleatoare Gamma de parametri >0, >0 are densitatea de probabilitate: x 1 e x ( ) f (x) = if (x<0) then 0 else , ( ) unde () = ex x1 dx
0

Variabila aleatoare exponenial de parametru >0 are densitatea de probabilitate: x f (x) = if (x<0) then 0 else e endif.
6 Variabile aleatoare 30

VARIABILE ALEATOARE NORMALE V.a. X este normal distribuit cu parametrii si 2 dac densitatea ei de probabilitate este x 1 2 f ( x) = e ( 2) Proprieti: 1. X = N(, 2) Y = aX+b = N(a+b, b22) 2. X = N(, 2) Y = (X - ) / = N(0, 1) la cte deviaii standard de media se gsete fiecare observaie
2

Variabile aleatoare

31

MEDIA UNEI VARIABILE ALEATOARE


Discrete:

M[X] =

x: f ( x)>0

x f (x)

X aruncare zar: M[X]=(1+2++6)/6=7/2 Bernoulli: M[X] = 0(1-p)+1p = p Tem:


- Binomial - B(n,p): M[X] = n p (distribuia de sondaj a mediei eantioanelor are media M[X]; estimator al proporiei succeselor: M[X] / n = p) - Geometric: M[X] = 1/p - Poisson: M[X] =
6 Variabile aleatoare 32

MEDIA UNEI V.A. CONTINUE

M [ X ] = x f ( x ) dx
1 x dx = V.a. uniform: M[X] = = (+)/2 Tem:
Exponenial: M[X] = 1 / Normal: M[X] =

Variabile aleatoare

33

MEDIA UNEI FUNCII DE O V.A. (1) M[g(X)] = M[Y], unde Y = g(X). Exemplu: Dac X este uniform distribuit pe (0,1), s se calculeze M[X3]. Soluie. Y=X3. FY(a) = P{Ya}=P{X3a}=P{Xa1/3}=
a1 / 3

fY(a) = FY(a) = (1/3)a-2/3.


1
6 Variabile aleatoare

f ( x ) dx = dx = a
0

a1 / 3

1 3

1 2 / 3 af ( a ) da = a a da = 1 / 4 Y 3 0

M[X3]=M[Y]
34

MEDIA UNEI FUNCII DE O V.A. (2) Discrete: Continue: Exemplu:

M[g(X)]= g(x) f (x)


x: f (x)>0

M[g( X )] = g(x) f (x)dx


1 M [ X ] = x 1 dx = 4 0
3 1 3

Corolar: M[aX+b] = a M[X] + b M[Xn] este momentul de ordin n al lui X.


6 Variabile aleatoare 35

DISPERSIA UNEI V.A. X

D2(X) = M[Y], unde Y = (X-M[X])2 Exemple: 1. X rezultatul aruncrii unui zar


M[X] = 7/2; M[X2] = (12++62) / 6 = 91/6 D2(X) = 91 / 6 49 / 4 = 35 / 12 2. Tem. Pentru X = N(,) s se arate c: D2(X) = M[(X- )2] = 2.
6 Variabile aleatoare 36

DISPERSIILE UNOR V.A. (tem)

X = B(n,p): X v.a. Poisson: X v.a. geometric:

D2(X) = np(1-p) D2(X) = D2(X) = (1-p) / p2

X v.a. uniform: D2(X) = (-)2 / 12 X v.a. exponenial: D2(X) = 1 / 2 X v.a. (n,): D2(X) = n / 2
6 Variabile aleatoare 37

DISTRIBUIA UNUI VECTOR ALEATOR Fie X, Y dou variabile aleatoare Funcia de distribuie vectorial a lui X i Y F(a,b) = P{Xa, Yb}, a,bR Distribuiile variabilelor aleatoare iniiale se regsesc ca distribuii marginale (proiecii): FX(a) =P{Xa} = P{Xa, Y} = F(a, ) FY(b) =P{Yb} = P{X, Yb} = F(, b)
6 Variabile aleatoare 38

MASA I DENSITATEA DE PROBABILITATE VECTORIALE V.a. vectoriale discrete: funcia de (mas de) probabilitate vectorial a lui (X, Y) este: f(x,y) = P{X=x, Y=y} f (x, y) Marginale: fX(x) = P{X=x, YR}= y:f ( x,y)>0 V.a. vectorial continu: (X,Y) este v.a.v.c. dac exist f:R2R astfel nct, A,B R, f ( x , y ) dxdy P{XA, YB} = B A
Marginale: P{X A}= unde:
6

f ( x, y ) dxdy = f X ( x ) dx ,

f X ( x ) = f ( x, y ) dy

Variabile aleatoare 39

FUNCII DE V.A. VECTORIALE


Propoziie (generalizabil pt. nr. finit de v.a.). discrete: M[g(X,Y)] = g(x, y) f (x, y)
y x + +

continue: M[g(X,Y)] = g(x, y) f (x, y)dxdy Exemplu: X suma a trei zaruri aruncate independent. X = X1 + X2 + X3 . Media:
M[X]=M[X1+X2+X3]=M[X1]+M[X2]+M[X3 ]=21/2 Tem. Din n persoane, n medie cte i recupereaz propria plrie? (Indicaie: Xi=if i da then 1 else 0 endif; P{Xi=1} = 1/n; M[Xi] = 1/n; M[X] = 1).
6 Variabile aleatoare 40

V. A. INDEPENDENTE
Definiie. V.a. X, Y sunt independente dac, a,bR: P{X a, Y b} = P{X a} P{Y b} (evenimentele {X a} i {Y b} sunt independente) n termenii funciei de distribuie vectorial F: a,bR: F(a,b) = FX(a) FY(b) n termenii funciei de probabilitate f, pentru (X,Y) discret sau continu: f(x,y) = fX(x) fY(y). Propoziie. Dac X, Y sunt independente, atunci, funcii g, h: M[g(X)h(Y)] = M[g(X)]M[h(Y)] Caz particular: M[XY] = M[X]M[Y].
6 Variabile aleatoare 41

COVARIAN Definiie. Fie X i Y dou v.a. Covariana lor este: cov(X,Y) = M[(X-M[X])[Y-M[Y])]. Propoziie: cov(X,Y) = M[XY]-M[X]M[Y]
Obs.: X,Y independente cov(X,Y) = 0; nu i reciproc! Intuitiv: cov(X,Y)>0 dac Y crete odat cu X, iar cov(X,Y)<0 dac Y descrete cnd X crete. Tem. X = if (A se realizeaz) then 1 else 0; Y = if (B se realizeaz) then 1 else 0. cov(X,Y) = 1 P{X=1,Y=1}-1 P{X=1}1 P{Y=1} cov(X,Y)>0 cnd, iar cov(X,Y)<0 cnd.
6 Variabile aleatoare 42

DISPERSIE I COVARIAN D2(X+Y) = D2(X) + D2(Y) + 2cov(X,Y) Independente: D2(X+Y) = D2(X) + D2(Y) D2(X1++Xn) = D2(X1) ++ D2(Xn) + 21 i<jncov(Xi,Xj) Tem. n exemplul anterior, care este dispersia numrului de persoane care i recupereaz propria plrie? (Rspuns: 1).
6 Variabile aleatoare 43

COEFICIENT DE CORELAIE Coeficientul de corelaie al v.a. X i Y este: cov( X , Y ) r ( X ,Y ) = D 2 ( X ) D 2 (Y ) X, Y independente r(X,Y) = 0 (nu i reciproc!) Pentru orice v.a. X i Y : r2(X,Y) 1. Dac Y = aX+b (a0,b - constante) atunci r(X,Y) = if (a>0) then +1 else 1 endif.
6 Variabile aleatoare 44

FUNCII GENERATOARE DE MOMENTE Funcia generatoare (de momente) a variabilei aleatoare X este, pentru orice tR
e f ( x ) dx Tem. Toate momentele lui X se obin ca valori n 0 ale derivatelor lui : M[Xn]= (n)(0) Indicaie: prin inducie. Pasul iniial: d d tX ' tX (x) = (M[e ]) = M[ e ] = M[XetX ] dt dt ' (0) = M[X]
6 Variabile aleatoare 45

(t ) = M [ e ] =
tX

x: f ( x ) > 0 + tx

e tx f ( x)

TEM: EXEMPLE DE FUNCII GENERATOARE

X=B(n,p). (t) = (pet+1-p)n XPoisson de parametru . (t) = e(e^t-1) X = N(,). (t) = M[etX] =

1 + tx = e e 2

( x )2 2 2

dx =e

t
2

+ t

Se deduc apoi, pentru fiecare caz, M[X], M[X2] i D2(X), folosind pentru calculul momentelor
6 Variabile aleatoare 46

PROPRIETILE FUNCIILOR GENERATOARE DE MOMENTE Funcia generatoare de momente a unei sume de variabile aleatoare independente este produsul funciilor lor generatoare.
X+Y(t) = M[et(X+Y)] = M[etXetY] = =M[etX]M[etY] = X(t)Y(t)

Funcia generatoare de momente determin n mod unic distribuia.


X=B(n,p), Y=B(m,p), independente. X+Y=? X+Y(t) = X(t)Y(t) = (pet+1-p)n(pet+1-p)m = =(pet+1-p)m+n = B(m+n,p)(t)
6 Variabile aleatoare 47

INEGALITATEA LUI MARKOV Dac X este o variabil aleatoare ce ia doar valori nenegative, atunci pentru oricare a>0 P{X a} (1/a) M[X] Demonstraie. a M[X] = x f (x)dx = x f (x)dx+ x f (x)dx
0

x f (x)dx a f (x)dx =a P{X a}


a a
7 Teoreme fundamentale 1

INEGALITATEA LUI CEBEV Consecin. Dac X este o variabil aleatoare cu media i dispersia 2 , atunci pentru oricare k>0: 2 P{ X k } 2 k Demonstraie. 2 i a=k2 Aplicm Markov pentru 2v.a. (X ) 2 2 Inegalitile Markov i Cebev dau margini pentru probabiliti cnd nu se tie distribuia v.a., ci doar media / dispersia ei.
7 Teoreme fundamentale 2

M[( X ) ] P{( X ) k } = 2 ; P{ X k} 2 2 k k k
2 2

LEGEA TARE A NUMERELOR MARI


Media aritmetic a unui ir de v.a. independente, de aceeai distribuie, converge la media distribuiei cu probabilitate 1. Teorem. Fie X1, X2, un ir de v.a. independente cu aceeai distribuie i fie M[Xi]=, i=1,2, Atunci:
X 1 + X 2 + ... + X n P{lim = } = 1 n n

7

Selecii repetate, independente, din aceeai populaie Experiment repetat independent: media tinde la parametru
Teoreme fundamentale 3

DEFINIIILE CU FRECVENE I AXIOMATIC


Fie E un eveniment, P{E} probabilitatea ataat. Fie Xi = if (E se produce la a i-a repetare) then 1 else 0 endif. Legea tare a numerelor mari asigur, cu probabilitate 1, c X1 +...+ Xn X1++Xn e nr. de apariii ale lui E n n repetri, deci, la limit, E se produce cu frecvena P{E}. Cu frecvene: probabilitatea lim((X1++Xn)/n) Axiomatic: P{E}, consistent cu axiomele.
7 Teoreme fundamentale 4

M[Xi ] = P{E}

TEOREMA LIMIT CENTRAL (1)


Calculul aproximativ al probabilitilor pentru sume de v.a. independente. De ce att de multe populaii dau curbe normale?

Teorem. Fie X1, X2, un ir de v.a. independente identic distribuite fiecare cu media i dispersia 2. Atunci distribuia v.a. X 1 + X 2 + ... + X n n , n N , tinde la N(0,1). 2 /n x a Sau: X1 + X 2 + ...+ X n n 1 a} = limP{ e 2 dx n n 2
2

Teoreme fundamentale

TEOREMA LIMIT CENTRAL (2)


Oricare ar fi distribuia comun! Chiar pentru distribuii diferite, dac nici una nu domin! Chiar pentru v.a. ne-independente, dac acestea au corelaie mic!

Teoreme fundamentale

APROXIMAREA NORMAL A BINOMIALEI X = B(n,p) are aceeai distribuie ca 1..nXi, cu Xi = B(1,p) = Bernoulli(p) i Xi v.a. independente X M[ X ] X np Y= = = 2 Atunci distribuia lui np(1 p) D (X ) X1 + ... + X n tinde la N(0,1) cnd M[ X i ]) n( n = n (Y normal!) D2 ( X i ) n Aproximarea n N(0,1) este bun pentru: np(1-p)10.
7 Teoreme fundamentale 7

UN EXEMPLU
Fie X numrul de apariii ale feei ban la 40 de aruncri independente ale unei monede. Ct este P{X=20}? 19,5 20 X 20 20,5 20
} P{19,5 Xc 20,5} = P{ P{X = 20 Xc 20 +0,16 } (0,16) (0,16) P{0,16 10 10
c

10

10

}=

(-0,16) = 1- (0,16) = 1- 0,5636 P{X=20} 2(0,16) - 1 0,1272 1 20 1 20 20 P{X=20} = C40 ( ) ( ) = 0,1268


2 2
7 Teoreme fundamentale

1 x ( y / 2) dy funcia de distribuie a lui N(0,1): (x) = e 2


2

(D2 (X) = np(1 p) =10)

PROCESE STOCHASTICE
Definiie. Un proces stochastic {X(t), tT} este o colecie de variabile aleatoare. (t, X(t) e o v.a.). X(t) este starea procesului la momentul t
(un proces stochastic descrie evoluia n timp a unui proces).
Exemple. X(t) poate numra: clienii intrai n magazin pn la momentul t; clienii aflai n magazin pn la momentul t; banii ncasai pn la momentul t.

T numrabil proces discret; T interval real proces continuu.


7 Teoreme fundamentale 9

PROCESE STOCHASTICE FINITE T={1,,n}. Procesul este un arbore.


Proces independent: X(t) nu depinde de X(t-k) Proces Markov (finit): X(t) depinde doar de X(t-1) Lan Markov (finit): un proces Markov pentru care probabilitile de trecere dintr-o stare n alta nu depind de t (matricea probabilitilor de trecere). Proces cu legturi complete: clase de stri. Din cele finale procesul nu mai iese.

Teoreme fundamentale

10

RSPUNSURI RANDOMIZATE
Ai copiat la vreo lucrare (proiect) n facultate? Procedura de rspuns. Fiecare student arunc o moned n secret. Dac e BAN i nu a copiat, spune NU. n orice alt situaie, spune DA (a copiat sau STEMA). tiind c 30% din studeni au copiat mcar o dat i presupunnd moneda corect, s se construiasc un arbore de decizie probabilist. (0,5 BAN) (0,7 NU) (0,3 DA) DA 0,35 DA 0,15 NU 0,35 DA 0,15 Dar dac NU reprezint 39% din rspunsuri, ci studeni putem estima c nu au copiat? P{N} = P{N/B} = P{NB} / P{B} = 0,39 / 0,5 = 0,78
7 Teoreme fundamentale 11

PROBABILITI I MEDII CONDIIONATE


Calcularea probabilitilor i a mediilor folosind informaii pariale. Raionamente pe cazuri.

Cazul discret. Date X,Y v.a., se definete funcia de (mas de) probabilitate condiionat a lui X dat c Y=y: P{X = x,Y = y} f X / Y ( x / y) = P{X = x / Y = y} = P{Y = y}

f (x, y) f X /Y (x / y) = , fY ( y)
8

cu

P{Y = y} > 0.
1

Medii conditionate

Media condiionat a variabilei X, dat Y=y: M[X/Y=y] = x xP{X=x/Y=y} = = x xfX/Y(x/y) Definiiile au acelai suport ca n cazul funciilor de probabilitate i de distribuie, respectiv al mediei, dar includ condiionarea de evenimentul Y=y. Definiiile coincid cu cele clasice atunci cnd X i Y sunt variabile independente, caz n care: fX/Y(x/y) = P{X=x}, pentru oricare y.
8 Medii conditionate 2

MEDIA CONDIIONAT (cazul discret)

EXEMPLE
1.- (Tem). Dac X i Y sunt variabile aleatoare Poisson de parametri (medii) 1 i 2, atunci distribuia de probabilitate condiionat a lui X, dat X+Y=n este binomial: B ( n , 1 / (1 + 2 ) ). 2.- (Tem). Dac X i Y sunt variabile aleatoare independente, ambele B ( n , p ), atunci variabila X / X+Y=m este distribuit hipergeometric.
k mk Cn Cn Anume: P{X=k / X+Y=m} = C m 2n

(urn cu n bile albe, n negre; se extrag m. Cte sunt albe?)


8 Medii conditionate 3

2.- CAZUL CONTINUU


Fie v.a. X, Y care au funcie de densitate vectorial continu, f(x,y). Funcia de densitate de probabilitate condiionat, a lui X, dat c Y=y, se definete pentru orice y pentru care fY (y) > 0 prin: + f ( x, y ) f X / Y ( x / y) = , unde fY ( y ) = f ( x, y )dx fY ( y ) Intuitiv, f X / Y ( x / y ) reprezint probabilitatea condiionat ca X s ia valori ntre x i x+dx, dac Y ia valori ntre y i y+dy

f ( x, y)dxdy P{x X x + dx, y Y y + dy} fY ( y)dy P{y Y y + dy}


Medii conditionate

MEDIA CONDIIONAT (cazul continuu)


Media condiionat a lui X, dat c Y=y, se definete pentru orice y pentru care fY(y)>0 prin:

M [ X / Y = y ] = x f X / Y ( x / y ) dx

Exemplu: Dac (X,Y) are densitatea vectorial f(x,y) = if (0<x< i 0<y<2) then 0,5y e-xy else 0 endif. Care este M[eX/2/Y=1] ?
f ( x ,1) f X / Y ( x / 1) = = fY (1) M [e
8
X /2

0,5 e x
x 0 , 5 e dx 0

= ex

/ Y = 1] = e
0

x/2

f X / Y ( x / 1) dx = e x / 2 e x dx = 2.
0

Medii conditionate

CALCULUL MEDIILOR PRIN CONDIIONARE Se poate considera funcia avnd ca argument v.a. Y i care are, n punctul Y=y, valoarea M[X/Y=y]. Notm aceast funcie ea nsi o v.a. - cu M[X/Y]. Propoziie (tem). Pentru orice v.a. X i Y are loc: M [ X ] = M [ M [ X / Y ] ]. Indicaie.M[X]=y M[X/Y=y] P{Y=y}, respectiv

M [ X ] = M [ X / Y = y ] fY ( y )dy Raionamente pe cazuri, recursii.


8 Medii conditionate 6

UN EXEMPLU
Un miner este blocat ntr-o galerie cu trei ui. Prima duce afar dup 2 ore de drum, a doua l face s revin n galerie dup 3 ore, a treia la fel, ns dup 5 ore. Dac alegerile uilor sunt permanent echiprobabile, dup ct timp, n medie, va reui minerul s ias la lumin? Fie X timpul pn a ajunge afar, Y ua aleas. M[X] = M[X/Y=1]P{Y=1}+M[X/Y=2]P{Y=2}+ M[X/Y=3] P{Y=3} = (1/3)(M[X/Y=1]+M[X/Y=2]+ M[X/Y=3]) M[X/Y=1] = 2; M[X/Y=2] = 3+M[X]; M[X/Y=2] = 5+M[X] M[X] = (1/3) (2+(3+M[X])+(5+M[X]))=10. (ncearc tot)
8 Medii conditionate 7

ANALIZA QUICK-SORT (1)


n vectorul de sortat, aleg aleator o poziie, trec valorile mai mici n stnga sa, cele mai mari n dreapta i sortez recursiv. Care este numrul mediu de comparaii? Fie Mn numrul de comparaii necesare pentru a sorta n valori distincte i variabilele aleatoare X nr. de comparaii, Y a cta valoare minim e aleas iniial.

M n = M [ X / Y = j ] (1 / n )
j =1

Sunt j-1 mai mici, n-j mai mari, trebuie n-1 comparaii pentru a le gsi: Mn = (1/n) j(n-1+Mj-1+Mn-j) = =( n-1)+2(1/n)(M0+M1++Mn-1), cu M0=0.
8 Medii conditionate 8

ANALIZA QUICK-SORT (2)


nM n := n + 1
n

= n ( n 1) + 2 M k
k =1 n k =1

n 1

( n + 1) M n +1 = n ( n + 1) + 2 M k se scad : = ( n + 2 ) M n + 2 n.

( n + 1) M n +1

Rezult: Mn+1/(n+2) = Mn/(n+1)+2n/((n+1)(n+2)) Scriind pentru n:=1,2,,n+1 i adunnd:


n n k i = 2(n + 2) Mn+1 = 2(n + 2) k=0 (n +1 k)( i=1(i +1 n + 2k) )(i + 2) n1

Medii conditionate

ANALIZA QUICK-SORT (3)


Pentru n>>, se aproximeaz convergena unor integrale: n 2 n 1 ] M n+1 = 2(n + 2)[ i =1 i + 2 i =1 i + 1 n+ 2 2 n+1 1 2(n + 2)[ dx dx] = 3 x 2 x = 2(n + 2)(2 log(n + 2) log(n + 1) + log 2 2 log 3) = n+2 2 2(n + 2)(log(n + 2) + log + log ) n +1 9 2(n + 2) log(n + 2)
8 Medii conditionate 10

O STRUCTUR DE LIST (1)


Fie n elemente, e1, e2, , en, aflate iniial ntr-o list ordonat. La fiecare moment, se cere un element din list. Se cere ei cu probabilitatea Pi. Elementul cerut se trece n capul listei. (e4,e3,e2,e1), se cere e2, lista devine (e2,e4,e3,e1). S se afle poziia medie a elementului cerut, dup ce procedeul a funcionat mult timp. Condiionm dup elementul selectat. X poziia elementului cerut; Y elementul cerut (Y=i se cere ei); Zi poziia elementului ei.

M [ X ] = M [ X / Y = i] P i = M [Zi / Y = i ] P i = M [Zi ] P i
i =1 i =1 i =1
8 Medii conditionate 11

O STRUCTUR DE LIST (2)


Dar Zi=1+ij Ij, unde Ij= if (ej precede ei) then 1 else 0 endif. M[Zi] = 1+ij M[Ij] = = 1+ij (1P{ej precede ei}+0P{ei precede ej}) ej precede ei dac, dintre cele dou elemente, cel mai recent a fost cerut ej. Aceasta are loc cu probabilitatea: P { se cere ej / se cere ei sau ej } = Pj / (Pi+Pj). Rezult: n n P P

M[ X ] = (1+
i=1

j i i

P + Pj

) P i = 1+ P i
i=1

j i i

P + Pj
12

Medii conditionate

ALTE CALCULE PRIN CONDIIONARE


i dispersiile se pot calcula prin condiionare: D2(X)=M[X2]-(M[X])2=M[M[X2/Y]]-(M[M[X/Y]])2 De asemenea, probabilitile: Fie X = if (se produce E) then 1 else 0 endif. M[X] = P{E}. Pentru oricare v.a. Y, rezult: M[X/Y=y]=P{E/Y=y}. Atunci: P{E}=yM[X/Y=y]P{Y=y}=yP{E/Y=y}P{Y=y}

P{E} = M [ X / Y = y ] fY ( y )dy = P{E / Y = y} fY ( y )dy



8 Medii conditionate 13

k SUCCESE CONSECUTIVE
Se repet experimente independente, fiecare cu probabilitatea p de succes, pn se produc k succese consecutive. S se arate c numrul mediu de repetri necesare este: Mk = 1/p + 1/p2 ++1/pk. Fie Nk numrul de repetri necesare pentru k succese consecutive. Mk = M[Nk]. Recursie prin condiionare: Mk = M[Nk] = M[ M[Nk/Nk-1] ] Dar: M[Nk/Nk-1] = Nk-1+1+(1-p)M[Nk] De unde: Mk = Mk-1+1+(1-p)Mk Mk = 1/p + Mk-1 / p M1 = 1/p (geometric); M2 = 1/p+ 1/p2;
8 Medii conditionate 14

STATISTIC INFERENIAL
Statistica inferenial trage concluzii valabile pentru populaie din datele unuia sau mai multor eantioane, folosind calcule probabiliste. Fapte cunoscute generalizare la populaie. Fr suportul probabilitilor, e posibil ca un efect s fie considerat sistematic, cnd de fapt el este aleator (de exemplu, k succese consecutive). Alteori, dimpotriv, efecte sistematice pot trece neobservate. Exemple de inferen statistic: interval de ncredere pentru estimarea valorii unui parametru; teste de semnificaie pentru evaluarea unei aseriuni (ipoteze). Aceste paradigme arat ce s-ar ntmpla dac metoda de inferen s-ar aplica de multe ori. Metodele de inferen se bazeaz pe distribuii de sondaj (experimente: respectarea caracterului aleator!).
datele sunt privite ca provenind din eantionare aleatoare.
9 Statistica inferentiala 1

ESTIMAREA PARAMETRILOR
Estimarea parametrilor se face folosind statistici calculate din eantioane. Estimare punctual: parametrul este aproximat printr-o valoare. Estimare prin interval: o valoare inferioar i una superioar, ntre care se afl valoarea parametrului, cu o probabilitate dat.
9 Statistica inferentiala 2

REPARTIIA DE SONDAJ
Fie o populaie C format din N obiecte, descrise de valorile unei caracteristici X: a1, a2,, aN. n C, media i dispersia caracteristicii X sunt: M[X] = (1/N)iai = ; D2(X) = (1/N)i(ai-)2 = M[(X- )2] = 2 Estimarea de parametri (, 2 etc.) ai populaiei se face folosind eantioane aleatoare de volum n. n Pentru Xi = {xi1, , xin}, fie x i ( n ) = ( x 1 + ... + x i i )/n
Fiecare xij este o valoare a unei v.a. cu aceeai repartiie ca i X.

{x1 ( n ), x 2 ( n ), ... } sunt valori succesive ale v.a. a mediilor de sondaj pentru e.a. de volum n. Repartiia unei astfel de v.a. se numete repartiie de sondaj.
9 Statistica inferentiala 3

REZULTATE PRIVIND ESTIMAREA


Teorem. Media i dispersia mediei de sondaj sunt , respectiv 2/n. Nu este util s exprimm media i dispersia mediei de sondaj prin i 2 , care sunt necunoscute. Dispersie: pentru eantioane de dimensiune n, o aproximare a lui 2 este s2 dat de
s
9

i =1

(X

xn )2
4

n 1
Statistica inferentiala

ESTIMAREA MEDIEI
Medie. Cu aproximarea anterioar pentru dispersie, din inegalitatea lui Cebev obinem:
1 P{ xn < k D ( xn )} 1 2 sau k 1 s s < < xn + k } 1 2 P{xn k n n k
2

Cu ct k este mai mare, cu att probabilitatea este mai aproape de 1. Aadar, o aproximare a lui s s ( x k , x + k ) n n este intervalul: n n 2 xn = N ( , ) Teorema Leapunov.
n
9 Statistica inferentiala 5

CARACTERISTICI ALE ESTIMATORILOR (1)

Media populaiei poate fi estimat prin media eantionului (sau mediana, mdul, media de ordin k, media geometric, media armonic a acestuia). Cum alegem un estimator? Acuratee: statistica trebuie s indice valoarea corect a parametrului. ncredere: valorile statisticii trebuie s fie cel mai frecvent aproape de valoarea parametrului.
9 Statistica inferentiala 6

CARACTERISTICI ALE ESTIMATORILOR (2)


Def.1: Statistica tn (n - cardinalul eantionului) este un estimator nedeplasat al parametrului dac M[tn] = . Def.2: Statistica tn este un estimator consistent pentru parametrul dac limn P{ |tn - | < } = 1 (mprtierea n jurul valorii parametrului s fie orict de mic, prin n). Def.3: Statistica tn este un estimator eficient pentru parametrul dac tn d valori concentrate mai aproape de valoarea lui dect valorile oricrei alte statistici. Media de sondaj este un estimator nedeplasat al mediei . Pentru populaii normale, media aritmetic este estimator eficient.
9 Statistica inferentiala 7

ESTIMAII ALE DISPERSIEI


2 = i =1 sn n 2 2 Tem. M[sn ] = ( (n-1) / n ) Indicaie. Se calculeaz media v.a. care este ptratul mediei de sondaj. Deci, M[sn2] 2 , adic sn2 nu este un estimator nedeplasat al lui 2. 2.- Estimatorul s2 de mai sus este un estimator nedeplasat al dispersiei populaiei: M [s2] = M [ (n/(n-1)) sn2 ] = 2. 3.- Amplitudinea estimeaz dispersia pentru eantioane mici. Este un estimator instabil (nerobust): valorile aberante produc distorsiuni.
9 Statistica inferentiala 8

1.- Abaterea medie ptratic.

2 ( xi x n )

INTERVALE DE NCREDERE
Intervalul de ncredere const dintr-un interval rezultat din eantion i un nivel de ncredere (probabilitatea ca intervalul s acopere valoarea parametrului). Nivelul de ncredere se specific (de regul, 0,90 sau mai mult). Se d de obicei , unde nivelul de ncredere este 1- ( 0,95 corespunde la =0,05). Definiie. Un interval de ncredere de nivel 1- pentru parametrul este dat de dou statistici U i L astfel nct: P { L U } = 1 - . L i U sunt variabile aleatoare, construite din statistici ale eantionului: la eantioane diferite, iau valori diferite.
9 Statistica inferentiala 9

INTERVAL DE NCREDERE PENTRU MEDIE (1)

Se dau: un e.a. de dimensiune n i nivelul 1-. Se cere: un interval de ncredere pentru . Baza: cunoatem distribuia mediei eantionului, anume N(, 2/n). Cutm numrul z* pentru care distribuia normal acoper probabilitatea (aria) 1- pe o distan de z* deviaii standard de la medie spre stnga i spre dreapta. z* se gsete n tabelele distribuiei normale standard. x=z* delimiteaz, la dreapta sa, aria /2.
9 Statistica inferentiala 10

VALOARE CRITIC
Exemplu. Dac nivelul de ncredere cerut este 90%, rezult = 0,1; / 2 = 0,05. Pentru N(0,1), x = z* trebuie s lase la dreapta sa aria 0,05 iar la stnga 0,95. Din tabel rezult c z* aparine intervalului [1,64; 1,65]. Se interpoleaz z* = 1,645 (deviaii standard de la medie). Definiie. Valoarea critic pentru nivelul de ncredere 1- este numrul z* pentru care dreapta x = z* delimiteaz sub curba de densitate normal standard aria / 2. x * + z *} = 1 P{ z sau

P{ x z
*
9

n x+z
*

} =1
11

Statistica inferentiala

INTERVAL DE NCREDERE PENTRU MEDIE (2)

Se selecteaz un e.a. de dimensiune n dintr-o populaie de medie necunoscut i deviaie standard cunoscut . Un interval de ncredere de nivel 1- pentru este: * * (x z ,x + z ) n n unde z* este valoarea critic superioar /2 pentru N(0,1). Acest interval este exact pentru populaii cu distribuie normal i aproximativ (n>>) pentru alte populaii.
9 Statistica inferentiala 12

INTERVAL DE NCREDERE PENTRU MEDIE (3)


Nivel ncredere

90% 95% 99%

p=/2 0,05 0,025 0,005

z* 1,645 1,960 2,576

Lungimea intervalului de ncredere este 2 z * n Dac se cere de la nceput o anumit lungime w a intervalului, atunci se alege n = (2z* /w)2. Ceea ce uneori este practic imposibil.
9 Statistica inferentiala 13

UN EXEMPLU
Se analizeaz mostre dintr-un produs farmaceutic pentru a stabili concentraia de substan activ. Rezultatele msurtorilor repetate ale aceleiai mostre urmeaz o distribuie normal; media a distribuiei este chiar concentraia real a mostrei. Deviaia standard a procesului de msurare este = 0,0068 grame pe litru. Se fac trei msurtori ale unei mostre i se raporteaz media lor. Dac cele trei msurtori ale unei mostre au fost 0,8403; 0,8363; 0,8447, s se construiasc un interval de ncredere la nivelul 99% pentru concentraia real .

/ 2 = 0,005. Rezult din tabelul N(0,1): z*=2,576. z* / n = 0,0101


Intervalul de ncredere este (0,8404-0,0101; 0,8404+0,0101). 0,0101 este eroarea marginal. (0,8303; 0,8505)
9 Statistica inferentiala 14

x 3 = 0,8404;

= 0,01;

DEPENDENA DE n
n exemplul anterior, dac n ar fi fost 1, pentru acelai nivel de ncredere 99% i cu msurtoarea unic egal cu 0,8404, atunci intervalul de ncredere ar fi devenit (0,8229; 0,8579) - adic (0,8404-0,1750; 0,8404+ 0,1750). Pentru n mai mic se obine un interval mai mare, adic o precizie mai mic: eroarea marginal scade cnd n crete. Intervalul de ncredere poate fi vzut ca: estimarea_mediei +- z*_estimrii
9 Statistica inferentiala 15

TESTE DE SEMNIFICAIE
Evaluarea statistic a valorii de adevr a unei aseriuni (ipoteze), pe baza doar a datelor existente. Exemplul I (exemplele I i II introduc testele de semnificaie n Moore&McCabe Introduction to Statistics): Sistemul greoi de preferine i excepii la recrutare n armata american a fost eliminat n 1970 prin introducerea unei loterii la care fiecare dat de natere din 366 posibile primea n mod aleator un numr de ordine 1..366, recrutarea fcndu-se n ordinea acestor numere. X a cta zi din an e ziua de natere pentru fiecare tnr. Y numrul ataat de loterie zilei de natere a fiecrui tnr. La o loterie aleatoare, ntre X i Y nu trebuie s existe nici o asociere sistematic. Studiu descriptiv i studiu inferenial.
9 Statistica inferentiala 16

STUDIUL INFERENIAL
Asocierea dintre variabile poate fi msurat prin coeficientul de corelaie. Pe aplicarea datelor din 1970, a rezultat r=-0,226 (pe toate extragerile posibile n condiii identice populaia total ar fi , necunoscut). Estimarea - 0,226 este semnificativ deprtat de 0 pe scala [-1; 1]? Formalizare. Presupunnd c loteria este perfect aleatoare, care este probabilitatea ca ea s produc un coeficient de corelaie cel puin la fel de deprtat de 0 ca 0,226? Soluie. Probabilitatea este 0,001. Rezult din date - probe pentru a afirma c loteria din 1970 nu a fost perfect aleatoare. Motivul: numerele au fost introduse pe luni i insuficient amestecate.
9 Statistica inferentiala 17

FORMULAREA CONCLUZIILOR
r=-0,226 arat c tinerii nscui spre sfritul anului au avut numere de ordine mai mici, deci au fost recrutai cu precdere.
Intuitiv: o dat la o mie de ani (p = 0,001) este prea rar pentru a se ntmpla din primul an.
Dar: lipsa de experien din primul an poate explica situaia.

Exist totui dou posibiliti: 1.- Procesul a fost aleator i, prin hazard, spetrecut un eveniment la o mie de ani; 2.- Caracterul aleator a fost perturbat. ansa de a fi n situaia 1.- este att de mic, nct se accept 2.9 Statistica inferentiala 18

EXEMPLUL II (1)
O companie productoare de brnzeturi ia lapte de la mai muli productori. Exist bnuiala c unii productori adaug ap n lapte pentru a-i crete profiturile. Temperatura de ngheare a laptelui variaz normal cu media = -0,545C i deviaia standard =0,008C. Apa n lapte afecteaz aceast variaie normal, crescnd temperatura de ngheare. Se msoar temperatura de nghe la cinci loturi succesive de lapte de la acelai productor, media obinut fiind x 5 = 0,538 . Este aceasta o dovad c productorul respectiv adaug ap n lapte? Ipoteza de lucru.Media productorului este p == -0,545C Care este probabilitatea ca pe un eantion de 5, x 5 = 0,538 ? Soluie. Cu lapte natural, probabilitatea este 0,025. Concluzie. 1/40: exist dovezi c productorul adaug ap.
9 Statistica inferentiala 19

TESTAREA IPOTEZELOR, CA TIP DE RAIONAMENT


Teste de semnificaie (Laplace 1820; Edgeworth 1885). Semnificativ: pare a corespunde unei diferene reale.

Datele sunt departe de ce s-ar ntmpla dac H0 ar fi adevrat este tipul de argument ce duce la respingerea ipotezei H0.
Se caut n date prezena unui anumit efect (corelaia mare din cazul loteriei, creterea temperaturii de nghe n cazul laptelui).

1.- Se presupune c efectul nu este prezent; 2.- Se verific n date tria dovezilor c ipoteza de la pasul 1.- este fals; 3.- Dac se gsesc dovezi puternice la pasul 2.-, atunci se accept ipoteza c efectul exist. 4.- n caz contrar, se afirm c dovezile nu sunt suficient de puternice pentru a respinge ipoteza absenei efectului.
9 Statistica inferentiala 20

IPOTEZA NUL
Ipoteza care se verific (c efectul nu este prezent, c nu exist nici o diferen, nici o corelaie etc.) este ipoteza nul H0 (status quo-ul, prezumia de nevinovie). H0 este o afirmaie referitoare la o populaie, exprimat prin unul sau mai muli parametri (n exemplul al doilea, H0 a fost p = -0,545C). Un test de semnificaie evalueaz ct de puternice sunt, n date, dovezile mpotriva ipotezei nule. De fapt, cnd se aplic un test de semnificaie, se crede sau se sper c o alt afirmaie i nu H0 este adevrat. Aceasta este
9 Statistica inferentiala 21

IPOTEZA ALTERNATIV
Ha este ipoteza alternativ (ipoteza de cercetare). n exemplul cu laptele, Ha a fost p > -0,545C. n exemplul cu loteria, Ha a fost 0, H0 fiind =0. Ca i H0, Ha se refer tot la populaie n ansamblu i, deci, se exprim tot prin parametri ai acesteia. Dificultate: Ha s se exprime simetric sau nu? Primul exemplu are Ha simetric, al doilea are Ha asimetric. Dac nu e evident altceva, Ha se alege simetric.
9 Statistica inferentiala 22

STATISTICA UTILIZAT
Orice test de semnificaie folosete valoarea unei statistici calculat din date (eantion). Prin comparaie, aceast valoare d argumentul pentru respingerea sau nu a ipotezei nule. De obicei, statistica folosit estimeaz parametrul ce apare n ipotezele nul i alternativ.
E de ateptat ca valori ale statisticii apropiate de cea din H0 s duc la ne-respingerea lui H0.

Valori ale statisticii deprtate de cea din H0 ofer dovezile mpotriva ipotezei nule (Ha arat ce sens trebuie s aib abaterea de la H0).
n exemple: r (H0: =0; Ha simetric conteaz |r| >>0), respectiv x5 (H0: p= = -0.545C; Ha asimetric numai >)
Statistica inferentiala

23

VALORI P
Ipoteza alternativ este cu att mai probabil cu ct faptul dedus din date este mai puin probabil n condiiile ipotezei nule.
n exemple, ca posibil argument mpotriva lui H0, am calculat urmtoarele probabiliti, considernd H0 adevrat: P{r -0,226 SAU r +0,226 / H0} P{ x5 -0,538 C / H0}

Definiie. Probabilitatea calculat considernd H0 adevrat ca statistica din test s ia o valoare cel puin la fel de extrem (de deprtat de H0) ca aceea din date se numete valoarea P (probabilitatea critic) a testului. Cu ct valoarea P este mai mic, cu att mai puternic este dovada c H0 este fals.
9 Statistica inferentiala

24

EXEMPLUL II (2)
Din populaia normal de msurtori, de medie p i = 0,008C, se extrage un eantion de 5 msurtori, rezultnd x 5=-0,538C Ha : p > -0,545C. H0 : p = -0,545C; P{ x 5 > -0,545C / p = -0,545C} = ? Cum x 5 are distribuie N(p , /sqrt(5)):
x5 (0,545) 0,538 (0,545) P{x5 > 0,545} = P{ > }= 0,008 / 5 0,008 / 5 P{Z > 1,96} = 1 0,9750 = 0,025
Statistica inferentiala

25

SEMNIFICAIE STATISTIC
Se poate decide a priori ce prag pentru valoarea P va separa acceptarea ipotezei nule de respingerea acesteia. Aceast valoare-limit se numete nivel de semnificaie i se noteaz cu . Exemplu. =0,05 nseamn: se accept H0 dac, presupunnd-o adevrat, datele existente nu ar aprea mai rar dect n 1 din 20 selecii (P0,05) Definiie. Datele sunt statistic semnificative la nivel dac se obine o valoare P mai mic sau egal dect . Atunci se respinge H0.
9 Statistica inferentiala 26

SCHEMA UNUI TEST DE SEMNIFICAIE


I.- Se formuleaz H0 i Ha. Ha este ceea ce se accept dac se respinge H0. II.- (opional) Se stabilete nivelul de semnificaie - ct de tari s fie dovezile pentru a fi acceptate? III.- Se calculeaz, printr-o statistic pe care se bazeaz testul, ct de mult se potrivesc datele cu ipoteza H0. IV.- Se calculeaz probabilitatea P ca, H0 fiind adevrat, valoarea statisticii s fie totui att de mpotriva lui H0 pe ct a rezultat din date. V.- Dac P , atunci rezultatul testului este semnificativ la nivel i ipoteza nul se respinge. Dac P > , atunci testul nu este semnificativ i ipoteza nul nu se poate respinge.
Ceea ce nu dovedete c ipoteza H0 este adevrat.
9 Statistica inferentiala 27

TIPURI DE ERORI
STAREA REAL A Ha Ha _________necunoscut ADEVRAT CONCLUZIE TEST

Ha FALS EROARE DE TIP I DECIZIE CORECT test inutil


28

RESPINGEREA IPOTEZEI NULE


(rezultat semnificativ)

DECIZIE CORECT de dorit EROARE DE TIP II

NU SE RESPINGE IPOTEZA NUL


(rezultat nesemnificativ)

Statistica inferentiala

PUTEREA STATISTIC A UNUI TEST


La stabilirea nivelului de semnificaie, tendina de a evita un tip de eroare duce la creterea ansei de a face cellalt tip de eroare (0,05 i 0,01 echilibreaz). Puterea statistic a unui test este probabilitatea ca testul s dea rezultat semnificativ dac ipoteza alternativ este adevrat (cu alte cuvinte: probabilitatea de a nu face erori de tip II). Nivelul de semnificaie este probabilitatea de a face erori de tip I. Stabilirea puterii statistice poate ajuta la determinarea dimensiunii eantioanelor.
9 Statistica inferentiala 29

INTERVALE DE NCREDERE (1)


Pentru nivel de ncredere 95%: ce scor z1 delimiteaz cele mai mici 2,5% valori i ce scor z2 delimiteaz cele mai mari 2,5% valori, ntr-o distribuie normal? ntotdeauna, z1 = -1,96, z2= +1,96. Distribuia mediei de selecie este N(, 2/n). Deci, pentru 95% din cazuri, x se va afla la distan cel mult 1,96 /n(1/2) de , sau: n 95% din cazuri, se va afla la distan cel mult 1,96 /n(1/2) de x
10-11 Intervale de incredere. Testele Z, T 1

INTERVALE DE NCREDERE (2)


Intervalele de ncredere au fost introduse n 1937 de Jerzy Neyman. Intervalele de ncredere pot fi folosite - cu calcule specifice - pentru estimarea oricrui parametru. Valoarea critic este independent de cazul concret - depinde doar de nivelul de ncredere.
10-11 Intervale de incredere. Testele Z, T 2

DISTRIBUIA MEDIEI DE SONDAJ (1)


Presupunem o populaie de 90000 de elevi din clasele I-IX, cte 10000 din fiecare clas. Variabila aleatoare este clasa fiecrui elev. Distribuie rectangular, media = 5, dispersia 2=6,67, deviaie standard = 2,58. Experiment: 90000 mingi de ping-pong de extras aleator dintr-o cutie: 10000 au scris pe ele 1, 10000, 2 etc. Extragem de trei ori cte dou: (2,9), (4,4), (2,7). Mediile eantioanelor sunt: 5,5; 4; 4,5. Aceste trei numere au o nou distribuie, cu media_eantion = 4,65, dispersia_eantion = 0,39, deviaie_standard_ eantion = 0,62.
10-11 Intervale de incredere. Testele Z, T 3

DISTRIBUIA MEDIEI DE SONDAJ (2)


Reguli:
Media distribuiei mediilor eantioanelor este (aproape) egal cu media populaiei iniiale; mprtierea distribuiei mediilor eantioanelor este mai mic dect mprtierea populaiei iniiale; Forma distribuiei mediilor eantioanelor este aproximativ normal (oricum, unimodal i simetric).

Teorema limit central:


Dac se iau suficient de multe eantioane, mediile mari i cele mici se echilibreaz; ansa de avea dou valori extreme ambele foarte mari sau ambele foarte mici este mic: efectul moderator al numerelor mari (mediile extreme sunt rare). Deci i mprtierea distribuiei mediilor va fi mai mic.
10-11 Intervale de incredere. Testele Z, T 4

DISTRIBUIA MEDIEI DE SONDAJ (3)


Cu eantioane de 1 individ, medii de 1 sau 9 ar fi relativ frecvente (1/9 din total). Cu eantioane de 2 indivizi, mediile de 1 sau 9 sunt mult mai rare. Cu eantioane de 10 indivizi, mediile de 1 sau 9 aproape nu mai apar. Dispersia mediilor pentru eantioane de 2 indivizi s-a apropiat de 3,33 - jumtate din dispersia eantioanelor de 1 individ (6,67). La eantioane de trei indivizi ar fi fost 2,22. Dispersia mediilor eantioanelor de n indivizi este ntotdeauna 1/n din dispersia populaiei iniiale. Pornind de la o distribuie rectangular, mediile eantioanelor au dat o distribuie aproape normal. Distribuia mediilor eantioanelor este normal dac eantioanele au cel puin 30 de indivizi sau dac populaia iniial era normal. Altfel, distribuia mediilor eantioanelor este (doar) unimodal i simetric.
10-11 Intervale de incredere. Testele Z, T 5

TESTE PENTRU MEDII DE POPULAII


1.- CUNOSCUT: TESTUL Z Exemplul II ilustreaz testul Z pentru media unei populaii distribuit normal. Condiiile testului Z:
nu se cunoate media a populaiei; se cunoate deviaia standard a populaiei.

Descrierea testului Z:
ipoteza nul este: = 0 , unde 0 este o valoare dat; statistica testului este media de sondaj standardizat

H0 adevrat Z N(0,1) (unde z e o valoare a lui Z).


10-11 Intervale de incredere. Testele Z, T 6

x n 0 z = / n

TESTUL Z: IPOTEZA ALTERNATIV


a) asimetric la dreapta. Ha: > 0. n acest caz, valoarea P este dat de P{Zz}, z fiind valoarea obinut din eantion (exemplul II). (P=P{Zz}). b) asimetric la stnga. Ha: < 0. c) simetric. Ha: 0. n acest caz, din simetria curbei normale, P=P{|Z| |z|} Toate probabilitile calculate mai sus sunt exacte pentru populaii normale i aproximative pentru altfel de populaii cu att mai exacte cu ct n este mai mare.
10-11 Intervale de incredere. Testele Z, T 7

NECUNOSCUT: TESTUL t
Deosebirea dintre testul t i testul z este c, dispersia fiind necunoscut, ea se estimeaz prin s estimatorul ei nedeplasat. Proceduri t bazate pe un eantion.
s n

se numete eroarea standard estimat a


n

mediei eantionului (cea exact nu se cunoate). Media standardizat a eantionului z = x / are distribuie N(0,1). Statistica t = x are distribuia t.
s/ n
10-11 Intervale de incredere. Testele Z, T

DISTRIBUIA t

(1)

Pentru e.a. de cardinalitate n, selectate dintr-o populaie distribuit dup N(,), statistica unix eantion t = are distribuie t cu n-1 grade s/ n de libertate. Variabila t este repartizat Student (Gosset) cu n grade de libertate dac densitatea sa de probabilitate este dat de: ((n + 1) / 2) f (t) = (1 + t 2 / n ) ( n +1) / 2 n (n / 2) M[t] = 0.
10-11 Intervale de incredere. Testele Z, T 9

DISTRIBUIA t

(2)

Teorem. Dac t este variabil aleatoare Student cu n grade de libertate, atunci irul de variabile t aleatoare t n = n /( n 2 ) , nN, tinde la N(0,1). Teorem. Statistica testului t este o v.a. t(n-1). Fiecare cardinalitate de eantion d o alt distribuie t, cu att mai apropiat de N(0,1) cu ct n (numrul de grade de libertate) este mai mare. i statistica s are n-1 grade de libertate: oricare n-1 deviaii de la medie o determin pe a n-a. t(n) are un plus de variabilitate fa de N(0,1), datorat aproximrii lui .
10-11 Intervale de incredere. Testele Z, T 10

DISTRIBUIA t

(3)

Proprieti ale distribuiei t: Media distribuiei t este 0; Distribuia este simetric fa de medie; Dispersia este mai mare dect 1. Cu ct n crete, cu att dispersia se apropie de 1; Vrful este mai puin nalt dect la N(0,1), iar cozile acoper o arie mai mare; t sunt o familie de distribuii una pentru fiecare n. Cnd n crete, t se apropie de N(0,1). Peste n=29, valorile t se consider a fi cele corespunztoare lui z la respectiv.
10-11 Intervale de incredere. Testele Z, T 11

TESTE t UNI-EANTION
Fa de testul z, singurele modificri sunt:
se nlocuiete /sqrt(n) prin s/sqrt(n): statistica z devine statistica t; valorile critice se iau din tabelele variabilei t.

Exemplu. n secolul trecut, Newcomb a msurat timpul de trecere a luminii pe o anumit distan. Cele 64 de msurtori au dat o medie de 27,750 i o eroare standard estimat s=5,083sqrt(5). Msurtorile moderne au dat o medie 33,02, considerat valoare corect. Exist diferen semnificativ n rezultatele lui Newcomb fa de rezultatul corect?
10-11 Intervale de incredere. Testele Z, T 12

TESTUL t EXEMPLUL I (valoare P)


H0 : = 33,02 ( - media tuturor msurtorilor posibile ale lui Newcomb). Ha : 33,02. x 27 , 75 33 , 02 = 8 , 29 = Statistica t: t = s/ n 5 , 083 / 64 Valoarea P (probabilitatea unor astfel de dovezi dac H0 este adevrat) este egal cu P{|t|8,29} pentru t(63). Tabelul indic: P<<0,001. Concluzie: rezultatele difer semnificativ.
10-11 Intervale de incredere. Testele Z, T 13

TESTUL t EXEMPLUL II

(nivel )

t(df,) indic valoarea t dincolo de care (la dreapta) rmne aria sub curba t cu df grade de libertate. t(df,1-) = 1-t(df,) Exemplu. Nivelul mediu al polurii cu monoxid de carbon este cel mult 4,9. Dac la 25 de citiri ale nivelului s-a obinut o medie de 5,1 i o eroare standard estimat s=10,5 , se poate respinge afirmaia de mai sus? Soluie. H0 : = 4,9 (). Ha : > 4,9. ttabel (24; 0,05) = 1,71. teantion = 0,476 ( H0!)
10-11 Intervale de incredere. Testele Z, T 14

TESTUL t EXEMPLUL II (valoare P)


Cum se estimeaz probabilitatea ca t s ia cel puin valoarea din eantion: P{t24 >0,48}, n ipoteza H0? Rezult P{t24 > 0,48} > 0,25
din tabel, P{t24 > 0,685} = 0,25; descrete.

Exerciiu. Care este valoarea P dac H0 : =55; Ha : 55; df = 15; teantion= -1,84. Soluie. P = P{t15 < -1,84} + P{t15 > 1,84} = 2P{t15 > 1,84} 0,05 < P < 0,10.
10-11 Intervale de incredere. Testele Z, T 15

INTERVAL DE NCREDERE PENTRU MEDIE, CU NECUNOSCUT


Cnd deviaia standard a populaiei se aproximeaz prin deviaia standard s a eantionului, intervalul de ncredere la nivel devine: s s
( x t ( df , / 2 ) n ; x + t ( df , / 2 ) n )

Exemplul I: interval de ncredere 99% . Valoarea critic 0,005 a lui t(63): t* = 2,660. s * x t Intervalul: : (26,06; 29,44). n 33,02 (26,06; 29,44), cu nivel de ncredere 99%.
10-11 Intervale de incredere. Testele Z, T 16

EXEMPLUL III
20 de biei de aceeai vrst arunc greutatea n medie la 6,87m, cu deviaie standard a eantionului de 1,76. S se estimeze la nivel de ncredere 0,95 distana medie la care arunc greutatea bieii de vrsta respectiv. x_medeantion=6,87, s=1,76, n=20; =0,05. Din tabel: t(19; 0,025) = 2,09. Rezult intervalul: (6,05; 7,69).
10-11 Intervale de incredere. Testele Z, T 17

TESTUL t

PENTRU PERECHI

Exemplu. 20 de profesori de francez urmeaz un curs de perfecionare. Se compar scorurile la dou teste cu ntrebri diferite: unul nainte, cellalt dup curs. Diferenele de punctaj au fost: 2; 0; 6; 6; 3; 3; 2; 3; -6; 6; 6; 6; 3; 0; 1; 1; 0; 2; 3 ; 3. A fost cursul util? Soluie. Studiem v.a. care d diferenele. x = 2,5; s = 2,89 H0 : = 0 (curs inutil). x 2,5 Ha : > 0. t= = = 3,87
s/ n 2,89 / 20

10-11

P{t19 = 3,87 / H0} = 0,00052. Se respinge H0.


Intervale de incredere. Testele Z, T

18

INFEREN PENTRU POPULAII NON-NORMALE

Inferenele pentru populaii non-normale, bazate pe eantioane mici se bazeaz pe:


Utilizarea unei distribuii non-normale pentru care exist metode de inferen; Transformarea datelor pentru a deveni simetrice i aproape normale (logaritmare); Proceduri de inferen independente de distribuie: nonparametrice.

Cel mai simplu test non-parametric este testul semnelor. Statistica ipotezelor se modific: se utilizeaz mediana i nu media.
10-11 Intervale de incredere. Testele Z, T 19

TESTUL SEMNELOR
Exemplul. 17 schimbri de scor, dintre care una negativ. Fie p probabilitatea ca un profesor s-i creasc scorul. Mediana este 0 dac are loc H0 : Ha : p > 0,5. H0 : p = 0,5 (exclusiv ansa). 17 profesori nseamn 17 experimente independente, succes nsemnnd cretere a scorului. H0 afirm c X = B(17; 0,5). Valoarea P=P{X16 / H0}=P{X=16}+P{X=17}= 16 1 17 17 0 C16 ( 0 , 5 ) ( 0 , 5 ) + C ( 0 , 5 ) ( 0 , 5 ) = 0,00014 17 17 Cum P este foarte mic, H0 se respinge.
10-11 Intervale de incredere. Testele Z, T 20

TESTUL SEMNELOR PENTRU PERECHI


Se ignor diferenele 0; Se numr perechile rmase (n); Statistica testului este numrul X de perechi cu diferen pozitiv (succese); Valorile P pentru X sunt date de B(n; 0,5), care se calculeaz sau se citesc din tabele; Se compar cu prestabilit i se decide asupra ipotezei H0 .
10-11 Intervale de incredere. Testele Z, T 21

INFERENE ASUPRA PROPORIILOR


Proporia, procentajul din populaie i probabilitatea asociat producerii unui eveniment dat implic toate parametrul binomial p probabilitatea teoretic (n populaie) de succes. Dac X=B(n,p), atunci = np, = sqrt(np(1-p)) X fiind numrul de succese din n ncercri, definim p ca probabilitatea binomial observat (a eantionului): p=X/n. X este aproximativ normal pentru n>20 i np>5, n(1-p)>5. Aceasta permite utilizarea unora dintre metodele anterioare pentru inferene asupra lui p.
12 Proportii. Chi-2 1

INFERENE ASUPRA LUI p


O valoare observat a lui p aparine unei distribuii de selecie care este: aproximativ normal (n condiiile de mai sus), are media p = np/n=p i eroarea standard p= sqrt( p(1-p) / n ). Se poate aplica atunci (cu aproximaie!) procedura z, cu: p ' p z esantion = , unde p ' = x / n. p (1 p ) / n p este valoarea din H0. Exemplu. A spune c cel puin 15% din studeni fumeaz. B vrea s verifice i gsete c dintr-un eantion de 200 de studeni, 17 fumeaz. Pentru nivelul de semnificaie =0,10, se poate respinge ipoteza lui A?
12 Proportii. Chi-2 2

TESTAREA IPOTEZELOR ASUPRA PROPORIILOR

Cu valoarea critic:
H0 : p = 0,15 (). Ha : p < 0,15. Pentru = 0,10 se gsete z* = -z(0,10) = -1,28. p = 17 / 200=0,085. p'p 0,085 0,150 0,065 zesantion = = = = 2,6 p(1 p) / n 0,15 0,85/ 200 0,025 Se respinge H0 : eantionul aduce dovezi c mai puin de 15% dintre studeni fumeaz.

Cu probabiliti:
P = P{z < z* / H0} = P{z < -2,60 / H0} = 0,0047. Pentru = 0,10 , informaia din eantion este semnificativ. Se respinge H0.
12 Proportii. Chi-2 3

INTERVAL DE NCREDERE PENTRU PROPORII


Estimarea parametrului p proporia succeselor n populaie se face pornind de la statistica p =x/n valoarea observat n eantion. Intervalul de ncredere este:
( p' (1 p' ) p' (1 p' ) , p'+z( / 2) p'z( / 2) n n )

Se observ c eroarea standard, necunoscut (depinde de p), se nlocuiete cu p. n exemplul anterior, cea mai bun estimare punctual a lui p este p = 0,085, iar intervalul de ncredere la nivelul =0,10 este (z(0,05)=1,645): 0,085+-0,033 (0,052; 0,118)
12 Proportii. Chi-2 4

DIMENSIONAREA EANTIONULUI

(1)

Dac se d eroarea maxim admis E pentru estimarea proporiei, atunci numrul de indivizi n necesari n eantion pentru a nu depi E, cu nivelul de ncredere cerut este: n = [z(/2)]2 p (1-p) / E2 . p se nlocuiete fie cu o estimare a proporiei, fie cu 0,5 (maximiznd astfel valoarea lui n de mai sus). Cte persoane trebuie incluse ntr-un eantion pentru a estima cu eroare cel mult 2%, la un nivel de ncredere 0,10, proporia celor ce intenioneaz s voteze? n(1,645)2(0,5)(0,5)/(0,02)2 = 1701,56. Deci, n=1702.
12 Proportii. Chi-2 5

DIMENSIONAREA EANTIONULUI

(2)

Exemplu. Furnizorul unei fabrici afirm c doar 5% din piesele pe care le livreaz spre asamblare au defecte. S se determine mrimea unui eantion care s permit estimarea proporiei de piese defecte, cu o precizie de 0,02 i la un nivel de ncredere de 90%. Soluie. z(/2)=1,645; E=0,02; p=0,05; 1-p=0,95. n consecin: n (1,645)2 (0,05) (0,95) / (0,02)2 = 323,3 n=324. Aici ns, se d valoarea lui p.
12 Proportii. Chi-2 6

INFERENE ASUPRA DISPERSIEI


Deseori, dispersia trebuie cunoscut / controlat. De exemplu, o companie de mbuteliat buturi trebuie s tie ct de mult variaz nivelul de umplere a sticlelor, chiar dac media este cea corect. S presupunem c dispersia 0,0004 este acceptabil, iar dac trece de aceast valoare, se ajusteaz maina de umplere. H0 : 2 = 0,0004 (); Ha : 2 > 0,0004. Statistica testului: 2 = (n-1) s2 / 2, unde s2 este dispersia estimat nedeplasat din eantion, iar 2, valoarea din H0.
12 Proportii. Chi-2 7

DISTRIBUIA

(1)

Dac se extrag eantioane aleatoare de dimensiune n dintr-o populaie normal de dispersie cunoscut 2, atunci variabila aleatoare (n-1)s2/2 are distribuie 2. Proprieti ale distribuiei 2:
Valorile 2 sunt pozitive; Curba 2 este asimetric, cu mdul spre stnga; Pentru df>2, media aflat la dreapta mdului este chiar df (n-1 pentru inferenele prezentate); Exist cte o distribuie 2 pentru fiecare valoare df.
12 Proportii. Chi-2 8

DISTRIBUIA

(2)

2 = 1..n (k - )2 / 2, k fiind variabile normale independente N(, ). 2 are funcia de densitate de probabilitate (pentru x 0) definit prin:
f (x ) =
2

n 1 2

2n/2

e (n / 2)

x 2

Valorile critice se iau din tabele, sub forma 2(df; ), fiind aria de la dreapta valorii critice.
12 Proportii. Chi-2 9

n exemplul cu mbutelierea: 2 admis este 0,0004. Dac un eantion de 28 de sticle d o dispersie observat de 0,0010, se poate afirma, la nivelul de ncredere 0,05, c procesul de mbuteliere nu este sub control din punct de vedere al dispersiei? Regiunea critic se afl sub partea dreapt (>) a curbei de distribuie i are o arie de 0,05. 2 critic = 2(27; 0,05) = 40,1. 2eantion = (n-1) s2 / 2 = 270,001/0,0004 = 67,5. Concluzie: se respinge H0 (2eantion se afl n regiunea critic).
12 Proportii. Chi-2 10

EXEMPLUL I

EXEMPLUL II
Un test este util dac, n urma corectrii, notele au o mprtiere suficient de mare pentru a ierarhiza elevii, dar nu ntr-att nct diferenele de note s fie prea mari. Se afirm c un test cu punctaj total 100 este util dac deviaia standard este 12. La un test de 100 puncte dat la 28 de elevi, deviaia standard observat este 10,5. Putem afirma cu nivel de ncredere 95% c testul respectiv este util? H0: =12; Ha: 12. Ha simetric dou valori critice. 2critic1 = 2(27; 0,975) = 14,6; 2critic2 = 2(27; 0,025) = 43,2. 2eantion = (n-1)s2 / 2 = 2976,75/144 = 20,6719 Decizie. H0 nu se respinge: testul poate fi considerat util.
12 Proportii. Chi-2 11

INTERVAL DE NCREDERE PENTRU DISPERSIE

Capetele intervalului de ncredere se obin din cele dou valori critice; pentru calculul intervalului de ncredere, eantionul furnizeaz doar n i valoarea lui s. 2 = (n-1)s2 / 2 2 = (n-1)s2 / 2. Dat nivelul , se obin valorile critice: 2(df;1-/2) < 2(df; /2). Capetele intervalului sunt: (n-1)s2 / 2(df; /2) ; (n-1)s2 / 2(df; 1-/2).
12 Proportii. Chi-2 12

EXEMPLUL II INTERVAL DE NCREDERE


Cu datele din exemplul II, intervalele de ncredere la nivel =0,05 pentru dispersia, respectiv deviaia standard a populaiei sunt: Dispersie: extremele intervalului sunt date de (27)(10,5)2 / 43,2, respectiv (27)(10,5)2 / 14,6. Aadar, cu 95% ncredere estimm dispersia populaiei ca fiind ntre 68,9 i 203,9. Intervalul de ncredere pentru deviaia standard a populaiei este dat de radicalii valorilor de mai sus: (8,3; 14,3).
12 Proportii. Chi-2 13

ALTE APLICAII ALE LUI 2


Pentru variabile categoriale tabele ale frecvenelor (eventual, pe intervale sau clase). Inferene statistice pentru: 1.- EXPERIMENTE MULTINOMIALE. 2.- TESTE DE INDEPENDEN. 3.- TESTE DE OMOGENITATE. (O i E i ) 2 2 Toate folosesc statistica 2: = i Ei Oi, Eifrecvena i observat, frecvena i ateptat. La eantionri repetate i pentru n (numrul total de observaii) mare, statistica de mai sus are aproximativ distribuia cu aceeai notaie. Ipotezele statistice sunt mai libere nu se exprim neaprat direct prin parametri.
12 Proportii. Chi-2 14

INFERENE ASUPRA EXPERIMENTELOR MULTINOMIALE

S presupunem c testm ipoteza H0: zarul este corect, cu =0,05. Pentru a o testa, aruncm zarul de 60 de ori. H0 ar fi n mod ideal satisfcut dac fiecare fa a zarului ar fi aprut exact de 10 ori (frecvena ateptat). Observm frecvenele (n ordinea, irelevant, a numerelor de pe cele k=6 fee ale zarului): 7, 12, 10, 12, 8, 11. Din calcule, rezult: 2 = 2,2. =0,05, iar n cazul multinomial, df=k-1=6-1=5. 2 (5; 0,05) = 11,1 (cu regiunea critic la dreapta). Decizie: Nu se respinge H0.
12 Proportii. Chi-2 15

EXPERIMENTE MULTINOMIALE

n repetri n condiii identice ale aceluiai experiment; rezultatul fiecrei repetri este exact unul din k rezultate posibile; fiecare rezultat posibil are ataat o probabilitate prezumat fix. p1 + p2 + + pk = 1. experimentul d frecvenele observate O1,O2,,Ok (O1+O2++Ok=n). Ei = npi pentru statistica 2.

Ipoteza nul nu se exprim neaprat prin parametri. Valoarea critic se obine din nivelul de semnificaie i din numrul de grade de libertate df=k-1. Regiunea critic se afl la dreapta.
12 Proportii. Chi-2 16

Studenii doresc o ct mai mare libertate n alegerea cursurilor. apte cursuri similare, predate de cadre didactice diferite, au fost alese de 119 studeni astfel (ordinea este aleatoare): 18, 12, 25, 23, 8, 19, 14. Indic datele preferine pentru anumii profesori? H0 : distribuie fr preferine. = 0,05; 2(6; 0,05) = 12,6. pi = 1/7; 2esantion = (18-17)2 / 17 + (12-17)2 / 17 + (25-17)2 / 17 + (23-17)2 / 17 + (8-17)2 / 17 + (19-17)2 / 17 + (14-17)2 / 17 = 220 / 17 = 12,9411. Decizie. Se respinge H0!
12 Proportii. Chi-2 17

EXEMPLUL III

TABELE DE CONTINGEN (1)


Aranjament de date pe linii i coloane dou variabile, pentru care se testeaz (in)dependena sau omogenitatea. 1.- Independena. 300 de studeni, clasificai pe sexe, au fost ntrebai n ce domeniu al artelor liberale prefer s-i aleag cursurile. Sex F M Total
12

Mat.-t. t. Soc. t.Um. 35 72 71 37 41 44 72 113 115


Proportii. Chi-2

Total 178 122 300


18

H0 : alegerea cursurilor este independent de sex. Ha : alegerea cursurilor este dependent de sex. Valoarea critic. Numrul de grade de libertate este numrul de celule ce pot fi completate fr restricii dac se dau totalurile: dou n acest caz. n general: (nr_linii 1)(nr_coloane 1). 2(2; 0,05) = 6,00. Regiunea critic este la dreapta: 2esantion > 2critic se respinge H0 Probabilitile pi,j ataate fiecrei celule: proporionale cu totalurile marginale (ce se ntmpl n general este valabil i pentru fiecare sub-populaie). De exemplu, biei
alegnd fiecare domeniu ar trebui s fie: (72/300)122; (113/300)122; (113/ 300)122.
Proportii. Chi-2

TABELE DE CONTINGEN (2)

pi,j = total_liniei total_coloanj / n


12 19

TABELE DE CONTINGEN (3)


Sex F B Total Mat.-t. 35 (42,72) 37 (29,28) 72 t.Soc. 72 (67,05) 41 (45,95) 113 t.Uman. 71 (68,23) 44 (46,77) 115 Total 178 122 300

2esantion = (35 - 42,72)2 / 42,72 + (72 - 67,05)2 / 67,05 + (71 - 68,23)2 / 68,23 + (37 - 29,28)2 / 29,28 + (41 - 45,95)2 / 45,95 + (44 - 46,77)2 / 46,77 = 1,395 + 0,365 + 0,112 + 2,035 + 0,533 + 0,164 = 4,604 < 6,00!

Decizie. Nu se poate respinge H0 !


12 Proportii. Chi-2 20

TABELE DE CONTINGEN (4)


2. Omogenitate. Experimentatorul controleaz una din cele dou variabile pentru a obine totaluri date. Exemplu. Se proiecteaz un sondaj de opinie asupra prerilor despre o lege (pentru / mpotriv), intervievnd persoane din mediile urban, suburban i rural. Proporiile sunt date (fie ele 2/5, 1/5, 2/5). Opiniile asupra legii difer n cele trei medii? Fie =0,05. S presupunem c au fost intervievai 500 de subieci, cu rspunsurile date n tabel. H0 : proporia celor ce sunt pentru legea respectiv este aceeai n mediile urban, suburban, rural. Ha : n cel puin un mediu proporia este alta.
12 Proportii. Chi-2 21

OMOGENITATE - TABELUL
MEDIUL URBAN SUBURBAN RURAL TOTAL PENTRU 143 (101,6) 13 (50,8) 98 (101,6) 254 CONTRA 57 (98,4) 87 (49,2) 102 (98,4) 246 TOTAL 200 100 200 500

df = (3-1)(2-1) = 2. 2critic (2; 0,05) = 6,00. 2esantion = (143-101,6)2 / 101,6 + ... = 91,72. Decizie: Se respinge H0: proporiile difer.
12 Proportii. Chi-2

22

EANTIOANE DEPENDENTE I INDEPENDENTE


De interes cnd se fac ipoteze asupra a dou sau mai multe populaii. O surs este o persoan, un obiect etc. care produce o dat elementar.

Eantionarea dependent se face atunci cnd se folosete aceeai mulime de surse pentru ambele (toate) populaii(le), selectarea unui element ntr-un eantion impunnd selectarea unui anumit element n al doilea (probabilitile de selecie sunt dependente v. exemplul
cursului de francez, la testul t pentru perechi).

Eantionarea independent cnd se folosesc mulimi de surse fr legtur ntre ele (testarea cauciucurilor pe
maini diferite, nu pe aceleai maini).
13-14 Doua populatii: normala, F, Student 1

INFERENE ASUPRA A DOU POPULAII


1. Inferene asupra diferenei dintre dou medii independente (dispersii cunoscute sau eantioane mari): distribuia normal. 2. Inferene asupra a dou dispersii: distribuia F. 3. Inferene asupra diferenei dintre dou medii independente (dispersii necunoscute i eantioane mici): distribuia Student. Cazuri: dispersii egale; dispersii diferite. 4. Inferene asupra diferenei dintre dou medii dependente (controlul factorilor netestai): distribuia Student. 5. Inferene asupra proporiilor (distribuia normal).
13-14 Doua populatii: normala, F, Student 2

DIFERENA DINTRE DOU MEDII INDEPENDENTE

Inferene asupra diferenei parametrilor 1 2 se fac pe baza diferenei statisticilor, x 1 x 2 . Dac se extrag eantioane independente de dimensiuni n1 i n2 din populaii mari de medii necunoscute 1 i 2 i dispersii cunoscute 12 , respectiv 22, atunci distribuia de selecie a variabilei X= x 1 x 2
este aproximativ normal; are media = 1 2 i dispersia 2 = 12 / n1 + 22 / n2
( x 1 x 2 ) ( 1 2 )

Se folosete statistica z =
13-14

2 (1 / n 1 ) + ( 2 2 / n 2)

Doua populatii: normala, F, Student

EXEMPLUL I
Se extrag eantioane de cte 40 de indivizi din dou populaii diferite. Se obin mediile de eantion xmed_1=2,03 i xmed_2=2,21. Se presupun cunoscute deviaiile standard 1=2= 0,6. La nivel =0,05 se testeaz ipotezele: H0 : 1 = 2 (>); Ha : 1 < 2 (sau 1 2 < 0). zcritic = - z(0,05) = -1,645. zesantion = -0,18/0,134 = - 1,343 Decizie: Nu se respinge H0. Se pot construi intervale de ncredere pentru 1 2 n exemplul de mai sus, acesta este (-0,44; 0,08).
13-14 Doua populatii: normala, F, Student 4

DISPERSII NECUNOSCUTE I EANTIOANE MARI


Cnd n1 , n2 > 30, chiar estimnd i prin si se poate aplica acelai test (cu aproximaie). Exemplu. Pe un eantion de 50 indivizi dintr-o populaie se obine o medie de 57,5 i o deviaie standard de 6,2, iar pe un eantion de 60 de indivizi dintr-o alt populaie, aceeai caracteristic msurat d media 54,4 i deviaia standard 10,6. S se dea un interval de ncredere (0,05) pentru diferena mediilor celor dou populaii.
2 (x1 x2 ) zcritic(0,025 ) 1 / n1 + 2 2 / n2 = 3,1 4,19

Intervalul este (-1,09; +7,29). La nivel 0,05, se respinge, de exemplu, ipoteza 1 2 =10.
13-14 Doua populatii: normala, F, Student 5

INFERENE ASUPRA A DOU DISPERSII


1. Egalitatea a dou dispersii 2. Estimarea raportului 12 / 22 a dou dispersii. Dou eantioane independente, de n1, respectiv n2 indivizi (din cele dou populaii normale). Statistica este F = s12 / s22. n condiiile de mai sus, statistica are distribuie F.
Nenegativ; asimetric; Cte o distribuie F pentru fiecare pereche de grade de libertate; Valori critice F(dfn, dfd, ); F(df1, df2, 1-) = 1 / F(df2, df1, ).
13-14 Doua populatii: normala, F, Student 6

EXEMPLUL I
Maina existent e: 22 teste, se2 = 0,0008; Maina rapid r: 25 teste, sr2 = 0,0018. Se poate respinge ( = 0,01) ipoteza companiei c maina mai rapid nu are dispersie mai mare? H0 : 12 = 22 (sau 12 / 22 = 1); Ha : 12 > 22 (sau 12 / 22 > 1). Fcritic = F(24; 21; 0,01) = 2,80. Feantion = s12 / s22 = 0,0018 / 0,0008 = 2,25. Nu se poate respinge H0. Interval de ncredere pentru 12 / 22 : ( (sA2 / sB2) / F (dfA; dfB; /2) ; (sA2 / sB2) / F (dfA; dfB; 1-/2) )
13-14 Doua populatii: normala, F, Student 7

INFERENE ASUPRA DIFERENEI DINTRE DOU MEDII INDEPENDENTE


(n cazul dispersiilor necunoscute i al eantioanelor mici)

Populaii aproximativ normale. Statistic de distribuie t. Cazuri: 1.- 12 = 22 ; 1.- Statistica:


t=

2.- 12 22.
unde

( x 1 x 2 ) ( 1 2 ) , sp 1/ n1 + 1/ n 2

sp =

sp este estimarea deviaiei standard din eantioanele reunite.


13-14 Doua populatii: normala, F, Student 8

2 ( n 1 1) s 1 + ( n 2 1) s 2 2 n1 + n 2 2

EXEMPLUL II

(1)

Studiindu-se necesitile financiare ale studenilor, s-a ridicat ntrebarea dac fetele i bieii cheltuiesc la fel de mult pentru rechizite / cri. Pentru a se afla rspunsul, s-au luat dou eantioane de cte 25 de persoane. Pe baza datelor, se poate respinge ( = 0,10) ipoteza nul c fetele i bieii cheltuiesc la fel de mult la acest capitol? Fete: medie 10,55 (sute mii lei); s2 = 24,47; Biei: medie 10,22 (sute mii lei); s2 = 33,95. Soluie. Cum dispersiile sunt necunoscute, trebuie mai nti testat dac ele sunt egale sau nu, apoi aplicat cazul corespunztor pentru medii.
13-14 Doua populatii: normala, F, Student 9

EXEMPLUL II
Prima ipotez:

(2)

H0 : b2 = f2; Ha : 12 22. Fcritic_dr = F(24; 24; 0,05) = 1,98; Fcritic_st = 1 / F(24; 24; 0,95) = 1 / 1,98 = 0,505. Feantion = sb2 / sf2 = 33,95 / 24,47 = 1,387. Nu se poate respinge H0. Deci suntem n cazul 1.

A doua ipotez:
H0 : b = f ; Ha : b f . tcritic = t(48; 0,05) = 1,65. teantion = -0,2158. Nu se poate respinge H0.
13-14 Doua populatii: normala, F, Student 10

CAZUL II: DISPERSII INEGALE


Dac dispersiile sunt inegale, atunci nu se mai pot unifica eantioanele, astfel c deviaia standard a diferenei mediilor de selecie se modific, distribuia statisticii rmnnd aceeai - Student: ( x 1 x 2 ) ( 1 2 ) t= 2 s1 / n1 + s2 2 /n2 Numrul de grade de libertate este min(n1-1, n2-1). Tem. Studenii se plng c automatul de cafea din corpul A toarn mai puin lichid dect cel din corpul B. La 10 cafele A rezult o medie de 5,38 cu deviaia standard observat 1,59; la 12 cafele B, media este 5,92 i deviaia standard 0,83. Se susine ( = 0,05) plngerea?
13-14 Doua populatii: normala, F, Student 11

INFERENE ASUPRA DIFERENEI DINTRE DOU MEDII DEPENDENTE


Observaiile se grupeaz n perechi, pentru care se calculeaz diferenele. Populaia de diferene se presupune aproximativ normal cu media presupus d i dispersia necunoscut 2 (estimat prin sd). Din eantion se calculeaz d , media diferenelor din eantion, care are deviaia standard sd. Statistica este t cu n-1 grade de libertate:
d d t = sd / n

Se urmeaz paii de la ipoteze t.


13-14 Doua populatii: normala, F, Student 12

ANALIZA DISPERSIONAL - ANOVA


Testare de ipoteze asupra mai multor medii. Exemplu. H0 : 1 = 2 = 3 = 4 = 5. Cu tehnicile deja cunoscute, ar nsemna testarea a 10 ipoteze asupra a dou medii fiecare, cu mult mai mare pentru ntreg testul dect pentru fiecare sub-test n parte. ANOVA: un singur test, cu prescris. Cea mai simpl variant ANOVA: cea cu un singur factor. Exemplu. ntr-o fabric, temperatura pare a influena producia. Se numr piesele realizate ntr-o or la trei temperaturi t1, t2, t3: de 4 ori la t1, de 5 ori la t2, de 4 ori la t3.
13-14 Doua populatii: normala, F, Student 13

EXEMPLUL III

(1)

t1 : 10, 12, 10, 9(total C1 = 41; medie 10,25; k1=4); t2 : 7,6,7,8,7 (total C2 = 35; medie 7,0; k2=5); t3 : 3,3,5,4 (total C3 = 15; medie 3,75; k3=4). n = k1 + k2 + k3 = 13. H0 : 1 = 2 = 3. Ha : cel puin o medie difer de celelalte. Statistica i distribuia F (raport de dispersii). Se partiioneaz suma ptratelor abaterilor n partea de sum datorat factorului studiat i partea de sum datorat erorilor (de eantionare): SPA(total) = SPA(factor) + SPA(eroare)
13-14 Doua populatii: normala, F, Student 14

EXEMPLUL III

(2)

SPA(factor)=(C12 /k1+C22 /k2+C32 /k3+)(x)2 /n. SPA(temp)=412 /4 + 352 /5 + 152 /4 912/13 = 84,5. SPA(eroare)=(x2) - (C12 /k1+C22 /k2+C32 /k3+) SPA(er_exp) = 731-721,5 = 9,5. Sursa Factor Eroare Total
13-14

SPA 84,5 9,5 94

df 2 = 3-1 10 = 13-3 12 = 13-1

MS=SPA/df

42,25 0,95 15

Doua populatii: normala, F, Student

EXEMPLUL III

(3)

Statistica este Fesantioane = MS(factor) / MS (eroare) n exemplu: Fesantioane = MS(temperatur) / MS(er_exp) = =42,25/0,95 = 44,47. Fcritic = F(2; 10; 0,05) = 4,10. Se respinge ipoteza H0. Intuitiv: Se compar MS(factor) variaia ntre niveluri cu MS(eroare) variaia n interiorul nivelurilor. Dac MS(factor) este n mod semnificativ mai mare dect MS(eroare), atunci se decide c mediile nu sunt egale.
13-14 Doua populatii: normala, F, Student 16

S-ar putea să vă placă și