Sunteți pe pagina 1din 17

Statistic multivariat

Lucrarea nr. 2 Inferena statistic. Testarea ipotezelor statistice (Excel)


A. Noiuni teoretice
Fie un spaiu de probabilitate (,A, P). Se numete variabil aleatoare o funcie real X: , care satisface condiia: { | X( ) x} A, oricare ar fi x . Numim funcie de repartiie a v.a. X, funcia real de variabil real, F:, definit prin F( x) = P(X x), unde prin (X x) s-a notat evenimentul { | X( ) x}, adic reuniunea acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x. Funcia de repartiie se zice absolut continu dac exist o funcie real, f:, astfel nct
F( x) =

f(u ) d u,

Interpretarea geometric este cea uzual de mrime a ariei de sub graficul funciei f.

Funcia f, dac exist, se numete densitate de probabilitate a v.a. X. Observaie. Funcia de repartiie conine toat informaia necesar pentru calcularea probabilitilor cu care o variabil aleatoare ia valori n anumite intervale i pentru acest lucru va fi utilizat n ceea ce ne intereseaz.

Repartiii teoretice remarcabile

Repartiia normal
Aceast repartiie are un rol central, att din considerente teoretice, ct i practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii. Prin definiie, o variabil continu X are o repartiie normal, sau repartiie GaussLaplace, dac funcia de repartiie este dat de:
1 F(x) = P(X < x) = e 2 x (t )2 2 2 dt

, x , , > 0,

unde i sunt parametrii funciei de repartiie

Funcia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este repartizat normal cu parametrii i se noteaz X ~ N(; 2). Parametrii repartiiei au semnificaia unor valori tipice i anume M(X) = Me(X) = Mo(X) = D2(X) = 2 motiv pentru care se poate vorbi de repartiia normal cu media i dispersia 2, ceea ce determin complet repartiia. Repartiia normal N(0,1) se numete repartiia normal redus, repartiia normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat N(0;1) prin transformarea (de normare, de standardizare) X . Z=

Inferena statistic
Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine eantionul. Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse n aceast seciune. Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare. In eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un acelai volum; apare astfel distribuia de sondaj a statisticii respective. Inferena statistic implic trei distribuii asociate cu caracteristica studiat: distribuia populaiei; distribuia de sondaj; distribuia eantionului. Prin distribuia populaiei se nelege distribuia pe care o are caracteristica studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general, cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie. Prin distribuia eantionului se nelege distribuia pe care o are caracteristica studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet, ntruct toate datele necesare sunt msurate. Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit). Inferena statistic urmeaz, n general, urmtorul algoritm: se obine, printr-un procedeu valid, un eantion; se calculeaz o valoare tipic a eantionului (o statistic de sondaj); din considerente teoretice, se cunoate repartiia din care provine aceast valoare tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;

utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie. Repartiia de sondaj a mediei este caracterizat de

M( x) = , D 2 ( x) =

2
n

, D( x) =

Practic, se poate accepta o repartiie N(;2/n) pentru n > 10 dac repartiia lui X este aproape simetric, sau pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.

Estimaii
Se numete estimator orice entitate a crei valoare poate fi utilizat drept valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice c este o estimaie. Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media aritmetic este estimator pentru media populaiei , abaterea standard s este estimator pentru abaterea standard a populaiei etc. Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii: punctuale sub form de interval. Printr-o estimaie punctual se nelege valoarea unui estimator calculat ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre estimaia punctual i valoarea parametrului estimat. Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie depinde de un parametru , necunoscut. Prin definiie, dac se pot determina 1 i 2 astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc P(1 < < 2 ) = 1 , atunci intervalul (1, 2) se numete interval de ncredere pentru parametrul necunoscut , cu un coeficient (sau nivel) de ncredere egal cu , sau cu o siguran statistic S = 1. Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere se zice bilateral. n cazul cnd 1 este -, sau 2 este +, ceea ce revine n fapt la determinarea unei singure limite, intervalul se zice unilateral.

Intervale de ncredere pentru valoarea medie


Fie o populaie statistic caracterizat de o v.a. X repartizat normal, cu parametrii i 2. Presupunem c s-au obinut, dintr-un eantion de volum n, media de sondaj x i dispersia de sondaj s2. Fixm pragul de semnificatie . Dac dispersia, 2 este cunoscut, intervalul de ncredere pentru media populaiei:

< < x+

Dac dispersia, 2, nu este cunoscut s s x t1 / 2; < < x + t1 / 2; n n

Intervale de ncredere pentru dispersie


Fie o populaie normal, sau aproximativ normal, cu parametrii i 2 necunoscui. Se demonstreaz c intervalul de ncredere bilateral pentru dispersia populaiei, cu ncrederea statistic de 1, este dat de (n 1) s 2 (n 1) s 2 , < 2 < 2 2

1 / 2;

/ 2;

unde n este volumul eantionului, 2 este dispersia de sondaj, iar / 2; i

1 / 2; sunt quantilele de ordin /2, respectiv 1- /2, ale repartiiei 2 cu = n1


grade de libertate.

Testarea ipotezelor statistice


Fr a ncerca o generalizare, se poate accepta ideea c, n cele mai multe prelucrri statistice, datele sunt obinute i prelucrate pentru a verifica ipoteze ale cercettorilor. Deci, ca o prim imagine a subiectului, trebuie reinut secvena: 1. formularea unei ipoteze; 2. obinerea de date experimentale; 3. verificarea ipotezei pe baza acestor date. Vom considera semnificativ un eveniment care contrazice ipoteza de plecare.

Raionamentul general
Statistic Se formuleaz setul de ipoteze H0, H1 Are loc un eveniment Se calculeaz, dintr-un eantion, o statistic (statistica testului). Se calculeaz, n ipoteza H0, probabilitatea pc de apariie a valorii calculate (probabilitatea critic a testului, p-value). Rezult c probabilitatea Dac pc este mic, apare o contradicie, de realizare este suficient de mare Pentru a rezolva contradicia se va respinge H0 n favoarea ipotezei H1 deoarece motivul pentru care probabilitatea critic este mic este faptul c la calculul acesteia s-a acceptat ipoteza H0. Dac pc este mare, nu se respinge H0, nu exist nici un motiv pentru a lua decizia contrar. Lumea real

Rmne o singur ntrebare: ncepnd de unde o probabilitate este considerat drept mic? Pentru a nu introduce subiectivismul n aceast decizie, se fixeaz, anterior deciziei n test, un prag sub care o probabilitate este considerat mic. Aceast valoare se numete prag de semnificaie i se noteaz uzual cu . Regula de decizie n test poate fi formulat atunci: dac pc , atunci se respinge ipoteza nul, H0, n favoarea ipotezei alternative, H1; dac pc > , atunci nu se respinge ipoteza nul H0. Se numete regiune de respingere, pentru un nivel de semnificaie fixat, mulimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei H0. Dac se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

Testele pot fi parametrice = ipoteza H0 este strict legat de un parametru al populaiei, iar statistica testului are o repartiie cunoscut tocmai din aceast ipotez. neparametrice = repartiia statisticii testului se calculeaz i nu rezult din presupuneri apriorice asupra acestei distribuii i a probabilitilor ataate. Testele parametrice pot fi ( noteaz un parametru al populaiei): bilaterale (nedirecionale) H0: = 0 H1: 0 unilaterale (direcionale) H0: = 0 H1: < (sau >) 0 Un test statistic are, de multe ori, o denumire dat de repartiia statisticii testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2 reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..

Categorii de teste
Testele sunt clasificate n teste pentru variabile continue i teste pentru variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice, celelalte sunt neparametrice.

Teste de concordan
Aceste teste se refer la potrivirea, concordana dintre valorile calculate n eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o nepotrivire ntre cele dou valori? Dei formulat astfel problema pare c se refer la eantion i la populaia de baz, punctul de vedere corect este: 1. exist o populaie statistic de interes, fie ea P1; 2. pentru orice eantion se poate considera o populaie de baz din care este extras eantionul (reprezentativ pentru acea populaie); fie P2 aceast populaie; 3. problema este dac se poate considera c P2 este n concordan cu P1, adic parametrii de interes ai celor dou populaii nu difer semnificativ. Se observ c testarea se va efectua pentru ipoteze privind populaii, se va utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice. Ipoteza nul va afirma, n general, c populaiile P1 i P2 concord. Respingerea ipotezei nule poate avea, n practic, dou consecine: se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie care se consider stabil; se va cuta un alt eantion; sau se va considera c populaia P1 i-a modficat ntre timp parametrii; noua populaie de referin este P2. Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat, fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.

Testul erorii standard a mediei


Fie P1 populaia statistic de interes, caracterizat de media 0 (cunoscut sau presupus) i de abaterea standard (cunoscut). ntrebarea este dac valorile tipice de sondaj susin ipoteza c eantionul este din populaia P1, accentul fiind pus pe media populaiei. n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile care asigur mediei de sondaj o repartiie normal sau aproape normal: caracteristica studiat este repartizat normal sau eantionul este mare (n30). In aceste condiii, media de sondaj urmeaz o repartiie normal N(,2/n), unde este media populaiei (notat n introducerea seciunii cu P2) din care provine eantionul. Pentru P2 se presupune aceeai abatere standard (se studiaz modificarea mediei unei populaii). Rezult c variabila transformat

Z=

este repartizat normal standard i poate fi utilizat pentru calcularea probabilitilor necesare. Ipotezele testului erorii standard a mediei sunt
pentru testul bilateral:

H 0 : = 0 (A) H1 : 0

pentru testele unilaterale:

H 0 : = 0 H : = 0 (B) ' sau (C) 0 H1 : > 0 H1 : < 1

devine

n condiiile ipotezei nule, = 0, rezult c transformata Z a mediei de sondaj

Z=

x 0

n care toate valorile sunt cunoscute i prin urmare poate fi localizat pe curba densitii de probabilitate normal standard. Pentru a aplica acest test este necesar s se cunoasc i, prin urmare, situaia practic de referin este aceea n care se studiaz dac o populaie statistic, constant ca variabilitate, i-a meninut, sau nu, valoarea medie. Deoarece, n general, nu se poate ti cu siguran c repartiia caracteristicii studiate este riguros normal, acest test se utilizeaz pentru eantioane mari. Acest test este referit i ca testul Z de concordan, datorit utilizrii unei statistici repartizate normal standard..

Testul de concordan Student (t)


Atunci cnd nu se cunoate abaterea standard a populaiei, , se va utiliza estimaia s, abaterea standard de sondaj, n locul lui , iar repartiia statisticii testului va fi repartiia Student. Pentru caracteristica studiat se presupune, ns, o repartiie normal (cu parametri necunoscui) sau apropiat de o repartiie normal. Ipotezele testului sunt aceleai cu seturile de ipoteze anterioare (A), (B), (C). Statistica testului este similar statisticii din testul erorii standard a mediei, cu excepia faptului c n loc de se utilizeaz estimaia s:

t=

x 0 n s

Dac ipoteza nul, H0: = 0, este adevrat, atunci variabila t urmeaz o repartiie Student cu = n1 grade de libertate i se poate aplica o regul uzual de decizie n test.

Teste de comparare
Categoriile de teste prezentate aici se bazeaz, aparent, pe compararea datelor de sondaj care aparin la dou eantioane. Cum ansa de a se obine dou eantioane identice este extrem de redus, problema comparrii eantioanelor, luat n sensul strict al cuvntului, pare neimportant. Un test de comparare trebuie, ns, nscris n inferena statistic: fie dou eantioane extrase din dou populaii P1 i P2 respectiv. Prin utilizarea eantioanelor se dorete de fapt compararea celor dou populaii. Dificultatea procedurii const n aceea c diferenele dintre cele dou eantioane, ca i similaritatea lor, se pot datora: diferenelor dintre populaii, i/sau diferenelor de sondaj dintre eantioane.

Testul F
Compararea mediilor populaiilor normale ia n considerare mprtierea datelor n cele dou populaii. Este important atunci s se cunoasc dac dispersiile celor dou populaii pot fi considerate egale, sau nu. Acest fapt se decide utiliznd testul F, bazat pe repartiia teoretic F (FisherSnedecor). Situaia poate fi recunoscut prin: dou populaii, caracterizate de variabilele X1 i X2, respectiv; 2 2 variabilele sunt repartizate normal, X1 ~ N( 1 ; 1 ) , X 2 ~ N( 2 ; 2 ) ;
2 din dou eantioane, unul din fiecare populaie, dispunem de estimaiile s1 2 i s 2 ale dispersiilor populaiilor; eantioanele au volume n1 i n 2 , respectiv. Ipotezele testului F sunt att de tip bilateral ct i de tip unilateral. Testul bilateral:
2 H : 2 = 2 (A) 0 1 2 2 H1 : 1 2

Teste unilaterale:
2 2 H 0 : 2 = 2 H : 2 = 2 (B) 0 1 ; (C) " 1 ' 2 2 2 2 H 1 : 1 > 2 H 1 : 1 < 2

Cnd ipoteza nul este adevrat, atunci statistica


F* =
2 s1 2 s2

este repartizat F cu 1 = n1 1 i 2 = n 2 1 grade de libertate, nct se pot utiliza valorile tabelate pentru F(1;2) pentru determinarea probabilitilor critice. Pentru simplificarea deciziei n test, n practic se utilizeaz o statistic uor modificat prin considerarea ca prim populaie, P1, a populaiei pentru care dispersia de sondaj este mai mare:

F=

2 2 max ( s1 , s 2 ) 2 2 min ( s1 , s 2 )

n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu max numrul gradelor de libertate pentru numrtor i cu min numrul gradelor de libertate pentru numitor. Decizia, la nivelul de semnificaie , pentru testul bilateral (A): se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dac

F > F1 / 2; max ; min sau F < F / 2; max ; min


Decizia, la nivelul de semnificaie , pentru testul unilateral (C): ' se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dac
F > F1 ; max ; min

Teste t de comparare
Compararea mediilor a dou populaii se realizeaz prin teste de comparare t. Sunt utilizate frecvent trei asemenea teste, difereniate de situaia existent ntre dispersiile populaiilor i independena eantioanelor: eantioane independente, dispersii egale, eantioane independente, dispersii neegale, eantioane dependente (perechi, corelate).

B. Instrumente Excel
Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.

RANDOM NUMBER GENERATION


Utiliznd aceast procedur se pot genera serii de numere aleatoare distribuite dup 7 tipuri diferite de funcii de repartiie. Rezultatul const n una sau mai multe coloane de numere, fiecare coloan reprezentnd valori ale unei variabile repartizate dup o funcie de repartiie precizat. Pentru fiecare generare se va da numrul de coloane (variabile) generate, numrul de valori (acelai pentru toate variabilele), tipul funciei de repartiie, parametrii funciei i locul unde se vor nscrie rezultatele. Deoarece parametrii unei funcii de repartiie depind de tipul funciei, prezentarea procedurii va fi particularizat pentru cteva clase de funcii. Dialogul principal al procedurii Random Number Generation este prezentat n figura care urmeaz. Se observ cele patru componente principale ale dialogului: zona care precizeaz tipul de generare (numr de variabile, numr de valori, tipul distribuiei), zona cu parametrii funciei de repartiie specific funciei selectate , zona parametrului de iniializare a generrii aleatoare i zona de precizare a domeniului rezultat.

Tipul de generare Number of Variables se precizeaz numrul de variabile generate, adic numrul de coloane; Number of Random Numbers se precizeaz numrul de valori generate, acelai pentru toate variabilele; Distribution se alege funcia de repartiie a variabilelor generate. Iniializarea generrii Random Seed Procesele de generare aleatoare sunt caracterizate i prin fixarea unei valori iniiale funcie de care se ncepe procesul de generare. Aceast valoare, care nu nseamn prima valoare generat, este un numr ntreg ntre 1 i 32000. Dac nu se precizeaz aceast valoare, atunci se va considera n mod automat un numr aleator (obinut din data curent i timpul curent).

Diferena ntre cele dou situaii este: la alegerea automat se genereaz de fiecare dat serii diferite; la alegerea de ctre utilizator se va genera aceeai serie de fiecare dat cnd se indic acelai numr. Prin urmare, se va completa aceast zon doar dac, pentru a simula o anumit comportare sau prelucrare, este nevoie de generarea aceleeai serii de numere aleatoare n utilizri succesive.
Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Parameters Structura acestei zone depinde de funcia de distribuie selectat.

Repartiie discret (Discrete) Structura zonei Parameters este prezentat n figur. O distribuie discret este distribuia unei variabile care ia un numr finit de valori cu probabiliti fixate. Deoarece valorile trebuie s fie numerice, acest tip de repartiie poate fi utilizat pentru probleme care implic variabile nominale atunci cnd categoriile nominale sunt codificate numeric.

Precizarea distribuiei se face enumernd, ntr-o zon continu, valorile posibile i probabilitile asociate acestora, de genul 1 0,40 2 0,15 3 0,20 4 0,25 pentru o variabil care ia valoare 1 cu probabilitatea 0,4, valoarea 2 cu probabilitatea 0,15 etc. Acest exemplu poate s corespund repartiiei unei variabile nominale pentru care categoriile au fost codificate cu 1, 2, 3, sau 4. Value and Probability Input Range se precizeaz domeniul care conine definirea repartiiei discrete: un domeniu dreptunghiular care d probabilitile valorilor numerice posibile. Domeniul poate fi selectat dinamic.

Repartiie normal (Normal)


Structura zonei Parameters este prezentat n figura alturat. Pentru determinarea distribuiei este necesar s se precizeze valorile pentru media i abaterea standard a populaiei. Mean se precizeaz valoarea pentru media populaiei. Standard Deviation se precizeaz valoarea pentru abaterea standard a populaiei. Valorile implicite sunt cele ale repartiiei normale standard, media 0 i abaterea standard 1.

SAMPLING
Procedura de sondaj permite obinerea unei submulimi dintr-o mulime de valori existent. Parametrii prezeni n dialogul procedurii sunt explicai n continuare.

Input Input Range se specific domeniul, sau denumirea domeniului, care conine datele din care se va face selecia. Domeniul poate fi selectat i n mod dinamic. Datele care joac rolul populaiei statistice trebuie s fie de tip numeric i organizate, de preferin, sub forma unei coloane sau a unei linii. Prima celul poate conine denumirea setului de date. n cazul n care selecia se face dintre nregistrrile unei baze de date (fiecare nregistrare avnd, uzual, mai multe cmpuri) se va indica drept domeniu doar coloana unui cmp cum ar fi numrul nregistrrii, sau codul (numeric) de identificare etc.

Labels boxa de control va fi marcat dac domeniul indicat conine pe prima poziie denumirea setului de date.
Sampling Method n acest grup se precizeaz metoda de selecie. Periodic selectarea acestui buton radio permite indicarea n cmpul Period a cotei fixe de formare a eantionului. Dac, de exemplu, se completeaz 5, atunci eantionul este format din al 5-lea element i toate cele care urmeaz din 5 n 5 (al 10-lea element, al 15-lea, al 20-lea etc.) Random selectarea acestui buton radio indic o formare aleatoare a eantionului. Fiecare element are aceeai probabilitate de a fi ales. Din acest motiv, dac mulimea de baz este relativ restrns, atunci unele elemente pot s apar de mai multe ori n eantionul constituit. Volumul eantionului se specific n cmpul Number of Samples. Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatul este o coloan cu valorile selectate.

Verificarea ipotezelor statistice


Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice: test F pentru compararea dispersiilor; test t pentru compararea mediilor, n toate variantele principale (eantioane corelate, dispersii egale, dispersii neegale); test z pentru compararea mediilor.

Fiecare procedur are ca rezultat att probabilitatea critic a testului respectiv, ct i valoarea critic pentru un nivel de semnificaie fixat de utilizator. Ipoteza nul este, pentru fiecare test, aceea a egalitii, deci respingerea ei se va face dac probabilitatea critic este mai mic dect , sau dac valoarea calculat este mai mare dect valoarea critic. Compararea mediilor unor (sub)populaii se realizeaz prin proceduri apelate din dialogul deschis prin Tools Data Analysis. Atunci cnd se compar mediile a dou populaii pe baza unor eantioane necorelate este necesar parcurgerea etapelor: 1. Testarea egalitii dispersiilor prin procedura F-Test Two-Sample for Variances. 2. n funcie de decizia n test se va aplica t-Test: Two-Sample Assuming Equal Variances n cazul nerespingerii ipotezei nule din testul F t-Test: Two-Sample Assuming Unequal Variances n cazul respingerii ipotezei nule n testul F. Dac eantioanele sunt corelate, situaie caracteristic comparrii rezultatelor unui grup nainte i dup efectuarea unui experiment, se aplic procedura t-Test: Paired Two Sample For Means.

FTEST TWOSAMPLE FOR VARIANCES


Dialogul iniiat de alegerea opiunii F-Test Two-Sample for Variances este prezentat n figura III.25. n zona Input se vor indica domeniile ocupate de cele dou eantioane i pragul de semnificatie ales. Zona Output va preciza domeniul unde se nscriu rezultatele prelucrrii.

Input Variable 1 Range se va preciza domeniul primului eantion. Este obligatoriu ca acesta s fie o coloan sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Variable 2 Range se va preciza domeniul celui de al doilea eantion. Este obligatoriu ca acesta s fie o coloan sau o linie i s nu se intersecteze cu domeniul primului eantion. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Labels se va marca boxa de control dac domeniile eantioanelor conin n prima celul denumirea (eticheta) variabilei. Alpha se precizeaz valoarea nivelului de semnificaie. Implicit se va considera = 0,05.

Fig. III.25. Dialogul procedurii F-Test


Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat. Exemplu Un exemplu de aplicare a procedurii F-Test este artat n figura urmtoare (numrul zecimalelor afiate a fost redus). Mean mediile eantioanelor; Variance dispersiile eantioanelor; Obsevations volumele eantioanelor; df gradele de libertate; F statistica testului F (ctul dispersiilor); P(F<=f) one-tail probabilitatea critic unilateral, adic probabilitatea ca o variabil f, repartizat Fisher-Snedecor, cu numerele respective de grade de libertate, s depeasc valoarea calculat. Ipoteza nul a egalitii dispersiilor F-Test structura rezultatelor poate fi respins dac valoarea raportat aici este mai mic sau egal cu nivelul de semnificaie ales. De exemplu, pentru = 0,25 (un prag neuzual) se poate respinge ipoteza nul ntruct 0,203 < 0,25. F Critical one-tail valoarea critic a testului. Determin regiunea de respingere a testului, la pragul de semnificaie fixat n dialogul procedurii. Dac valoarea F, din linia a 5-a a rezultatelor, este mai mare sau egal cu valoarea critic, nseamn c aparine regiunii de respingere i deci se poate respinge ipoteza egalitii dispersiilor. n tabel avem 1,410 < 1,984 i deci nu se poate respinge ipoteza nul (la pragul fixat).

Concluzia testului este aceea c ipoteza nul nu poate fi respins. Se va tolera prin urmare ipoteza c dispersiile sunt egale sau, cu alte cuvinte, c n populaiile din care provin eantioanele variabila urmrit prezint acelai grad de mprtiere.

TESTE STUDENT (t)


Sunt disponibile trei teste bazate pe distribuia Student. n toate cazurile se verific ipoteza nul privind mediile att ntr-un test unilateral, ct i bilateral. Ipoteza nul privete o diferen fixat a mediilor: unde 1, 2 sunt mediile populaiilor din care provin eantioanele disponibile, iar d este diferena presupus sau cunoscut a mediilor. Pentru a testa egalitatea mediilor celor dou populaii se va aplica procedura n cazul particular d = 0. Cele trei teste t sunt cazurile principale din punct de vedere practic: testul t pentru eantioane corelate; testul t pentru populaii cu dispersii egale; testul t pentru populaii cu dispersii neegale.

H0: 1 2 = d,

tTEST: PAIRED TWO SAMPLE FOR MEANS


Sunt considerate dou eantioane cu date perechi (corelate), provenite eventual dintr-o cercetare pretest-posttest pe un acelai eantion, din care un eantion este lotul experimental, cellat fiind lotul martor. Compararea mediilor este efectuat pentru a decide dac experimentul la care este supus lotul experimental produce o abatere suficient de mare n media variabilei de control.

n figur se prezint dialogul de fixare a parametrilor procedurii.

Input Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane, respectiv. Deoarece testul este pentru eantioane cu date perechi, este necesar ca zonele indicate s aib acelai numr de celule completate cu date numerice, valorile de pe aceleai poziii n cele dou serii fiind perechi. Domeniile pot fi selectate dinamic. Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor. Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri denumirile zonelor.

Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule).
Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat. Exemplu Un grup de 20 de persoane au fost evaluate nainte i dup efectuarea unui experiment, care avea scopul de a micora valoarea unei caracteristici msurate. Deoarece efectul experimentului trebuie evaluat la nivelul populaiei de unde s-a selectat eantionul, un indicator statistic adecvat este media rezultatelor nainte i dup. Cum datele sunt perechi, situaia descris fiind tipic, compararea mediilor s-a efectuat printr-un test t pentru date perechi (corelate). Seriile de date sunt numite Date1 (datele pretest), Date2 (datele posttest) i s-a indicat n dialogul procedurii, un prag de semnificaie = 0,05. Rezultatele produse de procedura t Test: Paired Two Sample for Means sunt descrise n figura alturat: Mean mediile celor dou eantioane. Se observ c media primului eantion este mai mare (10,6 fa de 9,9), diferena fiind relativ important, 0,7 reprezint o diminuare a mediei cu 6,6%. Compararea mediilor vrea s Rezultatele aplicrii testului t arate dac aceast diferen poate fi acceptat pentru date perechi. pentru ntreaga populaie, sau este efectul sondajului (ntmpltor n primul eantion sunt mai multe valori mari). Variance dispersiile celor dou eantioane. Se poate emite ipoteza c dispersiile se modific semnificativ: se pare c experimentul are efectul unei concentrri a rezultatelor n jurul mediei. Observations numrul de observaii (= volumul eantionului). Pearson Correlation coeficientul de corelaie Pearson. Valoarea obinu este relativ mare, apropiat de 0,5. Dei nu este nsoit de testul de semnificaie, arat o bun corelaie ntre seriile de rezultate, cu interpretarea c scderea valorilor dup experiment are loc oarecum uniform: observaiile cu valori mari nainte rmn, n general, cu valori mari i dup experiment (evident c observaiile cu valori mici nainte rmn, n general, cu valori mici i dup experiment). Hypothesized Mean Difference valoarea cu care se compar diferena mediilor populaiilor. Deoarece ne-am propus s testm egalitatea mediilor, aceasta revine la a compara diferena mediilor cu zero. df numrul gradelor de libertate al repartiiei t (a statisticii testului). Este numrul de observaii mai puin unu. t Stat valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie Student cu df (raportat anterior) grade de libertate.

P(T<=t) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o variabil Student cu df grade de libertate s depeasc valoarea calculat. Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea ipotezei alternative. Deoarece, n situaia dat, prima medie este mai mare, ipoteze alternativ ntr-un test unilateral este H1 : 1 2 > 0 sau, echivalent, H1 : 1 > 2. Valoarea 0,169 afiat este mai mare dect toate valorile uzuale, deci nu se poate respinge ipoteza nul. Prin urmare se pare c diferena dintre medii este datorat mai mult ntmplrii, seleciei eantionului. t Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea t calculat este mai mare dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2. Pentru exemplul prezentat acest fapt nu se ntmpl (0,984 < 1,729). P(T<=t) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil Student cu df grade de libertate s depeasc, n valoare absolut, valoarea calculat. Cu alte cuvinte, probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de zero dect diferena observat. Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H1 : 1 2. t Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea t calculat este mai mare, n valoare absolut, dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 2. Pentru exemplul prezentat, | t | = |0,984| = 0,984 < 2,093, deci nu se poate respinge ipoteza nul.
Valoarea 0,337 afiat este mai mare dect toate valorile uzuale, deci nu se poate respinge ipoteza nul.

z-TEST: TWO SAMPLE FOR MEANS


Aceast procedur servete pentru compararea mediilor a dou populaii atunci cnd se cunosc dispersiile acestora. Testul utilizat este bazat pe distribuia normal standard.

Input Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane, respectiv. Domeniile indicate pot s aib numere diferite de celule, dar completate cu date

numerice (cel mult prima celul n fiecare zon poate fi un titlu). Domeniile pot fi selectate dinamic. Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor. Variable 1 Variance (known), Variable 2 Variance (known) dispersiile celor dou populaii. Acestea se presupun cunoscute. n practic, pentru eantioane mari, se pot lua valorile dispersiilor de sondaj, dar n aceast situaie este preferabil s se aplice un test t dect un test z. Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri denumirile zonelor. Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Implicit se ia = 0,05.
Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat. Exemplu Pentru a compara mediile a dou populaii s-au extras dou eantioane de volume 35, respectiv 34. Se cunoate, din alte cercetri, c dispersiile populaiilor sunt 18 i 15, respectiv. Dispersiile de sondaj concord cu aceste valori. Pentru a compara mediile populaiilor se aplic un test z. Resultatele sunt explicate n continuare. Mean mediile de sondaj ale celor dou eantioane. Known Variance dispersiile cunoscute ale celor dou populaii. Observations numrul de observaii (volumul eantionului). Hypothesized Mean Difference valoarea cu care se compar diferena mediilor populaiilor. Testarea egalitii mediilor revine la a compara diferena mediilor cu zero. z valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie normal standard. Rezultatele procedurii z-Test. Servete pentru raportare sau pentru decizia n test la alte grade de semnificaie dect valoarea fixat n dialogul procedurii. P(Z<=z) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o variabil normal redus s depeasc valoarea calculat. Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea ipotezei alternative. Deoarece, n situaia dat, prima medie este mai mare, ipoteza alternativ ntr-un test unilateral este H1 : 1 2 > 0 sau, echivalent, H1 : 1 > 2. Valoarea 0,008 afiat este mai mic dect valorile uzuale (0,05 sau 0,01), deci nu se poate respinge ipoteza nul la aceste valori ale lui . Prin urmare se poate respinge ipoteza nul i accepta ipoteza alternativ c prima populaie are o medie mai mare. z Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea z calculat este mai mare dect aceast

valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2. Pentru exemplul prezentat acest fapt nu se ntmpl (2,4096 < 1,6449). P(Z<=z) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil normal standard s depeasc, n valoare absolut, valoarea calculat. Cu alte cuvinte, probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de zero dect diferena observat. Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H1 : 1 2. Valoarea 0,016 afiat este mai mic dect = 0,05, deci se poate respinge ipoteza nul. z Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05 (precizat n dialogul procedurii). Dac valoarea z calculat este mai mare, n valoare absolut, dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 2. Pentru exemplul prezentat, | z | = |2,4096| = 2,4096 > 1,96, deci se poate respinge ipoteza nul.

C. Lucrarea practic
1) Un studiu a artat c 50% dintre utilizatorii de internet au primit mai mult de 10 mesaje e-mail pe zi. Repetnd, dup un timp, studiul, se dorete verificarea ipotezei c a crescut utilizarea e-mail-ului. S se precizeze ipoteza nul i ipoteza alternativ a testului statistic adecvat. 2) ntr-un test z cu ipotezele H0 : 1 2 = 5 vs. H1 : 1 2 > 5 s-a obinut statistica testului z = 1.69. Care este probabilitatea critic a testului? 3) Se vor genera dou coloane de cte 100 de valori dintr-o repartiie normal cu media 0 i dispersia 1. i) s se calculeze mediile i dispersiile celor irruri de valori; s se compare cu valorile 0, respectiv 1, i s se interpreteze rezultatul comparaiilor n termenii populaie-eantion. ii) s se testeze egalitatea mediilor celor dou seturi de valori cu valoarea teoretic 0. iii) s se testeze dac cele dou seturi de valori au mediile egale. 4) Se vor genera dou coloane de valori din repartiii normale cu medii i dispersii diferite. Presupunnd c media celei de a doua coloane difer de media primei coloane cu , s se verifice, prin generri repetate ale coloanelor, dac eantioanele pot fi considerate ca aparinnd aceleiai populaii. i) Se va mri treptat diferena , ca i diferena dispersiilor, pentru a obine o imagine intuitiv asupra rspunsului la ntrebarea: ct de mare trebuie s fie diferena pentru ca eantioanele s nu pot fi considerate omogene? ii) Se va studia i influena diferenelor dintre dispersii asupra concluziei testului. 5) Se import n Excel fiierul admitere.txt (utilizat la lucrarea nr.1). S se verifice statistic dac i) mediile la bacalaureat pot fi considerate egale pentru cei care opteaz la analiz, programare C sau programare Pascal ii) mediile la scris pot fi considerate egale pentru cei care opteaz la analiz, programare C sau programare Pascal

S-ar putea să vă placă și