Sunteți pe pagina 1din 91

Conf. dr.

Virgil Stoica

Statistic aplicat n tiinele politice

Introducere De ce avem nevoie de statistic? n ultimele decenii, se poate observa o cretere a utilizrii metodelor statistice n toate tiinele sociale. Exist mai multe motive pentru acest lucru. Cercetarea n tiinele sociale a cptat o orientare tot mai cantitativ. Revoluia produs de calculatoarele personale la sfritul secolului XX a fcut ca att cercettorii ct i indivizii obinuii s aib acces la o cantitate foarte mare de informaii. n plus, calculatoarele au fcut ca metodele statistice s fie mai uor de folosit. Utilizarea tot mai frecvent a statisticii este evident pentru cineva care urmrete coninutul articolelor unor jurnale tiinifice prestigioase (American Political Science Review, American Journal of Political Science sau American Sociological Review). Anunurile de angajri pentru specialiti n tiinele sociale enumer statistica printre cunotinele absolut necesare. Din aceste motive, un student care se pregtete n domeniul tiinelor sociale trebuie s fie familiarizat mcar cu noiuni de baz de statistic. Strngerea informaiilor se afl n centrul oricrei tiine. tiinele sociale utilizeaz o larg varietate de tehnici de culegere a informaiilor care s fie utilizate n analiza statistic: experimente, anchete de diferite tipuri, analiza de coninut a unor documente, etc. n plus, sunt analizate informaii produse pentru alte scopuri, cum ar fi rapoarte ale poliiei, date din recensminte sau informaii medicale. Un cercettor folosete metodele statistice pentru: proiectarea unei cercetri, descrierea, rezumarea i explorarea datelor, producerea de inferene (predicii sau generalizri pornind de la un set de date).

n secolul XXI, nu doar un analist politic, ci orice persoan cu funcie de conducere are acces la o mare cantitate de informaii. Problema major const n modul n care este utilizat aceast cantitate enorm de informaii pentru a lua cele mai bune decizii. Din aceast perspectiv orice persoan care are o funcie de rspundere ar trebui s neleag statistica din umtoarele motive: 1. pentru a ti cum s prezinte i s descrie informaiile ntr-un mod corespunztor

2. pentru a ti cum s trag concluzii despre o populaie pornind doar de la informaiile obinute de la un eantion 3. pentru a ti cum s mbuntesc procesul de producie 4. pentru a ti cum s obin previziuni de ncredere Metodele statistice sunt utilizate nu doar n cercetrile sociale ci i n domeniul afacerilor, in contabilitate, finane, magement i marketing. De aceea, acest curs va oferi exemple nu doar din tiinele sociale ci i din alte domenii n care statistica este absolut necesar i n special din management. Dezvoltarea statisticii moderne Exist trei motive principale care au dus la dezvoltarea statisticii: nevoia guvernelor de a colecta informaii despre cetenii lor, dezvoltarea matematicii i a teoriei probabilitii i evoluia calculului electronic. Culegerea informaiilor despre ceteni este o activitate specific oricrei civilizaii. n Egiptul antic, in cetile-stat greceti sau n Imperiul Roman, astfel de informaii erau utilizate n special pentru impozitare i pentru recrutarea militar. n evul mediu, biserica inea registre despre cstorii, nateri i decese. n epoca modern (SUA, 1790) a aprut ideea recensmntului populaiei la fiecare 10 ani. Nevoia de informaii la nivelul unui stat a fost strns legat de dezvoltarea statisticii descriptive, metod care se concentreaz pe colectarea, prezentarea i caracterizarea unui set de date, cu scopul de a descrie diferitele trsturi ale acelui set de informaii.
Populaie totalitatea itemilor sau elementelor luate n consideraie Parametru o msur care descrie caracteristicile unei populaii Eantion o poriune dintr-o populaie, care este selecta pentru analiz Informaie statistic o msur calculat pe baza unui eantion, care este utilizat pentru a descrie sau pentru a estima ntreaga populaie

n paralel cu aceast evoluie s-a desfurat i dezvoltarea matematicii despre teoria probabilitilor. Aceasta a pornit de la studierea jocurilor de noroc n perioada Renaterii, bazele teoriei probabilitilor fiind puse la mijlocul secolului al XVII-lea de corespondena dintre matematicianul Pascal i juctorul Chevalier de Mere. mbuntirile aduse de matematicieni ca Bernoulli, DeMoivre i Gauss au pregtit apariia statisticii infereniale. Aceasta face posibil estimarea caracteristicilor unei populaii doar pe informaiile culese de la un eantion. Statisticieni precum Pearson, Fisher, Gosset, Neyman, Wald i Tukey au dezvoltat statistica inferenial care este astzi larg rspndit n orice domeniu. Nevoia unor astfel de metode a provenit din nevoia de eantionare. Cu ct o populaie devine mai mare, cu att este mai dificil i mai costisitor s se strng informaii despre ea, luat ca ntreg. Deciziile despre caracteristicile populaiei trebuie luate pe baza informaiilor culese de la un eantion. Teoria probabilitii prezint ansele ca anumite informaii extrase din eantion s reflecte n mod corect caracterisiticile ntregii populaii. 2

Aceste dezvoltri au fost puternic susinute de evoluia calculatoarelor, care asigur astzi posibiliti de calcul la care primii statisticieni nici mcar nu visau. ncepnd cu anii 60 i 70 au nceput s apar programe de statistic. n anii 80 au aprut programele statistice utilizate i astzi, cum ar fi SAS, SPSS sau Minitab. Alte programe, utilizate iniial n scopuri diferite (Microsoft Exel), au cptat abiliti statistice. Disponibilitatea actual a softului statististic a dus la o rspndire fr precedent a utilizrii metodelor statistice n cercetare, n afaceri sau n luare deciziilor.

1. 1.1. Tipuri de variabile

Msurare i eantionare

Metodele statistice asigur o modalitate de a gestiona variabilitatea. Variaia apare ntre oameni, ntre coli, ntre orae, ntre diverse obiecte care ar putea s constituie obiectul nostru de interes n viaa de zi cu zi. De exemplu, variaia apare de la o persoan la alta n funcie de caracteristici precum venitul, inteligena, preferina politic, credina religioas, statusul marital, etc. Natura i mrimea variabilitii au consecine importante att pentru statistica descriptiv, ct i pentru cea inferenial. O variabil este o caracteristic ce poate varia ntre subiecii unui eantion sau a unei populaii. Fiecare subiect are anumite valori pentru o variabil, ns subieci diferii pot avea valori diferite. Exemple de variabile: gen (cu valorile masculin i feminin), vrsta (cu valorile 0, 1, 2, 3, etc), religia (cu valorile: ortodox, catolic, protestant, mozaic, musulman, etc), numrul de copii n familie (0, 1, 2, etc), preferina politic (PNL, PD, PSD, PRM, PPCD, etc) Modul de analiz a unei variabile depinde de modul n care acea variabil este msurat. Variabilele numerice, cum ar fi venitul, trebuie tratate n mod diferit de variabilele care sunt msurate prin intermediul unor etichete, cum ar fi preferina pentru un anumit partid. Dac n primul caz putem discuta despre medie ca o msur a venitului, n al doilea caz, acest lucru este absurd. Mai departe vor fi introduse dou metode de clasificare a variabileleor. Variabile calitative i variabile cantitative Informaiile sunt numite calitative atunci cnd pentru msurarea lor se folosete un set de categorii care nu sunt ordonate n nici un fel. Exemple de date calitative: statusul marital (necstorit, cstorit, divorat, vduv), localitatea de reedin, apartenena religioas, preferina politic, etc. Pentru variabilele calitative, categoriile difer ntre ele prin calitate i nu prin cantitate sau magnitudine. Atunci cnd posibilele valori ale unei variabile difer difer n magnitudine, variabila este numit cantitativ. Fiecare valoare posibil a unei variabile cantitative este mai mare sau mai mic dect orice alt 3

valoare posibil. Astfel de comparaii sunt cu putin pentru variabile msurate pe o scal numeric. Exemple de variabile cantitative: venitul anual, numrul de ani de educaie, numrul de frai, de cte o ori o persoan a fost condamnat, etc. Setul de categorii pentru o variabil calitativ este numit scal nominal, iar setul de valori numerice pentru o variabil cantitativ se numete scal interval. Scalele interval au o anumit distan sau un anumit interval ntre fiecare pereche de niveluri. Venitul lunar este msurat pe o astfel de scal interval; intervalul dintre 2000 si 3000 RON, de exemplu, este de 1000 RON. Astfel se pot face comparaii ntre niveluri diferite ale venitului, comparaii care nu au nici un sens pentru o scal nominal. ntr-un anumit sens exist i un al treilea tip de scal, situat ntre scala nominal i cea interval. Este vorba despre o scal categoric, avnd o ordine natural a valorilor, dar fr a putea identifica distana dintre valori. Aceasta este scala ordinal. De exemplu: poziia n spectrul politic (stnga, centru-stnga, centru, centru-dreapta, dreapta), opinia fa de mrimea cheltuielilor cu protecia social (prea mici, normale, prea mari), etc. Principalul motiv pentru care se face distincia dintre datele cantitative i cele calitative este c, aa cum s-a mai spus, pentru fiecare tip de date se aplic metode statistice diferite. Variabile discrete i variabile continue O alt modalitate de a clasifica variabilele ine cont numrul de valori cuprinse n scala de msurare. O variabil este numit discret dac ea poate lua doar un numr finit de valori i este numit continu dac poate lua ca valori un numr infinit de numere reale. Exemple de variabile discrete: numrul de copii ai fiecrei familii, numrul de infraciuni ntr-un an, numrul de vizite la medic n ultimul an, etc. Oricare dintre variabilele anterioare numite numrul de... este o variabil discret, ntruct poate lua doar valori din mulimea {0, 1, 2, 3, 4, }. Exemple de variabile continue: nlimea, greutatea, vrsta, venitul, etc. Este imposibil de precizat toate valorile posibile ale unei variabile continue. Greutatea unei persoane poate fi 73,82035... kg, funcie de precizia cu care este fcut msurtoarea. n cazul variabilelor discrete nu se poate subdiviza unitatea de msur. Numrul de copii ntr-o familie poate fi 2 sau 3, dar n nici un caz, 2,57. Pe de alt parte, o colecie de valori ale unei variabile continue poate fi oricnd redefinit ntre dou valori posibile. Orice vrst cuprins ntre 20 i 20,5 ani, de exemplu, poate fi rotunjit la 20 de ani, iar orice vrst cuprins ntre 20,5 i 21 de ani poate fi rotunjit la 21 de ani. Variabilele calitative sunt discrete, ele avnd un set finit de categorii. Variabilele cantitative pot fi att discrete ct i continue.

1.2. Eantionare i tipuri de eantioane Statistica inferenial utilizeaz eantioanele pentru a face predicii despre parametrii populaiilor din care acestea au fost extrase. Calitatea inferenei depinde n mod esenial de modul n care eantionul reprezint populaia. Procesul de eantionare ncepe prin definirea cadrului de eantionare. Acesta cuprinde o list complet sau parial a itemilor care compun populaia. Cadrul de eantionare poate fi o list de un anumit tip a populaiei: lista alegtorilor, lista abonailor telefonici dintr-o localitate sau cea a locuinelor conectate la reeaua de electricitate. Subiecii unei populaii pot fi indivizi, familii, coli, locuine, orae, spitale, etc. Dac anumite grupuri din populaie nu sunt incluse n cadrul de eantionare, atunci eantionul nu va fi corect.
Motive pentru a utiliza un eantion n locul unui recensmnt al ntregii populaii: 1. necesit mai puin timp 2. cost mai puin 3. este mai uor de administrat

Exist dou mari grupuri de eantioane: probabilistice i neprobabilistice. Un eantion probabilistic este acela n care subiecii sunt alei pe baza unei probabiliti cunoscute. Un eantion neprobabilistic este acela n care elementele componente sunt alese fr s se in cont de probabilitatea apariiei lor. Pentru anumite studii, eantioanele neprobabilistice, aa cum sunt cele pe cote, cele intenionate sau cele convenabile, sunt suficiente. Aceste eantioane au unele avantaje fa de cele probabilistice, cum ar fi uurina i viteza cu care pot fi

construite, precum i costul sczut. Pe de alt parte, ele au dou dezavantaje majore: lipsa de acuratee i imposibilitatea generalizrii. Din aceste motive, eantioanele neprobabilistice pot fi utilizate doar atunci cnd dorim o aproximare grosier la un cost sczut pentru a ne satisface o curiozitate personal sau atunci cnd dorim s realizm un studiu pilot, care va fi urmat mai trziu de o cercetare mult mai riguroas. Eantioanele probabilistice trebuie utilizate ori de cte ori este posibil, deoarece doar ele asigur o corect inferen statistic de la eantion la populaie. Exist patru tipuri de eantioane probabilistice: eantionul aleatoriu simplu, eantionul sistematic, cel startificat i cel de tip cluster. Aceste tipuri difer ntre ele prin cost, acuratee i complexitate. Un eantion aleator simplu este acela n care fiecare element din cadrul de eantionare are aceeai ans de a fi selectat. Pentru a putea utiliza un astfel de eantion este necesar, n primul rnd, s existe o list complet a populaiei. Apoi de pe aceast list se poate extrage eantionul dorit utiliznd metoda loteriei sau un tabel cu numere aleatoare sau un calculator care s genereze numere aleatoare. n cazul unui eantion sistematic, cei N indivizi care formeaz cadrul de eantionare (populaia) sunt mprii n k grupuri, prin mprirea populaiei la mrimea dorit a eantionului n. Apoi este ales, n mod aleator, un individ din primul grup, iar restul eantionului este obinut prin selecia al fiecrui k element din fiecare grup. De exemplu, dac vrem s extragem un eantion sistematic de 40 de indivizi dintr-o populaie 5

de N = 800, populaia va fi mprit n 800/40 = 20 de grupuri. Este ales n mod aleator un numr din primul grup, s spunem 9, apoi fiecare al 20-lea de dup acesta: 29, 49, 69,..., 769 i 789. Dei sunt uor de utilizat, eantionarea aleatorie simpl i eantionarea sistematic sunt n general mai puin eficiente dect alte metode mai sofisticate i nu se poate ti dac eantionul este ntr-adevr reprezentativ. n cazul eantioanelor sistematice, posibilitatea de eroare este chiar mai mare, n cazul n care cadrul de eantionare este organizat dup un anumit model. n cazul unui eantion stratificat, cei N indivizi ai populaiei sunt mprii n cteva subpopulaii, sau straturi, n conformitate cu anumite caracteristici. Este extras cte un eantion aleator simplu din fiecare strat, iar eantioanele rezultate sunt combinate. Aceast metod de eantionare este mai eficient dect cele anterioare, deoarece asigur reprezentarea indivizilor din ntreaga populaie, ceea ce ofer o mai mare precizie n estimarea parametrilor populaiei. Pentru a construi un eantion de tip cluster, cei N indivizi care formeaz populaia sunt mprii n civa clusteri, astfel nct fiecare dintre acetia este reprezentativ pentru ntreaga populaie. Apoi este extras un eantion aleator simplu din fiecare cluster. Clusterele sunt zone n care populia este grupat n mod natural, cum ar fi judee, localiti, cartiere, strzi, etc. Aceast metod poate fi mai eficace i mai puin costisitoare dect cea a eantionrii simple aleatoare, mai ales cnd populaia este rspndit peste o arie geografic larg. Exerciii 1. Urmtoarele variabile sunt cantitative sau calitative? a. Numrul de animale de cas b. Judeul de reedin c. Autoturismul ales (de producie intern sau de import) d. Distana (n km) pn la locul de munc e. Dieta (vegetarian sau nevegetarian) f. Timpul petrecut sptmna trecut pe internet g. Deinerea unui calculator personal (da, nu) h. Numrul de persoane bolnave de SIDA pe care le cunoatei personal 2. Care din scalele de msur (nominl, ordinal sau interval) este mai potrivit pentru: a. Atitudinea fa de interzicerea avortului b. Numrul de frai c. Genul d. Afilierea partinic 6

e. Religia f. Ideologia politic (de stnga,..., de dreapta) g. Numrul de ani de coal terminai h. Cea mai nalt diplom obinut 3. Care din scalele de msur este mai potrivit pentru urmtoarele variabile? a. Ocupaia b. Statusul ocupaional (muncitor, ran, intelectual,...) c. Rata infracionalitii (nr. de infraciuni la 1000 de locuitori) d. Populaia localitii e. Rata de cretere a populaiei (n %) f. Tipul de localitate (comun, ora, municipiu) g. Venitul anual h. Atitudinea fa minoritile sexuale (favorabil, neutr, nefavorabil) 4. Care dintre urmtoarele variabile pot fi considerate continue? a. Vrsta b. Numrul de copii din familie c. Venitul soului/soiei d. Populaia localitii e. Metoda de contracepie utilizat f. Latitudinea i longitudinea localitii g. Distana pn la locul de munc h. Judeul de reedin 5. S presupunem c urmtoarele informaii sunt culese de la studenii care cumpr cri de la o librrie. a. Suma de bani cheltuit pe cri b. Numrul de cri cumprate c. Timpul petrecut n librrie d. Specializarea e. Genul f. Deinerea unui calculator personal g. Deinerea unui video/DVD player h. Metoda de plat

Identificai tipurile de variabile. Dac variabila este numeric, detrerminai dac este discret sau continu. 6. Pentru un studiu care const n interviuri cu participanii, explicai de ce un eantion simplu aleator poate fi mai puin practic dect alte metode. 7. Rectorul unei universiti cu N=4000 de studeni solicit biroului de evaluare academic s efectueze o anchet prin care s msoare satisfacia studenilor. Urmtorul tabel conine o clasificare a studenilor, funcie de gen i de anul de studii. Genul Femeie Brbat Total Anul 1 700 560 1260 Anul 2 520 460 980 Anul 3 500 400 900 Anul 4 480 380 860 Total 2200 1800 4000

Biroul de evaluare intenioneaz s extrag un eantion de n=200 de studeni. a. Dac universitatea dispune de o list alfabetic a celor 4000 de studeni (ceea ce reprezint cadrul de eantionare), ce tip de eantionare poate fi folosit? Discutai. b. Care este avantajul utilizrii unui eantion aleator simplu la punctul a? c. Care este avantajul utilizrii unui eantion sistematic la punctul a? d. n cazul n care cadrul de eantionare este reprezentat de opt liste separate, n ordine alfabetic, pe gen i an de studiu, ce tip de eantion ar trebui folosit? Discutai. e. S presupunem c toi studenii respectivei universiti locuiesc n 20 de cmine. Fiecare cmin are patru niveluri, cu 50 de paturi pe nivel, deci poate primi 200 de studeni. S presupunem n continuare c politica universitii este de a integra studenii, deci pe fiecare etaj al fiecrui cmin vor fi camere de biei i camere de fete, de la specializari diferite i din ani diferii. Dac biroul de evaluare reuete s construieasc un cadru de eantionare constnd ntr-o list cu toi studenii aa cum sunt ei dispui n fiecare cmin i pe fiecare etaj, ce tip de eantion ar trebui utilizat. Discutai.

2.

Statistic descriptiv. Tabele i grafice

2.1. Organizarea datelor numerice Dac pentru un set de date compus doar din cteva observaii nu este o problem observarea trsturilor majore, acest lucru devine tot mai dificil pe msur ce numrul de observaii devine mai mare. De aceea este nevoie de organizarea informaiilor. Pentru acest lucru sunt folosite dou metode: irul ordonat i dispunerea sub form de creang i frunze. Un ir ordonat reprezint o secven ordonat de informaii, aranjate de la cea mai mic la cea mai mare. De exemplu, s presupunem c durata de edere, n zile, a unor pacieni ntr-un centru de dezalcoolizare este urmtoarea: 11, 37, 22, 6, 20, 9, 61, 18, 24, 16, 13, 4, 39, 13, 44, 19 i 7. irul ordonat va fi n acest caz: 4, 6, 7, 9, 11, 13, 13, 16, 18, 19, 20, 22, 24, 37, 39, 44, 61. Un astfel de ir face mai uoar observarea extremelor, a valorilor tipice i a zonelor n care valorile se concentreaz. Dispunerea sub form de creang i frunze este o unealt util pentru organizarea unui set de date i pentru nelegerea modului n care valorile sunt distribuite i grupate. O astfel de dispunere separ n cifra/cifrele de intrare (creanga) i celelalte cifre (frunzele), fiecare n ordine cresctoare. Dac ne referim la exemplul anterior, atunci o distribuie creang i frunze arat aa: Creanga 0 1 2 3 4 5 6 Frunzele 4, 6, 7, 9 1, 3, 3, 6, 8, 9 0, 2, 4 7, 9 4 1

2.2. Tabele i grafice pentru date numerice Distribuia frecvenelor Indiferent de modul n care sunt ordonate datele, fie n ir cresctor, fie sub form de creng i frunze, atunci cnd numrul de cazuri crete, informaia trebuie s fie condensat i mai mult pentru a putea fi prezentat, analizat i interpretat n mod corespunztor. Astfel, informaiile pot fi grupate n categorii ale cror limite sunt stabilite funcie de mprtierea observaiilor. O astfel de aranjare a datelor sub form de tabel se numete distribuia frecvenelor. Atunci cnd observaiile sunt grupate ntr-o distribuie de frecvene, procesul de analiz i interpretare a datelor devine mai uor. Principalele caracteristici ale datelor pot fi aproximate, ceea ce compenseaz faptul ca prin grupare informaia iniial, legat de fiecare observaie individual, este pierdut. Atunci cnd se construiete o distribuie de frecvene sunt cteva etape care trebuie parcurse: punerea datelor n ordine, stabilirea numrului de categorii, de clase, n care sunt grupate datele, stabilirea mrimii 9

fiecrei clase, stabilirea frontierelor fiecrei categorii i, n final, punerea fiecrei observaii n categoria corespunztoare. Alegerea numrului de clase n care se va grupa informaia depinde n primul rnd de numrul de observaii. Un numr mai mare de obdervaii permite un numr mai mare de categorii. n general, o distribuie de frecvene are ntre 5 i 15 clase. Dac sunt prea puine clase nu se poate observa nici o distribuie iar dac sunt prea multe clase, unele dintre ele nu vor avea nici o observaie. ntr-o distribuie de frecvene, limile claselor trebuie s fie egale. Pentru a determina limea unei clase se mparte amplitudinea variaiei observaiilor (din cea mai mare valoare se scade cea mai mic) la numrul dorit de clase. Frontierele fiecrei categorii categorii trebuie s fie foarte clare, astfel nct s nu rmn date neacoperite sau suprapuneri. Exemplu: trebuie construit o distribuie a frecvenelor pentru urmtoarele date obinute la un test de cunotine: 16, 2, 16, 29, 15, 7, 25, 16, 5, 19, 1, 12, 22, 10, 29, 20. 1. Punerea datelor n ordine: 1, 2, 5, 7, 10, 12, 15, 16, 16, 16, 19, 20, 22, 25, 29, 29. 2. Stabilirea numrului de categorii: 3 3. Calcularea limii fiecrei categorii: (29-1)/3 =9,333; se poate aproxima la 10. 4. Stabilirea frontierelor fiecrei categorii: 0 9; 10 19; 20 29. 5. Punerea fiecrei observaii n categoria corespunztoare: Categoria Frecvena 09 4 10 19 7 20 29 5 Total 16 Principalul avantaj al unui astfel de tabel l reprezint faptul c principalele caracteristici ale informaiei devin clare foarte uor: scorurile variaz ntre 0 i 29, dar cele mai multe sunt n categoria de mijloc. Pe de alt parte, dezavantajul major al distribuiei frecvenelor este c, fr acces la datele originale, nu se poate cunoate distribuia valorilor n interiorul unei anumite clase. Distribuia frecvenelor relative i distribuia procentual Pentru a mbunti analiza, se pot utiliza fie distribuia frecvenelor relative, fie distribuia procentual. Distribuia frecvenelor relative este format prin mprirea frecvenelor din fiecare clas la numrul total de observaii. Distribuia procentual rezult prin nmulirea fiecrei frecvene relative cu 100. Frecvena Frecvena relativ Procentul

Categoria

10

09 4 0,25 25 10 19 7 0,4375 43,75 20 29 5 0,3125 31,25 Total 16 1 100 Utilizarea proporiei sau a procentajului are mai mult sens dect utilizarea doar a frecvenelor. De fapt, utilizarea distribuiei frecvenelor relative i a distribuiei procentuale devine esenial atunci cnd se compar dou seturi de date, i mai ales cnd numrul observaiilor din cele dou seturi de date difer. Histograma Plecnd de la expresia foarte cunoscut n jurnalism c o imagine face ct 1000 de cuvinte i transfernd-o n statistic, ajungem la tehnicile grafice. Acestea sunt deseori utilizate n locul tabelelor, pentru a avea o descriere mai vie a seturilor de date. Unul dintrte graficele cele mai utilizate este histograma. O histogram este un grafic n care pe graniele fiecrei clase sunt construite dreptunghiuri a cror nlime este proporional cu frecvena, frecvena relativ sau procentajul. Atunci cnd se construiete o histogram, variabila de interes se amplaseaz pe orizontal, iar pe vertical se noteaz frecvena, proporia sau procentajul observaiilor din fiecare clas.

Histograma
8 7 6 5 4 3 2 1 0 9 19 29

Frecventa

categoria
Poligonul frecvenelor sau procentajelor Punctul de mijloc al unei clase reprezint punctul aflat la jumtatea distanei dintre frontierele fiecrei clase i este reprezentativ pentru datele din acea clas. Poligonul frecvenelor sau procentajelor este format prin unirea tuturor punctelor de mijloc ale claselor analizate. La fel ca i la histogram, variabila de interes este amplast pe orizontal.

11

2.3. Tabele i grafice pentru variabile nominale Tabelul rezumativ Un tabel rezumativ pentru variabile nominale este similar, ca form, cu un tabel pentru date numerice. Urmtorul tabel prezint rezultatele primului tur de scrutin al alegerilor prezideniale desfurate pe 28 noiembrie 2004. Candidatul Adrain Nstase Traian Bsescu Corneliu Vadim Tudor Marko Bela Restul candidailor Graficul bar Pentru a exprima informaia prezentat ntr-un tabel ca cel anterior se utilizeaz graficul bar al frecvenelor, al frecvenelor relative sau al procentajelor. ntr-un astfel de grafic, fiecare categorie este reprezentat de o bar a crei lungime este proporional cu frecvena sau procentajul observaiilor din acea categorie. n general, variabila de interes este amplast pe axa vertical, iar valorile pe axa orizontal. n cazul variabilelor nominale nu conteaz ordinea n care sunt amplasate categoriile. n plus, spre deosebire de histograme, barele sunt separate ntre ele, tocmai pentru a sublinia faptul c variabila este nominal (calitativ) i nu interval (cantitativ).
Procentajul

Numrul de voturi Procentajul 4278864 40,94 3545236 33,92 1313714 12,57 533446 5,10 780945 7,47

Restul candidailor Marko Bela Corneliu Vadim Tudor Traian Bsescu Adrain Nstase 0

7,47 5,1 12,57 33,92 40,94 10 20 30 40 50 Procentajul

Graficul tort Graficul tort se bazeaz pe faptul c un cerc are 360 de grade. Acesta este mprit n felii a cror mrime este proporional cu fiecare categorie. 12

Procentajul

5,1 12,57

7,47 Adrain Nstase 40,94 Traian Bsescu Corneliu Vadim Tudor Marko Bela Restul candidailor

33,92

Scopul unui grafic este s prezinte datele cu precizie. Unele cercetri asupra percepiei umane au ajuns la concluzia c graficele tort au performane mai slabe dect graficele bar. Aceasta deoarece s-a observat c ochiul uman apreciaz mai uor o lungime n raport cu o scal, ca n cazul graficelor bar, i mai greu un unghi, ca n cazul graficelor tort. Astfel, un grafic bar permite o comparare mai uoar a categoriilor. Pe de alt parte, graficele tort arat cu claritate faptul c suma tuturor categoriilor este 100%. n consecin, alegerea tipului de grafic este subiectiv i depinde de scopurile utilizatorului: dac este mai important comparaia, atunci este mai bine s se utilizeze un grafic bar; dac este mai important observarea unei poriuni n raport cu ntregul, atunci este mai bine s se utilizeze un grafic tort. Exerciii 1. Formai un ir ordonat din urmtorul eantion de 10 note la un examen de statistic: 8,8; 7,8; 7,8; 7,3; 9,1; 7,8; 8,5; 6,4; 6,2; 7,5. Construii o dispunere creang i frunze. 2. Formai un ir ordonat din urmtorul eantion de 10 salarii (n RON) din cadrul unei companii: 755, 490, 648, 832, 710, 590, 576, 627, 915, 839. Construii o dispunere creang i frunze. 3. Urmtoarele date reprezint un eantion de 23 de sume de bani extrase de la un bancomat: 260, 280, 200, 200, 210, 220, 250, 250, 180, 250, 150, 200, 180, 200, 250, 250, 220, 300, 300, 300, 150, 200, 290. a. Punei datele ntrt-un ir ordonat. b. Punei datele sub form creang i frunze. c. Care dintre cele dou forme de prezentare ofer mai multe informaii?. Discutai. d. n jurul crei valori par s se concentreze sumele retrase? Explicai.

13

4. Urmtoarea distribuie creang i frunze reprezint cantitatea de motorin cumprat (n litri), de un eantion de 25 de camioane de la o staie de alimentare de la periferia Bucuretiului. 9 1,4,7 10 0,2,2,3,8 11 1,3,5,5,6,6,7,7,7,7 12 2,2,3,4,8,9 13 0,2 a. Punei datele ntrt-un ir ordonat. b. Care dintre cele dou forme de prezentare ofer mai multe informaii?. Discutai. c. Care este cantitatea de motorin care are ansele cele mai mari de a fi cumprat? d. Exist o concentraie spre mijlocul distribuiei a cantitii de motorin cumprat? e. Credei c eantionul de 25 este reprezentativ pentru o populaie mai larg? Discutai. 5. Plecnd de la aceeai distribuie creang i frunze de la exerciiul 3 a. b. c. Construii distribuia de frecvene i distribuia procentajelor Trasai histograma procentajelor Trasai poligonul procentajelor 6. n anul 2004, numrul de credincioi ai marilor religii ale lumii era urmtorul: cretini 2107 milioane, musulmani 1283 milioane, hindui 851 de milioane, buditi 375 milioane, iudaici 15 milioane. a. Construii distribuia frecvenelor pentru aceste date. b. Construii distribuia frecvenelor relative pentru aceste date. c. Construii un grafic bar. d. Se poate calcula media, mediana sau modul pentru aceste date? Interpretai. 7. Cele dou iruri ordonate din tabelul urmtor prezint durata de via, n ore, a dou eantioane de cte 40 de becuri de 100W, eantioane extrase din producia a dou fabrici. Fabrica A Fabrica B 684 697 720 773 821 819 836 888 897 903 831 835 848 852 852 907 912 918 942 943 859 860 868 870 876 952 959 962 986 992 893 899 905 909 911 994 1004 1005 1007 1015 922 924 926 926 938 1016 1018 1020 1022 1034 939 943 946 954 971 1038 1072 1077 1077 1082 972 977 984 1005 1014 1096 1100 1113 1113 1116 1016 1041 1052 1080 1093 1153 1154 1174 1188 1230 a. Construii distribuia frecvenelor pentru cele dou fabrici, utiliznd clase de 100 de ore lime. b. Construii alte distribuii ale frecvenelor, utiliznd urmtoarea schem: Fabrica A: de la 650 pn la 750, de la 750 inclusiv la 850, amd 14

Fabrica B: de la 750 pn la 850, de la 850 inclusiv la 950, amd

c. Schimbai limea intervalelor de la 100 la 50 (650 700, 700 750, etc). Comentai rezultatele acestei modificri. d. Construii distribuia procentajelor din distribuia frecvenelor de la punctul b. e. Trasai separat histogramele procentajelor. f. Trasai poligoanele procentajelor. g. Becurile crei fabrici au o speran de via mai lung? Explicai. 8. O variabil nominal are patru categorii, cu urmtoarele procentaje: Categoria Procentajul A 12 B 29 C 35 D 24 a. Construii un grafic bar b. Construii un grafic tort

15

3.

Statistic descriptiv. Msuri ale tendinei centrale i ale dispersiei

3.1. Msuri ale tendinei centrale, ale dispersiei i formei Cele mai multe dintre seturile de date arat o tendin clar a datelor de a se grupa n jurul unui punct central. Din acest motiv, pentru orice set de date, o anumit valoare tipic poate fi utilizat pentru a descrie ntregul set. O astfel de valoare descriptiv se numete msur a tendinei centrale. Exist trei astfel de msuri ale tendinei centrale: media aritmetic, mediana i modul. Media aritmetic Media aritmetic reprezint cea mai utilizat msur a tendinei centrale. Media aritmetic se calculeaz prin mprirea sumei tuturor valorilor numerice ale unei variabile dintr-un set de date la numrul de date din acel set. Pentru un eantion care conine n observaii, notate X1, X2,..., Xn, media aritmetic a eantionului, notat X i numit X barat, se calculeaz dup formula:
n

X =

X 1 + X 2 + X 3 + ... + X n = n

X
i =1

Pentru o populaie care conine N observaii, media aritmetic a populaiei se noteaz cu litera greceasc i se calculeaz dup o formul similar:
n

X 1 + X 2 + X 3 + ... + X n = N

X
i =1

Trebuie subliniat faptul c reprezint un parametru, iar X este doar o informaie statistic. S lum n considerare urmtorul exemplu:

Tabelul 3.1. Activitatea economic a femeilor n Europa; Angajarea n munc a femeilor ca procent din angajarea n munc a brbailor 16

Europa occidental ara Activitatea economic Austria 60 Belgia 47 Danemarca 77 Elveia 60 Frana 64 Irlanda 41 Italia 44 Marea Britanie 60 Norvegia 68 Olanda 42 Portugalia 51 Spania 31 Suedia 77

Europa central i de est ara Activitatea economic Bulgaria 88 Cehia 84 Polonia 77 Romnia 77 Slovacia 81 Ungaria 70

Pentru a calcula media aritmetic a angajrii n munc a femeilor din Europa central i de est, nti se calculeaz suma valorilor (88+84+77+77+81+70 = 477), care apoi se mparte la numrul de cazuri (477/6=79,5). Media, ca i ceilali indicatori ai tendinei centrale, permite compararea ntre grupuri. n cazul exemplului anterior, valoarea mediei aritmetice pentru Europa central i de est (79,5) poate fi comparat cu cea pentru Europa occidental (55,53), iar diferena poate fi analizat. Proprietile mediei: media este o msur potrivit doar pentru datele cantitative media este puternic influenat de observaiile care sunt foarte deprtate de restul datelor, care sunt numite observaii excentrice. Mediana Mediana este msura care mparte exact n dou un ir ordonat de date. Mediana = a (n+1)/2 observaie Dac exist un numr impar de observaii, mediana reprezint valoare numeric ce este poziionat exact n punctul de (n+1)/2. Dac exist un numr par de observaii, atunci mediana se situeaz ntre cele dou observaii din mijloc i este egal cu media lor. n cazul datelor din tabelul 3.1, pentru rile din Europa occidental, irul ordonat al datelor este urmtorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77. Numrul observaiilor fiind impar, observaia a 7-a mparte irul n dou pri egale, deci Mediana = 60. n cazul datelor pentru Europa central i de este, irul ordonat al datelor este: 70, 77, 77, 81, 84, 88. Pentru c numrul observaiilor este par, Mediana = (77+81)/2 = 79 17

Principala calitate a medianei n raport cu media const n faptul c nu este afectat de valorile excentrice. Dar, pe de alt parte, pentru seturi de date relativ mici, distribuii diferite pot avea aceeai median. Modul Modul este valoarea care are frecvena cea mai mare ntr-un set de date. Spre deosebire de media aritmetic, modul nu este afectat de valorile extreme. Modul este utilizat doar pentru scopuri descriptive, deoarece el este mult mai variabil de la un eantion la altul dect dect celelalte msuri ale tendinei centrale. Pentru variabilele continue, aa cum ar fi venitul, deoarece sunt extrem de multe valori posibile pe care variabila le poate lua, sunt anse foarte mari ca nici o valoare s nu apar de dou ori. n consecin, pentru variabilele continue nu putem discuta despre mod. n exemplul datelor din tabelul 3.1, pentru rile din Europa occidental, valoare cu frecvena cea mai mare este 60, deci Modul = 60. Pentru rile din Europa central i de est, Modul =77. Quartilele Quartilele reprezint cea mai utilizat msur a locaiei necentrale i sunt utilizate pentru a descrie proprietile unor seturi mari de date. n vreme ce mediana este valoarea care mparte n dou un set ordonat de date (50% dintre observaii sunt mai mari dect aceasta iar 50% mai mici), quartilele sunt msuri descripitve care mpart un i ordonat de date n patru sferturi. Prima quartil, Q1, este valoarea pentru care 25% dintre observaii sunt mai mici, iar 75% sunt mai mari: Q1 = a (n+1)/4 observaie A treia quartil, Q3, este valoarea pentru care 75% dintre observaii sunt mai mici, iar 25% sunt mai mari: Q1 = a 3(n+1)/4 observaie Pentru calcularea quartilelor se folosesc urmatoarele reguli: 1. 2. 3. Dac numrul rezultat din formul este ntreg, atunci observaia corespunztoare Dac numrul rezultat din formul este la jumtatea dintre dou numere ntregi, atunci Dac numrul rezultat din din formul nu este nici ntreg i nici la jumtatea distanei numrului rezultat reprezint quartila. quartila reprezint media dintre valorile observaiilor ntre care se situeaz. dintre dou numere ntregi, atunci quartila reprezint valoarea observaiei cea mai apropiat. Utiliznd datele din tabelul 3.1, pentru rile din Europa occidental, irul ordonat al datelor este urmtorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77 n acest caz, Q1 = a (13+1)/4 observaie = a 3,5 observaie. Utilizand a doua regul, prima quartil va fi media dintre a 3-a i a 4-a observaie: Q1 = (42+44)/2 = 43

18

Q1 = a 3(13+1)/4 observaie = a 10,5 observaie. Utiliznd a doua regul, a treia quartil va fi media dintre a 10-a i a 11-a observaie: Q3 = (64+68)/2 = 66 Msuri ale dispersiei O a doua proprietate important care descrie un set de date este dispersia sau mprtierea datelor. Dou seturi de date pot diferi att n ceea ce privete tendina central ct i dispersia, dup cum se poate observa n figurile 3.1 i 3.2.

Fig. 3.1. Dou distribuii simetrice care difer doar n privina tendinei centrale

Fig. 3.2. Dou distribuii simetrice care difer doar prin dispersie Exist cinci msuri ale dispersiei: Amplitudinea, amplitudinea interquartilic, variana, deviaia standard i coeficientul de variaie. Amplitudinea reprezint diferena dintre cea mai mare i cea mai mic observaie dintr-un set de date: A = Xmax-Xmin Utiliznd datele din tabelul 3.1, pentru rile din Europa occidental, A = 77-31 = 46 Amplitudinea msoar mprtierea total a unui set de date. Dei amplitudinea este o msur simpl a variaiei totale a datelor, slbiciunea ei principal este c nu ine cont de modul n care datele sunt 19

mprtiate ntre cea mai mare i cea mai mic valoare. Astfel, atunci cnd exist cel puin o valoare excentric, folosirea amplitudinii nu este corespunztoare. Amplitudinea interquartilic reprezint diferena dintre a treia quartil i prima quartil dintr-un set de date: Aiq = Q3-Q1 Aceast msur ia n considerare mprtierea a 50% dintre date i de aceea nu este influenat de valorile extreme. Utiliznd irul ordonat rezultat din datele din tabelul 3.1, pentru rile din Europa occidental, Aiq = 66-43 = 23 Variana i deviaia standard Dei att amplitudinea ct i amplitudinea interquartilic msoar mprtierea, nici una dintre aceste msuri nu ia n considerare modul n care observaiile sunt distribuite sau grupate. Cele dou msuri ale variaiei care iau n considerare modul de distribuie al observaiilor sunt variana (numit i dispersie) i deviaia. Aceste msuri apreciaz cum fluctueaz valorile n jurul mediei. Variana unui eantion ar putea fi astfel considerat ca media ptratelor diferenei dintre fiecare observaie i medie. Astfel, pentru un eantion care conine n observaii, notate X1, X2,..., Xn, variana eantionului este:

S 2 = ( X 1 X ) 2 + ( X 2 X ) 2 + ... + ( X n X ) 2 /(n 1)
Sau

n 1 Cea mai practic i cea mai utilizat msur a variaiei este deviaia standard. Aceast msur

( X
i =1

X )2

reprezint radical din varian:

(X
i =1

X )2

n 1

Continund exemplul cu datele din tabelul 3.1. pentru rile din Europa occidental, n tabelul 3.2. sunt prezentai paii necesari calculrii varianei i deviaiei standard. Astfel, variana este S2 = 2431,23/(13-1) = 202,6 Iar deviaia standard
S = 2 2 ,6 =1 ,2 0 4 3

Tabelul 3.2. 20

Calcularea lui S2 i S 1. Se calculeaz diferenele dintre fiecare observaie i medie 2. Se ridic la ptrat fiecare diferen 3. Se adun diferenele ridicate la ptrat 4. Rezultatul se mparte la n-1 Pentru a calcula S se extrage rdcina ptrat din S2

ara Austria Belgia Danemarca Elveia Frana Irlanda Italia Marea Britanie Norvegia Olanda Portugalia Spania Suedia Total

Xi 60 47 77 60 64 41 44 60 68 42 51 31 77

(Xi X )

(X i X )2

55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53 55,53

4,47 -8,53 21,47 4,47 8,47 -14,53 -11,53 4,47 12,47 -13,53 -4,53 -24,53 21,47 0,00

19,98 72,76 460,96 19,98 71,74 211,12 132,94 19,98 155,51 183,06 20,52 601,72 460,96 2431,23

Calculnd S2 i S, diferenele dintre fiecare observaie i valoarea medie au fost ridicate la ptrat. De aceea, niciodat variana i deviaia standard nu pot fi negative. Singura situaie n care S 2 i S sunt zero este atunci cnd nu exist nici un fel de variaie n interiorul setului de date. Datele numerice sunt n mod inerent variabile, nu constante, fiecare
nelegerea dispersiei 1. cu ct datele sunt mai mprtiate, cu att mai mare vor fi amplitudinea, amplitudinea interquartilic, variana i deviaia standard. 2. cu ct datele sunt mai concentrate i mai omogene, cu att mai mici vor fi amplitudinea, amplitudinea interquartilic, variana i deviaia standard. 3. dac datele sunt aceleai (adic nu exist nici un fel de variaie), amplitudinea, amplitudinea interquartilic, variana i deviaia standard vor fi nule. 4. pentru un set obinuit de date nici una dintre msurile variaiei (amplitudinea, amplitudinea interquartilic, variana i deviaia standard) nu pot fi vreodat nule.

variabil care este studiat lund mai multe valori. Tocmai datorit acestei variabiliti, pentru a sumariza un set de date este important de precizat nu doar msurile tendinei centrale, ci i msurile care reflect modul n care datele sunt dispersate. Deviaia standard este folositoare la nelegerea modului n care un set de date este grupat n jurul mediei. Pentru cele mai multe seturi de date, majoritatea observaiilor sunt n intervalul plus minus o deviaie standard fa de medie. n cazul exemplului cu angajarea n munc a femeilor din Europa occidental, media era 55,53, iar deviaia standard 14,23. Deci majoritea cazurilor se vor gsi n intervalul 55,53 14,23 = 41,3 i 55,53 + 14,23 = 69,76. Verificnd acest lucru pe irul ordonat al datelor, se observ ca 10 din 13 cazuri sunt cuprinse n acest interval.

Coeficientul de variaie 21

Spre deosebire de msurile anterioare ale variaiei, coeficientul de variaie este o msur relativ a acesteia. El este exprimat n procente i nu ntr-o anumit unitate de msur. Coeficientul de variaie se calculeaz pein mprirea deviaiei standard la media aritmetic i nmulind totul cu 100. CV =
S 100 % X

Coeficientul de variaie este folositor cnd se compar dou sau mai multe seturi de date, i n special cnd aceste date sunt msurate n uniti de msur diferite. Forma O a treia proprietate important a unui set de date o reprezint forma, adic modul n care sunt distribuite datele. O distribuie poate fi simetric sau asimetric. Cele asimetrice se mai numesc i nclinate. Pentru a descrie forma se poate compara media cu mediana. Daca aceste dou msuri sunt egale, atunci distribuia este considerat simetric. Dac media este mai mare dect mediana, distribuia este conisderat pozitiv sau nclinat spre dreapta. Dac mediana este mai mare dect media, atunci distribuia este conisderat negativ sau nclinat spre stnga.

Media < Mediana

Fig. 3.3. Distribuie nclinat spre stnga

Media > Mediana

Fig. 3.4. Distribuie nclinat spre dreapta

22

Media = Mediana

Fig. 3.5. Distribuie simetric 3.2. Obinerea unui rezumat descriptiv al unei populaii n seciunea anterioar au fost prezentate proprietile tendinei centrale, variaiei i formei pentru un eantion. S presupunem c datele nu reprezint un eantion, ci o ntreag populaie. n acest caz nu mai discutm despre date statistice ci despre parametrii ai tendinei centrale, variaiei i formei. Ele se calculeaz dup formule similare celor pentru eantioane, dar se noteaz diferit. Media populaiei se calculeaz prin mprirea sumei tuturor valorilor din populaie la mrimea populaiei, N.
n

X + X 2 + X 3 + ... + X n = 1 = N

X
i =1

Variana populaiei se calculez prin nsumarea ptratului diferenei dintre fiecare valoare i media aritmetic a valorilor populaiei, urmat de mprirea acestei sume la mrimea populaiei.
n

N Deviaia standard a populaiei este rdcina ptrat din variana popuaiei:

(X
i =1

)2

(X
i =1

)2

Trebuie notat faptul c formulele pentru variana populaiei i pentru deviaia standard a populaiei difer de cele pentru eantion prin faptul c, n cazul populaiei, numitorul este N i nu n-1. Regula empiric n cele mai multe seturi de date, o mare parte a datelor tinde s se concentreze n jurul medianei. n seturile de date nclinate spre dreapta, aceast grupare apare la stnga medianei (valori mai mici dect mediana), iar n seturile de date nclinate spre stnga, observaiile se grupeaz la dreapta medianei (valori mai mari dect aceasta). n seturile de date care sunt simetrice, n care mediana a este egal cu media, 23

observaiile tind s fie distribuite n mod egal n jurul msurilor tendinei centrale. Atunci cnd ntr-un set de date nu este vizibil o nclinaie puternic, se poate utiliza regula empiric pentru a examina variabilitatea datelor i pentru a avea nelegere mai bun a ceea ce msoar deviaia standard. Regula empiric afirm c pentru o distribuie simetric, n form de clopot, aproximativ dou treimi din toate observaiile (67%) sunt concentrate la o distan de o deviaie standard fa de medie, iar aproximativ 95% dintre observaii sunt concentrate n intervalul de dou deviaii standard fa de medie. Astfel, deviaia standard, ca o msur a variaiei medii n jurul mediei, ajut la nelegerea modulului n care sunt distribuite observaiile deasupra i dedesubtul mediei, permind concetrarea asupra valorilor anormale, excentrice, atunci cnd este analizat un set de date numerice. 3.3. Coeficientul de corelaie Coeficientul de corelaie, , msoar puterea unei relaii sau a unei asocieri ntre dou variabile ale unei populaii. Valorile acestuia pot varia de la 1, pentru o corelaie negativ perfect, la +1, pentru o corelaie pozitiv perfect. n acest caz, perfect nseamn c tote punctele de pe o diagram care reprezint cele dou variabile ar putea fi unite de o linie dreapt. Astfel, coeficientul de corelaie msoar gradul de asociere liniar ntre dou variabile. Semnul pozitiv al coeficientului de corelaie arat c valorile variabilei X cresc n acelai timp cu cele ale variabilei Y, iar semnul negativ arat c valorile mari ale variabilei X sunt asociate cu valori mici ale variabilei Y. Atunci cnd coeficientul de corelaie este apropiat de zero, se poate considera c nu exist nici un fel de corelaie ntre cele dou variabile. Figura 3.6. ilustreaz trei tipuri de asociere ntre variabile.

Fig. 3.6. Corelaie perfect negativ ( = -1)

Corelaie perfect pozitiv ( = 1)

24

Nici un fel de corelaie In cazuri reale, este foarte puin probabil s existe corelaii perfecte de un anumit fel. n figura 3.7. sunt prezentate o corelaie pozitiv puternic ( = 0,75) i o corelaie negativ puternic ( = -0,75).

Fig. 3.7 n ambele situaii, relaiile sunt descrise ca tendine i nu ca relaie cauz efect. Doar corelaia nu poate s dovedeasc existena unei relaii de cauzalitate, c o modificarea unei variabile provoac modificarea celeilalte variabile. O corelaie puternic se poate produce doar datorit ntmplrii, datorit nelurii n considerare a ueni a treia variabile sau datorit relaiei cauz efect. Este necesar o analiz suplimentar pentru a determina care dintre cele trei situaii a provocat corelaia. Coeficientul de corelaie pentru un eantion se calculeaz dup urmtoarea formul:
n

r=

(X
i =1 n i =1

X )(Yi Y )

( X i X )2

(Y
i =1

Y )2

25

Exerciii 1. Managerul unei firme de curierat trebuie s cumpere un set de camioane. Atunci cnd pachetele sunt puse n camioane pentru livrare, exist dou constrngeri majore: greutatea i volumul fiecrui item. Dac ntr-un eantion de 200 de pachete, greutatea medie este de 26 kg cu o deviaie standard de 3,9 kg, iar volumul mediu este de 8,8 litri, cu o deviaie standard de 2,2 litri, cum poate fi comparat variaia greutii i a volumului? 2. Fie urmtorul set de date dintr-un eantion de mrimea n = 5 elemente: 7, 4, 9, 8, 2. a. Calculai media, mediana i modul. b. Calculai amplitudinea, amplitudinea interquartilic, variana, deviaia standard i coeficientul de variaie. c. Descriei forma datelor. 3. Fie urmtorul set de date dintr-un eantion de mrimea n = 6 elemente: 7, 4, 9, 7, 3, 12. a. Calculai media, mediana i modul. b. Calculai amplitudinea, amplitudinea interquartilic, variana, deviaia standard i coeficientul de variaia. c. Descriei forma datelor. 4. Fie urmtoarele dou seturi de date, fiecare formnd un eantion de 7 elemente: Setul 1: 10, 2, 3, 2, 4, 2, 5 Setul 2: 20, 12, 13, 12, 14, 12, 15 a. Pentru fiecare set de date calculai media, mediana i modul b. Comparai rezultatele. c. Pentru fiecare set de date calculai amplitudinea, amplitudinea interquartilic, variana, deviaia standard i coeficientul de variaie. d. Descriei forma fiecrui set de date. e. Comparai rezultatele de la punctele c i d. 5. Urmtorul set de date reprezint informaii despre o populaie cu N = 10: 7, 5, 11, 8, 3, 6, 2, 1, 9, 8 a. Calculai media populaiei b. Calculai deviaia standard a populaiei 6. Urmtorul set de date reprezint informaii despre o populaie cu N = 10: 7, 5, 6, 6, 6, 4, 8, 6, 9, 3 a. Calculai media populaiei 26

b. Calculai deviaia standard a populaiei 7. X Y Urmtoarele date reprezint informaii de la un eantion cu n = 11 elemente: 7 21 5 15 8 24 3 9 6 18 10 30 12 36 4 12 9 27 15 45 18 54

a. Calculai coeficientul de corelaie b. Ct de puternic este relaia dintre X i Y? Explicai.

27

4. Probabilitatea i distribuia probabilitii 4.1. Concepte fundamentale n probabilitate

Probabilitatea reprezint ansa ca un anumit eveniment s se produc. Probabilitatea poate s se refere la ansa de a nimeri o anumit culoare cnd se alege o carte dintr-un pachet de cri de joc, la ansa ca un anumit individ s aleag un candidat n dauna altuia, ori la ansa ca un nou produs s aib succes pe pia. n oricare dintre aceste exemple, probabilitatea reprezint o proporie sau o fracie i ia valori ntre 0 i 1. Evenimentul care este imposibil s apar are probabilitatea 0, iar cel care apare cu certitudine are probabilitatea 1. Probabilitatea de apariie = X/T, unde X = numrul de cazuri n care evenimentul poate s apar, iar T = numrul total de rezultate. Elemente de vocabular Elementele de baz ale teoriei probabilitii sunt rezultatele procesului sau fenomenului studiat. n limbajul statisticii, un experiment reprezint un proces al crui rezultat este imprecis. Spaiul de probabilitate (S) reprezint toate rezultatele posibile ale unui experiment. Fiecare rezultat posibil este numit eveniment. Dac evenimentul poate fi descris n funcie de o singur caracteristic, atunci el este un eveniment simplu. Dac un eveniment are dou sau mai multe caracteristici, atunci el se numete eveniment reunit. Complementul unui eveniment A, notat A, include toate evenimentele din spaiul S care nu sunt parte a evenimentului A. Probabilitatea (P) sau probabilitatea simpl este un numr real din intervalul [0,1], corespunztor unui unui subset de rezultate din spaiul de probabilitate. Exemplu: s presupunem c aruncarea unui zar reprezint experimentul. Spaiul de probabilitate, n acest caz este S = {1,2,3,4,5,6}. Evenimentul A este reprezentat de cazurile n care rezultatul aruncrilor sunt numere impare, A = {1,3,5}, iar evenimentul B este reprezentat de cazurile n care rezultatul aruncrilor este mai mic dect 3, B = {1,2}. Presupunnd c ansele de apariie a oricrei faete a zaruli sunt aceleai, P(1) = 1/6, atunci probabilitatea de apariie a evenimentului A este P(A) = 3/6 = 0,5, iar probabilitatea de apariie a evenimentului B este P(B) = 2/6 = 0,33 Dac probabilitatea simpl se refer la apariia unor evenimente simple, probabilitatea reunit se refer la situaii care implic dou sau mai multe evenimente, reprezentnd intersecia evenimentelor. 28

Exemplu: Pentru cazul anterior, evenimentul reunit (A i B) = {1 }, iar P(A i B) = 1/6 = 0,16 Reguli ale probabilitii 1. 0 P(A) 1, pentru orice A n S Probabilitatea oricrui eveniment A ntr-un spaiu de probabilitate S este cuprins ntre 0i 1. 2. P(spaiu de probabilitate vid) = 0, pentru orice S Probabilitatea unui eveniment care nu are nici un element este nul. 3. Dac A i A sunt evenimente complementare n spaiul S, atunci P (A) = 1 P(A) Exemplu: Dac experimentul const n aruncarea unui zar, i evenimentul A = {1,3,5}, atunci complementarul su este A = {2,4,6}. P (A) = 3/6 = 0,5 1 P(A) = 1- 3/6 = 0,5 n cazul aceluiai experiment, dac B = {1,2}, atunci complementarul su este B = {3,4,5,6}. P (B) = 1 P(B) = 1 2/6 = 0,67 4. Dac A i B sunt evenimente din spaiul S, iar A este un subset al lui B, atunci P(A) P(B) Exemplu: Dac experimentul const n aruncarea unui zar, i evenimentul B reprezint elementele mai mari sau egale cu 3, B = {3,4,5,6}, iar A reprezint elementele mai mari sau egale cu 5, A = {5,6}, atunci A este un subset a lui B, iar P(B) = 4/6 = 0,67 i P(A) = 2/6 = 0,33, ceea ce verific regula. O diagram Venn a exemplului anterior este prezentat n figura 4.1. S 1,2 B 3,4 A 5,6

Fig. 4.1 5. Regula de nsumare: probabilitatea lui A sau B este egal cu probabilitatea evenimentului A plus probabilitatea evenimentului B minus probabilitatea lui A i B: P (A sau B) = P(A) + P(B) P(A i B) Exemplu: Dac experimentul const n aruncarea unui zar, i evenimentul A reprezint obinerea lui 3 sau 4, iar evenimentul B reprezint obinerea lui 1, 2 sau 3, atunci P(A) = 2/6 = 0,33, iar P(B) = 3/6 = 0,5. Diagrama Venn a acestui spaiu de probabiliti este prezentat n figura 4.2. 29

Fig. 4.2 A sau B reprezint reunirea celor dou evenimente: A U B = {1,2,3,4}, P (A U B) = 4/6 = 0,67 A i B reprezint intersecia celor dou evenimente: A B = {3}, P(A B) = 1/6 = 0,16 n aceast situaie, aplicnd regula de nsumare se obine: P (A U B) = 2/6 + 3/6 1/6 = 4/6 = 0,67 4.2. Probabilitate condiional

Fiecare dintre situaiile de pn acum au implicat probabilitatea unui eveniment particular atunci cnd acesta este selectat dintr-un cmp de probabilitate. Dar cum ar putea fi determinat probabilitatea dac anumite informaii despre evenimentele petrecute ar fi deja cunoscute? Atunci cnd se calculeaz probabilitatea unui anumit eveniment A, dat fiind informaia despre apariia unui alt eveniment B, aceast probabilitate se numete probabilitate condiional i se noteaz P(AB). Probabilitatea lui A dat fiind B este egal cu probabilitatea evenimentului A i B mprit la probabilitatea evenimentului B. P(AB) = P(A i B)/P(B) Probabilitatea lui B dat fiind A este egal cu probabilitatea evenimentului A i B mprit la probabilitatea evenimentului A. P(BA) = P(A i B)/P(A) Exemplu: S presupunem c avem urmtorul tabel care prezint rezultatele unui sondaj efectuat n 1000 de gospodrii cu privire la cumprarea unui televizor nou. Tabelul 4.1 Intenioneaz s cumpere Da Nu Total Da 200 100 300 Au cumprat Nu 50 650 700 Total 250 750 1000

30

ntrebarea la care se dorete rspuns este urmtoarea: care este probabilitatea ca ntr-o gospodrie s se cumpere un televizor nou? n acest caz, scopul este de a calcula P(au cumpratintenioneaz s cumpere). Astfel, spaiul de probabilitate nu mai este ntregul eantion de 1000 de gospodrii, ci doar gospodriile n care se intenioneaz s se cumpere un televizor, adic 250. Din cele 250 de astfel de gospodrii, doar n 200 s-au cumprat televizoare. Astfel, probabilitatea ca ntr-o gospodrie s se cumpere un televizor dat fiind inteniile de cumprare este: P(au cumpratintenioneaz s cumpere) = P(au cumprat i intenioneaz s cumpere)/ P(intenioneaz s cumpere) P(au cumpratintenioneaz s cumpere) = (200/1000)/(250/1000) = 200/250 = 0,8 Independena statistic n exemplul anterior, probabilitatea ca ntr-o gospodrie s se cumpere un televizor dat fiind inteniile de cumprare este de 200/250 = 0,8. Probabilitatea simpl ca ntr-o gospodrie s se cumpere un televizor este doar de 300/1000 = 0,3. Aceste rezultate ofer informaii importante. Cunoaterea prealabil a inteniei de cumprare a afectat probabilitatea ca ntr-o gospodrie chiar s se cumpere un televizor. Rezultatul este condiionat de o informaie prealabil. Atunci cnd rezultatul unui eveniment nu afecteaz probabilitatea apariiei altui eveniment, se spune despre cele dou evenimente c sunt independente din punct de vedere statistic. Dou evenimente A i B sunt statistic independente dac i numai dac P(AB) = P(A). Exemplu: S presupunem c avem urmtorul tabel care prezint rezultatele unui sondaj efectuat n 300 de gospodrii cu privire la cumprarea unui televizor cu ecran normal sau cu ecran plat i dac sunt mulumii de ceea ce au cumprat. Tabelul 4.2 Tipul de televizor Cu ecran normal Cu ecran plat Total Da 64 176 240 Satisfcui de achiziie? Nu 16 44 60 Total 80 220 300

Trebuie s se determine dac a fi satisfcut de achiziie i tipul de televizor achiziionat sunt independente din punct de vedere statistic. P(satisfacieecran normal) = P(satisfacie i ecran normal)/P(ecran normal) = (64/300)/(80/300) = 64/80 = 0.8, care este egal cu P(satisfacie) = 240/300 = 0,8 31

De aici rezult c relaia privind independena evenimentelor este satisfcut: cunoaterea unui eveniment nu afecteaz probabilitatea celuilalt eveniment. Regula de multiplicare Formula probabilitii condiionale poate fi tranformat algebric, asfel nct probabilitatea reunit P(A i B) s fie determinat funcie de probabilitatea condiional. P(A i B) = P(AB)P(B) Deci regula de multiplicare afirm c probabilitatea lui A i B este egal cu probabilitatea lui A dat fiind B nmulit cu probabilitea lui B. Exemplu: tim c 80 de familii au cumprat un televizor cu ecran normal. Din tabelul 4.2 se poate observa c 64 sunt satisfcui iar 16 nu. S presupunem c sunt alei, n mod aleatoriu, doi clieni dintre cei 80. Care este probabilitatea ca amndoi s fie satisfcui de achiziie? n acest caz se poate utiliza regula de multiplicare. Dac A = al doilea cumprtor este satisfcut, iar B = primul cumprtor este satisfcut, atunci: P(A i B) = P(AB)P(B) Probabilitatea ca primul cumprtor s fie satisfcut de achiziie este de 64/80. Probabilitatea ca al doilea cumprtor s fie satisfcut depinde de rezultatul primei selecii. Dac primul cumprtor nu este pus la loc n eantion (eantionare fr nlocuire), atunci numrul cumprtorilor rmai este de 79. n acest caz, probabilitatea ca i al doilea cumprtor s fie satisfcut este de 63/79. Atunci, P(A i B) = (63/79)(64/80) = 0,638 n cazul n care dup extragerea primului cumprtor, acesta este introdus la loc n eantion (eantionare cu nlocuire) probabilitatea celui de-al doilea cumprtor de a fi satisfcut este egal cu cea a primului. De aceea, P(A i B) = (64/80)(64/80) = 0,64 Exemplul anterior demonstreaz c a doua extragere este independent de prima, deoarece a doua probabilitate nu este influenat de prima. De aceea, nlocuind P(AB) cu P(A), obinem regula de multiplicare pentru evenimente independente: dac A i B sunt independente din punct de vedere statistic, probabilitatea evenimentului A i B este egal cu produsul dintre probabilitatea lui A i probabilitatea lui B. P(A i B) = P(A)P(B) Rezult de aici c sunt dou modaliti de determinare a independenei statistice: 1. Evenimentele A i B sunt independente dac i numai dac P(AB) = P(A). 2. Evenimentele A i B sunt independente dac i numai dac P(A i B) = P(A)P(B). 32

4.3.

Distribuia de probabilitate pentru o variabil aleatoare discret

Aa dup cum s-a discutat n capitolul 1, o variabil numeric este aceea pentru care rspunsurile sunt exprimate prin cifre. Variabilele numerice pot fi discrete sau continue, primele rezultnd dintr-un proces de numrare, iar celelate dintr-un proces de msurare. Distribuia de probabilitate pentru o variabil aleatoare discret este o list exhaustiv a tuturor rezultatelor numerice posibile ale acelei variabile, construit astfel nct fiecrui rezultat i este asociat proabilitatea de apariie. De exemplu, s considerm numrul de cereri aprobate sptmnal de ctre rectorul unei universiti, aa cum sunt prezentate n tabelul 4.3. Deoarece toate rezultatele posibile sunt incluse n tabel, lista este exhaustiv, iar suma probabilitilor este 1. Tabelul 4.3. Numr de cereri aprobate sptmnal 0 1 2 3 4 5 6 Probabilitatea 0,10 0,10 0,20 0,30 0,15 0,10 0,05

Valoarea ateptat a unei variabile discrete () reprezint media ponderat a tuturor rezultatelor posibile, ponderea fiind probabilitaea rezultatului respectiv. Aceast medie ponderat se obine prin nmulirea fiecrui rezultat posibil X cu probabilitatea corespunztoare P(X), urmat de nsumarea rezultatelor.
N

= E ( X ) = X i P( X i )
i =1

Pentru distribuia de probabilitate a numrului de cereri aprobate sptmnal, valoarea ateptat este calculat dup formula anterioar: = (0)(0,1) + (1)(0,1) +(2)(0,2) +(3)(0,3) +(4)(0,15) +(5)(0,1) +(6)(0,05) = = 0 + 0,1 + 0,4 + 0,9 + 0,6 + 0,5 + 0,3 = 2,8 Trebuie notat faptul c valoarea ateptat a numrului de cereri aprobate, 2,8, nu are neaprat sens, pentru c numrul de cereri aprobate trebuie s fie unul ntreg. Valoarea ateptat reprezint o medie. Variana unei variabile aleatoare discrete (2 ) reprezint media ponderat a ptratului diferenelor dintre fiecare rezultat posibil i medie, ponderea find reprezentat de probabilitatea respectivului rezultat. 33

2 = [ X i E ( X )] 2 P( X i )
i =1

Deviaia standard a unei variabile aleatoare discrete () este obinut prin extragerea radicalului din varian.

[ X
i =1

E ( X )] 2 P ( X i )

Variana i deviaia standard pentru cererile aprobate pe sptmn se calculeaz astfel: 2 = (0 2,8)2(0,1) + (1 2,8)2(0,1) + ( 2 2,8)2(0,2) + (3 2,8)2(0,3) + (4 2,8)2(0,15) + (5 2,8)2(0,1) + (6 2,8)2(0,05) = 0,784 + 0,324 + 0,128 + 0,012 + 0,296 + 0,484 + 0,512 = 2,46 = 1,57 4.4. Distribuia binomial

Atunci cnd exist o expresie matematic pentru o variabila aleatorie, poate fi calculat probabilitatea de apariie a unui anumit rezultat. n astfel de cazuri ntreaga distribuie de probabilitate poate fi calculat i prezentat. De exemplu, funcia de distribuie a probabilitii de selecie a unui numr dintr-un tabel cu numere aleatoare este uniform. Principala caracteristic a unei distribuii uniforme este c orice rezultat al unei variabile aleatorii are aceeai ans de apariie. Astfel, probabilitatea extragerii unui numr de o cifr este aceeai 1/10 deoarece sunt posibile 10 rezultate. Au fost dezvoltate mai multe modele de distribuii a diverse variabile care apar n tiinele sociale, n tiinele naturale sau n administrarea afacerilor. Unul dintre cele mai utilizate modele este reprezentat de distribuia binomial. Proprietile distribuiei binomiale: 1. Eantionul const ntr-un anumit numr de observaii, n. 2. Fiecare observaie poate fi clasificat doar n dou categorii, care sunt mutual exclusive i colectiv exhaustive, care n general sunt numite succes i eec. 3. Probabilitatea ca o observaie s fie clasificat ca succes, p, este constant de la o observaie la alta. La fel, probabilitatea ca o observaie s fie clasificat ca eec, 1 p, este constant pentru toate observaiile. 4. Rezultatul (succes sau eec) uneiobservaii este independent de rezultatul oricrei alte observaii. Formula distribuiei binomiale:
n P ( X ) = C X p X (1 p) n X

Unde: n CXn reprezint combinaii de n luate cte X: C X =

n! X !( n X )!

n reprezint mrimea eantionului, iar n! (numit n factorial) este produsul n(n-1)(n-2)....1 34

p reprezint probabilitatea de succes a fiecrei ncercri 1-p reprezint probabilitatea de eec a fiecrei ncercri X reprezint numrul de succese din eantion
n! p X (1 p ) n X X !( n X )!

Atunci, P ( X ) =

Caracateristicile unei distribuii binomiale De fiecare dat cnd un set de parametrii (n i p) este specificat, se genereaz o anumit distribuie binomial. Forma. O distribuie binomial poate fi simetric sau nclinat. Atunci cnd p = 0,5, distribuia binomial va fi simetric, indiferent de valoarea lui n. Atunci cnd p 0,5, distribuia va fi nclinat. Cu ct p este mai apropiat de 0,5 i cu ct este mai mare numrul de observaii n, cu att mai puin nclinat va fi distribuia. Media unei distribuii binomiale se obine prin nmulirea celor doi parametrii, n i p. = E(X) = np Deviaia standard a unei distribuii binomiale se calculeaz dup formula:
= 2 = np (1 p )

Exemplu: Dac experimentul const n aruncarea o singur dat a unei monede i suntem interesai de obinerea stemei, atunci, aplicnd formula distribuiei binomiale P(X=1) = 0,51(1-0,5)1-1 1!/[1!(1-1)!] = 0,5(1)(1) = 0,5 Distribuia binomial poate fi scris sub forma urmtorului tabel X 0 1 P(X) 0,5 0,5 Rezultat ban stem

Dac experimentul const n aruncarea de dou ori a unei monede i suntem interesai de obinerea unei steme, atunci P(X=1) = 0,51(1-0,5)2-1 1!/[1!(2-1)!] = 0,5(0,5)2(1)/1 = 0,25(2) = 0,5 Distribuia binomial poate fi scris sub forma urmtorului tabel X 0 1 2 P(X) 0,25 0,50 0,25 Rezultat ban, ban ban, stem stem, stem

Deci sunt 50% anse ca din 2 aruncri ale unei monede s obinem o stem. Care este probabilitatea ca din 12 aruncri ale unei monede s se obin de 5 ori stem? 35

n aceast situaie sunt 792 de posibiliti de a obine 5 steme din 12 aruncri (combinaii de 12 luate cte 5) Astfel: n = 12, X = 5, p = 0,5 P(X = 5) = [(121110987654321)/(54321)(7654321)]0,55(1 0,5)7 = = 7920,031250,0078124 = 0,19335 Deci probabilitatea de a obtine 5 steme din 12 aruncri ale unei monede este de aproximativ 19%. Dac vom ncerca s construim o distribuie a probabilitii pentru 12 aruncri ale monedei vom obine: X 0 1 2 3 4 5 6 7 8 9 10 11 12 P(X) 0,00024 0,00292 0,01611 ... ... 0,19335 0,22558 0,19335 ... ... 0,01611 0,00292 0,00024 Rezultat de 12 ori ban o dat stem, de 11 ori ban de 2 ori stem de, de 10 ori ban de 3 ori stem de, de 9 ori ban de 4 ori stem de, de 8 ori ban de 5 ori stem de, de 7 ori ban de 6 ori stem de, de 6 ori ban de 7 ori stem de, de 5 ori ban de 8 ori stem de, de 4 ori ban de 9 ori stem de, de 3 ori ban de 10 ori stem de, de 2 ori ban de 11 ori stem de, o dat ban de 12 ori stem

Care este probabilitatea de a obine cel puin 10 steme? P(X10) = P(X=10) + P(X=11) + P(X=12) = 0,016 + 0,0029 + 0,0002 = 0,019 Adic sunt 1,9% anse ca din 12 aruncri s obinem cel puin 10 steme. Media unui experiment care const n aruncarea unei monede de 12 ori este: = np = 0,5(12) = 6 Deviaia standard este:
= np (1 p ) = 12 0,5(1 0,5) = 3 =1,73

Cum se interpreteaz aceste rezultate? Dac se repet experimentul de foarte multe ori, cea mai probabil medie, adic cel mai probabil rezultat dup 12 aruncri ale monedei este de 6 ori stem i de 6 ori ban. Conform regulii empirice, sunt 68% anse ca rezultatul s se afle n intervalul medie deviaia standard, adic 6 1,73. nseman este o probabilitate de 68% ca dup 12 aruncri ale monedei s obinem 5, 6 sau 7 steme, care sunt valorile cuprinse ntre 4,27 i 7,73. Exerciii 1. Se d urmtorul tabel: 36

B B Total A 10 20 30 A 20 40 60 Total 30 60 90 Care este probabilitatea: a. Evenimentului A b. Evenimentului B c. Evenimentului A d. Evenimentului A i B e. Evenimentului A i B f. Evenimentului A i B g. Evenimentului A sau B h. Evenimentului A sau B i. Evenimentului A sau B 2. n ultimii ani, bncile au fcut eforturi deosebite pentru ca studenii s i deschid conturi. S presupunem c am extras un eantion de 200 de studeni care posed un card de credit obinuit i/sau un card de credit pentru cltorii: Card de credit pentru cltorii Card de credit obinuit Da Nu Total Da 60 60 120 Nu 15 65 80 Total 75 125 200 a. Dai un exemplu de eveniment simplu b. Dai un exemplu de eveniment reunit c. Care este complementul evenimentului de a avea un card de credit obinuit? d. De ce a avea un card de credit obinuit i un card de credit pentru cltorii este eveniment reunit? e. Construii diagrama Venn asociat tabelului. Dac este selectat la ntmplare un student, care este probabilitatea ca: f. studentul s aib un card de credit? g. studentul s aib un card de credit pentru cltorii? h. studentul s aib un card de credit i un card de credit pentru cltorii? i. studentul sa nu aib nici card de credit i nici card de credit pentru cltorii? j. studentul s aib un card de credit sau un card de credit pentru cltorii? k. studentul s nu aib un card de credit sau s aib un card de credit pentru cltorii? 3. Se da urmatorul tabel: 37

B B A 10 30 A 25 35 a. Care este probabilitatea lui A dat fiind B? b. Care este probabilitatea lui A dat fiind B? c. Care este probabilitatea lui A dat fiind B? d. A si B sunt independente din punct de vedere statistic? 4. Dat fiind tabelul de la problema 2, a. Presupunnd c se cunoate faptul ca un student are un card de credit, care este probabilitatea ca el s aib un card de credit pentru cltorii? b. Presupunnd c se cunoate faptul ca un student nu are un card de credit pentru cltorii, care este probabilitatea ca el s aiba un card de credit? c. Cele doua evenimente, a avea un card de credit i a avea un card de credit pentru cltorii, sunt independente din punct de vedere statistic? Explicai. 5. S presupunem c avem un pachet de cri de joc. n interiorul su sunt patru suite (pic, trefl, cup i caro), fiecare avnd 13 valori (as, 2, 3, ..., regin, pop). Acest pachet de cri de joc este amestecat, iar dumneavoastr primii primele dou cri, fr nlocuire. a. Care este probabilitatea ca ambele cri s fie regine? b. Care este probabilitatea ca prima carte s fie un 10 i a doua carte s fie un 5 sau un 6? c. Dac extragerea ar avea loc cu nlocuire, care ar fi rspunsul la punctul a? d. n jocul numit Blackjack, figurile (valet, dam, pop) au cte 10 puncte, asul are fie 1 fie 11 puncte, iar celelalte cri au attea puncte cte indic cifra de pe ele. Realizezi un blackjack dac cele dou cri pe care le ai totalizeaz 21 de puncte. Care este probabilitatea de a realiza un blackjack n aceast problem? 6. Tabelul urmtor prezint distribuia probabilitii accidentelor de circulaie dintr-un ora. Numr zilnic de accidente P(X) 0 0,10 1 0,20 2 0,45 3 0,15 4 0,05 5 0,05 a. calculai media sau numrul ateptat de accidente dintr-o zi b. calculai deviaia standard

38

7. Un student trebuie s susin un examen sub form de gril, n care la fiecare ntrebare trebuie s aleag ntre patru rspunsuri posibile. Presupunnd c nu are nici cea mai mic idee despre rspunsurile corecte, el hotrte s marcheze aleator rspunsul de la fiecare ntrebare. La acel examen exist cinci ntrebri. a. care este probabilitatea ca toate cele cinci rspunsuri s fie corecte? b. care este probabilitatea de a obine cel puin patru rspunsuri corecte? c. care este probabilitatea ca nici unul dintre rspunsuri s nu fie corect? d. care este probabilitatea de a obine cel mult dou rspunsuri corecte? e. care este media i deviaia standard a acestui experiment? f. presupunnd c grila de examinare conine 10 de ntrebri i trebuie 5 rspunsuri corecte pentru a lua examenul, care va fi probabilitatea de a trece examenul urmnd aceeai strategie? 8. Pentru cei care au magazine electronice, pe internet, s aib un vizitator pe site nu este suficient. Vnztorii trebuie s-i persuadeze clienii online pentru ca acetia s cumpere. Experii estimeaz c 88% dintre cumprtorii de pe internet abandoneaz tranzacia nainte de terminarea ei. Conisdernd un eantion de 20 de cumprtori care viziteaz un magazin electronic, iar probabilitatea ca unul dintre acetia s abandoneze site-ul nainte de a cumpra ceva este de 0,88, utilizai modelul binomial pentru a rspunde la urmtoarele ntrebri: a. Care este valoarea ateptat sau media distribuiei binomiale? b. Care este deviaia standard a distribuiei binomiale? c. Care este probabilitatea ca toi cumprtorii s plece de site nainte de a finaliza tranzacia? d. Care este posibilitatea ca cel puin 18 cumprtorii s plece de site nainte de a finaliza tranzacia? e. Care este probabilitea ca cel puin 15 cumprtorii s plece de site nainte de a finaliza tranzacia? f. Dac site-ul este mbuntit i doar 70% dintre clieni nu ncheie tranzacia, cum va modifica acest lucru rspunsurile la ntrebrile a e?

39

5. Distribuia normal i distribuia eantioanelor Acest capitol trateaz cea mai important distribuie din statistic, distribuia normal, care implic o variabil continu. Distribuia normal, numit uneori i distribuie gaussian, este una dintre multele distribuii continue rezultate din procesul de msurare a variabilelor. Histogramele datelor obinute de la un eantion sunt de multe ori apropiate de forma unui clopot. n asemenea cazuri se spune c variabila este aproximativ normal distribuit. Principalul motiv care face din aceast curb cea mai important distribuie din statistic este faptul c cele mai multe metode ale inferenei statistice utilizeaz proprietile distribuiei normale chiar i atunci cnd datele din eantion nu sunt distribuite sub form de clopot. 5.1. Distribuia normal

Atunci cnd exist o expresie matematic pentru a reprezenta o variabil continu, se poate calcula probabilitatea ca anumite valori s apar n anumite intervale. Cu tote acestea, probabilitatea exact a unei anumite valori dintr-o distribuie continu este zero. Proprieti ale distribuiei normale: 1. 2. 3. 4. Are o form simetric, de clopot. Toate msurile tendinei centrale (media, mediana i modul) sunt egale ntre ele. Distana interquartilic este cuprins ntre dou treimi de deviaie stanadard sub medie i dou treimi de deviaie standard dincolo de medie. Este asociat cu o variabil aleatoare care are o amplitudine infinit (- < X < ). Expresia matematic a funciei de densitate a probabilitii este notat cu f(x) i este dat de urmtoarea formul:
f (X ) =
2 1 e (1 / 2 )[( X ) / ] 2

n care: e = constanta matematic 2,71828 = constanta matematic 3,14159 = media populaiei = deviaia standard a populaiei X = orice valoare a variabilei continue, unde - < X < Deoarece e i sunt constante matematice, probabilitile asociate unei vatiabile aleatoare sunt dependente doar de doi parametrii ai distribuiei normale: media populaiei, , i deviaia standard a populaiei, . De fiecare dat cnd exist o anumit combinaie de i , va rezulta o distribuie normal 40

diferit, dup cum se poate observa n figura 5.1. Curbele A, B i C au aceai medie, dar au deviaii standard diferite. Curba D difer de celelelate att n privina mediei ct i n cea a deviaiei standard.

Fig. 5.1. Din pcate, expresia matematic a distribuiei normale este greu de calculat. Pentru a evita astfel de calcule se pot folosi un set tabele care ofer probabilitile necesare. Deoarece exist un numr infinit de valori pentru combinaiile dintre i , ar fi necesar un numr infinit de astfel de tabele. ns, prin ceea ce se numete standardizare, este necesar doar un singur tabel. Prin utilizarea formulei de transformare, orice variabil aleatoare X este transformat ntr-o variabil normal standardizat Z. Formula de transformare afirm c valoarea lui Z este egal cu diferena dintre X i media populaiei mprit la deviaia statndard . Z = (X - )/ Dei forma original a variabilei X avea media i deviaia standard , variabila standardizat Z are ntotdeauna media = 0 i deviaia standard = 1. Astfel, orice set de date normal distribuite pot fi convertite ntr-o form standardizat, iar orice probabilitate poate fi determinat dintr-un tabel al distribuiei normale standardizate, ca cel din anexa 1. Pentru a nelege modul de aplicare a formulei de transformare s considerm urmtorul exemplu: o firm de comer electronic, care este interesat de un acces ct mai rapid la propriul site, a constatat c downloadarea paginii sale de acces dureaz n medie 7 secunde, cu o deviaie standard de 2 secunde. Din figura 5.2. se poate observa c fiecrui X de pe scala iniial i corespunde un Z obinut prin formula de transformare.

41

Fig. 5.2. Astfel, pentru un timp de downloadare de 9 secunde, echivalentul standardizat este 1 (cu o deviaie standard deasupra mediei) deoarece Z = (9 7)/ 2 = 1. Iar pentru un timp de downloadare de o secund (3 deviaii standard sub medie) Z = (1 -7)/ 2 = -3. Astfel, deviaia standard a devenit unitatea de msur. S presupunem acum c se dorete s se afle care este probabilitatea ca timpul de downloadare a siteului s fie mai mic de 9 secunde. Pentru c 9 secunde se afl la o deviaie standard deasupra mediei, este necesar s aflm valoarea Z pentru care timpul de downloadare este mai mic de o deviaie standard. Tabelul din anexa 1 prezint probabilitile cumulative sau aria de sub aria de sub curba normal standardizat calculat pentru un anumit Z. Pentru a utiliza acest tabel, Z trebuie nregistrat cu dou zecimale. Astfel, pentru a determina probabilitatea sau aria de sub curb pentru Z = +1,00, trebuie cobort pe prima coloan pn se ajunge la valoarea ntreag a lui Z, adic 1. Apoi, la intersecia liniei Z = 1, cu coloana 0.00, se va gsi probabilitatea cutat: 0,8413. Adic sunt 84,13% anse ca downloadarea s dureze mai puin de 9 secunde. Aceasta este suprafaa de sub curba normal de la - la 1 (figura 5.2). Exemplul 1. Dac se dorete aflarea probabilitii ca timpul de dowloadare s fie mai mic de o secund, se procedeaz n mod similar. Trebuie calculat aria de sub curba normal standardizat aflat la stanga valorii lui Z calculat cu ajutorul formulei de transformare (Z = -3,00). Folosind tabelul din anexa 1, la intersecia liniei Z = -3 cu coloana .00 se va afla P(X <1) = 0,0013. Cu alte cuvinte, sunt 0,13% anse ca timpul de downloadare s fie mai mic de o secund. 42

Exemplul 2. Care este probabilitatea ca timpul de downloadare s fie mai mare de 9 secunde? Pentru c probabilitatea ca timpul de downloadare s fie mai mic de 9 secunde a fost deja determinat, privind figura 5.2 se opoate observa c valoarea cutat este complementul acesteia, adic suprafaa de sub curba normal de la X = 9 (Z = 1) pn la : P(X > 9) = 1 8413 = 0,1587. Exemplul 3. Care este probabilitatea ca timpul de downloadare s fie mai mare de o secund, dar mai mic de 9 secunde? n acest caz, probabilitatea cutat va fi egal cu suprafaa de sub curba normal cuprins ntre X = 1 i X = 9. Pentru c P(X <1) i P(X > 9) au fost deja calculate, probabilitatea ce trebuie calculat va fi complementul sumei celor dou probaibliti: P(1 < X < 9) = 1- [P(X <1) + P(X > 9)] = 1 (0,0013 + 0,1587) = 0,84 Pentru a gsi o anumit valoare asociat cu o probabilitate cunoscut, se procedeaz n modul urmtor: 1. Se schieaz curba normal i se plaseaz valorile pentru medie pe scalele lui X i Z. 2. Se gsete aria cumulativ situat pn la X. 3. Se haureaz acea arie. 4. Utiliznd tabelul din anexa 1 se determin valoarea lui Z corespunztoare ariei de sub curba normal de pn la X. 5. Se calculeaz X din ecuaia de transformare: Z = (X - )/ X = + Z Exemplul 4. Care este timpul necesar (n secunde) pentru ca 10% dintre pagini s se downloadeze? Pentru c n 10% din cazuri este de ateptat ca pagina s se downloadeze n mai puin de X secunde, aria de sub curba normal pentru acest Z trebuie sa fie mai mic de 0,1000. Utiliznd tabelul din anexa 1, se observ c cea mai apropiat valoare de 0,1000 este 0,1003, care se gsete la intersecia liniei Z = -1,2 cu coloana 0,08. Deci Z = - 1,28. n aceast situaie, X = 7 + (-1,28)(2) = 4,44 secunde. Astfel, ne putem atepta ca n 10% din cazuri pagina de internet s se downloadeze n mai puin de 4,44 secunde. Exemplul 5. Care sunt valorile minim i maxim a lui X, valori situate simetric fa de medie, care vor include 95% dintre timpii de downloadare? Pentru c 95% dintre valori sunt situate ntre Xmin i Xmax, i Xmin i Xmax se afl la distane egale de medie, nseamn 2,5% dintre valori sunt mai mici dect Xmin. Cutnd n tabelul din anexa 1 valoarea 0,0250, o gsim la intersecia lui liniei Z = -1,9 i coloanei 0,06. Deci Zmin = -1,96. Rezult c X = 7 + (-1,96)(2) = 3,08 secunde. Pentru a afla Xmax, trebuie gsit Z pentru care sub curba normal se afl 97,5% dintre cazuri. Din tabel, aceast valoare o gsim la intersecia cliniei Z = 1,9 i a coloanei 0,06. Deci Z = 1,96. Prin urmare, X = 7 + (1,96)(2) = 10,92 secunde. nseamn c n 95% dintre cazuri, timpul de downloadare va fi ntre 3,08 i 10,92 secunde. 43

5.2.

Distribuia eantioanelor

Un scop important al analizei statistice este de a face inferene, adic de a utiliza media eantionului sau proporia eantionului pentru a estima parametrii corespunztori ai ntregii populaii. Principala problem n utilizarea inferenei statistice este s se trag concluzii despre populaie i nu despre eantion. De exemplu, un sondaj de opinie despre intenia de vot a cetenilor folosete eantionul doar ca o cale de a afla cum vor fi distribuite voturile n rndul ntregului electorat. Valorile determinate doar pentru eantion nu au o valoare prea mare n sine. n mod ipotetic, utilizarea datelelor statistice ale unui eantion pentru estimarea parametrilor populaiei ar necesita examinarea tuturor eantioanelor posibile din acea populaie. Cnd o astfel de selecie de eantioane este fcut, distribuia rezultatelor astfel obinute este numit distribuia eantioanelor. Spre deosebire de distribuiile studiate pn n acest moment, o distribuie a eantioanelor nu se refer observaii individuale, ci la valori statistice calculate n urma culegerii observaiilor, eantion dup eantion. Construcia unei distribuii a eantioanelor Cteodat este posibil de construit o distribuie de aantioane fr a recurge la simulri matematice complexe. Pentru a ilustra aceasta, se va construi distribuia eantioanelor de patru persoane dintr-o populaie n care jumtate favorizeaz candidatul liberal la preedenie, iar cealalt jumtate favorizeaz candidatul social-democrat. Pentru fiecare subiect se va defini variabila X care reprezint preferina pentru un anumit candidat: X = 1, dac subiectul prefer candidatul liberal X = 0, dac subiectul prefer candidatul social-democrat Cele patru rezultate posibile dintr-un eantion vor fi plasate ntr-o parantez, dup modelul urmtor: (1,0,0,1). Aceasta ar nsemna c primul i ultimul respondent prefer candidatul liberal, iar al doilea i al treilea l prefer pe cel social-democrat. S presupunem c s-au extras 16 eantioane: (1,1,1,1) (1,1,1,0) (1,1,0,1) (1,0,1,1) (0,1,1,1) (1,1,0,0) (1,0,1,0) (1,0,0,1) (0,1,1,0) (0,1,0,1) (0,0,1,1) (1,0,0,0) (0,1,0,0) (0,0,1,0) (0,0,0,1) (0,0,0,0) Eantioanele ar fi corecte dac jumtate din populaie l-ar prefera pe fiecare dintre candidai. Acum se poate construi distribuia de eantioane pentru proporia celor care l prefer pe candidatul liberal. Pentru un eantion de 4, aceast proporie poate fi 0, 0,25, 0,5, 0,75 i 1. Proporia 0 rezult doar pentru unul dintre cele 16 eantioane, (0,0,0,0), aa c probabilitatea acestui eantion este de 1/16 = 0,0625. Proporia de 0,25 apare n patru eantioane, (1,0,0,0), (0,1,0,0), (0,0,1,0) i (0,0,0,1), aa c probabilitatea 44

unui astfel de eantion este de 4/16 = 0,25. n mod similar se poate construi probabilitatea fiecrei proporii, aa cum se poate vedea n tabelul urmtor. Proporia n eantion Probabilitatea 0,00 0,0625 0,25 0,2500 0,50 0,3750 0,75 0,2500 1,00 0,0625 Distribuiile de eantioane reflect variabilitatea care apare atunci cnd se colecteaz date de la eantioane i se utilizeaz informaiile statistice pentru a estima parametrii. Dac patru organizaii de sondare a opiniei publice ar face patru anchete, fiecare cu eantionul ei, ar trebui s obin rezultate diferite, pentru c eantioanele sunt diferite. n practic, dac se lucreaz profesionist, rezultatele nu ar trebui s fie foarte diferite. O distribuie a eantioanelor unei informaii statistice bazate pe n observaii reprezint distribuia frecvenelor relative ale acelei informaii statistice, rezultat n urma extragerii repetate a unor eantioane de dimensiunea n, de fiecare dat calculndu-se valoarea statistic de interes. Este posibil de construit o astfel de distribuie n mod empiric, la fel ca n exemplul anterior. n practic, nu este necesar s se extrag eantioane n mod repetat pentru a genera distribuii de eantioane. Forma distribuiei eantioanelor este cunoscut din punct de vedere teoretic, astfel nct se pot face afirmaii despre valoarea unei informaii statistice pornind doar de la un singur eantion de o anumit dimensiune. 5. 3. Distribuia mediei eantioanelor n capitolul 3 au fost discutate cteva msuri ale tendinei centrale. Cea mai utilizat dintre acestea este media aritmetic. Media aritmetic este i cea mai bun msur pentru o distribuie care se presupune c este normal. Atunci cnd se colecteaz informaii i se calculeaz media unui eantion, X , nu se tie ct de aproape se situeaz aceast valoare de media populaiei, , pentru c nu se cunoate aceast ultim valoare. Totui, folosind distribuia eantioanelor se poate prezice eroarea de estimare. De exemplu, distribuia eantioanelor poate indica faptul c este o probabilitate mare ca X s se situeze la, s zicem, 10 uniti nainte sau dup . Media eantionului, X , este o variabil care i modific valoarea de la eantion la eantion. Pentru eantioane aleatorii, ea fluctueaz n jurul mediei populaiei, , cteodat fiind mai mare, alteori fiind mai mic. De fapt, media distribuiei eantioanelor este egal cu media populaiei, . Dac se extrag n mod repetat eantioane, pe termen foarte lung, media mediilor eantioanelor va egala media populaiei.

45

Eroarea standard a distribuiei mediei eantioanelor descrie mprtierea acestor valori de la un eantion la altul. Valoarea ei rezult din extragerea repetat a unor eantioane, calcularea mediei X pentru fiecare eantion i apoi prin calcularea deviaiei standard a mediilor. Simbolul utilizat, X n loc de , i terminologia utilizat, eroare standard n loc de deviaie standard, disting aceast msur statistic de deviaia standard a unei distribuii obinuite. Eroarea standard a mediei, X , este egal cu deviaia standard a populaiei, , mprit la rdcina ptrat a mrimii eantionului, n:
X = n

Astfel, mprtierea distribuiei eantioanelor depinde de mrimea eantionului i de mprtierea existent n cadrul populaiei. De aceea, pe msur ce dimensiunea eantionului crete, eroarea standard a mediei descrete cu un factor egal cu rdcina ptrat a mrimii eantionului (figura 5.3.).

Fig. 5.3. Teorema limitei centrale, care se bazeaz pe constatrile anterioare, afirm c pe msur ce mrimea eantionului, n, crete, distribuia mediilor eantioanelor, X , se apropie de distribuia normal. Aceast teorem are cteva consecine foarte importante: Distribuia aproximativ normal a mediei eantioanelor este valabil indiferent de forma distribuiei populaiei (figura 5.4.) Distribuia eantioanelor ia o form din ce n ce mai apropiat de cea normal pe msur ce n crete. Ct de mare trebuie s fie eantionul pentru ca distribuia mediilor s se apropie de cea normal, depinde de gradul de nclinare a distribuiei populaiei. Cu ct nclinarea este mai mare, cu att este necesar un eantion mai mare. n cele mai multe cazuri, un eantion de 25 30 este suficient pentru o bun aproximaie.

46

Figura 5.4. Dei un eantion de aproximativ 30 este n general suficient de mare pentru ca distribuia mediilor s fie apropiat de normal, acest lucru nu nseamn c 30 de cazuri sunt suficiente pentru o inferen statistic suficient de precis. Obinerea lui Z pentru distribuia mediilor eantioanelor. Valoare lui Z este egal cu diferena dintre media eantionului X i media populaiei , mprit la eroarea standard a mediei X :
Z= X X

X n

Exemplul 1. S presupunem c suntem managerul unei firme alimentare, iar echipamentul de ambalare umple cutiile de cereale dup o distribuie normal, cu o medie de 358g pentru fiecare cutie. Din experiena anterioar se tie c deviaia standard a populaiei n procesul de umplere este de 15g. Dac se extrage un eantion aleator de 25 de cutii i este calculat greutatea medie, ce rezultat ar fi de ateptat? Ct credei c va fi media eantionului: 368g, 200g, 365g? Eantionul este ca o reprezentare n miniatur a populaiei, iar dac valorile populaiei sunt normal distribuite, valorile din eantion ar trebui s fie i ele aproximativ normal distribuite. Astfel, dac media populaiei este de 368g, media eantionului are anse mari de a fi apropiat de 368g.

47

Mai departe, cum s-ar putea determina probabilitatea ca greutatea medie a celor 25 de cutii s fie mai mic de 365g? De la distribuia normal se tie c aria mai mic dect orice valoare a lui X poate fi determinat convertind pe X n valori standardizate Z i gsind valoare corespunztoare din tabelul distribuiei normale:
Z = X 365 368 3 = = 1,00 15 3 25

Aria corespunztoare lui Z = -1 din tabelul anexei 1 este 0,1587. Aceasta nseamn c 15,87% din toate eantioanele posibile de 25 de cutii au o medie pe eantion de sub 365g. Nu este acelai lucru cu a spune c acesta ar fi procentul cutiilor cu o greutate mai mic de 365g. Acest procent poate fi calculat astfel:
Z = X 365 368 = = 0,20 15

Aria corespunztoare lui Z = -0,20 este de 0,4207. Deci este de ateptat ca 42,07% dintre cutii s aib mai puin de 365g. Comparnd rezultatele se poate observa c mai multe cutii dect media eantioanelor vor avea mai puin de 365g. Acest rezultat poate fi explicat prin faptul c procesul de calcul al mediei dilueaz importana valorilor individuale. Astfel, ansa ca media unui eantion de 25 de cutii s fie departe de media populaiei va fi mai mic dect ansa unei anumite cutii. Exemplul 2. Cum este afectat eroarea standard a mediei de creterea eantionului de cutii de la 25 la 100 de buci? Dac n = 25, atunci:
X = 15 15 = = = 3,0 5 n 25

Dac n = 100, atunci:


X = 15 15 = = = 1,5 n 100 10

Se poate observa c urmare a creterii mrimii eantionului de la 25 la 100, eroarea standard a sczut la jumtate: de la 3 la 1,5 grame. Aceasta demonstreaz c extrtagerea unor eantioane mai mari va duce la o variabilitate mai redus a mediilor eantioanelor de la un eantion la altul. Exemplul 3. Dac este extras un eantion de 100 de cutii, care este ansa de a obine o medie a eantionului mai mic de 365g?

48

Z =

365 368 3 = = 2,00 15 1,5 100

Din tabelul anexei 1, aria pentru un Z mai mic dect 2 este 0,0228. Aceasta nseamn c ne putem atepta ca 2,28% dintre eantioanele de 100 de buci s aib mai puin de 365g, comparativ cu 15,87% pentru eantioanele de 25. Cteodat este necesar s se afle intervalul n care va cdea o proporie de medii ale eantioanelor. Similar exemplelor de la seciunea anterioar, distana dintre valoarea inferioar mediei i cea superiaor mediei va conine aria de sub curba normal care trebuie determinat.
ZI = XI unde ZI = -Z n

ZS =

X S

unde ZS =+Z
, iar n
n

Astfel, X I = Z
XS = +Z

Exemplul 4. S se determine un interval situat n jurul mediei populaiei care va include 95% dintre mediile eantioanelor, pentru un eantion de 25 de cutii. Dac 95% este divizat n dou pri egale, situate simetric dedesubtul i deasupra mediei, valoarea lui ZI corespunztoare unei arii de 0,0250 este, conform tabelului din anexa 1, -1,96, iar valoare lui ZS, corespunztoare unei arii de 0,975 este +1,96. Atunci, valorile inferioar i superioar ale lui X vor fi:
X I = 368 1,96 X S = 368 + 1,96 15 = 368 5,88 = 362 ,12 25 15 = 368 + 5,88 = 373 ,88 25

Astfel, 95% dintre mediile eantioanelor bazate pe eantioane de 25 de cutii vor fi situate ntre 362,12 g i 373,88g. 5.4. Distribuia proporiei eantioanelor

49

Atunci cnd se lucreaz cu variabile categorice, situaie n care fiecare individ sau fiecare item din cadrul populaiei este clasificat ca avnd sau nu o anumit caracteristic (s fie brbat sau femeie, s prefere candidatul A sau candidatul B) cele dou rezultate posibile sunt 1 sau 0, care reprezint prezena sau absena respectivei caracteristici. Dac este disponibil un singur eantion de n indivizi, atunci media eantionului pentru o astfel de variabil va fi obinut prin nsumarea tuturor cifrelor de 1 i 0 i mprirea rezultatului la n. De exemplu, dac ntr-un eantion de 5 indivizi, 3 l prefer pe candidatul A i 2 nu l prefer, atuci suma scorurilor va fi 3, mprit la 5 va rezulta 0,6. Aceasta este proporia indivizilor din eantion care l prefer pe candidatul A. De aceea, atunci cnd se lucreaz cu variabile categorice, media eantionului (rezultat din scoruri de 1 i 0) reprezint proporia eantionului pe. Astfel, proporia eantionuui este:
pe = X n

Proporia unui eantion are o proprietate special: ia valori ntre 0 i 1. Dac toi indivizii posed aceeai proprietate, fiecare avnd astfel scorul 1, pe va fi 1. Dac jumtate din eantion posed acea proprietate i jumtate nu o posed, pe va fi 0,5, iar dac nici un individ nu posed proprietatea, pe va fi 0. Prin analogie cu distribuia mediei eantioanelor, eroarea standard a proporiei se poate calcula cu urmtoarea formul:
p =
e

p (1 p ) n

Atunci cnd se exrag eantioane dintr-o populaie finit, cu nlocuire, distribuia proporiei eantioanelor este binomial. Totui, distribuia normal poate fi utilizat pentru a aproxima distribuia binomial atunci cnd produsele np i n(1-p) sunt cel puin 5. n cele mai multe cazuri n care se fac inferene despre proporii, mrimea eantionului este suficient de mare pentru ca distribuia s poat fi aproximat ca fiind normal. Astfel, n multe cazuri, distribuia normal poate fi utilizat pentru a evalua distibuia proporiei eantioanelor. Dac n ecuaia
pe p p (1 p ) n
Z= X X X se nlocuiete X cu pe, cu p i cu n n

p (1 p ) , atunci n

Z =

Exemplu S presupunem c directorul unei bnci a constatat c 40% dintre cei care i pstreaz economiile la acea banc posed mai multe conturi. Dac ar selecta un eantion aleator de 200 de clieni, care este probabilitatea ca proporia eantionului de clieni ce au mai multe conturi s fie mai mic de 0,30? 50

Deoarece np = 200(0,40) = 80 > 5 i n(1 p) = 200(0,60) = 120 > 5, distribuia proporiei eantionului poate fi considerat ca aproximativ normal. n acest caz,
Z= pe p p (1 p ) n = 0,30 0,40 (0,40 )( 0,60 ) 200 = 0,10 0,24 200 = 0,10 = 2,89 0,0346

Utiliznd tabelul din anexa 1, aria de sub curba normal de pn la Z = -2,89 este de 0,0019. Astfel, probabilitatea de a obine o proporie a eantionului mai mic de 0,30 este de 0,19%, ceea ce nseamn c evenimentul este foarte puin probabil. Aceasta nseamn c dac proporia adevrat din cadrul populaiei este de 0,4, atunci este de ateptat ca mai puin de o cincime din eantioanele de mrime 200 s aib proporii mai mici dect 0,3 Exerciii 1. Dat fiind o distribuie normal cu media de 50 i deviaia standard de 4, care este probabilitatea ca: a. X > 43? b. X < 42? c. 42 < X < 48? d. X > 57,5? e. X < 40 sau X > 55? f. 5% dintre valori s fie mai mici dect X? g. 60% dintre valori s se afle ntre dou valori ale lui X, situate simetric fa de medie? h. 85% dintre valori s fie mai mari dect X? 2. O firm de transport a determinat c distana parcurs anual de fiecare camion este normal distribuit, cu o medie de 50000 km i o deviaie standard de 12000 km. a. Care este proporia camioanelor care ar putea face ntre 34000 i 50000 km ntr-un an? b. Care este probabilitatea ca un camion ales aleator s fac ntre 34000 i 38000 km pe an? c. Care este procentul camioanelor care vor face sub 30000 sau peste 60000 km pe an? d. Care este procentul camioanelor care vor face ntre 30000 i 60000 km pe an? e. Ci km vor face cel puin 80% dintre camioane? f. Care vor fi rspunsurile la ntrebrile a e dac deviaia standard ar fi 10000km? 3. Se constat c notele finale la un examen de statistic sunt normal distribuite i cu o medie de 7,3 i o deviaie standard de 0,8. a. Care este probabilitatea de a obine cel mult 9,1 la acest examen? b. Care este procentul de studeni cu note ntre 6,5 i 8,9? c. Care este procentul de studeni cu note cuprinse ntre 8,1 i 8,9? 51

d. Doar 5% dintre studeni obin o not mai mare dect ce valoare? e. n ce situaie eti mai bine situat fa de colegii ti: atunci cnd obii 8,1 puncte la acest examen sau atunci cnd obii 6,8 puncte la un examen a crui medie este 6,2 iar deviaia standard este 3? 4. Timpul utilizat pentru consultarea e-mailului este normal distribuit, cu = 8 minute i = 2 minute. a. dac sunt extrase eantioane aleatorii de 25 de sesiuni, care este proporia mediilor eantioanelor care sunt cuprinse ntre 7,8 i 8,2 minute? b. dac sunt extrase eantioane aleatorii de 25 de sesiuni, care este proporia mediilor eantioanelor care sunt cuprinse ntre 7,5 i 8 minute? c. dac sunt extrase eantioane aleatorii de 100 de sesiuni, care este proporia mediilor eantioanelor care sunt cuprinse ntre 7,8 i 8,2 minute? d. explicai diferena dintre rezultatele de la punctul a i punctul c e. ce are anse mai mari de apariie: o anumit sesiune de consultare a e-mailului care s fie mai lung de 11 minute, o medie a unui eantion care s fie mai mare de 9 minute dintr-un eantion de 25 de sesiuni sau o medie a unui eantion care s fie mai mare de 8,6 minute dintr-un eantion de 100 de sesiuni. Explicai rezultatul. 5. O firm de transport a determinat c, anual, distana parcurs de fiecare camion este normal distribuit, cu o medie de 50000 km i o deviaie standard de 12000 km. a. dac este extras un eantion de 16 camioane, care este probabilitatea ca distana medie parcurs s fie mai mic de 45000 km pe an? b. dac este extras un eantion de 16 camioane, care este probabilitatea ca distana medie parcurs s fie ntre 44000 i 48000 km pe an? c. dac este extras un eantion de 64 de camioane, care este valoarea distanei parcurse anual pentru care exist 95% anse ca media eantionului s fie mai mic dect aceasta? d. care sunt rspunsurile la ntrebrile a c, dac deviaia standard este 10000 km? 6. O instituie de sondare a opiniei publice analizeaz rezultatele unui exit-poll pentru a face predicii n seara alegerilor. Presupunnd c este vorba de o competiie electoral ntre doi candidai i c dac unul dintre acetia a primit 55% din voturi n cadrul eantionului, atunci acel candidat va fi anunat ca i ctigtor al alegerilor. Dac eantionul este de 100 de persoane a. care este probabilitatea ca acel candidat s fie anunat ca nvingtor atunci cnd adevratul procent de voturi primite este de 50,1%? b. care este probabilitatea ca acel candidat s fie anunat ca nvingtor atunci cnd adevratul procent de voturi primite este de 60%?

52

c. care este probabilitatea ca acel candidat s fie anunat ca nvingtor atunci cnd adevratul procent de voturi primite este de 49% (adic, de fapt, a pierdut alegerile)? d. dac mrimea eantionului crete la 400, care vor fi rspunsurile la punctele a c? 7. Se efectueaz un experiment de marketing care const n identificarea de ctre respondeni a dou buturi rcoritoare. Sunt extrase eantioane de ctre 200 de participani i se presupune c acetia nu pot distinge ntre cele dou branduri (aceasta nseamn c ansa fiecrei buturi de a fi selectat este de 50%). a. Care proporia eantioanelor pentru care identificarea va fi ntre 50% i 60% corect? b. ntre ce limite simetrice ale procentului populaiei se vor afla 90% dintre eantioane? c. Care este probabilitatea de a obine eantioane cu un procent de identificare corect mai mare de 65%? d. Ce are anse mai mari de apariie: 60% identificare corect ntr-un eantion de 200 sau 55% identificare corect ntr-un eantion de 1000? Explicai.

6. Estimarea intervalului de ncredere

53

Inferena statistic reprezint procesul de utilizare a rezultatelor obinute n urma extragerii unui eantion pentru a trage concluzii despre caracteristicile ntregii populaii. n acest capitol vor fi discutate proceduri care permit estimarea mediei sau a proporiei populaiei. Exist dou tipuri majore de date estimative: estimrile punctuale i estimrile interval. O estimare punctual repezint o singur informaie statistic, care este utilizat pentru a estima adevrata valoare a parametrului populaiei. De exemplu, media eantionului, X , este o estimare punctual a mediei populaiei, , iar variana eantionului, S2, este o estimare punctual a varianei populaiei, 2. O informaie statistic, aa cum este X , variaz de la eantion la eantion, deoarece depinde de itemii care sunt selectai n cadrul acestuia. Aceast variaie trebuie luat n considerare atunci cnd se dorete oferirea unei estimri a caracteristicii populaiei. Pentru a realiza acest lucru se folosete o estimare a intervalului n care se gsete adevrata medie a populaiei, utiliznd distribuia mediei eantioanelor. Acest interval va avea o anumit ncredere sau probabilitate de estimare corect a adevratei valori a parametrului . O estimare asemntoare poate fi calculat pentru proporia, p, din cadrul unei populaii. De exemplu, se poate construi un interval pentru care putem fi 95% siguri c acesta include proporia real a votului pentru un anumit candidat. Tot n acest capitol se va discuta i modul de determinare a dimensiunii unui eantion. 6.1. Estimarea intervalului de ncredere a mediei atunci cnd deviaia standard este cunoscut n capitolul anterior a fost utilizat teorema limitei centrale i/sau distribuia populaiei pentru a determina procentajul mediilor eantioanelor care vor fi la o anumit distan de media populaiei. n exemplul folosit, cel cu ambalarea cerealelor n cutii, 95% dintre mediile eantioanelor erau situate ntre 362,12 i 373,88g. Aceast afirmaie este una deductiv, dar ceea ce trebuie s calculm acum necesit un raionament inductiv. Inducia este necesar deoarece n cazul statisticii infereniale rezultatele unui singur eantion sunt utilizate pentru a trage concluzii despre populaie i nu invers. n practic, ceea ce nu se cunoate i trebuie determinat este media populaiei. S presupunem, n exemplul cu cerealele la cutie, c adevrata medie a populaiei, , este necunoscut, dar este cunoscut deviaia standard a populaiei, , care este egal cu 15 grame. Astfel, n loc s plecm de la formula 1,96 ( /
n ) pentru

a afla limita superioar i inferioar n jurul lui , se va


X 1,96 ( / n) .

utiliza X n loc de pentru a-l determina pe acesta din urm:

Dei n practic este

extras un singur eantion de mrime n, i pentru acesta se calculeaz X , pentru a nelege ce nseamn estimarea intervalului, se va lua n considerare un set de eantioane, fiecare de mrime n.

54

De exemplu, s presupunem c media populaiei, , este egal cu 368g. S presupunem n continuare c a fost extras un eantion de 25 de cutii, iar media acestuia este de 362,3g. Intervalul pentru estimarea lui este
3 2 ,3 1,9 (1 / 6 6 5 2 ) 5

sau 362,3 5,88. Deci estimarea lui este:

356,42 368,18 Deoarece media populaiei (368) este inclus n acest interval, putem afirma c eantionul a condus la o concluzie corect n privina lui (figura 6.1.).

Figura 6.1. Estimarea intervalului de ncredere pentru cinci eantioane diferite de 25 de elemente, extrase dintr-o populaie pentru care = 368 i = 15

55

Pentru a continua acest exemplu, s presupunem c pentru un alt eantion de 25 de cutii, media este 369,5. Intervalul calculat pentru acest eantion va fi estimarea lui este: 363,62 375,38 Deoarece media populaiei (368) este inclus i n acest interval, putem afirma c eantionul a condus la o concluzie corect n privina lui (figura 6.1.). nainte de a crede orice eantion poate duce la concluzii corecte despre , s presupunem c s-a extrs un al treilea eantion de mrimea n = 25, a crui medie este 360g. Intervalul calculat pentru acest eantion va fi
360 1,96 (15 / 25 ) 3 9 ,5 1,9 (1 / 6 6 5 2 ) 5

sau 369,5 5,88. Deci

sau 360 5,88. Deci estimarea lui este:

354,12 365,88 Aceast estimare nu este corect, deoarece media populaiei nu este inclus n intervalul calculat din acest eantion. Astfel, pentru unele eantioane intervalul de estimare al lui va fi corect, ns pentru alte eantioane nu va fi corect. Mai mult dect att, n practic este extras un singur eantion i deoarece media populaiei nu este cunoscut, nu se poate ti dac estimarea intervalului este corect. Pentru a iei din aceast dilem este necesar s se determine proporia eantioanelor care conduc la intervale de ncredere corecte pentru media populaiei, . Pentru a face acest lucru vor fi examinate alte dou eantioane ipotetice: unul pentru care media este 362,12g i altul pentru care media este 373,88g. Pentru primul dintre aceste eantioane intervalul calculat va fi 356,24 368,00 Deoarece media populaiei este limita superioar a acestui interval, estimarea este corect. Pentru cel de-al doilea eantion, intervalul calculat va fi Deci estimarea lui este: 368,00 379,76 Deoarece media populaiei este limita inferioar a acestui interval, estimarea este corect. Din aceste exemple, ilustrate n figura 6.1, se poate observa c dac media unui eantion format din 25 de cutii se situeaz oriunde ntre 362,12g i 373,88g, atunci media populaiei este inclus undeva n acest interval. Din acelai exemplu discutat n capitolul 5 a rezultat c 95% dintre mediile eantioanelor se situeaz ntre 362,12g i 373,88g. De aceea, 95% dintre toate eantioanele de n = 25 de cutii au medii care includ media populaiei n intervalul calculat, iar 5% dintre toate eantioanele vor conduce la intervale care nu conin media populaiei. Deoarece n practic este extras un singur eantion iar media populaiei este necunoscut, nu putem fi niciodat siguri c intervalul calculat conine media populaiei. Totui, este o ncredere de 95% c eantionul 56
3 3 ,8 1,9 (1 / 7 8 6 5 2 ) 5 3 2 ,1 1,9 (1 / 6 2 6 5 2 ) 5

sau 362,12 5,88. Deci estimarea lui este:

sau 373,88 5,88.

respectiv include media populaiei. n general, un interval de ncredere de 95% este interpretat n felul urmtor: dac sunt extrase toate eantioanele posibile de mrime n i sunt calculate mediile lor, atunci 95% dintre intervalele calculate vor include media populaiei undeva n jurul mediei eantionului i doar n 5% dintre cazuri nu se va ntmpla aa ceva. n unele situaii este necesar un grad mai mare de siguran n estimarea intervalului n care se situeaz media (de exemplu 99%). n alte cazuri, un grad de siguran mai mic (90%) este suficient. n general, nivelul de ncredere este simbolizat de (1 ) x 100%, unde este proporia din laturile distribuiei care este n afara intervalului de ncredere. Proporia aflat pe latura superioar a distribuiei este /2, care este egal cu cea aflat pe latura inferioar a acesteia. Pentru a obine un interval de (1 ) x 100% ncredere n estimarea mediei atunci cnd deviaia standard este cunoscut se folosete urmtoarea formul:
X Z

sau X Z

X +Z n n

unde Z este valoarea corespunztoare suprafeei de pn la 1 - /2 din distribuia normal standardizat, sau probabilitatea de /2 din latura superioar a distribuiei. Pentru a construi un interval de ncredere de 95%, pentru estimarea mediei, se alege = 0,05. Valorile lui Z corespunztoare unei suprafee din care se scad cele dou laturi (/2 = 0,025) sunt 1,96 i +1,96. Aceast valoare a lui Z obinut n construcia unui interval de ncredere se numete valoare critic a distribuiei. Exist valori critice diferite pentru fiecare nivel de ncredere 1 - ales. Un nivel de ncredere de 95% conduce, aa cum am vazut deja, la o valoare a lui Z egal cu 1,96 (figura 6.2.). Dac se dorete un nivel de ncredere de 99%, atunci = 0,01, iar valoarea lui Z este aproximativ 2,58, pentru c suprafaa din latura superioar este de 0,005 (figura 6.3).

57

Figura 6.2. Curba normal pentru determinarea valorii lui Z necesar pentru o ncredere de 95%

Figura 6.3. Curba normal pentru determinarea valorii lui Z necesar pentru o ncredere de 99% Cineva s-ar putea ntreba de ce nu construim un interval de ncredere ct mai apropiat de 100%? Acest lucru nu este de dorit deoarece, aa cum s-a observat i din cele dou exemple anterioare, orice cretere a nivelului de ncredere este obinut prin lrgirea intervalului de ncredere. ntr-o astfel de situaie putem avea mai mult ncredere c media populaiei se afl n interiorul unui spectru mai larg de valori, ns 58

acest lucru s-ar putea s nu fie foarte folositor din punct de vedere al unei decizii. Astfel exist un echilibru ntre mrimea intervalului de ncredere i nivelul de ncredere. Exemplul 1 Un productor de hrtie de scris fabric foi de dimensiunea A4, pentru care este de ateptat ca lungimea s fie de 297mm, iar deviaia standard de 2mm. La intervale periodice se extrag eantioane pentru a determina dac lungimea foilor este egal cu 297mm sau ceva s-a deteriorat n procesul de producie. Dac s-ar observa aa ceva, utilajele ar trebui recalibrate. S presupunem c a fost extras un eantion de 100 de foi, iar media lungimii acestora este de 296,7mm. S se construiasc un interval de ncredere de 95% pentru estimarea lungimii medii a foilor. Utiliznd formula X Z
296 ,7 1,96

X +Z , cu Z = 1,96 pentru o ncredere de 95%, n n


2 100

2 296 ,7 +1,96 100

296 ,308 297 ,092

Astfel, cu o ncredere de 95%, se estimeaz c media populaiei este cuprins ntre 296,308 i 297,092. Pentru c 297, valoarea care indic faptul c procesul de producie este corespunztor, este inclus n acest interval, nu exist nici un motiv s se cread c este ceva n neregul cu procesul de producie. Exemplul 2 S se construiasc un interval de ncredere de 99% pentru estimarea lungimii medii a foilor. Utiliznd aceeai formul cu Z = 2,58 pentru o ncredere de 99%,
296 ,7 2,58 2 2 296 ,7 + 2,58 100 100

296 ,184 297 ,216

Deoarece 297 este inclus n intervalul calculat, nu exist nici un motiv s se cread c procesul de producie este dereglat. 6.2. Estimarea intervalului de ncredere a mediei atunci cnd deviaia standard este necunoscut Aa cum de obicei media populaiei, , nu este cunoscut, nici deviaia standard a populaiei, , nu este cunoscut. De aceea a trebuit s se dezvolte un procedeu de estimare a intervalului de ncredere pentru pornind doar de la informaiile statistice ale eantionului, X i S.

59

Distribuia Student La nceputul secolului XX, un statistician numit William S. Gosset, angajat al productorului de bere Guinness, din Irlanda, era interesat de inferenele ce se pot face despre medie atunci cnd deviaia standard a populaiei, , este necunoscut. Pentru c angajaii de la Guinness nu aveau permisiunea s publice cercetri sub propriul nume, Gosset a adoptat pseudonimul de Student. Distribuia pe care el dezvoltat-o a ajuns astfel s se numeasc distribuia Student. Dac variabila X este normal distribuit, atunci urmtoarea informaie statistic are o distribuie t cu n-1 grade de libertate:
t= X S n

Se poate observa c expresia lui t este similar celei a lui Z din capitolul 5, cu excepia faptului c deviaia standard a populaiei, , care nu este cunoscut, este nlocuit cu deviaia standard a eantionului, S. Proprieti ale distribuiei t Ca form, distribuia t este foarte asemntoare distribuiei normale standardizate. Ambele distribuii au form de clopot i sunt simetrice. Totui, distribuia t are suprafee mai mari pe laturi i mai mici pe centru dect cea normal standardizat (figura 6.4.). Acest lucru se ntmpl deoarece este necunoscut iar S este utilizat pentru a-l estima. Pentru c valoarea lui este incert, valorile lui t care sunt observate vor avea o variabilitate mai mare dect Z. Totui, pe msur ce numrul gradelor de libertate crete, distribuia t se apropie treptat de ditribuia normal standardizat, pn cnd cele dou distribuii devin identice. Acest lucru se ntmpl deoarece S devine o estimare mai bun pentru pe msur ce mrimea eantionului crete. Pentru un eantion mai mare sau egal cu 120, S l estimeaz suficient de precis pe t, astfel nct diferena dintre distribuia t i distribuia Z este nesemnificativ. Din acest motiv, cei mai muli statisticieni utilizeaz Z n loc de t atunci cnd eantionul este mai mare de 120.

60

Fig. 6.4. Distribuia normal standardizat i distribuia t pentru 18 grade de libertate Valorile critice ale lui t pentru numrul corespunztor de grade de libertate se obin din tabelul cu distribuia t (Anexa 2). Rndul de sus al fiecrei coloane indic suprafaa din latura superioar a distribuiei t; fiecare linie reprezint valoarea specific a lui t pentru fiecare grad de libertate. De exemplu, pentru 100 de grade de libertate, dac se dorete construirea unui interval de ncredere de 95%, nseamn c 2,5% dintre valori (o suprafa de 0,025) sunt n fiecare latur a distribuiei. La ncruciarea coloanei de 0,025 i a liniei corespunztoare pentru 100 de grade de libertate, vom gsi valoarea critic a lui t: 1,9840. Deoarece t este o distribuie simetric cu media zero, dac valoarea din latura superioar este de +1,9840, atunci valoarea din latura inferioar va fi de 1,9840. O valoare a lui t de 1,9840 nseamn c probabilitatea ca t s depeasc +1,9840 este de 0,025, adic de 2,5% (figura 6.5.).

Figura 6.5. Distribuia t cu 100 de grade de libertate

61

Conceptul de grade de libertate Formula varianei, din capitolul 3 era

( X
i =1

X )2

. Astfel, pentru a calcula S2 este necesar

n 1

s se cunoasc X . Ca urmare, doar n-1 din valorile eantionului pot s varieze. Acest lucru nseamn c exist n-1 grade de libertate. De exemplu, s presupunem c un eantion de 5 elemente are media de 20. Cte valori distincte trebuie cunoscute pentru a le cunoate pe cele rmase? Faptul c n = 5 i X = 20 ne spune c
n

X
i =1 n

= 100 n=X

deoarece

X
i =1

Astfel, atunci cnd patru dintre valori sunt cunoscute, a cincea nu va fi liber s varieze, pentru c suma lor trebuie s fie 100. De exemplu, dac patru dintre valori ar fi 18, 24, 19 i 16, atunci a cincea valoare trebuie s fie 23, astfel nct suma s fie 100. Formula intervalului de ncredere atunci cnd este necunoscut Intervalul de ncredere de valoare (1-)x100 se calculeaz cu ajutorul urmtoarei formule:
X t n 1 S n

sau
X t n 1 S S X + t n 1 n n

Pentru a ilustra aplicarea formulei intervalului de ncredere atunci cnd deviaia standard, , este necunoscut, s considerm urmtorul exemplu: managerul unei firme selecteaz un eantion de 100 de facturi din populaia de facturi din ultima lun. Media eantionului celor 100 de facturi este de 110,27 RON, iar deviaia standard este de 28,95 RON. Firma cere un nivel de ncredere de 95%, asfel c valoarea critic a distribuiei t (Anexa 2) poate fi aproximat la 1,984 (n Anexa 2 avem valoarea lui t doar pentru 100 de grade de liberate i nu pentru 99). Utiliznd ecuaia anterioar
X t n 1 S 28 ,95 = 110 ,27 (1,984 ) = 110 ,27 5,74 n 100

104 ,53 116 ,01

Astfel, cu o ncredere de 95% se poate aferma c media facturilor este situat ntre 104,53 i 116,01 RON. Un interval de ncredere de 95% nseamn c dac ar fi extrase toate eantioanele posibile de 100 de 62

facturi (ceea ce n practic nu va realiza niciodat), 95% dintre intervalele calculate vor include adevrata medie. Validitatea estimrii intervalului de ncredere depinde de asumpia de normalitate pentru distribuia valorilor facturilor. Deoarece mrimea eantionului este sufiecient de mare (n = 100), se poate considera c presupunerea este corect, iar utilizarea distribuiei t este corect. 6.3. Estimarea intervalului de ncredere a proporiei

n acest subcapitol, conceptul de interval de ncredere va fi extins i la date categorice, pentru a putea estima proporia populaiei, p, din proporia eantionului pe = X/n. Din capitolul 5 am reinut c atunci cnd produsele np i n(1-p) au o valoare cel puin egal cu 5, atunci distribuia binomial poate fi aproximat cu o distribuie nomal. Astfel, un interval de ncredere de (1-)x100% pentru estimarea proporiei populaiei, p, poate fi calculat cu urmtoarea formul:
pe Z p e (1 p e ) n

sau
pe Z p e (1 pe ) p pe + Z n pe (1 p e ) n

unde, pe = proporia din eantion = X/n = numrul de succese /mrimea eantionului p = proporia n populaie Z = valoarea critic rezultat din distribuia normal standardizat n = mrimea eantionului Exemplu: S presupunem c firma din exemplul anterior dorete s determine frecvena de apariie a erorilor n scrierea facturilor. Se dorete construirea unui interval de ncredere de 95% pentru a estima proporia din ntreaga populaie de facturi care conin erori, pentru a le putea remedia. S presupunem c n eantionul de 100 de facturi, 10 conin erori. Pentru aceste date, pe = 10/100 = 0,10. Pentru un interval de ncredere de 95%, Z = 1,96, astfel c
pe Z p e (1 p e ) (0,10 )( 0,90 ) = 0,10 (1,96 ) = 0,10 (1,96 )( 0,03) = 0,10 0,0588 n 100

0,0412 p 0,1588

Astfel se poate afirma c ntre 4,12% i 15,88% dintre facturi conin erori de completare.

6.4.

Determinarea dimensiunii eantionului 63

n exemplele utilizate anterior referitoare la estimarea unui interval de ncredere, eantioanele au fost alese fr a se ine cont de limea intervalului de ncredere rezultat. n lumea real, determinarea unei mrimi corespunztoare a eantionului presupune o procedur complicat, care trebuie s in cont de constrngerile legate de bugetul disponibil, de timpul disponibil i de uurina n selectare. n cele dou exemple anterioare, dac se dorete estimarea mediei facturilor sau a proporiei facturilor ce conin erori, ar trebui de determinat, n primul rnd, ct de precis se doretea fi estimarea. Astfel este necesar s se determine eroarea de eantionare admisibil n estimarea fiecrui parametru ct i ncrederea necesar pentru o estimare corect a acestora. Determinarea mrimii eantionului pentru medie Pentru a detremina mrimea eantionului necesar pentru estimarea mediei, trebuie avute n vedere eroarea de eantionare considerat acceptabil, nivelul de ncredere dorit, precum i deviaia standard. Se pleac de la formula din capitolul precedent
Z = X

, unde Z este variabila normal standardizat

mai departe, Z

= X n

Valoarea lui Z este pozitiv sau negativ, depinznd de faptul dac X este mai mare sau mai mic dect . Diferena dintre media eantionului, X , imedia populaiei, , este numit eroare de eantionare i este notat cu e.
e=Z

De aici rezult mrimea eantionului pentru determinarea mediei, care este egal cu produsul dintre ptratul lui Z i ptratul deviaiei standard, mprit la ptratul erorii de eantionare
n= Z 2 2 e2

Deci, pentru a putea determina mrimea eantionului trebuie s cunoatem trei factori: 1. Nivelul dorit de ncredere, care va determina Z, valoarea critic din distribuia normal standardizat 2. Eroarea de eantionare acceptabil, e 3. Deviaia standard, n practic, nu este att de uor de determinat aceti trei factori. Cum ar putea fi determinate nivelul de ncredere i eroarea de eantionare? n mod obinuit, rspunsul la aceast ntrebare este oferit de experien. Dei un nivel de ncredere de 95% este cel mai utilizat (n acest caz Z = 1,96), dac se dorete o ncredere mai mare, 99% este o valoare mai potrivit, iar dac nu este necesar prea mult precizie, 90% 64

poate fi acceptabil. Eroarea de eantionare nu trebuie privit din perspectiva unei valori dorite, pentru c, de fapt, nu se dorete nici o eroare, ci din perspectiva valorii care poate fi tolerate i care permite tragerea unor concluzii valide. n plus, este necesar o estimare a deviaiei standard. Din nefericire, deviaia standard a populaiei, , este rareori cunoscut. n unele situaii, deviaia standard a populaiei poate fi estimat din cercetri anterioare. n alte situaii se poate face o estimare suficient de corect n funcie de amplitudinea i distribuia variabilei. De exemplu, dac se presupune c exist o distribuie normal, amplitudinea este aproximativ egal cu 6 (adic 3 n jurul mediei), astfel c deviaia standard poate fi estimat ca fiind o esime din amplitudine. Dac deviaia standard nu poate fi dedus n aceste maniere, atunci trebuie desfurat un studiu pilot, iar va fi extras de aici. Pentru a nelege modul de determinare a mrimii eantionului pentru estimarea mediei populaiei, s relum un exemplu anterior, n care la o firm au fost selectate 100 de facturi pentru a caluca un interval de 95% ncredere. Cum a fost determinat aceast mrime a eantionului? S presupunem c, dup o consultare n cadrul firmei, s-a stabilit c eroarea de eantionare nu trebuie s fie mai mare de 5 RON, mpreun cu o ncredere de 95%. Date anterioare indic faptul c deviaia standard a vnzrilor a fost de 25 RON pentru o lung perioad de timp. Astfel, e = 5, = 25, iar Z = 1,96 (pentru o ncredere de 95%), iar n va fi
n= Z 2 2 (1,96 ) 2 (25 ) 2 = = 96 ,04 2 e (5) 2

Putem considera c n = 97. Deoarece regula general este de a suprasatisface criteriile, prin rotunjire la urmtorul numr ntreg, mrimea eantionului a fost aleas la 100. Determinarea mrimii eantionului pentru proporie Metoda de determinare a mrimii eantionului pentru estimarea proporiei este similar cu cea utilizat pentru estimarea mediei. Se pleac de la formula
Z = pe p p (1 p ) , unde Z este variabila normal standardizat. n
p (1 p ) = pe p n

Eroarea de eantionare, este egal cu diferena dintre pe i p, adic diferena dintre proporia eantionului i parametrul care trebuie estimat. Astfel, eroarea de eantionare este definit ca

65

e =Z

p (1 p ) n

De aici rezult mrimea eantionului pentru determinarea proporiei, care este egal cu produsul dintre ptratul lui Z, p i (1-p), totul mprit la ptratul erorii de eantionare:
n= Z 2 p (1 p ) e2

Pentru a determina mrimea eantionului necesar estimrii proporiei, trebuie cunoscui trei factori: 1. Nivelul dorit de ncredere, care determin valoarea lui Z 2. Eroarea de eantionare acceptabil, e 3. Adevrata proporie existent n rndul populaiei, p n practic, alegerea acestor factori necesit o oarecare planificare. Dup ce este ales nivelul de ncredere, se poate determina valoarea corespunztoare a lui Z din distribuia normal standardizat. Eroarea de eantionare, e, indic mrimea erorii care poate fi tolerat n estimarea proporiei populaiei. Al treilea factor, adevrata proporie existent n populaie, p, este exact parametrul care se dorete a fi determinat. Astfel apare ntrebarea cum ar putea fi stabilit o valoare pentru un factor care este necesar la determinarea eantionului care, la rndul su, duce la stabilirea factorului respectiv. Exist dou alternative pentru acest lucru. Prima este c, n multe situaii, exist informaii din trecut sau din experiene anterioare care ne pot oferi o estimare suficient de corect a lui p. A doua alternativ, atunci cnd nu exist informaii anterioare, const n ncercarea de a nu subestima niciodat mrimea eantionului care este necesar. Privind ecuaia pentru determinarea lui n se poate observa produsul p(1-p) care apare la numrtor. Valoarea lui p trebuie aleas astfel nct produsul p(1-p) s fie ct mai mare posibil. Atunci cnd p = 0,9, p(1-p) = (0,9)(0,1) = 0,09 Atunci cnd p = 0,7, p(1-p) = (0,7)(0,3) = 0,21 Atunci cnd p = 0,5, p(1-p) = (0,5)(0,5) = 0,25 Atunci cnd p = 0,3, p(1-p) = (0,3)(0,7) = 0,21 Atunci cnd p = 0,1, p(1-p) = (0,1)(0,9) = 0,09 Se poate observa c cea mai mare valoare a produsului p(1-p) se obine pentru p = 0,5. De aceea, atunci cnd nu exist informaii prealabile despre adevrata proporie din populaie, trebuie folosit cel mai conservator mod de determinare a mrimii eantionului, folosind 0,5 pentru valoarea lui p. Aceast variant produce cel mai mare eantion posibil, dar duce, n acelai timp, i la cel mai mare cost al eantionrii. Dac ne ntoarcem la exemplul cu managerul firmei care dorea s afle proporia facturilor completate greit, s presupunem c se dorete o ncredere de 95% n estimarea proporiei facturilor cu erori, ntr-o marj de 0,07 fa de adevrata proporie a populaiei. Rezultatele din ultimele luni indic faptul c 66

niciodat proporia facturilor cu erori nu a depit 0,15. Astfel, e = 0,07, p = 0,15 i Z = 1,96 (pentru 95% ncredere):
n= Z 2 p (1 p ) (1,96 ) 2 (0,15 )( 0,85 ) = = 99 ,96 e2 (0,07 ) 2

De aceea, n = 100, pentru c regula general este ca mrimea eantionului s fie rotunjit la numrul ntreg cel mai apropiat, pentru a suprasatisface criteriile. Exerciii 1. ntr-un sondaj de opinie, respondenii sunt rugai s i evalueze poziia ideologic pe o scal cu 7 trepte, unde 1 nseamn extrema stang, 4 nseamn centru, iar 7 nseamn extrema dreapt. S presupunem c un astfel de sondaj a fost realizat pe un eantion de n = 2879 de persoane, media rspunsurilor fiind 4,171, iar deviaia standard este 1,390. a. Construii un interval de 95% ncredere pentru media ideologiei politice. b. Artai care este efectul creterii nivelului de ncredere construind un interval de 99% ncredere. c. Artai care este efectul scderii nivelului de ncredere construind un interval de 90% ncredere. 2. Dac X = 125, = 24 i n = 36, construii un interval de 99% ncredere pentru estimarea mediei populaiei. 3. Managerul responsabil de controlul calitii la o fabric de becuri trebuie s estimeze media de via a unui important lot de produse. El tie din procesul de producie c deviaia standard este de 100 de ore. Este extras un eantion de 64 de becuri pentru care media speranei de via este de 350 de ore. a. Construii un interval de 95% ncredere pentru a estima adevrata medie a speranei de via a becurilor din lotul respectiv. b. Credei c productorul are dreptul s afirme c, n medie, becurile rezist 400 de ore? Explicai. c. Explicai de ce o speran de via a unui bec de 320 de ore nu este ceva neobinuit, chair dac este n afara intervalului de ncredere calculat. d. Dac deviaia standard ar fi 80 de ore, care ar fi rspunsurile la punctele a i b? 4. Determinai valoarea critic a lui t pentru fiecare din situaiile urmtoare: a. 1- = 0,95, n = 10 b. 1- = 0,99, n = 10 c. 1- = 0,95, n = 32 d. 1- = 0,95, n = 61 e. 1- = 0,90, n = 16

67

5. 6.

Dac X = 50 , S = 15 i n = 16 i presupunnd c populaia este normal distribuit, construii un interval de ncredere de 99% pentru a estima media populaiei, . Construii un interval de ncredere de 95% pentru estimarea mediei populaiei, plecnd de la urmtoarele seturi de date i presupunnd c populaia este normal distribuit: Setul 1: 1, 1, 1, 1, 8, 8, 8, 8 Setul 2: 1, 2, 3, 4, 5, 6, 7, 8 Explicai de ce aceste seturi de date au intervale de ncredere diferite, dei au aceeai medie i aceeai amplitudine.

7. Construii un interval de 95% ncredere pentru a estima media populaiei pe baza urmtoarelor numere: 1, 2, 3, 4, 5, 6 i 20. Schimbai numrul 20 cu 7 i recalculai intervalul de ncredere. Utiliznd aceste rezultate, descriei efectele unei valori extreme asupra intervalului de ncredere. 8. S presupunem c ntr-un sondaj de opinie aplicat unui eantion de 987 de subieci a fost pus urmtoarea ntrebare: n ultimul an ati fost victima unui furt din buzunare, a unei tlhrii sau a unei spargeri?. Din totalul respondenilor, 17 au rspuns da, iar 970 nu. a. Determinai proporia populaiei care a fost victima unor astfel de infraciuni. b. Construii un interval de ncredere de 95% pentru proporia populaiei. Se poate concluziona c mai puin de 5% din populaie a fost victima unei astfel de infraciuni? 9. Managerul unui ziar de mare tiraj vrea s determine proporia de ziare care conin erori de tipar (exces de cerneal, tieri necorspunztoare ale paginilor, pagini lipsa sau pagini reptate). El hotrte s selecteze un eantion de 200 de ziare pentru analiz i dorete s se construiasc un interval de ncredere de 90% pentru a estima proporia ziarelor cu erori de tipar din toatalul populaiei de ziare. Din acest eantion, 35 de ziare conin erori. Managerul dorete s aib 90% ncredre n estimarea adevratei proporii din populaie. Construii intervalul de ncredere. 10. Un dealer de autoturisme dorete s estimeze proporia clienilor care nc dein maina pe care au cumprat-o de la el n urm cu cinci ani. Un eantion aleator de 200 de clieni extras din dosarele firmei arat faptul c 82 dintre acetia nc dein autoturismele achiziionate cu cinci ani n urm. Construii un interval de ncredere de 95% pentru a estima proporia clienilor care nc dein autoturismul cumprat cu cinci ani n urm. 11. Dac o echip de inspecie de la Protecia consumatorului vrea s estimeze media volumului de suc mbuteliat n sticlele de 2 litri, ntr-o marj de 0,01 litri, cu o ncredere de 95% i presupunnd c deviaia standard este de 0,05 litri, care este mrimea necesar a eantionului?

68

12. O organizaie de sondare a opiniei publice dorete s estimeze proporia votului pentru unul dintre cei doi candidai aflai n finala alegerilor prezideniale. Se dorete o ncredere de 90% n corectitudinea prediciei, cu o marj de 0,04 fa de adevrata proporie a populaiei. a. Care este mrimea eantionului necesar pentru acest lucru? b. Dac se dorete o ncredere de 95%, ct de mare trebuie s fie eantionul? c. Dac se dorete o ncredere de 95%, cu o eroare de 0,03, care ar trebui s fie mrimea eantionului?

7. Testarea ipotezelor: teste pentru un singur eantion n acest capitol ne vom concentra atenia asupra asupra unei alte etape a statisticii infereniale, i anume testarea ipotezelor pornind de la informaiile oferite de un eantion. Va fi prezentat o metodologie 69

care, pas cu pas, va permite efectuarea de inferene despre un parametru al populaiei analiznd diferenele dintre rezulatelel observate (informaiile statistice extrase din eantion) i rezultatele ateptate dac ipoteza emis ar fi corect. 7.1. Metodologia testrii ipotezelor Ipoteza nul i ipoteza de lucru Testarea ipotezelor ncepe cu acceptrea unei anumite teorii sau asumpii despre un anumit parametru al populaiei. De exemplu, ipoteza iniial n cazul exemplului anterior folosit, cel cu cerealele ambalate n cutii, a fost c procesul de producie este corespunztor, adic fiecare cutie are o greutate medie de 368 g i nu sunt necesare corecii. Ipoteza care afirm c parametrul populaiei este egal cu specificaiile firmei se numete ipoteza nul. O ipotez nul este cea care afirm status quo-ul sau c nu exist nici o diferen, i este notat cu H0. Pentru exemplul n discuie, ipoteza nul poate fi scris n mod formal ca H0: = 368 Dei informaia disponibil se refer doar la eantion, ipoteza nul este scris n termeni de parmetru al populaiei. Informaia statistic va fi utilizat pentru a face inferene despre ntreaga populaie, n cazul nostru despre ntregul proces de umplere a cutiilor cu cereale. Una dintre inferenele care poate rezulta din analiza eantionului este aceea c ipoteza nul este fals. Dac ipoteza nul este fals, atunci altceva ar trebui s fie adevrat. Pentru a anticipa aceast posibilitate, ori de cte ori este emis o ipotez nul trebuie emis i o ipotez alternativ (sau ipotez de lucru). Aceasta se noteaz cu H1 i poate fi scris n mod formal ca H1: 368 Ipoteza alternativ reprezint concluzia rezultat din respingerea ipotezei nule, dac eantionul ofer suficiente dovezi pentru a decide c ipoteza nul nu are anse s fie adevrat. n exemplul cu cerealele, dac greutatea medie a cutiilor de cereale este suficient de deprtat de cifra specificat de companie, 368 g, atunci ipoteza nul poate fi respins i poate fi acceptat ipoteza alternativ, c greutatea medie a cutiilor de cereale este diferit de 368 g. Ca urmare, producia ar trebui s fie oprit i s se ia msurile de corecie corespunztoare. Metodologia testrii ipotezelor este proiectat astfel nct respingerea ipotezei nule se bazeaz pe informaiile oferite de eantion c ipoteza de lucru are mult mai multe anse s fie adevrat. Totui, eecul de a respinge ipoteza nul nu nseamn neaprat c aceasta este adevrat. Practic, niciodat nu se poate dovedi c o ipotez nul este corect, deoarece decizia este luat ntotdeauna pe baza informaiilor oferite de ctre un eantion i nu pe baza informaiilor oferite de ctre ntreaga populaie. De aceea, atunci cnd ipoteza nul nu poate fi respins, se poate concluziona doar c exist prea puine dovezi pentru a fi siguri de respingerea ei. 70

Valoarea critic a testului statistic Logica ce st la baza metodologiei testrii ipotezelor poate fi dezvoltat dac ne gndim cum ar putea fi utilizat informaia oferit de eantion pentru a determina plauzibilitatea ipotezei nule. n cazul cu firma productoare de cereale, ipoteza nul afirm c greutatea medie a fiecrei cutii de cereale, pentru ntrega cantitate produs, este de 368 g. De pe banda de producie este extras un eantion de cutii, fiecare cutie este cntrit i se calculeaz media acestora. Dup cum tim, o informaie statistic este o estimare a parametrului populaiei din care a fost extras eantionul. Chiar dac ipoteza nul este adevrat, informaia statistic poate s difere de valoarea parametrului datorit variaiei produs de eantionare. Totui, ne putem atepta ca informaia statistic extras din eantion s fie apropiat de parametrul populaiei n cazul n care ipoteza nul este adevrat. ntr-o asemenea situaie nu sunt suficeinte dovezi pentru a respinge ipoteza nul. Dac, de exemplu, media eantionului de cutii ar fi 367,9 g, bunul sim ne-ar sugera s concluzionm c media populaiei nu s-a modificat n procesul de producie, deoarece 367,9 este foarte apropiat de 368. Pe de alt parte, dac exist o discrepan major ntre valoarea informaiei statistice i parametrul corespunztor pentru care se face ipoteza, bunul sim ne conduce la concluzia c ipoteza nul nu are cum s fie adevrat. De exemplu, dac media eantionului este 320, vom fi nclinai s presupunem c media populaiei nu este 368 deoarece media eantionului este foarte ndeprtat de valoarea pentru care se face ipoteza, i anume 368g. ntr-o asemenea situaie este foarte puin probabil s se obin o medie a eantionului de 320 dintr-o populaie a crei medie este 368 i de aceea este mai logic s se concluzioneze c c media populaiei nu este 368. ntr-o asemenea situaie vom respinge ipoteza nul. n ambele situaii anterioare, decizia este luat pe baza credinei c eantionul este ntr-adevr reprezentativ pentru populaia din care a fost extras. Din nefericire, luarea unei decizii nu este ntotdeauna att de uoar i nici nu poate fi lsat pe seama unei judeci subiective i arbitrare legat de ct de aproape sau de departe se afl media eantionului de aceea a populaiei. Metodologia testrii ipotezelor asigur definiii clare pentru evaluarea unor astfel de diferene. Acest lucru este realizat prin determinarea distribuiei de eantioane pentru informaia statistic de interes (de exemplu, media eantionului), urmat apoi de calcularea unui anumit test statistic bazat pe rezultatele eantionului respectiv. Deoarece distribuia de eantioane pentru testul statistic are de cele mai multe ori o form cunoscut, fie distribuia normal standardizat fie distribuia t, aceste distribuii pot fi utilizate pentru a determina ansele ipotezei nule de a fi adevrate. Regiunile de respingere i de nerespingere 71

Distribuia de eantioane pentru testul statistic este mprit n dou regiuni: o regiune de respingere (numit i regiune critic) i o regiune de nerespingere (fig. 7.1). Regiunea de respingere reprezint valorile testului statistic care nu sunt de ateptat s apar dac ipoteza nul este adevrat. Aceste valori au anse de apariie mai mari dac ipoteza nul este fals.

Fig. 7.1. Regiunile de respingere i de nerespingere n testarea ipotezelor Dac testul statistic se situeaz n regiunea de nerespingere, ipoteza nul nu poate fi respins. n exemplul cu cerealele, dac se consider c nu exist suficiente dovezi pentru a concluziona c media populaiei este diferit de 368g, atunci ipoteza nul nu poate fi respins. Dac testul statistic se situeaz n regiunea de respingere, atunci ipoteza nul poate fi respins. n acest caz, firma poate concluziona c media populaiei nu este 368g. Pentru a lua o decizie n privina ipotezei nule, n primul rnd trebuie determinat valoarea critic a testului statistic. Valoarea critic este cea care separ regiunea de nerespingere de cea de respingere. Determinarea acestei valori critice depinde de mrimea regiunii de respingere, care la rndul ei este funcie de riscurile implicate de utilizarea unui eantion atunci cnd se dorete estimarea unui parametru al unei populaii. Riscuri n luarea unei decizii atunci cnd se utilizeaz metodologia testrii ipotezelor

72

Atunci cnd este utilizat o informaie statistic extras de la un eantion pentru a lua o decizie n privina unui parametru al unei populaii, exist riscul tragerii unei concluzii eronate. Dou tipuri de erori pot s apar atunci cnd sunt testate ipoteze: tipul I de eroare i tipul II de eroare. Tipul I de eroare apare atunci cnd ipoteza nul, H0, este respins cnd de fapt ea este adevrat i nu ar trebui respins. Probabilitatea de apariie a tipului I de eroare este . Tipul II de eroare apare atunci cnd ipoteza nul, H0, nu este respins, dei ea este fals i ar trebui respins. Probabilitatea de apariie a tipului II de eroare este . n cazul exemplului discutat, tipul I de eroare apare atunci cnd, pe baza informaiilor oferite de eantion se concluzioneaz c greutatea medie a populaiei de cutii nu este 368g, cnd de fapt ea este 368g. Pe de alt parte, tipul II de eroare apare atunci cnd, pe baza informaiilor oferite de eantion se concluzioneaz c greutatea medie a populaiei de cutii este 368g, cnd de fapt ea nu este 368g. Nivelul de semnificaie Probabilitatea de a comite tipul I de eroare se numete nivel de semnificaie al testului statistic. n mod obinuit, tipul I de eroare poate fi controlat prin stabilirea nivelului de risc, , care poate fi tolerat n respingerea ipotezei nule, atunci cnd ea este de fapt adevrat. Nivelul de semnificaie este ales nainte de testarea ipotezei i de obicei ia valori de 0,01, 0,05 sau 0,1. Coeficientul de ncredere, care este notat 1 , i care este complementul probabilitii erorii de tip I, reprezint probabilitatea ca ipoteza nul, H0, s fie acceptat atunci cnd ea este adevrat. Nivelul de ncredere pentru testarea unei ipoteze este de (1 )100%. n ipoteza cu cerealele, coeficientul de ncredere msoar probabilitatea concluziei c greutatea medie a populaiei de cutii este de 368g, cnd ea chiar este 368g. Riscul Probabilitatea de a comite tipul II de eroare se noteaz cu . Spre deosebire de tipul I de eroare, care este controlat prin alegerea lui , probabilitatea de a face tipul II de eroare este dependent de diferena dintre valoarea care se presupune prin ipotez c exist i valoarea real a parametrului din populaie. Deoarece diferenele mari sunt mai uor de observat dect cele mici, dac diferena dintre informaia statistic obinut de la eantion i parametrul corespunztor al populaiei este mare, probabilitatea de a face tipul II de eroare este de ateptat s fie mic. De exemplu, dac adevrata medie a populaiei (care de fapt nu este cunoscut) este de 320g, sunt anse mici () s se concluzioneze c media nu s-a schimbat fa de 368g. Pe de alt parte, dac diferena dintre informaia statistic i valoarea parametrului corespunztor este mic, probabilitatea de a comite tipul II de eroare este mare. Astfel, dac media populaiei este ntr-adevr 367g, este o mare probabilitate de a concluziona c media cu care sunt umplute cutiile nu s-a modificat fa de 368g, i s-ar face tipul II de eroare. 73

Puterea testului statistic, 1 , este complementul tipului II de eroare i reprezint probabilitatea de respingere a ipotezei nule cnd aceasta este fals i chiar trebuie respins. n exemplul nostru, puterea testului este probabilitatea de a concluziona c greutea medie a cutiilor nu este 368g, cnd ea de fapt nu este 368g. Riscuri n luarea deciziei atunci cnd se testeaz o ipotez Tabelul 7.1. ilustreaz rezultatele celor dou decizii posibile (s se accepte H0 sau s resping H0) care pot s apar atunci cnd se testeaz ipoteze. n funcie de decizia luat, pot s apar una din cele dou tipuri de erori sau poate fi luat una din cele dou decizii corecte. Tabelul 7.1. Decizia statistic Nerespingerea lui H0 Respingerea lui H0 Situaia real H0 este adevrat Decizie corect ncredere = 1 Eroare de tip I P(eroare de tip I) = H0 este fals Eroare de tip II P(eroare de tip II) = Decizie corect Putere = 1 -

O cale de reducere a probabilitii de a face tipul II de eroare este de a mri dimensiunea eantionului. Eantioanele mari permit sesizarea diferenelor mici dintre valoarile reale ale parametrilor i valorile cuprinse n ipotez. Pentru un anumit nivel al lui , creterea dimensiunii eantionului va duce la scderea lui , ceea ce va duce la creterea capacitii testului de a detecta faptul dac ipoteza nul, H0, este fals. Cu toate acestea, ntotdeauna exist o limit dat de resursele disponibile, ceea ce va afecta mrimea eantionului luat n considerare. De aceea, pentru o anumit mrime a eantionului, trebuie luat n considerare un anumit echilibru ntre cele dou tipuri de erori. Deoarece riscul de apariie al tipului I de eroare poate fi controlat, acest risc poate fi redus prin selectarea unei valori ct mai mici pentru . De exemplu, dac sunt consecine negative importante asociate cu tipul I de eroare, se poate alege = 0,01 n loc de = 0,05. Totui, cnd scade, crete, astfel c o reducere a riscului de a face tipul I de eroare va duce la o cretere a riscului tipului II de eroare. Dac, pe de alt parte, se dorete reducerea lui , atunci trebuie aleas o valoare mai mare pentru . Astfel, dac este important s se evite tipul II de eroare, atunci se poote selecta = 0,05 sau 0,1 n loc de = 0,01. n exemplul nostru cu fabrica de cereale, tipul I de eroare duce la concluzia c media greutii per cutie s-a schimbat de la 368g, cnd de fapt ea nu s-a schimbat. Tipul II de eroare duce la concluzia c greutatea medie per cutie nu s-a modificat de la 368g, cnd de fapt ea s-a modificat. Alegerea unor valori rezonabile pentru i depinde de costurile asociate fiecrui tip de eroare. Dac, de exemplu, este foarte 74

costisitor de modificat procesul tehnologic de umplere a cutiilor, atunci probabil c vom dori s fim siguri c schimbarea va fi benefic, deci tipul I de eroare va fi cel mai important i va trebui meninut la valori ct mai sczute. Pe de alt parte, dac se dorete siguran n detectarea schimbrilor de la media de 368g, atunci riscul apariiei tipului II de eroare este mai important i trebuie ales un nivel mai ridicat al lui . 7.2. Testul Z pentru medie, atunci cnd deviaia standard este cunoscut n exemplul discutat anterior, se dorea determinarea faptului dac procesul tehnologic al umplerii cutiilor cu cereale decurge corect, adic dac greutatea medie a cutiilor este 368g, i nu sunt necesare ajustri. Pentru a evalua acest lucru se extrage un eantion de 25 de cutii, fiecare cutie este cntrit, iar greutatea care este ateptat prin ipotez (parametrul populaiei) este comparat cu greutatea rezultat din eantion. n aceast situaie, ipoteza nul este H0: = 368, iar ipoteza de lucru este H1: 368. Dac deviaia standard, , este cunoscut, atunci distribuia mediei este normal (acest lucru este adevrat dac populaia este normal distribuit sau dac mrimea eantionului este cel puin 30), de aici rezultnd valoarea testului Z
Z = X

n ecuaia anterioar, numrtorul arat ct de departe se afl media eantionului de media pentru care se face ipoteza, . Numitorul reprezint eroarea standard a mediei, astfel nct Z reprezint diferena dintre X i n uniti de erori standard. Perspectiva valorii critice n testarea ipotezelor Dac se utilizeaz un nivel de semnificaie de 0,05, mrimea regiunii de respingere este de 0,05, iar valorile critice ale distribuiei pot fi determinate. Aceste valori critice pot fi exprimate ca valori standardizate ale lui Z (adic n uniti de deviaie standard). Deoarece regiunea de respingere este divizat n dou pri (de aceea acest test se numete i test pentru dou laturi), valoare 0,05 este mprit n dou pri egale de valoare 0,025 fiecare. O regiune de respingere de 0,025 pe fiecare dintre laturile distribuiei normale va conduce, conform tabelului din Anexa 1, la o valoare critic inferioar de 1,96 i la o valoare critic superioar de +1,96. Figura 7.2. ilustreaz aceast situaie: dac media este de fapt 368g, aa cum presupune ipoteza de nul, H0, atunci valorile testului statistic Z au o distribuie normal standardizat centrat pe 0 (ceea ce corespunde unei valori X de 368g). Valori ale lui Z mai mari dect +1,96 sau mai mici dect 1,96 indic faptul c X este prea departe de = 368, ceea ce nu este de ateptat dac H0 ar fi adevrat.

75

Figura 7.2. Testarea unei ipoteze despre medie atunci cnd este cunoscut, pentru un nivel de semnificaie de 0,05 n aceast situaie, regula pentru luarea deciziei este urmtoarea: se respinge H0 dac Z > +1,96 sau Z< -1,96 i nu se respinge H0 n orice alt situaie. S presupunem c un eantion de 25 de cutii are o greutate medie X = 372,5g, iar deviaia standard a populaiei, , este de 15g. Atunci,
Z = X 372 ,5 368 = +1,50 15 25

Deoarece testul statistic Z = +1,50, este cuprins n intervalul (-1,96, +1,96), decizia este de a nu respinge H0. Concluzia este c media greutii cu care sunt umplute cutiile de cereale este de 368g. Sau, lund n considerare posibilitatea tipului II de eroare, concluzia poate fi formulat n felul urmtor: nu exist dovezi suficiente c media este diferit de 368g.

76

Fig. 7.3. Pai n testarea unei ipoteze 1. Se enun ipoteza de nul, H0. Ipoteza de nul trebuie enunat n termeni statistici utiliznd parametrii populaiei. 2. Se enun ipoteza de lucru, H1. Ipoteza de lucru trebuie enunat n termeni statistici utiliznd parametrii populaiei. 3. Se alege nivelul de semnificaie, . Nivelul de semnificaie este ales n funcie de importana riscurilor legate de apariia erorilor de tip I i de tip II. 4. Se alege mrimea eantionului, n. Mrimea eantionului este aleas dup luarea n considerare a riscurilor implicate de apariia erorilor de tip I i de tip II (trebuie selectate nivelurile pentru i ) i dup luarea n considerare a constngerilor bugetare. 5. Se determin testul statistic corespunztor. Dac deviaia standard a populaiei, , este cunoscut, testul statistic selectat va fi Z. 6. Se stabilesc valorile critice care separ regiunea de nerespingere de regiunile de respingere. 7. Se colecteaz datele i se calculeaz informaia statistic corespunztoare pentru eantion (media eantionului). 8. Se determin faptul dac testul statistic se situeaz n regiunea de nerespingere sau n regiunile de respingere. 9. Se ia decizia statistic. Dac testul statistic se situeaz n regiunea de nerespingere, atunci ipoteza de nul, H0, nu poate fi respins. Dac testul statistic se situeaz n regiunile de respingere, ipoteza de nul este respins. 10. Decizia statistic trebuie exprimat n contextul problemei.

Perspectiva valorii-p n testarea ipotezelor 77

n ultimii ani, odat cu dezvoltarea programelor statistice, perspectiva valorii-p a devenit tot mai acceptat. Valoarea-p este probabilitatea de a obine un test statistic egal sau dincolo de rezultatul obinut din eantion n condiiile n care ipoteza nul, H0, ar fi adevrat. Valoareap este numit i nivelul observat de semnificaie, care este cea mai mic valoare la care H0 poate fi respins. Decizia pentru respingerea lui H0 din perspectiva valorii-p este luat astfel: dac valoarea-p este mai mare sau egal cu , ipoteza nul nu este respins. dac valoarea-p este mai mic dect , ipoteza nul este respins.

Pentru a nelege perspectiva valorii-p, s relum exemplul cu cerealele. S-a testat faptul dac media greutii cutiilor cu cereale este 368g. A fost obinut o valoare de +1,50 pentru Z, iar ipoteza nul nu a fost respins deoarece aceast valoare este mai mic dect valoarea critic superioar (+1,96) i mult mai mare dect valoarea critic inferioar (-1,96). Pentru utilizarea valorii-p, pentru un test pe dou laturi, trebuie gsit probabilitatea de a obine un test statistic Z care este egal sau mai ndeprtat dect +1,5 deviaii standard fa de centrul distribuiei normal standardizate. Cu alte cuvinte, trebuie calculat probabilitatea de a obine o valoare Z mai mare dect +1,50 sau o valoare Z mai mic dect 1,50. Din tabelul distribuiei normal standardizate (Anexa 1), probabilitatea de a obine o valoare a lui Z mai mic dect 1,50 este de 0,0668, iar cea de a obine o probabilitate mai mic dect +1,50 este de 0,9332. De aceea, probabilitatea de a obine o valoare mai mic dect +1,50 este de 1-0,9332 = 0,0668. Astfel, valoarea-p pentru un test pe dou laturi este 0,0668 + 0,0668 = 0,1336 (Fig. 7.4.).

Fig. 7.4. Gsirea valorii-p pentru un test pe dou laturi

78

Interpretarea rezultatului: probabilitatea de a obine un rezultat egal sau mai ndeprtat dect cel observat este de 0,1336. Deoarece 0,1336 este mai mare dect = 0,05, ipoteza de nul nu poate fi respins. Pai n determinarea valorii-p 1. Se emite ipoteza de nul, H0. 2. Se emite ipoteza de lucru, H1. 3. Se alege nivelul de semnificaie, . 4. Se alege mrimea eantionului, n. 5. Se alege testul statistic corespunztor. 6. Se colecteaz datele i se calculeaz valorile corespunztoare testului statistic. 7. Se calculeaz valoarea-p pe baza testului statistic. Acest lucru implic: a. Trasarea distribuiei bazate pe ipoteza de nul, H0. b. Plasarea testului statistic pe axa orizontal. c. Haurarea ariei corespunztoare de sub curb, pe baza ipotezei de lucru, H1. 8. Se compar valoare-p cu . 9. Se ia decizia statistic. Dac valoarea-p este mai mare sau egal cu , ipoteza de nul nu este respins. Dac valoarea-p este mai mic dect , ipoteza de nul este respins. 10. Se exprim decizia statistic n contextul problemei.

Legtura dintre estimarea intervalului de ncredere i testarea ipotezelor n acest capitol i n cel anterior au fost discutate dou componente majore ale statisticii infereniale: estimarea intervalului de ncredere i testarea ipotezelor. Dei ambele teme se bazeaz pe acelai set de concepte, ele sunt utilizate n scopuri diferite. Intervalele de ncredere sunt utilizate pentru a estima parametrii, iar testarea ipotezelor se face cu scopul de a lua decizii despre anumite valori ale parametrilor populaiei. n exemplul cu cerealele, n loc s testm ipoteza de nul c = 368g, putem ajunge la aceeai concluzie prin estimarea intervalului de ncredere al lui . Dac valoarea de 368g se situeaz n acest interval, ipoteza de nul nu poate fi respins, deoarece 368 nu este o valoare anormal. Pe de alt parte, dac valoarea pentru care se face ipoteza nu se situeaz n intervalul de ncredere, ipoteza de nul este respins, deoarece 368 este considerat o valoare excentric. Utiliznd ecuaia pentru calcularea intervalului de ncredere din capitolul anterior,
X Z

pentru n = 25, X = 372,5g, = 15g i pentru un interval de ncredere de 95% (care corespunde unui nivel de semnificaie de 0,05)
372 ,5 1,96 15 = 372 ,5 5,88 25

366 ,62 378 ,38

79

Deoarece intervalul de ncredere include valoarea pentru care s-a fcut ipoteza (368g), ipoteza de nul nu poate fi respins. Exist prea puine dovezi pentru a concluziona c greutatea medie a cutiilor este diferit de 368g. Adic am ajuns la aceeai decizie ca i n cazul utilizrii metodologiei testrii ipotezelor. 7.3. Teste pe o singur latur Pn acum, metodologia de testare a ipotezelor a fost utilizat pentru a examina dac media populaiei este egal cu cea specificat n ipoteza de nul. Ipoteza de lucru conine dou posibiliti: meid apoate fi mai mic sau mai mare dect cea specificat. Din acest motiv, regiunea de respingere este mprit n dou pri. Totui, n unele situaii, ipoteza de lucru se concentreaz pe o anumit direcie. Ipoteza de lucru H1: > 0 se aplic atunci cnd se dorete detectarea faptului dac este mai mare dect o anumit valoare 0, iar ipoteza de lucru H1: < 0 se aplic atunci cnd se dorete detectarea faptului dac este mai mic dect o anumit valoare 0. Ipotezele de lucru H1: > 0 i H1: < 0 sunt numite ipoteze pe o singur latur sau direcionate. Un astfel de test este aplicat atunci cnd cercettorul prezice o deviaie de la H0 ntr-o anumit direcie. Prin contrast, testele pe dou laturi, H1: 0, se aplic atunci cnd cercettorul dorete s detecteze orice tip de deviaie a lui de la 0. Alegerea ntre cele dou tipuri de teste se face nainte de analizarea datelor. Exemplu S presupunem c o firm de prelucrarea laptelui este interesat dac cei care o aprovizioneaz cu lapte adaug ap, pentru a crete astfel cantitatea vndut. Se tie faptul c exesul de ap reduce temperatura de nghe a laptelui. Punctul de nghe al laptelui natural este normal distribuit, cu o medie de 0,545C. Deviaia standard a temperaturii de nghe a laptelui este cunoscut ca fiind de 0,008C. Deoarece firma de prelucrare a laptelui este interesat doar n determinarea faptului dac temperatura de nghe a laptelui este mai mic dect cea a laptelui natural, ntreaga regiune de respingere este concentrat pe latura inferioar a distribuiei. Ipoteza de nul i ipoteza de lucru sunt urmtoarele: H0: -0,545C H1: < -0,545C Regiunea de respingere este situat n ntregime pe latura inferioar a distribuiei, geoarece se dorete respingerea ipotezei de nul doar cnd media eantionului este semnificativ mai mic dect -0,545C. Dac se alege un nivel de seminifcaie, , de 0,05, valoarea critic a lui Z trebuie s fie negativ. Aa dup cum se vede din Figura 7.5., deoarece ntreaga arie de respingere de 0,05 se gsete n partea inferioar a distribuiei, valoarea critic a lui Z este de 1,645, adic media dintre 1,64 i 1,65. Decizia este de a repinge H0 dac Z < 1,645. Altfe, H0 nu poate fi respins. 80

Fig. 7.5. Testarea unei ipoteze pe o singur latur n situaia noastr, pentru n = 25, X = -0,550C i = 0,008C
Z = X 0,550 ( 0,545 ) = 3,125 0,008 25

Deoarece Z = -3,125 < 1,645, H0, trebuie respins. Concluzia este c sunt dovezi c temperatura medie de nghe este mai mic dect -0,545C. Drept consecin, firma ar trebui s nceap o investigaie cu privire la practicile companiei care o aprovizioneaz cu lapte. Pentru a obine valoarea-p, trebuie calculat probabilitatea de a obine o valoare a lui Z mai mic dect testul statistic de 3,125. Aceast valoare este de 0,0009. Deoarece valoarea-p este mai mic dect nivelul de seminificaie stabilit ( = 0,05), ipoteza de nul este respins. 7.4. Testul t pentru medie, atunci cnd deviaia standard este necunoscut n cele mai multe situaii n care se testeaz ipoteze, deviaia standard a populaiei, , este necunoscut. Astfel, deviaia standard a populaiei este estimat prin calcularea lui S, deviaia standard a eantionului. Dac se presupune c populaia este normal distribuit, distribuia mediei eantioanelor urmeaz (aa cum am artat n capitolul anterior) distribuia t, cu n-1 grade de libertate. Testul statistic t pentru determinarea diferenei dintre media eantionului, X , i media populaiei, , atunci cnd se cunoate deviaia standard a eantionului, S, este dat de urmtoarea ecuaie: 81

t=

X S n

n care testul statistic t urmeaz o distribuie t cu n-1 grade de libertate. S presupunem c o firm umrete cu atenie vnzrile pe care le face. Departamentul de audit al firmei extrage lunar un eantion de facturi. n ultimii ani, valoarea medie a facturilor a fost de 120 de lei. Urmtoarele date reprezint sumele dintr-un eantion aleator de 12 facturi: 108,98 152,22 111,45 110,59 127,46 107,26 93,32 91,97 11,56 75,71 128,58 135,11 Deoarece departamentul de audit este interesat dac apare vreo schimbare n valoarea medie a facturilor emise de ctre firm fa de media lunar de 120 de lei din ultimii ani, indiferent de direcia schimbrii, se utilizeaz un test pe dou laturi pentru urmtoarea ipotez de nul i ipotez de lucru: H0: = 120 lei H1: 120 lei Perspectiva valorii critice Pentru un eantion de mrime n, testul statistic t are o distribuie t cu n-1 grade de libertate. Deoarece ipoteza de lucru nu este direcionat, aria de respingere este mprit n dou, 0,025 pe latura inferioar i 0,025 pe cea superioar (Fig. 7.6.).Dac se alege un nivel de semnificaie = 0,05, valoarea critic a distribuiei t cu 12-1 = 11 grade de libertate poate fi obinut din tabelul Anexei 2 i ea este de 2,2010. Decizia este de a respinge H0 dac t < - t11 = -2,2010 sau t > t11 = +2,2010, altfel H0 nu poate fi respins. Din datele eantionului se pot calcula
n

X =

X
i =1

= 112,85 X )2 = 20,80

S=

(X
i =1

n 1

n aceast situaie, valoarea parametrului t este


t= X 112 ,85 120 = = 1,19 S 20 ,80 n 12

82

Fig. 7.6. Testarea unie ipoteze la 0,05 nivel de semnificaie, pentru 11 grade de libertate Deoarece t = -1,19 se situeaz n regiunea de nerespingere dintre valorile critice t11 = 2,2010, ipoteza nul nu poate fi respins. Nu exist suficiente dovezi pentru a crede c media lunar a facturilor s-a modificat fa de ceea ce era pe termen lung, adic de 120 lei; diferena observat este nesemnificativ i se poate datora unui accident. Perspectiva valorii-p n aceast situaie, valoarea-p poate fi calculat doar cu ajutorul unui program specializat de statistic i ea este de 0,26 pentru un test pe dou laturi. Deoarece valoarea-p, sau nivelul observat de semnificaie, este mai mare dect nivelul de semnificaie, , ipoteza de nul, H 0, nu poate fi respins. Dac ipoteza nul ar fi fost adevrat, probabilitatea ca media eantionului s difere de 120 de lei este de 0,26. Deci departamentul de audit nu are de fcut nici o recomandare ctre conducerea firmei n privina modificrii politicii de vnzri. 7.5. Testul Z pentru proporie n unele situaii se dorete testarea unei ipoteze despre o anumit proporie ntr-o populaie, p, i nu despre o medie a populaiei respective. n aceast situaie se extrage un eantion aleator din cadrul 83

populaiei, ceea ce ne permite s calculm proporia eantionului,

pe =

X . Valoarea acestei informaii n

statistice este comparat cu cea pentru care se face ipoteza, p, astfel nct s se poat lua o decizie n privina ipotezei. Dac numrul de succese, X, i numrul de eecuri, n X, sunt cel puin 5, fiecare dintre ele, distribuia eantioanelor proporiei are o distribuie care se apropie de cea normal standardizat. Testul Z pentru proporie este dat de urmtoarea ecuaie:
Z = pe p p (1 p ) n

unde p e =

X , adic proporia succeselor din eantion n

iar p = proporia de succese din populaie pentru care se face ipoteza. Dac se fac nlocuirile, testul Z poate fi scris i funcie de numrul de succese:
Z = X np np (1 np )

S presupunem c se dorete un rspuns la urmtoarea problem de cercetare: Firmele mici sunt deinute n proporie egal de femei i de brbai?. Se extrage un eantion de 899 de firme mici, 369 dintre acestea fiind deinute de ctre femei. n termeni de proporie, ipoteza nul i ipoteza de lucru pot fi scrise astfel: H0: p = 0,5 (adic proporia de firme mici deinute de femei este de 0,5) H1: p 0,5 (adic proporia de firme mici deinute de femei este diferit de 0,5) Perspectiva valorii critice Deoarece suntem interesai dac proporia firmelor mici deinute de femei este de 0,5 (i deci proporia celor deinute de brbai este de 0,5), va fi utilizat un test pe dou laturi. Dac se alege un nivel de semnificaie = 0,05, regiunile de respingere i de nerespingere apar ca n figura 7.7. Decizia va fi de a respinge H0 dac Z < -1,96 sau Z > +1,96, altfel H0 neputnd fi respins. Din datele culese, p e = Atunci, testul Z va fi:
Z= pe p p (1 p ) n = 0,41046 0,5 0,5(1 0,5) 899 = 0,08954 = 5,37 0,0167
X 369 = = 0,41046 n 899

84

Fig. 7.7. Testarea unei ipoteze pe dou laturi pentru proporie, la un nivel de semnificaie de 0,05 Deoarece 5,37 < -1,96, ipoteza nul, H0, trebuie respins. Deci sunt dovezi c proporia firmelor mici deinute de femei nu este 0,5. Perspectiva valorii-p Probabilitatea de a obine o valoare a lui Z dincolo de 5,37 sau +5,37 este practic 0 (valoarea maxim din tabelul Anexei 1, pentru un Z = 3,9 este de 0,00005). Cu ajutorul unui program de statistic, aceast valoare este gsit ca fiind 0,000000079064. Deoarece aceast valoare este mult mai mic dect nivelul selectat de semnificaie ( = 0,05), ipoteza nul este respins. Valoarea extrem de mic a valorii-p arat c practic nu este nici o ans de a obine o proporie a unui eantion de 0,41046 dac adevrata medie a populiei ar fi 0,5. Exerciii 1. 2. 3. 4. Dac n testarea unei ipoteze (test pe dou laturi) se utilizeaz un nivel de semnificaie de 0,05, ce se va decide dac valoarea calculat a testului Z este +2,21? Dac n testarea unei ipoteze (test pe dou laturi) se utilizeaz un nivel de semnificaie de 0,01, ce se va decide n privina ipotezei de nul dac = 12,5 i se utilizeaz testul Z? Se presupune c n testarea unei ipoteze, valoarea testului statistic Z este +2,0. Care este valoarea-p? Un psiholog realizeaz un experiment pe un eantion de 49 de copii dintr-o coal. Valoare medie a coeficientului de inteligen pentru copiii din eantion este de 103. Considernd c valoarea 85

coeficeintului de inteligen la nivel naional este de 100, cu o deviaie standard de 14, este posibil ca media copiilor din acea coal s fie tot 100? a. Enunai ipoteza de nul i ipoteza de lucru. b. Calculai Z i p. c. Luai o decizie referitor la H0, dac = 0,05. d. Construii un interval de ncredere de 95% pentru i comparai rezultatul cu cel de la punctul c. e. Care ar fi concluzia dac = 0,2, = 0,1 sau = 0,01. De ce = 0,2 nu se utilizeaz de obicei n practic. 5. Un director al unei fabrici de stof trebuie s determine dac un utilaj nou achiziionat produce un anumit tip de stof, n conformitate cu specificaiile productorului: adic stofa s aib o rezisten la rupere de 70 kg, cu o deviaie standard de 3,5 kg. Este extras un eantion de 49 de buci de stof, din care rezult c rezistana la rupere este de 69,1 kg. a. Enunai ipoteza de nul i ipoteza de lucru. b. Exist suficiente dovezi c utilajul nu ndeplinete specificaiile productorului? (utilizai un nivel de semnificaie de 0,05) c. Calculai valoarea-p i interpretai rezultatul ei. d. Care ar fi rspunsul la punctul b dac deviaia standard ar fi 1,75 kg. e. Care ar fi rspunsul la punctul b dac media eantionului ar fi de 69 kg iar deviaia standard 3,5 kg? 6. Se presupune c n testarea unei ipoteze pe o singur latur, unde trebuie respins doar latura superioar, valoarea testului statistic Z este +2,0. Care este valoarea-p? 7. 8. Se presupune c n testarea unei ipoteze pe o singur latur, unde trebuie respins doar latura inferioar, O companie metalurgic fabric bare de oel. Dac procesul de producie este corespunztor, lungimea barelor trebuie s fie de cel puin 2,8 metri i cu o deviaie standard de 0,2m. Barele mai lungi pot fi folosite sau pot fi scurtate, ns barele mai scurte trebuie s fie retopite. De pe banda de fabricaie este selectat un eantion de 25 de bare. Lungimea medie a barelor din eantion este de 2,73m. Compania vrea s determine dac echipamentul su necesit reglaje. a. Enunai ipoteza nul i ipoteza de lucru b. Dac se dorete testarea ipotezei la un nivel de semnificaie de 0,05, care ar fi decizia luat dac se utilizeaz perspectiva valorii critice? c. Dac se dorete testarea ipotezei la un nivel de semnificaie de 0,05, care ar fi decizia luat dac se utilizeaz perspectiva valorii-p? d. Interpretai nelesul valorii-p n aceast problem. 86 valoarea testului statistic Z este 1,38. Care este valoarea-p?

e. Comparai concluziile de la punctele b i c. 9. Un director al unei fabrici de stof trebuie s determine dac un utilaj nou achiziionat produce un anumit tip de stof, n conformitate cu specificaiile productorului: adic stofa s aib o rezisten la rupere de 70 kg, cu o deviaie standard de 3,5 kg. Directorul este ngrijorat de faptul c dac rezistena la rupere este de fapt mai mic dect 70 de kg, firma va trebui s fac fa multor reclamaii. Este extras un eantion de 49 de buci de stof, din care rezult c rezistana la rupere este de 69,1 kg. a. Enunai ipoteza de nul i ipoteza de lucru. b. Exist suficiente dovezi c rezistena medie la rupere este mai mic dect 70 de kg? (utilizai un nivel de semnificaie de 0,05) c. Calculai valoarea-p i interpretai rezultatul ei. d. Comparai rezultatele de la punctul b i c. 10. Dac dintr-un eantion de n = 16 elemente, extras dintr-o populaie normal distribuit, media eantionului este X = 56, iar deviaia standard a eantionului este S = 12, care este valoarea testului t, dac se testeaz o ipotez nul H0, care afirm c = 50? 11. Prorectorul responsabil cu admiterea al unei universiti dorete s i sftuiasc pe prinii viitorilor studeni n legtur cu costul crilor i altor materiale didactice de pe parcursul unui semestru. Este extras un eantion de 100 de studeni, care cheltuie pe cri, n medie 315,4 lei, cu o deviaie standard de 43,20 lei. a. Utiliznd un nivel de semnificaie de 0,1, sunt suficiente dovezi pentru a afirma media populaiei este de peste 300 de lei? b. Care ar fi rspunsul la punctul a dac deviaia standard ar fi de 75 lei, iar nivelul de semnificaie de 0,05? c. Care ar fi rspunsul la punctul a dac media eantionului ar fi de 305,11 lei, iar deviaia standard de 43,20 lei? 12. Un productor de baterii extrage un eantion de 13 baterii de pe banda de producie i le utilizez pn cnd acestea se consum total. Timpul de via, n ore, al bateriilor din eantion este urmtorul: 342 426 317 545 264 451 1049 631 512 266 492 562 298 a. La un nivel de semnificaie de 0,05, exist dovezi durata medie de via a bateriilor este mai mare de 400 de ore? b. Ce sfat i-ai da productorului dac acesta ar vrea s afirme n reclam c bateriile rezist mai mult de 400 de ore? c. Dac prima cifr din ir ar fi 1342 n loc de 342, care ar fi rspunsurile la punctele anterioare? Comentai diferena de rezultat. 87

13.

Exist dovezi pentru a afirma c jumtate dintre angajaii din Romnia au acces la internet la locul de munc? O anchet efectuat pe un eantion de 1000 de angajai indic faptul c 440 dintre acetia au acces la internet. a. Dac este ales un nivel de semnificaie de 0,05, sunt dovezi pentru a afirma ca mai puin de jumtate dintre angajai au acces la internet la locul de munc? b. Calculai valoarea-p i interpretai-o.

14.

Directorul de personal al unei companii de asigurri este interesat de a reduce rata mortalitii agenilor n primul lor an de la angajare. Datele din anii precedeni indic faptul c 25% dintre noii angajai renun la locul de munc n primul an. Un nou program de pregtire este lansat pentru pregtirea unui eantion de 150 de noi angajai. La sfritul primului an de slujb, 29 dintre cei 150 care au urmat cursul prsiser compania. a. La un nivel de semnificaie de 0,01, sunt dovezi pentru a afirma c proporia celor care abandoneaz firma este mai mic de 25%? b. Calculai valoarea-p i interpretai-o. c. Care ar fi rspunsul la punctul a dac numrul celor care au prsit compania ar fi de 22? d. Calculai valoarea-p, pentru punctul c, i interpretai-o.

88

Anexa 1 Aria de sub curba normal de la - la Z

z -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 -----------------------------------------------------------------------------0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

89

Aria de sub curba normal de la - la Z

z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 -----------------------------------------------------------------------------0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

90

Anexa 2 Valorile critice ale lui t


gr. de libertate aria din latura sup. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 120 0,25 1.000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0.6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0,6816 0.6807 0,6800 0.6794 0.6786 0,6780 0.6776 0,6772 0.6770 0.6765 0.6745 0,10 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 1,3062 1.3031 1,3006 1.2987 1.2958 1,2938 1.2922 1,2910 1.2901 1.2886 1.2816 0,05 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 1,6896 1.6839 1,6794 1.6759 1.6706 1,6669 1.6641 1,6620 1.6602 1.6577 1.6449 0,025 12.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1315 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 2,0301 2.0211 2,0141 2.0086 2.0003 1,9944 1.9901 1,9867 1.9840 1.9799 1.9600 0,01 31.8207 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5177 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 2,4377 2.4233 2,4121 2.4033 2.3901 2,3808 2.3739 2,3685 2.3642 2.3578 2.3263 0,005 63.6564 9.9248 5.8409 4.6041 4.0322 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 2,7238 2.7045 2,6896 2.6778 2.6603 2,6479 2.6387 2,6316 2.6259 2.6174 2.5758

91

S-ar putea să vă placă și