Sunteți pe pagina 1din 132

Date de identificare a cursului

Date de contact tituar curs Nume: Conf.univ.dr. Cristian Chifu Birou: Facultatea de Business, Str. Horea nr.7, cam.213 Telefon: 0264-599170 Fax: 0264 590110 E-mail: cristian.chifu@tbs.ubbcluj.ro Consultaii: vineri 10.00 12.00; rspuns la ntrebrile adresate prin e-mail max. 48 de ore Date de identificare curs i contact tutori Denumire curs: Prelucrri statistice pe computer Cod: IAA2120 ECTS: 6 An II Semestrul: III Tip curs: obligatoriu Pagina web: www.tbs.ubbcluj.ro https://portal.portalid.ubbcluj.ro Tutori: Asist.drd. Ionu Traian Luca

Condiionri i cunotine prerechizite:


Pentru a parcurge aceast disciplin, studenii trebuie s aib o serie de cunotine minime, dobndite n cadrul disciplinei Statistic aplicat Susinerea examenului la aceast disciplin este condiionat de promovarea examenului la disciplina Statistic Aplicat.

Descrierea cursului
Cursul presupune dezvoltarea unor abiliti de utilizare a tehnicilor statististice n analizarea unor fenomene economice. Obiectivele cursului sunt: dobndirea de cunotine i aptitudini ntr-un domeniu cu o aplicabilitate deosebit de mare n economie: statistica aplicat; dezvoltarea abilitilor de studiu a unui fenomen economic cu ajutorul instrumentelor statistice; dezvoltarea abilitilor de comunicare n limbajul statisticii aplicate; dezvoltarea abilitilor de conexiune ntre disciplina Statistic aplicat i disciplinele de profil.

Organizarea temelor n cadrul cursului


Temele abordate n cadrul acestui curs sunt structurate astfel nct s permit atingerea principalelor obiective prezentate n descrierea cursului. Parcurgerea coninutului disciplinei conduce la atingerea urmtoarelor obiectivelor mai sus menionate. Datorit dinamicii informaionale, n fiecare an sursele de informare se vor modifica n conformitate cu ultimele evoluii n domeniu i vor fi comunicate n timp util pe platforma https://portal.portalid.ubbcluj.ro. De asemenea, sursele

de informare vor fi disponibile i pe CD-ul care va conine materialele aferente acestui curs. O detaliere a temelor se gsete n calendarul cursului.

Formatul i tipul activitilor implicate


Laboratorul este gndit ca unul interactiv; studenii pot s trimit comentariile cu privire la temele abordate i/sau pot s completeze informaiile furnizate cu noi informaii la care au acces. Studenii dispun de libertatea de a-i gestiona singuri modalitatea i timpul de parcurgere a cursului. Este, ns, recomandat parcurgerea succesiv a modulelor n ordinea indicat i ndeplinirea sarcinilor indicate n cadrul fiecrui modul. Studenii vor putea beneficia de consultaii att la sediul facultii, n cadrul orelor precizate anterior, precum i prin intermediul comunicrii prin e-mail.

Materialele i instrumentele necesare pentru curs


Aa cum artam ntr-un paragraf anterior, pe lng materialele puse la dispoziie pe CD i/ sau n form tiprit, studenii vor lucra mult cu informaiile disponibile (n mod gratuit) pe Internet, precum i cu studiile de caz i articolele puse la dispoziie de cadrul didactic. De asemenea, se vor folosi soft-uri specializate.

Calendarul cursului
n derularea acestei discipline sunt programate 4 ntlniri (fa n fa) cu studenii nscrii. n cadrul primei ntlniri se vor parcurge primele trei uniti; pentru a doua ntlnire este programat parcurgerea unitilor 4, 5, n urmtoarea ntlnire se vor parcurge unitile 6, 7, 8, 9 i 10, iar ultima ntlnire este destinat unitilor 11 i 12. Pentru ca aceste ntlniri s devin cu adevrat interactive i pentru a se putea focaliza pe aspectele importante dar i a detaliilor necesare, studenilor li se recomand s parcurg suportul de curs pus la dispoziie la nceputul semestrului; ulterior ntlnirii se recomand rezolvarea sarcinilor indicate.

Tematica cursurilor predate n cadrul acestei discipline cuprinde:


1. Tematica cursului: Selecii statistice Selecia simpl. Selecia stratificat.
Metoda clusterelor. Selecia sistematic. 2. Tematica cursului: Distribuii de selecie Distribuia de selecie a mediei. Distribuia de selecie a proporiei. 3. Tematica cursului: Distribuii de selecie Distribuia de selecie a diferenei a dou medii. Distribuia de selecie a diferenei a dou proporii.

4. Tematica cursului: Estimarea parametrilor Estimarea punctual a


parametrilor. Estimarea parametrilor prin intervale de ncredere. Interval de ncredere pentru valoarea medie. Interval de ncredere pentru proporie. 5. Tematica cursului: Estimarea parametrilor Interval de ncredere pentru diferena a dou medii. Interval de ncredere pentru diferena a dou proporii. Interval de ncredere pentru valoarea median. 6. Tematica cursului: Verificarea ipotezelor statistice Verificarea ipotezelor asupra valorii medii i asupra proporiei. 7. Tematica cursului: Verificarea ipotezelor statistice Verificarea ipotezelor asupra diferenei valorilor medii. 8. Tematica cursului: Verificarea ipotezelor statistice Verificarea ipotezelor asupra diferenei proporiilor. 9. Tematica cursului: Verificarea ipotezelor statistice Teste de concordan 10. Tematica cursului: Analiza varianei ANOVA 11. Tematica cursului: Analiza legturilor dintre variabile Regresia liniar simpl. 12. Tematica cursului: Analiza legturilor dintre variabile Regresia liniar multipl. 13. Tematica cursului: Analiza legturilor dintre variabile Alte tipuri de regresie.

Politica de evaluare i notare


Evaluarea se va face pe parcursul semestrului i la final prin: 1) realizarea unui raport reprezentnd 50% din nota final ; 2) examenul final reprezentnd 50% din nota final. Raportul final completat se va trimite prin e-mail pn cel trziu n ultima zi a semestrului. Examenul din sesiune cu o pondere de 50% din nota final, este considerat promovat dac s-a obinut minim nota 5 (cinci). Prin temele de control i proiectele pe care trebuie s le ntocmeasc, studenii vor dobndi competenele necesare pentru aplicarea cunotinelor dobndite la nivel practic. Rezultatele obinute la aceast disciplin se vor comunica pe parcurs, prin anunarea notelor pariale i la final prin anunarea notei finale. Aceast comunicare se poate realiza att fa n fa, ct i prin afiarea notelor pe platforma aflat la dispoziia studenilor la aceast form de nvmnt. Fiecare student poate solicita un feed-back suplimentar prin contactarea titularului de curs i/sau a tutorilor prin intermediul adresei de e-mail.

Elemente de deontologie academic


Prezena la cursuri i seminarii nu este obligatorie. Prezentarea la examen nu este condiionat de un numr minim de prezene la curs sau la seminar. Tocmai de aceea se va da posibilitatea studenilor de a trimite sarcinile de lucru fie on-line fie prin pot pn la o dat ce se va anuna pe platform. Se consider plagiat orice lucrare care reproduce n proporie de minim 40% informaii din alte surse nespecificate. Constatarea plagiatului duce la anularea evalurii lucrrii respective, precum i la alte sanciuni prevzute n regulamentele studeneti; se poate ajunge pn la neprimirea studentului n sesiunea de examene programat. n cazul n care se utilizeaz frauda la examen, procesul de examinare va fi sistat imediat, iar lucrarea va fi anulat. Rezultatele procesului de examinare vor fi puse la dispoziia studenilor pe platforma dedicat acestora. Contestaiile trebuie s fie depuse n maxim 24 de ore de la afiarea rezultatelor; rspunsul la contestaii se va da n maxim 48 de ore.

Studenii cu dizabiliti
Metodele de transmitere a informaiilor cu privire la aceast disciplin se pot adapta n funcie de tipul de dizabiliti ntlnite n rndul cursanilor. Accesul egal la informaie i la activitile didactice pentru cursani se va asigura prin toate msurile (rezonabile) cu putin.

Strategii de studiu recomandate


Este recomandat parcurgerea sistematic a modulelor (structurate pe cele 11 uniti de curs); se pune accentul pe pregtirea individual continu, prin acumulare constant a cunotinelor, precum i pe evalurile formative de pe parcursul semestrului. Numrul de ore necesare parcurgerii i nsuirii cunotinelor necesare promovrii acestei discipline este, n funcie de capacitile fiecruia, ntre 50 i 55 de ore. Documentarea i elaborarea proiectelor necesit un interval de 25-35 de ore. Aceste ore vor fi alocate, pe parcursul semestrului, de fiecare student, n funcie de preferinele individuale.

SUPORT DE CURS

Modulul I Distribuii de selecie


Unitatea 1: Selecia simpl. Selecia stratificat. Metoda clusterelor. Selecia sistematic. Unitatea 2: Distribuia de selecie a mediei. Distribuia de selecie a proporiei. Unitatea 3: Distribuia de selecie a diferenei a dou medii. Distribuia de selecie a diferenei a dou proporii.

Scop i obiective
Scop Acest modul urmrete s familiarizeze studenii diferitele modaliti de construire a eantioanelor, prezentndu-se cteva modaliti de selecie a elementelor dintr-o populaie statistic. Pe lng acest scop, un altul este acela de a introduce noiunea de distribuie de selecie a diferiilor parametrii cu care studenii au fost familiarizai n semestru II. Obiective specifice urmrite Deprinderea diferitelor tipuri de selecie statistic i nelegerea particularitilor acestora; Inelegerea conceptului de distribuie de selecie; Deprinderea relaiilor ntre parametrii distribuiilor de selecie i cei calculai la nivel de populaie ; Deprinderea modalitilor de determinare a formei distribuiei de selecie. Concepte de baz Eantion; selecie simpl; distribuii de selecie.

Unitatea 1 Selecii statistice


1.1. Introducere
n semestrul II al anului I ne-am ocupat cu prezentarea elementelor legate de statistica descriptiv. Statistica descriptiv este acea parte a statisticii ce folosete metode tabelare, grafice i numerice n vederea organizrii i prezentrii datelor. Am vzut aadar cum se organizeaz datele sub form de serie statistic, cum se reprezint acestea grafic precum i cum anume se calculeaz anumii parametrii cum ar fi parametrii tendinei centrale, parametrii de structur sau parametrii variaiei. S-au definitit conceptele de populaie i eantion ca fiind dou dintre cele mai importante concepte ale studiilor statistice. Populaia statistic este un ansamblu de elemente (uniti) considerate ntr-un studiu iar eantionul este un subansamblu al unei populaii. De cele mai multe ori n practic studierea comportamentului unei ntregi populaii n raport cu una sau mai multe variabile ori nu este posibil ori nu este raional implicnd cel mai adesea costuri prea ridicate. Tocmai de aceea cercetarea ce se dorete a fi efectuat se va rezuma doar la un eantion extras prin metode specifice din populaia considerat. Studiind eantioanele extrase din diferite populaii ajungem la o alt parte deosebit de important a statisticii i anume statistica inferenial. Din punct de vedere al etimologiei, cuvntul inferen provine din limba francez inference i nseamn o operaie logic de derivare a unui enun din altul, prin care se admite o judecat (al crei adevr nu este verificat direct) n virtutea unei legturi a ei cu alte judeci considerate ca fiind adevrate. Adaptnd aceast definiie a cuvntului inferen vom spune c statistica inferenial ce este acea parte a statisticii care folosete informaiile obinute pe un eantion n testarea unor ipoteze asupra populaiei. Aadar, scopul statisticii infereniale este acela de a face inferene relativ la o populaie pornind de la informaiile coninute de un eantion. Studiul inferenelor statistice presupune tratarea a dou mari probleme i anume: 1. estimarea parametrilor necunoscui ai populaiei din care a fost extras eantionul; 2. verificarea ipotezelor statistice asupra valorilor parametrilor populaiei. Pentru a face ct mai clar problematica studiului inferenelor statistice s considerm urmtorul exemplu: Exemplul 1.1.1. Un productor de lmpi de iluminat dorete s scoat pe pia un nou tip de bec la care consumul de energie este foarte mic. nainte de lansare productorul dorete s afle informaii despre durata medie de funcionare a unui asemenea bec. Cum testarea ntregii producii de becuri este practic imposibil productorul va culege informaii pe baza unui eantion de becuri care sunt folosite nentrerupt pn la 7

ardere. Rezultatele obinute n baza acestui experiment vor putea fi apoi folosite n estimarea duratei medii de via a noului tip de bec. Spre exemplu productorul selecteaz un eantion de 100 de becuri. Testul a condus la o medie de funcionare a noului tip de bec de 240 zile. De aici rezult o estimare a duratei medii de funcionare a noului tip de bec i anume 240 zile. Este clar c rezultatele obinute la nivel de eantion furnizeaz doar estimri ale valorilor la nivel de populaie. Apare astfel ntrebarea ct de bune sunt aceste estimri?

1.2. Selecii statistice


Considerm o populaie statistic de volum N. Din aceast populaie pot fi extrase un umr mare de eantioane. O modalitate de extragere a unui eantion de volum n< N este aceea de a selecta din elementele populaiei n elemente, acest procedeu fiind cunoscut sub numele de selecie statistic. Una dintre cele mai simple modaliti de formare a eantioanelor cu ajutorul elementelor unei populaii este selecia simpl.

1.2.1. Selecia simpl


O prim problem care imprim seleciei simple anumite particulariti este tipul populaiei din care sunt selectate elementele. Astfel apar dou tipuri de selecii simple i anume: selecia simpl dintr-o populaie finit; selecia simpl dintr-o populaie infinit. Selecia simpl dintr-o populaie finit Selecia dintr-o populaie finit presupune c orice eantion de volum n poate fi extras cu aceeai probabilitate. Selecia dintr-o populaie finit poate fi fcut n dou moduri i anume: cu repetare; fr repetare. Selecia simpl repetat presupune faptul c odat ce un element a fost extras din populaia originar el este apoi reintrodus n colectivitate astfel c el poate fi selectat din nou. Selecia simpl repetat are urmtoarele caracteristici: volumul populaiei rmne acelai pe tot parcursul selectrii unitilor ce vor forma eantioanele; la fiecare extragere orice element are aceeai probabilitate de a fi selecionat; acelai element al colectivitii poate fi extras de mai multe ori, ceea ce influeneaz negativ precizia rezultatului seleciei; numrul eantioanelor de volum n ce pot fi extrase prin selecie simpl repetat dintr-o populaie de volum N este Nn. Selecia simpl nerepetat presupune faptul c odat ce un element a fost extras din populaia originar el nu mai este reintrodus n colectivitate. 8

Selecia simpl nerepetat are urmtoarele caracteristici: volumul populaiei scade consecutiv cu cte o unitate pe msura ce se extrag elemente pentru formarea eantionului, astfel c la sfritul procesului de eantionare volumul populaiei va fi N-n; scderea continu a volumului populaiei face ca elementele ce particip la urmtoarea extragere s aib o probabilitate din ce n ce mai mare de a fi selectate; acelai element nu poate fi inclus de mai multe ori ntr-un eantion, ceea ce conduce la erori de reprezentativitate mai mici dect n cazul seleciei simple repetate; numrul eantioanelor de volum n ce pot fi extrase prin selecie n simpl nerepetat dintr-o populaie de volum N este C N . Exemplul 1.2.1. O populaie originar este format din ase firme, fiecare avnd o cifr de afaceri anual de 10, 12, 15, 18, 20, 25 mii RON. Folosind selecia simpl repetat i cea nerepetat vom forma toate eantioanele de volum n=2. Eantioanele selectate cu ajutorul seleciei simple repetate vor fi: (10,10) (10,12) (10,15) (10,18) (10,20) (10,25) (12,10) (12,12) (12,15) (12,18) (12,20) (12,25) (15,10) (15,12) (15,15) (15,18) (15,20) (15,25) (18,10) (18,12) (18,15) (18,18) (18,20) (18,25) (20,10) (20,12) (20,15) (20,18) (20,20) (20,25) (25,10) (25,12) (25,15) (25,18) (25,20) (25,25)

Observm c toate caracteristicile seleciei repetate sunt respectate adic: volumul populaiei rmne acelai pe tot parcursul seleciei i anume 6; la fiecare extragere orice element are aceeai probabilitate de a fi selecionat i anume

1 ; 6

numrul eantioanelor de volum n ce pot fi extrase prin selecie simpl repetat dintr-o populaie de volum N este Nn=62=36. Eantioanele formate cu ajutorul seleciei simple nerepetate vor fi: (10,12) (10,15) (10,18) (10,20) (10,25) (12,15) (12,18) (12,20) (12,25) (15,18) (15,20) (15,25) (18,20) (18,25) (20,25)

i n acest caz toate caracteristicile seleciei nerepetate sunt respectate: volumul populaiei scade consecutiv cu cte o unitate pe msura ce se extrag elemente pentru formarea eantionului;

scderea continu a volumului populaiei face ca elementele ce particip la urmtoarea extragere s aib o probabilitate din ce n ce mai mare de a fi selectate; acelai element nu poate fi inclus de mai multe ori ntr-un eantion, ceea ce conduce la erori de reprezentativitate mai mici dect n cazul seleciei simple repetate. numrul eantioanelor de volum n ce pot fi extrase prin selecie simpl nerepetat dintr-o populaie de volum N este 2 n C N = C6 =15. Selecia simpl dintr-o populaie infinit Cele mai multe cazuri n economie n care apare nevoia eantionrii implic o populaie originar finit. Totui exist cazuri n care populaia originar este fie infinit fie att de mare nct va fi presupus infinit. n selecia fcut dintr-o populaie infinit trebuie ndeplinite urmtoarele condiii: fiecare element selectat provine din aceeai populaie; fiecare element selectat este independent de celelalte. Exemplul 1.2.2. Managerii unui supermarket urmresc valoarea cumprturilor fcute ntr-o anumit zi de ctre clieni. Aadar populaia supus studiului este format din clienii supermarketului populaie ce evident, netiindu-se volumul su, poate fi considerat infinit. Din aceast populaie se va extrage un eantion de un anumit volum. Este evident c fiecare element selectat provine din aceeai populaie i anume clienii supermarketului. Pe de alt parte este la fel de evident c elementele selectate sunt independente. n concluzie se observ c n acest exemplu caracteristicile seleciei dintr-o populaie infinit sunt respectate.

1.2.2. Selecia stratificat


Selecia stratificat se aplic n special atunci cnd populaia nu este omogen. innd cont de aceast caracteristic a populaiei, selecia simpl ar conduce la eantioane nereprezentative. n selecia stratificat se mparte mai nti populaia n grupe de elemente, grupe ce se vor numi straturi. O caracteristic a acestor straturi este c un element al populaiei poate aparine doar unui singur strat. Spre exemplu dac am considera o companie ce are 10 departamente atunci fiecare departament poate constitui un strat. n constituirea stratului trebuie avut n vederea ca acestea s fie ct de ct omogene. Dup stabilirea straturilor folosind selecia simpl, din fiecare strat se vor extrage elemente pn la constituirea eantionului. Apar urmtoarea ntrebare: Cum se stabilete numrul de uniti ce vor fi extrase din fiecare strat? Presupunem c avem o populaie de volum N. Elementele populaiei vor fi mprite pe r straturi de volume Ni, i= 1, r . Din fiecare strat se vor extrage ni elemente, una dintre metodele stabilirii lui ni fiind metoda proporiilor: 10

ni n n = ni= N i . Ni N N

Exemplul 1.2.3. O companie ce deine patru departamente are 1000 de angajai mprii astfel: N1=200, N2=250, N3=400, N4=150. S se extrag un eantion de volum 100. Soluie n acest caz avem N=1000, n=100. Astfel obinem: 1 ni= Ni 10 Folosind aceast relaie obinem: n1=20, n2=25, n3=40, n4=15.

1.2.3. Metoda clusterelor


Metoda clusterelor se aplic n special n cazul sondrii unei populaii care este aezat pe o arie extins iar ntre diferitele zone exist diferene importante. Metoda clusterelor const n mprirea teritoriului n zone geografice (clustere) iar dup stabilirea unor cote, selectarea aleatoare a elementelor din aceste zone. Metoda poate fi combinat i cu selecia stratificat ce poate fi aplicat n interiorul clusterelor. Aceast metod furnizeaz cele mai bune rezultate atunci cnd elementele coninute n clustere sunt eterogene. n cazul ideal fiecare cluster este o reprezentare la scar mai mic a populaiei originare.

1.2.4. Selecia sistematic


Selecia sistematic se aplic n cazul unei populaii de volum mare. S presupunem c dorim studierea unei populaii de volum N=10000 i dorim extragerea unui eantion de volum n=50. Folosind selecia sistematic vom proceda la extragerea unui element iar apoi vom extrage tot al 200-lea element pn la constituirea eantionului. Astfel eantionul va fi format din elementele: 1, 200, 400, 600,..., 9800, 10000. De cele mai multe ori se consider c selecia sistematic are aceleai caracteristici ca i selecia simpl.

11

Unitatea 2 Distribuii de selecie I


Aa cum spuneam puin mai devreme dintr-o populaie originar de volum N pot fi extrase un numr mare de eantioane de diferite volume. Calculnd valorile unui anumit parametru pentru fiecare eantion vom obine valori diferite ale acestuia pentru fiecare eantion. Toate valorile posibile ale parametrului respectiv vor forma distribuia de selecie a parametrului. Trei lucruri ne vor interesa n ceea ce privete o distribuie de selecie i anume: 1. definiia; 2. parametrii distribuiei de selecie; 3. forma distribuiei de selecie.

2.1. Distribuia de selecie a mediei


Definiia

Distribuia de selecie a mediei este distribuia de probabilitate a tuturor valorilor posibile ale mediei de eantion x .
Exemplul 2.1.1. Relativ la eantioanele extrase n exemplul 1.2.1. vom obine urmtoarele distribuii de selecie a mediei (se calculeaz valoarea medie pentru fiecare eantion obinut): cazul seleciei repetate 11 12 13,5 15 16 18,5 12,5 13,5 15 16,5 17,5 20 14 15 16,5 18 19 21,5 15 16 17,5 19 20 22,5 17,5 18,5 20 21,5 22,5 25

10 11 12,5 14 15 17,5

Distribuia de selecie a mediei n acest caz va fi: Media de eantion 10 11 12 12,5 13,5 14 15 16 16,5 Frecvena 1 2 1 2 2 2 5 2 2 12 Probabilitatea de apariie 1/36 2/36 1/36 2/36 2/36 2/36 5/36 2/36 2/36

17,5 18 18,5 19 20 21,5 22,5 25 cazul seleciei nerepetate 11 12,5 14 15 17,5 13,5 15 16 18,5

4 1 2 2 3 2 2 1

4/36 1/36 2/36 2/36 3/36 2/36 2/36 1/36

16,5 17,5 20

19 21,5

22,5

Distribuia de selecie a mediei n acest caz va fi: Media de eantion 11 12,5 13,5 14 15 16 16,5 17,5 18,5 19 20 21,5 22,5 Frecvena 1 1 1 1 2 1 1 2 1 1 1 1 1 Probabilitatea de apariie 1/15 1/15 1/15 1/15 2/15 1/15 1/15 2/15 1/15 1/15 1/15 1/15 1/15

Parametrii distribuiei de selecie Media distribuiei de selecie x Media distribuiei de selecie este valoarea medie a tuturor mediilor de eantion. S calculm valoarea medie n cazul distribuiilor de selecie obinute n exemplul 2.1.1. cazul seleciei simple repetate

x =

10 1 + 11 2 + ... + 22 ,5 2 + 25 1 =16,66 mld. ROL 36

13

n cazul seleciei nerepetate vom avea:

x =

11 1 + 12 ,5 1 + ... + 21,5 1 + 22 ,5 1 =16,66 mii RON. 15

S calculm acum valoarea medie a populaiei:

10 + 12 + 15 + 18 + 20 + 25 =16,66 mii RON. 6

Observm aadar c indiferent de tipul de selecie utilizat media distribuiei de selecie este egal cu media populaiei adic x =.
2 Dispersia distribuiei de selecie x

Dispersia distribuiei de selecie este dispersia mediilor de eantion. S calculm valoarea dispersiei n cazul distribuiilor de selecie obinute n exemplul 1.2.1. cazul seleciei simple repetate vom avea: (10 16 ,66 )2 1 + (11 16 ,66 )2 2 + ... + (22 ,5 16 ,66 )2 2 + (25 16 ,66 )2 1 = 2 x = 36 =12,61.

2 x =

(11 16 ,66 )2 1 + (12 ,5 16 ,66 )2 1 + ... + (22 ,5 16 ,66 )2 1 =10,088.


15

cazul seleciei nerepetate vom avea:

S calculm acum dispersia populaiei: (10 16 ,66 )2 + ... + (25 16 ,66 )2 =25,22. 2 x = 6 Observm c proprietatea existent n cazul mediilor nu se mai menine i n cazul dispersiilor. Cu alte cuvinte dispersia calculat n cazul populaiei nu mai este egal cu dispersia distribuiei de selecie n nici una dintre cele dou tipuri de selecie. Acest lucru se datoreaz tocmai modalitii de selectare a elementelor eantioanelor adic se datoreaz tocmai modalitilor de eantionare. Pornind de aici, n continuare pentru a msura variaia n cazul unei distribuii de selecie nu vom folosi abaterea medie ptratic ci aa numita eroare standard a mediei (ERS). Mai nti vom vedea care este legtura dintre dispersia la nivel de populaie i dispersia la nivel de eantion n fiecare din cele dou tipuri de selecii prezentate mai sus.

Selecia simpl repetat


2 x =12,61= 2 25 ,22 x = . 2 n

14

Observm c n cazul seleciei simple repetate valoarea dispersie distribuiei de selecie este egal cu dispersia populaiei mprit la volumul eantionului (n=2), aadar:
2 x = 2 x

Selecia simpl nerepetat


2 x =10,088= 2 25 ,22 4 x N n = . 2 5 n N 1

Observm c n cazul seleciei simple nerepetate apare un nou factor i anume numit factor de corecie astfel c n acest caz vom obine: 2 x N n 2 x = n N 1 Aadar eroarea standard a mediei ERS se va calcula astfel:

N n N 1

Populaie infinit: ERS = x = Populaie finit: ERS= = x =

x
n
n

N n . N 1

Observaie n cazul n care volumul populaiei este mare iar selecia este nerepetat atunci factorul de corecie poate fi neglijat. Pentru a avea o idee asupra situaiilor n care putem neglija factorul de corecie, vom spune c acesta poate fi neglijat atunci cnd volumul eantionului n este mai mic dect 5% din volumul populaiei N, adic n< 0,05N. Forma distribuiei de selecie a mediei
Este clar c una sau alta dintre tipurile de selecie simpl conduce la anumite erori numite erori de eantionare generate de diferena dintre media de eantion i media populaiei x (abatere). Acestea pot s apar sau nu cu o anumit probabilitate. Astfel apare urmtoarea ntrebare: Cum poate fi msurat probabilitatea de eroare ce apare ca rezultat al eantionrii? Rspunsul este dat de studiul relaiilor dintre distribuia de selecie i populaia originar nu n termenii statisticii descriptive ci n termenii distribuiilor de probabilitate. Astfel apare o problem deosebit de interesant i n acelai timp important i anume cea a formei distribuiei de selecie a mediei. Aceast problem trebuie discutat n dou cazuri i anume: cnd nu se cunoate forma distribuiei populaiei originare i cazul n care distribuia populaiei originare este normal. n primul caz forma distribuiei mediei de selecie se determin ca o consecin a teoremei limite centrale i anume:

15

n cazul n care nu se cunoate forma distribuiei populaiei, distribuia de selecie a mediei poate fi aproximat cu o distribuie normal, ori de cte ori volumul de selecie este mare (n 30). Cu alte cuvinte, distribuia de selecie poate fi considerat normal indiferent de populaia originar, dac volumul de selecie este destul de mare.
n cel de al doilea caz avem urmtorul rezultat:

n cazul n care distribuia populaiei originare este normal atunci distribuia de selecie a mediei este de asemenea normal.
Pentru clarificarea noiunilor discutate pn aici vom da n continuare cteva exemple:

Exemplul 2.1.2. Dou sute de firme au un profit mediu de 3 mii RON cu o abatere medie ptratic de 1 mld. ROL i o distribuie normal. S se determine probabilitatea ca un eantion de 100 de firme s aib un profit mediu: 1. cuprins ntre 290 i 310 mii RON; 2. mai mare de 320 mii RON. Soluie 1. Observm c populaia urmeaz legea de distribuie normal. Aadar orice eantion ce va fi extras din populaia originar va urma legea normal ceea ce nseamn c forma distribuiei de selecie a mediei va fi normal. Acest lucru nseamn c x N( x , x ) de unde obinem c variabila

z=

x x

N(0,1). Dar cum x = obinem c z=

N(0,1) (vezi Capitolul 9).

Trebuie determinat urmtoarea probabilitate:

310 290 <x< P = P 2 ,9 < x < 3 ,1 . 100 100 Media de selecie este x ==3 mii RON.
Pe de alt parte raportul dintre volumul eantionului i volumul populaiei este

n 100 = = 0 ,5 ceea ce nseamn c volumul eantionul reprezint mai mult de 5% din N 200
volumul populaiei. Aadar n calcularea erorii standard a mediei va trebui luat n calcul i factorul de corecie: N n x= x =0,07. n N 1

2 ,9 3 = -1,43. 0 ,07 3 ,1 3 Dac x =3,1 atunci z= = 1,43. 0 ,07 Vom avea P 2 ,9 < x < 3 ,1 = P ( 1,43 < z < 1,43 ) =2 P(0 < z < 1,43 ) =0,8472. 320 2. Trebuie determinat probabilitatea P x > = P x > 3 ,2 100
Dac x =2,9 atunci z=

16

3 ,2 3 = 2,86. 0 ,07 Vom avea P x > 3 ,2 = P ( z > 2 ,86 ) =0,5 P(0 < z < 2 ,86 ) = 0,5 0,4979= 0,0021.
Dac x =3,2 atunci z=

2.2. Distribuia de selecie a proporiei


n multe situaii ce intervin n practica economic, variabila n raport cu care este studiat populaia exprim o caracteristic pe care o posed anumite elemente ale populaiei. Spre exemplu relativ la angajaii unei firme o caracteristic poate fi reprezentat de nivelul de calificare. Vom fi interesai n acest caz de proporia angajailor care posed un anumit nivel de calificare. Presupunem c dintr-o populaie originar se extrage un eantion de volum n, iar din cele n elemente, k posed o anumit caracteristic. n acest caz proporia la nivel de eantion ca fi:

p=

k . n

Exemplul 2.2.1. La ieirea din secia de votare 150 persoane au fost chestionate n legtur cu candidatul pentru care au votat. Din cele 150 de persoane 45 au afirmat c au votat cu candidatul X. n acest caz proporia la nivel de eantion a celor care au votat cu X va fi:

p=
Definiia

45 = 0 ,3 (30%). 150

Distribuia de selecie a proporiei este distribuia de probabilitate a tuturor valorilor posibile ale proporiei de eantion p .
Parametrii Media distribuiei de selecie p :

p = p,
unde p este proporia la nivel de populaie.

Dispersia distribuiei de selecie 2 p

p( 1 p ) n cazul populaiei infinite; n p( 1 p ) N n 2= n cazul populaiei finite. p n N 1

2= p

17

Eroarea standard a proporiei

p= p=

p( 1 p ) n cazul populaiei infinite; n p( 1 p ) N n n cazul populaiei finite. n N 1

Forma distribuiei de selecie a proporiei Distribuia de selecie a proporiei poate fi aproximat cu o distribuie normal ori de cte ori np 5 i n(1-p) 5. Exemplul 2.2.2. Un eantion de volum n=400 este selectat dintr-o populaie n care p=0,2. S se determine media distribuiei de selecie a proporiei, eroarea standard a proporiei precum i forma distribuiei de selecie a proporiei. Care este probabilitatea ca proporia la nivel de eantion s se abat de la proporia populaiei cu 0,025? Soluie:

p = p= 0,2.

Deoarece nu cunoatem volumul populaiei putem presupune c aceasta este infinit. n consecin n calculul erorii standard a proporiei nu trebuie introdus factorul de corecie. Astfel vom obine:

p=

p( 1 p ) 0 ,2 0 ,6 = =0,02. n 400

Pentru a determina forma distribuiei vom calcula cele dou produse: np = 4000,2 =80 5 n(1-p) = 4000,8 = 320 5. n consecin distribuia de selecie a proporiei poate fi aproximat cu distribuia normal. Deoarece distribuia de selecie a proporie urmeaz legea normal adic

p N( p , p ), obinem c variabila z=
z=

p p

N(0,1). Cum p =p obinem c

p p

N(0,1).

Trebuie determinat probabilitatea: P 0 ,025 < p p < 0 ,025 .

0 ,025 = - 1,25. 0 ,02 0 ,025 Dac p p = -0,025 atunci z= = 1,25. 0 ,02 Vom avea P 0 ,025 < p p < 0 ,025 =P ( 1,25 < z < 1,25 ) =0,7888.
Dac p p = -0,025 atunci z=

18

Unitatea 3 Distribuii de selecie 2


3.1. Distribuia de selecie a diferenei a dou valori medii
De multe ori n practica economic intervine problema comparrii unor grupuri extrase din aceeai populaie sau din populaii diferite. Spre exemplu se dorete compararea performanelor muncitorilor din dou secii diferite ale aceleai fabrici sau se dorete compararea performanelor unui nou model de automobil cu performanele modelelor anterioare. n acest caz din punct de vedere statistic se vor compara valorile medii ale populaiilor din care provin cele dou eantioane. Considerm dou populaii originare studiate n raport cu o anumit variabil. 2 2 Fie 1 i 2 valorile medii ale celor dou populaii iar 1 respectiv 2 dispersiile celor dou populaii. Scopul nostru este acela de a estima diferena 1 - 2. Pentru aceasta din fiecare populaie extragem cte un eantion de volum n1 respectiv n2. Presupunem c mediile de eantion sunt x1 respectiv x2 . n cele ce urmeaz introducem noiunea de distribuie de selecie a diferenei mediilor:

Definiie

Numim distribuia de selecie a diferenei mediilor, distribuia de probabilitate a diferenelor tuturor perechilor posibile de medii de eantion.
Parametrii Media distribuiei de selecie: x x =1 - 2;
1 2

Eroarea standard a diferenei mediilor: x x =


1 2

12
n1

2 2

n2

Forma distribuiei
1. Dac populaiile din care sunt extrase eantioanele sunt normal distribuite atunci distribuia de selecie a diferenei mediilor este normal. 2. Dac n1 30, n2 30, atunci distribuia de selecie a diferenei mediilor poate fi aproximat cu o distribuie normal.

19

3.2. Distribuia de selecie a diferenei a dou proporii


n foarte multe aplicaii statistice un interes deosebit l reprezint compararea a dou proporii. Considerm c din dou populaii s-au extras dou eantioane de volume n1 i respectiv n2. Presupunem totodat c proporiile la nivel de populaii sunt p1 respectiv p2. Fie p1 respectiv p 2 proporiile la nivel de eantion: n ceea ce privete distribuia de selecie a diferenei a dou proporii avem urmtoarele:

Parametrii Media distribuiei de selecie:


p1 p2

=p1 p2;
1 p2

Eroarea standard a diferenei proporiilor: p Forma distribuiei

p1 (1 p1 ) p 2 (1 p 2 ) . + n1 n2

n cazul n care n1p15, n1(1-p1)5, n2p25, n2(1-p2)5 atunci distribuia de selecie a diferenei a dou proporii poate fi aproximat cu distribuia normal.

Verificarea cunotinelor
1. Fie Z o variabil aleatoare ce urmeaz legea normal standard. Calculai: 1. P(0 Z 0,35); 2. P(-1,24 Z 0); 3. P(Z< 2,35); 4. P(Z -0,47); 5. P(|Z| 0,17). 2. Determinai valoarea zo variabilei aleatoare Z care urmeaz legea normal standard, tiind c: 1. aria poriunii mrginit de graficul distribuiei normale, 0 i zo este 0,1544. 2. aria poriunii mrginit de graficul distribuiei normale, aflat la dreapta lui zo, este 0,2335. 3. Fie X o variabil aleatoare ce urmeaz legea normal cu =100, =20. Calculai: 1. P(90 X 120); 2. P(X 150); 3. P(X< 50). 4. O populaie normal distribuit are =100 i =25. Se extrage un eantion de volum n=50. Se cere: 1. media distribuiei de selecie; 2. eroarea standard a mediei; 3. forma distribuiei de selecie a mediei; 4. probabilitatea ca media de eantion s se abat de la media

20

populaiei cu 5. 5. probabilitatea ca abaterea mediei de eantion de la media populaiei s fie: a. cel mult 2; b. cel puin 3. 5. Greutile sacilor de fin dintr-o moar sunt normal distribuite cu o medie de 120 kg. i o abatere medie de 2 kg. Dac se iau la ntmplare 5 saci care este probabilitatea ca: 1. greutatea total s fie de cel mult 400 kg.; 2. greutatea medie s fie de cel puin 103 kg. 6. Se consider o populaie originar de volum N=5000. Din aceast populaie se extrage un eantion de volum n=50. 1. trebuie folosit n acest caz factorul de corecie pentru calcularea erori standard a mediei? 2. dac =10, calculai eroarea standard a mediei n ambele cazuri; 3. care este probabilitatea ca abaterea mediei de eantion de la media populaiei s fie cuprins ntre 5? 7. Pentru a estima durata medie de via a celor 2000 de baterii produse zilnic de o companie se extarge un eantion de 200 de baterii. 1. care este forma distribuiei de selecie? 2. dac abaterea medie ptratic timpului de funcionare a bateriilor este =2 zile determinai eroarea standard a mediei; 3. determinai probabilitatea ca media de eantion s se abat de la timpul mediu de funcionare cu 2 zile. 8. Preul mediu unui automobil marca X este 25.000 euro cu o abatere medie de 5000 euro. Se consider un eantion de de n=100 de automobile. Determinai probabilitatea ca media de eantion s se abat de la preul mediu cu 1000 euro respectiv 500 euro. 9. 200 de firme au o cifr de afaceri medie de 2 mil. RON cu o abatere medie de 0,5 mil. RON. Care este probabilitatea ca un eantion de 50 de firme s aib cifra de afaceri total cuprins ntre 90 i 100 mil. RON? 10. Un motor electric are durata medie de via de 3 ani cu o abatere medie de 0,5 ani. Care este probabilitatea ca un eantion de 40 de motoare electrice s aib durata medie de via mai mare de 4 ani? 11. Folosind selecia simpl, dintr-o populaie n care p=0,28, se extrage un eantion de volum n=200. Determinai media distribuiei de selecie a proporiei, eroarea standard a proporiei precum i forma distribuiei de selecie a proporiei. 12. Un eantion de volum n=200, este extras dintr-o populaie n care p=0,7. Care este probabilitatea ca proporia la nivel de eantion s se abat de la proporia populaiei cu 0,09.

21

Modulul II Estimarea parametrilor


Unitatea 4: Estimarea parametrilor I Unitatea 5: Estimarea parametrilor II

Scop i obiective
Scop Acest modul are ca scop creare de abiliti n calcularea i estimarea parametrilor unei populaii pornind de la datele obinute la nivel de eantion Obiective specifice urmrite

Deprinderea modalitilor de determinare a parametrilor repartiiilor unidimensionale. nelegerea conceptelor de estimare i estimator n contextul inferenelor statistice. nelegerea noiunilor de estimator punctual i interval de ncredere. Deprinderea modalitilor de determinare a intervalelor de ncredere. Deprinderea modalitilor de determinare a volumului unui eantion. Deprinderea modalitilor de lucru cu mai multe eantioane. Eantioane independente, eantioane perechi.
Concepte de baz Estimator punctual; interval de ncredere; nivel de semnificaie; nivel de ncredere.

22

Unitatea 4 Estimarea parametrilor I


4.1. Introducere
Aa cum am vzut n Unitatea 1, statistica inferenial este acea parte a statisticii n care pornind de la informaiile furnizate de eantion se ncearc realizarea unor inferene la nivel de populaie. Una dintre marile probleme tratate prin intermediul inferenelor statistice este cea a estimrii parametrilor necunoscui ai populaiei din care a fost extras eantionul. Cu alte cuvinte pornind de la valorile parametrilor calculai la nivel de eantion se ncearc estimarea parametrilor corespunztori la nivel de populaie. n general sunt folosite dou tipuri de estimare a parametrilor populaiei i anume: 1. estimarea punctual a parametrilor; 2. estimarea parametrilor prin intervale de ncredere.

4.2. Estimarea punctual a parametrilor


n acest tip de estimare valorile parametrilor calculai la nivel de eantion sunt folosite pentru a estima parametrii corespunztori ai populaiei originare. S presupunem c dintr-o populaie originar s-a extras un eantion de un anumit volum. Fie un parametru al populaiei (necunoscut) i fie corespondentul su la nivel de eantion (cunoscut).

se numete:

1. estimator nedeplasat al lui dac =;

3. estimator consistent al lui dac valorile sale tind spre pe msur ce volumul eantionului crete.

2. estimator eficient dac eroarea standard a parametrului este minim, adic este minim;

Observaie 1. Un estimator nedeplasat este n acelai timp i un estimator consistent. 2. este un bun estimator punctual pentru dac posed toate cele trei caracteristici de mai sus.

n cele ce urmeaz vom puncta pe scurt estimatori punctuali ai principalilor parametrii.


Exemplul 4.2.1. Datele urmtoare corespund unui eantion de 8 angajai ai unei companii studiai n raport cu salariul lunar exprimat n mii RON. 6, 8, 10, 7, 10, 12, 14, 5. Pe de alt parte se tie c 2 din cei 8 angajai au urmat un curs de calificare.

23

S se estimeze punctual: 1. media populaiei; 2. abaterea medie ptratic a populaiei; 3. eroarea standard a mediei; 4. proporia populaiei.

Soluie Estimatorul punctual al valorii medii a populaiei este media de eantion

x=

xi .
n

Aceast afirmaie se bazeaz pe relaiile cunoscute n cazul parametrilor distribuiei de selecie a mediei i anume: x =

x =
x =
x=

x
x

n
n

n cazul populaiei infinite;

N n n cazul populaiei finite. N 1

Conform celor de mai sus, calculnd media de eantion obinem:

xi = 6 + 8 + 10 + 7 + 10 + 12 + 14 + 5 = 72 =9.
n 8 8

Aadar putem estima c salarul mediu lunar al angajailor companiei este de 9000 RON.
2 Estimatorul punctual al dispersiei populaiei x este dispersia de eantion

2 x

(xi x ) =
n 1

Estimatorul punctual al abaterii medii ptratice a populaiei x este abaterea medie ptratic de eantion
2 sx= s x .

Vom calcula dispersia la nivel de eantion:

2 x

(xi x ) =
n 1
2 x

(6 9 )2 + ... + (5 9 )2 = 66 =9,43. =
7 7

sx= s = 9 ,43 =3,011.


Estimm c salariile angajailor companiei se abat n medie de la salariul mediu cu 3011 RON.

Estimatorul punctual al erorii standard a mediei x este s x unde:

24

sx =
sx =

sx n
sx n

n cazul populaiei infinite;

N n n cazul populaiei finite. N 1 sx n


=

Calculnd eroarea standard a medie vom obine: s x =

3 ,07 = 1,08. 8

Estimatorul punctual al proporiei populaiei p este proporia la nivel de eantion p.


Aceast afirmaie se bazeaz pe relaiile cunoscute n cazul parametrilor distribuiei de selecie a proporiei i anume: p = p,

p= p=

p( 1 p ) n cazul seleciei repetate; n p( 1 p ) N n n cazul seleciei nerepetate. n N 1


2 8

Calculnd proporia la nivel de eantion vom obine: p = =0,25. Aadar estimm c

25% din angajaii companiei au urmat un curs de calificare.

4.3. Estimarea parametrilor prin intervale de ncredere


Estimarea punctual a parametrilor furnizeaz rareori rezultate bune. Acest lucru se datoreaz n primul rnd erorilor de eantionare. Astfel c n cele mai multe cazuri valorile estimate punctual ale parametrilor populaiei sunt departe de cele reale. Tocmai de aceea se ncearc determinarea unor intervale pentru parametrul ce se vrea a fi estimat. Astfel problema care se pune este cea a determinrii pentru fiecare parametru a unui interval astfel nct cu o anumit probabilitate valoarea real a parametrului s se gseasc n interiorul intervalului.

Intervalul (1,2) se numete interval de ncredere pentru parametrul necunoscut dac P(1< < 2)= 1, unde (1) se numete coeficient (nivel) de ncredere iar se numete coeficient (nivel) de semnificaie.
Observaie Dac este un estimator punctual al parametrului necunoscut atunci intervalul de ncredere pentru parametrul va avea forma: (eroarea de eantion)

25

Observaie Nivelul de ncredere 1 reprezint probabilitatea cu care valoarea parametrului la nivel de eantion va furniza o anumit valoarea a erorii de eantion.

4.3.1. Interval de ncredere pentru estimarea valorii medii


Cunoatem faptul c media de eantion x este un estimator punctual al mediei populaiei . Astfel un interval de ncredere pentru valoarea medie a populaiei va fi de forma: x (eroarea de eantion) Problema care se pune acum este cea a determinrii erorii de eantion cu un coeficient (nivel) de ncredere de 1. Pentru aceasta va trebui s lum n considerare mai multe cazuri i anume:

Cazul eantioanelor de volum mare (n30)


n acest caz eroarea de eantion sau marginea erorii se va calcula astfel: dac se cunoate dispersia populaiei 2 atunci eroarea de eantion va fi z 2 x ; dac nu se cunoate dispersia populaiei aceasta va fi nlocuit cu estimatorul su punctual s2 astfel c eroarea de eantion va fi z 2 s x .

Observaie Expresia z 2 x ( z 2 s x ) se mai numete i margine a erorii.


n concluzie un interval de ncredere pentru valoarea medie cu un coeficient de ncredere de 1 va fi de urmtoarea form: Dac se cunoate dispersia populaiei atunci:

x z 2 x
unde x =

sau x =

N n N 1 n

Dac nu se cunoate dispersia populaiei atunci:

x z 2 s x
unde s x =

sx n

sau s x =

N n sx N 1 n

Observaie 1. Valoarea lui z 2 se citete din tabelul distribuiei normale innd cont de
relaia:

P(0< z < z

)=

1 2

26

2. n general sunt folosite urmtoarele valori ale nivelului de ncredere:

Nivel de semnificaie Nivel de ncredere P(0< z < z ) z 2 2 1 0,1 0,90 0,45 1,65 0,05 0,95 0,475 1,96 0,01 0,99 0,495 2,58
Exemplul 4.3.1. Pentru a estima costul mediu al cazrii/noapte ntr-o anumit staiune este studiat un eantion de 64 de turiti. Datele obinute au artat un cost mediu de 32 euro. 1. Presupunnd c abaterea medie ptratic la nivel de populaie este =2,4 euro determinai un interval de ncredere pentru valoarea medie cu un coeficient de ncredere de 0,95. 2. Presupunnd c nu se cunoate dispersia populaiei dar c eantionul a 2 furnizat o dispersie s x =4, determinai un interval de ncredere pentru valoarea medie cu un coeficient de ncredere de 0,95. Soluie 1. n primul caz abaterea medie ptratic a populaiei se cunoate, astfel c un interval de ncredere pentru valoarea medie a populaiei va fi de forma:

x z 2 x x =
=

2 ,4 = 0,3; n 64 1 - = 0,95 z 2 =1,96.


Marginea erorii va fi: z 2 x = 1,960,3=0,588. Astfel obinem:

(32-0,588; 32+0,588) (31,412; 32,588)

Aadar costul mediu al cazrii/noapte este cuprins ntre 31,412 i 32,588 euro. 2. n cel de al doilea caz nu cunoatem dispersia populaiei astfel c ea va fi 2 nlocuit cu estimatorul ei punctual s x =4. Astfel c un interval de ncredere pentru valoarea medie a populaiei va fi de forma:

x z 2 s x
sx = sx =

2 =0,25; n 64 1 - = 0,95 z 2 =1,96.


Marginea erorii va fi: z 2 x = 1,960,25=0,49. Astfel obinem:

(32-0,49; 32+0,49) (31,51; 32,49)

Aadar costul mediu al cazrii/noapte este cuprins ntre 31,51 i 32,49 euro.

27

Determinarea volumului eantionului


Adesea se pune urmtoarea ntrebare: Ct de mare trebuie s fie eantionul extras pentru ca eroarea de eantion s aib o anumit limit impus?

z 2 z 2 x E n E ; 2 z 2 s x z 2 s x E n E (n cazul n care nu se cunoate


dispersia populaiei).
Exemplul 4.3.2. O populaie originar are abaterea medie ptratic =7,5. Ct de mare trebuie s fie un eantion extras din aceast populaie astfel nct cu un coeficient de ncredere de 0,95, marginea erorii s fie de cel mult 1,5 ? Soluie n acest caz avem E=1,5, z 2 =1,96, =7,5. Vom obine:

z 2 1,96 7 ,5 n E = 1,5 =96. Cazul eantioanelor de volum mic (n< 30)


2

Aa cum am vzut n cazul anterior, dac se cunoate abaterea medie a populaiei () sau dac volumul eantionului extras este suficient de mare (n 30) atunci distribuia de selecie a mediei poate fi aproximat cu distribuia normal astfel c n calculul erorii de eantion se va folosi statistica z. Dac volumul eantionul extras din populaia studiat este mic nu vom putea presupune c distribuia de selecie poate fi aproximat cu cea normal. n acest caz statistica z se va nlocui cu statistica t =

x , statistic ce sx

urmeaz legea Student cu n-1 grade de libertate, unde n este volumul eantionului extras.

Observaie 1. Gradele de libertate indic numrul valorilor lsate s varieze libere n cadrul unui eantion de volum dat. Pe msur ce numrul gradelor de libertate crete, distribuia Student se apropie de distribuia normal. 2. Numrul gradelor de libertate pierdute este egal cu numrul parametrilor populaiei estimai ca baz n determinarea inferenelor statistice.
n acest caz un interval de ncredere pentru valoarea medie cu un coeficient de ncredere de 1 va fi de forma:

(x t 2;(n1) gl s x )

28

unde s x =

sx n

sau s x =

N n sx N 1 n

Observaie Valorile lui t 2;(n 1) gl se citesc din tabelul distribuiei Student (Anexa 2). Spre exemplu pentru un eantion de volum n=13 i un nivel de semnificaie =0,05 i corespunde t0,025;12=2,179. Exemplul 4.3.3. S se determine un interval de ncredere pentru salarul mediu al angajailor companiei de la Exemplul 2.2.1. cu un nivel de ncredere de 0,95. Soluie Problema se ncadreaz n acest caz deoarece volumul eantionului este 8. Aadar un interval de ncredere pentru salarul mediu va avea forma: x t 2;(n1) gl s x .

sx =

sx n

3 ,07 = 1,08. 8

Cum coeficientul de ncredere este 0,95 vom obine = 1 0,95 = 0,05. Pe de alt parte cum volumul eantionului este 8, numrul gradelor de libertate va fi 8 1 = 11. Astfel n tabelul distribuiei Student vom cuta valoarea lui: t0,025;7=2,365. Marginea erorii va fi n acest caz: t0,025;7 s x = 2,3651,08=2,55. Astfel vom obine, cu un nivel de ncredere de 95%, c salariul mediu lunar al angajailor companiei se afl n intervalul: (9-2,55;9+2,55); (6,45; 11,55).

4.3.2. Interval de ncredere pentru estimarea proporiei


n general cnd se dorete estimarea proporiei dintr-o populaie se lucreaz cu eantioane de volum mare astfel c relaiile np5 respectiv n(1-p)5 sunt n general ndeplinite. n aceste condiii tim c distribuia de selecie a proporiei poate fi aproximat cu distribuia normal. Pe de alt parte estimatorul punctual al proporiei populaiei p este proporia la nivel de eantion p . Un interval de ncredere pentru estimarea proporiei populaiei cu un nivel de ncredere de 1 va fi de forma:

p p z 2 s p
unde s p =

p 1 p sau s p = n

N n N 1

p 1 p n

29

Exemplul 4.3.4. Se consider un eantion de 250 de persoane chestionate n legtur cu satisfacia oferit de locul de munc. Din cele 250 de persoane, 175 s-au declarat satisfcute de locul de munc deinut n prezent. Se cere: 1. estimai proporia populaiei ce se declar mulumit de locul de munc deinut; 2. Cu un nivel de ncredere de 90% determinai un interval de ncredere pentru proporia populaiei ce se declar mulumit de locul de munc. Soluie 1. Pentru a estima proporia populaiei ce se declar mulumit de locul de munc vom determina proporia la nivel de eantion:

p=

175 = 0,70. 250

Aadar estimm c 70% din populaie se declar mulumit de locul de munc deinut. 2. p p z 2 s p

p 1 p 0 ,70 0 ,30 = =0,0289. 250 n 1 - = 0,90 z 2 =1,65 sp =


Marginea erorii va fi: z 2 s p = 1,650,0289=0,0476. Astfel vom obine c cu un nivel de ncredere de 90% proporia populaiei ce se declar mulumit de locul de munc deinut se afl n intervalul: p (0,70 0,0476;0,70+0,0476); p (0,6524; 0,7476).

Determinarea volumului eantionului


Dac se dorete determinarea mrimii unui eantion astfel nct proporia populaiei p s aib o anumit valoare cu o margine a erorii de cel mult E i cu un nivel de ncredere de 1 atunci:

2 z 2 p (1 p )

E2

Exemplul 4.3.5. Ct de mare trebuie s fie eantionul n cazul exemplului 2.3.4. pentru ca proporia populaiei s fie 0,85 cu o eroare de cel mult 3%. Soluie
2 z 2 p (1 p )

E2

(1,65 )2 0 ,85(1 0 ,85 ) 386 persoane. = (0 ,03)2

Observaie Cnd nu avem nici o informaie asupra proporiei populaiei vom considera p=0,50.
30

Unitatea 5 Estimarea parametrilor II


5.1. Interval de ncredere pentru estimarea diferenei a dou valori medii
De multe ori n practica economic intervine problema comparrii unor grupuri extrase din aceeai populaie sau din populaii diferite. Spre exemplu se dorete compararea performanelor muncitorilor din dou secii diferite ale aceleai fabrici sau se dorete compararea performanelor unui nou model de automobil cu performanele modelelor anterioare. n acest caz din punct de vedere statistic se vor compara valorile medii ale populaiilor din care provin cele dou eantioane. Problema diferenei valorilor medii trebuie discutat n dou cazuri distincte i anume: 1. eantioane independente; 2. eantioane perechi.

Cazul eantioanelor independente


S trecem acum la estimarea prin intervale de ncredere a diferenei valorilor medii. Ca i n cazul estimrii valorii medii i aici suntem nevoii s considerm dou cazuri mari i anume eantioane independente de volum mare i eantioane independente de volum mic.

o Eantioane independente de volum mare (n1 30, n2 30)


n cazul eantioanelor independente de volum mare un interval de ncredere pentru diferena mediilor cu un nivele de ncredere de 1 va avea forma:

1 2 x1 x2 z 2 x x
1

unde x x =
1 2

12
n1

2 2

n2

Dac nu se cunosc dispersiile populaiilor atunci acestea se nlocuiesc cu 2 2 estimatorii lor punctuali i anume dispersiile de eantion s 1 , s 2 , iar x x se
1 2

nlocuiete cu estimatorul su punctual s x

1 x2

2 2 s1 s 2 + . n1 n 2

Astfel n acest caz intervalul va avea urmtoarea form: 1 2 x1 x2 z 2 s x x .

Exemplul 5.1.1. Se consider dou populaii originare studiate n raport cu aceeai variabil. Din prima populaie se extrage un eantion de volum n1=50 ce a furnizat o valoare medie x1 =15 cu o abatere medie s1=4. Din cea de a doua populaia s-a extras un
eantion de volum n2=75 ce a furnizat o medie x2 =12 cu o abatere medie s2=3. Cu

31

un nivel de ncredere de 95% s se determine un interval de ncredere pentru diferena valorilor medii ale celor dou populaii.

Soluie Deoarece nu cunoatem dispersiile celor dou populaii vom folosii cea de a doua form a intervalului de ncredere i anume:

1 2 x1 x2 z 2 s x x
1

2 2 s1 s 2 16 9 + + = =0,36. sx x = 1 2 n1 n2 50 75 1 - = 0,95 z 2 =1,96

z 2 s x x =1,960,36 =0,7
1 2

1-2(3-0,7;3+0,7) 1-2(2,3;3,7).

o Cazul eantioanelor de volum mic (n1< 30, n2< 30)


Acest caz se mparte la rndul su n dou subcazuri i anume:
2 2 Cazul populaiilor cu dispersii egale ( 1 = 2 = 2 )

Aceast situaie este des ntlnit mai ales n cazul proceselor de producie ndelungate n care pe baza experienelor trecute se tie c variaia n cadrul fiecrei populaii este aceeai. n acest caz dispersia populaiilor se va nlocui cu estimatorul su punctual s2 care se va calcula ca o medie ponderat a dispersiilor de eantion i se va numi dispersie combinat:

(n1 1)s 12 + (n 2 1)s 22 . = (n1 + n 2 2 )


sx
1 x2

Eroarea standard va avea expresia:

=s

1 1 + , n1 n 2

iar un interval de ncredere pentru diferena valorilor medii cu un coeficient de ncredere de 1 va fi de forma: 1 2 x1 x 2 t 2; gl s x x ,

unde gl este numrul gradelor de libertate care n acest caz este n1+n22.

Exemplul 5.1.2. Din dou populaii originare avnd dispersii egale s-au extras urmtoarele dou eantioane: 2, 5, 5, 3, 4, 7, 4, 2, 5, 3; 2, 4, 5, 3, 1, 2, 3, 4. Cu un nivel de ncredere de 95% s se determine un interval de ncredere pentru diferena mediilor celor dou populaii.

32

Soluie

1 2 x1 x 2 t 2; gl s x x
1

sx s

1 x2

=s

(n1 1)s 12 + (n 2 1)s 22 = (n1 + n 2 2 )

1 1 + n1 n 2

Vom determina mediile i dispersiile de eantion: n cazul primului eantion vom avea:

2 + 5 + 5 + 3 + 4 + 7 + 4 + 2 + 5 + 3 40 = =4; 10 10 (2 4 )2 + ... + (3 4 )2 = 22 =2,44; 2 s1 = 9 9


x1 = x2 =

n cazul celui de al doilea eantion vom avea:

2 + 4 + 5 + 3 + 1 + 2 + 3 + 4 24 = =3; 8 8 (2 3)2 + ... + (4 3)2 = 12 =1,71; 2 s2 = 7 7

Dispersia combinat va fi:

(n1 1)s12 + (n2 1)s22 = 9 2 ,44 + 7 1,71 = 34 =2,125; = (n1 + n2 2 ) 16 16


=s 1 1 1 1 + =1,008. + =2,125 10 8 n1 n 2

sx

1 x2

Numrul gradelor de libertate este 16 astfel c n tabelul distribuiei Student vom cuta valoarea t0,025;16=2,11. Marginea erorii va fi t Obinem astfel :
2 ,gl x1 x2

=2,121,008=2,14.

1-2(1-2,14;1+2,14) 1-2(-1,14;3,14).

2 2 Cazul populaiilor cu dispersii diferite ( 1 2 )

n acest caz vom avea:

1 2 x1 x 2 t 2; gl s x x
1

sx

1 x2

2 2 s1 s 2 + n1 n 2

33

gl numr grade de libertate=

2 2 s1 s 2 + n n 2 1 2 1 2

1 s 1 s + n n1 1 1 n2 1 n2
2 2

Exemplul 5.1.3. Dac vom considera c cele dou populaii de la exemplul anterior au dispersii diferite atunci vom obine:

1 2 x1 x 2 t 2; gl s x x
1

sx

1 x2

2 2 s1 s 2 2 ,44 1,71 + = =0,611. + 10 8 n1 n 2 2 2 s1 s 2 + n n 2 1 2 2

numr grade de libertate=

2 2 1 s1 1 s2 + n1 1 n1 n2 1 n2

0 ,21 =15. 0 ,007 + 0 ,007

Aadar numrul gradelor de libertate este 15 astfel c n tabelul distribuiei Student vom cuta valoarea t0,025;15=2,131. Marginea erorii va fi t
2 ,gl x1 x2

=2,1310,67=1,43.

1-2(1-1,43;1+1,43) 1-2(-0,43;2,43).

Cazul eantioanelor perechi


Prin eantioane perechi nelegem dou eantioane ce conin aceleai uniti statistice iar caracteristica aleas este observat n dou etape diferite. Un exemplu ar fi eantioanele ce conin performanele a dou echipe de muncitori msurate nainte i dup parcurgerea unui curs de calificare.

Exemplul 5.1.4. Datele de mai jos reprezint timpii realizai de o echip ce asambleaz manual anumite produse de artizanat nainte i dup parcurgerea unui stagiu de pregtire: Muncitor nainte de stagiu Dup stagiu 1 10 8 2 10 7 3 8 7 4 9 9 5 7 6 6 8 7 7 9 8 8 6 5

34

9 10

8 9

5 6

S se estimeze diferena dintre performanele muncitorilor nainte i dup parcurgerea stagiului de pregtire, cu un nivel de ncredere de 95%. n cazul eantioanelor perechi problema estimrii diferenei valorilor medii se pune puin altfel. n acest caz se va considera variabila d=x1 x2, relativ la care vom avea: d i i Valoarea medie: d = i , di = x1 x2 n
2 Dispersia: sd

(d d ) = i
n 1

;
2 sd ;

Abaterea medie ptratic s d = Eroarea standard s d =

sd n

Astfel n cazul eantioanelor de volum mare un interval de ncredere va avea forma: d d z 2 s d ,

iar n cazul eantioanelor de volum mic:

d (d t 2;(n1) gl s d )

n cazul exemplului nostru vom avea:

nainte de stagiu Dup stagiu 10 8 10 7 8 7 9 9 7 6 8 7 9 8 6 5 8 5 9 6


d=
2 sd

di 2 3 1 0 1 1 1 1 3 3

di = 2 + 3 + 1 + 0 + 1 + 1 + 1 + 1 + 3 + 3 =1,6;
n

(di d ) = (2 1,6 )2 + ... + (3 1,6 )2 = 10 ,4 =1,15; =


2

10

n1

2 s d = s d =1,075; s 1,075 =0,34. sd = d = n 10

35

Deoarece volumul eantioanelor este mic forma intervalului va fi:

d d t 2;(n 1) gl s d d (0 ,89;2 ,37 ) .

Vom cuta n tabelul distribuiei Student valoarea t0,025;9=2,262. Marginea erorii va fi: t 2;(n 1) gl s d =2,2620,34=0,711. Deoarece d > 0 putem concluziona c performanele muncitorilor s-au mbuntit dup parcurgerea cursului de pregtire.

5.2. Interval de ncredere pentru estimarea diferenei a dou proporii


n foarte multe aplicaii statistice un interes deosebit l reprezint compararea a dou proporii. Considerm c din dou populaii s-au extras dou eantioane de volume n1 i respectiv n2. Presupunem totodat c proporiile la nivel de populaii sunt p1 respectiv p2. Fie p1 respectiv p 2 proporiile la nivel de eantion:

Observaie n general proporiile p1 i p2 ale populaiilor considerate nu sunt cunoscute. De aceea p p se nlocuiete cu estimatorul su punctual:
1 2

sp

1 p2

p1 1 p1 p 1 p2 + 2 . n1 n2

Un interval de ncredere pentru diferena a dou proporii cu un coeficient de ncredere de 1 va fi de forma: p1 p2 p1 p 2 z 2 s p p .

Exemplul 5.2.1. La Universitatea A din 200 de studeni chestionai 180 au participat la examenul de licen. La Universitatea B din 150 de studeni chestionai 120 au participat la examenul de licen. S se determine un interval de ncredere pentru diferena proporiilor studenilor ce au participat la examenul de licen n cele dou universiti folosind un coeficient de ncredere de 95%. Soluie
p1 p2 p1 p 2 z 2 s p

1 p2

Vom calcula mai nti proporiile la nivel de eantion:

180 = 0 ,90 ; 200 120 p2 = = 0 ,80 . 150


p1 =

36

Calculm acum eroarea standard:

p1 p2 (0 ,1 0 ,076 ;0 ,1 + 0 ,076 ) p1 p2 (0 ,024 ;0 ,176 ) .

p1 1 p1 p 1 p2 0 ,9 0 ,1 0 ,8 0 ,2 + + 2 = =0,0388; 1 p2 200 150 n1 n2 1 - =0,95 z/2=1,96 z/2 s p p =0,076; sp


=
1 2

Putem trage concluzia c studenii din Universitatea A au participat ntr-o proporie mai mare la examenul de licen.

5.3. Interval de estimare pentru valoarea median


Exist numeroase cazuri n practic n care datorit faptului c variaia valorilor fa de valoarea medie este foarte mare (valoare prea mare a coeficientului de variaie al lui Pearson), aceasta nu este reprezentativ n studiul populaiei considerate. n acest caz, aa cum am vzut n Capitolul 5, valoarea medie se nlocuiete cu valoarea median. Din aceast cauz a aprut firesc problema determinrii unor intervale de ncredere pentru estimarea valorii mediane. Considerm un eantion de volum n iar valorile variabilei n raport cu care acesta este studiat sunt (ordonate cresctor) x1, ..., xn. Un interval de ncredere pentru valoarea median a populaiei din care s-a extras eantionul va avea ca limite valorile a cror rang se calculeaz astfel:

n n z 2 + 1; 2 2 n n Rangul limitei superioare = + z 2 . 2 2


Rangul limitei inferioare =

Observaie Dac volumul eantionului extras este mic (n< 30), atunci n locul statisticii z se va folosi statistica t astfel c rangurile celor dou valori limit vor fi:

n n t 2 ,( n 1 ) gl + 1; 2 2 n n Rangul limitei superioare = + t 2 ,( n 1 ) gl . 2 2


Rangul limitei inferioare =

Exemplul 5.3.1. Tabelul urmtor conine observrile generate de greutatea (n kg.) a bagajelor a 35 de pasageri care folosesc serviciile unei companii aeriene. Greutatea bagajelor
12 14 12 17 21 23 22 27 19 17 25 15 27 23 18 30 28 27 17 16 18 17 23 31 31

37

18 19

20 28

20 30

26 29

24 16

Vom determina un interval de ncredere pentru greutatea median a bagajelor tuturor pasagerilor companiei aeriene cu un coeficient de ncredere de 95%. Volumul eantionului este 35. Ordonnd datele cresctor vom obine c valoarea median la nivel de eantion este 21. Pe de alt parte cum 1 =0,95 obinem z/2=1,96. Astfel rangul limitei inferioare va fi superioare va fi

n z 2

n + 1 =12,718 iar cel al limitei 2

n + z 2

n =23,282. 2

Astfel greutatea median a bagajelor pasagerilor companiei aeriene va fi cuprins ntre valorile 12 i 24 adic ntre 18 i 25 kg.

Verificarea cunotinelor
Intervale de ncredere pentru valoare medie
Cazul eantioanelor de volum mare (n30)
1. Se consider un eantion de volum n=100. Se tie c valoarea medie de eantion este 30, iar abaterea medie ptratic a populaiei este 5. Se cere: a. eroarea standard a mediei; 2. eroarea standard a mediei n cazul n care volumul populaiei este N=1000; 3. un interval de ncredere pentru media populaiei cu un coeficient de ncredere de 0,95, att n cazul n care se tie volumul populaiei ct i n cazul n care volumul populaiei nu se cunoate. 2. Se consider un eantion de volum n=100. Se tie c valoarea medie de eantion este 80 iar abaterea medie ptratic de eantion este 10. Se cere: 1. estimatorul punctual al erorii standard a mediei; 2. un interval de ncredere pentru media populaiei cu un coeficient de ncredere de 0,95. 3. Un eantion de volum n=64 a furnizat o valoare medie de 25 cu o abatere medie ptratic de 4. Determinai un interval de ncredere pentru valoarea medie a populaiei cu nivel de ncredere de: 1. 99%; 2. 95%; 3. 90%. 4. Un eantion de volum n=50 a furnizat o medie de 35 cu o abatere medie de 10. 1. cu un nivel de ncredere de 95% determinai un interval de ncredere pentru valoarea medie a populaiei; 2. cu un nivel de ncredere de 95% determinai un interval de ncredere

38

pentru valoarea medie a populaiei n cazul n care rezultatele au fost obinute de pe un eantion de volum n=150. 3. ce efect are mrirea volumului eantionului asupra intervalului de ncredere. Explicai. 5. O populaie originar are abaterea medie ptratic =5. Cu un coeficient de ncredere de 95% determinai ce volum trebuie s aib un eantion extras din populaie pentru ca marginea erorii s fie de cel mult: 1. 3; 2. 5. 6. Preul mediu al unui apartament cu o camer este de 34500 euro cu o abatere medie de 2500 euro. Rezultatele au fost obinute n urma unui studiu efectuat pe 80 de agenii imobiliare. Cu un nivel de ncredere de 90% determinai un interval de ncredere pentru preul mediu a apartamentelor cu o camer de piaa considerat. 7. Repartiia dup vechime al unui eantion de 90 de angajai ai unei companii este urmtoarea:

Vechime (ani) Numr angajai 1 15 2 10 3 20 4 18 5 15 6 12


1. determinai vechimea medie i abaterea medie ptratic a vechimii; 2. determinai estimatorul punctual al erorii standard a mediei; 3. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru vechimea medie a angajailor; 4. ct trebuie s fie volumul eantionului pentru a obine o margine a erorii de cel mult 0,25? 8. Repartiia dup veniturile lunare (exprimate RON) a celor 90 de angajai din problema anterioar este urmtoarea:

Venitul lunar Numr angajai 300 500 20 500 700 25 700 900 18 900 1100 17 1100 1300 10
1. determinai estimatorul punctual al venitului mediu lunar al angajailor companiei; 2. determinai estimatorul punctual al erorii standard a mediei; 3. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru venitul mediu al angajailor companiei.

Cazul eantioanelor de volum mic (n< 30)


9. Un eantion de volum n=25 a furnizat o medie de 20 cu o abatere medie de 3. 1. determinai eroarea standard a mediei; 2. cu un coeficient de ncredere de 0,99 (0,95; 0,90) determinai un
39

interval de ncredere pentru media populaiei din care provine eantionul. 10. Datele urmtoare au fost extrase dintr-o populaie normal distribuit: 4, 8, 10, 5, 7, 12, 6, 5, 9. 1. determinai estimatorul punctual al mediei populaiei din care provine eantionul; 2. determinai estimatorul punctual al erorii standard a mediei; 3. cu un nivel de ncredere de 95% determinai un interval de ncredere pentru media populaiei din care provine eantionul. 11. Un test efectuat pe 16 motoare electrice a condus la o medie de 2120 rot/min cu o abatere medie de 100 rot/min. Cu un coeficient de semnificaie de 0,05 determinai un interval de ncredere pentru numrul mediu de rotaii/minut. 12. 10 candidaii pentru obinerea permisului de conducere au fost cronometrai la proba de poligon. Timpii (n minute) obinui de acetia au fost urmtorii: 10; 9; 9,5; 10; 11; 10,2; 9,5; 10; 10,8; 9. 1. determinai timpul mediu; 2. cu un nivel de ncredere de 90% determinai un interval de ncredere pentru timpul mediu.

Interval de ncredere pentru estimarea proporiei


13. Un eantion de volum n=100 a furnizat o proporie p =0,35. Cu un coeficient de ncredere de 0,95 s se determine: 1. eroarea standard a proporiei; 2. un interval de ncredere pentru proporia populaiei din care provine eantionul; 3. Ce volum trebuie s aib eantionul pentru a obine o margine a erorii de cel mult 5%. 14. Un studiu efectuat pe un eantion de 250 de persoane a artat faptul c 100 au ochi albatrii. 1. determinai estimatorul punctual al proporiei populaiei; 2. determinai eroarea standard a proporiei; 3. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru proporia populaiei. 15. Un studiu efectuat pe 400 de clieni ai unei bnci a artat c 120 dintre acetia au contractat credite de consum. 1. determinai proporia celor ce au contractat credite de consum; 2. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru proporia populaiei; 3. ct de mare trebuie s fie eantionul selectat pentru ca marginea erorii s fie de cel mult 2%? 16. O companie de telefonie mobil comand un studiu pentru a msura satisfacia clienilor si relativ la ofertele de srbtori. Acetia se mpart n satisfcui i nesatisfcui. Ct de mare trebuie s fie un eantion selectat pentru a obine o margine a erorii de cel mult 2,3%? Determinai n acest caz un interval de ncredere pentru proporia clienilor satisfcui.

40

Interval de ncredere pentru diferena valorilor medii


Cazul eantioanelor independente de volum mare
17. Se consider dou populaii avnd abaterile medii ptratice 1=10, 2=11. Din cele dou populaii se extrage cte un eantion astfel: Populaia 1 Populaia 2 n1=100 n2=120

x1 =40

x 2 =30

1. determinai estimatorul punctual al diferenei mediilor celor dou populaii; 2. determinai eroarea standard a diferenei mediilor; 3. folosind nivele de ncredere de 90% respectiv 95% determinai intervalele de ncredere pentru diferena mediilor celor dou populaii. 18. Se consider dou eantioane independente extrase din dou populaii. Relativ la cele dou eantioane se cunosc urmtoarele date:

Eantion 1 Eantion 2 n1=75 n2=50

x1 =12,5
s1=2,5

x2 =10
s2=3

1. determinai estimatorul punctual al erorii standard a diferenei mediilor celor dou populaii din care provin cele dou eantioane; 2. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru diferena mediilor celor dou populaii. 19. Se studiaz diferena dintre preurile apartamentelor din dou zone diferite ale unei localiti. Pentru aceasta se extrage din fiecare zon cte un eantion. Rezultatele studiului efectuat pe cele dou eantioane au fost urmtoarele:

Zona 1 n1=60

Zona 2 n2=80

x1 =33720
s1=2500

x 2 =32500
s2=2000

1. estimai punctual diferena preurilor medii ale apartamentelor din cele dou zone; 2. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru diferena preurilor medii. 20. Se msoar timpul necesar parcurgerii a dou trasee de aceeai lungime de ctre mijloacele de transport n comun. Testul const n contabilizarea minutelor de ntrziere timp de 100 de zile. Rezultatele obinute au fost urmtoarele:

Minute
0 1 2 3

Traseul 1 Traseul 2 (numr de zile) (numr de zile) 50 60 12 12 18 10 9 8

41

11

10

1. cu un coeficient de ncredere de 0,95 determinai cte un interval de ncredere pentru numrul mediu de minute de ntrziere pe fiecare traseu ; 2. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru diferena numrul mediu de minute ntrziere pe cele dou trasee.

Cazul eantioanelor independente de volum mic


Se presupune n continuare c populaiile n discuie au aceeai dispersie 21. Se consider dou populaii ce au aceeai dispersie. Din fiecare populaie se extrage cte un eantion n vederea studierii unei anumite caracteristici. Rezultatele studiului efectuat pe fiecare eantion au fost urmtoarele: Eantion 1 Eantion 2 n1=10 n2=15

x1 =25
s1=3

x2 =20
s2=4

1. determinai dispersia combinat; 2. cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru diferena mediilor celor dou populaii. 22. Se studiaz diferena dintre timpii medii de rezolvare al unui test pentru dou grupe de studeni. Pentru aceasta din fiecare grup este extras cte un eantion. Rezultatele studiului pe cele dou eantioane au fost urmtoarele:

Eantion 1 Eantion 2 n1=12 n1=10 x1 =35 x1 =32 s1=5 s1=6


Cu un coeficient de ncredere de 0,99 s se determine un interval de ncredere pentru diferena timpilor medii. 23. Managementul unei companii dorete s estimeze diferena dintre veniturile medii lunare (exprimate n RON) ale angajailor din departamentele de marketing respectiv producie. Din fiecare departament este extras cte un eantion, studiul acestora conducnd la urmtoarele rezultate:

Marketing Producie 1800 1800 2000 1800 1500 1500 1300 1500 1700 1600 1800 1500 1800 1300 2000 1800 1500 1600

42

1. estimai punctual veniturile medii lunare ale angajailor din cele dou departamente; 2. cu un coeficient de ncredere de 0,90 determinai un interval de ncredere pentru diferena veniturilor medii.

Cazul eantioanelor perechi


24. Datele urmtoare provin din dou eantioane perechi extrase din dou populaii: Eantion 1 Eantion 2 10 8 12 12 9 8 10 9 10 10 12 10 11 8 12 10 14 12 10 9
calculai diferenele dintre elementele perechi; determinai valoarea medie d ; determinai abaterea medie ptratic sd; cu un coeficient de ncredere de 0,95 determinai un interval de ncredere pentru diferena mediilor. 25. Se studiaz numrul mediu de defeciuni/lun al echipamentelor de mare sensibilitate folosite de o fabric, nainte i dup efectuarea unui service general. Pentru aceasta se iau la ntmplare 6 maini rezultatele fiind urmtoarele: 1. 2. 3. 4.

Maina nainte Dup 1 10 6 2 8 6 3 8 5 4 10 6 5 7 5 6 11 2


Cu un coeficient de ncredere de 0,90 determinai un interval de ncredere pentru diferena numrului mediu de defeciuni.

Intervale de ncredere pentru estimarea diferenei a dou proporii


26. Se consider dou populaii. Din cele dou populaii se extrage cte un eantion astfel: Populaia 1 Populaia 2 n1=100 n2=200

p1 =0,75

p 2 =0,80

43

1. determinai cu un nivel de ncredere de 95% cte un interval de ncredere pentru proporiile populaiilor din care au fost extrase cele dou eantioane; 2. determinai eroarea standard a diferenei proporiilor; 3. folosind nivele de ncredere de 90% respectiv 95% determinai intervalele de ncredere pentru diferena proporiilor celor dou populaii. 27. Din ce 300 de votani intervievai n circumscripia electoral A, 180 au declarat c au votat candidatul X. Din cei 250 de votani intervievai n circumscripia B, 150 au declarat c au votat cu candidatul X. 1. determinai intervale de ncredere pentru proporia votanilor din cele dou circumscripii care au votat cu candidatul X (1 =0,95); 2. determinai un interval de ncredere pentru diferena proporiilor electorilor din cele dou circumscripii care au votat cu candidatul X (1 =0,95) 28. Dou companii produc baterii de acelai tip. Din 400 de baterii testate la Compania A, 80 au fost defecte. Din cele 300 de baterii testate la Compania B, 45 s-au dovedit a fi defecte. Folosind un nivel de ncredere de 95% determinai un interval de ncredere pentru estimarea diferenei proporiilor bateriilor defecte de la cele dou companii.

Interval se ncredere pentru estimarea valorii mediane


29. Pentru a verifica un nou tip de bec, din punct de vedere al duratei de folosire, este testat un eantion de 20 de becuri. Duratele de folosire (n zile) ce au fost observate sunt urmtoarele:
65 58 58 68 64 73 76 75 67 76 75 59 76 65 64 74 74 76 77 81

S se determine un interval de ncredere pentru durata median de folosire a unui bec produs folosind un nivel de ncredere de 95%. 30. Se supune cercetrii statistice un eantion format din 30 de societi comerciale studiate n raport cu capitalul social i cifra de afaceri:

Capital social 8 9,6 10,1 8 2,1 4,6 2,8 1,5 1 2,1 2,9 4,5 5,5 4,8

Cifra de afaceri 2,3 10,7 7,6 11,5 2,3 11,2 0,1 5,7 5,3 4,4 0,8 0,7 0,3 5,3

Capital social 3,4 6,2 2 3,3 7,5 4,1 4,6 6,8 9,7 3,5 2 1,8 3,1 5,3

Cifra de afaceri 5,3 0,5 0,9 6,8 9,3 3,7 8 0,1 3,8 2,5 0,3 0,9 2,8 8,4

44

5,9

9,9

5,8

6,2

1. folosind un nivel de ncredere de 95% determinai cte un interval de ncredere pentru capitalul social mediu i cifra de afaceri medie. 2. folosind un nivel de ncredere de 95% determinai cte un interval de ncredere pentru capitalul social median i pentru cifra de afaceri median.

Modulul III Verificarea ipotezelor statistice


Unitatea 6: Verificarea ipotezelor asupra valorii medii i asupra proporiei Unitatea 7: Verificarea ipotezelor asupra diferenei a dou valori medii Unitatea 8: Verificarea ipotezelor asupra diferenei a dou proporii Unitatea 9: Teste de concordan. Testul 2 Unitatea 10: Analiza varianei. ANOVA

Scop i obiective
Scop Acest modul are ca scop creare de abiliti n verificarea ipotezelor statistice formulate asupra parametrilor unei populaii sau asupra unor caractersitici ale acesteia. Obiective specifice urmrite

nelegerea principiilor statisticii infereniale n contextul ipotezelor formulate asupra parametrilor unei populaii. Deprinderea formulrii corecte a ipotezelor statistice att n cazul testelor bilaterale ct i n cazul testelor unilaterale e. nelegerea noiunii de nivel de semnificaie i a noiunii de valoare critic. Deprinderea etapelor derulrii unui test de semnificaie. Deprinderea etapelor derulrii unui test de concordan. nelegerea conceptului de analiza a varianei.

Concepte de baz

Ipotez nul; ipotez alternativ; nivel de semnificaie; decizi;

45

Unitatea 6 Verificarea ipotezelor asupra valorii medii i asupra proporiei


6.1. Introducere
Verificarea ipotezelor statistice reprezint cea de a doua mare parte a statisticii infereniale. Verificarea ipotezelor statistice se face prin intermediul unor teste care, pe baza informaiilor obinute la nivel de eantion, verific valabilitatea unor ipoteze formulate asupra populaiei. Dou tipuri de teste sunt utilizate n verificarea ipotezelor statistice i anume: 1. teste de semnificaie; 2. teste de concordan.

Testele de semnificaie au urmtoarele particulariti: 1. sunt folosite pentru date cantitative; 2. verific ipoteze formulate asupra parametrilor populaiei; 3. statisticile folosite n testare urmeaz distribuii cunoscute.
Deoarece testele de semnificaie verific ipotezele formulate asupra parametrilor populaiei ele se mai numesc i teste parametrice. Se pune ntrebarea ce se ntmpl atunci cnd dorim s testm o anumit ipotez asupra populaiei dar care nu se refer la vreun parametru al acesteia sau atunci cnd datele cu care lucrm sunt calitative? n acest caz testele de semnificaie se nlocuiesc cu teste neparametrice. Un exemplu de test neparametric este testul de concordan. Vom ncepe prin a discuta testele de semnificaie.

6.2. Teste de semnificaie


Fie un parametru necunoscut al unei populaii. O ipotez formulat asupra acestui parametru se va numi ipotez nul Ho. Ho: =o O alt ipotez ce se formuleaz este ipoteza alternativ H1 ce poate avea urmtoarea form: H1: o test bilateral; H1: >o test unilateral la dreapta; H1: <o test unilateral la stnga.

Etapele derulrii unui test de semnificaie 1. Formularea ipotezei nule i a ipotezei alternative Test bilateral Ho: =o H1: o Teste unilaterale Ho: =o Ho: =o H1: >o H1: < o

46

2. Determinarea nivelului de semnificaie - probabilitatea comiterii unei erori prin respingerea ipotezei nule datorit erorii de eantionare, n cazul n care aceasta este de fapt adevrat; 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test ce va fi folosit pentru a decide acceptarea sau respingerea ipotezei nule; 4. Determinarea valorilor critice ale statisticii; 5. Luarea deciziei. Figura 6.2.1. Zonele de respingere i de acceptare ale ipotezei nule Test bilateral

Zon de respingere Zon de acceptare

Zon de respingere

valoarea critic

valoarea critic

Test unilateral la dreapta

Zon de respingere Zon de acceptare

valoarea critic

47

Test unilateral la stnga

Zon de respingere Zon de acceptare

valoarea critic

6.2.1. Verificarea ipotezelor asupra valorii medii


1. Formularea ipotezelor
Test bilateral Ho: =o H1: o Teste unilaterale Ho: =o Ho: =o H1: >o H1: < o

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test
La nivel de eantion se vor calcula: media de eantion x , abaterea medie ptratic sx precum i eroarea standard a mediei x dac se cunoate dispersia populaiei respectiv s x dac nu se cunoate dispersia populaiei. Alegerea statisticii test se va face n funcie de volumul eantionului astfel: Eantion de volum mare n30 z=

x o

x
t=

sau z=

x o ; sx

Eantioane de volum mic n< 30

x o . sx

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga Ipoteza Ho H1 Valori critice z t
2

=o =o =o

o >o < o

2 ;( n 1 ) gl

z z

t ;(n1) gl t ;(n1) gl

48

5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Exemplul 6.2.1. Un productor de baterii ofer o garanie de 20 de zile. Un eantion de 100 de baterii a furnizat o medie de 19,5 zile cu o abatere medie de dou zile. Cu un nivel de semnificaie =0,05 verificai dac garania oferit este corect. Soluie 1. Ho: =20; H1: 20; 2. =0,05 3. La nivel de eantion avem n=100, x =19,5, sx=2. Deoarece volumul eantionului este mare statistica test ce se va alege este statistica z. Pe de alt parte cum dispersia populaiei nu se cunoate vom avea:
z=

x o ; sx sx n
=0,2;

sx =
z=

4. Deoarece avem un test bilateral, valorile critice ale statisticii vor fi z 2 . Corespunztor unui nivel de semnificaie =0,05 valorile critice vor fi z 2 =1,96. 5. Se observ c valoarea calculat nu se afl ntre valorile critice ceea ce conduce la respingerea ipotezei nule. n concluzie termenul de garanie oferit de productor nu este corect. Ne punem ntrebarea: Este termenul de garanie oferit mai mare dect cel real? Pentru a rspunde la aceast ntrebare trebuie s reformulm ipotezele: 1. Ho: =20; H1: < 20; Etapele 2 i 3 rmn la fel. Se modific etapele 4 i 5. 4. Avem de a face acum cu un test unilateral la stnga n care valoarea critic este z . Corespunztor unui nivel de semnificaie =0,05 valoarea critic va fi z = - 1,645.

x o 19 ,5 20 = = - 2,5. 0 ,2 sx

49

5.

Se observ c valoarea calculat 2,5 este mai mic dect valoarea critic ceea ce conduce la respingerea ipotezei nule. Aadar garania oferit trebuie s fie mai mic de 20 de zile.

Exemplul 6.2.2. Se studiaz timpul de ateptare ntre dou autobuze. Un eantion de volum n=10 a oferit urmtorii timpi exprimai n minute: 2, 5, 5, 3, 4, 7, 4, 2, 5, 3; S se verifice ipoteza c timpul mediu de ateptare este de 3 minute cu =0,05. Soluie
1. Ho: =3; H1: 3; 2. =0,05 3. La nivel de eantion avem n=10,

2 + 5 + 5 + 3 + 4 + 7 + 4 + 2 + 5 + 3 40 = =4; 10 10 (2 4 )2 + ... + (3 4 )2 = 22 =2,44; 2 sx = 9 9 sx= 2 ,44 =1,56; x= x o . sx sx n


=0,49.

Deoarece volumul eantionului este mic statistica test ce se va alege este statistica t.

t=

sx =
t=

x o 4 3 = = 2,0408. 0 ,49 sx

4. Deoarece avem un test bilateral, valorile critice ale statisticii vor fi t 2;(n 1)gl . Corespunztor unui nivel de semnificaie =0,05 valorile critice vor fi t0 ,025 ;9 =2,262. 5. Se observ c valoarea calculat se afl ntre valorile critice ceea ce conduce la imposibilitatea respingerii ipotezei nule. n consecin datele pe care le avem la dispoziie sunt insuficiente pentru a afirma c timpul mediu de ateptare nu este de 3 minute.

6.2.2. Verificarea ipotezelor asupra proporiei


1. Formularea ipotezelor
Test bilateral Ho: p=po H1: ppo Teste unilaterale Ho: p=po Ho: p=po H1: p> po H1: p< po

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test
50

La nivel de eantion se vor calcula: proporia de eantion p i eroarea standard a proporiei p =

po (1 po ) . n

Cnd se dorete estimarea proporiei la nivelul unei populaii se lucreaz n general cu eantioane de volum mare, astfel c statistica aleas va fi z: z=

p po

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga 5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Ipoteza Ho H1
p=po p=po p=po ppo p> po p< po

Valori critice z

z z z

Exemplul 6.2.3. Se presupune c proporia populaiei cu studii superioare este 0,4. Din 900 de persoane chestionate 288 aveau studii superioare. Cu un nivel de semnificaie =0,05 testai ipoteza asupra proporiei persoanelor cu studii superioare. Soluie 1. Ho: p=0,4; H1: p0,4. 2. =0,05; 3. La nivel de eantion vom avea:

288 =0,32; 900 p (1 po ) 0 ,4(1 0 ,4 ) p= o = =0,0163; n 900 p po 0 ,32 0 ,4 z= = = - 4,9. 0 ,0163 p p=

51

4. Fiind vorba de un test bilateral valorile critice vor fi z 2 . Corespunztor unui nivel de semnificaie =0,05 valorile critice vor fi z 2 =1,96. 5. Cum valoarea calculat nu se afl ntre valorile critice vom respinge ipoteza nul. Aadar proporia populaiei cu studii superioare difer de 0,4. Este normal s ne punem ntrebarea dac nu cumva proporia populaiei este mai mic de 0,4. Pentru a rspunde la aceast ntrebare trebuie s reformulm ipotezele: Ho: p=0,4; H1: p< 0,4; Etapele 2 i 3 rmn la fel. Se modific etapele 4 i 5. 4. Avem de a face acum cu un test unilateral la stnga n care valoarea critic este z . Corespunztor unui nivel de semnificaie =0,05 valoarea critic va fi z = - 1,645. Se observ c valoarea calculat 4,9 este mai mic dect valoarea critic ceea ce conduce la respingerea ipotezei nule. Aadar proporia populaiei cu studii superioare este mai mic de 0,4. Cu alte cuvinte mai puin de 40% din populaie are studii superioare.

Unitatea 7 Verificarea ipotezelor asupra diferenei valorilor medii


7.1. Cazul eantioanelor independente de volum mare (n130, n230)
1. Formularea ipotezelor

Test bilateral Ho: 1-2=0 H1: 1-20

Teste unilaterale Ho: 1-2=0 Ho:1-2=0 H1: 1-2>0 H1: 1-2<0

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test La nivel de eantion se vor calcula valorile medii i dispersiile de eantion. Cum suntem n cazul eantioanelor de volum mare statistica test ce se va folosi este statistica z:

z=

(x

x 2 ( 1 2 ) x1 x2 = sx x sx x
1 2 1 2

unde

sx

1 x2

2 2 s1 s 2 + n1 n 2

52

4. Determinarea valorilor critice

Test Bilateral Unilateral la dreapta Unilateral la stnga


5. Luarea deciziei

Ipoteza Ho H1

Valori critice z

1-2=0 1-20 1-2=0 1-2=0 1-2>0 1-2<0

z z z

n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Exemplul 7.1.1. Se iniiaz un studiu n scopul de a estima diferena de vrst dintre angajaii a dou compartimente ale unei companii. n primul compartiment s-a extras un eantion de volum n1=36 care a furnizat o vrst medie x1 =40 ani cu o abatere medie de s1=9 ani. Din cel de al doilea compartiment se extrage un eantion de volum n2=49 care a furnizat o vrst medie x 2 =35 ani cu o abatere medie s2=10 ani. Cu un nivel de semnificaie =0,05 verificai dac: 1. vrstele medii n cele dou compartimente difer semnificativ; 2. este mai mare media de vrst din primul compartiment. Soluie 1.

1. Ho: 1-2=0; H1: 1-20; 2. =0,05; 3. z=

x1 x2 sx x
1 2

sx x =
1 2

2 2 s1 s 2 81 100 + = + =2,07 n1 n2 36 49

z=

x1 x2 40 35 = =2,41. sx x 2 ,07
1 2

53

4. Fiind vorba de un test bilateral valorile critice vor fi z 2 . Corespunztor unui nivel de semnificaie =0,05, valorile critice vor fi z 2 =1,96. 5. Se observ c valoarea calculat nu se afl ntre valorile critice ceea ce conduce la respingerea ipotezei nule i acceptare ipotezei alternative. Astfel putem concluziona c media de vrst ntre cele dou compartimente difer. 2. n acest caz vom reformula ipotezele:

Ho: 1-2=0; H1: 1-2>0;


4. Avem de a face n acest caz cu un test unilateral la dreapta, caz n care valoarea critic este z =1,645. 5. Se observ c valoarea calculat este mai mare dect valoarea critic ceea ce conduce la respingerea ipotezei nule. n concluzie media de vrst n primul compartiment al companiei este mai mare.

7.2.

Cazul eantioanelor independente de volum mic 2 2 (n1< 30, n2< 30, 1 = 2 = 2 )

1. Formularea ipotezelor
Test bilateral Ho: 1-2=0 H1: 1-20 Teste unilaterale Ho: 1-2=0 Ho:1-2=0 H1: 1-2>0 H1: 1-2<0

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test La nivel de eantion se vor calcula valorile medii i dispersiile de eantion. Cum suntem n cazul eantioanelor de volum mic statistica test ce se va folosi este statistica t:
t= unde

(x

x2 ( 1 2 ) x1 x2 = sx x sx x
1 2 1 2

sx x = s
1 2

1 1 + , n1 n2

s = s2 , (n1 1)s 12 + (n 2 1)s 22 2 s = (n1 + n 2 2 )


t urmeaz legea Student cu (n1 + n2 2) grade de libertate.

54

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga 5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Ipoteza Ho H1

Valori critice t

1-2=0 1-20 1-2=0 1-2=0 1-2>0 1-2<0

2; gl

t ;gl t ;gl

Exemplul 7.2.1. Se consider urmtoarele dou eantioane extrase din dou populaii ce au aceeai dispersie: Eantion 1 Eantion 2 n1=15 n2=10 x1 =8 x2 =6 s1=2 s2=1
Cu un nivel de semnificaie =0,05 verificai dac: 1. mediile celor dou populaii difer semnificativ; 2. este mai mare media primei populaii.

Soluie 1. Ho: 1-2=0; H1: 1-20; 2. =0,05;


3. t=

x1 x2 sx x
1 2

s2 =

(n1 1)s 12 + (n 2 1)s 22 14 4 + 9 1 = =2,826 23 (n1 + n 2 2 )

s = s 2 =1,68 1 1 1 1 sx x = s + + =1,68 =0,68 1 2 n1 n2 15 10

55

t=

x1 x2 8 6 = =2,9411. sx x 0 ,68
1 2

4. Fiind vorba de un test bilateral valorile critice vor fi t

2; gl

. Corespunztor

unui nivel de semnificaie =0,05 cu un numr de 23 de grade de libertate vom cuta n tabelul distribuiei student valoarea t0,025;23=2,069. 5. Deoarece valoarea calculat nu se afl ntre valorile critice ipoteza nul se va respinge i se va accepta ipoteza alternativ. Astfel putem concluziona c mediile celor dou populaii difer. Pentru a rezolva punctul doi al problemei vom reformula ipotezele

Ho: 1-2=0; H1: 1-2>0;


Avem de a face n acest caz cu un test unilateral la dreapta caz n care valoarea critic este t0,05;23=1,714. Se observ c valoarea calculat este mai mare dect valoarea critic ceea ce conduce la respingerea ipotezei nule. n concluzie media primei populaii este mai mare dect media celei de-a doua.

7.3.

Cazul eantioanelor perechi

1. Formularea ipotezelor
Test bilateral Ho: d=0 H1: d0 Teste unilaterale Ho: d=0 Ho: d=0 H1: d>0 H1: d<0

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test La nivel de eantion se vor calcula:

d= s
2 d

di ;
n

(d i d ) =
n 1
.

, sd =

2 sd ;

sd =

sd n

Alegerea statisticii se va face n funcie de volumul eantionului. Astfel dac eantionul este de volum mare se va alege statistica z: z=

d d d = sd sd
d d d = sd sd

iar dac eantionul este de volum mic se va alege statistica t: t=


,

unde t urmeaz legea Student cu n-1 grade de libertate.

56

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga 5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge.

Ipoteza Ho H1

Valori critice z t
2

d=0 d=0 d=0

d0 d>0 d<0

z z z

2 ;( n 1 ) gl

t ;(n1) gl t ;(n1) gl

Exemplul 7.3.1. O companie deine cinci magazine de desfacere a produselor proprii. Compania a lansat pe pia un nou produs i a urmrit vnzrile n prima sptmn de dup lansare. Valorile nregistrate n cele cinci magazine au fost: 25, 28, 20, 23, 29. Companie recurge la o campanie promoional. Dup lansarea campaniei situaia vnzrilor n cele cinci magazine a fost: 28, 30, 25, 25, 32. Cu =0,05 verificai dac a avut efect asupra vnzrilor campania promoional. Soluie Vom organiza datele tabelar astfel: Magazin Dup nainte 1 28 25 2 30 28 3 25 20 4 25 23 5 32 29
1. Ho: d=0; H1: d> 0; 2. =0,05 3. d =

di 3 2 5 2 3

3+2+5+2+3 =3; 5 (3 3)2 + (2 3)2 + (5 3)2 + (2 3)2 + (3 3)2 =1,5; 2 sd = 4

2 s d = s d =1,22;

57

sd =

sd n
t=

=0,54;

d d d 3 =5,55. = = sd s d 0 ,54

4. Avem un test unilateral la dreapta ceea ce nseamn c valoarea critic va fi t ;(n1) gl =t0,05;4=2,132. 5. Se observ c valoarea calculat depete valoarea critic ceea ce nseamn c vom respinge ipoteza nul. Aadar concluzionm c promoia a avut efectul dorit.

Unitatea 8 Verificarea ipotezelor asupra diferenei a dou proporii


1. Formularea ipotezelor
Test bilateral Ho: p1-p2=k H1: p1-p2k Teste unilaterale Ho: p1-p2=k Ho: p1-p2=k H1: p1-p2> k H1:p1-p2< k

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test La nivel de eantion se vor calcula proporiile la nivel de eantion iar statistica test ce se va folosi este statistica z:
z=

(p

p 2 ( p1 p 2 ) , sp p

unde

sp

1 p2

p1 1 p1 p 1 p2 + 2 . n1 n2

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga 5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge;

Ipoteza Ho
p1-p2=k p1-p2=k p1-p2=k

H1
p1-p2k p1-p2>k p1-p2<k

Valori critice z

z z z

58

n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Exemplul 8.1.1. La Universitatea A din 200 de studeni chestionai 180 au participat la examenul de licen. La Universitatea B din 150 de studeni chestionai 120 au participat la examenul de licen. Cu un nivel de semnificaie de 5% s se verifice dac proporia studenilor de la Universitatea A care au participat la examenul de licen este mai mare cu mai mult de 5% dect proporia celor de la Universitatea B. Soluie
1. Ho: p1 p2=0,05; H1: p1 p2> 0,05; 2. =0,05; 3. La nivel de eantioane vom avea:

sp

1 p2

z=

(p

p 2 ( p1 p 2 ) (0 ,90 0 ,80 ) 0 ,05 0 ,05 = = =1,288. sp p 0 ,0388 0 ,0388


1 2

p1 1 p1 p 1 p2 0 ,9 0 ,1 0 ,8 0 ,2 + + 2 = =0,0388. 200 150 n1 n2

180 = 0 ,90 ; 200 120 p2 = = 0 ,80 ; 150


p1 =

4. Deoarece este vorba de un test unilateral la dreapta valoarea critic va fi z a crei valoare corespunztoare lui =0,05 este z =1,645. 5. Cum valoarea calculat a statisticii este mai mic dect valoarea critic nu putem respinge ipoteza nul. Aadar acceptm ipotez c diferena dintre cele dou proporii nu este mai mare de 5%. Cel mai adesea suntem interesai dac proporiile celor dou populaii difer semnificativ. n acest caz se vor schimba etapele 1 i 3 testul derulndu-se dup urmtoarele etape:

1. Formularea ipotezelor
Test bilateral Ho: p1-p2=0 H1: p1-p20 Teste unilaterale Ho: p1-p2=0 Ho: p1-p2=0 H1: p1-p2> H1:p1-p2< 0

2. Determinarea nivelului de semnificaie 3. Colectarea datelor la nivel de eantion, alegerea i calcularea statisticii test La nivel de eantion se vor calcula proporiile la nivel de eantion iar statistica test ce se va folosi este statistica z:

59

z=

(p

p 2 ( p1 p 2 ) p1 p 2 = sp p sp p
1 2 1 2

unde

sp

1 1 p 1 p + , n 1 p2 1 n2 n p + n2 p 2 p= 1 1 - proporia combinat n1 + n 2
=

4. Determinarea valorilor critice Test Bilateral Unilateral la dreapta Unilateral la stnga 5. Luarea deciziei
n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge;

Ipoteza Ho
p1-p2=0 p1-p2=0 p1-p2=0

H1
p1-p20 p1-p2>0 p1-p2<0

Valori critice z

z z

Exemplul 8.1.2. Relativ la datele din Exemplul 3.2.6. s se verifice cu un nivel de semnificaie de 5% dac proporia studenilor de la Universitatea A care au participat la examenul de licen este mai marea dect proporia studenilor de la Universitatea B. Soluie
1. Ho: p1 p2=0; H1: p1 p2> 0; 2. =0,05; 3. La nivel de eantioane vom avea:

180 = 0 ,90 ; 200 120 p2 = = 0 ,80 ; 150 n p + n 2 p 2 200 0 ,90 + 150 0 ,80 300 p= 1 1 = =0,8571; = n1 + n 2 200 + 150 350
p1 =

60

sp

1 p2

1 1 1 1 p 1 p + = 0 ,8571(1 0 ,8571) + =0,0376; n 200 150 1 n2 p p2 0 ,10 z= 1 = =2,659. sp p 0 ,0376


1 2

4. Deoarece este vorba de un test unilateral la dreapta valoarea critic va fi z a crei valoare corespunztoare lui =0,05 este z =1,645. 5. Cum valoarea calculat a statisticii este mai mare dect valoarea critic ipoteza nul se respinge. Aadar cu o probabilitate de 95% proporia studenilor de la Universitatea A care au participat la examenul de licen este mai mare dect cea a studenilor de la Universitatea B..

Unitatea 9 Teste de concordan


Dup cum spuneam n introducerea acestui capitol de multe ori datele cu care lucrm sunt date calitative ceea ce conduce la imposibilitatea derulrii unor teste parametrice. Tocmai de aceea au fost dezvoltate aa numitele teste neparametrice. Cel mai cunoscut i mai folosit dintre acestea este testul 2 (chi-ptrat).

9.1. Testul de concordan 2


Acest test este folosit n analiza preliminar a rezultatelor unui chestionar i msoar gradul de asociere dintre dou variabile pornind de la repartiia bidimensional a eantionului studiat n raport cu cele dou variabile.

Exemplul 9.1.1. O companie productoare de bere studiaz legtura dintre sexul consumatorilor i tipul de bere ales. Un studiu efectuat pe 120 de brbai i 80 de femei a condus la urmtoarele rezultate: Tip Fr Tare Medie Total Sex alcool Brbai 20 60 40 120 Femei 10 50 20 80 Total 30 110 60 200
Cu un nivel de semnificaie =0,05 s se verifice dac alegerea unui anumit tip de bere are legtur cu sexul consumatorului.

Etapele derulrii unui test de concordan 1. Formularea ipotezelor Ho: nu exist legtur ntre cele dou variabile; H1: exist legtur ntre cele dou variabile.
61

n cazul exemplului nostru cele dou ipoteze vor fi: Ho: nu exist legtur ntre tipul de bere ales i sexul consumatorilor; H1: exist legtur ntre tipul de bere ales i sexul consumatorilor.

2. Stabilirea nivelului de semnificaie


n cazul exemplului nostru =0,05.

3. Calcularea valorii lui 2


Considerm urmtoarea repartiie bidimensional:

X Y y1 y2 ... yi ... yI

x1

x2

... xj

... xJ

Total
N1 N2

N11 N12 ... N1j ... N1J N21 N22 ... N2j ... N2J Ni1 Ni2 ... Nij ... NiJ

N i
N I N

NI1 NI2 ... NIj ... NIJ N2 ... Nj ... NJ

Total N1

Formula de calcul a lui 2 este urmtoarea:

=
2

(Oij Aij )2
Aij

i =1 j =1

unde Oij reprezint frecvenele observate, iar Aij reprezint frecvenele ateptate (calculate).

Aij=
Vom avea:

N i' N j N

(total linie i ) (total coloan j ) .


total

A11=

120 30 120 110 120 60 =18; A12= =66; A13= =36; 200 200 200 80 30 80 110 80 60 A21= =12; A22= =44; A11= =24. 200 200 200

Astfel obinem urmtoarea repartiie bidimensional:

62

Tip Sex Brbai Femei Total


2

Tare Medie 18 12 30 66 44 110

Fr Total alcool 36 120 24 80 60 200

(20 18 )2 + (60 66 )2 + (40 36 )2 + (10 12 )2 + (50 44 )2 + (20 24 )2 =3,03 =


18 66 36 12 44 24

4. Determinarea valorii critice 2;gl


Numr grade de libertate = (numr linii - 1)(numr coloane - 1)
Vom avea urmtorul numr de grade de libertate: nr. gl = (2 - 1) (3 - 1) = 2 Aadar valoarea critic o vom citi din tabelul distribuiei 2 (Anexa 3) i va fi 20,05;2= 5,99.

5. Luarea deciziei
Dac valoarea calculat este mai mic dect valoarea critic nu putem respinge ipoteza nul; Dac valoarea calculat este mai mare dect valoarea critic respingem ipoteza nul.
n cazul exemplului nostru valoarea calculat este mai mic dect valoarea critic, aadar nu putem respinge ipoteza nul, ceea ce nseamn c nu exist legtur ntre sexul consumatorilor i alegerea unui anumit tip de bere.

Verificarea cunotinelor
Teste de semnificaie Verificarea ipotezelor asupra valorii medii
Cazul eantioanelor de volum mare (n30)
1. Se consider urmtorul test bilateral: Ho: =12 H1: 12. Un eantion de volum n=100 a furnizat o medie de 11,5 cu o abatere medie de 2. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 2. Se consider urmtorul test unilateral: Ho: =35 H1: < 35.

63

3.

4.

5.

6.

Un eantion de volum n=100 a furnizat o medie de 34,82 cu o abatere medie de 6. Cu un nivel de semnificaie de 5% verificai ipoteza nul. Se consider urmtorul test unilateral: Ho: =100 H1: >100. Un eantion de volum n=100 a furnizat o medie de 100,2 cu o abatere medie de 5. Cu un nivel de semnificaie de 5% verificai ipoteza nul. Un productor de motoare emite ipoteza c motoarele sale au un consum mediu de combustibil de 8,5 l/100 km. Un eantion de volum n=50 motoare a furnizat un consum mediu de 8,8 l/100 km, cu o abatere medie de 2,5 l. Cu un nivel de semnificaie de 5% testai ipoteza productorului. Un productor de cauciucuri emite ipoteza c noul model produs de el poate rula n medie 30.000 de kilometrii. Un eantion de n=64 de cauciucuri a furnizat o medie de 29.600 kilometrii cu o abatere medie de 1000 kilometrii. Cu un nivel de semnificaie de 5% testai ipoteza productorului. Este mai mic media real dect cea presupus? Se consider c preul mediu al unui apartament de 3 camere este de 39 mii euro. Un eantion de 150 de apartamente a furnizat urmtoarele date:

Pre 36 37,5 38 38,5 39 39,5

Frecvena 20 15 30 24 36 25

Cu un nivel de semnificaie de 5% verificai dac preul mediu real este mai mic dect preul mediu presupus. 7. Relativ la problema 7 din capitolul precedent cu un nivel de semnificaie de 5%, verificai dac vechimea medie a angajailor este mai mare de 3 ani. 8. Relativ la problema 8 din capitolul precedent cu un nivel de semnificaie de 5%, verificai ipoteza c venitul mediu lunar al angajailor este mai mic de 8 milioane ROL.

Cazul eantioanelor de volum mic (n< 30)


9. Se consider urmtorul test bilateral: Ho: =15 H1: 15. Un eantion de volum n=10 a furnizat o medie de 15,7 cu o abatere medie de 3. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 10. Se consider urmtorul test unilateral: Ho: =11 H1: < 11. Un eantion de volum n=8 a furnizat urmtoarele date: 10, 9, 12, 11, 8, 10, 10, 8. Cu un nivel de semnificaie de 5% verificai ipoteza nul.

64

11. Se consider urmtorul test unilateral: Ho: =20 H1: >20. Un eantion de volum n=12 a furnizat urmtoarele date: 20, 18, 22, 20, 23, 19, 20, 22, 21, 20, 22, 20. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 12. Se consider c media lunar de carne consumat de populaia unui ora este de 4,5 kg. Un eantion de 25 de persoane rezidente ntr-o suburbie a oraului a furnizat un consum mediu de 4 kg cu o abatere medie de 0,75 kg. 1. cu un nivel de semnificaie de 5% testai ipoteza c populaia suburbiei consum n medie o cantitate diferit de media populaiei oraului; 2. este mai mic consumul mediu n suburbie? 13. Venitul mediu al angajailor unei companii n luna noiembrie a fost de 900 RON. Un eantion de 10 muncitori este extras pentru a estima venitul mediu pe luna decembrie. Datele obinute au fost urmtoarele: 900; 920; 870; 850; 900; 1000; 1020; 1000; 890; 1000. Cu un nivel de semnificaie de 10% verificai dac: 1. venitul mediu pe luna decembrie difer de cel din luna noiembrie; 2. venitul mediu pe luna decembrie este mai mare dect cel din luna noiembrie. 14. Relativ la problema 11 din capitolul precedent cu un nivel de semnificaie de 5%, verificai ipoteza c numrul mediu de rotaii pe minut este mai mic de 2170.

Verificarea ipotezelor asupra proporiei


15. Se consider urmtorul test bilateral: Ho: p=0,2 H1: p0,2.
Un eantion de volum n=100 a furnizat o proporie p =0,18. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 16. Se consider urmtorul test unilateral: Ho: p=0,2 H1: p< 0,2. Un eantion de volum n=1600 a furnizat o proporie p =0,16. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 17. Se consider urmtorul test unilateral: Ho: p=0,8 H1: p>0,8. Un eantion de volum n=256 a furnizat o proporie p =0,85. Cu un nivel de semnificaie de 5% verificai ipoteza nul. 18. O banc dorete s cunoasc proporia clienilor ce au contractat credite de consum. Pentru aceasta este extras un eantion de 400 de clieni. Se dovedete c 150 dintre acetia au contractat credite de consum. Cu un nivel de semnificaie de 5% verificai ipoteza c 40% dintre clienii bncii au contractat credite de consum. Este mai mic proporia acestora? 19. Productorii unui nou tip de butur rcoritoare mizeaz pe cel puin 63% din 65

piaa format de tinerii cu vrste cuprinse ntre 18 i 30 de ani. Un studiu efectuat pe un eantion de 1024 de persoane a artat c 672 dintre acetia prefer noua butur. Cu un nivel de semnificaie de 5% verificai ipoteza productorilor.

Verificarea ipotezelor asupra diferenei valorilor medii


Cazul eantioanelor independente de volum mare
20. Din dou populaii se extrag dou eantioane independente. Studiile efectuate pe cele dou eantioane pentru a vedea timpul necesar pregtirii micului dejun au condus la urmtoarele rezultate: Eantion 1 n1=100 Eantion 2 n2=144

x1 =20 min
s1=4 min

x 2 =18 min
s2=5 min

Cu un nivel de semnificaie de 5% verificai dac: 1. difer semnificativ timpii medii de pregtire a micului dejun n cele dou populaii; 2. populaia 2 pregtete mai repede micul dejun. 21. Se iniiaz un studiu n scopul de a vedea diferena de vrst a populaiei din dou regiuni muntoase. Pentru aceasta din cele dou populaii se extrage cte un eantion. Rezultatele studiului efectuat pe cele dou eantioane au fost urmtoarele:

Zona 1 n1=256

Zona 2 n2=400

x1 =40 ani
s1=5 ani

x 2 =42 ani
s2=8 ani

Cu un nivel de semnificaie de 5% verificai dac: 1. difer semnificativ vrsta medie a celor dou populaii; 2. populaia din cea de a doua zon este mai vrstnic dect cea din prima zon. 22. Se studiaz diferena dintre veniturile medii lunare n dou zone diferite. Rezultatele obinute pe dou eantioane independente extrase din cele dou zone au fost urmtoarele:

Zona 1 n1=225

Zona 2 n2=324

x1 =4,8 mil ROL


s1=1,2 mil ROL

x 2 =4,95 mil ROL


s2=1,6 mil ROL

Cu un nivel de semnificaie de 5% verificai dac veniturile medii lunare difer semnificativ n cele dou zone. 23. Dou firme de echipament sportiv se afl n competiie pentru a devenii furnizorii mingii oficiale a Campionatului Mondial de Fotbal ce se va desfura n Germania n 2006. Cte un lot de mingi produse de fiecare dintre cele dou firme este supus unor teste n urma crora se acord un punctaj

66

cuprins ntre 0 i 10 puncte. Rezultatele testelor au fost urmtoarele:

Firma 1 Firma 2 n1=1000 n2=1000

x1 =8,4
s1=2,3

x2 =8,8
s2=3,2

Cu un nivel de semnificaie de 5% determinai care dintre cele dou firme produce mingi de o calitate mai mare. 24. Se studiaz calitatea apei n dou zone diferite ale unui ru. Fiecare prob de ap primete un numr de puncte cuprins ntre 1 i 5 n funcie de puritate. Astfel 1 punct nseamn ap de puritate mare, iar 5 puncte nseamn ap impur. Rezultatele testelor au fost urmtoarele:

Zona A Zona B Puncte Nr. probe Puncte Nr. probe 1 20 1 36 2 30 2 25 3 4 3 5 4 2 4 3 5 4 5 1


Cu un nivel de semnificaie de 5% verificai dac puritatea apei difer semnificativ n cele dou zone. Este apa din zona B mai pur dect cea din zona A?

Cazul eantioanelor independente de volum mic


Se presupune n continuare c populaiile n discuie au aceeai dispersie 25. Se consider dou eantioane independente extrase din dou populaii: Populaia 1 Populaia 2 n1=15 n2=12

x1 =20
s1=2

x 2 =20,98
s2=3

Cu un nivel de semnificaie de 10% verificai dac mediile celor dou populaii difer semnificativ. 26. Se studiaz numrul mediu zilnic de litri de lapte produse de vacile de la dou ferme diferite. Rezultatele obinute n urma studiului efectuat pe dou eantioane de la cele dou ferme au fost urmtoarele:

Ferma 1 Ferma 2 n1=20 n2=22

x1 =34 l
s1=2 l

x 2 =30 l
s2=4 l

Cu un nivel de semnificaie de 5% verificai dac: 1. difer semnificativ cantitatea medie de lapte la cele dou ferme; 2. este mai mare cantitatea medie zilnic de lapte obinut la prima ferm.

67

27. Se studiaz diferena dintre veniturile medii ale muncitorilor din dou secii ale unei fabrici. Rezultatele obinute pe dou eantioane de muncitori extrase din cele dou secii au fost urmtoarele: Secia 1 n1=10 Secia 2 n2=15

x1 =4,5 mil ROL


s1=1,2 mil ROL

x 2 =5 mil ROL
s2=2 mil ROL

Cu un nivel de semnificaie de 10% verificai dac veniturile medii lunare ale muncitorilor din cele dou secii difer semnificativ. Explicai rezultatul obinut. 28. O fabric de porelanuri deine dou ateliere de pictur. Timpul mediu de realizare a picturii pe un anumit vas este msurat n cele dou ateliere folosind dou eantioane independente. Rezultatele au fost urmtoarele:

Atelier 1 n1=20

Atelier 2 n2=22

x1 =2,6 h
s1=0,5 h

x 2 =2,1 h
s2=0,3 h

Cu un nivel de semnificaie de 5% verificai dac: 1. difer semnificativ timpul mediu n cele dou ateliere; 2. picteaz mai repede cei din atelierul 2. 29. Numrul de rebuturi msurat n cele dou ateliere de pictur observat timp de o sptmn a fost urmtorul:

Atelier 1 Atelier 2

1 1

1 3

2 1

0 2

1 1

2 2

1 3

Cu un nivel de semnificaie de 5% verificai dac sunt mai ateni pictorii ce lucreaz n primul atelier.

Cazul eantioanelor perechi


30. Considerm urmtoarele date obinute din dou eantioane perechi: Eantion 1 Eantion 2 10 8 8 10 7 6 8 4 9 5 6 7
Cu un nivel de semnificaie de 5% verificai dac mediile difer semnificativ. Explicai rezultatul obinut. 31. O firm distribuitoare de produse cosmetice aduce pe pia un nou parfum de marc. Firma i desface produsele prin cinci magazine. Pentru a promova noul produs firma recurge la o campanie promoional. Se studiaz vnzrile timp de o sptmn n cele cinci magazine nainte i dup lansarea campaniei promoionale. Rezultatele obinute au fost urmtoarele:

68

nainte Dup 8 12 6 10 5 10 6 8 3 10
Cu un nivel de semnificaie de 5% verificai dac perioada de campanie promoional a avut efectul scontat.

Verificarea ipotezelor statistice asupra diferenei a dou proporii


32. Se consider dou populaii. Din cele dou populaii se extrage cte un eantion astfel: Populaia 1 Populaia 2 n1=250 n2=300

p1 =0,30

p 2 =0,25

Cu un nivel de semnificaie de 5% verificai dac: 1. proporiile la nivel de populaie difer semnificativ. 2. este mai mare proporia primei populaii. 33. Din ce 300 de votani intervievai n circumscripia electoral A, 180 au declarat c au votat candidatul X. Din cei 250 de votani intervievai n circumscripia B, 150 au declarat c au votat cu candidatul X. Cu un nivel de semnificaie de 5% verificai dac: 1. proporiile votanilor din cele dou circumscripii care au votat cu candidatul X difer. 2. este mai mare proporia celor din circumscripia A. 34. Din 200 de locuitori ai cartierului A intervievai, 160 au declarat c i fac cumprturile la supermarketul X. n cartierul B din cei 300 de locuitori intervievai 270 au declarat c i fac cumprturile la supermarketul X. Cu un nivel de semnificaie de 5% verificai dac proporia locuitorilor din cartierul B care i fac cumprrturile la supermarketul X este mai mare dect proporia celor din cartierul A. 35. Se lanseaz pe pia o nou butur rcoritoare. Ea este testat n dou zone ale unui ora. Din 400 de intervievai din zona A, 280 declar c noua reet este mai bun. n zona B, 400 din cei 500 de intervievai declar acelai lucru. Difer semnificativ proporiile locuitorilor zone care se declar satisfcui de noua reet n cele dou? (folosii un nivel de semnificaie de 5%).

Testul de concordan 2
V1

36. Se consider urmtoarea repartiie bidimensional: V2 X Y A 15 25 B 20 15 C 10 15 Total 45 55

69

Studiai independena variabilelor V1 i V2 folosind un nivel de semnificaie de 5%. 37. Se consider urmtoarea repartiie bidimensional:

V2 X Y Z Total

V1

A 35 40 25 100

B 40 48 40 128

C 20 42 20 82

D 25 50 15 90

Total 120 180 100 400

Studiai independena variabilelor V1 i V2 folosind un nivel de semnificaie de 5%. 38. Se efectueaz un studiu prin care se ncearc determinarea unei legturi ntre nivelul studiilor i modalitile de petrecere a timpului liber. Studiul s-a efectuat pe un eantion de volum n=100 i a condus la urmtoarea repartiie bidimensional:

Modalitate Studii Medii Superioare Total

Discot ec 15 5 20

Resta urant 10 20 30

Cinem a 25 10 35

Oper /Teatr u 10 5 15

Total 60 40 100

Cu un nivel de semnificaie de 5% verificai dac exist legtur ntre nivelul studiilor i modalitile de petrecere a timpului liber. 39. Se efectueaz un studiu pentru a vedea care sunt preferinele brbailor i a femeilor n materie de maini. Studiul s-a efectuat pe un eantion de 60 de subieci i a condus la urmtoarea distribuie bidimensional:

Tip de main Sexul Brbai Femei Total

Maini sport 10 10 20

Maini de teren 18 7 25

Maini de lux 7 8 15

Total 35 25 60

Cu un nivel de semnificaie de 5% verificai dac exist legtur ntre sex i tipul de main preferat. 40. Tabelul urmtor conine date primare cu privire la distribuia dup vechime i volumul vnzrilor a 60 de vnztori dintr-o societate comercial.
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. Vechimea (ani) 1 4 3 2 6 7 9 10 8 Volumul vnzrilor (mil. ROL) 2 7 5 4 3 2 6 5 7 Nr. crt. 31. 32. 33. 34. 35. 36. 37. 38. 39. Vechimea (ani) 18 19 16 17 18 21 22 24 23 Volumul vnzrilor (mil. ROL) 19 18 17 17 19 16 16 17 18

70

10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30.

11 13 12 14 12 11 12 13 16 18 19 17 19 16 16 18 19 18 17 19 16

11 13 12 11 13 14 13 14 11 13 11 14 14 13 14 16 17 16 18 19 16

40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60.

24 24 23 22 21 25 23 22 23 21 24 26 29 30 28 26 27 28 32 33 32

22 22 24 21 24 21 23 23 23 24 26 27 29 28 27 29 32 34 33 32 33

1. Folosind 7 clase pentru vechime i 6clase pentru volum construii repartiia bidimensional vechime volum. 2. Cu un nivel de semnificaie de 5% verificai dac exist legtur ntre vechimea angajailor i volumul vnzrilor realizate.

Unitatea 10 Analiza varianei. ANOVA


10.1. Analiza varianei (ANOVA)
n unitatea anterioar am vzut cum anume comparm mediile a dou populaii. n ipoteza c populaiile n discuie erau normal distribuite, innd cont de volumul eantioanelor extrase, ipotezele erau verificate folosind fie statistica test z fie statistica test t. Pentru a ne reaminti vom considera urmtorul exemplu: Exemplul 10.1.1. Se iniiaz un studiu pentru a compara venitul mediu al populaiilor din dou zone diferite ale unei ri. Pentru aceasta din fiecare zon este extras cte un eantion de volum n=5, datele obinute fiind urmtoarele:

Venitul Zona 1 Zona 2 7,2 6 8 7,5 6,3 6,4 5,4 7 7 8,6


71

Cu =0,05 dac veniturile medii difer semnificativ n cele dou zone supuse studiului.

Soluie 1. Ho: 1=2; H1: 12; 2. =0,05;


3. t=

x1 x2 sx x

(7 ,2 6 ,78 ) + ... + (7 6 ,78 ) = 0 ,962 ; 7 ,2 + ... + 7 2 = 6 ,78 ; s1 = 5 4 2 (6 7 ,1) + ... + (8 ,6 7 ,1)2 = 1,03 ; 6 + ... + 8 ,6 2 = 7 ,1 ; s1 = x2 = 5 4
2 2

x1 =

s2 =

(n1 1)s 12 + (n 2 1)s 22 =0,0996; (n1 + n 2 2 )


1 1 + =0,6311; n1 n2
x1 x2 6 ,78 7 ,1 = - 0,507. = sx x 0 ,6311
1 2

sx x = s
1 2

t=

4. Fiind vorba de un test bilateral valorile critice vor fi t

2 ; gl

. Corespunztor unui

nivel de semnificaie =0,05 cu un numr de 8 de grade de libertate vom cuta n tabelul distribuiei student valoarea t0,025;8=2,306. 5. Deoarece valoarea calculat se afl ntre valorile critice ipoteza nul nu poate fi respins. Astfel putem concluziona c mediile celor dou populaii nu difer semnificativ. Se pune urmtoarea ntrebare: Dac n calcul se ia o nou zon, cum putem compara mediile pe cele trei zone? Rmne valabil testul t? Aa cum am vzut testul t este un puternic instrument statistic n compararea mediilor a dou populaii. Cnd se pune ns problema comparrii mediilor a mai mult de dou populaii testul t i pierde utilitatea. Tocmai de aceea n acest caz s-a dezvoltat o nou teorie numit Analiza Varianei (ANOVA), denumit uneori i testul F, dup numele lui Ronald Alymer Ficher, cel care a dezvoltat aceast teorie.

ANOVA ia n calcul urmtoarele ipoteze: populaiile studiate sunt normal distribuite n raport cu variabila considerat; dispersiile populaiilor sunt egale; eantioanele extrase sunt independente.

72

Considerm k populaii, iar din fiecare populaie extragem cte un eantion de volum ni, i= 1, k . Notm cu i, i= 1, k media fiecrei populaii. Cu ajutorul ANOVA vom testa urmtoarea ipotez: Ho: 1=2=...=k; H1: nu toate mediile sunt egale.

Exemplul 10.1.2. n Exemplul 4.1.1. se iau n considerare datele nregistrate n zona 3 astfel c datele sunt: Venitul Zona 1 Zona 2 Zona 3 7,2 6 5 8 7,5 4,2 6,3 6,4 5,3 5,4 7 6 7 8,6 4,8
Vom verifica dac veniturile medii difer n cele trei zone, aplicnd o analiz de tip ANOVA.

Etapele unei analize de tip ANOVA 1. Formularea ipotezelor; Ho: 1=2=...=k; H1: nu toate mediile sunt egale. n cazul nostru ipotezele vor fi: Ho: 1=2=3; H1: nu toate mediile sunt egale.
2. Stabilirea nivelului de semnificaie ;
n cazul exemplului nostru vom lucra cu =0,05.

3. Calculul elementelor necesare determinrii valorii statisticii test 3.1. Calculul mediei i dispersiei fiecrui eantion xi , si2 ,i = 1,k ;
n cazul exemplului nostru vom avea:

Zona 1 Zona 2 Zona 3 Media 6,78 7,1 5,06 Dispersia 0,962 1,03 0,438
3.2. Calculul valorii medii totale x ;

Valoarea medie total se calculeaz ca sum a tuturor valorilor observate mprit la numrul total de observri. Simplificat aceasta se calculeaz ca medie aritmetic ponderat a mediilor de eantion, ponderile fiind volumele eantioanelor:
73

x=

n1 x1 + ... + nk xk . n1 + ... + nk

n cazul nostru vom avea:

x=

n1 x1 + n2 x2 + n3 x3 5 6 ,78 + 5 7 ,1 + 5 5 ,06 = =6,3133. n1 + n2 + n3 5+5+5

2 3.3. Calcul varianei ntre grupuri sb ;

Variana ntre grupuri msoar variaia mediilor de eantion n jurul mediei totale calculndu-se cu ajutorul formulei:
2 sb =

ni xi x
i =1

k 1

Observaie
Expresia
k i =1

ni xi x

notat cu SSB, poart numele de suma ptratelor ntre

grupuri.

2 sb =

5 (6 ,78 6 ,3133 ) + 5 (7 ,1 6 ,3133 ) + 5 (5 ,06 6 ,3133 ) 6,0185. 31


2 2 2 2 3.4. Calculul varianei n grupuri s w ;

Avem:

Variana n grupuri ajutorul formulei:

msoar mprtierea valorilor n grupuri calculndu-se cu

2 sw =

(ni 1)si2

(n1 + ... + nk ) k

i =1

= i =1

(ni 1)si2
nk
.

Observaie
Expresia

(ni 1)si2
i =1

notat cu SSW, poart numele de suma ptratelor n

grupuri.
Avem:
2 sw =

4 0 ,962 + 4 1,03 + 4 0 ,438 =0,81. 15 3

Tabelul ANOVA
Tabelul ANOVA este un tabel n care se trec toate elementele calculate la punctul acesta avnd urmtoarea structur:

74

Sursa ntre grupuri n grupuri Total

Suma ptratelor SSB SSW SST=SSB+SSW

Grade de libertate k1 nk n1

Media sumelor ptratelor


2 s w = SSW (n k ) 2 s b = SSB (k 1)

n cazul exemplului nostru tabelul ANOVA va fi:

Sursa ntre grupuri n grupuri Total

Suma ptratelor 12,037 9,72 21,757

Grade de libertate 2 12 14

Media sumelor ptratelor 6,0185 0,81

4. Calcularea statisticii test F;

SSB

F=

SSW

(k 1) = sb2 (n k )

2 sw

Observaie 1. Distribuia F are urmtoarea form: Figura 10.1.1. Forma distribuiei F

2. Dup cum se poate observa distribuia F nu este simetric iar valorile lui F nu pot fi negative. 3. Forma distribuiei depinde de gradele de libertate anume de k-1 i n-k. 4. Valorile statisticii F corespunztoare diferitelor grade de libertate dar cu un nivel de semnificaie prestabilit se gsesc n tabele (Anexa4).

75

n cazul exemplului nostru avem:

F=

2 sb 6 ,0185 = =7,0805. 2 0 ,81 sw

Numrul gradelor de libertate este k-1=2, n-k=12.

5. Determinarea valorilor critice F; (k-1, n-k)gl;


n cazul nostru avem: F0,05;(2,12)=3,88.

6. Luarea deciziei: dac F> F; (k-1, n-k)gl ipoteza nul se respinge n caz contrar aceasta acceptndu-se.

Figura 10.1.2.

Valorile critice ale lui F

Zona de respingere

Observm c valoarea calculat 7,0805 depete valoarea critic 3,88 ceea ce nseamn c ipoteza nul se respinge. Aadar nu toate mediile sunt egale.

Observaie Respingerea ipotezei nule nu atrage dup sine automat faptul c toate mediile sunt diferite ci arat c cel puin dou medii sunt diferite. Aa cum am vzut n Exemplul 4.1.1. mediile din zonele 1 i 2 nu difer semnificativ. Observaie n cazul k=2, presupunnd dispersiile celor dou populaii egale, ntre statisticile F i t exist urmtoarea legtur: 2 F ;(1,n2 ) gl = t 2;(n2 ) gl .
Spre exemplu dac vom considera =0,05, n=10, atunci: F0 ,05 ;(1,8 )gl =5,32;
2 t0 ,025 ;8 = 2 ,306 t0 ,025 ;8 = 5 ,32 .

76

Exemplul 10.1.3. Se dorete compararea performanelor muncitorilor din trei fabrici aflate n locaii diferite. Pentru aceasta din fiecare fabric s-a extras un eantion de cte 10 muncitori ale cror performane au fost au fost notate pe o scal de la 1 la 10. Datele obinute au fost urmtoarele: Note obinute Fabrica 1 Fabrica 2 Fabrica 3 5 4 6 6 8 4 6 8 5 8 10 7 7 5 5 9 8 8 9 10 9 5 9 7 8 8 6 8 5 4
Cu =0,05 dac punctajele medii obinute de muncitorii din cele trei fabrici difer.

Soluie 1. Formularea ipotezelor; Ho: 1=2=3; H1: nu toate mediile sunt egale. 2. Stabilirea nivelului de semnificaie =0,05; 3. Calculul elementelor necesare determinrii valorii statisticii test
3.1. Calculul mediei i dispersiei fiecrui eantion;

Fabrica 1 Fabrica 2 Fabrica 3 Media 7,1 7,9 6 Dispersia 2,322 4,5 2,766
3.2. Calculul valorii medii totale;

x=

n1 x1 + n2 x2 + n3 x3 10 7 ,1 + 10 7 ,9 + 10 6 = =7. n1 + n2 + n3 10 + 10 + 10

2 3.3. Calcul varianei ntre grupuri sb ;

10 (7 ,1 7 ) + 10 (7 ,9 7 ) + 10 (6 7 ) s = =9,1. 31
2 2 2 2 b

2 3.4. Calculul varianei n grupuri s w ; 2 sw =

9 2 ,322 + 9 0 ,766 + 9 3 ,111 =2,105. 30 3


77

Sursa ntre grupuri n grupuri Total

Suma ptratelor 18,2 56,835 75,035

Grade de libertate 2 27 29

Media sumelor ptratelor 9,1 2,105

4. Calcularea statisticii test

F=

2 sb 9 ,1 = =4,323. 2 s w 2 ,105

5. Determinarea valorilor critice: F0,05;(2,27) =3,35. 6. Luarea deciziei: Deoarece F> F0,05;(2,27) ipoteza nul se respinge.

Verificarea cunotinelor
1. Ce este o analiz ANOVA? 2. Care sunt premisele de la care se pleac ntr-o analiz de tip ANOVA? 3. Se consider urmtoarele 3 eantioane de volum 7, extrase din trei populaii avnd aceeai dispersie: Eantion 1 Eantion 2 Eantion 3 18 20 28 21 19 26 23 22 29 20 21 30 18 23 24 17 18 25 19 24 31
1. Calculai medie i dispersia fiecrui eantion; 2. Difer semnificativ media primei populaii de media celei de a doua? Dar de media celei de a treia? 3. Calculai SSB; 4. Calculai SSW; 5. n tocmii tabelul ANOVA; 6. Cu =0,05 verificai dac mediile celor trei populaii difer semnificativ. 4. Se consider urmtoarele 3 eantioane de volum 15, extrase din trei populaii avnd aceeai dispersie:

Eantion 1 Eantion 2 Eantion 3 5 4 16 6 6 13 4 8 12 5 7 7 8 12 8 10 12 15 5 15 9

78

6 8 8 9 10 12 7
1. 2. 3. 4.

15 9 9 5 6 8 10

14 14 7 6 10 9 5

Calculai SSB; Calculai SSW; n tocmii tabelul ANOVA; Cu =0,05 verificai dac mediile celor trei populaii difer semnificativ; 5. n cazul n care la punctul 4 ai obinut c mediile celor trei populaii, testai care sunt perechile de medii ce difer (=0,05). 5. Se consider urmtorul tabel ANOVA:

Sursa ntre grupuri n grupuri Total


1. 2. 3. 4.

Suma ptratelor 30 25 21,757

Grade de libertate 2 30

Media sumelor ptratelor 6

Cte eantioane au fost testate? Ct este variana n grupuri? Care este valoarea statisticii F? Cte grade de libertate se vor lua n calcul pentru determinarea valorii critice? 5. Difer semnificativ mediile populaiilor din care provin eantioanele? (=0,05) 6. ntr-o secie de asamblare a unei fabrici se lucreaz n trei schimburi. Conducerea fabrici dorete s afle dac timpii medii de asamblare pentru o pies difer n cele trei schimburi. Pentru aceasta se extrage cte un eantion din muncitorii fiecrei secii. Datele obinute au fost urmtoarele:

Timp de asamblare (minute) Schimbul 1 Schimbul 2 Schimbul 3 15 15 18 18 18 20 15 19 22 16 20 16 18 18 16 17 18 18 18 15 18 15 21 15 16


1. ntocmii tabelul ANOVA; 2. Difer semnificativ timpii medii de asamblare ai muncitorilor din cele trei secii? (=0,05) 3. Determinai schimburile ntre care timpii medii de asamblare difer semnificativ.

79

7. O companie lanseaz pe pia trei tipuri de detergeni. Acetia sunt testai, n sensul timpului necesar pentru a scoate un anumit timp de pat, cu acelai tip de main automat de splat. Pentru fiecare tip de detergent se fac cinci observri consecutive, datele obinute fiind urmtoarele: Timp de splare Tip 1 Tip2 Tip 3 15 15 18 18 18 20 15 19 22 16 20 16 16
1. ntocmii tabelul ANOVA; 2. Difer semnificativ timpii medii de splare pentru cele trei tipuri de detergeni? (=0,05)

80

Modulul IV Analiza legturilor dintre variabile


Unitatea 11: Regresia liniar simpl Unitatea 12: Regresia liniar multipl Unitatea 13: Alte tipuri de regresie

Scop i obiective
Scop Acest modul are ca scop crearea de abiliti de studiere a legturilor dintre diferite variabile economice precum i determinarea celui mai bun model ce modeleaz legtura dintre o variabil dependent i una sau mai multe variabile independente. Obiective specifice urmrite

nelegerea importanei studiului legturilor dintre dou sau mai multe variabile statistice. Deprinderea etapelor de studiu a legturii. Deprinderea diferitelor tipuri de legturi. Deprinderea modalitii de testare a modelului regresional alese.
Concepte de baz

Variabil dependent, variabile independente, model regresional.

81

Unitatea 11 Regresia liniar simpl


11.1. Introducere
Deciziile manageriale sunt adesea bazate pe relaii ntre dou sau mai multe variabile. Putem obine informaii suplimentare studiind spre exemplu legtura dintre profit i costuri, dintre nivelul salariului i productivitatea muncii etc. Aceste informaii pot fi deosebit de utile n realizarea unor estimri sau a unor previziuni. Pentru aceasta avem nevoie n primul rnd de informaii la nivel de eantion pe baza crora s putem determina o legtur ntre variabilele implicate. Aceast procedur poart numele de analiz regresional i este folosit aa cum spuneam pentru dezvoltarea unor legturi ntre dou sau mai multe variabile statistice. Este clar c n acest caz vom vorbi de variabile dependente i variabile independente.

Exemplul 11.1.1. 1. profit costuri. Aici variabila dependent este profit iar cea independent este costuri. 2. pre grad de ocupare. Aici variabila dependent este grad de ocupare care depinde de preul unei camere de hotel. Aadar variabila independent va fi pre.
Cea mai simpl form de regresie ce implic o variabil dependent i una independent i n care legtura este aproximat printr-o dreapt este regresia liniar simpl.

11.2. Regresia liniar simpl


n studiul regresiei liniare simple trebuie parcurse urmtoarele etape:

1. 2. 3. 4. 5. 6.

Intuirea formei legturii; Determinarea ecuaiei de regresie; Determinarea celei mai bune drepte de regresie; Studiul intensitii legturii; Testarea semnificaiei modelului regresional; Estimri i predicii.

Pentru a face ct mai clar problematica regresiei liniare simple vom parcurge cele 6 etape pe urmtorul exemplu:

Exemplul 11.2.1. Un eantion de 20 de angajai ai unei firme a furnizat urmtoarele date n ceea ce privete vechimea i venitul orar:

82

Vechimea (ani) Venitul (RON) 2 15 2 16 4 20 3 17 3 16 4 19 5 22 5 21 1 12 2 14 5 22 5 21 5 21 3 16 3 18 2 14 4 19 5 21 1 10 3 17


Se cere: 1. repartiia angajailor n raport cu vechimea; 2. repartiia angajailor n raport cu venitul folosind 4 clase de venit; 3. studiul legturii dintre venitul lunar i vechimea angajailor.

Soluie 1. Repartiia angajailor chestionai n raport cu vechimea este urmtoarea: Vechimea Numr angajai 1 2 2 4 3 5 4 3 5 6
2. repartiia angajailor chestionai n raport cu venitul lunar folosind 4 clase de venit este urmtoarea:

Venit Numr angajai 10-14 4 14-18 7 18-22 9


3. Pentru a studia legtura dintre cele dou variabile vom urma cele 6 etape:

83

11.2.1. Analiza existenei legturii


Reprezentarea grafic a datelor de observare Figura 11.2.1.
25 20 venitul 15 10 5 0 0 1 2 3 vechimea 4 5 6

Norul statistic vechime venit

Observm din reprezentarea grafic a datelor c ntre cele dou variabile exist o legtur liniar. Acest lucru poate fi intuit din aezarea punctelor pe grafic n raport cu dreapta trasat, dreapt care poart numele de dreapt de regresie.

Testul 2
Distribuia bidimensional a eantionului n raport cu cele dou variabile va fi:

Vechimea Venitul 10-14 14-18 18-22 Total

1 an 2 0 0 2

2 ani 2 2 0 4

3 ani 0 5 0 5

4 ani 0 0 3 3

5 ani 0 0 6 6

Total 4 7 9 20

Corespunztor acestui tabel valoarea lui 2 cu 8 grade de libertate i un nivel de semnificaie de 5% este 15,5. Valoarea calculat a lui 2 este 32,14. Cum valoarea calculat este mai mare dect valoarea tabelar putem respinge ipoteza c ntre cele dou variabile nu ar exista nici o legtur (Capitolul 13). Aadar ntre cele dou variabile exist legtur iar graficul, precum i distribuia bidimensional, ne arat c aceasta este de tip liniar.

11.2.2. Determinarea ecuaiei de regresie


Ecuaia ce descrie legtura dintre o variabil dependent Y i una independent X se numete ecuaie de regresie.

84

n cazul regresiei liniare simple modelul regresional, la nivel de populaie va fi de forma: y=Bo+B1x+e, unde Bo i B1 se numesc parametrii modelului regresional, iar e se numete eroare aleatoare. Corespunztor acestui model ecuaia de regresie va fi: y=Bo+B1x. Este evident c valorile parametrilor Bo i B1 sunt necunoscute n practic de aceea vom lucra cu estimri ale acestor parametrii, estimri obinute pe baza datelor observate pe un eantion extras din populaia studiat. Astfel ecuaia de regresie cu care vom lucra va fi: y = bo + b1x. unde bo i b1 reprezint estimri ale parametrilor Bo i B1 ai modelului regresional.

Observaie Dac:

1. bo > 0 atunci legtura dintre variabile este direct; 2. bo = 0 atunci ntre variabile nu exist legtur: 3. bo < 0 atunci legtura dintre variabile este invers.

11.2.3. Determinarea celei mai bune drepte de regresie


Observm pe graficul de la Etapa 1 c nu toate valorile observate se afl pe dreapta de regresie. Acest lucru este o consecin a faptului c ntre valorile observate yi i cele calculate pe baza ecuaiei de regresie yc exist anumite diferene i numite reziduuri: i = yi - yc. Problema care se pune este cea a determinrii acelei drepte de regresie pentru care valorile calculate sunt ct mai apropiate de cele observate. Astfel apare problema determinrii parametrilor de regresie care s conduc la o asemenea dreapt. Determinarea parametrilor de regresie se va face astfel nct suma ptratelor reziduurilor s fie minim:

i2 = ( yi yc )2 min im .
Aceast metod poart numele de metoda celor mai mici ptrate i conduce la urmtoarele expresii ale parametrilor de regresie:

b1=

xi yi n x y ; 2 x i2 n x

bo= y b1 x .
S determinm n cazul problemei noastre parametrii de regresie:

85

xi 2 2 4 3 3 4 5 5 1 2 5 5 5 3 3 2 4 5 3

yi 15 16 20 17 16 19 22 21 12 14 22 21 21 16 18 14 19 21 17 351

xi2

xiyi 30 32 80 51 48 76 110 105 12 28 110 105 105 48 54 28 76 105 51 1244

4 4 16 9 9 16 25 25 1 4 25 25 25 9 9 4 16 25 9 261

67
x =3,3

y =17,05

Astfel vom obine b1 = 2,41 i bo = 9,47. Aadar ecuaia de regresie va fi: y = 9,47 + 2,41x. Se observ c b1 =2,41> 0 ceea ce ne arat o legtur direct ntre venitul orar i vechimea angajailor. Pe de alt parte, la acest nivel al studiului legturii, putem afirma c dac vechimea crete cu o unitate atunci venitul va crete cu 2,41 uniti. Aceast ecuaie de regresie reprezint i o baz pentru efectuarea unor estimri i a unor predicii (cu anumite rezerve). Spre exemplu putem estima c la o vechime de un an i jumtate corespunde un venit mediu orar de 13,08 RON sau la o vechime de 6 ani corespunde un nivel mediu al venitului de 23,93 RON.

11.2.4. Studiul intensitii (gradului de asociere) legturii dintre cele dou variabile
Se pune urmtoarea ntrebare: Ct de puternic, de intens, este legtura dintre cele dou variabile? Studiul intensitii legturii dintre cele dou variabile se face cu ajutorul aa numitei analize a corelaiei cu ajutorul creia se msoar gradul de asociere, de corelare, dintre cele dou variabile.

86

Pentru a determina msura gradului de asociere dintre dou variabile se calculeaz o serie de coeficieni pe care i vom aminti n cele ce urmeaz.

Coeficientul de asociere al lui Pearson

Coeficientul de asociere al lui Pearson se calculeaz cu ajutorul valorii lui 2 i are urmtoarea expresie: C=

2 , n+ 2

unde n este volumul eantionului supus studiului.

Observaie Se observ c dac 2=0, atunci C=0, iar dac 2 , atunci C=1 ceea ce ne arat c acest coeficient ia valori cuprinse ntre 0 i 1.
S calculm coeficientul de asociere al lui Pearson n cazul exemplului nostru. Am vzut c n acest exemplu 2=15,5 astfel c vom obine:

C=

15 ,5 =0,66. 20 + 15 ,5

Aceast valoare indic o legtur de intensitate medie ntre vechimea i venitul orar al angajailor firmei.

Coeficientul de asociere al lui Ciuprov

Coeficientul de asociere al lui Ciuprov se calculeaz tot pe baza valorii lui 2 i are urmtoarea expresie: T=

(nr .linii 1)(nr .coloane 1)

n cazul exemplului nostru vom avea:

T=

15 ,5 15 ,5 = =0,52. 56 ,56 20 (3 1)(5 1)

i n acest caz valoarea coeficientul ne indic o legtur de intensitate medie ntre vechimea i veniturile angajailor firmei.

Observaii 1. Ambii coeficieni discutai mai sus au anumite neajunsuri. Coeficientul de asociere al lui Pearson nu poate lua valoarea 1 ci poate doar tinde la aceast valoare. Pe de alt parte coeficientul de asociere al lui Ciuprov nu red ntotdeauna intensitatea real dintre variabilele implicate n studiu. Se poate ntmpla adesea ca intensitatea legturii s fie mai puternic dect cea indicat de acest coeficient.

87

2. Cei doi coeficieni sunt utilizai n mod special n cazul datelor calitative. n cazul datelor cantitative sunt folosii n prealabil urmtorii coeficieni: coeficientul de corelaie care d msura gradului de asociere dintre cele dou variabile; coeficientul de determinaie care d msura n care variabila independent influeneaz (determin) variabila dependent.

Coeficientul de corelaie r

r=

n x i2 ( x i )

n x i y i x i y i
2

n y i2 ( y i )

Valorile acestui coeficient sunt cuprinse ntre -1 i 1, iar n ceea ce privete interpretarea valorilor sale avem: dac r[0;0,3] legtur direct slab; dac r(0,3;0,7] legtur direct de intensitate medie; dac r (0,7;1] legtur direct puternic; dac r[-0,3;0] legtur invers slab; dac r[-0,7; -0,3) legtur invers de intensitate medie; dac r [-1; -0,7) legtur invers puternic. n cazul exemplului nostru vom obine r = 0,97 ceea ce indic o puternic legtur direct ntre nivelul venitului i vechime. Este evident c aceste date sunt obinute la nivel de eantion. Tocmai de aceea este necesar derularea unui test de semnificaie pentru valoarea coeficientului de corelaie la nivel de populaie . Etapele testului sunt urmtoarele:

1. Formularea ipotezelor Test bilateral Ho: =0 H1: 0 Teste unilaterale Ho: =0 Ho: =0 H1: >0 H1: < 0.

2. Determinarea nivelului de semnificaie 3. Calcularea valorii statisticii test: t=

r 1 r2 n 2
2 ;( n 2 ) gl

4. Determinarea valorilor critice: t 5. Luarea deciziei.

, t ;( n 2 ) gl , t ;( n 2 ) gl ;

88

n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge.
n cazul exemplului nostru vom avea:

1. Formularea ipotezelor: Ho: =0; H1: > 0. 2. Determinarea nivelului de semnificaie =0,05 3. Calcularea valorii statisticii test: t=

r 1 r n2
2

=17,01;

4. Determinarea valorilor critice: t ;( n 2 ) gl = t 0 ,05 ;18 =1,734 5. Luarea deciziei: deoarece valoarea calculat a lui t este mai mare dect valoarea critic ipoteza nul se respinge. Aadar concluzionm c i la nivelul tuturor angajailor hotelului (la nivelul populaiei) exist o corelaie pozitiv (> 0).
Coeficientul de determinaie r2
Acest coeficient, aa cum spuneam i mai devreme, arat procentul n care variabila independent influeneaz variabila dependent. n cazul exemplului nostru r2=(0,97)2=0,94 ceea ce arat c vechimea influeneaz venitul n proporie de 94%. Diferena de 6% reprezint influena pe care o au ali factori asupra venitului.

11.2.5. Testarea semnificaiei modelului regresional


Calcularea parametrilor de regresie bo i b1 furnizeaz doar estimri ale parametrilor de regresie (Bo i B1) la nivelul populaiei din care a fost extras eantionul. Astfel apare necesar derularea unui test de semnificaie n ceea ce privete parametrii de regresie Bo i B1 la nivel de populaie. Cum calculul parametrului bo se face prin intermediului parametrului b1 este suficient s derulm un test de semnificaie pentru B1 ale crui etape le vom specifica n continuare

1. Formularea ipotezelor: Ho: B1=0; H1: B10, B1>0, B1< 0; 2. Stabilirea nivelului de semnificaie ; 3. Calcularea valorii statisticii test: t=

b1 unde sb1

89

s b1 =

ESE

x nx
2 i
2

ESE=

i2
n2

( yi yc )
n2

fiind eroarea standard a estimrii.

4. Determinarea valorilor critice: t 2 ;( n 2 ) gl , t ;( n 2 ) gl , t ;( n 2 ) gl ; 5. Luarea deciziei. n cazul testului bilateral dac valoarea calculat se afl ntre valorile critice ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la dreapta dac valoarea calculat este mai mic dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge; n cazul testului unilateral la stnga dac valoarea calculat este mai mare dect valoarea critic, ipoteza nul se accept. n caz contrar aceasta se respinge. Observaie 2 Expresia i2 = ( yi y c ) reprezint suma ptratelor reziduurilor (SPR), iar calculul acestei sume se poate face simplificat astfel: SPR= yi2 bo yi b1 xi yi .
Astfel expresia erorii standard a estimrii n cazul regresiei liniare simple devine:

ESE=

yi2 bo yi b1 xi yi
n2

n cazul exemplului nostru vom avea:

1. Formularea ipotezelor: Ho: B1=0; H1: B1>0; 2. Stabilirea nivelului de semnificaie =0,05; 3. Calcularea valorii statisticii test: ESE=

yi2 bo yi b1 xi yi
n2 ESE

=0,91;

sb1 =
t=

2 i

nx

=0,15;

b1 =16,06. sb1

4. Determinarea valorilor critice: t ;( n 2 ) gl = t 0 ,05 ;18 =1,734 5. Luarea deciziei: deoarece valoarea statisticii test depete valoarea critic ipoteza nul se respinge. Aadar cu un nivel de ncredere de 95% putem afirma c i la nivel de populaie legtura dintre cele dou variabile este una direct.

90

Observaie n cazul regresie liniare simple testarea semnificaiei coeficientului de corelaie r2 este echivalent cu testarea semnificaiei modelului regresional.

11.2.6. Estimri i predicii


Rolul cel mai important al modelului regresional este acela c ne ajut s vedem comportamentul variabilei dependente la modificri ale variabile independente. Acest lucru este posibil cu ajutorul unor estimri sau predicii ale valorilor variabilei dependente Y pentru anumite valori ale variabilei dependente X. Astfel putem estima nivelul mediu al variabilei dependente Y pentru anumite valori ale variabilei independente X cu ajutorul intervalelor de estimare sau putem previziona valori individuale ale variabilei dependente Y pentru anumite valori ale variabilei independente X cu ajutorul intervalelor de prediciie. Formele celor dou intervale sunt urmtoarele:
2 xo x 1 + Interval de estimare y y o t 2 ;( n 2 ) gl ESE ; 2 n x x i 2 xo x 1 Interval de predicie y y o t 2 ;( n 2 ) g ESE 1 + + , 2 n x x i

( (

unde valoarea yo se determin din ecuaia de regresie pentru x=xo. S estimm n cele ce urmeaz nivelul mediu al venitului pentru o vechime de un an i jumtate. Aadar xo=1,5 i corespunztor yo=13,08.

(xi x )

=36,55;

x =3,4225; ESE=0,91; yo=13,08; t 0 ,025 ;18 =2,101;


o

(x
y

x =1,5

(12 ,8 ;13 ,35 ) .

Aadar estimm c unei vechimi de 1,5 ani i corespunde un nivel mediu al venitului cuprins ntre 12,8 i 13,35 RON. Dac dorim s determinm un interval de previziune pentru venit, corespunztor unei vechimi de 6 ani atunci vom avea:

(xi x )

=36,55;

(x

x =7;

91

ESE=0,91; yo=23,93; t 0 ,025 ;18 =2,101.

y x =6 (21,83;26 ,03)

Pentru o fixare ct mai bun a celor discutate pn acum s mai considerm un exemplu.

Exemplul 11.2.2. Un comerciant studiaz timp de cinci sptmni evoluia vnzrilor unui anumit produs n funcie de pre. El a observat urmtoarele: Pre (xi) Cantitate (yi) 20 80 40 60 50 50 60 60 80 20
1. S se studieze existena legturii dintre pre i cantitate reprezentnd grafic datele de observare; 2. n cazul existenei legturii s se determine intensitatea acesteia precum i procentul n care ali factori influeneaz cantitatea vndut; 3. S se determine parametrii ecuaiei de regresie; 4. Care este cantitatea ce se vinde la un pre de 40 u.m., conform modelului regresional? Comparai cu valoarea observat; 5. Care este cantitatea ce se va vinde, conform modelului, la un pre de 30 u.m.? 6. Cu un coeficient de ncredere de 0,95 s se construiasc un interval de estimare pentru cantitatea ce se va vinde la un pre de 30 u.m.; 7. Testai semnificaia modelului regresional.

Soluie
1. Vom reprezenta grafic datele de observare :

Figura 11.2.2.
100 80

Evoluia cantitii vndute n funcie de pre

cantitate

60 40 20 0 0 20 40 60 80 100

pre

92

Din graficul de mai sus observm c ntre cele dou variabile exist o legtur liniar invers. 2. Pentru a stabili intensitatea legturii dintre pre i cantitate vom calcula n cele ce urmeaz coeficientul de corelaie.

r=

n x i2 ( x i )
xi 20 40 50 60 80 yi 80 60 50 60 20

n x i y i x i y i
2

n y i2 ( y i ) xi2 yi2
6400 3600 2500 3600 400

xiyi 1600 2400 2500 3600 1600

400 1600 2500 3600 6400

250 270 14500 16500 11700


r=

5 11700 250 270 5 14500 250 2 5 16500 270 2

9000 =0,92. 9797 ,95

Valoarea coeficientului de corelaie liniar indic faptul c ntre pre i cantitatea vndut exist o legtur liniar puternic. Pentru a determina influena pe care ali factori o au asupra cantitii vndute vom calcula coeficientul de determinaie. r2=(0,92)2=0,8464. Valoarea coeficientului de determinaie ne arat c preul influeneaz cantitatea vndut n proporie de 84,64%. Aadar influena altor factori asupra cantitii vndute este n proporie de 15,36%. 3. b1=

xi yi n x y ; 2 x i2 n x
x=

bo= y b 1 x .

250 = 50 ; 5 270 y= = 54 ; 5 11700 5 50 54 1800 b1= = = - 0,9; 2 2000 14500 5 50 bo= 54+0,950=99.
Aadar ecuaia de regresie va fi: y=99 0,9x.

93

4. Corespunztor unui pre de 40 u.m. cantitatea vndut va fi, conform modelului regresional, y=990,940=63. Observ c diferena dintre valoarea calculat (63) i cea observat (60) este mic ceea ce ntrete idea c legtura liniar dintre pre i cantitate este puternic. 5. Corespunztor unui pre de 30 u.m. cantitatea ce se va vine, conform modelului regresional va fi y=990,930=72. 6.

y y o t
ESE=

2 xo x 1 + 2 ;( n 2 ) gl ESE n x x 2 i

yi2 bo yi b1 xi yi
n2

(x

) = (30 50 ) = 400 ; (x x ) = 2000 ; (x x ) = 6 ,3 ; 1 ESE + n (x x )


o

16500 99 270 + 0 ,9 11700 =10. 52


2

t0,025;3=3,182;
Astfel vom obine: y (723,1826,3)=(52;92). Aadar cu o probabilitate de 95% cantitatea posibil a fi vndut la un pre de 30 u.m. este cuprins ntre 52 i 92. 7. 1. Formularea ipotezelor: Ho: B1=0; H1: B1<0; 2. Stabilirea nivelului de semnificaie =0,05; 3. Calcularea valorii statisticii test:

ESE=

yi2 bo yi b1 xi yi
n2 ESE
2

=10;

sb1 =
t=

x nx
2 i

=0,2236;

b1 =-4,025. sb1

4. Determinarea valorilor critice: t ;( n 2 ) gl = t0 ,05 ;3 =2,353. 5. Luarea deciziei: deoarece valoarea statisticii test este mai mic dect valoarea critic (- t ;( n 2 ) gl )ipoteza nul se respinge. Aadar cu un nivel de ncredere de 95% putem afirma c i la nivel de populaie legtura dintre cele dou variabile este una invers.

94

Unitatea 12 Regresia liniar multipl


Am vzut n unitatea anterioar cum se studiaz legtura dintre o variabil dependent i o singur variabil independent. De multe ori ns, n economie, un anumit fenomen nu este influenat de un singur factor ci de doi sau mai muli factori. Apare astfel ntrebarea: Cum se studiaz legtura dintre variabilele implicate n acest caz? Studiul acestui tip de legtura poate fi fcut prin generalizarea consideraiilor fcute pe marginea modelului regresional simplu.

12.1. Modelul regresional liniar multiplu. Ecuaia de regresie


Presupunem c o anumit variabil y depinde liniar de variabilele independente x1,..., xk. n acest caz ecuaia de model regresional va avea forma:

y=Bo+B1x1+...+Bkxk+e.
Ecuaia de regresie va avea forma:

y= bo+b1x1+...+bkxk, unde bo, ..., bk reprezint estimri ale parametrilor ale parametrilor de regresieBo, ..., Bk.
Exemplul 12.1.1. Se consider variabila independent y i variabilele dependente x1 i x2 ale cror observare a condus la urmtoarele valori: y 1,75 2,45 2,45 2,5 2,3 2,55 2,4 1,95 2,15 2,35 1,85 2,45 2,9 2,55 2,2 x1 5 2 3 2 4 3 4 5 5 4 5 3 2 3 4 x2 10 12 12 10 13 13 14 12 14 11 11 12 14 13 12

1. S se studieze legtura dintre y i x1 determinnd parametrii ecuaiei de regresie precum i coeficientul de corelaie i de determinaie;

95

2. S se studieze legtura dintre y i x2 determinnd parametrii ecuaiei de regresie precum i coeficientul de corelaie i de determinaie; 3. S se intuiasc forma legturii dintre y, x1 i x2.

Soluie
1. Reprezentm grafic datele de observare:

Figura 12.1.1.
4 3 2 1 0 0 1 y

Evoluia lui y n funcie de x1

3 x

Din grafic intuim o legtur liniar invers ntre cele dou variabile. Aadar ecuaia de regresie va fi de forma y=bo+b1x1. Vom trece acum la determinarea parametrilor ecuaiei de regresie:

b1=

x1 y n x1 y = - 0,23; 2 x1 n x1

bo= y b1 x1 =3,15; y=3,15 0,23x1.


Vom determina n continuare coeficientul de corelaie:

r1 =

2 n x1 ( x1 )

n x1 y x1 y
2

n y 2 ( y )

= - 0,86.

Valoarea coeficientului de corelaie ne indic o puternic legtur liniar invers ntre variabila dependent y i cea independent x1. Valoarea coeficientului de determinaie va fi: r12 = ( 0 ,86 ) = 0 ,7396 , ceea ce nseamn c x1 influeneaz y n proporie de 73,96%.
2

96

2. Reprezentm grafic datele de observare:

Figura 12.1.2.
4 3 2 1 0 9 10 y

Evoluia lui y n funcie de x2

11

12 x

13

14

15

Din grafic intuim o legtur liniar direct ntre cele dou variabile. Aadar ecuaia de regresie va fi de forma y=bo+b1x2. Vom trece acum la determinarea parametrilor ecuaiei de regresie:

b1=

x2 y n x2 y = 0,1; 2 x2 n x2

bo= y b2 x2 =1; y=1 + 0,1x2.


Vom determina n continuare coeficientul de corelaie:

r2 =

n x ( x2 )
2 2

n x2 y x2 y
2 2

n y ( y )

= 0,47.

Valoarea coeficientului de corelaie ne indic o legtur liniar direct de intensitate medie ntre variabila dependent y i cea independent x2. Valoarea coeficientului de determinaie va fi: r22 = (0 ,47 ) = 0 ,2209 , ceea ce nseamn c x2 influeneaz y n proporie de 22,09%.
2

3. Deoarece ntre y i x1 exist o puternic legtur liniar, iar ntre y i x2 o legtur liniar de intensitate medie vom putea presupune c ntre cele trei variabile exist o legtur multipl de tip liniar.

Observaie Presupunerea fcut la punctul 3 al exemplului anterior nu este general valabil deoarece exist numeroase cazuri n care intensitatea legturii liniare dintre variabila dependent i fiecare variabil independent este slab ns intensitatea legturii liniare multiple este puternic. Ceea ce va da intensitatea legturii va fi coeficientul de corelaie multipl pe care-l vom discuta puin mai trziu.

97

12.2. Determinarea parametrilor ecuaiei de regresie


Determinarea parametrilor ecuaiei de regresie se va face i n acest caz cu ajutorul metodei celor mai mici ptrate care aa cum s-a vzut const n minimizarea sumei ptratelor reziduurilor, adic n rezolvarea problemei de minim: i2 = ( yi bo b1 x1 ... bk xk )2 min im . Condiiile de minim cunoscute ne vor conduce la urmtorul sistem de ecuaii:

bo n + b1 x1 + b2 x2 + ... + bk xk = y 2 bo x1 + b1 x1 + b2 x1 x2 + ... + bk x1 xk = yx1 2 bo x2 + b1 x1 x2 + b2 x2 + ... + bk x2 xk = yx2 ................................................................................ 2 bo xk + b1 x1 xk + b2 x2 xk + ... + bk xk = yxk


n cazul k=2 sistemul devine:

bo n + b1 x1 + b2 x2 = y 2 bo x1 + b1 x1 + b2 x1 x2 = yx1 2 bo x2 + b1 x1 x2 + b2 x2 = yx2 15bo + 54b1 + 183b2 = 34 ,8 54bo + 212b1 + 657 b2 = 121,2 183b + 657 b + 2257 b = 427 ,2 o 1 2

n cazul exemplului nostru vom avea:

Rezolvnd acest sistem vom obine bo=2, b1= - 0,222, b2=0,091. Aadar ecuaia de regresie va fi: y=2 0,222x1+0,0911x2. Aceast ecuaie ne arat spre exemplu c dac x2 este constant iar x1 crete cu o unitate atunci y scade cu 0,222 uniti. La fel dac x1 este meninut constant iar x2 crete cu o unitate atunci y crete cu 0,091 uniti.

12.3. Coeficientul de corelaie


Coeficientul de corelaie multipl R se va calcula n funcie de valorile coeficienilor de corelaie dintre variabila dependent i fiecare variabil independent, precum i de coeficienii de corelaie dintre variabilele independente.
n cele ce urmeaz vom da expresia coeficientului de corelaie multipl n cazul k=2.

98

R=

2 2 ryx1 + ryx2 2 ryx1 ryx2 rx1 x2

1 rx2 x2 1

Observaie Coeficientul de corelaie multipl ia valori cuprinse ntre 0 i 1. Cu ct valoarea sa este mai apropiat de 1 cu att legtura este mai puternic. Cu ct valoarea sa se apropie de 0 cu att legtura este mai slab.
Pentru a determina valoarea coeficientului de corelaie multipl n cazul exemplului nostru mai trebuie determinat valoarea coeficientului de corelaie dintre cele dou variabile independente. Avem:

rx1 x2 =
Astfel vom obine:

n x1 x 2 x1 x 2
2 n x1 ( x1 ) 2 2 n x 2 ( x 2 ) 2

= - 0,08.

R=

2 2 ryx1 + ryx2 2ryx1 ryx2 rx1 x2

1 rx2 x2 1

( 0 ,86 )2 + (0 ,47 )2 2 0 ,86 0 ,47 0 ,08 =0,955 2 1 ( 0 ,08 )

Valoarea coeficientului de corelaie multipl indic o puternic legtur liniar multipl ntre cele trei variabile.

12.4. Coeficientul de determinaie


Ca i n cazul regresiei liniare simple coeficientul de determinaie n cazul regresiei liniare multiple se calculeaz ca fiind ptratul coeficientului de corelaie R2. n cazul exemplului nostru R2=0,9132 ceea ce ne arat c cele dou variabile independente influeneaz variabila independent n proporie de 91,32%.

Observaie Este interesant de observat c x1 influena y n proporie de 73,96%. Prin adugarea n model a variabilei independente x2 aceast influen a crescut la 91,32%. La fel n cazul variabilei independente x2 a crei influen asupra lui y a crescut prin introducerea variabilei independente x1 de la 22,09% la 91,32%. Observaie Este demonstrat faptul c adugarea de noi variabile unui model regresional multiplu conduce la creterea sau n cel mai ru caz la meninerea constant a valorii coeficientului de determinaie. Acest lucru conduce, pe msura introducerii de noi variabile independente, la interpretri eronate ale valorii coeficientului de determinaie. Tocmai pentru a evita aceast problem se calculeaz un alt coeficient de determinaie numit coeficient de determinaie ajustat care ia n calcul numrul variabilelor independente din model i a crui expresie este:

99

R = 1 1 R2

n )n 1 1 , k

unde n este volumul eantionului asupra cruia se efectueaz studiul, iar k este numrul de variabile independente considerate n model. n cazul exemplului nostru n=15, k=2, astfel c vom avea:

R = 1 1 R2

n ) n 1 1 = 1 (1 0 ,9132) 1515 1 1 =0,8988. k 2

Observaie Se observ ca valoarea coeficientul de determinaie ajustat este mai mic dect cea a coeficientului de determinaie. Pe de alt parte dac n este mare iar k mic atunci cei doi coeficieni au aproximativ aceeai valoare. De aici reiese importana folosirii coeficientului de determinaie ajustat n special n cazul n care volumul eantionului studiat este mic.

12.5. Testarea semnificaiei modelului regresional


Testarea semnificaiei modelului regresional se poate face n acest caz n dou moduri i anume: testarea semnificaiei modelului n raport cu fiecare dintre variabilele independente implicate i testarea semnificaiei modelului regresional n raport cu ansamblul variabilelor independente implicate.

Testarea semnificaiei modelului n raport cu fiecare variabil independent


n acest caz se va testa semnificaia fiecrui coeficient al modelului regresional aplicndu-se cte un test de semnificaie pentru fiecare dintre acetia. Etapele acestor teste sunt la fel cu cele n care se testa semnificaia modelului regresional simplu i anume: 1. Formularea ipotezelor: Ho: Bi=0; H1: Bi0, Bi>0, Bi< 0; 2. Stabilirea nivelului de semnificaie ;

3. Calcularea valorii statisticii test: t=

bi unde s bi

sbi =

( x

ESE
2 i

nx

)(1 r

2 x1 ... x k 2

ESE=

i2
nk 1

( y i yc )
nk 1

fiind eroarea standard a estimrii.

4. Determinarea valorilor critice: t 2 ;( n k 1 ) gl , t ;( n k 1 ) gl , t ;( n k 1 ) gl ; 5. Luarea deciziei.


S testm semnificaia modelului regresional n cazul exemplului nostru:

1. Formularea ipotezelor: Ho: B1=0; H1: B1< 0; Ho: B2=0; H1: B2> 0;

100

2. =0,05; 3. ti=

bi sbi
Valori calculate (yc) 1,8 2,657533 2,435102 2,473957 2,304459 2,52689 2,396247 1,99024 2,173816 2,120883 1,898452 2,435102 2,841109 2,52689 2,212671 yi-yc -0,05 -0,20753 0,014898 0,026043 -0,00446 0,02311 0,003753 -0,04024 -0,02382 0,229117 -0,04845 0,014898 0,058891 0,02311 -0,01267 Suma
(yi-yc)2 0,0025 0,04307 0,000222 0,000678 1,99E-05 0,000534 1,41E-05 0,001619 0,000567 0,052495 0,002348 0,000222 0,003468 0,000534 0,000161 0,108452

Valori observate (yi) 1,75 2,45 2,45 2,5 2,3 2,55 2,4 1,95 2,15 2,35 1,85 2,45 2,9 2,55 2,2

Avem ESE=

( yi y c )
n k 1

0 ,108452 =0,095066; 12

Pe de alt parte avem:

x12 n x1 =17,6; 2 2 x2 n x2 =24,4;


rx2 x2 =0,0075.
Astfel obinem:

sb1 =
2

0 ,095066 0 ,222 =0,02274; t1= = - 9,7625; 0 ,02274 17 ,468 0 ,091 0 ,095066 =0,01931; t2= =4,7125. sb = 0 ,01931 24 ,217

4. Determinarea valorilor critice: t0 ,05 ;12 = 1,782 ; 5. Luarea deciziei


Observm c n cazul testului pentru B1, valoarea calculat -9,7625 a statisticii test este mai mic dect valoarea critic -1,782 ceea ce nseamn c ipoteza nul se respinge. Aadar cu o probabilitate de 95%, B1<0.

101

i n cazul lui B2 valoarea calculat 4,7125 a statisticii test este mai mare dect valoarea critic 1,782. i n acest caz ipoteza nul este respins. Aadar cu o probabilitate de 95%, B2>0.

Testarea semnificaiei modelului n raport cu ansamblul variabilelor independente


Testarea semnificaiei modelului regresional n raport cu ansamblul variabilelor implic o analiz de tip ANOVA, care aa cum am vzut n Capitolul 14 atrage dup sine folosirea statisticii test F. Etapele de derulare ale testului sunt urmtoarele:

1. Formularea ipotezelor: Ho: B1= B2=...= Bk=0; H1: unul sau mai muli coeficieni sunt diferii de zero; 2. Stabilirea nivelului de semnificaie ;

R2 k ; 3. Calcularea valorii statisticii test: F= 1 R2 nk 1 4. Determinarea valorilor critice: F( k ;n k 1 ) gl ;


5. Luarea deciziei: dac valoarea calculat depete valoarea critic atunci ipoteza nul se respinge. n caz contrar aceasta se accept.
n cazul exemplului nostru vom avea: 1. Formularea ipotezelor: Ho: B1= B2=0; H1:B10 sau/i B20; 2. =0,05; 3. Calcularea valorii statisticii test

R2 0 ,9132 k 2 F= = =63,12; 2 1 0 ,9132 1 R 12 n k 1 4. Determinarea valorilor critice: F(2 ;12 ) gl =3,38;


5. Luarea deciziei: deoarece valoarea calculat 63,12 depete valoarea critic 3,38, ipoteza nul se respinge. Aadar putem afirma c cu o probabilitate de 95% modelul regresional determinat este semnificativ n raport cu ansamblul variabilelor independente implicate.

102

Unitatea 13 Alte tipuri de regresie


13.1. Modele regresionale ce se reduc la modelul regresional liniar simplu
Considerm o populaie studiat n raport cu dou variabile, una independent X i una dependent Y.

13.1.1. Regresia multiplicativ

Model regresional: y = Bo x B1 +e, Ecuaia de regresie: y = bo x b1 , bo i b1 reprezint estimri ale parametrilor modelului regresional Bo i B1.
Pentru determinarea parametrilor ecuaiei de regresie vom proceda la logaritmarea ecuaiei de regresie obinnd: lny=lnbo+b1lnx.

Notnd lny= y , lnbo= bo i lnx= x vom obine urmtoarea ecuaie de regresie liniar: y = bo + b1 x .
Pornind de aici cazul regresiei multiplicative se reduce la cazul regresiei liniare simple i n consecin studiul acesteia se va face innd cont de etapele ce trebuie urmate n cazul regresiei liniare simple.

Exemplul 13.1.1. Se cunosc urmtoarele date de observare: x y 1 2 1 5 2 20 4 120 3 50 4 125 5 250 2 15 3 60 4 140

Folosind modelul regresional multiplicativ determinai legtura dintre y i x calculnd coeficienii de corelaie i de determinaie.

Soluie Reprezentm grafic datele de observare.

103

Figura 13.1.1.
300 250 200 150 100 50 0 0 1 2

Evoluia lui y n funcie de x

Din grafic se observ c ntre x i y exist o legtur multiplicativ. Aadar ecuaia de regresie va fi:

y = bo x b1 .
Logaritmnd i folosind notaiile de mai sus obinem: y = bo + b1 x . Conform formulelor de determinare a parametrilor de regresie n cazul regresiei liniare simple vom avea:

b1=

xi yi n x y ; 2 2 (xi ) n x
y
0,69315 1,60944 2,99573 4,78749 3,91202 4,82831 5,52146 2,70805 4,09434 4,94164 36,0916

bo = y b1 x .
x 1 1 2 4 3 4 5 2 3 4 y 2 5 20 120 50 125 250 15 60 140

x
0 0 0,69315 1,38629 1,09861 1,38629 1,60944 0,69315 1,09861 1,38629 9,35184

x y
0 0 2,07648 6,63687 4,2978 6,69346 8,88645 1,87708 4,4981 6,85057 41,8168

( x i )2
0 0 0,48045 1,92181 1,20695 1,92181 2,59029 0,48045 1,20695 1,92181 11,7305

( y i )2
0,48045 2,59029 8,97441 22,9201 15,3039 23,3126 30,4865 7,33354 16,7637 24,4198 152,585

x =0,935184

y =3,60916

104

Astfel obinem:

b1=

xi yi n x y = 41,8168 10 0 ,93518 3,60916 =2,7; 2 2 2 11,7305 10 (0 ,93518 ) (xi ) n x

bo = y b1 x =3,60916 2,70,93518=1,08 lnbo=1,08 bo=e1,08=2,95.


Aadar am obinut:

y=2,95x2,7.

Valoarea lui b1=2,7>0 indic o legtur direct ntre cele dou variabile. Vom calcula n continuare coeficientul de corelaie:

r= r=

n ( xi ) ( xi )
2

n xi yi xi yi
2

n ( yi ) ( yi )
2

10 41,8168 9 ,35184 36 ,0916


2 10 11,7305 (9 ,35184 ) 2 10 152 ,585 (36 ,0916 )

=0,9879.

Valoarea coeficientului de corelaie ne indic o puternic legtur de tip multiplicativ ntre cele dou variabile. Pe de alt parte valoarea coeficientului de determinaie va fi r2=0,9759 ceea ce nseamn c x influeneaz y n proporie de 97,59%.

13.1.2. Regresia exponenial

Model regresional: y = e

Bo + B1 x
b +b x

+ eroarea

Ecuaia de regresie: y = e o 1 bo i b1 reprezint estimri ale parametrilor modelului regresional Bo i B1.


Pentru determinarea parametrilor ecuaiei de regresie vom proceda la logaritmarea ecuaiei de regresie obinnd: lny=bo+b1x. Notnd lny= y vom obine urmtoarea ecuaie de regresie liniar: y = bo + b1 x . Pornind de aici cazul regresiei exponeniale se reduce la cazul regresiei liniare simple i n consecin studiul acesteia se va face innd cont de etapele ce trebuie urmate n cazul regresiei liniare simple.

Exemplul 13.1.2. Se cunosc urmtoarele date de observare: x y 1 10 2 50 3 100 2 60 3 150 4 400 3 150 4 410 3 160 5 1000

Folosind modelul regresional exponenial determinai legtura dintre y i x calculnd coeficienii de corelaie i de determinaie.

105

Soluie Vom reprezenta grafic datele de observare. Figura 13.1.2.


1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6

Evoluia lui y n funcie de x

Graficul sugereaz c ntre x i y exist o legtur exponenial. Aadar ecuaia de regresie va fi: y = e bo +b1 x . Logaritmnd i folosind notaiile de mai sus obinem: y = bo + b1 x . Conform formulelor de determinare a parametrilor de regresie n cazul regresiei liniare simple vom avea:

b1=

xi yi n x y ; 2 2 ( xi ) n x
y
x y 2,30259 7,82405 13,8155 8,18869 15,0319 23,9659 15,0319 24,0646 15,2255 34,5388 159,989 x2 1 4 9 4 9 16 9 16 9 25 102

bo = y b1 x .
x 1 2 3 2 3 4 3 4 3 5 30 y 10 50 100 60 150 400 150 410 160 1000 2490

( y i )2
5,3019 15,3039 21,2076 16,7637 25,1065 35,8976 25,1065 36,1941 25,7574 47,7171 254,356

2,302585 3,912023 4,60517 4,094345 5,010635 5,991465 5,010635 6,016157 5,075174 6,907755 48,92594

106

Astfel obinem:

b1=

xi yi n x y = 159 ,989 10 3 4 ,892594 =1,1; 2 2 102 10 9 ( xi ) n x

bo = y b1 x =4,892594 1,131,6.
Aadar avem: lny=1,6+1,1x, de unde obinem ecuaia de regresie: y=e1,6+1,1x Valoarea lui b1=1,1>0 indic o legtur direct ntre cele dou variabile. Vom calcula n continuare coeficientul de corelaie:

r= r=

n ( xi ) ( xi )
2

n xi yi xi yi
2

2 2 n ( yi ) ( yi )

10 159 ,989 30 48 ,92594 10 102 900 10 254 ,356 (48 ,92594 )


2

=0,9853.

Valoarea coeficientului de corelaie ne indic o puternic legtur de tip exponenial ntre cele dou variabile. Pe de alt parte valoarea coeficientului de determinaie va fi r2=0,9709 ceea ce nseamn c x influeneaz y n proporie de 97,09%.

Observaie Forma general a modelului regresional este

y = B0 B1x + e
Iar ecuaia de regresie corespunztoare va fi: y = b0 b1x . Logaritmnd obinem: y = bo + b1 x unde y =lny, bo =lnbo i b1 =lnb1.

13.1.3. Regresia hiperbolic (reciproc)

Model regresional: y = Ecuaia de regresie: y =

1
Bo + B1 x

+e

1
bo +b1 x

bo i b1 reprezint estimri ale parametrilor modelului regresional Bo i B1.


Notnd

1 = y vom obine urmtoarea ecuaie de regresie liniar: y y = bo + b1 x .

107

Pornind de aici cazul regresiei exponeniale se reduce la cazul regresiei liniare simple i n consecin studiul acesteia se va face innd cont de etapele ce trebuie urmate n cazul regresiei liniare simple.

Exemplul 13.1.3. Se cunosc urmtoarele date de observare: x y 1 0,4 2 0,6 2 0,5 3 0,6 2 0,3 4 1,5 4 1,6 3 0,5 2 0,4 1 0,3

Folosind modelul regresional hiperbolic determinai legtura dintre y i x calculnd coeficienii de corelaie i de determinaie.

Soluie
Vom reprezenta grafic datele de observare.

Figura 13.1.3.
2 1,5 1 0,5 0 0 1

Evoluia lui y n funcie de x

Graficul sugereaz c ntre x i y exist o legtur hiperbolic. Aadar ecuaia de regresie va fi:

y=

1
bo +b1 x

Folosind notaiile de mai sus obinem: y = bo + b1 x . Conform formulelor de determinare a parametrilor de regresie n cazul regresiei liniare simple vom avea:

b1=

xi yi n x y ; 2 2 ( xi ) n x

bo = y b1 x .

108

x 1 2 2 3 2 4 4 3 2 1 24
Astfel obinem:

y 0,4 0,6 0,5 0,6 0,3 1,5 1,6 0,5 0,4 0,3 6,7

y
2,5 1,66667 2 1,66667 3,33333 0,66667 0,625 2 2,5 3,33333 20,2917

x y 2,5 3,33333 4 5 6,66667 2,66667 2,5 6 5 3,33333 41

x2 1 4 4 9 4 16 16 9 4 1 68

( y i )2
6,25 2,77778 4 2,77778 11,1111 0,44444 0,39063 4 6,25 11,1111 49,1128

b1=

xi yi n x y = 41 10 2 ,4 2 ,02917 = - 0,74; 2 2 68 10 5 ,76 ( xi ) n x

bo = y b1 x =2,02917+0,742,4=3,8.
Aadar avem:

1 =3,8 0,74x, y
de unde obinem ecuaia de regresie:

y=

1 3 ,8 0 ,74 x n xi yi xi yi
2

Vom calcula n continuare coeficientul de corelaie:

r= r=

n ( xi ) ( xi )
2

n ( yi ) ( yi )
2

10 41 24 20 ,2917 10 68 24
2

10 49 ,1128 (20 ,2917 )

= - 0,8474.

Valoarea coeficientului de corelaie ne indic o puternic legtur de tip hiperbolic ntre cele dou variabile. Pe de alt parte valoarea coeficientului de determinaie va fi r2=0,7182 ceea ce nseamn c x influeneaz y n proporie de 71,82%.

Observaie Modelul poate fi regsit i sub forma

y = B0 + B1

1 +e, x

iar ecuaia de regresie corespunztoare va fi:

y = b0 + b1

1 . x

109

Notnd

1 = x vom obine y=bo+b1 x . x

13.1.4. Regresia logaritmic

Model regresional: y=Bo+B1lnx+e Ecuaia de regresie: y=bo+b1lnx bo i b1 reprezint estimri ale parametrilor modelului regresional Bo i B1.
Notnd lnx= x vom obine ecuaia de regresie y=bo+b1 x .

13.2. Modele regresionale ce se reduc la modelul regresional liniar multiplu 13.2.1. Regresia parabolic

Model regresional: y=Bo+B1x+B2x2+e Ecuaia de regresie: y=bo+b1x+b2x2 bo, b1 i b2 reprezint estimri ale parametrilor modelului regresional Bo, B1 i B2.
Notnd x=x1 i x2=x2 vom obine urmtoarea ecuaie de regresie:

y=bo+b1x1+b2x2
Pornind de aici cazul regresiei parabolice se reduce la cazul regresiei liniare multiple i n consecin studiul acesteia se va face innd cont de etapele ce trebuie urmate n cazul regresiei liniare multiple.

Exemplul 13.2.1. Se cunosc urmtoarele date de observare: x y 1 8 2 10 3 12 3 10 2 8 4 14 2 9 3 9 1 10 2 6

Folosind modelul regresional parabolic determinai legtura dintre y i x calculnd coeficienii de corelaie i de determinaie.

Soluie Ecuaia de regresie va fi: y=bo+b1x1+b2x2, unde x2=x2.


Parametrii ecuaiei de regresie se determin, aa cum am vzut n cazul regresiei liniare multiple, rezolvnd sistemul:

bo n + b1 x1 + b2 x2 = y 2 bo x1 + b1 x1 + b2 x1 x2 = yx1 . 2 bo x2 + b1 x1 x2 + b2 x2 = yx2

110

x=x1
1 2 3 3 2 4 2 3 1 2 23

y
8 10 12 10 8 14 9 9 10 6 96

x2=x2
1 4 9 9 4 16 4 9 1 4 61

2 x2

x1x2
1 8 27 27 8 64 8 27 1 8 179

x1y
8 20 36 30 16 56 18 27 10 12 233

x2y
8 40 108 90 32 224 36 81 10 24 653

y2
64 100 144 100 64 196 81 81 100 36 9216

1 16 81 81 16 256 16 81 1 16 565

Astfel obinem sistemul:

10bo + 23b1 + 61b2 = 96 23bo + 61b1 + 179b2 = 233 61b + 179b + 565b = 653 1 2 o
Rezolvnd acest sistem vom obine: bo=11,7, b1= - 3,93, b2=1,13. Aadar ecuaia de regresie va fi y=11,7-3,93x+1,13x2. Vom trece acum la calcularea coeficientului de corelaie.
2 2 ryx1 + ryx2 2 ryx1 ryx2 rx1 x2

R=

1 rx2 x2 1 n y 2 ( y )
2 2

ryx1 = ryx2 = rx1 x2 =

2 n x1 ( x1 )

n x1 y x1 y
2

=0,6433; =0,7282; =0,979;

n x ( x2 ) n y ( y ) n x1 x 2 x1 x 2
2 2 2 2 n x1 ( x1 ) 2

n x2 y x2 y

2 n x 2 ( x 2 )

R=

0 ,4138 + 0 ,5304 2 0 ,6433 0 ,7282 0 ,979 =0,6475. 1 0 ,9585

Valoarea coeficientului de corelaie indic o puternic legtur de tip parabolic ntre cele dou variabile. Coeficientul de determinaie va avea valoarea R2=0,6475, iar coeficientul de corelaie ajustat va fi R = 1 1 R 2
2

n ) n 1 1 =0,5468. k

111

Verificarea cunotinelor
Regresia liniar simpl
1. Se consider urmtoarele date de observare: x y 1 5 2 6 3 5 4 8 5 10 6 8

1. Reprezentai grafic datele de observare. Ce fel de legtur sugereaz graficul? 2. Estimai parametrii ecuaiei de regresie. 3. Care este valoarea lui y pentru x=3? 2. Se consider urmtoarele date de observare:

x y

2 10

4 12

5 14

8 16

10 20

1. Reprezentai grafic datele de observare. Ce fel de legtur sugereaz graficul? 2. Estimai parametrii ecuaiei de regresie. 3. Care este valoarea lui y pentru x=9? 4. Studiai intensitatea legturii dintre x i y. 5. Care este procentul n care x influeneaz pe y? 6. Testai semnificaia modelului regresional ales. 3. Se consider urmtoarele date de observare:

x y

1 20

4 15

10 10

15 6

20 2

1. Reprezentai grafic datele de observare. Ce fel de legtur sugereaz graficul? 2. Estimai parametrii ecuaiei de regresie. 3. Care este valoarea lui y pentru x=12? 4. Studiai intensitatea legturii dintre x i y. 5. Care este procentul n care x influeneaz pe y? 6. Testai semnificaia modelului regresional ales. 7. Cu un nivel de ncredere de 95% determinai un interval de ncredere pentru nivelul mediu al lui y corespunztor lui x=5. 4. Se tie c suma economisit depinde de venit. Urmtoarele date arat media economiilor sptmnale i veniturilor medii pentru 10 persoane:

Venituri (xi) Economii (yi)

10 1

20 1,5

27 1,8

30 2

35 3

45 3,5

47 4,3

51 4,5

60 5,5

65 6,5

1. Determinai tipul posibilei legturi ntre cele dou variabile. 2. Estimai parametrii ecuaiei de regresie. 3. Determinai coeficientul de corelaie i derulai un test de semnificaie pentru coeficientul de corelaie la nivel de populaie. 4. Care este procentul n care venitul influeneaz economiile? 5. Estimai nivelul economiilor pentru un venit mediu de 50 u.m. 6. Cu =0,05 determinai un interval de estimare al nivelului mediu economiilor corespunztor unui venit de 50 u.m. 7. Testai semnificaia modelului regresional folosit.

112

5. O agenie de turism este interesant s determine efectul pe care schimbarea preului la pachetele turistice oferite l are asupra vnzrilor n 10 filiale aflate n 10 judee diferite. Datele obinute sun prezentate mai jos: Modificare pre (xi) Uniti vndute (yi) 0,5 140 1 80 0,8 120 1 80 1,5 75 0,5 135 0,8 130 1,5 70 1,5 70 1 100

1. Presupunnd legtura dintre variabile ca fiind liniar, s se estimeze parametrii ecuaiei de regresie. 2. n ce msur vnzrile sunt influenate i de ali factori? 3. Dac modificarea este de 1,2 u.m. determinai o estimare punctual i un interval de estimare pentru nivelul mediu al unitilor vndute (=0,05). 6. n urma unei analize efectuate asupra unui eantion de 10 angajai ai unui firme sau obinut urmtoarele date:

Productivitatea muncii Wm (mil. ROL) 0.5 0.6 0.8 1.0 1.3 1.5 1.7 1.8 1.9 2.0
1. 2. 3. 4. 5. 6.

Salariul S (mil. ROL) 0.6 0.7 0.9 1.0 1.2 1.4 1.6 1.8 1.8 2.0

Determinai grafic tipul legturii dintre productivitatea muncii i salar. Determinai ecuaia de regresie. Determinai coeficientul de corelaie i de determinaie. Derulai un test de semnificaie pentru modelul regresional. Estimai salariul pentru o productivitate de 1,2 mil. ROL. Determinai un interval de estimare pentru salar cnd productivitatea muncii este 1,2 mil. ROL (=0,05). 7. Determinai un interval de predicie pentru salar atunci cnd productivitatea muncii este de 2,5 mil. ROL. 7. Un studiu fcut asupra a 10 familii a avut n vedere bugetul familiei din punct de vedere al venitului lunar/persoan i a cheltuielilor pentru o mini vacan. Rezultatele studiului se gsesc n urmtorul tabel:

Venit lunar/persoan X 7 9 8,5 11 19,5 10 13,5 12,5

Cheltuieli pentru mini vacan Y 3,2 3,8 4,0 5,5 7,5 4 5,4 5,5

113

11,5 16

6,0 6,5

1. S se caracterizeze i s se msoare legtura dintre venituri i cheltuieli. 2. S se estimeze cheltuielile corespunztoare unui venit de 15 u.m. (=0,05). 3. S se previzioneze cheltuielile corespunztoare unui venit de 20 u.m. ROL (=0,05). 8. O firm dorete s msoare costurile de producie n funcie de cantitatea produs. Pentru aceasta sunt efectuate o serie de 10 observri, datele obinute fiind urmtoarele:

Cantitate produs (uniti) 8 10 11 15 17 20 25 28 30 40

Costuri de producie (u.m.) 200 250 300 400 550 650 680 750 900 1000

1. Determinai grafic tipul legturii dintre costurile de producie i cantitatea produs. 2. n ce msur cantitatea produs influeneaz costurile? 3. Testai semnificaia modelului regresional ales. 4. Estimai costurile unei producii de 35 uniti. 5. Cu =0,05 determinai un interval de estimare pentru costul mediu corespunztor unei cantiti produse de 35 uniti. 9. Pentru a studia raportul dintre eficiena i tarifele practicate de firmele de curierat rapid sunt alese pentru studiu 12 asemenea firme. Distana de pn la punctul de livrare fiind aceeai, datele obinute au fost urmtoarele:

Timp de livrare (ore) 10 15 18 19 21 24 26 30 34 36 40 48

Tarif (u.m.) 200 180 180 170 190 160 170 150 150 120 140 120

1. Determinai grafic tipul legturii dintre timpul de livrare i tariful practicat.

114

2. n ce msur timpul de livrare influeneaz tariful? 3. n ce msur tariful influeneaz timpul de livrare? 4. Cu =0,05 determinai un interval de estimare a timpului mediu corespunztor unui tarif de 240 u.m. 5. Cu =0,05 determinai un interval de estimare a tarifului mediu corespunztor unui timp de livrare de 20 ore. 10. Un eantion de 150 de persoane este de extras din populaia considerat supraponderal a unui ora. Acestea sunt incluse ntr-un program de slbire. Greutatea este msurat dup fiecare lun. Datele obinute au fost urmtoarele:

Vechimea 1 lun Venitul 1 kg 20 2 kg 10 3 kg 4 kg Total 30

2 luni 8 12

3 luni 2 8 20 30

4 luni 2 8 10

5 luni 8 10 2 20

6 luni

Total 30 40 55 25 150

20

17 23 40

1. Analizai existena legturii ntre durata programului i numrul de kilograme slbite folosind un test de tipul 2 . 2. Determinai intensitatea legturii dintre cele dou variabile folosind coeficienii de asociere ai lui Pearson i Ciuprov. 3. n ce msur durata programului influeneaz numrul de kilograme slbite? 4. Testai semnificaia modelului regresional ales.

Regresia liniar multipl


11. Se consider urmtoarele date de observare: x1 1 2 3 4 5 x2 3 6 8 10 10 y 8 12 25 30 50

1. Reprezentai grafic y n funcie de x1 i determinai tipul legturii dintre cele dou variabile. 2. Analizai legtura dintre cele dou variabile estimnd parametrii ecuaiei de regresie i determinnd gradul de corelare al acestora. 3. Reprezentai grafic y n funcie de x2 i determinai tipul legturii dintre cele dou variabile. 4. Analizai legtura dintre cele dou variabile estimnd parametrii ecuaiei de regresie i determinnd gradul de corelare al acestora. 5. Estimai parametrii ecuaiei de regresie corespunztoare modelului regresional multiplu. 6. Determinai valoarea coeficientului de corelaie liniar multipl. 7. Determinai valoarea coeficientului de determinaie precum i valoarea coeficientului de determinaie ajustat. 8. Testai semnificaia modelului regresional att n raport cu fiecare variabil ct i n raport cu ansamblul variabilelor (=0,05).

115

12. Se consider urmtoarele date de observare: x1 2 3 5 7 9 6 10 14 15 18 12 x2 6 8 12 16 18 8 12 15 9 20 17 y 16 20 12 16 15 10 11 10 8 11 15

1. Reprezentai grafic y n funcie de x1 i determinai tipul legturii dintre cele dou variabile. 2. Analizai legtura dintre cele dou variabile estimnd parametrii ecuaiei de regresie i determinnd gradul de corelare al acestora. 3. Reprezentai grafic y n funcie de x2 i determinai tipul legturii dintre cele dou variabile. 4. Analizai legtura dintre cele dou variabile estimnd parametrii ecuaiei de regresie i determinnd gradul de corelare al acestora. 5. Estimai parametrii ecuaiei de regresie corespunztoare modelului regresional multiplu. 6. Determinai valoarea coeficientului de corelaie liniar multipl. 7. Determinai valoarea coeficientului de determinaie precum i valoarea coeficientului de determinaie ajustat. 8. Testai semnificaia modelului regresional att n raport cu fiecare variabil ct i n raport cu ansamblul variabilelor (=0,05). 13. Se iniiaz un studiu al timpului de ateptare dintre dou autobuze. n calcul sunt luate lungimea traseului i numrul de staii de pe fiecare linie de transport. Datele obinute pe un eantion de ase linii de transport au fost urmtoarele:

Linia A B C D E F

Timp de ateptare (min.) 3 5 8 10 10 12

Lungimea traseului (km) 5 6 10 12 10 12

Numr staii 3 4 6 6 8 10

1. n ce proporie influeneaz lungimea traseului timpul de ateptare? 2. Determinai un interval de estimare a timpului mediu de ateptare corespunztor unei lungimi a traseului de 8 km. 3. n ce proporie influeneaz numrul de staii timpul de ateptare? 4. Determinai un interval de estimare a timpului mediu de ateptare corespunztor unui numr de 7 staii. 5. Cum se modific timpul de ateptare dac numrul de staii crete cu o unitate? 6. Care ar fi timpul de ateptare estimat n cazul unei noi linii de transport 116

n lungime de 8 km i pe care s-ar opera cu 7 staii? 7. n ce proporie lungimea traseului i numrul de staii influeneaz timpul de ateptare n staie? 8. Este semnificativ modelul n raport cu lungimea traseului? Dar n raport cu numrul de staii? Dar n raport cu ambele variabile? 9. Este luat n calcul i variabila numr de autobuze a crei valori nregistrate au fost:

Linia Numr de staii

A 4

B 4

C 5

D 5

E 4

F 6

Estimai parametrii de regresie n acest caz. 14. O companie deine dou magazine M1 i M2 n dou zone ale aceluiai ora. Managerii comand un studiu cu scopul de a vedea ce cantitate se vinde zilnic dintr-un anumit produs i cum este influenat aceasta de variaia preului produsului n cele dou magazine. S-au efectuat 10 observri, datele obinute fiind urmtoarele:

Cantitatea vndut M1 M2 Total 45 55 100 50 70 120 70 60 130 80 80 160 70 45 115 80 55 135 80 60 140 80 100 180 60 65 125 80 90 170

Pre unitar n M1 50 50 45 40 45 35 35 30 40 35

Pre unitar n M2 50 40 50 45 55 45 50 30 30 30

1. Studiai influena preului unitar din M1 asupra vnzrilor din acest magazin precum i asupra totalului cantitii. 2. Studiai influena preului unitar din M2 asupra vnzrilor din acest magazin precum i asupra totalului cantitii. 3. Studiai influena preurilor din cele dou magazine asupra vnzrilor din M1 precum i asupra totalului. 4. Studiai influena preurilor din cele dou magazine asupra vnzrilor din M2 precum i asupra totalului. 5. testai semnificaia modelelor de la punctele 3 i 4.

Alte tipuri de regresie


15. Se consider urmtoarele date de observare: x y 2 2 4 8 3 5 5 10 10 50 12 70 7 25

1. Reprezentai grafic datele de observare. 2. Considernd c ntre cele dou variabile exist o legtur de tip multiplicativ, estimai parametrii ecuaiei de regresie i determinai coeficientul de corelaie i de determinaie.

117

16. Se consider urmtoarele date de observare: x y 1 30 2 55 3 90 4 150 5 240

1. Reprezentai grafic datele de observare. 2. Considernd c ntre cele dou variabile exist o legtur de tip exponenial, estimai parametrii ecuaiei de regresie i determinai coeficientul de corelaie i de determinaie. 17. Evoluia cantitii vndute dint-un anumit produs n funcie de pre dup 7 observri efectuate la un anumit magazin este redat n tabelul urmtor:

Pre Cantitate

50 8000

100 3000

120 2000

150 1000

200 400

220 270

250 140

1. Reprezentai grafic datele de observare. Ce tip de legtur sugereaz graficul? 2. Estimai parametrii ecuaiei de regresie i determinai procentul n care preul influeneaz cantitatea vndut. 18. Se consider urmtoarele date de observare:

x y

1 0,2

2 0,22

3 0,25

4 0,3

5 0,3

1. Reprezentai grafic datele de observare. 2. Considernd c ntre cele dou variabile exist o legtur de tip parabolic, estimai parametrii ecuaiei de regresie i determinai coeficientul de corelaie i de determinaie. 19. Se consider urmtoarele date de observare:

x y

1 10

2 12

3 15

4 18

5 25

1. Reprezentai grafic datele de observare. 2. Considernd c ntre cele dou variabile exist o legtur de tip exponenial, estimai parametrii ecuaiei de regresie i determinai coeficientul de corelaie i de determinaie. 20. Se studiaz legtura dintre costurile de publicitate i volum vnzrilor. Datele de observare au fost urmtoarele:

Costuri cu publicitatea Volumul vnzrilor 10 50 12 80 15 90 18 90 20 100 21 105 24 100 30 120 35 140 40 150
1. Reprezentai grafic datele de observare. Ce tip de legtur sugereaz graficul? 2. Estimai parametrii ecuaiei de regresie i determinai procentul n care costul de publicitatea influeneaz volumul vnzrilor. 118

Raport final
Raportul trebuie redactat n format electronic i va fi trimis prin e-mail pn cel trziu n ultima zi a semestrului.

Hotel Poiana
Conducerea hotelului Poiana iniiaz un studiu bazat pe un chestionar prin care dorete s afle date necesare mbuntirii serviciilor oferite clienilor si. Cteva dintre ntrebrile cuprinse n chestionar au fost urmtoarele: 4. Durata ederii dumneavoastr este de: o zi; dou zile; trei zile; patru zile; cinci zile; alt rspuns. 5. Scopul vizitei dumneavoastr n hotelul nostru este: tranzit (T); odihn (O); afaceri (A); conferin (C). 10. Considerai serviciile oferite de hotelul nostru ca fiind; excelente (E): foarte bune (FB); bune (B); satisfctoare (S) 14. V informm c pentru serviciile suplimentare pe care vi le oferim (mini bar, PayTV,...) se pltete n general, n funcie de durata ederii, o sum cuprins ntre 2 i 10 u.m. Care ar fi suma pe care ai fi dispui s o pltii pentru asemenea servicii pe durata ederii dumneavoastr? n urma aplicrii acestui chestionar unui eantion de 50 de clieni ai hotelului sau obinut urmtoarele date:

119

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Durata Scop Servicii 2 1 2 3 3 5 4 2 1 2 4 4 4 3 2 2 5 1 2 3 3 3 2 2 2 2 1 2 3 3 4 4 5 5 5 1 1 1 T T T O O O O T C A C C O C C T A C T C C O C C T T C T A A O O A O A T C T E E FB B B FB E B S S B B FB E E E FB FB B B B B E FB S S E E FB B B B B FB E E FB S

Suma disponibil pentru servicii suplimentare 3 2 10 2 5 5 6 7 7 8 3 2 6 6 5 8 9 9 8 7 6 6 6 5 4 4 4 3 3 2 2 2 2 8 10 8 8 7

120

39 40 41 42 43 44 45 46 47 48 49 50

5 3 3 3 2 3 2 2 1 2 3 3

A A A C T A T C A T O C

B E B FB FB E S S B B B B

7 8 9 9 6 6 5 4 4 5 7 8

Avnd aceste date la dispoziie, utiliznd instrumentele statisticii descriptive i ale statisticii infereniale, ntocmii un raport statistic ctre conducerea Hotelului Poiana.

Schiarea unui proiect


Avem urmtoarele date referitoare la un eantion de 30 de angajai ai unei companii

Categoria de ncadrare I II I III I II III III I III I II II II II III II

Vechimea n munc 5 5 4 2 3 3 4 4 3 2 3 3 4 5 3 3 2
121

Venitul lunar 30 28 23 14 18 16 20 22 24 10 12 12 19 24 21 20 13

II III I

2 2 4

17 18 23

Trebuie s ntocmesc un raport ctre ef!!! Ce ar trebui s fac?


Trebuie s rezolv dou probleme i anume s analizez datele pe care le am iar apoi s redactez raportul care trebuie s conin numai i numai interpretri i nicidecum termeni statistici. Aadar am de rezolvat dou probleme: 1. analiza datelor 2. redactarea raportului Analiza datelor o voi efectua cu ajutorul Statgraphics, dar mai nti gndesc structura.

Structura
1. Introducerea n care voi spune despre ce este vorba i ce vreau s fac. 2. Analiza angajailor n raport cu categoria de ncadrare
Categoria de ncadrare este o variabil calitativ. Ce pot face cu ea?

La nivel de eantion a putea face urmtoarele: S realizez repartiia celor 30 de angajai S realizez un grafic (Pie Chart sau Bar Chart) S vd spre exemplu ce categorie au cei mai muli dintre cei 60 La nivel de populaie S lansez i s testez ipoteze asupra proporiei angajailor care au categoria de munc X. 3. Analiza angajailor n raport cu vechimea
Vechimea este o variabil cantitativ discret cu un numr mic de stri. Ce pot face cu ea?

La nivel de eantion: S realizez repartiia celor 30 de angajai S realizez un grafic (Pie Chart sau Bar Chart) S determin valoarea medie median i modal i s interpretez
122

La nivel de populaie S determin un interval de ncredere pentru medie S lansez i s testez o ipotez asupra valorii medii 4. Analiza angajailor n raport cu venitul
Venitul este o variabil cantitativ discret cu un numr mare de stri. Ce pot face cu ea? Ar fi bine s mpart valorile pe intervale. Cum cea mai mare valoare este 30 iar cea mai mic este 10 a putea s mpart n patru clase.

La nivel de eantion: S realizez repartiia celor 30 de angajai S realizez un grafic (Histograma) S determin valoarea medie median i modal La nivel de populaie S determin un interval de ncredere pentru medie S lansez i s testez o ipotez asupra valorii medii 5. Analiza legturilor dintre categoria de angajare i vechime La nivel de eantion: Realizez repartiia bidimensional La nivel de populaie: Studiez existena legturii dintre cele dou variabile aplicnd un test de tip hi2 6. Analiza legturilor dintre categoria de angajare i venit La nivel de eantion: Realizez repartiia bidimensional La nivel de populaie: Studiez existena legturii dintre cele dou variabile aplicnd un test de tip hi2 7. Analiza legturilor dintre venit i vechime La nivel de eantion: Realizez repartiia bidimensional

123

La nivel de populaie: Studiez existena legturii dintre cele dou variabile aplicnd un test de tip hi2
Dac exist legtur ncerc s o modelez i. Determin legtura ii. Determin modelul i coeficientul de determinaie iii. Fac estimri ale venitului mediu corespunztor unui anumit nivel a vechimii

8. Trag nite concluzii

Raport managerial model Consolidated Foods 1. Introducere


Consolidated Foods este o companie care administreaz un lan de 20 de magazine de tip hipermarket. Lansarea celui de al 21-lea magazin ntr-o zon cu un alt specific dect cele n care compania i desfura activitatea a condus la necesitatea realizrii unui studiu de pia prin care s se obin informaii relativ la veniturile potenialilor clieni, cererea de produse de un anumit tip precum i preul la care un anumit produs se achiziioneaz. Studiul desfurat timp de o lun pe un eantion de 53 de clieni a condus la urmtoarele rezultate:
Cerere 50 70 80 100 100 120 100 30 40 50 30 40 70 70 Venit 500 600 700 900 1000 1200 1100 300 350 400 450 500 600 700 Pret 28 25 24 22 21 20 21 27 26 25 27 26 24 24 Cerere 100 40 50 70 100 40 70 100 40 50 70 100 40 50 Venit 1000 350 650 800 900 350 800 900 700 400 850 900 500 1000 Pret 21 27 25 23 22 26 24 23 25 25 24 20 24 25

124

100 110 80 60 100 50 60 75 45 60 45 50 70

750 1000 950 800 900 750 600 700 400 500 600 650 700

22 20 23 25 21 26 25 24 27 26 25 26 24

70 100 70 50 60 105 95 85 90 100 115 100

700 600 650 950 1100 1000 800 600 700 900 1000 950

24 21 24 26 26 21 22 22 23 21 20 21

2. Analiza datelor
2.1. Analiza clienilor n raport cu venitul
Deoarece datele coninute n venit sunt destul de variate le vom organiza n 6 clase astfel:

Venit 300 450 450 600 600 750 750 900 900 1050 1050 1200

Numr clieni 8 10 12 11 9 3

Procentaj 15,09% 18,87% 22,64% 20,75% 16,98% 5,66%

Se observ din tabelul de mai sus c din cei 53 de clieni chestionai 10 (18,87%) au un venit cuprins ntre 450 i 600 RON, iar 12 (22,64%) au un venit cuprins ntre 600 i 750 RON. Foarte puini dintre clienii chestionai depesc 1000 RON.

125

Repartiia clienilor n raport cu venitul 14 12 clieni 10 8 6 4 2 0


300-450 450-600 600-750 750-900 900-1050 1050-1200

12 10 8

11 9

clasa de venit
O analiz mai aprofundat a datelor obinute n ceea ce privete venitul clienilor chestionai ne conduce la urmtoarele concluzii: Venitul mediu al clienilor chestionai este de 729,24 RON; Jumtate dintre acetia au un venit mai mic de 700 RON, cei mai muli avnd un venit de aproximativ 670 RON. Pornind de la aceste rezultate putem afirma c: Potenialii clieni ai Consolidated Foods au un venit mediu cuprins ntre 667 i 791 RON; Cu o probabilitate de 95% potenialii clieni ai companiei au un venit mai mare de 660 RON; Proporia potenialilor clieni cu un venit cuprins ntre 600 i 750 RON este mai mic de 35%.

Aadar managementul companiei Consolidated Foods trebuie s se orienteze ctre clienii cu venituri medii. 2.2. Analiza clienilor n raport cu cererea
Deoarece datele coninute n cerere sunt destul de variate le vom organiza n 6 clase astfel:

Cererea 30 45 45 60 60 75 75 90 90 105

Numr clieni 10 12 10 4 14
126

Procentaj 18,87% 22,64% 18,87% 7,55% 26,42%

105 120

5,66%

Se observ din tabelul de mai sus c din cei 53 de clieni chestionai 10 (18,87%) au o cerere cuprins ntre 60 i 75 uniti, iar 14 (26,42%) au o cerere cuprins ntre 90 i 105 uniti. Cererea a foarte puini dintre clienii chestionai depete 100 uniti.
Repartiia clienilor n raport cu cererea 16 14 12 10 8 6 4 2 0 14 12 10 10

clieni

30-45

45-60

60-75

75-90

90-105

105-120

cererea

O analiz mai aprofundat a datelor obinute n ceea ce privete cererea de produse a clienilor chestionai ne conduce la urmtoarele concluzii: Cererea medie de produse a clienilor chestionai este de 71,98 uniti; Jumtate dintre acetia au o cerere mai mic de 70 de uniti; Cei mai muli au o cerere de aproximativ 100 de uniti. Pornind de la aceste rezultate putem afirma c: Potenialii clieni ai Consolidated Foods au o cerere cuprins ntre 65 i 79 de uniti; Mai puin de 40% dintre cpotenialii clienii vor avea o cerere mai mare de 100 de uniti.

Aadar, innd cont de rezultatele obinute i la punctul 2.1. al acestui studiu, managementul companiei Consolidated Foods trebuie s se orienteze ctre clienii cu venituri medii i cu o cerere moderat. 2.3. Analiza clienilor n raport cu preul
n ceea ce privete preul pe care cei 53 de clieni ar fi dispui s l plteasc pentru un anumit produs, datele obinute au fost mprite n patru clase de pre, astfel:

127

Preul 20 22 22 24 24 26 26 28

Numr clieni 17 14 17 5

Procentaj 32,08% 26,42% 32,08% 9,43%

Se observ din tabelul de mai sus c din cei 53 de clieni chestionai 17 (32,08%) sunt dispui s plteasc ntre 20 i 22 RON, iar 14 (26,42%) sunt dispui s plteasc ntre 22 i 24 RON. Foarte puini dintre clienii chestionai sunt dispui s plteasc mai mul de 26 RON.
Repartiia clienilor n raport cu pretul 20 15 clieni 10 5 0
20-22 22-24 24-26 26-28

17 14

17

pretul

O analiz mai aprofundat a datelor obinute n ceea ce privete preul pe care clienii chestionai sunt dispui s l plteasc pe un anumit produs ne conduce la urmtoarele concluzii: Preul mediu este de 23,75 RON; Jumtate dintre nu sunt dispui s plteasc mai mult de 24 RON, ns cei mai muli ofer pn la 24,4 RON. Pornind de la aceste rezultate putem afirma c: Preul mediu pe care potenialii clieni ai Consolidated Foods sunt dispui s l plteasc este cuprins ntre 23,15 i 24,35 RON ; Cu o probabilitate de 95% potenialii clieni ai companiei nu sunt dispui s plteasc mai mult de 25 RON; Mai puin de 20% dintre potenialii clieni sunt dispui s plteasc peste 26 RON pentru achiziionarea produsului

128

Aadar, innd cont de rezultatele obinute i la punctele 2.1. i 2.2. ale acestui studiu, managementul companiei Consolidated Foods trebuie s se orienteze ctre clienii cu venituri medii, cu o cerere moderat i care nu sunt dispui s plteasc preuri mari pentru achiziionarea unor produse. 2.3. Analiza legturilor ntre venit, cerere i pre

Aceast analiz are drept scop evidenierea relaiilor ce exist ntre venitul potenialilor clieni, cererea lor de produse precum i preul pe care sunt dispui s l plteasc pentru achiziionarea unui produs. Analiza va definitiva profilul potenialului client al companiei Consolidated Foods, profil schiat puin mai devreme. Vom studia existena legturilor precum i influena unora dintre variabile asupra celorlalte.

2.3.1. Analiza venit cerere


Venit Cerere 3045 4560 6075 7590 90105 105120 Total 300-450 6 2 450-600 3 3 2 1 1 10 600-750 1 3 5 2 1 12 750-900 1 3 7 11 900-1050 2 1 4 2 9 1050-1200 1 1 1 3 Total 10 12 10 4 14 3 53

Tabelul de mai sus ne arat c dintre cei 53 de clieni chestionai 6 au un venit cuprins ntre 300 i 450 RON i o cerere cuprins ntre 30 i 45 de uniti, iar 7 au un venit cuprins ntre 750 i 900 RON iar cererea este cuprins ntre 90 i 105 uniti.

129

Graficul venit-cerere
135 120 105

cerere

90 75 60 45 30 15 0 0 150 300 450 600 750 900 1050 1200 1350

venit

Un studiu aprofundat ne arat c ntre venit i cerere exist legtur cu o probabilitate de 99%. Legtura poate fi modelat de urmtorul model:
Cerere = 1 8 ,19 0 ,003 + Venit

Modelul relev o legtur direct ntre venit i cerere, venitul influennd cererea n proporie de 59,07%. Pe baza acestui model obinem c unui venit de 525 RON i corespunde o cerere medie cuprins ntre 49,4 i 56,83 uniti de produs. 2.3.2. Analiza cerere pre
Pre Cerere 3045 4560 6075 7590 90105 105120 Total 20-22 22-24 1 1 13 3 17 9 3 1 14 24-26 5 11 1 26-28 4 1 Total 10 12 10 4 14 3 53

17

Tabelul de mai sus ne arat c dintre cei 53 de clieni chestionai 11 au o cerere cuprins ntre 45 i 60 uniti i sunt dispui s plteasc un pre cuprins ntre 24 i 26 RON, iar 13 au o cerere cuprins ntre 90 i 150 uniti i sunt dispui s plteasc un pre cuprins ntre 20 i 22 RON.

130

Graficul pre-cerere
135 120 105

cerere

90 75 60 45 30 15 0 15 17 19 21 23 25 27 29

pre

Un studiu aprofundat ne arat c ntre pre i cerere exist legtur cu o probabilitate de 99%. Legtura poate fi modelat de urmtorul model:
Cerere = 864 ,93 250 ,65 ln( pre ) .

Modelul relev o letur invers ntre pre i cerere, preul influennd cererea n proporie de 86,9%. Pe baza acestui model obinem c la un pre de 21,5 RON i corespunde o cerere medie cuprins ntre 92,28 i 99,53 uniti de produs.

2.3.3. Analiza cerere pre


Pre Venit 300450 450600 600750 750900 9001050 10501200 Total 20-22 22-24 24-26 26-28 Total 2 1 6 6 2 17 2 7 4 1 14 4 5 4 1 2 1 17 4 1 8 10 12 11 9 3 53

Tabelul de mai sus ne arat c dintre cei 53 de clieni chestionai 7 au un venit cuprins ntre 600 i 750 uniti i sunt dispui s plteasc un pre cuprins ntre 22 i 24 RON.

131

Graficul venit-pre
29 27 25

pre

23 21 19 17 15 200

350

500

650

800

950

1100

1250

1400

venit

Un studiu aprofundat ne arat c ntre venit i pre exist legtur cu o probabilitate de 99%. Legtura poate fi modelat de urmtorul model:
Pr e = 33 ,18 0 ,35 Venit .

Modelul relev o letur invers ntre pre i venit, venitul influennd preul n proporie de 49,06%. Pe baza acestui model obinem c unui venit de 525 RON i corespunde un pre mediu cuprins ntre 24,5 i 25,65 RON.

3. Concluzii........

132

S-ar putea să vă placă și