Documente Academic
Documente Profesional
Documente Cultură
Statistic A Aplicata in Stiintele Socio-Umane Si Economice
Statistic A Aplicata in Stiintele Socio-Umane Si Economice
- ELEMENTE DE STATISTIC -
Cuvnt nainte
Statistica a devenit elementul sine qua non al cunoaterii n condiii de manifestare probabilistic a fenomenelor. Utilizarea statisticii permite att descrierea fenomenelor i modelarea lor, ct i aplicarea practic a acestora, accentul punndu-se att pe prezentarea raionamentului statistic ct i a tehnicilor fundamentale de analiz a datelor experimentale. Lucrarea de fa constituie o introducere concis i clar n statistica aplicat n tiinele de factur social i economic, ca produs al faptului social. Tehnicile statistice prezentate sunt vzute ca instrumente folosite pentru a rspunde unor probleme de cercetare specifice. Cu alte cuvinte, acest material nu se adreseaz statisticianului profesionist, ci psihologului, economistului, i mai larg, oricrui debutant n studiul tiinelor omului, precum i altor persoane ale cror profesii sunt legate ntr-un fel sau altul de aceste tiine. Acest carte conine elemente practice. Fiecare capitol i propune obiective precise i abund de exemple i exerciii. n definitiv, este important s se stpneasc practica statisticii, s fie utilizat n activitatea de zi cu zi i nu s se fac doar speculaii teoretice pe aceast tem. Cartea este dedicat studenilor, n special celor din anul I (i nu numai) i are ca scop iniierea acestora n demersul statistic i formarea gndirii statistice necesare nelegerii fenomenelor de mas. Prima parte este structurat pe VIII capitole, fiecare capitol divizndu-se n 4 seciuni. Prima seciune const n prezentarea coninutului tematic. A doua seciune Alegei rspunsul corect permite s se verifice nsuirea corect a subiectelor tratate i aprofundarea elementelor particular dificile. Seciunea a treia Probleme permite deprinderea tehnicilor de calcul statistic i a modului de interpretare statistic a fenomenelor. A patra seciune Rspunsuri corecte permite autoevaluarea, prezentnd rspunsurile pentru testele prezentate n seciunea a doua i a treia.
2
Partea a doua este structurat pe XVII capitole, oferind astfel posibilitatea parcurgerii pas cu pas a informaiilor prezentate dar i o privire de ansamblu asupra procedurilor de calcul din SPSS (Statistical Package for the Social Sciences). Carte prezint un mod de abordare a analizei statistice folosind SPSS for Windows i este destinat studenilor care doresc s analizeze date din psihologie, sociologie, criminologie, sau date similare i se dorete a fi un ndrumtor pentru analiza datelor, fiind o carte complet, de sine stttoare care satisface nevoile studenilor la toate nivelele. Ca obiective i propune s faciliteze:
descrierea ntr-un mod clar i concis a unei colectiviti, folosind informaia din datele obinute prin observri statistice asupra fenomenelor studiate;
din cadrul tiinelor politice, psihologiei, pedagogiei, sociologiei, precum i cu procedeele informaionale de studiu i cercetare folosind Internetul. Se urmrete nelegerea ideilor care stau la baza statisticii, a principiilor de organizare i analiz a datelor, precum i de evaluare statistic. S-a urmrit folosirea ct mai multor exemple practice astfel nct, la finalul fiecrui capitol, sunt prezentate un set de ntrebri i probleme care s v ajute s nelegei mult mai bine materialul prezentat. Informaiile prezentate aici nu sunt originale, ci ele se bazeaz pe afirmaiile unor specialiti n domeniu. Adresez ntreaga mea recunotin tututor colegilor care m-au susinut i ncurajat n realizarea acestei lucrri, care au contribuit prin sugestiile i observaiile lor la realizarea acestei lucrri, cu precdere colectivului tiinific de la Facultatea de Psihologie a Universitii Andrei aguna Constana. n sperana c lucrarea va fi util, mulumim celor care vor veni cu sugestii i observaii att de necesare mbuntirii oricrui lucru supus perfecionrii. Constana, 17.08.2009 Autorii
3
I.
NOIUNI INTRODUCTIVE
-________________________________________________________________________________________________________________________
Psihologia a fost acceptat ca tiin de sine stttoare abia n sec. al XIX-lea, o dat cu accentuarea laturii ei experimentale. Astfel, s-a recurs la acumularea de observaii i date, care, comparate cu celelalte tiine (care aveau un statut epistemologic clar delimitat i acceptat de comunitatea tiinific), apar deficitare sub aspectul interpretrii lor. Cuvntul statistic are semnificaii multiple. Astfel poate s ne duc cu gndul la indicele preurilor de consum, la cifra medie de afaceri a unor firme, la rata omajului, la datele publicate ntr-o revist sau ntr-un buletin oficial etc. ncercnd s definim statistica, putem spune c este un corp de metode pentru a colecta, a descrie i a analiza date numerice din observaii sau investigaii tiinifice.(Clocotici Stan, 2000, p. 13). Obiectul de studiu al statisticii l constituie variaia curent-continu, n timp i spaiu i din punct de vedere calitativ, al fenomenelor de tip stochastic din orice domeniu al vieii economico-sociale sau naturale (Elisabeta Jaba, 2002, p. 13-16). Obiectul de studiu al statisticii l constituie fenomenele i procesele care prezint urmtoarele particulariti: se produc ntr-un numr mare de cazuri (sunt fenomene de mas); variaz de la un element la altul, de la un caz la altul; sunt forme individuale de manifestare n timp, n spaiu i ca form organizatoric. Statistica a fost folosit pentru rezolvarea unor nevoi practice ale vieii sociale din cele mai vechi timpuri i pn astzi, o regsim att n primele forme de eviden a populaiei i bunurilor materiale ct i n rezolvarea celor mai variate i complexe probleme de conducere. Statistica se refer la msurare i probabiliti. Cuvntul statistic, provine din latinescul statista i desemna, pe vremuri, persoanele care se ocupau cu afacerile statului, care numrau populaia sau alte aspecte ce ajutau statul s gestioneze mai bine politica de taxe i costurile rzboaielor. n perioada medieval, prin statistic,
4
armatorii i calculau costurile echiprii corbiilor, incluznd n calculele lor i probabilitatea ca acestea s fie atacate de pirai sau de a naufragia (Lungu 2001 apud Opariuc, 2009). Forma cea mai veche a statisticii moderne este statistica practic folosit n scopuri demografice, administrative i fiscale. nc din mileniile IV i III en chinezii dispuneau de date cu privire la numrul populaiei, structura terenurilor i chiar utilizau tabele statistice pentru unele aspecte ale activitii agricole. Recensmintele populaiei efectuate, ncepnd cu anul 550 en, de romani, greci i egipteni sunt, de asemenea, exemple pentru rdcinile istorice ale statisticii practice (etapa prestatistic). Dezvoltarea statelor feudale a dus la evoluia i perfecionarea evidenelor privind situaia geografic, economic i politic. Se elaboreaz lucrri n care se prezint detaliat situaia social-economic folosind date statistice. Apare, astfel, statistica descriptiv care se ocup de culegerea datelor despre un fenomen i cu nregistrarea acestor date. Fondatorul colii descriptive i autorul primului Curs de Statistic, n 1660, a fost Herman Conring (1606-1681) profesor la Universitatea din Helmstedt. Relund ideile lui Conring, un secol mai trziu, Gottfried Achenwall (1719-1772), profesor la Universitatea din Gttingen, definete statistica drept o tiin descriptiv folosit pentru prezentarea particularitilor unui stat, introducnd pentru prima oar termenul de statistic (statistik). (Benea, M, Munteanu, G, 2007, p. 11). Bazele statisticii descriptive au fost puse de ctre Dimitrie Cantemir prin monografia, de talie european, Descriptio Moldavie, aprut n 1716. O alt lucrare de referin poate fi considerat i Expunere statistic asupra Moldovei ntocmit n 1782 de ctre un nalt funcionar al Curii de la Viena, Wenzel von Brognard. Statistica s-a dezvoltat i s-a perfecionat odat cu dezvoltarea societii romneti i n deplin concordan cu alte tiine cu care se afl n permanent legtur (Psihologia, Contabilitatea, Finanele, Econometria, Informatica, etc.)
5
Statutul socio-economic;
Genul biologic; Vrsta. Aceast colectivitate poate fi numit populaie statistic. 1. Prin populaie (colectivitate) statistic se nelege totalitatea persoanelor, faptelor, etc, care constituie obiectul de interes al cercetrii. (Clocotici, V, Stan, A, 2001, p. 13). Ea reprezint totalitatea manifestrilor sau totalitatea fenomenelor de aceeai natur (de aceeai esen calitativ, ale unui fenomen sau proces economic), care au trsturi esenial comune i care sunt supuse unui studiu statistic. Termenul de populaie nu se refer doar la un grup de persoane. Dei, iniial, conceptul a fost utilizat n acest sens restrns (la recensminte), astzi nelesul su este lrgit, prin populaie putndu-se nelege o colectivitate de obiecte, persoane, preri, gnduri, evenimente, opinii etc. Cu ct este mai numeroas o colectivitate, cu att devine mai dificil cercetarea tuturor elementelor ei. O astfel de cercetare poate fi consumatoare de timp i costisitoare. Soluia poate s fie, atunci, s extragem o subcolectivitate din colectivitatea general (numit i colectivitate parial, eantion sau colectivitate de selecie).
6
Constana;
2. Colectivitatea persoanelor cu vrst egal sau mai mare de 45 de ani, din
Romnia; Colectivitatea statistic specific vieii economico-sociale are un caracter obiectiv, concret i finit strict determinat n timp i spaiu. Statistica abordeaz colectivitile fie static, fie dinamic. Colectivitile statice exprim o stare i au o anumit ntindere n spaiu la un momonet dat, iar colectivitile dinamice caracterizeaz un proces, o devenire n timp (nregistrarea elementelor componente fcndu-se pe un interval de timp). Exemplu: 1. Persoanele care au starea civil cstorit la sfritul anului curent reprezint o colectivitate static; 2. Colectivitatea evenimentelor de cstorie din anul curent reprezint o colectivitate dinamic. 2. Unitatea statistic reprezint elementul constitutiv al unei colectiviti statistice i este purttorul unui nivel al fiecrei trsturi supuse observrii i cercetrii statistice. (Benea, M, Munteanu, G, 2007, p. 20). Unitile statistice pot fi: - statice = unitile compun efectivul masei de fenomene existente la un moment dat. (un copil nscut viu n luna mai n Constana unitate static. - dinamice = unitile aparin aceleiai structuri organizatorice, au acelai coninut, dar se produc n condiii diferite de timp (trebuie nregistrate pe perioade de timp). - simple = elemente constitutive ale colectivitii (persoana, muncitorul). -complexe = sunt rezultatul organizrii sociale i economice ale colectivitii (familia, echipa, anul de studiu).
7
3. Inferena statistic reprezint o decizie, o estimare, o predicie sau o generalizare privitoare la o colectivitate general, bazat pe informaiile statistice obinute pe un eantion. Astfel, procesul de cercetare statistic va cuprinde dou etape. O prim etap descriptiv, n care se vor colecta i prelucra date privitoare la eantion, obinndu-se indicatori statistici. n a doua etap, etapa de inferen statistic, rezultatele se vor extinde la colectivitatea general. Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine eantionul. Inferena statistic urmeaz, n general, urmtorul algoritm: se obine, printr-un procedeu valid, un eantion; se calculeaz o valoare tipic a eantionului (o statistic de sondaj); din considerente teoretice, se cunoate repartiia din care provine aceast valoare tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie. Discutnd despre sensul termenului de a msura, acceptm definiia dat de S. S. Stevens (1959), prin care, n sensul su larg, msurarea nseamn atribuirea de numere obiectelor sau evenimentelor, potrivit unor reguli. Astfel, msurarea este o funcie, prin care unui obiect i corespunde un numr i numai unul, la o anumit msurare. Aceast funcie de atribuire a unui obiect unui numr va trebui s fie suficient de clar, pentru a permite ca unui obiect s i se atribuie un numr i numai unul i s permit s decidem concret i corect, ce numr va fi atribuit fiecrui obiect, dar i suficient de simpl pentru a putea fi aplicat. (Vasilescu, Ilie Puiu, 1992).
4. Variabile statistice. Definiie: Caracteristica (variabila) statistic reprezint trstura, proprietea, nsuirea comun tuturor unitilor unei colectiviti i care variaz ca nivel, variant sau valoarea de la o unitate a colectivitii la alta. (Vasilescu, Ilie Puiu, 1992, p. 20). Fiecare dintre criteriile de difereniere este o variabil, adic o entitate care ia valori diferite pentru componenii colectivitii i este comun tuturor elementelor colectivitii. Exemplul 1. mediul de provenien este o variabil care poate lua dou valori: urban, rural variabil categorial; Exemplul 2. Variabila gen biologic poate lua 2 valori: feminin i masculin. variabil categorial; Exemplul 3: Vrsta poate lua valori de la 0 ani la peste 100 de ani. variabil numeric; Variabila Vrsta poate fi i variabil categorial i lua diferite valori in funcie de categoriile stabilite. (se stabilesc categorii de vrste). Exemplu: 1. 10-20 ani 2. 21-30 ani 3. 31-40 ani. O variabil, reprezint un concept cheie n statistic i nu este altceva dect un nume pentru un element a crui proprietate principal este aceea c variaz, i modific parametrii. (Opariuc, 2009). Mulimea valorilor nregistrate pentru o caracteristic particular constituie distribuia variabilei respective. Modalitatea de realizare a unei variabile (modul n care i sunt atribuite valorile) constituie un eveniment ntmpltor (probabilistic), de aceea variabila se mai numete i variabil aleatoare.
Definiie: Varianta/valoarea reprezint nivelul concret pe care l poate lua o variabil la nivelul unei uniti sau grup de uniti statistice. (Benea, M, Munteanu, G, 2007, p. 22). Exemplu: nlimea elevilor dintr-o clas poate lua aleatoriu diferite valori pe care le pot avea elevii la aceast caracteristic. valorile pe care le poate lua variabila, se grupeaz ntr-un anumit interval de valori. O variabil aleatoare poate fi discret sau continu, dup cum mulimea de definiie a valorilor sale poate fi numrabil (discontinu) sau nenumrabil (continu). a. Variabile discrete. Variabilele discrete sunt cele a cror variaie se manifest prin salturi; ele nu pot lua dect anumite valori pe scara lor de variaie (de regul numere ntregi). Exemplu: numrul de copii pe care i are o familie; numrul de orae dintr-un jude; genul biologic; Gradul didactic; n cazul variabilelor discrete, mulimea de definiie a valorilor sale este o mulime discontinu iar ntre dou valori nu poate fi interpus o valoare intermediar. Variabilele discrete pot fi categoriale sau de rang. b. Variabile continue Sunt acele variabile care pot lua orice valoare dintr-un interval finit sau infinit, care reprezint scara lor de variaie. Exemplu:
greutatea ntre un subiect de 76 kg i un subiect de 78 kg putem gsi oricnd
nlimea subiecilor.
n cazul acestor variabile, mulimea de definiie a valorilor sale este una continu, ne-numrabil. Aceste variabile se mai numesc i variabile scalare (de interval sau de raport). Deoarece cercetarea unei colectiviti numeroase poate implica valori mari, putem extrage din colectivitatea iniial o subcolectivitate (sau mai multe) al crui studiu este mai simplu. n acest caz vorbim despre eantion reprezint un subset de elemente selectate dintr-o colectivitate statistic. O nsuire specific statisticii este aceea c statistica nu se ocup cu un element (individ) luat ca atare, ci cu colectiviti, cu grupuri de elemente ce posed o anumit trstur comun. Aceast trstur se numete caracteristic. Denumirea de "populaie" s-a pstrat din timpurile n care statistica se ocupa cu precdere de populaii n sensul propriu al cuvntului. O populaie poate fi mpit n subpopulaii sau populaii pariale, care sunt : clase, grupe i eantioane. Gradul de reprezentativitate al unui esantion depinde de: - caracteristicile populaiei; - Mrimea eantionului; - procedura de eantionare folosit. Definiie: Frecvena de apariie a unei variante/valori reprezint numrul de apariii ale acestei variante/valori n colectivitate. (Benea, M, Munteanu, G, 2007, p. 23). Exemplu: Nivelul individual al salariului de 700 RON, nregistrat pentru un angajat al societii X, reprezint valoarea conneacret a variabilei salariu. Dac 15 salariai primesc acest salariu rezult c frecvena de apariie a valorii 700 RON este 15
11
7. Elementele fizice pot fi*: a. direct msurabile cantitativ; b. msurabile cu aproximaie; c. nemsurabile. 8. Opinia unei persoane poate fi*: a. direct msurabil cantitativ; b. msurabil cu aproximaie; c. nemsurabil. 9. n Romnia, bazele statisticii descriptive au fost puse de: a. Dimitrie Cantemir b.John Graunt; c. John Halley. 10. O unitate statistic poate fi*: a. o persoan interogat ntr-o anchet; b. salariul unei persoane angajate ntr-o firm; c. ansamblul salariailor unei firme din localitatea X la un moment dat. 11. O colectivitate poate fi*: a) ansamblul persoanelor nregistrate pe teritoriul Romniei la 18 martie 2002; b) opiniile electoratului nregistrate n noiembrie 2004; c) ansamblul cererilor de angajare depuse la firma B, n anul 2004. 12. Sunt variabile calitative atributive (nominale)*: a) talia, greutatea, salariul; b) sexul persoanelor, starea civil, domiciliul; c) sperana de via, numr de locuitori ai unei ri. 13. Sunt variabile discrete*: a) sperana de via; b) numrul de copii pe familie, numrul de camere ale unui apartement, numrul de piese defecte dintr-un lot de rulmeni; c) sexul persoanelor, starea civil, domiciliul. 14. Sunt variabile continue*:
a) talia, greutatea, salariul; b) numrul de copii pe familie, numrul de camere ale unui apartament,
15. Pentru urmtorul exemplu, precizai unitatea statistic, identificai variabile statistic studiat i tipul de variabil: Exemplu: absenteismul angajailor exprimat n zile; 16. Un om de afaceri observ c, n ultimele 3 luni, concurentul su acord cte un interviu unui ziar de specialitate n fiecare zi de joi. El trage concluzia c n paginile ziarului de joia viitoare va aprea un nou articol al concurentului su. Eantionul pe baza cruia se face aceast inferen este*: a) numrul ziarului de joia viitoare; b) numrul ziarului de joia trecut; c) numerele ziarelor din toate zilele de joi; d) numerele ziarelor din toate zilele de joi deja aprute; e) numerele ziarelor din zilele de joi din ultimele 3 luni. Precizai unitatea statistic, identificai variabila statistic studiat i tipul de variabil. Precizai dac variabila este cantitativ sau calitativ, dac ea este continu sau discret. 17. Care din urmtoarele variante reprezint un eantion i nu o colectivitate total pentru ncasrile zilnice din anul trecut ale unui magazin*: lista ncasrilor zilnice din anul trecut; lista ncasrilor zilnice cu doi ani n urm; lista ncasrilor previzionate pentru anul trecut; lista ncasrilor din fiecare zi de mari a anului trecut; 18. Pentru caracterizarea unei grupe de studeni din anul I al Facultii de tiine Economice, n funcie de media la admitere, unitatea de observare este*: a) grupa; b) studentul; c) media la admitere; d) facultatea; e) anul de studiu 19. O companie de asigurri dorete s determine proporia medicilor care au fost implicai n ultimul an n una sau mai multe aciuni judiciare de rele practici. Compania selecteaz ntmpltor 500 de medici care au practicat n ultimul an i determin proporia*. Identificai populaia de interes i eantionul. ____________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005. 14
a.
b.
c. d.
I.2. Rspunsuri corecte. 1. b - activitate de strngere a datelor; 2. a - numrtoare a populaiei i eviden a bunurilor materiale; 3. a - un pronunat caracter metodologic; 4. a - micrile curente continue ale fenomenelor i proceselor ce i au existena sub form de colectiviti; 5. a - asociaii finite de elemente unite ntre ele prin omogenitate; 6. a - trsturi eseniale purtate la toate elementele unei colectiviti; 7. a - direct msurabile cantitativ; 8. b - msurabil cu aproximaie; 9. a - Dimitrie Cantemir; 10. a - o persoan interogat ntr-o anchet; 11. a - ansamblul persoanelor nregistrate pe teritoriul Romniei la 18 martie 2002; 12. b - sexul persoanelor, starea civil, domiciliul; 13. b - numrul de copii pe familie, numrul de camere ale unui apartement, numrul de piese defecte dintr-un lot de rulmeni; 14. a - talia, greutatea, salariul; 15. - unitatea = angajatul; - variabila = nr de zile=cantitativ discreat. 16. e - numerele ziarelor din zilele de joi din ultimele 3 luni; 17. d - lista ncasrilor din fiecare zi de mari a anului trecut; 18. b studentul; 19. - Populaia = medicii care au practicat n ultimul an; - Eantionul = cei 500 de medici care au practicat n ultimul an;
15
Procesul cunoaterii statistice presupune organizarea i parcurgerea unor etape distincte i succesive care includ operaiile de observare sau culegere a datelor, de sistematizare i prelucrare, de analiz i interpretare a rezultatelor. Definiie: Culegerea datelor i valorificarea informaiilor obinute din acestea prin mulimea operaiilor de prelucrare i analiz se numete cercetare statistic. (Benea, M, Munteanu, G , 2007, p. 26). Cercetarea statistic se desfoar n trei faze: observarea statistic; prelucrarea datelor primare i obinerea indicatorilor statistici; analiza i interpretarea rezultatelor prelucrrii. De modul n care se realizeaz observarea depinde n continuare calitatea celorlalte etape. Etapele cercetrii statistice sunt: observarea statistic etap n care se culeg date i informaii statistice de la unitile colectivitii, pentru toate caracteristicile urmrite;
sunt calculai indicatorii statistici primari i derivai, absolui i sintetici ce caracterizeaz fenomenul studiat; * Indicatorul statistic este expresia numeric a unor fenomene, procese, activiti sau categorii economice i sociale delimitate n timp, spaiu i structur organizatoric. Pentru cunoaterea fenomenelor de mas, indicatorii statistici ndeplinesc mai multe funcii: de msurare, de comparare, de analiz i sintez, de estimare, de verificare a ipotezelor. Indicatorii statistici se pot grupa n: 1. Indicatori primari (absolui) (mrimi absolute) se obin n procesul prelucrrii primare prin centralizarea datelor care privin dintr-o observare total sau parial.
16
2. Indicatori derivai se obin prin comparri, absttractizri, generalizri, prin alicarea unor procedee specifice de prelucrare. Au rolul de a pune n eviden aspecte calitative ale fenomenelor analizate deoarece exprim: - relaia dintre prile colectivitii precum i dintre diferite caracteristici;
-
- tendina obiectiv de manifestare a fenomenelor; analiza i interpretarea rezultatelor etap n care sunt verificate ipotezele, formulate concluziile i fundamentate procesele decizionale. Definiie: Observarea statistic reprezint aciunea de culegere de la unitile statistice a informaiilor referitoare la caracteristicile urmrite, dup criterii riguros stabilite. (ibidem). Ca etap a cercetrii, observarea statistic este condiionat de scopul cercetrii, de particularitile obiectului studiat i de tehnica de calcul folosit n procesul de prelucrare ulterioar a datelor observrii.
Observarea direct se bazeaz pe contractul direct, nemijlocit, cu unitile de nregistrat (numrare, constatare, etc.). De exemplu, stabilirea periodic a cntrirea, msurarea lor. O form a observrii directe o constituie observarea pe baz de chestionare, folosit n special n studiul cererii de consum a populaiei (anchete statistice). Metodele de observare se difereniaz n funcie de necesitile cunoaterii i de numrul elementelor din colectivitatea cercetat care sunt supuse nregistrrii n dou clase: metode de observare total (rapoarte statistice, recensminte, inventarieri ale stocului de marf, etc.) i metode de observare pariale (selecia statistic observarea prii principale etc.). Metodele statistice utilizate cu predilecie n practic sunt: recensmntul, sondajul statistic, ancheta de opinie, panelul, monografia statistic. Recensmntul - este o metod de observare (total), cu caracter periodic, care surprinde un fenomen n mod static. Recensmntul este metoda cea mai complex de realizare a observrii totale, folosit din cele mai vechi timpuri. El este n fond o fotografiere a fenomenului la un moment dat, prin care se realizeaz culegerea datelor dup criterii unitare i simultan la toate unitile colectivitii cercetate. Astfel, rezult c este o observare total cu o anumit periodicitate, care caracterizeaz static fenomenului studiat. Organizarea i desfurarea unui recensmnt trebuie s fie riguros elaborat, ridicnd o serie de probleme metodologice speciale i anumite msuri organizatorice. Toate aceste probleme se verific prin organizarea unui recensmnt de prob, efectuat de ctre organele speciale. Recensmntul reprezint observare statistic total, de regul periodic, care const n nregistrarea exhaustiv a unei mari colectiviti de pe un anumit teritoriu, ntr-o anumit perioad de timp, pe baza unui program complex de cercetare i de stocurilor de marf presupune numrarea,
18
obicei, cu personal special de nregistrare, n scopul cunoaterii la un anumit moment ale aspectelor concrete cantitative, care caracterizeaz fenomenul respectiv. Recensmntul se caracterizeaz prin anumite particulariti: 1) caracterul de nregistrare total, n sensul de cuprindere n program a tuturor indicatorilor care fac obiectul nregistrrii; 2) simultaneitatea nregistrrii, n sensul c datele nregistrate s se refere la un moment dat (moment critic) pentru a se asigura comparabilitatea datelor; 3) metoda de nregistrare, de regul, este direct. In prezent, pe plan mondial sunt cunoscute recensmintele mondiale periodice (din 10 n 10 ani), recensmntul populaiei i locuinelor, recensmntul agricol etc. Din domeniul populaiei, recensmntul s-a extins i asupra altor domenii: exist recensmnt al locuinelor, al animalelor, al unitilor de industrie, transport, agricultur etc. (recensmnt economic). n mod obinuit, recensmntul se refer la populaie, dar se poate folosi i n alte domenii de activitate. n comer, de exemplu, se folosete pentru cunoaterea bazei materiale. Recensmintele reelei comerciale se refer la numrul, mrimea i nzestrarea cu echipament specific a societilor comerciale (mobilier comercial, instrumente de msurare i cntrire alte aparate auxiliare n activitatea de vnzare).
Exemplu: Inventarierea statistic a stocului de mrfuri poate fi considerat un recensmnt, deoarece servete cunoaterii exhaustive*, cuprinde toate unitile colectivitii (produsele existente n stoc) i se realizeaz prin observarea direct a stocului existent n ntreprindere (sau magazin) la un moment dat.
________________________________________________
*care trateaz un subiect n ntregime, complet, integral, ntreg, total
19
Recensmntul asigur o surprindere a unui fenomen ntr-un anumit moment de timp (moment critic). Momentul critic este ales, uzual, n timpul iernii, evitndu-se vacanele colare, astfel ca populaia s fie surprins n momentele ei cele mai stabile. Definiie: n mod oficial, recensmntul populaiei este un proces de culegere, prelucrare i publicare a datelor demografice, economice i sociale, la un timp specificat i valabile pentru toate persoanele din ara respectiv sau de pe un teritoriu delimitat. (Benea, M, Munteanu, G , 2007, p. 34). Recensmntul este reglementat de ctre stat, prin acte legislative i respect principiile universalitii, simultaneitii i comparabilitii.
2.
statistic. Sondajul se folosete pentru a nlocui o observare total, de mare amploare, mai dificil de realizat, care presupune angajarea unor cheltuieli ridicate de resurse materiale, financiare i umane. Sondajul statistic face parte din metodele de observare special organizate i cu caracter parial. Are ca scop s nlocuiasc o observare total de mare amploare sau care practic este imposibil. De exemplu, dac vrem s studiem, calitatea produselor, durata medie de funcionare a bunurilor, s zicem a televizoarelor etc. nu este raional s se fac o observare total. De asemenea, dac vrem s studiem calitatea vieii recurgem la un sondaj pe baza de buget de familie n care sunt nregistrate veniturile pe surse i cheltuielile pe destinaii. In acest caz evideniem pentru fiecare gen de cheltuial, cantitile n expresie fizic i preurile. Pe baza informaiilor oferite de ancheta integrat n gospodrii putem stabili un indice al costului vieii n care avem n vedere mrfurile i serviciile care intr n consumul curent al populaiei.
20
Sondajul poate asigura o informare operativ, prin prelucrarea rapid a informaiilor i cu costuri mai sczute. n cazul sondajului se vor culege date de la o subcolectivitate, numit eantion, care trebuie s ndeplineasc condiia de reprezentativitate fa de colectivitatea general pentru ca rezultatele sondajului s reflecte realitatea. Eantionul trebuie s reproduc aceleai trsturi eseniale pe care le are i colectivitatea general. Formarea eantionului nu trebuie s fie subiectiv, ci s se efectueze dup procedee probabilistice aleatoare, care s asigure, fiecrei uniti, anse egale de a ptrunde n eantion (procedeele de eantionare sunt prezentate n capitolul V). Datele de selecie, rezultate din observarea eantionului se prelucreaz, iar indicatorii obinui se extind, n anumite condiii de probabilitate asupra ntregii colectiviti. Extinderea rezultatelor de la eantion la colectivitate se poate face numai dac eantionul este reprezentativ (ceea ce presupune ca ntr-un numr mai mic de uniti ce formeaz mpreun un eantion, s regsim aceleai trsturi eseniale ca i n ntreaga colectivitate supus cercetrii). Culegerea datelor statistice de la uniti se poate face prin documentare, observaie, chestionare trimise prin pot, interviu direct sau prin telefon. Pe lng avantajele sale, operativitate, rapiditate, economicitate, sondajul are i anumite limite, date tocmai de apariia erorilor de selecie i de dificultile legate de alctuirea eantionului. Problema const n gsirea acelei mrimi a eantionului, suportabil din punct de vedere al costului, ce ofer gradul de precizie acceptabil, reflectnd fidel colectivitatea din care s-a extras. 3. Ancheta statistic este o metod parial de observare, fr ca eantionul pe baza cruia se realizeaz ancheta, s fie obligatoriu reprezentativ fa de colectivitatea general (se poate forma i nealeator prin alegere raional). Ancheta de opinie are drept scop cunoaterea prerilor persoanelor asupra diferitelor probleme (Exemplu: anchete sociologice, demografice, psihosociale, de marketing, etc).
21
Ancheta statistica este o metoda de observare parial cu deosebirea c numai cu totul ntmpltor poate s ndeplineasc condiia de reprezentativitate. Ea se bazeaz pe completarea chestionarelor, ceea ce nseamn c pe baza rezultatelor ei putem aprecia unele tendine generale fr s putem face o estimare riguroas a parametrilor colectivitii totale. De exemplu, cererea de bunuri de consum se poate studia fie prin sondaje statistice reprezentative, deci prin metoda selectiv, fie prin anchete statistice. n primul caz eantionul se stabilete prin aplicarea unei scheme probabilistice alegnd unitile care vor forma eantionul astfel nct s reprezinte toate straturile populaiei ntr-o proporie corespunztoare. Putem folosi pentru studiul cererii de marfuri i o ancheta statistic efectuat la pavilioanele de mostre. In acest caz sunt rugai vizitatorii s completeze chestionarele. In cel de-al doilea caz evident c datele sunt numai orientative deoarece se constat c structura celor care completeaz chestionarele prezint abateri semnificative de la structura populaiei totale. Ancheta statistic se poate organiza i pentru cunoaterea prerii consumatorilor referitor la un anumit produs lansat pe pia sau produse expuse n perimetrul unitilor comerciale sau al expoziiilor, prerea cumprtorilor privind activitatea unitilor comerciale (orarul de funcionare, aprovizionare, locul de cumprare, calitatea serviciilor), determinarea motivelor care influeneaz cererea etc. Culegerea datelor se face prin chestionare sau prin autoinregistrare, iar unitatea de observare este persoana sau cumprtorul. In toate rile cu economie de pia exist instituii specializate n sondaje, ca i o metodologie extrem de bogat cu privire la organizarea anchetelor statistice, ntocmirea chestionarelor, efectuarea interviurilor, calculul indicatorilor i estimarea erorilor. n aceste economii se folosesc frecvent estimrile obinute prin aceste metode pariale, nu numai pentru domeniul social, ci i pentru domeniul economic.
22
Observrile pariale presupun cunoaterea fenomenelor studiate pe baza nregistrrii unei pri din colectivitatea general. n domeniul comerului i al turismului observrile pariale sunt ntlnite mai frecvent sub denumirea de selecii i anchete sau sondaje de opinii. Ele se folosesc n studiul cererii de consum a populaiei pe piaa intern, precum i a factorilor care o influeneaz. 4. Panelul este o metod de observare parial, bazat pe un eantion fix, stabil, format dintr-un numr de persoane de la care se obin date prin chestionare la diferite momente de timp. 5. Monografia statistic este o metod de observare parial, special organizat, avnd ca obiectiv cunoaterea multilateral i n profunzime a unei singure uniti complexe (Jaba, E, Pintilescu, C, 2005, p. 36). Aa cum meniona Dimitrie Gusti, pentru a vorbi despre monografie, trebuie s vorbim despre un domeniu social bine determinat, care s permit ca prin metoda observaiei directe s clarifice necunoscutele acelui domeniu. Traian Herseni (Istoria sociologiei romneti, 2001) definete metoda monografic drept studiul pe teren, multilateral i intensiv, al unei uniti sociale sau fenomen social. Iar ca trstur principal i observ caracterul interdisciplinar i multimetodologic Prin urmare, principala "regul" a metodei monografice ar fi delimitarea unei teme sau regiuni i descinderea pe teren pentru a o studia la faa locului (ceea ce n metodologia antropologic se numete "observaie participativ"). Monografia este o observare parial are un caracter multidisciplinar si se realizeaz la o unitate complex sau pentru o problem care intereseaz. De exemplu, se poate ntocmi monografia unui ora, jude, municipiu, ntreprindere. Este evident faptul c n procesul de descentralizare i de privatizare
23
specific rii noastre se realizeaz monografii statistice la nivelul diferitelor ntreprinderi n care sunt precizate date cu privire la: - mrimea i starea fizic a capitalului fix; - gradul de eficien a investiiilor i de recuperare a acestora; - sistemul de normare i de calcul a costurilor; - gradul de rentabilitate; -mrimea i structura forei de munc i calificarea acesteia. Rezult c o monografie statistic nseamn o caracterizare complet a unitilor complexe studiate. Ea se realizeaz de ctre o echip mixt de specialiti care particip la toate trei etapele: observarea datelor, prelucrarea lor, analiza i interpretarea rezultatelor. Prin analogie se pot elabora monografii pe probleme. Exemple: pentru etapa actuala intereseaz o monografie a productivitii muncii, o monografie privind starea fizic a fondurilor fixe, nivelul lor de tehnicitate i gradul de competitivitate al produselor, o monografie privind consumurile de materii prime i energetice i procesele de valorificare a acestora, etc. Aplicarea concret a tuturor metodelor de observare statistic implic folosirea mod corespunztor a procedeeleor de culegere statistic a datelor care respect n cea mai mare msura principiul autenticitii i anume: msurarea direct, interogarea, autonregistrarea, prelucrarea din ali purtatori de informaii.
1.7. ETAPELE CERCETRII STATISTICE
24
n procesul nregistrrii datelor pot apare diferene ntre valorile reale i cele nregistrate pe formular,care poart denumirea de erori de observare. Erorile de nregistrare se ntlnesc ca erori ntmpltoare i erori sistematice. Erorile ntmpltoare de nregistrare provoac abateri,n sensul mririi sau micorrii nivelului real al fenomenului;erorile sistematice de nregistrare produc abateri de regul ntr-un singur sens de la realitatea observat. Definiie: Prin eroare statistic se nelege diferena dintre nivelul real al unui indicator i cel rezultat din investigaia statistic. (Benea, M, Munteanu, G , 2007, p. 36). Erorile statistice pot apare n toate etapele cercetrii statistice i pot fi: erori de observare (nregistrare): - se ntlnesc n procesul de culegere a datelor statistice. Pot fi de dou feluri: - erori ntmpltoare au caracter nepremeditat i se pot datora neateniei sau unor cauze accidentale. erori sistematice sunt produse cu bun tiin i au o influen negativ asupra rezultatelor prelucrrii. Exemplu: n nregistrrile demografice populaia are tendina de a declara, n loc de vrsta real exact, o vrst rotunjit terminat cu 0 sau 5.
25
Erorile de observare pot fi nlturate prin control statistic. erori de reprezentativitate: - Sunt specifice sondajului i nu pot fi eliminate total, ci doar diminuate i inute sub control. erori de modelare: - Se produc atunci cnd se alege n mod nejustificat un mod de calcul, fapt ce determin obinerea unor indicatori fr coninut real.
26
1. Reprezentativitatea este urmrit n mod deosebit n cazul culegerii datelor prin: a) Recensmnt; b) sondaje statistice; c) anchete statistice; d) monografia statistic. 2. Panelul, ca metod de observare parial urmrete: a) aplicarea unui chestionar mai multor persoane n acelai timp; b) aplicarea unor chestionare diferite la momente diferite de timp; c) aplicarea aceluiai chestionar unui singur lot de subieci la momente diferite de timp. 3.Recensmntul ca metod de observare statistic: a) nu presupune culegerea datelor de la toate unitile populaiei statistice bine determinate; b) are exclusiv un caracter demografic; c) se ncadreaz n sfera observrilor cu caracter permanent; d) se organizeaz cu o anumit periodicitate. 4. Ancheta statistic: a) este o metod de observare total; b) este o metod de observare parial care numai ntmpltor poate s ndeplineasc condiia de reprezentativitate; c) este o metod de observare parial, care, n mod obligatoriu, trebuie s ndeplineasc condiia de reprezentativitate; d) este o metod de observare parial, care se bazeaz pe obligativitatea completrii chestionarelor; e) mai este denumit i sondaj statistic.
27
5. Lucrri statistice prin sondaj sunt: a. anchetele prin sondaj; b. recensmntul; c. rapoartele statistice. 6. Atunci cnd se nregistreaz la un moment critic populaia unei ri se efectueaz*: a. un recensmnt; b. o nregistrare curent continu; c. o anchet de opinie. 7. nregistrarea opiniei electoratului se nregistreaz prin*: a. recensmnt; b. nregistrare curent-continu; c. sondaj statistic. 8. Se observ populaia unei ri la 10 momente de recensmnt. Colectivitatea studiat este: a. momentele de recensmnt; b. populaia rii; c. ara. 9. Se observ populaia unei ri la 10 momente de recensmnt. Variabila studiat este: a. momentele de recensmnt; b. populaia rii; c. ara.
_________________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005 28
1. b - sondaje statistice; 2. c - aplicarea aceluiai chestionar unui singur lot de subieci la momente diferite de timp. 3. d - se organizeaz cu o anumit periodicitate. 4. c - este o metod de observare parial care numai ntmpltor poate s ndeplineasc condiia de reprezentativitate; 5. a - anchetele prin sondaj; 6. a - un recensmnt; 7. c - sondaj statistic. 8. b - populaia rii; 9. a - momentele de recensmnt;
29
_________________________________________________________________________________________________________________________
Gruparea statistic reprezint prima sistematizare a unor date individuale care au fost obinute n urma unei observri. Sistematizarea datelor se face n scopul identificrii fenomenelor de care aparin aceleiai esene social-economice i prezint o serie de proprieti comune. Prin prelucrarea statistic se nelege etapa cercetrii statistice n care se trece de la datele individuale obinute n etapa observrii pentru fiecare unitate a colectivitii, la indicatori care caracterizeaz colectivitatea n ntregul ei. Nivelul nominal de msurare (clasificare) i nivelul ordinal (de rang sau ierarhic) se grupeaz n scala neparametric de msurare. Nivelul de interval (intervale egale) i nivelul de raport (proporii) formeaz scala parametric de msurare.
Raport
Parametric Cuantificare
Interval
Ordinal
Neparametri c
Nominal
Schematic, nivelurile de msurare se pot prezenta astfel. (Figura 1).(dup Opariuc, 2009).
30
31
stabili o ierarhe ntre valorile unei variabile pe aceast scal. Aceast proprietate este caracteristic doar scalei nominale.
Operaii statistice permise n principal operaiile de baz, derivate din numrare, astfel (Opariuc, 2009): o Frecvena absolut i relativ (procentul), cte observaii au fost incuse n fiecare categorie (de exemplu 50 de brbai i 50 de femei sau 50% brbai i 50% femei);
o Valoarea modal (modul), categoria cu frecvena cea mai mare (de
exemplu din 100 de subieci, 80 au ochi albatri, aceasta fiind categoria cu frecvena cea mai mare modul); Exemplu: Alegem cele 4 tipuri de temperament pe care le codificm astfel: Coleric Sangvinic Melancolic Flegmatic 1 2 3 4
Observaie: ntre toate categoriile (gradaiile) unei scale nominale nu exist relaie de ierarhie, ordinea prezentrii lor fiind indiferent, lipsit de importan din punctul de vedere al consistenei scalei (utilizarea codificrii poate crea iluzia unei ierarhii (1 este mai mic dect 2 etc.), dar aceasta este doar o iluzie, utilizat uneori n scopuri de manipulare). Ne propunem s caracterizm 150 de indivizi dup apartenena la un tip de temperament. Dup investigaie, rezult 32 de colerici, 48 de sangvinici, 37 melancolici, 33 de flegmatici. Potrivit codificrii date pot fi prezentate astfel:
32
TIP TEMPERAMENTAL 1 2 3 4
NUMR DE INDIVIZI 32 48 37 33
Ansamblul numerelor din coloana a II-a se numete distribuie de frecvene a tipurilor temperamentale n grupul studiat. Fiecare numr constituie frecvena absolut a diviziunii respective a scalei notat ni. Definiie: Frecvena absolut indic numrul total de uniti statistice.
ni
ni =
i ni = n (1)
i =1
Definiie: Frecvena relativ indic proporia din numrul total de uniti care se ncadreaz n grup.
ni
ni=
*
n
i =1
100 =
ni 100 n
Reprezint al doilea nivel de msurare i const n ierarhizarea n funcie de mrimea unei caracteristici, fr ns a se putea preciza cu ct un nivel ierarhic este superior sau inferior altuia i nici de cte ori. (Opariuc, 2009) Scala ordinal este cunoscut i sub numele de scal de ordine, de rang, scal ierarhic. O scal ordinal permite ordonarea observaiilor, persoanelor, situaiilor de la mic la mare, de la simplu la complex, atunci cnd n empiricul relativ se introduc, pe lng relaiile de echivalen i relaiile de ordine.
33
Spre deosebire de scala nominal (ale crei proprieti le include), scala ordinal permite stabilirea unei relaii de ordine ntre date. Observaie: n cazul scalelor ordinale se poate stabili ierarhia a n gradaii ale variabilei, dar nu se poate preciza valoarea diferenei dintre dou gradaii. Crearea unei scale ordinale presupune, cu prioritate, stabilirea unei relaii de ordine ntre valorile posibile ale variabilei studiate.
Proprietile scalei: Dup Vasilescu (1992) proprietile specifice scalei ordinale includ i proprietile scalei nominale, astfel nct la cele ale scalei anterioare se adaug Transformrile permise la nivelul acestei scale sunt cele care nu afecteaz ordinea iniial. Astfel de operaii sunt ridicarea la putere sau, inversa ei, extragerea de radicali.
Ordinea este de la simplu la complex. Prin aceast scal putem caracteriza manifestrile unei persoane n funcie de gradul de saturare motivaional. Observaie: Dac se neglijeaz ordinea dintre categorii, datele obinute n urma utilizrii unei scale de msur ordinale sunt identice, din punct de vedere formal, cu datele nominale. Pentru a realiza ordonarea datelor prezentate sub form de tabel calculm i frecvenele cumulate. Definiie: Frecvena cumulat pentru o categorie este suma tuturor frecvenelor anterioare plus frecvena curent.
34
Cuvntul anterior se refer la sensul de parcurgere a categoriilor scalei ordinale. Dac parcurgerea se face de la categoriile mici spre cele mari, se formeaz frecvene cumulate ascendent (cresctor). Dac parcurgerea se face de la categoriile mari spre cele mici se formeaz frecvene cumulate descendent (descresctor). Observaie: Se pot prezenta sub form de frecvene cumulate att frecvenele absolute ct i cele relative. Fci = frecvene absolute cumulate F*ci = frecvene relative cumulate Fci =
n
k =1
(3)
F =
* ci
n
k =1
* k
(4)
Exemplu: S presupunem c analiznd produsele creative dintr-o anumit zon geografic, pe o anumit perioad de timp, s-a obinut urmtoarea distribuie de valori pe scara Taylor. Scara Taylor privind clasificarea creativitii dup criteriul efectivitii comunicrii:
1. 2. 3. 4. 5.
creativitate expresiv; creativitate productiv; creativitate inventiv; creativitate inovatoare; creativitate emergent.
35
1 2 3 4 5
75 52 20 6 4
157 82 30 10 4
T 157
Reprezentrile grafice ale datelor ordinale trebuie s reflecte proprietatea de ordonare specific scalei, s denote faptul c scala de msur este discret i se sugereaz ct mai puin luarea n considerare a distanei dintre categoriile scalei. Din aceste considerente utilizm diagramele sub form de bare verticale. Vizualizrile pot s aib drept obiect att frecvenele absolute ct i cele relative.
36
Reprezint a treilea nivel de msurare i deriv din scala ordinal, la care se adaug proprietatea c, intervalele dintre un nivel de valori i altul sunt egale. Este un tip de msurare n care distanele dintre treptele scrii sunt distane egale sub aspectul cantitii caracteristicii de msurat.(Cristian Opariuc-Dan, 2009). Scala de interval are proprietile scalei ordinale, dar intervalul dintre dou variante este exprimat n termenii unei uniti de msur fixe. Prin aceasta operaia de msurare a observaiilor pe o scal de intervale determin caracteristic existent n observaii. n psihologie practic nu ntlnim aceast scal dect n domeniul psihofiziologiei, n care nregistrm timpi de reacie, numr de erori, fora unei reacii etc. Acest nivel de msurare ne permite s rspundem la ntrebarea cu ct este mai mare dar nu i la ntrebarea de cte ori, deoarece la nivelul acestei scale nu ntlnim un punct zero absolut, ci unul arbitrar ales (Opariuc, 2009). Exemplu: scala de temperatur Celsius punctul de zero grade Celsius este un punct arbitrar ales ca fiind punctul de nghe al apei la presiunea de la nivelul mrii. Intervalele acestei scale sunt egale, ceea ce ne permite s spunem c apa dintr-o gleat este mai cald cu 10 grade Celsius dect apa dintr-o alt gleat, dar nu i c apa este de dou ori mai cald, deoarece punctul zero nu este un zero absolut ales (Opariuc, 2009).. Realizarea unei scale de interval presupune parcurgerea mai multor etape:
2. Se calculeaz amplitudinea variaiei caracteristicii
cantitatea exact de
Numim amplitudine de variaie (Range) diferena dintre valoarea maxim i valoarea minim a distribuiei de date. (A = Max Min). A = xmax - xmin (5)
3. Se stabilete numrul de grupe r n care vor fi sistematizate datele
def
Observaie : Se recomand utilizarea unui numr moderat de grupe (ntre 4 i 10). 4. Se calculeaz mrimea aproximativ a intervalelor de grupare:
37
A r
xmax xmin r
(6)
mai mic). xmin+h; xmin+2h; ; xmin+rh Fie c desfurm o evaluare psihologic, un experiment sau o cercetare experimental, fie c iniiem un proces de colectare a datelor prin observaie, rezultatul const ntr-o colecie de date brute. La acest nivel nu avem nici o modalitate prin care putem trage concluzii asupra semnificaiei datelor pe care le avem la dispoziie. (Opariuc, 2009). De aceea, prima etap n iniierea unei proceduri statistice de analiz a datelor const n clasificarea, ordonarea, condensarea acestora n vederea conturrii unei imagini ct mai precise. Valorile msurate trebuie aezate ntr-o anumit ordine (cresctoare sau descresctoare) care s permit i o eventual reprezentare grafic a acestora. Exemplu: Urmtoarele date reprezint cheltuielile pentru cumprarea unbui produs (ron), cheltuieli efectuate de 25 de familii ntr-o sptmn: 222, 284, 321, 248, 235, 265, 254, 312, 321, 298, 274, 286, 312, 288, 286, 245, 222, 234, 238 ,254, 265, 231, 254, 233, 265. Xmin = 221 Xmax = 321. A = Xmax- Xmin = 321 221 = 100 r=4 h=
A 100 = = 25 r 4
Frecven 8
38
8 5 4
Operaii statistice permise: Calculul mediei aritmetice, abaterii standard, boltirii i simetriei (indicatorii statistici sunt prezentai la capitolul IV);
o Statistici parametrice: testul t Student, F Fisher, analiza de
varian; o Toate tipurile de corelaii: r-Pearson, raport de corelaie (R), coeficientul de regresie (b)
Ultimul nivel de msurare i este reprezentat de scala de raport care are toate caracteristicile unei scale de interval la care se adaug existena unui zero absolut. Aceast scal permite s rspundem la ntrebarea de cte ori, deoarece existena unui zero absolut face posibil compararea proporiilor. Scala de raport are proprietile scalei de interval, iar raportul dintre dou puncte ale scalei dup care unitile sunt clasificate are semnificaie, indiferent de unitatea de msur utilizat n stabilirea scalei. Pe scala de raport numerele ofer nu numai informaii asupra ordinii de rang a obiectelor (i a mrimii relative a diferenelor) ci i despre relaiile rapoartelor. Exemplu : dac un subiect are greutatea de 80 de kilograme iar un altul are greutatea de 160 kilograme, putem spune c al doilea subiect este cu 80 de kilograme
39
mai greu dect primul, dar i c al doilea subiect este de dou ori mai greu dect primul, ambele afirmaii avnd sens. Exemplu: - Rata lunar a omajului ; - cursul valutar zilnic al leului n raport cu euro. Proprieti ale scalei:
Sunt permise toate operaiile statistice, inclusiv calculul mediei geometrice i al coeficientului de variaie.
1. Scala nominal: a. nu permite redenumirea unor noi nume; b. permite schimbarea ordinii elementelor; c. este cunoscut i sub numele de scal cantitativ. 2. Scala nominal are ca proprietate: a. identitatea categoriilor unei variabile; b. ordinea categoriilor unei variabile; c. diferenele ntre numere au un sens; d. raportul dintre dou puncte de scal este acelai. 3. Operaiile statistice permise n cadrul scalei nominale sunt: a. frecvenele absolute i relative; b. modul, mediana, media; c. frecvenele cumulate. 4. n cazul scalei nominale: a. ntre coduri exist un raport de echivalen i ordinea codurilor numerelor sau simbolurilor atribuite categoriilor este oarecare; b. diferenele ntre 2 valori ale unei variabile nu au sens; c. ntre categoriile variabilelor atributive exist un raport de preferin. 5. Proprietatea de identitate, specific scalei nominale, presupune: a. un interval ntre numere, care s permit compararea diferenelor dintre numere; b. un raport de preferin, desemnat prin >, care permite msurarea cu ranguri; c. apartenena elementelor la o categorie.
6. Scala ordinal: a. permite ordonarea observaiilor, persoanelor sau situaiilor de la complex la simplu; b. permite ordonarea observaiilor, persoanelor sau situaiilor de la mic la mare; c. poate precuza valoarea diferenei dintre dou gradaii;
41
d. nu presupune stabilirea unei relaii de ordine ntre valorile posibile ale variabilei studiate. 7. n cazul scalei ordinale: a. se poate preciza valoarea dintre dou gradaii; b. se poate stabili o relaie de ordine ntre valorile posibile ale variabilelor studiate; c. este cunoscut i sub numele de scal calitativ. 8. Frecvena cumulat ascendent se calculeaz ca fiind: a. numrul total de uniti statistice; b. numrul total de uniti care se ncadreaz n grup; c. suma frecvenelor anterioare minus frecvena curent, d. suma frecvenelor anterioare plus frecvena curent. 9. Scala de interval: a. presupune stabilirea unei relaii de ordine ntre valorile studiate; b. presupune ca intervalul dintre dou variante s fie exprimat n termenii unei uniti de msur fixe; c. nu poate determina cantitatea exact de caracteristic existent n observaii; d. nu are ca extensie scala de interval. 10. Scala de interval este folosit n cazul: a. variabilelor atributive b. variabilelor nenumerice c. variabilelor cantitative 11. Scala de interval a. are toate caracteristicile scalelor ordinale i de raport; b. are toate caracteristicile scalei ordinale i, n plus, distana sau diferena dintre dou numere ale scalei are semnificaie concret; c. este o scal numeric i, n plus, raportul dintre dou puncte ale scalei este independent de unitatea de msur; d. prezint multe dintre caracteristicile scalei ordinale; e. mai este numit i scal de raport sau scal discret. 12. Ordinea n care sosesc alergtorii dintr-o curs reprezint o variabil statistic ale crei valori pot fi msurate pe o scal: a. nominal; b. proporional; c. de interval;
42
d. ordinal; e. cardinal. 13. Temperatura la sol msurat n 10 zile consecutive n Bucureti, ca variabil statistic, are valori ce pot fi msurate pe o scal*: a. de raport; b. de interval; c. ordinal; d. pe nici una din scalele menionate 14. Identificai 3 tipuri diferite de date statistice ce pot fi colectate pentru a reflecta popularitatea a cinci publicaii periodice similare. Precizai scala de msurare a fiecrui tip de date.* a. numr de abonamente; b. numr de exemplare vndute; c. tiraj. 15. Precizai care dintre urmtoarele asocieri ntre variabilele statistice i scala de msurare nu este adevrat*: a. marca de calculator cumprat cel mai curnd de 20 de oameni de afaceri scal nominal; b. salariul mediu pe ramuri ale economiei naionale scal de raport; c. punctajul obinut de ctre 10 concureni la un concurs de cultur general scal nominal; d. afilierea la un partid politic a 50 de directori executivi selectai aleatoriu scal nominal.
_______________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005.
III.4. Probleme
43
1. Ne propunem s studiem 200 de persoane pentru a vedea care este profesia lor. Dup investigaie au rezultat: 32 avocai 50 economiti 66 juriti 21 contabili 31 psihologi Cerine: a. Identificai frecvena absolut; b. Calculai frecvena relativ
2. n urma controlului de calitate, ntr-un lot de 500 de piese, se gsesc n i=30 piese rebut. S se calculeze procentul mediu al pieselor de rebut din lot.
3. Populaia ocupat (mii persoane) pe sectoare de activitate n Romnia, n anii 1993 i 2001, se prezint astfel*: Sectorul de activitate Indistrie 3030 Construcii 574 Agricultur i 3614 silvicultur Alte ramuri 2844 Total 10062 1993 2017 340 3498 2708 8563 2001
4. Populaia ocupat (mii persoane) pe sectoare de activitate n romnia, n anii 1993 i 2001, se prezint astfel*: Sectorul de activitate
44
1993
2001
S se afle cu ct s-a modificat structura populaiei ocupate n industrie, n anul 2001 fa de 1993.
5. Distribuia a n familii dintr-un bloc, dup numrul de copii (x), la un moment dat, se prezint astfel*: Xi ni Fci 0 6 6 1 18 24 2 23 47 3 20 67 4 14 81 5 6 87 6 2 89 7 1 96
6. Urmtoarele date reprezint cheltuielile (mii lei) efectuate de 50 de copii ntr-o sptmn: 50, 82, 84, 56, 114, 115, 118, 58, 64, 86, 89, 66, 69, 144, 135, 78, 98, 94, 76, 80, 134, 128, 126, 79, 96, 100, 112, 113, 84, 87, 96, 99, 146, 155, 159, 157, 166, 178, 174, 176, 169, 178, 158, 155, 156, 174, 84, 94, 110, 112. Calculai: a) Amplitudinea; b) Marimea intervalului avnd r = 4 (numrul de intervale); c) Frecvena absolut;
45
7. Distribuia pe grupe de vrst a unui eantion de 100 de persoane dintr-un cartier de locuine, la un moment dat, este: Grupa de vrst Efectivul - 20 17 20-30 61 30-60 22 60-80 15 80-100 18
S se calculeze limita inferioar a primului interval de variaie. 8. Directorul unui post de radio comand o cercetare statisitic n scopul determinrii audienei de care se bucur postul su. Cercettorul culege date privind numrul de ore audiate pe un eantion i afl c 10% din persoane ascult postul de radio mai puin de 2 ore, 25% ntre 2 i 4 ore, 40% ntre 4 i 6 ore, 20% ntre 6 i 8 ore, iar restul peste 8 ore. El urmrete s determine numrul mediu de ore de audiie pe o persoan.
46
_____________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005.
b. numr de exemplare vndute scal de raport; c. tiraj scal de raport. 15. c. punctajul obinut de ctre 10 concureni la un concurs de cultur general scal nominal; III.4. Rspunsuri corecte. 1. Rspuns. Profesii Avocai Contabili Economiti Psihologi Juriti Ni 32 21 50 31 66 Ni* 16 25 33 10,5 15,5
2. Rspuns: Nivelul mediu n cazul unei variabile alternative se calculeaz dup relaia:
p= ni * 100 n
p=
30 * 100 = 6 0 0 500
Interpretare: Rezultatul obinut arat c n medie, la fiecare 100 de piese observate, 6 piese sunt rebut. 3. Rspuns. Se calculeaz frecvena relativ. Ni*=
ni n 340 = i = *100 = 3,97% ni n 8563
Interpretare: Ponderea populaiei ocupate n sectorul de construcii, n anul 2001, este de 3,97% 4. Rspuns. ni*= Ni0*=
ni * 100 ni
48
Ni1*=
Interpretare: Structura populaiei ocupate n industrie a sczut, n anul 2001 fa de 1993, cu 6,56%. 5. Rspuns. Aflarea numrului de familii care au cel mult 4 copii presupune calcularea frecvenei absolute cumulate. Ne vom opri la 81 deoarece problema, cere numrul de familii care au cel mult 4 copii. Astfel, un numr de 81 de familii din colectivitatea considerat au cel mult 4 copii. 7. Rspuns: Exemplul dat prezint o distribuie pe intervale inegale de variaie. n acest caz, limita inferioar a primului interval de variaie se nchide, i vom lua n consideratie mrimea intervalului urmtor. h= xi-xi-1= limsup - limin f = 30-20 =10 Prin urmare, primul interval are ca limit inferioar 10, adic (10-20) 8. Rspuns. Se va utiliza media aritmetic ponderat, calculat pe baza frecvenelor relative. Intervale de variaie a numrului de ore de audiie Sub 2 2-4 4-6 6-8 8 i peste total Numr de persoane (%) 10 25 40 20 5
x=
100
100
100
Astfel n medie o persoan din eantionul studiat audiaz 4,7 ore de program la postul de radio respectiv.
49
Noiunea de indicator i funciile indicatorilor Cercetarea statistic a fenomenelor i proceselor socio-economice are ca obiectiv principal analiza aspectelor cantitative nemijlocit sesizabile pentru a afla i caracteriza esena i calitatea acestora. Definiie: Indicatorul statistic reprezint expresia numeric a unor fenomene i procese social-economice, definite n timp, spaiu i structur organizatoric. ( Benea, M, Munteanu, G , 2007, p. 59). Indicatorii statistici pot fi primari sau derivai. Indicatorii primari exprim direct nivelul real de dezvoltare a caracteristicii cercetate, caracteriznd fenomenul/procesul la modul cel mai general din punct de vedere cantitativ. Ei rezult n urma observrii i centralizrii statistice a datelor individuale de mas, fie prin nregistrarea curent, fie prin nsumare parial sau total a datelor individuale de acelai fel. Indicatorii derivai se obin prin prelucrarea mrimilor absolute ale indicatorilor primari. Prelucrarea se face prin comparare, abstractizare, generalizare i alte procedee de calcul statistic. Compararea se face prin diferen sau prin raport. Prin diferen se compar numai indicatorii absolui cu acelai coninut i exprimai n aceeai unitate de msur. Prin raport se pot compara indicatorii cu acelai coninut sau coninut diferit, dar aflai n relaie de interdependen.
50
IV.1.1. Media aritmetic ( x ) Considerm c termenul de medie este cel mai uor de neles din ntreaga statistic. Au fost nenumrate situaiile n care am ntlnit media: media la chimie s vedem dac am promovat anul sau avem restane, media de la coala general care ne
51
ridic sau ne coboar ansele de admitere la liceu sau media cheltuielilor zilnice care ne ajut s ne planificm mai bine bugetul. Astfl la ntrebarea Ce este media aritmetic? putem spune c este indicatorul care se utilizeaz cel mai frecvent pentru caracterizarea tendinei centrale. Media reprezint valoarea care nlocuind toi termenii unei serii nu modific nivelul totalizator i se calculeaz ca suma valorilor unei variabile raportat la numrul msurtorilor. Aceasta este media aritmetic (C. Opariuc-Dan, 2009), deoarece n statistic mai discutm i de media geometric, media caracteristicilor alternative, media ptratic, media rangurilor etc. Aceste concepte le ntlnim ns mai rar n domeniul tiinelor socio-umane i prin urmare nu vom face dect s le amintim.
x=
x
i =1
Exemplu: Vrsta a 7 studeni de la facultatea de psihologie este de 25, 26, 32, 33, 40, 22, 26, 24. Vrsta medie este :
x=
25 + 26 + 32 + 33 + 40 + 22 + 26 + 24 228 = = 28,5ani 8 8
n cazul n care datele au fost sistematizate ntr-o serie de distribuie de frecvene n care valorile/centrele intervalelor de variaie apar cu frecvenele ni, atunci media aritmetic, numit i medie aritmetic ponderat este:
x=
x n
i =1 r
i i
n
i =1
52
Exemplu : Salariile date angajailor (mil. lei) de ctre 70 de firme n anul 2005 a avut urmtoarea distribuie: Interval 20 - 40 40 - 60 60 - 80 80 - 100 ni 10 15 10 5
S se calculeze media. Rspuns : Fiind o serie cu distribuie de frecvene vom aplica urmtoarea formul:
x=
x n
i =1 r
i i
n
i =1
unde:
Xi = centrul de interval Ni =frecvena absolut Observm c n formul avem i necunoscute, adic Xi (centrul de interval) i va trebui s-l calculm.
Interval 20 40 40 - 60 60 - 80 80 - 100 ni 10 15 10 5 Xi 30 50 70 90
Xi =
53
Xi = Xi =
20 + 40 60 = = 30 2 2 40 + 60 100 = = 50 2 2
. Xi =
80 + 100 180 = = 90 2 2
x= x=
30 *10 + 50 *15 + 70 *10 + 90 * 5 = 10 + 15 + 10 + 5 300 + 750 + 700 + 450 2200 = = 55 Salariul mediu oferit este de 55 mil lei. 40 40
Not: Pentru o serie de distribuie de frecvene, media calculat pe baza frecvenelor relative este egal cu media aritmetic determinat pe baza frecvenelor absolute.
Modul este categoria cu frecvena cea mai mare, el reprezint valoarea cel mai des ntlnit ntr-o serie statistic sau cea care are cea mai mare frecven de apariie. Modul se mai numete i dominanta seriei sau valoarea modal. Grafic, ntr-o histogram ori poligon al frecvenelor el reprezint valoarea de pe abscis corespunztoare vrfului reprezentrii. n cazul datelor cantitative, n determinarea modului se ine cont de felul n care acestea au fost sistematizate. Pentru o serie statistic simpl de forma {30 ,32 ,40 ,32 ,35 ,30 ,32 } valoarea modal, M0 = 32.
54
Pentru o serie de distribuie de frecvene alctuit dup o variabil cantitantiv discret, determinarea modului se face prin identificarea valorii creia i corespunde frecvena maxim. n cazul seriilor de distribuie de frecvene pe intervale de variaie, determinarea modului presupune mai nti identificarea intervalului cu frecven maxim:
d1 M 0 = xinf M 0 + d + d hM 0 1 2
unde:
xinf hM o
M0
+1
O serie de date statistice poate s aib una sau mai multe valori modale. O distribuie cu un singur mod se numete unimodal, dac are dou valori dominante se numete bimodal, iar dac are mai mult de dou moduri se numete multimodal.
Exemplu : Salariile date angajailor de ctre 70 de firme n anul 2005 a avut urmtoarea distribuie:
55
ni 20 10 10 15 25 10
xinf
Mo
+ hM 0
d1 d1 + d 2
Intmod = 50-60 (intervalul a crui frecven absolut este cea mai mare)
xinf
M0
= 50
0 0
d1 = nM nM
nM 0 nM 0 1
+1
nM 0
d2 = 25 - 10 = 15
M 0 = 50 + 20 10 10 = 50 + 20 = 50 + 8 = 58 10 + 15 25
Mo =58
IV.1.3. Mediana (Me) Mediana este o alt msur a tendinei centrale i reprezint valoarea care mparte irul de msurtori n dou pri egale; jumtate din irul de date vor avea
56
valori mai mici dect mediana n timp ce cealalt jumtate vor avea valori mai mari dect mediana. (C. Opariuc-Dan, 2009, p. 83). Mediana prezint valoarea/varianta din mijlocul unei serii de date, serie n care observaiile au fost ordonate cresctor (sau descresctor). Mediana este situat n centrul (mijlocul) seriei. Mediana poate fi folosit n caracterizarea tendinei centrale pentru o serie de date msurate pe o scal ordinal. Mediana ia n considerare doar poziia observaiilor n serie, nu i magnitudinea lor efectiv. Pentru a determina mediana introducem noiunea de ranguri, adic, numere de ordine asociate observaiilor (cea mai mic rang 1; cea mai mare rang n). Locul medianei (LocMe) va fi rangul unitii din mijlocul distribuiei. LocMe =
n +1 2
Pentru seriile simple la determinarea valorii din mijloc trebuie s lum n consideraie situaiile: a)
-
Dac n este un numr impar pentru date cantitative mediana este exact valoarea din mijlocul seriei
Exemplu: n cazul unui ir impar, mediana este valoarea de la mijlocul unui ir. Dac relum exemplul anterior, i mai adugm un scor, obinem: 20, 17, 14, 9, 18, 15, 19
irul are 7 valori. Ordonnd irul, obinem: 9, 14, 15, 17, 18, 19, 20
Observm c n = 7. LocMe =
n +1 2
7 +1 8 = =4 2 2
LocMe =4 a 4-a valoarea din irul de numere ordonate crector sau descresctor reprezint mediana Me =17 Ordonnd un ir, putem preciza poziia fiecrui element n cadrul acelui ir. Altfel spus, mediana nu este altceva dect poziia rangului din mijloc n irul ordonat de date. ntr-o serie de la 1 la 7, poziia din mijlocul irului este evident, poziia 4. Acesta este de altfel i locul n care gsim mediana. Scoruri: Poziia: 9, 14, 15, 17, 18, 19, 20 1, 2, 3, 4, 5, 6, 7
b)
Dac n este un numr par, exist dou valori situate n mijlocul dac datele sunt cantitative, mediana este media celor dou valori din mijloc
seriei.
-
Exemplu: Se consider urmtorul ir de date: 20, 10, 15, 18, 21, 22 Pentru a calcula mediana, primul pas este acela de a ordona cresctor sau descresctor aceste date. Ordonnd cresctor irul de mai sus, obinem: 10, 15, 18, 20, 21, 22 S se calculeze mediana. Se ordoneaz datele cresctor, astfel : 10, 15, 18, 20, 21, 22.
58
LocMe =
n +1 2
6 +1 7 = = 3,5 2 2
Dup definiia medianei, n cazul nostru avem 6 valori. Prin urmare, mediana va fi valoarea care mparte acest ir ordonat n dou pri egale. Fiind 6 valori, mediana este situat la limita primelor 3 valori. Deoarece irul este un ir par, mediana se situeaz, n cazul nostru, ntre valoarea 18 i valoarea 20, mai precis la valoarea 19. c. Pentru o serie de distribuie de frecvene variate determinarea medianei presupune calcularea mai nti a frecvenelor cumulate. Prima frecven cumulat mai mare dect (n+1)/2 (locul medianei) ne indic varianta median Exemplul 1: Pentru 80 de familii dintr-un bloc s-au sistematizat date privind numrul membrilor de familie, rezultnd distribuia:
Numrul de familii ni 12 23 30 8 7 80
LocMe =
80 +1 = 40 ,5 2
adic, ntre a 40-a i a 41-a familie prima frecven cumulat mai mare dect 40,5 este 65
varianta trei membrii de familie reprezint varianta median situat n
mijlocul distribuiei.
59
Pentru o serie de repartiie de frecvene pe intervale de variaie, mediana se va ncadra n intervalul median, primul interval cu frecvena cumulat mai mare dect LocMe. Exemplul 2: Se d distribuia: Intervale 10-20 20-30 30-40 40-50 50-60 60-70 ni 20 10 10 15 25 10 Fci 20 30 40 55 80 90
LocMe =
n +1 90 + 1 91 = = = 45 ,5 ; 2 2 2
n = 90
Loc Me Fc ( Me 1) nMe
hMe mrimea intervalului median Fc(Me-1) - frecvena cumulat a intervalului anterior celui median nMe frecvena absolut a intervalului median Me =
40 +10 45 ,5 40 15
= 43,66
60
este mai puin afectat de valorile extreme, lund n considerare doar poziia valorilor nu i magnitudinea lor efectiv; poate fi folosit ntr-o distribuie pe intervale chiar i n cazul n care primul sau ultimul interval sunt deschise; este un indicator ce poate fi folosit i pentru date ordinale; Dezavantajele medianei: mediana nu poate fi supus la fel de uor calculelor algebrice; media este preferabil n procesul de inferen statistic.
IV.2. QUARTILELE
Quartilele mpart seria n patru pri egale, ele delimitnd cele 25% din observaii. Quartilele sunt n numr de trei: Q1, Q2, Q3. Q1 este cuartila inferioar; Q2 este egal ntotdeauna cu mediana; Q3 este cuartila superioar; Determinarea valorilor quartilelor se face adoptnd formulele medianei: Q1 = xinf Q1 + hQ1
Loc Q1 Fc (Q1 1) nQ1
unde:
x inf hQ1
Q1
Loc Q1 =
;
61
Loc Q1 =
locul quartilei, primele 25% valori; frecvena cumulat a intervalului anterior celui quartilic;
Fc ( Q1 1) = nQ1 =
Q3 = xinf Q3 + hQ3
3( n + 1) 4
Loc Q3 =
Exemplul 1: Salariile date angajailor de ctre 70 de firme n anul 2005 a avut urmtoarea distribuie:
Intervale 10-20 20-30 30-40 40-50 50-60 60-70 ni 20 10 10 15 25 10 Fci 20 30 40 55 80 90
Q1 = xinf Q + hQ
1
Loc Q1 Fc ( Q1 1) nQ1
Loc Q1 =
n +1 91 = = 22 ,75 4 4
62
Q3 = primele 25% din firmele care ofer cele mai mari salarii.
Q3 = xinf Q3 + hQ3 Loc Q3 = Loc Q3 Fc ( Q3 1) nQ3
Q3= 155,3 primele 25% din firmele care ofer cele mai mici salarii.
A = xmax - xmin Amplitudinea relativ a variaiei (A%) se exprim n procente i se calculeaz ca raport ntre amplitudinea absolut a variaiei i nivelul mediu al caracteristicii. A% =
A 100 x
Amplitudinea se folosete la controlul calitii produselor prezentnd importan i din punct de vedere metodologic, fiind folosit n prima faz a prelucrrii statistice la stabilirea numrului de grupe i a mrimii intervalului de grupare.
Indicatorii sintetici ai variaiei trebuie s se bazeze pe toate observaiile, s fie uor de calculat, ct mai puin afectai de fluctuaiile de selecie dac datele provin dintr-o cercetare statistic parial pentru care trebuie verificat i reprezentativitatea eantionului. Indicatorii sintetici ai variaiei sunt: - abaterea medie liniar; - abaterea medie ptratic; - dispersia;
-
coeficientul de variaie.
Se mai numete variaie medie, deviaie medie, abatere absolut medie sau abatere liniar medie i se poate calcula atunci cnd media este un bun indicator al tendinei centrale. Acest indicator informeaz asupra modului n care se abat, n valori
64
absolute, rezultatele de la medie, acordnd aceeai pondere tuturor variabilelor. Abaterea medie se poate calcula pe date grupate sau pe date discrete. ( Benea, M, Munteanu, G , 2007). Se calculeaz ca medie aritmetic simpl sau ponderat a abaterilor termenilor seriei de la media lor, luat n valoare absolut. Pentru o serie simpl:
dx =
x
i =1
x =
1 n xi x n i =1
dx =
x x n
i =1 i
n
i =1
dx =
x x n % .
i =1 i * i
100
Exemplu: Pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul zilnic petrecut n faa televizorului rezultnd: Timp (min) Numr de persoane ni 47 51 xi xi*ni xi X
X I X X I X
76 24 2
75 10 5 13 5
x=
x n
i =1 i
47 *15 + 51 * 45 + 24 *105 + 2 *135 705 + 2295 + 5700 + 5520 + 270 = 200 200
i n
x ni =
i
n
i =1
Atunci cnd putem utiliza media, un indicator frecvent este indicatorul dispersiei sau indicatorul varianei (atenie, nu variaie ci varian) notat cu sigma ptrat pentru populaie sau s2 n cazul unui eantion. Se calculeaz ca medie aritmetic simpl sau ponderat a ptratelor abaterilor termenilor seriei fa de media lor. Formula de calcul a dispersiei este urmtoarea, n care xi reprezint valoarea msurat, x barat media iar N numrul de msurtori. - pentru o serie simpl
66
2 x =
( x x)
i =1 i
( x x)
i =1 i
ni
n
i =1
( x x)
i
ni* %
100
Exemplu: Pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul zilnic petrecut n faa televizorului rezultnd:
Timp (min) 0-30 (Pn la 30) 30-60 60-90 90-120 120 i peste
Numr de persoane ni 47 51 76 24 2
xi
xi*ni xi -
(xi- x )2
(xi- x )2*ni
15 45 75 105 135
S se calculeze dispersia.
x2 =
( x x)
i =1 i
ni
,
n
i =1
x=
x n
i =1 i
=57,45
67
2 x =
Se noteaz cu s n cazul unui eantion sau cu sigma n cazul unei populaii i o putem ntlni sub numele de abatere etalon, abatere tip, abatere ptratic medie. Acest indicator este cel mai precis i inteligibil pentru msura gradului de mprtiere a rezultatelor n jurul tendinei centrale i contribuie la definirea distribuiei normale. Poate fi calculat i dobndete semnificaie numai atunci cnd poate fi calculat media.
Abaterea patratic medie este radacina patrat din media aritmetic a ptratelor abaterilor valorilor observate n raport cu media lor aritmetic.(Petru, Al., 2005, p.52) x . Relaiile de calcul ale abaterii mediei ptratice sunt: pentru o serie simpl
x =
( x x)
i =1 i
Dac privim cu atenie aceast formul, constatm c expresia de sub radical nu este altceva dect variana. Prin urmare, dup ce calculm variana, putem afla uor abaterea standard extrgnd radicalul de ordin doi din varian.
= 2
68
( x x)
i =1 i
ni
n
i =1
x =
( x x)
i
ni*%
100
Exemplu:
2 x = x = 911 ,49 = 30.19
minute
IV.3.1.4. Coeficientul de variaie ( vx ) Prezint, mai intuitiv dect abaterea standard, gradul de mprtiere al rezultatelor n jurul mediei, deoarece este o expresie procentual a mpririi abaterii standard la medie. Se calculeaz ca raport ntre abaterea medie ptratic i nivelul mediu al seriei, deoarece abaterea standard se folosete frecvent pentru msurarea abaterii medii.
x 100 x
sau
vx =
dx 100 x
69
Cu ct nivelul lui
vx
redus, colectivitatea este mai omogen, media avnd un grad mai ridicat de reprezentativitate; cu ct valoarea sa este mai departe de zero, cu att variaia este mai intens, colectivitatea mai eterogen, iar media are un nivel de semnificaie mai sczut.
70
Asimetria se observ prin reprezentarea grafic prin histogram sau poligonul frecvenelor, dar poate s fie msurat prin indicatori specifici. Distribuiile de frecvene pot fi:
-
perfect simetrice:
x = Me = M0
Fig.1
x = Me = M0
fig.2
x > Me > Mo
71
Fig.3
x < Me < Mo
Dar o distribuie este caracterizat i prin variabilitatea datelor. O serie care are variabilitatea mai mic va fi mai pronunat oblic, iar ntr-o serie mai mprtiat oblicitatea se va atenua. Pentru aceasta vom calcula coeficientul de asimetrie Pearson:
Cas = x M0
spre dreapta (asimetrie pozitiv) i valori negative n cazul curbelor alungite spre stnga (asimetrie negativ). Coeficientul de asimetrie este nul pentru o distribuie simetric. El mai poate fi exprimat: Exemplu: Presupunem c pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul zilnic petrecut n faa televizorului, rezultnd: Timp (min) 0-30 (Pn la 30)
72
Cas 1 = 3 x Me
),
deoarece
x M 0 = 3( x M e ) .
Numr de persoane ni 47
xi 15
xi*ni 705
51 76 24 2
45 75 10 5 13 5
T=11490
X =
* ni
Mo =xinfMo-hMo
Mo=60+30 25 + 52
Cas = Cas 1 = x M0
25
3 x Me
) = 57 ,45 61 = 0,118
30 ,19
Coeficientul msoar gradul de asimetrie prin raportul dintre diferena i suma abaterilor quartile i se calculeaz dup formula alturat. Observm c, pentru a calcula acest coeficient, este necesar s calculm pur i simplu cele trei quartile, dup metoda prezentat ntr-unul dintre capitolele anterioare.
73
Casq =
( q2 q1 ) ( q2 + q1 ) unde
Casq =
( Q3 M e ) ( M e Q1 ) = Q3 + Q1 2M e ( Q3 M e ) + ( M e Q1 ) Q3 Q1
Coeficientul poate lua, n general, valori de la -1 la +1 i indic mrimea asimetriei negative sau pozitive. Cu ct valorile sunt mai apropiate de 0, cu att distribuia este mai simetric. Cu ct se apropie de -1 sau de +1, ea devine tot mai asimetric spre stnga sau spre dreapta. Acest coeficient este foarte uor de calculat, ns ine cont doar de cteva valori valorile quartile i nu de toate valorile din distribuie, fapt care i limiteaz precizia i se consider c este doar un coeficient elementar al simetriei. Exemplu: Pentru o distribuie s-au stabilit urmtoarele rezultate: Q1= 150 Me= 130 Q3=140. S se calculeze valoarea coeficientului de asimetrie Yule. Rspuns. Coeficientul de asimetrie yule se calculeaz dup relaia: Casq= (q + q ) = (Q M ) + ( M Q ) = 2 1 3 e e 1 Q1= Me-Q1=130-150= -20 Q2=Q3-Me= 140-130= 10 Interpretare: Valoarea obinut, Casq= -3<0 arat c distribuia considerat este asimetric la stnga.
(q 2 q1 ) (Q3 M e ) ( M e Q1 ) Q3 + Q1 2 Me 10 + 20 = Q3 Q1 10 20
= -3
74
( x x)
n i =1 i r
n utiliznd frecvente
de m3 = cu
( x x) m ( x x) n %
3 r 3 i =1 i i
n
i =1
i =1
* i
100
asimetrie negativ sunt mai numeroase, valorile xi mai mici dect media, atunci sunt negative.
( xi x)
Dac seriile de distribuie au asimetrie pozitiv sunt mai numeroase valorile xi mai mari dect media, atunci abaterile sunt pozitive.
( xi x)
Dac seriile de distribuie sunt perfect simetrice, abaterile sunt tot att de numeroase ca i cele negative.
pozitive
O mrime relativ a asimetriei se obine prin raportarea la abaterea medie ptratic ridicat la cub.
Coeficientul de asimetrie Fisher, nu se bazeaz pe cteva elemente, precum coeficientul Yule, ci pe toate valorile din distribuie i se calculeaz folosindu-se momentele centrate.
m3 = 3 x
2 m3 2 . m2
2 = 2 3
75
Coeficientul 1 va avea valoare mai mare dect zero n cazul asimetriei pozitive, valoare mai mic dect zero n cazul asimetriei negative i va fi egal cu zero n cazul seriei perfect simetrice. Atunci cnd discutm de asimetrie, trebuie s precizm o serie de relaii care apar ntre indicatorii tendinei centrale, media, mediana i modulul.
media,
mediana
modul
au
aceleai valori. Dup cum se poate observa n figura alturat, att media, ct i mediana i modul, se afl n acelai punct, la mijlocul distribuiei.
ntr-o distribuie asimetric la dreapta (distribuie skewness pozitiv, vezi
figura alturat), predomin scorurile mici. n acest caz, modulul este valoarea situat cel mai la stnga n irul de date, iar mediana este mai mare dect media. Evident, mediana fiind valoarea care mparte irul ordonat de date n dou pri egale, iar dac n distribuie predomin scorurile mici, atunci scorurile mari sunt considerate ca scoruri extreme. tim, de la analiza preciziei indicatorilor tendinei centrale, c ntr-o serie de date n care ntlnim scoruri extreme mari, media tinde s le pun n valoare, fapt care este
76
ilustrat grafic n figura de mai sus. Relaia existent ntr-o asemenea distribuie este: Mo<Me<m. Aceast relaie este relaia caracteristic a unei distribuii asimetrice pozitiv (Opariuc, 2009).
ntr-o distribuie asimetric la stnga (distribuie skewness negativ, vezi
figura alturat), predomin scorurile mari. n acest caz, modul este valoarea situat cel mai la dreapta n irul de date, iar mediana este mai mare dect media. Evident, mediana fiind valoarea care mparte irul ordonat de date n dou pri egale, iar dac n distribuie predomin scorurile mari, atunci scorurile mici sunt considerate ca scoruri extreme. tim, de la analiza preciziei
indicatorilor tendinei centrale, c ntr-o serie de date n care ntlnim scoruri extreme mici, media tinde s le pun n valoare, fapt care este ilustrat grafic n figura de mai sus n care se observ relaia existent. ntr-o asemenea distribuie: Mo>Me>m. Aceast relaie este relaia caracteristic unei distribuii asimetrice negativ.
IV.4.4. Boltirea
Boltirea
msoar
nlimea,
adic alungirea sau aplatizarea curbei, comparativ cu cea normal. Asimetria pe orizontal, presupune, dup cum am vzut, o deplasare a tendinei centrale spre stnga sau spre dreapta, ctre scoruri
77
mici sau ctre scoruri mari. Aceasta este singura asimetrie posibil? Rspunsul la aceast ntrebare este nu. Exist i un fel de asimetrie vertical sau boltire. (Opariuc, 2009).
Termenul folosit generic pentru acest concept este termenul de kurtosis (din limba greac, kurtos = cocoat). Practic, boltirea se refer la aspectul cocoaei distribuiei rezultatelor. Cocoaa poate fi ascuit i atunci vorbim de o distribuie ascuit sau leptocurtic, poate fi turtit, distribuia turtit, plat sau platicurtic sau normal, distribuie mezocurtic. O distribuie normal este ntotdeauna o distribuie mezokurtic. n figura de mai sus, distribuia C este o distribuie leptocurtic, ascuit. Distribuia B este o distribuie platicurtic, turtit, iar distribuia A este o distribuie normal sub aspectul boltirii, sau mezocurtic.
distribuie leptocurtic, ascuit, arat c datele sunt foarte grupate i apropiate de medie, lotul de subieci avnd un mare grad de omogenitate a scorurilor
O distribuie platicurtic, plat, este o distribuie n care rezultatele sunt foarte mprtiate fa de medie i indic un grad ridicat de eterogenitate a scorurilor.
Ai observat deja c boltirea nu este altceva dect simetria pe axa vertical (OY), spre deosebire de simetria propriu zis, deplasarea valorilor pe axa orizontal (OX).
78
2 =
m4 =
(x
n i =1 r
n pe baza frecventel or
m4 =
( x x)
i =1 i
ni
n
i =1
( x
r i =1
x ni* % 100
Pentru curba normal (serie simetric) 2 = 3. Dac 2 > 3, curba este mai ascuit dect cea normal (distribuie leptocurtic). Dac 2 < 3, curba este mai turtit dect cea normal (dispoziie platicurtic). Boltirea se mai poate msura i cu indicatorul:
2 = 2 3 =
( x x)
n i =1 i
n 4
, care va avea valoarea zero dac distribuia este normal, valoare pozitiv pentru distribuie leptocurtic i valoare negativ pentru distribuie platicurtic. Exemplu: Distribuia a 380 de firme dup numrul de zile de ateptare pn la realizarea fuzionrii este:
Interval de variaie a numrului de zile 40-80 80-120 120-160 160-200 200-240 240-280 Numr de firme 50 70 90 100 50 20 380
( Q3 M e ) ( M e Q1 ) ( Q3 M e ) + ( M e Q1 )
( Q3 M e ) ( M e Q1 )
Q3 Q1
Asimetria este negativ moderat. (Oblicitatea cu ajutorul momentelor centrate de ordinul 3 ) b. Boltirea
2 =
m4 m4 2 m2
( x x) = n
i i
ni
2 =
2 < 3, 2 < 0
Momentele de ordin r sunt valori ale caractersiticii urmrite care mpart distribuai observaiilor n r pri egale i au acelai efectiv 1/r din numrul unitilor . Exemplu: mediana = quartila 2 = moment de ordin 2 quartila = quartila de ordin 4
80
1. Media aritmetic, ca indicator fundamental al tendinei centrale*: a) reprezint valoarea care modific nivelul totalizator al seriei; b) se folosete cel mai frecvent i reprezint suma valorilor raportat la numrul lor; c) se calculeaz adunnd valorile existente; d) nu poate determina numrul de uniti din colectivitate. 2. Media aritmetic reprezint*: a) valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar fi eterogen; b) valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar fi omogen; c) valoarea pe care ar purta-o fiecare variabil statistic dac distribuia ar fi omogen. 3. Media aritmetic a unei sume dintre dou variabile este egal cu suma mediilor celor dou variabile, cnd*: a) cele dou variabile se afl ntr-o relaie de interdependen; b) cele dou variabile se afl ntr-o relaie de invers proporionalitate; c) cele dou variabile se refer la aceeai colectivitate; d) cele dou variabile sunt independente; e) cele dou variabile sunt direct proporionale. 4. Care dintre urmtoarele afirmaii privind media aritmetic este adevrat*: a) suma ptratelor tuturor abaterilor individuale ale termenilor seriei de la media lor aritmetic este zero; b) mrimea mediei aritmetice este cuprins ntre xmin i xmax doar dac seria prezint o tendin clar de asimetrie; c) pentru o serie de distribuie de frecvene, media aritmetic, calculat pe baza frecvenelor reduse de c ori, este mai mic dect media seriei iniiale de c ori; d) media produsului a dou variabile aleatoare este egal cu produsul mediilor celor dou variabile; e) pentru o serie de distribuie de frecvene, media calculat pe baza frecvenelor relative este egal cu media aritmetic determinat pe baza frecvenelor absolute.
81
5. Mediana, ca indicator statistic: a) prezint valoarea din mijlocul unei serii de date n care observaiile au fost ordonate cresctor sau descresctor; b) nu poate fi folosit n caracterizarea tendinei centrale pentru o serie de date msurate pe o scal ordinal; c) nu are nici o legatur cu noiunea de rang. 6. 25% din salariatii unei inteprinderii au un salariu de cel mult 4 milioane lei. Aceasta valoare reprezint: a) quartila unu; b) mediana; c) quartila trei. 7. 75% din salariatii unei intreprinderii au un salariu de cel mult 7 milioane lei. Aceasta valoare reprezint: a) quartila unu; b) mediana; c) quartila trei. 8. 50% din salariatii unei intreprinderii au un salariu de cel mult 5 milioane lei. Aceasta valoare reprezint: a) quartila unu; b) mediana; c) quartila trei. 9. ntr-o repartiie normal valoarea fa de care 25% din valorile individuale sunt mai mici iar 25% din valorile individuale sunt mai mari este*: a. cuartila a doua; b. cuartila a treia; c. cuartila nti; d. valoarea modal. 10. Media este o mrime generalizat, adic, nlocuind fiecare nivel individual al caracteristicii de distribuie cu nivel mediu*: a. suma termenilor seriei rmne aceeai; b. suma termenilor seriei se modific; c. suma termenilor seriei este nul. 11. Variana (dispersia) de grup msoar*: a) variaia sub influena factorilor aleatori (variaia rezidual) b) variaia sub influena factorilor eseniali c) variaia sub influena factorilor aleatori i eseniali
82
12. Dac dorim s obinem un indicator al tendinei centrale pentru date msurate pe orice scal, vom determina: a) media aritmetic; b) modul; c) media geometric; d) media ponderat. 13. Modul se afla dup relatia: a) Mo = xi - hMo * d + d ; 1 2 b) Mo = xi + hMo * d + d ; 1 2 c) Mo = xi-1 + hMo (n n ) + (n n ) mo mo 1 mo mo +1 14. Care dintre urmtoarele variante nu reprezint un indicator al tendinei centrale? a) mod; b) distribuie de frecvene; c) median; d) medie; e) medie ponderat. 15. Dac dorim s obinem un indicator al tendinei centrale care s nu fie afectat de valorile extreme, s poat fi calculat pentru date msurate pe orice scal (cu excepia celei nominale) i s aib o singur valoarea, vom calcula*: a) media aritmetic b) modul; c) media geometric; d) mediana; e) media ponderat. 16. Modul se utilizeaz pentru caracterizarea: a. tendinei generale i gradului de asimetrie; b. gradului de boltire; c. gradului de concentrare. 17. Quartilele sunt mrimi de poziie care mpart colectivitatea n: a. n-1 pri egale; b. 4 pri egale; c. 5 pri egale;
83
( nmo n mo 1 ) d1 d1
Intervalul (15 20) reprezint: a. intervalul median; b. intervalul modal; c. intervalul quartilic. 19. Rolul indicatorilor tendintei centrale ai unei distributii statistice este de a*: a) sintetiza datele b) calcula marimile relative c) aprecia gradul de dispersie al colectivitatii. 20. Asimetria se calculeaz dup relaia: a) As= x +Mo b) As= 3( x -Me) c) As= 2( x -Mo) 21. Coeficientul de asimetrie Yule, se calculeaz dup relaia: a) Casq= (q + q ) 2 1 b) Casq= (q q ) 2 1
(q3 q1 ) (q 2 + q1 ) (q 2 q1 )
a) 2= m2 b) 2=
m3
c)
3
3 2=
m3 m2
23. O distribuie este mezocurtic atunci cnd: a) 2 = 3, 2 = 0 b) 2 > 3, 2 >0 c) 2 < 3, 2 < 0
84
24. O distribuie este leptocurtic atunci cnd: a) 2 = 3, 2 = 0 b) 2 > 3, 2 > 0 c) 2 < 3, 2 < 0 25. O distribuie este platicurtic atunci cnd: a) 2 = 3, 2 = 0 b) 2 > 3, 2 >0 c) 2 < 3, 2 < 0 26. Abatarea medie liniar se calculeaz dup relaia: ( x x) x i x a) d = i c)
x
dx =
b)
dx =
x ni n
27. Coeficientul 2 = a) b) c) d) e)
m4 m2
2
28. ntr-o serie de repartiie pe intervale format dup o anumit variabil, valoarea sa modal este influenat de*: a) limitele inferioare i superioare ale intervalelor extreme; b) de frecvenele de apariie ale intervalelor egale sau neegale; c) de mrimea egal sau neegal a intervalelor de variaie; d) de limita inferioar a intervalului modal; e) de limita inferioar, de frecvenele intervalului modal, premodal i postmodal;
____________________ Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005
85
IV.6. Probleme
1. Valoarea vnzrilor nregistrate de firma A pe parcursul a apte (7) zile, se prezint astfel (n milioane lei) : 200, 250, 750, 1001, 1520, 1800, 2300. S se calculeze valoarea medie zilnic a vnzrilor realizate de firma A. 2. Distribuia dup volumul vnzrilor zilnice (milioane lei) a unitilor comerciale dintr-un jude n luna Ianuarie 2004, se prezint astfel: Volumul vnzrilor Numrul unitilor comerciale
0 - 10 50
10 - 20 20
20 - 30 10
30 - 40 5
S se calculeze nivelul mediu al vnzrilor zilnice. 3. Se d urmtoarea distribuie: Interval 10-15 15-20 20-25 25-30 30-35 35-40 ni 5 10 12 6 8 4
86
S se calculeze modul.
4. O firm nregistreaz, ntr-o perioada de 5 zile, urmtoarele date privind volumul vnzrilor (milioane lei) : 5, 7, 20, 14, 9. - s se afle valoarea medianei (locul medianei) 5. O firma nregistreaz, ntr-o perioad de 6 zile, urmtoarele date privind volumul vnzrilor (milioane lei) : 10, 40, 20, 15, 22, 35. - s se afle valoarea medianei . 6. Distribuia familiilor dintr-un bloc dup numrul de copii se prezint astfel: Numr copii Numr familii (ni) 0 4 1 8 2 15 3 4 4 2 5 1 Total 34 S se calculeze valoarea medianei. 7. . Distribuia muncitorilor unei firme dup timpul consumat pentru realizarea produsului A, se prezint astfel: Timp - 30 30-60 60-90 90necesar 120 Numr 25 50 60 45 muncitori S se calculeze valoarea medianei. 12015 15 150 5
87
8. Distribuia muncitorilor unei firme dup timpul consumat, pentru realizarea produsului A se prezint astfel: Sa se calculeze valoarea quartelei unu.
Timpul necesar (minute) x (i-1) ; x (i) 0-30 30-60 60-90 90-120 120-150 150-180 total Numr muncitori Ni 25 50 60 45 15 5 200 Xi 15 45 75 105 135 165 F(ci) 25 75 135 180 195 200
88
9. Distribuia muncitorilor firmei A dup timpul consumat pentru realizarea produsuluiX se prezint astfel*: Timp - 30 necesar Numr 25 muncitori 30-60 60-90 90120 50 60 45 12015 15 150 5
10. Distribuia unui eantion de firme dup cifra de afaceri lunar, X, n mil lei, n anul 2004, este prezentat astfel*: Xi-1; Xi 176-178 178-180 180-182 182-184 184-186 186-188 Total ni 20 25 40 35 30 10 160
S se calculeze abaterea medie liniar. 11. . Dac: Q1= 128,13 mil. lei Me= 137,86 mil. lei Q3= 147,92 mil. lei
89
Atunci, coeficientul de asimetrie Yule este egal cu*: a) 141 i arat o distribuie simetric b) 0, 016 i arat o distribuie moderat asimetric c) 0,016 i arat o distribuie puternic asimetric. 12. Pentru o distribuie s-au stabilit urmtoarele rezultate*: Q1= 150 Me= 130 Q3=140. S se calculeze valoarea coeficientului de asimetrie Yule. 13. Pentru o distribuie s-au obinut urmtoarele rezultate*: m4 = 40.000 ; m2 = 100. S se calculeze valoarea coeficientului de boltire.
14. Dac: m4 = 54059,44 m2 = 162,6 atunci coeficientul de boltire i interpretarea sa corect sunt: a) = 2,045 arat o distribuie uor platicurtic; b) = 2,045 arat o distribuie uor leptocurtic; c) = 2,045 arat o distribuie uor mezocurtic. 15. Pentru o distribuie s-au obinut urmtoarele rezultate*: Mo = 125 minute x = 130 minute = 12 minute. S se calculeze valoarea coeficientului empiric de asimetrie Pearson. 16. Distribuia unui eantion de firme dup cifra de afaceri lunar X, n milioane lei, n anul 2004, este:
90
Interval ni
176-178 20
178-180 25
180-182 40
182-184 35
184-186 30
186-188 10
S se calculeze variaia (dispersia). 17. Pentru o distribuie statistic s-a obinut o valoare a coeficientului de boltire egal cu 2,5*. S se calculeze coeficientul Fisher.
2 = 2 3
18. Distribuia unui eantion de firme dup cifra de afaceri lunar, X, n mil. lei, n anul 2006, este: Interval 176-178 178-180 180-182 182-184 ni 20 25 40 35 S se calculeze valoarea coeficientului de variaie. 184-186 30 186-188 10
_____________________ Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005
IV.5. Rspunsuri corecte. 1. b - se folosete cel mai frecvent i reprezint suma valorilor raportat la numrul lor; 2. b - valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar fi omogen;
91
3. c - cele dou variabile se refer la aceeai colectivitate; 4. e - pentru o serie de distribuie de frecvene, media calculat pe baza frecvenelor relative este egal cu media aritmetic determinat pe baza frecvenelor absolute; 5. a - prezint valoarea din mijlocul unei serii de date n care observaiile au fost ordonate cresctor sau descresctor; 6. c - quartila unu; 7. c - quartila trei; 8. c - cuartila a doua; 9. a - quartila trei; 10. a suma termenilor seriei rmne aceeai; 11. a - variaia sub influena factorilor aleatori (variaia rezidual); 12. b - modul; 13. c Mo = xi-1 - hMo (n n ) + (n n ) mo mo 1 mo mo +1
( nmo n mo 1 )
14. b - distribuie de frecvene; 15. d - mediana; 16. a tendinei centrale i gradului de asimetrie; 17. b patru pri egale; 18. b intervalul modal; 19. a - sintetiza datele; 20. b - As= 3( x -Me); 21.a - Casq= (q + q ) 2 1
(q 2 q1 )
92
Q2=Q3-Me
m4
22. a - 2= m2
* ni ;
IV.6. Rspunsuri corecte. 1. Rspuns. Se folosete formula mediei aritmetice pentru o serie simpl.
x
x =
i
Interpretare: Valoarea medie a volumului vnzrilor zilnice este de 1117,28 milioane lei. 2. * Elementele de calcul sunt prezentate n tabelul urmtor:
Volumul vanzarilor x (i-1) ; xi 0-10 10-20 20-30 ni 50 20 10 xi 5 15 25 Xi . n 250 300 250
93
30-40 total
h 2
5 85
35
175 975
Xi= liminf +
sau
xi =
xi 1 + xi 2
Rsp. Nivelul mediu al vnzrilor zilnice se afl calculnd media aritmetic care n cazul unei serii grupate pe intervale de variaie se calculeaz dup relaia:
x
milioane lei.
x
x * n = n
i i i
= 11,47
= 11,47 mil lei valoarea medie a volumului vnzrilor este de 11,47 mil lei.
d 2
4. Rspuns. Pentru o serie simpl cu numr impar de termeni, ordonai n sens cresctor, mediana se afl depistnd termenul central al seriei, n dreptul locului medianei. Locme=
n +1 2
(5 +1) 2
=3 Me = 9 milioane lei.
Locul medianei este al 3-lea termen al irului (5,7,9,14,20), deci Me=9 milioane. 5. Rspuns. Pentru o serie simpl cu numr par de termini, ordonai n sens cresctor, mediana const n calcului mediei aritmetice simple a celor 2 termeni centrali ai seriei. irul de date ordonate cresctor este: 10,15, 20, 22, 35, 40. Me =
20 + 22 2
= 21 milioane lei.
n + 1 34 + 1 35 = = = 17 ,5 2 2 2
6. Rspuns. Locme=
94
Prima frecven cumulat mai mare dect locul medianei ne indic valoarea medianei. n cazul nostru, prima frecven cumulat mai mare dect 17,5 este 27, iar intervalul mdian va fi 2. (ni=27) (Locme = 17,5) 7. Rspuns. Se calculeaz locul medianei. Locme=
n + 1 200 + 1 201 = = = 100 ,5 2 2 2 Loc me Fc ( me 1)
Me= xinfme+hme
n me
Me=60+30
Interpretare: Jumtate din numrul total al muncitorilor au consumat pentru realizarea produsului A pn la 72,75 minute, iar jumtate au consumat peste 72,75 minute
8. Rspuns: Q1=liminfQ1+hq1*
Loc q1 Fc ( q11)
=50,25
Se calculeaz frecvena absolut cumulat cresctor. Prima frecven mai mare ca valoare decct locul cuartilei 1 ne indic intervalul quartilic 1. 0 Liminf=30, deoarece intervalul Q1 este [3 ,60 ) hQ1=60 30 = 30 Fc(Q1-1) = 25 nQ1= 50 Q1= 30+30*
50 ,25 25 50
=30+30*0,50 =30+15= 45
Interpretare: 25% din numrul total al muncitorilor consum cel mult 45 de minute pentru realizarea unei piese. 9. Rspuns. Locq3=
3( n + 1) 3 * 201 = = 150 ,75 4 4
95
Loc Q 3 Fc ( Q 31) nQ 3 Q3= xinfQ3+hQ3 Se calculeaz frecvena absolut cumulat cresctor. Prima frecven mai mare ca valoarea decct locul quartilei 3 ne indic intervalul quartilic 3.
Q3 = 90 + 30 150 ,75 135 = 100 ,75 45
Interpretare: 75% din numrul total al muncitorilor consum cel mult 100,75 minute pentru realizarea unei piese.
10. Rspuns. Media = 181,75 Abaterea medie liniara = 2,42 mil lei pe ansamblul firmelor se realizeaz o cifr de afaceri lunar care variaz n medie fa de nivelul mediu, cu 2,42 mil lei, n sens pozitiv sau negativ. 1. se calculeaz centrul de interval 2. se calculeaz media
x=
* ni
n
=
x x n n
i i
(q 2 q1 )
(Q3 M e ) ( M e Q1 )
0,016
12. Rspuns. Coeficientul de asimetrie Yule se calculeaz dup relaia: Casq= (q + q ) = 10 20 = -3 2 1 Q1= Me-Q1=130-150= -20 Q2=Q3-Me= 140-130= 10
(q 2 q1 )
10 + 20
96
Interpretare: Valoarea obinut, Casq= -3<0 arat c distribuia considerat este asimetric la stnga. 13. Rspuns. Coeficientul de boltire se calculeaz dup relaia:
m4
2= m2
40 .000 10 .000
=4
14. Rspuns. 2= m2 = = = 2,045 i arat o distribuie uor platicurtic deoarece 2 < 3 ( curba este mai turtit dect cea normal). Dac 2 = 3 simetrie simetric, iar dac 2 > 3 atunci aveam o distribuie leptocurtic deoarece curba era mai ascuit dect cea normal.
Interpretare: Valoarea obinut, Cas = 0,417 >0, arat c distribuia considerat este puternic asimetric la dreapta.( curbele sunt alungite spre dreapta). 16. . Rspuns:
2
( x x) = n
i i
ni
1. Se calculeaz centrul de interval. Interval ni xi xini 176-178 20 177 354 178-180 25 179 4475 180-182 40 181 7240 182-184 35 183 6405 184-186 30 185 5550 186-188 10 187 1870
97
x=
x n n
i i
2. Se calculeaz media.
i
( x x) = n
i i
ni
17. Rspuns: 2
= 2 3
2
= 2,5
2 = 2,5 3 = 0,5
Interpretare: Pentru
2 = 0,5 <
Procesul cuprinde dou etape: - etapa descriptiv n care se culeg date i se calculeaz indicatorii ce caracterizeaz subcolectivitatea analizat; - etapa inferenial n care rezultatele obinute pentru aceast subcolectivitate, se extind, n termeni probabilistici, la colectivitatea general. Avantajele cercetrii prin sondaj: - reducerea costurilor materiale i de munc;
-
erorile de nregistrare sunt mai puin numeroase i mai uor de nlturat n faza de verificare a datelor;
- programul observrilor prin sondaj cuprinde un numr mai mare de caracteristici dect programul observrii totale, ceea ce permite caracterizarea mai aprofundat a fenomenelor studiate prin metode statistice; - sondajul poate fi utilizat cu bune rezultate la verificarea programului unei observri totale, ct i la verificarea unor ipoteze statistice Definiie: Selecia statistic reprezint operaia de extragere a unei pri dintr-o colectivitate statistic, a unei subcolectiviti numit i eantion, mostr, colectivitate parial sau colectivitate de selecie. Volumul eantionului este ntotdeauna mai mic dect cel al colectivitii generale. Notm: volumul colectivitii generale cu N i volumul colectivitii de selecie cu n, atunci 1 n N 1 .
99
n cazul n care datele au fost sistematizate n r grupe, dup variaia unei caracteristici de grupare, avem:
N = Ni
i =1 r r
n = ni
i =1
Atunci cnd toate elementele unei colectiviti sunt msurate, orice indicator statistic ce caracterizeaz repartiia statistic se numete parametru. Pentru datele provenite dintr-un eantion, indicatorul statistic calculat se numete estimator. Indicatorii tendinei centrale i cei ai variaiei vor avea notaii diferite, dup cum ei sunt obinui dintr-o cercetare statistic total sau parial. Astfel, media aritmetic va fi notat cu n cazul unei colectiviti totale i cu este un indicator obinut printr-o cercetare statistic prin sondaj.
x
n cazul n care
x
i =1
sau
x N
i =1 r i
N
i =1
unde
i = ,r 1
x=
x
i =1
sau
x=
x n
i =1 r
i i
n
i =1
100
Dispersia se va nota cu 2 dac este parametru obinut n colectivitatea general i cu s2 dac este estimatorul parametrului, obinut pe un eantion. . ( Benea, M, Munteanu, G , 2007).
r
=
2
( xi ) 2
i =1
sau
2=
(x
i =1
)2 Ni
r i
N
i =1
Dispersia eantionului:
s2 =
( xi x)
i =1
sau
s =
2
( x x)
i =1 i r i =1 i
ni
n 1
n 1
Observaie: Rezolvarea problemelor cuprinse n planul de sondaj are drept scop asigurarea reprezentativitii eantionului, de aceasta depinznd n totalitate valoarea rezultatelor obinute n urma cercetrii.
- sondaj secvenial. Sondajele pot fi repetate sau nerepetate, dup cum exist posibilitatea revenirii unei aceleiai uniti n cadrul aceluiai eantion, astfel, n eantionul repetat, sau, cu revenire, fiecare unitate statistic extras din colectivitatea general este reintrodus n baza de sondaj dup ce a fost citit i caracteristicile au fost nregistrate. n varianta sondajului nerepetat (fr revenire) unitile sunt extrase din colectivitatea general, iar dup nregistrarea lor ele nu mai sunt reintroduse n colectivitatea de baz; selecia se face dup modelul urnei din care se fac extrageri succesive, fr a pune napoi bila extras, iar o unitate nu poate s apar dect o singur dat. Extragerea ntmpltoare a unitilor i alctuirea eantioanelor aleatoare se poate realiza prin: - procedeul urnei cu bile (procedeul loteriei); - procedeul tabelului cu numere ntmpltoare; - procedeul mecanic. Procedeul urnei cu bile (eantionarea simplu aleatoare) ) ( Benea, M, Munteanu, G , 2007) poate fi realizat n varianta cu revenire sau n varianta fr revenire. Colectivitatea general este numerotat de la 1 la N. Numerele sunt notate pe bile (cartonae) i sunt amestecate atent. n varianta cu revenire bila (cartonaul) este reintrodus n urn, se repet amestecarea, extragerea se repet pn la obinerea eantionului de volum n. Probabilitatea ca o unitate s fie extras este 1/N, iar dup ultima extragere din urn rmn (N-1) bile. Numrul eantioanelor distincte de volum n ce pot fi extrase n sondajul cu revenire este Nn. n varianta fr revenire, dup extragerea primei bile n urn rmn (N-1) bile, dup a doua extragere (N-2) bile, astfel nct, dup ultima extragere, n urn rmn (N-n) bile, unde n este volumul eantionului. Probabilitatea unei bile de a fi aleas n eantion crete, astfel la extragerea cu numrul i, 1 i n , probabilitatea unei uniti de a fi selectat este
1 N (i 1)
n CN
102
Procedeul tabelului cu numere ntmpltoare const n prelevarea din cadrul populaiei a unitilor ale cror numere de ordine stabilite printr-o numrtoare prealabil au fost citite dup un anumit criteriu din tabelul numerelor aleatoare. Tabelul este o list de numere n care fiecare cifr, de la 0 la 9, apare cu o probabilitate de 1/10 independent una de alta. Elementul colectivitii generale se numeroteaz de la 1 la N, astfel nct s nu rmn nici un element nenumerotat i s nu se repete acelai numr. Se selecteaz apoi un loc de unde ncepe citirea numerelor din tabelul cu numere ntmpltoare. Se organizeaz numerele citite n grupuri de cifre a cror mrime este numrul de cifre coninut de numrul N. Numerele astfel formate identific unitile statistice care sunt selectate n eantion dac sunt cuprinse ntre 1 i N. Dac un numr este zero sau mai mare de N, el este eliminat, deoarece nu exist o unitate corespunztoare n colectivitatea general care s fie selectat. Citirea continu pn cnd se selecteaz n uniti statistice. Exemplu: S alegem un eantion aleator de n = 7 uniti dintr-o colectivitate de 38 uniti, ncepnd cu rndul 10, coloana 2 din tabelul cu numere aleatoare. Numerele citite din tabel vor fi: 7730, 8330, 5928, 7333, 4707, 6007, 4538, 8210, 7319, 4119, 7062, 4346, 0613, 2238. Cum N = 38 are dou cifre, se rearanjeaz secvena citit n grupuri de cte dou cifre astfel: 77, 30, 83, 30, 59, 28, 73, 33, 47, 7, 60, 7, 45, 38, 82, 10, 73, 19, 41, 19, 70, 62, 43, 46, 6, 13, 22, 38. Se elimin numerele mai mari de 38:
103
30, 30, 28, 33, 7, 7, 38, 38, 10, 19, 19, 6, 13, 22. Dac selecia este fr revenire se elimin numerele care reapar n list: 30, 7, 38, 19.
Pe baza valorilor observate x1, x2, ... ,xn n eantionul aleator simplu de volum n, extras dintr-o colectivitate general de volum N, media de sondaj:
x + x + ... + xn x= 1 2 = n
x
i =1
Dispersia mediilor de selecie este de n ori mai mic dect dispersia colectivitii generale i se estimeaz pe baza dispersiei eantionului
2 sx =
s2 n
Eroarea medie de reprezentativitate (abaterea medie ptratic a mediei de sondaj) se determin pe baza datelor din eantion ca
sx = s2 s = n n
Deoarece am extras un eantion de volum n dintr-o colectivitate general de N uniti putem constitui un interval de ncredere, cu o probabilitate de 100(1-) la sut de garantare a rezultatelor, pentru parametrul media colectivitii generale ().
104
Observaie: Un eantion se consider de volum normal sau mare dac n>30 uniti statistice. Pentru a construi acest interval de ncredere, determinm eroarea limit maxim admisibil tiind c media de sondaj
x
Pentru probabilitatea cu care se garanteaz rezultatele 100(1-)%, eroarea limit (maxim) admisibil este:
x = z / 2 s x = z / 2 s n
x
generale cu mai puin sau cel mult z / 2 ori eroarea medie de reprezentativitate
100(1-)%. Observaie: Cea mai folosit probabilitate de garantare a rezultatelor este de 95% pentru care z 0,025 = 1,96, adic P (-1,96 < z < 1.96) = 0,95 Exemplu: S se determine intervalul de ncredere, garantat cu o probabilitate de 95% pentru media i nivelul total al unei caracteristici numerice X, dac eantionul selectat aleator repetat este de 36 de uniti (adic, 5% din colectivitatea general), de medie 800 i abatere medie ptratic 60.
105
Cum n = 36 > 36 (eantion de volum normal sau mare) intervalul de ncredere pentru media n colectivitatea general este dat de n = 36, s = 60, 1 = 0,95 z0,025 = 1,96 eroarea medie de reprezentativitate este : eroarea limit maxim admisibil:
sx = s2 s 60 = = = 10 n 6 n
x
x z / 2 x
= 800,
x = z / 2 s x = 1,96 10 = 19 ,6
N ( x x ) < xi < N ( x + x )
Aceste intervale sunt garantate cu o probabilitate de 95% ceea ce nseamn c exist un risc de 5% ca media din colectivitatea general s aib o valoare mai mic de 780,4 sau mai mare de 819,6, iar nivelul total al variabilei s nu se ncadreze n intervalul (561888, 590112).
106
Pornind de la eroarea limit maxim admisibil, cu un nivel de ncredere (1 ), adic o probabilitate de garantare a rezultatelor 100 (1 )%, volumul necesar al eantionului se determin rezolvnd ecuaia:
D x = z 2 n
ridicm la ptrat
2 D x = z22
2 n
(z ) n=
D x2
Exemplu: S se determine volumul eantionului necesar pentru a estima media unei colectiviti cu o eroare limit de 0,2 i o probabilitate de garantare a rezultatelor de 95%, tiind dintr-o cercetare anterioar c dispersia 2 este aproximativ egal cu 6,1 uniti statistice.
D x = 0,2 Z 2 = Z 0,025 = 1,96 2 = 6,1 n=
107
schimb dup cum evenimentul x1=x1 a avut sau nu loc. Dispersia mediei de selecie este x2 = . Abaterea medie ptratic a mediei de selecie (eroarea mediei de reprezentativitate) este
x = n
N n N
2 N n n N
i estimat prin
2 sx =
s2 N n n N
i estimat prin
sx =
s n
N n N
N n N
se
numete coeficient de corelaie finit n populaie iar raportul de sondaj. Observaie: Pentru
n < 0,2 N
n N
reprezint fracia
n calcule
N n N
nu se ia n considerare.
Intervalul de ncredere pentru media din colectivitatea general corespunztor probabilitii 100(1-)% de garantare a rezultatelor este:
x x < < x + x .
Exemplu: Un eantion aleator de 80 de observaii a fost selectat nerepetat dintr-o populaie normal distribuit de volum N = 800 de uniti. n urma calculelor cu o probabilitate de 95% pentru media colectivitii generale .
x
=14,1
108
x = z / 2 s x = z0, 025 s x = 1,96 0,276 = 0,54 x x < < x + x 14 ,1 + 0,54 < < 14 ,1 + 0,54 13 ,56 < < 14 ,64 N x x < xi < N x + x
i =1 N
)
N i =1
800 13 ,56 < xi < 800 14 ,64 10848 < xi < 11712
i =1
V.1.2.1. Determinarea volumului eantionului n cazul sondajului aleatoriu simplu nerepetat, pentru determinarea volumului eantionului (n) pornim de la formula erorii limit maxim admisibil.
Dx = Z 2 n N n N
ridicm la ptrat
2 N n D = Z 2 n N
2 x 2
nN Dx2 = Z 22 2 N Z 22 2 n
n N Dx2 + Z 22 2 = Z 22 2 N
n= Z 22 2 N N Dx2 + Z 22 2
109
Exemplu. Un eantion aleatoriu a fost selectat nerepetat dintr-o populaie normal distribuit de volum N = 800 uniti. n urma calculelor a rezultat eroarea limit de 0,3 i abaterea medie ptratic s = 2,6. S se determine volumul eantionului, garantat cu o probabilitate de 95%.
n=
= 216,4 216
x st = 1 N
h
uniti statistice
x st =
1 N
N
i =1
xi
Dispersia mediei x st
2 x =
st
i =1
N i2 i2 N 2 n1
2 x st
=
i =1
N i2 si2 N2 n
Dac fracia de sondaj este uniform pentru toate straturile (selecie stratificat
i proporional) atunci N = N i expresia erorii medii de reprezentativitate devine: i
s x st =
1 h ni si2 = n i =1 n
si n
110
ni si2 n i =1
h
s x st
si n
Determinarea volumului eantionului se va efectua pornind de la formula erorii limit maxim admisibil.
111
1. ntr-o cercetare prin sondaj, valoarea medie la nivelul unei populaii reprezint: a. un parametru; b. o valoare tipic de sondaj; c. un estimator; d. o estimaie. 2. Formarea eantionului n cazul unui sondaj aleatoriu simplu presupune ca: a. fiecrui individ din populaie s i se asocieze o probabilitate egal sau inegal, de a intra n eantion; b. eantionul s se formeze prin extragerea unui numr de grupe; c. eantionul s se formeze prin extragerea aleatoare a unitilor la nivelul fiecrei grupe. 3. n cazul sondajului stratificat (tipic) simplu, eantionul se formeaz extrgnd din fiecare grup omogen a colectivitii generale: a. acelai numr de uniti, indiferent de ponderea fiecrei grupe n colectivitate; b. un numr de uniti proporional cu ponderea grupelor n colectivitatea general; c. un numr de uniti proporional cu ponderea grupelor n colectivitatea general i gradul de dispersie din grupe. 4. Erorile de reprezentativitate reprezint diferene ntre: a. valoarea estimat i valoarea adevrat a unui parametru; b. valorile reale i valorile nregistrate; c. populaia real i eantionul observat. 5. Selecia statistic reprezint: a. extragerea unei colectiviti dintr-un eantion; b. Extragerea unei pri dintr-o colectivitate general; c. compararea datelor a dou colectiviti.
112
6. Volumul unui eantion trebuie s fie: a. ntotdeauna mai mic dect colectivitatea general; b. ntotdeauna mai mare dect colectivitatea general; c. egal cu colectivitatea general.
113
V.3. Probleme
1. Cunoatem urmtoarele date la nivelul unei populaii*: N = 200 persoane, 2 = 100 . Admitem o precizie x = 2 i un risc = 0,05 , pentru care z = 1,96. Se cere s se calculeze volumul eantionului corepunztor unui sondaj aleator simplu repetat, interpretai rezultatul. 2. Dispunem de urmtoarele date la nivelul unei populaii*: N = 400 persoane, 2 = 100 . Admitem o precizie x = 2 i u risc = 0,05 , pentru care z = 1,96. Se cere s se calculeze volumul eantionului corespunztor unui sondaj aleator simplu nerepetat. Interpretai rezultatul. 3. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eantion de volum n= 100, extras dintr-o populaie de volum N = 1000, s-au obinut x = 40 ani, s= 22 ani. (s= dispersia eantionului)*. Pentr un = 0,05 (nivel de semnificaie), valoare erorii medii de selecie este: a) 2,2 b) 2,0856 c) 4,312 4. Se extrage un eantion aleatoriu simplu repetat de volum n= 900 persoane, s-au obinut urmtoarele rezultate*: x = 5 milionane lei. s = 3 milioane lei. Considernd un risc de 5 %, s se afle limitele intervalului de ncredere pentru media populaiei din care s-a extras eantionul: a)(4,732; 5,653) b) (4,653; 5,789) c)(4,904; 5196) 5. Pentru un sondaj aleator simplu repetat, realizat asupra unui eantion de volum
114
n= 100, valoarea mediei eantionului i valoarea abaterii medii ptratice (s) sunt*: x = 30 ani s = 3 ani Pentru un = 0,05, valoarea erorii limit de selecie este: a) 0,3 b) 0,588 c) 30 6. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eantion de volum n=25, extras dintr-o populaie de volum N=1000, s-au obinut*:
x
= 40 ani;
_______________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005.
V.2. Rspunsuri corecte. 1. a. un parametru; 2 a. fiecrui individ din populaie s i se asocieze o probabilitate egal sau inegal, de a intra n eantion; 3. a. acelai numr de uniti, indiferent de ponderea fiecrei grupe n colectivitate; 4. a. valoarea estimat i valoarea adevrat a unui parametru; 5. b. Extragerea unei pri dintr-o colectivitate general; 6. a. Intotdeauna mai mic dect colectivitatea general; V.3. Rspunsuri corecte. 1. Rspuns. Volumul eantionului corespunztor unui sondaj aleator simplu repetat se calculeaz dup relaia: 2 z 2 n= 2 2 x n=
1,96 2 * 21 = 20 ,17 persoane 22
Interpretare: numrul persoanelor care ar trebui extrase aleatoriu simplu repetat din populaia de volum N 0 200 este de 20,17 20 persoane.
116
2. Rspuns. Volumul entionului corespunztor unui sondaj aleator simplu nerepetat, se calculeaz dup relaia: 2 z s 2 N 2 n= 2 N x + z s 2
2
1,96
2 2
n=
400 * 2
* 100
153600 1984
= 77 ,45 persoane .
Interpretare: numrul persoanelor care ar trebui extrase aleatoriu simplu i nerepetat din populaia de volum N =400 este de 77,45 77 persoane.
3. Rspuns. b) Eroarea medie de selecie (reprezentativitate) se calculeaz dup
formula:
sx = sx = s n 22 100 N n N 1000 100 = 2,0856 1000
x = z
s
2
= 1,96
s n
3 100
= 0,588
1000 100 = 2,0856 1000
6. Rspuns b) =
N n 22 = N 100
117
____________________________________________________________________________________________________________ ____________________________________________________________________________________________________________
Se alege un prag de semnificaie pentru test; Se stabilesc regulile de decizie, definind regiunile de acceptare i de respingere a ipotezei H0; Se calculeaz valoarea statisticii test, folosind datele nregistrate prin sondaj; Se compar valoarea calculat a statisticii test cu valoarea teoretic;
Se ia decizia de a nu respinge sau de a respinge ipoteza admis. n urma extragerii unui eantion dintr-o populaie statistic prin prelucrarea datelor provenite din sondaj se obine un estimator al parametrului urmrit n populaia de origine. Problema care se pune este n ce msur parametrul estimat pe baza rezultatelor sondajului asigur credibilitatea aprecierilor fcute asupra ntregii colectiviti.
118
Estimatorul este, o presupunere a parametrului, adic, o ipotez statistic. Definiie: Se numete ipotez statistic ipoteza care se face cu privire la parametrul unei repartiii sau la legea de repartiie pe care pe care o urmeaz variabilele aleatoare.(Benea, M, munteanu, G, 2007). Ipoteze statistice: o Ipoteza nul;
o Ipoteza alternativ.
n toate domeniile tiinelor aplicate este necesar s se recurg la experimentarea unor noi metode, tehnologii, produse, fcndu-se presupuneri asupra superioritii lor fa de procedeele curent folosite n vederea lurii unei anumite decizii. Totodat este necesar s verificm dac n timp s-au produs modificri n ceea ce privete parametrii populaiei sau exist diferene semnificative ntre diferite grupuri ale aceleiai populaii. Toate aceste presupuneri constituie nite ipoteze a cror valabilitate trebuie verificat i deoarece aceast verificare se face statistic (operndu-se cu date obinute n urma unei selecii statistice dintr-o populaie) ele se denumesc ipoteze statistice. Verificarea concordanei rezultatelor experienei cu una dintre ipoteze se face pe baza unui criteriu statistic furnizat de un ansamblu de reguli de prelucrare a datelor numit test statistic. Cu ajutorul lui se ajunge la decizia de a respinge o ipotez i a accepta alta. Luarea unei decizii cu privire la o ipotez statistic se numete testarea ipotezei. O ipotez se numete simpl dac ea determin n mod univoc repartiia specificat a variabilei aleatoare i compus dac este format dintr-un numr finit de ipoteze simple.
119
Testele statistice furnizeaz criterii pe baza crora se accept sau se respinge o ipotez cu privire la o populaie statistic pe baza observaiilor fcute ntr-un eantion aleator extras din ea. Alegerea testului nu depinde de eantion, de aceea procedeul de testare a ipotezei i ipoteza se pot specifica nainte de selecie. Trebuie subliniat faptul c printr-un test statistic nu se stabilete adevrul ci doar dac rezultatele seleciei sprijin ipoteza formulat i cu ce probabilitate.
n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza alternativ. Ipoteza statistic ce urmeaz a fi testat se numete ipoteza nul i se noteaz H0. Ea const ntotdeauna n admiterea caracterului ntmpltor al deosebirilor, adic n presupunerea c nu exist deosebiri eseniale. Respingerea ipotezei nule implic acceptarea unei alte ipoteze numit alternativ, notat cu H1. Definiie: Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de semnificaie. Verificarea ipotezei nule se face pe baza unui eantion de volum n, extras din populaia X. Dac punctul definit de vectorul de sondaj x1, x2, ... , xn cade n
120
regiunea critic Rc, ipoteza H0 se respinge, iar dac cade n afara regiunii critice Rc, ipoteza H0 se accept Eroarea pe care o facem eliminnd o ipotez nul, dei este adevrat se numete eroare de genul nti. Probabilitatea comiterii unei astfel de erori reprezint riscul de genul nti () i se numete nivel sau prag de semnificaie. Nivelul de ncredere al unui test statistic este (1- ), iar (1- )100 reprezint probabilitatea de garantare a rezultatelora (Sava, 2004). Eroarea pe care o facem acceptnd o ipotez nul, dei este fals se numete eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaz cu . Puterea testului statistic este (1- ). Erorile de tip I pot fi micorate de cercettor fixnd nivelul de semnificaie ct mai mic. Erorile de tip II pot fi micorate prin creterea volumului eantionului. Dac variaia seleciei este mai mic se reduc ambele erori. Deoarece evitarea unui tip de eroare sporete ansa celeilalte devine important de tiut care tip de eroare trebuie mai atent evitat.
121
Fie populaia de interes, notat cu P1. pentru orice eantion se poate considera o populaie de baz, P2, din care eantionul va fi extras. Problema este dac se poate considera c P2 concord cu P1. ipoteza nul va afirma c P1 i P2 concord. Respingerea ipotezei nule va avea n practic dou consecine: se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie considerat stabil i se va extrage un alt eantion se va considera c populaia P1 s-a schimbat, noua populaie de referin este P2.
VI.3.1. Eroarea standard estimat a mediei n testul erorii standard al mediei, se presupune c sunt ndeplinite condiiile care asigur mediei de sondaj o repartiie normal (eantion n 30) sau aproape normal. De aceea variabila aleatoare z urmeaz o distribuie normal standard (z este variabila normal normat). Eroarea standard: Este un indice pentru variabilitatea mediilor n cazul mai multor eantioane extrase din populaie; ea este media msurii cu care media eantioanelor difer fa de media populaiei din care au fost extrase; Este folosit n cea mai mare parte ca un pas intermediar n alte La fel ca i abaterea standard i variaia poate fi folosit ca un indice tehnici statistice (cum ar fi testul t); pentru variabilitatea scorurilor unei variabile;
122
VI. 3.2. Compararea a dou eantioane de scoruri corelate/relaionate. (Testul t) Testul este publicat n 1908 de W.S. Gosset sub pseudonimul Student. Principala diferen ntre distribuiile de eantionare ale statisticilor z i t este aceea c distribuia t are o cantitate de variabilitate mai mare dect z. Testul t: Este folosit pentru evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; ele ajut la elucidarea ntrebrilor comune ale cercettorilor dac valoarea medie pentru un set de scoruri difer de valoarea medie pentru alt set de scoruri; Deoarece, n cercetare, n mod invariabil, se lucreaz cu eantioane de oameni extrase din populaia latent, trebie s estimm dac orice diferen pe care o obinem ntre cele dou seturi de valori este semnificativ statistic. Exist dou variante ale testului t: 1. Pentru eantioane perechi - folosit cnd cele dou seturi de scoruri ce trebuie comparate provin dintrun singur eantion; - cnd coeficientul de corelaie ntre cele dou seturi este mare. Uneori ne lovim de situaii n care eantioanele din care provin mediile ce trebuie comparate sunt dependente (procedeul de selecie al unui eantion este legat de procedeul de selecie al celuilalt). Cnd elementele celor dou eantioane sunt asociate ntr-un anumit mod dou cte dou (de exemplu: rezultatele nregistrate nainte i dup aciunea unui factor experimental), procedeul cel mai simplu const n a raiona asupra diferenelor pe care le prezint fiecare pereche de date asociate, corelate.(Benea,M, Munteanu, G, 2007).
123
2. Pentru eantioane independente - se folosete cnd cele dou seturi de valori provin din grupuri diferite de participani, pentru a calcula dac mediile acestora sunt diferite semnificativ una fa de cealalt. n cazul eantioanelor independente, probele de semnificaie difer n funcie de dou situaii: Cnd numrul de msurtori (N) n fiecare eantion este destul de mate (mai mare ca 30); Cnd numrul de msurtori sau volumul eantionului este mai mic dect 30.
VI.3.3. Testul Chi-square (Diferene ntre frecvenele eantioanelor) n general, testul chi-square este folosit pentru evaluarea existenei unei diferene semnificative ntre dou sau mai multe eantioane care sunt formate din date de frecven (date nominale). Altfel spus, este testul statistic uzual care analizeaz tabelele de asociere sau contingen pe baza a dou variabile categoriale nominale. De asemenea, poate fi folosit i pentru testarea faptului c un singur eantion este semnificativ diferit fa de o populaie cunoscut. Observaie: Aceast aplicaie este cea mai puin comun, deoarece caracteristicile unei populaii snt rareori cunoscute n cercetare. Observaie: Trebuie avut n vedere faptul c o analiz chi-square trebuie s includ datele fiecrui individ o singur dat. Frecvenele totale trebuie s fie egale cu numrul de persoane folosite n analiz.
124
Cnd am discutat de abaterea standard, am vzut c aceasta reprezint um mijloc de raportare a modului n care rezultatele se mprtie n jurul ei. De asemenea, am spus c, dac cunoatem media i abaterea standard, putem foarte uor s precizm probabilitatea ca un scor par se situeze ntr-o anumit poziie. Pentru disciplinele socio-umane, acest lucru este vital, deoarece atunci cnd msurm, practic precizm poziia pe care o are un subiect n raport cu o populaie de referin. Este ideal ca aceast poziie s poat fi prezentat ntr-o manier standardizat. Acest lucru poate fi uor de ndeplinit dac avem n vedere conceptual de note standardizate. La baza acestui concept stau notele z. Notele z reprezint diferena dintre scorul observat i medie, n termeni de abatere standard, cu alte cuvinte, notele z nu sunt altceva dect distanele la care se situeaz scorurile particulare n raport cu media grupului iar aceast distan este exprimat standardizat. Teoretic, notele z sunt note obinute pe o curb cu media 0 i abaterea standard 1. n acest caz, o distribuie normal are practic notele z cuprinse ntre -3 i +3, ntre aceste note regsindu-se peste 99% din populaie, dup cum observai n figura de alturi.(C.Opariuc-Dan, 2009, p. 164).
125
Multe cazuri de analiz statistic implic o comparaie ntre mediile a dou colectiviti generale. Exemplu: Un patron al unui restaurant dorete s vad dac exist diferene ntre vnzrile realizate nainte i dup o campanie de publicitate; Exemplu: Un grup de consumatori dorete s vad dac exist o diferen semnificativ ntre consumul electric pentru dou tipuri de cuptoare cu microunde. Notele z au i ele o serie de proprieti cu aplicabilitate practic de-osebit, dintre care: Media unei distribuii z este egal cu zero, afirmaie ce rezult din proprietatea acestui indicator de a se diminua atunci cnd scdem o constant din fiecare scor particular. Deoarece din formul rezult aceast diferen (se scade fiecare scor particular din medie), n final media va ajunge la valoarea zero; Abaterea standard a unei distribuii z este ntotdeauna 1. i aceast afirmaie rezult din proprietile abaterii standard. tim c dac mprim abaterea standard la o constant, valoarea acesteia se divide corespunztor. Din formul, observm c acea constant la care mprim este chiar abaterea standard iar mprirea a dou numere egale are ca rezultat 1. Notele z sunt note direct calculabile, utilizndu-se media i abaterea standard i reprezint temelia oricrui proces de standardizare.
126
1. Un estimator statistic reprezint*: a. o funcie de variabile aleatoare de selecie, independente i identic distribuite; b. o valoarea tipic de sondaj; c. o estimaie a parametrului populaiei. 2. Valoarea medie calculat la nivelul unei populaii reprezint*: a. un parametru; b. o valoare tipic de sondaj; c. un estimator; d. o estimaie. 3. Eroarea limit este folosit la stabilirea: a. preciziei unei estimaii; b. unei variabile independente; c. intervalului de variaie a mediei de selecie fa de media general. 4. ntr-un proces de testare a ipotezelor statistice, eroarea de genul nti este: a) eroarea pe care o facem acceptnd ipoteza nul cnd ea este adevrat; b) eroarea pe acre o facem acceptnd ipoteza nul atunci cnd ea este fals; c) eroarea pe care o facem acceptnd ipoteza alternativ cnd ea este adevrat; d) eroarea pe care o facem eliminnd ipoteza nul atunci cnd ea este adevrat; e) eroarea pe care o facem eliminnd ipoteza alternativ atunci cnd ea este adevrat. 5. ntr-un proces de testare a ipotezelor statistice, eroarea de genul al doilea este a) eroarea pe care o facem acceptnd ipoteza nul cnd ea este adevrat; b) eroarea pe care o facem acceptnd ipoteza alternativ cnd ea este fals; c) eroarea pe care o facem acceptnd ipoteza nul cnd ea este fals; d) eroarea pe care o facem eliminnd ipoteza nul cnd ea este adevrat; e) eroarea pe care o facem eliminnd ipoteza alternativ atunci cnd ea este fals.
127
6. Mrimea intervalului de ncredere al unui parametru crete o dat cu scderea*: a. volumului eantionului; b. coeficientului de ncredere ; c. varianei populaiei. 7. Testul t este folosit pentru: a. evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; b. evaluarea existenei unei diferene semnificative ntre dou sau mai multe eantioane c. testarea faptului c un singur eantion este semnificativ diferit fa de o populaie cunoscut. 8. Testul chi square este folosit pentru: a. evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; b. evaluarea existenei unei diferene semnificative ntre dou sau mai multe eantioane c. testarea eantioanelor independente. 9. Testul t se poate folosi pentru: a. testarea ipotezelor statistice cu privire la parametrii unui model; b. testarea normalitii unei distribuii; c. testarea inegalitii a dou medii. 10. Testarea mediei unei distribuii se poate realiza folosind: a. testul chi.square; b. testul t student; c. histograma. 11. Pentru testarea egalitii a dou medii se folosete: a. testul t student; b. Testul chi-square; c. testul fisher.
______________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005. 128
1. a. o funcie de variabile aleatoare de selecie, independente i identic distribuite; 2. a. un parametru; 3. c. intervalului de variaie a mediei de selecie fa de media general; 4. d. eroarea pe care o facem eliminnd ipoteza nul atunci cnd ea este adevrat; 5. c. eroarea pe care o facem acceptnd ipoteza nul cnd ea este fals; 6. a. volumului eantionului; 7. a. evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; 8. b. evaluarea existenei unei diferene semnificative ntre dou sau mai multe eantioane 9. a. testarea ipotezelor statistice cu privire la parametrii unui model; 10. b. testul t student; 11. a. testul t student;
129
Studierea fenomenelor i proceselor sociale i economice prin metode statistice presupune folosirea unor indicatori cu coninut de valori sintetice, care s prezinte proprietatea de a fi reprezentative pentru cel mai mare numr de valori individuale din care s-au calculat. Statistica dispune de procedee care permit s se verifice n ce msur aceste valori calculate, de regul sub form de mrimi medii sau ecuaii de tendin au caracter de valori tipice pentru grupa sau colectivitatea de fenomene la care se refer.
Observaie: Nu este o condiie esenial s avem scoruri egale n fiecare set. Grupurile diferite aparin variabilei independente; valorile numerice corespund variabilei dependente. Practic, analiza de varian calculeaz variaia dintre scoruri i pe cea dintre nivelul pe eantioane. Dac dou valori estimative sunt foarte diferite, nseamn c variaia datorat variabilei independente este mai mare dect ne-am putea atepta pe baza variaiei dintre scoruri. Dac aceast disparitate este suficient de mare, diferena de la nivelul variabilitii este semnificativ din punct de vedere statistic. Acest lucru nseamn c variabila independent are efect asupra scorurilor. Analiza de varian poate fi dificil de interpretat atunci cnd se folosesc dou sau mai mult de dou grupuri. Cu ajutorul acestui tip de varian se studiaz mrimea i frecvena cu care valorile reale ale unei caracteristici statistice se abat de la valorile teoretice calculate, precum i msura n care aceste variaii sunt dependente sau independente de factorul de grupare. Exemplu: variaia salariilor primite de muncitori n funcie de gradul lor de calificare (se verific n ce msur gradul de variaie a calificrii muncitorilor determin variaia salariilor). Analiza dispersional se aplic n special cnd datele provin dintr-o cercetare selectiv, iar din cercetrile anterioare se dispune de informaii cu privire la gradul i forma de distribuie a caracteristicilor n colectivitatea general. Pentru a efectua analiza dispersional trebuie s se nregistreze variaia unei caracteristici statistice, condiionat de unul sau mai muli factori de grupare. n acest sens, caracteristica a crei variaie se studiaz se consider ca variabil rezultativ i se noteaz cu y, iar caracteristicile dup care se face gruparea datelor se consider variabile independente sau factoriale i se noteaz x1, x2, ... , xn.
131
Cele mai ntlnite tipuri de cercetare experimental utilizeaz una dintre urmtoarele patru forme de analiz dispersional (Sava, A., 2004):
1. ANOVA simpl (unifactorial; o cale) este un corespondent al testului t
pentru dou eantioane independente i permite compararea simultan a trei sau mai multe trepte ale unei singure variabile independente, meninnd nivelul alfa la valoarea dorit, de maximum ,05.;
2. ANOVA cu msurtori repetate este un model corespondent al testului
t pentru eantioane perechi (aceeai subieci sunt testai de mai multe ori).
3. ANOVA factorial (bifactorial; dou ci) este un model mai complet
fr un echivalent direct n cadrul testelor t. Acest tip de ANOVA se distinge prin fatul c vor fi testate efectele mai multor variabile independente (factori) asupra unei singure variabile dependente.
4. ANOVA mixt presupune o combinaie ntre ANOVA simpl i ANOVA
cu msurtori repetate.
132
comportamentul unei variabile efect n funcie de o singur variabil independent este linia dreapt. Regresia mai poate fi: 1. Regresie multipl stepwise.
Este o modalitate de alegere a predictorilor unei anumite variabile Practic, procedura hotrte care variabil independent reprezint cel Se pune accentul pe identificarea celor mai buni predictori pentru
dependente pe baza criteriilor satistice. mai bun predictor, al doilea ca valoare, etc.
fiecare etap. Cnd predictorii se afl ntr-o relaie strns de corelaie att ntre ei ct i cu variabila dependent, adeseori, o varibil ajunge s fie enumerat ca fiind predictor, iar cealalt nu. Acest lucru nseamn c a doua variabil nu constituie un predictor, ci doar c nu adaug nicio informaie n plus prediciei fa de cele oferite de primul predictor.
Acest lucru se realizeaz prin asocierea predictorilor sau a grupurilor de predictori n blocuri de variabile.
133
1. Regiunea de acceptare a unei ipoteze este intervalul dintr-o distribuie de probabilitate a unei statistici considerate n care*: a. se respinge ipoteza nul; b. se accept ipoteza nul; c. se accept ipoteza alternativ. 2. Pragul de semnificaie este: a. pragul pn la care se admite un rezultat aproximativ; b. o limit a erorii de spea I; c. o limit a erorii de spea II. 3. Analiza dispersional se aplic atunci cnd*: a. datele provin dintr-o cercetare selectiv; b. datele provin din aceeai cercetare; c. datele provin din cercetri diferite. 4. Regresia multipl stepwise: a. Este o modalitate de alegere a predictorilor unei anumite variabile dependente pe baza criteriilor satistice; b. permite cercettorului n ce ordine s foloseasc o list de predictori; c. ia n consideraie o singur variabil cauzal. 5. Componentele variaiei sunt*: a. variaia inter i intragrupe; b. variia total; c. variaia parial. 6. Pentru testarea egalitii a 3 sau mai multe medii se folosete: a. testul F; b. Testul t; c. testul Z
134
7. Variaia intergrupe msoar*: a. variaia mediilor grupelor fa de media lor; b. variaia din interiorul fiecrei grupe; c. variaia total. 8. Variaia intragrupe msoar*: a. variaia mediilor grupelor fa de media lor; b. variaia din interiorul fiecrei grupe; c. variaia total.
_________________
Intrebrile si problemele cu asterix (*) sunt preluate din Jaba E., Pintilescu C., 2005. 135
1. b. se accept ipoteza nul; 2. b. o limit a erorii de spea I; 3. a. datele provin dintr-o cercetare selectiv; 4. a. Este o modalitate de alegere a predictorilor unei anumite variabile dependente pe baza criteriilor satistice. 5. a. variaia inter i intragrupare; 6. a. testul F; 7. a. variaia mediilor grupelor fa de media lor; 8. b. variaia din interiorul fiecrei grupe;
136
Dup Opariuc (2009) orice demers statistic presupune un proces care trebuie s parcurg mai multe etape: Enunarea problemei; Formularea ipotezelor; Proiectarea cercetrii; Efectuarea observaiilor; Interpretarea datelor; Formularea concluziilor.
137
Obiectivele generale ale unei cercetri sunt formulate n urma unui cumul de observaii i, eventual, n urma unui studiu metaanalitic. n ultima situaie, este necesar prezentarea rezultatelor studiului metaanalitic care a ghidat formularea obiectivului general i prin care se demonstreaz lipsa de abordare sau abordarea nepertinet a problemei studiate. Spre exemplu, constatm c pe msur ce crete numrul de kilometri parcuri cu un automobil, crete i riscul de apariie al unui accident i ne propunem s studiem tiinific aceast problem. n mod normal, ar trebui s ncepem prin a analiza cercetrile existente n acest domeniu i s desfurm un studiu metaanalitic. (Opariuc, 2009). n urma acestui studiu, putem preciza obiectivul general al cercetrii, de forma: Obiectivul general al cercetrii l reprezint stabilirea relaiei existente ntre numrul de kilometri parcuri i probabilitatea de apariie a unui accident rutier. Observm c enunarea problemei ce urmeaz a fi studiat s-a fcut extrem de clar i explicit, astfel nct se pot defini termenii i condiiile proiectrii unui studiu experimental sau a unei cercetri bazate pe sondaj (Opariuc, 2009). Obiectivele specifice reprezint aspecte detaliate ale investigaiei tiinifice, deriv din obiectivul general i creeaz baza formulrii ipotezelor de cercetare (alternative). n funcie de dimensiunile cercetrii i de resursele pe care le are la dispoziie cercettorul, se pot formula unul sau mai multe obiective specifice, aflate n legtur cu obiectivul general. Concluzionnd, enunarea problemei reprezint prima etap a demersului tiinific. Ea este nsoit de un studiu al cercetrilor n domeniu i de prezentarea clar i precis, n termeni cuantificabili, a obiectivelor generale i specifice.
138
139
formulat nu este reprezentat de datele cer-cetrii, chiar dac n urma analizei pot rezulta i alte sensuri specifice; Ipotezele bilaterale nu impun direcia de evoluie a variabilelor. Dei mai puin precise n comparaie cu cele unilaterale, ipotezele bilaterale ofer o mai mare libertate cercettorului. O formulare de genul exist o legtur ntre nivelul de anxieta-te i predominana simptomelor depresive poate fi susinut att n cazul n care corelaia este pozitiv ct i n situaia unei corelaii negative. Ipoteza nu este susinut doar n condiiile n care, cu o mare probabilitate, se demonstreaz inexistena unei asemenea relaii.
Ipoteza nul i ipoteza alternativ. Este foarte important s se cunoasc noiunea de ipotez nul i ipotez alternativ. Astfel, relund exemplul de mai sus, ipoteza alternativ (specific), se noteaz cu Hs, poate fi enunat astfel: H1: Se prezum c exist relaii semnificative ntre prezena la ore i performana obinut. Din punct de vedere statistic, nu putem verifica direct aceast ipotez. Singura modalitate prin care putem sprijini ipoteza alternativ este s enunm i apoi s testm ipoteza nul. De obicei, ipoteza nul notat cu H0 este o negare logic a ipotezei alternative i poate fi formulat astfel: H0: Se prezum c relaia dintre prezen i performan se datoreaz ntmplrii. Observaie: ntr-o cercetare statistic exist o singur ipotez nul i una sau mai multe ipoteze specifice.
140
Observaie: Att ipoteza nul (H0) ct i ipoteza alternativ (Hs) se refer la populaie, nu la eantioane ca atare. Semnificaie i eroare n testarea ipotezelor. Putem respinge ipoteza nul dac probabilitatea s fie adevrat este foarte mic. Dar aici poate apare ntrebarea Ct de mic?, Care este pragul la care se pote respinge ipoteza nul? ntr-o cercetare tinific se lucreaz cu dou praguri de cercetare: de cazuri);
Primul prag reprezint probabilitatea de 0,05 (5% sau 1 caz din 20 Al doilea prag reprezint probabilitatea de 0,01 (1% sau 1 caz din n liteartra de specialitate, pragul de semnificaie se noteaz cu p
100 de cazuri). sau Observaie: Pragul de semnificaie permite respingerea ipotezei nule atunci cnd exist valori mai mici dect p (p < 0,05). Aa cum am precizat n capitolul anterior, cele mai multe cercetri risc apariia unei erori de tip I (care este cea mai grav eroare), avnd tendina de a neglija apariia erorii de tip II. Eroarea de tip I corespunde pragului de semnificaie de de 0,05 (5%), adic, sunt anse de 5% s se resping ipoteza nul n condiiile n care s-ar dovedi adevrat.(Sava, 2004). Eroarea de tip II corespunde pragului de semnificaie de (0,1%), ceea ce nseamn c putem respinge ipoteza nul dac s-ar dovedi adevrat, i mai multe anse s nu o respingem atunci cnd ea ar trebui respins.
141
142
143
1. Orice demers statistic presupune un proces care trebuie s parcurg mai multe etape: 1. Enunarea problemei; 2. Proiectarea cercetrii; 3. Interpretarea datelor; 4. Efectuarea observaiilor; 5. Formularea concluziilor; 6.Formularea ipotezelor. Ordinea lor corect este: a. 1, 6, 2, 4, 3, 5. b. 1, 5, 6, 3, 4, 2. c. 5, 6, 4, 1, 2, 3 2. Obiectivele generale: a. sunt formulate n urma unui cumul de observaii i n urma unui studiu metaanalitic; b. pun n eviden aspecte detaliate ale cercetrii tiinifice; c. ajut la formarea ipotezelor de cercetare. 3. Pragul de semnificaie permite: a. respingerea ipotezei nule atunci cnd exist valori mai mici dect p; b. respingerea ipotezei nule atunci cnd exist valori mai mari dect p; c. acceptarea ipotezei nule. 4. Eroarea de tip I corespunde: a. pragului de semnificaie 0,05; b. pragului de semnificaie 0,01; c. niciunuia dintre ele. 5. Eroare de tip II corespunde: a. pragului de semnificaie 0,05; b. pragului de semnificaie 0,01; c. niciunuia dintre ele.
144
1. a. 1, 6, 2, 4, 3, 5. 2. a. sunt formulate n urma unui cumul de observaii i n urma unui studiu metaanalitic; 3. a. respingerea ipotezei nule atunci cnd exist valori mai mici dect p; 4. a. pragului de semnificaie 0,05; 5. b. pragului de semnificaie 0,01;
145
PARTEA A DOUA
- ASPECTE TEORETICE I PRACTICE ALE
PROGRAMULUI STATISTIC SPSS -
146
INTRODUCERE
Aplicaia SPSS (Statistical Package for the Social Sciences pachet de programe statistice aplicate tiinelor sociale) a fost elaborat n anul 1965 de ctre Universitatea Stanford din California. Programul SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai utilizate n analiza statistic a datelor i a evoluat pn la versiunea 16, aria de aplicabilitate extinzndu-se de la versiune la versiune, odat cu modul de operare i cu facilitile oferite. Programul este utilizat n foarte multe domenii: n marketing, cercetare experimental, educaie, sntate etc. n afar de analizele statistice posibile, programul are componente puternice pentru managementul datelor (selectare, reconfigurare, creare de date noi) i pentru documentarea datelor (exist un dicionar metadata, care reine caracteristici ale datelor). Se mai poate aduga flexibilitatea privind tipurile de date acceptate ca i modul de construire a rapoartelor. SPSS (Statistical Package for the Social Sciences) este unul din cele mai puternice i utilizate programe statistice. Dac ar fi s caracterizm acest produs prin acronimul de apelare SPSS s-ar putea evidenia prin: - soluii pentru probleme complexe; - prezentare sugestiv a rezultatelor; - suplee n stabilirea condiiilor de prelucrare a datelor prezente ntr-o mare diversitate; - simplitate n exploatare.
147
SPSS permite rezolvarea problemelor orict de complexe, din diverse domenii, oferind soluii care s asigure o cunoatere, mai bun a fenomenelor cercetate i, implicit, s sprijine procesul de fundamentare a deciziilor. Rezultatele prelucrrilor statistice se pot vizualiza prin tabele de diverse formate i prin reprezentri grafice: histograme, diagrame coloane izolate sau grupate, diagrame de structur, nor de puncte (n care punctele corespunztoare unor grupe diferite sunt colorate diferit), diagrame bare care indic n acelai timp media, valorile extreme i repartiia valorilor unei variabile pentru valori diferite ale altei variabile. Putem spune c SPSS este un produs orientat spre utilizatorul analist i permite: - analiza datelor sub multiple aspecte; - extinderea datelor cercetrilor realizate pe un eantion la nivel naional; - construirea diagramelor sub diferite firme; - crearea prezentrilor i a rapoartelor; - elaborarea unor programe de introducere i control al datelor. Designul prezentrii programului SPSS (ordinea pailor de urmat n cunoaterea aprfundat a acestui program) a fost preluat din Jaba E., Gramma A., (2004) Analiza statistic cu SPSS sub Windows contribuia autorilor constnd n printarea de imagine, schematizarea i interpretarea ferestrelor SPSS expuse precum i a datelor i rezultatelor coninute de ctre acestea.
148
Pasul 1: Se d dublu clic pe imagine dac imaginea nu apare pe ecran atunci accesai Start ProgrameSPSS.
Pasul 2: Aceast fereastr va aprea dup cteva momente i se pot alege oricare dintre opiunile din fereastr.
149
Coloanele sunt folosite pentru a desemna diferite variabile. Liniile sunt cazurile sau indivizii despre care se dein date.
Pasul 4: Pentru a introduce date in SPSS se selecteaz una dintre celule i se d clic pe celula respectiv.
* n SPSS exist ntotdeauna o singur celul selectat.
*Numele variabilei se editeaz n coloana Name, innd cont de cteva restricii: - s fie unic; - s aib cel mult 8 caractere; 150
primul caracter s fie o liter; poate s conin litere, cifre i simbolurile @, #, _, $, dar s nu se termine cu _; s nu conin spaii sau simboluri speciale folosite n SPSS.
Pasul 5: Se introduce un numr folosind tastatura calculatorului. La apsarea tastei Enter sau la selectarea cu mouse-ul a unei alte celule numrul va fi introdus n foaia de lucru la fel cum este artat aici. Valoarea 10 este nregistrarea pentru primul rnd (primul caz) al variabilei VAR00001. Se observ c aceast variabil a primit automat un nume standard. Pentru a efectua schimbarea se d clic pe numele variabilei. Pasul 6: Corectarea erorilor se face folosind mouse-ul: se selecteaz celula unde este eroarea i se introduce valoarea corect. La apsarea tastei Enter sau deplasarea pe o alt celul valoarea corectat va fi introdus.
Pasul 7:
151
Selectnd File Save As datele se vor salva sub forma unui fiier. Fiierul salvat va primi automat de la SPSS extensia .sav.
* Se recomand folosirea unor nume de fiiere distincte (ex. date1) pentru a face coninutul lor ct mai clar. Salvarea datelor este recomandat sa se fac ntr-un fiier diferit de cel al SPSS-ului. *Tipul variabilei variabilele pot fi de mai multe tipuri: numerice (Numeric, Coma, Dot, Scientific notation), alfanumerice (String), date calendaristice, simbol monetar.
Pasul 8: Pentru a alege locaia unde va fi salvat fiierul de date, se alege calea n mediul Save In (se folosete sgeata pentru a ajunge la locaia dorit).
Pasul 10: Acesta este spaiul de lucru Variable View. n acest caz, o variabil este deja nscris fiind introdus la pasul 8. Variabila poate fi redenumit i pot fi adugate alte variabile destul de uor selectnd celula corespunztoare i tastnd numele variabilei.
152
Aici se modific limea coloanei. Pasul 11: La versiunea SPSS 12-16 (fa de cele anterioare unde se permit maxim 8 caractere) nu exist limit pentru lungimea numrului unei variabile. Se selecteaz o celul din coloana Name i se scrie un nume diferit de variabil. Celelalte variabile vor primi valori care vor fi implicit schimbate ulterior.
Pasul 13:
153
Va aprea aceast fereastr. n continuare se vor urmri paii care vor arta cum genul biologic masculin i feminin este introdus folosind codul 1 (masculin) respectiv 2 (feminin).
*SPSS lucreaz cu mai multe ferestre diferite, fiecreia fiindu-i asociat un anumit tip de fiier. Dintre acestea, pentru analiza datelor, cele mai frecvent utilizate sunt ferestrele Data Editor, Syntax Editor i Output Viewer.
Pasul 14: Se scrie 1 n dreptul cmpului value i masculin n dreptul cmpului value Label. Apoi se apas Add. Pasul 15: Aceasta operaie de adugare transfer informaia n cmpul aflat dedesubt.
* La fel se procedeaz i pentru introducerea celeilalte variabile (Ex. 2 - feminin). * Cele mai frecvent utilizate ferestre in SPSS sunt data Editor, Syntax Editor i Output Viewer. *Fereastra de editare (Data Editor) se deschide implicit la lansarea SPSS i este folosit pentru introducerea, modificarea sau tergerea datelor n format spreadsheet. ntr-o fereastr de editare poate fi prezentat coninutul unui fiier de date care a fost selectat dintr-o list de fiiere creat anterior (n SPSS, Excel, Statistica etc.) sau poate fi creat o nou foaie de lucru. Aceast fereastr recunoate fiierele de date care au extensia implicit .sav.
154
155
Pasul 17: Se selecteaz vrsta. Se apas butonul pentru a muta vrsta n csua Variable(s). Se d clic pe OK.
Pasul 18: Fereastra Data Editor este nlocuit de output-ul SPSS-ului. Acest tabel apare pentru analiza realizat anterior.
* Fereastra de rezultate (Output Viewer) devine disponibil automat dup ce a fost efectuat
o comand de analiz a datelor. n aceast fereastr, sunt afiate rezultatele statistice, tabele i grafice care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output Editor) este folosit pentru modificarea textului rezultat, care nu a fost afiat n tabele pivot. 156
157
I.7. Exerciii
1. Realizai o baz de date i introducei 10 subieci cu vrste cuprinse ntre 10 i 15 ani astfel: primul subiect are vrsta de 10 ani, al doilea subiect are vrsta de 13 ani, al treilea subiect are vrsta de 12 ani, al patrulea subiect are vrsta de 11 ani, al cincilea subiect are vrsta de 15 ani, al aselea subiect are vrsta de 14 ani, al aptelea subiect are vrsta de 13 ani, al optulea subiect are vrsta de 15 ani, al noulea subiect are vrsta de 10 ani i ultimul subiect are vrsta de 13 ani. Salvai fiierul cu denumirea subiect pe desktop. 2. La o cercetare percepia social asupra consumului de droguri particip 10 persoane dintre care: 4 studeni, 2 profesori i 4 elevi. Acetia au vrste cuprinse ntre 15 i 35 de ani astfel: cei 4 studeni au 21, 22, 25, 26 ani, elevii au 15, 16, 17, 17 ani i profesorii au 34 de ani i 35 de ani. (a se vedea figura de mai jos). Se cere: 1. s se calculeze media de vrst a participanilor la studiu; 2. s se calculeze i s se interpreteze media obinut. 3. s se salveze fiierul creat n My documentscu denumirea cercetare.
158
1. Fereastra de editare (Data Editor): a. se deschide implicit la lansarea SPSS; b. este folosit pentru introducerea, modificarea sau tergerea datelor n format spreadsheet; c. este folosit pentru a genera programe de comenzi pe care le vom executa asupra datelor; d. este folosit pentru modificarea textului rezultat, care nu a fost afiat n tabele pivot; 2. Fereastra de rezultate (Output Viewer): a. afieaz rezultatele statistice, tabele i grafice care au asociate ferestre distincte; b. permite modificarea elementelor unui grafic (axe, scale, diagram, legend etc.); c. este folosit pentru a genera programe de comenzi pe care le vom executa asupra datelor. 3. Ferestrele n SPSS reprezint: a. zone de pe ecran tratate ca elemente de sine stttoare, cu caracteristici proprii, care determin aciunile ce se pot executa n cadrul lor; b. elemente constitutive ale programului SPSS; c. elemente prin care i se confer utilizatorului posibilitatea selectrii unei anumite opiuni. 4. Care sunt cele mai frecvent utilizate ferestre n SPSS a. data editor; b. output editor; c. syntax editor; d. syntax viewer; e. output viewer. 5. n SPSS fereastra SPSS Output Viewer este utilizat pentru:
159
a. afiarea rezultatelor; b. editarea de date; c. editarea de date i tabele; 6. La editarea unei variabile trebuie s se in cont de urmtoarele restricii: a. s conin spaii sau simboluri folosite n SPSS; b. s conin numai litere; c. s aib cel puin 8 caractere; d. primul caracter trebuie s fie o cifr; e. s fie unic. 7. Numele variabilei trebuie s in cont de cteva restricii: a. s aib cel mult 6 caractere; b. se poate repeta; c. primul caracter s fie liter; d. poate s conin simboluri speciale folosite n SPSS sau spaii. 8. Pentru a introduce date n SPSS se selecteaz: a. o celul dnd clic pe celula respectiv; b. meniul data, split file; c. meniul transform, compute. 9. Prin apsarea butonului Variable View: a. se schimb fereastra Data View; b. apare fereastra output; c. se poate introduce o variabil diferit. 10. Care dintre urmtoarele afirmaii este adevrat? a. indicatorul medie reprezint media aritmetic a unui scor i se obine prin nsumarea valorilor i nmulirea cu numrul de valori; b. modul este valoarea cu cea mai mare frecven si este frecvena cu care apare cel mai frecvent scor; c. mediana este valoarea din centrul distribuiei, dac variabilele numerice sunt ordonate dup mrime, de la cea mai mic la cea mai mare. 11. Pentru a calcula media aritmetic alegem: a. SE Mean; b. Median; c. Mean; d. Rouge.
160
1. a. se deschide implicit la lansarea SPSS; 2. a. afieaz rezultatele statistice, tabele i grafice care au asociate ferestre distincte; 3. a. zone de pe ecran tratate ca elemente de sine stttoare, cu caracteristici proprii, care determin aciunile ce se pot executa n cadrul lor ; 4. a. data editor; c. syntax editor; e. output viewer; 5. a. afiarea rezultatelor; 6. e. s fie unic; 7. c. primul caracter s fie liter; 8. a. o celul dnd clic pe celula respectiv; 9. a. se schimb fereastra Data View; 10. c. mediana este valoarea din centrul distribuiei, dac variabilele numerice sunt ordonate dup mrime, de la cea mai mic la cea mai mare; 11. c. mean.
161
Tabele i diagrame.
162
Pasul 3: Se selecteaz ocupaia i se mut n partea dreapt a tabelului aa cum a fost descris la pasul 17 din capitolul I. Se apas OK Pasul 4: 1. Prima coloan a tabelului conine eticheta celor 5 categorii de ocupaii.
2. A treia coloan afieaz procentul de frecven pentru fiecare categorie. Exemplu: 5 (psiholog) reprezint 33,3% din totalul de 15 persoane.
163
Pasul 1: Se selecteaz: Graphs Pie. Pasul 2: Se selecteaz Define. Pasul 3: Se selecteaz Ocupaia prin apsarea butonului (). Se apas OK.
*Divizarea unui fiier pe categorii de subieci folosind comanda SPLIT FILE
Pasul 4: Acesta este felul n care apare o diagram circular folosind opiunile din SPSS. Sectoarele din cerc sunt codate cu diferite culori.
* Caracteristicile din aceast diagram pot fi modificate cu Chart Editor.
Se d dublu clic oriunde n dreptunghiul care conine diagrama, pentru a selecta Chart Editor. Se selecteaz: Elements Show Data Labels. * Diagrama de structur pie este folosit pentru reprezentarea frecvenelor absolute
(numere) i/sau relative (procente) pe categorii/grupe.
Pasul 2: Se selecteaz Count i X-ul rou pentru a nu afia. Se selecteaz Ocupaie i sgeata verde curbat n sus pentru a afia denumirile ocupaiilor. Se procedeaz asemntor pentru Procent pentru a afia procentajul fiecrei ocupaii n parte. Seselecteaz Apply i Close.
165
Pasul 3: Se selecteaz ocupaia i se apas butonul de lng Category Axis pentru a introduce acolo ocupaia. Se selecteaz % of cases. Se apas OK
Diagrama cu bare.
* Diagrama cu bare este folosit pentru a reprezenta grafic mediile diferitelor grupe
dintr-o colectivitate (Summaries for groups of cases) sau valorile medii ale diferitelor variabile pentru aceeai colectivitate (Summaries of separate variables).
II.5. Histograme.
167
Pentru a ilustra procesul de realizare a unei histograme vom folosi datele obinute din rspunsurile subiecilor la ntrebarea V place statistica?. (rspunsuri: a. foarte mult; b. mult; c. puin; d. foarte puin; e. deloc). Pasul 1: Se introduc datele n Data Editor (aa cum a fost prezentat la nceputul capitolului). Se selecteaz: Graphs Hitogram
Pasul 2: Se selecteaz ntrebarea V place statistica? i se apas butonul de lng Variable pentru a duce ntrebarea n csua din dreapta. Se apas OK.
Histograma.
* Pentru a schimba denumirile axelor se d clic pe ele i se editeaz. * Histograma este folosit pentru a arta forma unei distribuii dup o variabil nregistrat asupra unei colectiviti (frecvena de apariie pentru diferite clase de valori ale variabilei observate).
168
II.6. Exerciii
3. La o cercetare percepia social asupra consumului de droguri particip 10 persoane dintre care: 4 studeni, 2 profesori i 4 elevi. Acetia au vrste cuprinse ntre 15 i 35 de ani astfel: cei 4 studeni au 21, 22, 25, 26 ani, elevii au 15, 16, 17, 17 ani i profesorii au 34 de ani i 35 de ani. (a se vedea figura 1). Se cere: 4. s se realizeze un tabel de frecvene pentru variabila subieci; 5. s se realizeze tabel de frecvene pentru variabila vrst; 6. s se realizeze diagrama de structur pentru variabila subieci;
7. s se adauge etichete diagramei; 8. s se realizeze diagrama de bare i histograma pentru variabila vrst. 9. s se calculeze media pentru variabila vrst i s se interpreteze. 10. s se salveze fiierul creat pe Desktop cu denumirea cercetare;
169
1. Care sunt graficele folosite pentru o distribuie dup o variabil calitativ? a. diagrama Bar si diagrama Pie b. diagrama Boxplot c. Scatter sau Line 2. Diagrama de bare este folosit pentru: a. a reprezenta valori medii; b. a reprezenta frecvene absolute (numere) i/sau relative (procente); c. a reprezenta relaiile dintre variabile; d. a reprezenta grafic mediile diferitelor grupe dintr-o colectivitate. 3. Diagrama de structur este folosit pentru: a. a reprezenta frecvenele absolute (numere) i/sau relative (procente); b. a arta forma unei distribuii dup variabila nregistrat asupra unei colectiviti; c. a prezenta amplitudinea i mediana unei distribuii; d. a reprezenta relaia dintre variabile. 4. Histograma este folosit pentru: a. a reprezenta grafic valorile medii ale diferitelor variabile pentru aceeai colectivitate; b. a arta forma unei distribuii dup o variabil nregistrat asupra unei colectiviti; c. a reprezenta relaia dintre variabile; d. a reprezenta intervalul intercuartilic. 5. Pentru o distribuie dup o variabil cantitativ se folosesc urmtoarele grafice: a. scatter (norul de puncte) i histograma; b. pie (diagrama de structut) i line (diagrama liniar); c. histograma i curba frecvenelor; d. bar (diagrama de bare) i curba frecvenelor.
170
6. Media aritmetic se calculeaz pentru: a. variabile categoriale b. variabile categoriale i cantitative c. variabile cantitative. 7. Prima coloan a tabelului de frecvene conine: a. etichetele categoriilor introduse; b. procentul de frecven pentru fiecare categorie; c. valorile lips. 8. Pentru a realiza o diagram circular se selecteaz: a. analize/ descriptive statistics/descriptives; b. graphs/ pie; c. graphs/ area. 9. Indicatorii tendinei centrale sunt: a. modul, mediana, abaterea standard b. medie, mod, median c. dispersie, abaterea standard 10. Care dintre urmtoarele afirmaii este adevrat? a. indicatorul medie reprezint media aritmetic a unui scor i se obine prin nsumarea valorilor i nmulirea cu numrul de valori; b. modul este valoarea cu cea mai mare frecven si este frecvena cu care apare cel mai frecvent scor; c. mediana este valoarea din centrul distribuiei, dac variabilele numerice sunt ordonate dup mrime, de la cea mai mic la cea mai mare.
171
1. a. diagrama Bar i diagrama Pie 2. d. a reprezenta grafic mediile diferitelor grupe dintr-o colectivitate. 3. a. a reprezenta frecvenele absolute (numere) i/sau relative (procente); 4. b. a arta forma unei distribuii dup o variabil nregistrat asupra unei colectiviti; 5. c. histograma i curba frecvenelor; 6. c. variabile cantitative. 7. a. etichetele categoriilor introduse; 8. b. graphs/ pie;
9. b. medie, mod, median
10. c. mediana este valoarea din centrul distribuiei, dac variabilele numerice sunt ordonate dup mrime, de la cea mai mic la cea mai mare.
172
Pasul 2: n Data View din Data Editor se introduc vrstele n prima coloan.
Pasul 4:
173
Se selecteaz vrsta i butonul pentru a introduce n lista de variabile. Se deselecteaz butonul Display frequencys tables i se ignor mesajul de avertizare. Se d clic pe Statistics Pasul 5: Se selecteaz Mean; Median; Mode. Se d clic pe Continue. Se apas OK din ecranul anterior, care reapare.
III.2. Interpretarea
output-ului.
Exist 10 cazuri cu date valide pe care se bazeaz analiza. Nu sunt date lips (0). Media de vrst, media aritmetic =22,8 ani. Mediana de vrst (vrsta persoanei
174
aflate la mijlocul liniei de vrste de la cea mai mic la cea mai mare) este de 21.5 ani. Valoarea mod de vrst este 17.
175
10. Maxim (scor) valoarea celui mai mare scor al datelor pentru o variabil particular. 11. Eroarea standard (ES medie) valoarea medie cu care mediile eantioanelor extrase dintr-o populaie, difer fa de media populaiei.
1. Cum putem calcula mediana? a. alegnd din meniul Transform / Compute; b. statistics / summarize / case summaries / statistics; c. statistics / Compare Means / Means; 2. Pentru a calcula eroarea medie de selecie alegem: a. Mean; b. Std Deviation; c. S.E. mean; d. Range; 3. Pentru a calcula asimetria alegem una din opiunile: a. Range; b. Std Deviation; c. Skewness; d. Kurtosis; e. Variance; 4. ntr-un calcul statistic, media reprezint: a. valoarea cu cea mai mare frecven; b. valoarea din centrul distribuiei; c. media aritmetic a unui set de scoruri, care se obine prin nsumarea valorilor i mprirea rezultatului la numrul de valori; d. media aritmetic a unui set de scoruri, care se obine prin diferena valorilor i mprirea rezultatului la numrul de valori. 5. ntr-un calcul statistic, abaterea standard este:
176
a. valoarea a msurii n care scorurile difer n medie fa de media scorurilor pentru o variabil particular; b. diferena numeric ntre cel mai mare i cel mai mic scor obinut pentru o variabil; c. valoarea cu frecvena cea mai mare 6. Kurtosis, ca indicator al formei distribuiei, indic: a. ct de ascuit sau turtit este distribuia scorurilor pentru o variabil, comparativ cu distribuia normal; b. simetria sau asimetria unei distribuii de frecvene fa de medie; c. distribuia scorurilor pentru 2 variabile comparative; 7. Eroarea standard este: a. diferena numeric ntre cel mai mare i cel mai mic scor obinut pentru o variabil; b. valoarea medie cu care mediile eantioanelor extrase dintr-o populaie, difer fa de media populaiei; c. diferena scorurilor a 2 variabile. 8. Pentru a calcula boltirea alegem: a. Range; b.Variance; c. Skewness; d. Kurtoses.
6. a. ct de ascuit sau turtit este distribuia scorurilor pentru o variabil, comparativ cu distribuia normal; 7. b. valoarea medie cu care mediile eantioanelor extrase dintr-o populaie, difer fa de media populaiei; 8. d. Kurtoses.
Este foarte important de studiat forma distribuiilor scorurilor pentru o variabil. Este bine ca o distribuie s fie simetric i cu o form normal (form de clopot). Distribuia normal, a fost descris prima dat de Ch. Fr. Gauss (1777-1855) i de aceea distribuia normal se mai numete i distribuie gaussian. Deoarece la demonstrarea acestui concept a participat i P.S. Laplace (1749-1827), n literatura de specialitate se va ntlni i termenul de distribuie Gauss-Laplace. Pentru ca o distribuie s fie considerat normal, trebuiesc ndeplinite simultan urmtoarele condiii:
turtit; Toi aceti termeni se refer la acelai lucru, distribuia normal. De asemenea, limitele din stnga i din dreapta ale unei distribuii normale tind spre valoarea zero, pe care ns nu o ntlnesc niciodat. O distribuie perfect normal are aceeai valoare pentru toi cei trei indicatori ai tendinei centrale (media, mediana
178
i modulul), adic media = mediana = modulul. n practic, acest lucru se ntlnete extrem de rar i, de aceea, ne punem problema ntre ce limite putem considera o distribuie ca fiind normal. n exemplul urmtor este elaborat un tabel de frecven i o histogram cu scorurile obinute la evaluarea coeficientului de inteligen pentru 20 de juriti.
Pasul 2: n Data View din Data Editor se introduc scorurile obinute la Atenie n prima coloan. Pasul 3: Se selecteaz Analyze, Descriptives Statistics i Frequencies Pasul 4: Se selecteaz atenie i apoi se apas butonul pentru a
179
A patra coloan exprim aceste frecvene ca un procent al numrului total excluznd datele lips.
IV.3. Histograme.
Histograma este un grafic, folosit n statistica descriptiv i arat o distribuie de frecven. Distribuia de frecven se refer la numrul de evenimente statistice pe clase (grupe) de evenimente. Pentru o serie de date statistice cu o distribuie de frecven dup o variabil numeric continu (sau continu pe poriuni), reprezentrile grafice care ne permit s vizualizm distribuia de frecvene sunt histograma i poligonul frecvenelor.
180
Pasul 1: Se seleteaz: Graphs, Histogram Pasul 2: Se selecteaz Ateniei apoi se apas butonul pentru a o introduce n
181
IV.5. Modalitatea.
O distribuie normal (figura 1) este o distribuie unimodal, adic exist doar o
Frecvena de apariie
singur
categorie
cu
frecvena
maxim.
Prezena a dou sau mai multe valori mod determin distribuii bimodale, trimodale, n general polimodale, distribuii ce nu pot fi considerate ca fiind distribuii normale.
Figura nr. 1.
este o distribuie bimodal (figura 2), deoarece observm existena a dou categorii cu frecvena egal i maxim.
Figura nr. 2. 182
Normalitatea distribuiei, sub aspectul modalitii, se verific prin calcularea valorii modul. Dac exist o singur valoare cu frecvena maxim, atunci distribuia poate fi considerat normal sub acest aspect. n condiiile n care sunt dou sau mai multe valori cu frecvena maxim i, evident, egal, distribuia este polimodal (multimodal) i nu poate fi considerat ca fiind normal.
IV.6. Simetria.
O sunt
distribuie egal
este
Atunci cnd rezultatele tind ctre valori mici, sunt aglomerate n partea stng a distribuiei, avem de a face cu o distribuie asimetric spre dreapta (sau distribuie skewness pozitiv). Cnd rezultatele tind ctre valori mari, se aglomereaz n partea dreapt a distribuiei, vorbim despre o distribuie asimetric la stnga (skewness negativ). Iat c, asimetria este dat de panta distribuiei i nu de vrful acesteia, aa cum trateaz i consider unii. n figura nr. 3, distribuia B este o distribuie simetric. Distribuia A este o distribuie asimetric la dreapta (skewness pozitiv) unde predomin scorurile sczute (mici), n timp ce distribuia C este o distribuie asimetric la stnga (skewness negativ) n care predomin scorurile mari.
Figura nr. 3
183
Nu ne putem limita la o apreciere pur vizual a simetriei; acest lucru necesit demonstrarea statistic a simetriei sau asimetriei distribuiei. n acest scop, exist mai muli coeficieni care pot fi calculai.
Atunci cnd discutm de asimetrie, trebuie s precizm o serie de relaii care apar ntre indicatorii tendinei centrale, media, mediana i modul. ntr-o distribuie simetric, media, mediana i modul au exact aceleai valori. Dup cum se poate observa n figura de mai alturat, att media, ct i mediana i modulul, se afl n acelai punct, la mijlocul distribuiei. Grupa subiecilor cu scoruri mai mici dect media este perfect simetric cu grupa subiecilor cu scoruri mai mari dect media. Acest aspect este menionat din raiuni teoretice. n practic nu vom ntlni o distribuie perfect normal, ci o distribuie care poate fi acceptat ca fiind normal. ntr-o distribuie asimetric la dreapta (distribuie skewness pozitiv, vezi figura alturat), predomin scorurile mici. n acest caz, modulul este valoarea situat cel mai la stnga n irul de date, iar mediana este mai mic dect media. Evident, mediana fiind valoarea care mparte irul ordonat de date n dou
Figura nr. 5
pri egale, iar dac n distribuie predomin scorurile mici, atunci scorurile mari sunt considerate ca scoruri extreme. tim de la analiza preciziei indicatorilor tendinei centrale, c ntr-o serie de date n care ntlnim scoruri extreme mari, media tinde s le pun n valoare. Iat c acest fapt este ilustrat grafic n figura de mai sus.
184
Observai relaia existent ntr-o asemenea distribuie: Mo<Me<m. Aceast relaie este relaia caracteristic a unei distribuii asimetrice pozitiv. ntr-o distribuie asimetric la stnga (distribuie skewness negativ, vezi figura alturat), predomin scorurile mari. n acest caz, modulul este valoarea situat cel mai la dreapta n irul de date, iar mediana este mai mare dect media. Evident, mediana fiind valoarea care mparte irul
Figura nr. 6
iar dac n distribuie predomin scorurile mari, atunci scorurile mici sunt considerate ca scoruri extreme. tim, de la analiza preciziei indicatorilor tendinei centrale, c ntr-o serie de date n care ntlnim scoruri extreme mici, media tinde s le pun n valoare. Iat c acest fapt este ilustrat grafic n figura de mai sus. Observai relaia existent ntr-o asemenea distribuie: Mo>Me>m. Aceast relaie este relaia caracteristic a unei distribuii asimetrice negativ.
n figura alturat, distribuia C este o distribuie leptocurtic, ascuit. Distribuia B este o distribuie platicurtic, turtit, iar distribuia A este o distribuie normal sub aspectul boltirii, sau mezocurtic.
Figura nr. 7
Se observ c boltirea nu este altceva dect simetria pe axa vertical (OY), spre deosebire de simetria propriu zis, deplasarea valorilor pe axa orizontal (OX). Dac la simetrie se vorbete de frecvene (care sunt cele mai frecvente scoruri obinute, unde se concentreaz acestea? n eantionul sunt mai degrab subieci scunzi sau subieci nali? Ori poate exist un echilibru ntre subiecii scunzi i cei nali), la boltire se discut de valori, de modul n care aceste valori se grupeaz n jurul tendinei centrale (sunt mai grupate valorile n jurul mediei sau, din contra, foarte mprtiate.) La fel ca i simetria, pentru a msura boltirea avem nevoie i aici de anumii coeficieni de boltire. Pearson a discutat despre boltire n termeni de momente, la fel ca i simetria, rezultnd astfel coeficientul de boltire sau coeficientul kurtosis. O distribuie leptocurtic, ascuit, arat c datele sunt foarte grupate i apropiate de medie, lotul de subieci avnd un mare grad de omogenitate a scorurilor. Aceast distribuie nu ridic nici un fel de probleme atunci cnd trebuie s difereniem subiecii care obin scoruri mici sau mari. Avem ns dificulti atunci cnd trebuie s difereniem subiecii din zona medie a distribuiei.
186
De exemplu, dac ntr-o clas de 30 de elevi, 27 obin medii anuale ntre 7,9 i 8,1. Iat c, doar dou zecimi difereniaz ntre aproape ntreg efectivul de elevi. Nu avem nici o problem cu repartizarea celorlali trei elevi. Pe aceia i vom considera ori foarte buni, ori foarte slabi, n funcie de media obinut sub 7,9 sau peste 8,1. Ce ne facem ns cu cei 27 de subieci? Suntem, iat, n imposibilitatea de ai-i ierarhiza n vreun fel. Dac presupunem c cei trei subieci au note mai mici de 7,9, atunci cine va lua, dintre cei 27 de elevi, premiul I, cine va lua premiul II i cine va lua premiul III. Decizia ar fi, dup cum se poate vedea, extrem de dificil, dac nu chiar imposibil. Singura variant n acest caz, ar putea fi creterea preciziei. Nu calculm media cu o singur zecimal, ci cu 2, 3 sau 4 zecimale. Totui, sunt situaii n care un asemenea nivel de precizie este ridicol. O evaluare n care distribuia rezultatelor este leptocurtic, este o evaluare ce nu poate diferenia ntre subiecii de nivel mediu, iar o curb leptokurtic nu este o distribuie normal; O distribuie platicurtic, plat, este o distribuie n care rezultatele sunt foarte mprtiate fa de medie i indic un grad ridicat de eterogenitate a scorurilor. Problema general a acestei distribuii, n opoziie cu distribuia leptokurtic, este aceea c difereniaz greu la extreme i destul de bine n zona mediei. Va fi greu, utiliznd o asemenea distribuie, s facem diferenieri ntre elevii slabi i ntre elevii buni, dei putem diferenia relativ uor elevii medii. Datorit acestui fapt, o distribuie platicurtic nu este nici ea o distribuie normal. O distribuie normal este o distribuie mezocurtic. Analiza unei distribuii sub aspectul normalitii este primul pas pe care l facem n orice prelucrare de date. Deoarece, n funcie de rezultatul acestei analize, vom putea alege tehnicile i procedeele statistice pe care le putem folosi, aceast etap o ntlnim, de obicei, la nceputul oricrui raport de cercetare, imediat dup descrierea eantionului.
187
1. a. b. c.
Histograma: este un grafic folosit n statistica descriptiv; arat o distribuie de frecven; se folosete pentru date calitative.
a. frecvenele ca un procent al numrului total excluznd datele lips. b. frecvenele ca un procent al numrului total incluznd i datele care lipsesc. c. frecvena valorilor. 3. a. b. c. Pentru a obine un tabel de frecvene accesm: analyze/ descriptive statistics/frequences; analyze/ descriptive statistics/descriptives; analyze/ descriptive statistics/frequences/descriptives.
4. Pentru a crea o histogram accesm: a. graphs/histogram; b. graphs/interactive; c. graphs/control. 5. a. b. c. 6. a. b. c. O distribuie poate fi: unimodal; bimodal; trimodal. ntr-o distribuie simetic: media < mdiana< modul; media = mediana = modul; media >mediana>modul.
8. ntr-o distribuie asimetric la stnga: a. modul=mediana=media; b. modul <mediana>media; c. modul>mediana>media. 9. O distribuie poate fi: a. leptocurtic; b. platicurtic; c. asimetric pozitiv; d. asimetric negativ; e. mezocurtic. f. toate variantele de mai sus. 10. O distribuie leptocurtic arat c: a. datele sunt foarte grupate i apropiate de medie iar lotul de subieci are un grad mare de omogenitate; b. datele sunt foarte mprtiate de medie iar lotul de subieci are un grad mare de eterogenitate; c. distribuia este normal. 11. O distribuie platicurtic arat c: d. datele sunt foarte grupate i apropiate de medie iar lotul de subieci are un grad mare de omogenitate; e. datele sunt foarte mprtiate de medie iar lotul de subieci are un grad mare de eterogenitate; f. distribuia este normal.
189
1. a. este un grafic folosit n statistica descriptiv; b. arat o distribuie de frecven; 2. a. analyze/ descriptive statistics/frequences; 3. a. analyze/ descriptive statistics/frequences; 4. a. graphs/histogram; 5. a. unimodal; b. bimodal; c. trimodal. 6. b. media = mediana = modul; 7. a. modul <mediana<media; 8. c. modul>mediana>media. 9. f. toate variantele de mai sus. 10. a. datele sunt foarte grupate i apropiate de medie iar lotul de subieci are un grad mare de omogenitate; 11. b. datele sunt foarte mprtiate de medie iar lotul de subieci are un grad mare de eterogenitate;
190
V. Abaterea standard.
________________________________________________________________________________________________________________
Abaterea standard este un indice care arat ct de mult deviaz (difer) unele scoruri n medie fa de media setului de scoruri din care acestea fac parte. Abaterea standard poate fi folosit i pentru a transforma scoruri pentru variabile foarte diferite n scoruri Z (sau standard), care sunt uor de comparat i nsumat. Calcularea abaterii standard i a scorurilor Z este prezentat n exemplul urmtor: Vrst 2 0 2 2 2 5 2 6 3 5 3 8 2 8 2 4 2 3 2 4
Pasul 2: n Data View din Data Editor se introduc vrstele n prima coloan. Pasul 3: Se selecteaz: Analyze
191
Descriptive Statistics Descriptives Pasul 4: Se selecteaz vrsta i apoi se apas butonul pentru a o introduce n lista de variabile. Se selecteaz Options
Pasul 5: Se deselecteaz Mean, Minimum, Maximum. Se selecteaz Continue. Se selecteaz OK din ecranul precedent care reapare.
V. 2. Interpretarea output-ului.
Numrul 10 reprezint numrul de cazuri. Abaterea standard pentru vrst este de 6,115.
V.3. Scorurile Z
Pasul 1: La pasul 4 selectai Save standardized values as variables.
192
Se apas OK.
Pasul 2: Scorurile Z sau standard sunt n a doua coloan din Data View n Data Editor i sunt numite ZVrst.
Notele z reprezint diferena dintre scorul observat i medie, n termeni de abatere standard. Cu alte cuvinte, notele z nu sunt altceva dect distanele la care se situeaz scorurile particulare n raport cu media grupului iar aceast distan este exprimat standardizat. Teoretic, notele z sunt note obinute pe o curb cu media 0 i abaterea standard 1. n acest caz, o distribuie normal are practic notele z cuprinse ntre -3 i +3, ntre aceste note regsindu-se peste 99% din populaie, dup cum observai n figura de mai jos. Notele z au i ele o serie de proprieti cu aplicabilitate practic deosebit, dintre care menionm (Popa, 2006):
Media unei distribuii z este egal cu zero, afirmaie ce rezult din proprietatea
acestui indicator de a se diminua atunci cnd scdem o constant din fiecare scor
193
particular. Deoarece din formul rezult aceast diferen (se scade fiecare scor particular din medie), n final media va ajunge la valoarea zero
Abaterea standard a unei distribuii z este ntotdeauna 1. i aceast afirmaie
rezult din proprietile abaterii standard. tim c dac mprim abaterea standard cu o constant, valoarea acesteia se divide corespunztor. Din formul, observm c acea constant cu la care mprim este chiar abaterea standard iar mprirea a dou numere egale are ca rezultat 1 Notele z sunt note direct calculabile, utilizndu-se media i abaterea standard i reprezint temelia oricrui proces de standardizare. Totui, principalul dezavantaj al notelor z este acela c sunt puin intuitive. Trebuie s tim bine ce nseamn distribuia normal pentru a nelege corect semnificaia acestor note. n plus, au valori pozitive i negative, ceea ce le face, iari, greu de utilizat.
1.
Abaterea standard: a. este un indice care arat ct de mult deviaz (difer) unele scoruri n medie fa de media setului de scoruri din care acestea fac parte. b. este un indice care arat ct de simetric sau asimetric este o distribuie; c. este un indice care arat ct de turtit sau boltit este o distribuie. 2. Media este o mrime generalizat , adic, nlocuind fiecare nivel individual al caracteristicii de distribuie cu nivelul mediu: a) suma seriei rmne aceeai b) suma termenilor seriei se modific c) suma termenilor seriei este nul. 3. Media aritmetic reprezint: a) valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar fi eterogen b) valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar fi omogen c) valoarea pe care ar purta-o fiecare variabil statistic dac distribuia ar fi omogen. 4. Media aritmetic, ca indicator fundamental al tendinei centrale: a) reprezint valoarea care modific nivelul totalizator al seriei; b) se folosete cel mai frecvent i reprezint suma valorilor raportat la numrul lor; c) se calculeaz adunnd valorile existente; d) nu poate determina numrul de uniti din colectivitate.
195
a. a. este un indice care arat ct de mult deviaz (difer) unele scoruri n medie fa de media setului de scoruri din care acestea fac parte. 2. a) suma seriei rmne aceeai 3. b) valoarea pe care ar purta-o fiecare unitate statistic dac distribuia ar omogen fi
4. b. se folosete cel mai frecvent i reprezint suma valorilor raportat la numrul lor;
196
Diagrame i tabele.
n foarte multe cercetri se studiaz relaiile dintre dou sau mai multe variabile. Procedurile statistice univariate (cu o singura variabil) care au fost descrise pn acum pot fi utilizate pentru analiza oricror date. Dar, cercetarea poate necesita ca relaiile i corelaiile dintre diferitele variabile s fie studiate. La fel ca statistica univariat, statistica bivariat a datelor necesit studierea tendinelor fundamentale ale datelor utiliznd tabele i diagrame. Modelele de prezentare a relaiilor bivariate includ crearea tabelelor scatter. O condiie esenial o constituie etichetarea tabelelor i diagramelor denumirea acestora. n continuare se va ilustra elaborarea unui tabel de asociere i a unei diagrame cu bare. i
Pasul 2: Se eticheteaz cele dou valori ale instituionalizrii: 1 - instituionalizat; 2 - neinstituionalizat. i genul biologic: 1. Feminin; 2. Masculin
*Paii acestei proceduri explicai n capitolul 1. au fost
Pasul 3: Se introduc aceste numere n Data View din Data Editor. Primul rnd se refer la fetele care au fost instituionalizate: sunt n numr de 5. Al doilea rnd se refer la bieii care au fost instituionalizai: sunt n numr de 6. Al treilea rnd se refer la fetele neinstituionalizate: sunt n numr de 4. Al patrulea rnd se refer la bieii neinstituionalizai: sunt n numr de 5.
198
Pasul 5: Se selecteaz Frecvena, Weight cases by i apoi se apas butonul pentru transfer n csua variabileiFrequency Variable. Se apas OK
Pasul 7: Pentru a pune instituionalizare pe rndurile tabelului, se selecteaz i apoi se apas butonul de lng eticheta Row(s). Pentru a pune genul biologic pe coloanele tabelului, se selecteaz i apoi se apas butonul de lng eticheta Column(s). Se apas OK. Pasul 8: n tabel sunt prezentate valorile celor dou variabile. Se observ c sunt 5 fete i 6 biei instituionalizai (n total 11) i 4 fete i 5 biei neinstituionalizai (n total 9). (N=20).
199
_________________________________________________________________________________________________________________
Corelaia este o metod statistic utilizat pentru a determina relaiile dintre dou sau mai multe variabile. Exist mai multe tipuri de corelaii att parametrice ct i neparametrice. Coeficientul de corelaie arat msura n care variaiile unei variabile sunt corelate cu variaiile altei variabile. Exist coeficieni de corelaie pentru date de tip cantitativ continuu, normal distribuite: Coeficientul de corelaie Pearson, sau pentru date nominale ordonate sau date de tip cantitativ continuu care nu sunt normal distribuite: Coeficientul de corelaie Spearman. Interpretarea e aceeai n cea mai mare parte. Coeficientul de corelaie este o valoare cantitativ ce descrie relaia dintre dou sau mai multe variabile. El variaz ntre (-1 si +1), unde valorile extreme presupun o relaie perfect ntre variabile n timp ce 0 nseamn o lipsa totala de relaie liniar. O interpretare mai adecvat a valorilor obinute se face prin compararea rezultatului obinut cu anumite valori prestabilite n tabele de corelaii n funcie de numrul de subieci, tipul de legtur i pragul de semnificaie dorit. Cel mai comun i cel mai folositor este coeficientul de corelaie Pearson i coeficientul de corelaie Spearman. Pearson este un coeficient de corelaie parametric.Principalele doua conditii ce trebuie a fi ndeplinite pentru a utiliza probe parametrice sunt: - distribuia normal a variabilei de interes din cadrul eantionului cercetrii; - omogenitatea dispersiei eantionului cercetrii referitor la variabila supus studiului. Probele parametrice sunt preferate n cazul ndeplinirii acestor conditii deoarece sunt mai solide, ceea ce nseamn creterea ansei de a respinge o ipotez fals. Aceste conditii pot fi verificate prin localizarea mediei n cadrul distribuiei
200
normale a datelor ct i prin calcularea indicatorilor de omogenitate a eantionului cercetat. Corelaia Pearson(r) evalueaz gradul de asociere dintre dou variabile msurate pe scal de interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a valorilor unei variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei variabile urmeaz, n sens direct, cresctor, sau invers, descresctor, valorile celeilalte variabile, atunci cele dou variabile coreleaz ntre ele. Domeniul de variaie a coeficientului de corelaie Pearson(r) este ntre r = -1 (corelaie perfect negativ: ceea ce nseamn c n timp ce scorurile unei variabile cresc, scorurile pentru cealalt variabil descresc) i r = +1 (corelaie perfect pozitiv: ceea ce nseamn c scorurile unei variabile se mresc odat cu creterea scorurilor celeilalte variabile). Absena oricrei legturi (corelaii) dintre variabile se traduce prin r =0. O corelaie de 1,00 indic o asociere perfect ntre cele dou variabile. Cu alte cuvinte, o diagram scatter a celor dou variabile va arta c toate punctele sunt coninute de o singur dreapt. O valoare de 0,00 indic faptul c toate punctele din diagrama scatter sunt dispersate aleatoriu n jurul oricrei drepte desenate pe aceast diagram a datelor sau sunt aranjate ntr-o manier curbilinie. n conditiile n care nu sunt ndeplinite conditiile pentru aplicarea unor teste parametrice se pot aplica o serie de tehnici care sa indice gradul de asociere ntre variabile, cel mai folosit fiind coeficientul de corelaie Spearman. Aceasta corelaie ne intereseaz cnd condiiile privind parametrii statistici nu pot fi ndeplinite, fie din cauza neomogenitii grupului, fie a numrului prea mic de subieci (sub 20). Proba se aplic lund n considerare rangurile subiecilor care se stabilesc prin ierarhizarea rezultatelor subiecilor, fie n situaia cnd nu se pot efectua masurtori precise (datele sunt prezentate de la nceput sub forma rangurilor), fie prin convertirea rezultatelor obinute n ranguri. Rangurile arat locul fiecrui individ ntr-
201
un clasament (ex. Rezultatele a patru subiecti la testul de inteligen au fost 109, 92, 87 si 100; care convertite n ranguri nseamn 1, 3, 4, si 2). n continuare vom ilustra calculul corelaiei Pearson, o diagram scatter i coeficientul de corelaie Spearman, folosind pentru aceasta datele din tabelul urmtor, care reprezint scoruri ale abilitilor muzicale i matematice pentru 10 copii. muzica matematic 3 7 7 5 8 4 9 4 9 5 6 8 4 9 3 9 4 7 7 6
Pasul 2: n Data View din Data editor se introduc datele pentru: - muzic n prima coloan; - matematic n a doua coloan.
butonul pentru a le introduce n lista de variabile aa cum este artat n figura din dreapta. Se apas OK.
Nivelul de semnificaie exact, cu trei zecimale, este 0,002. nseamn c nivelul de semnificaie este mai mic dect 0,01.
Interpretarea psihologic va fi: Exist o relaie negativ semnificativ ntre abilitile muzicale i cele matematice , ceea ce nseamn c, copii cu nivel ridicat al abilitilor muzicale au un nivel sczut al abilitii matematice.
203
Pasul 3: Pentru a avea variabila muzic ca ax vertical, se selecteaz i apoi se apas butonul de lng csua Y Axis Pentru a avea variabila matematic ca ax orizontal, se selecteaz apoi se apas butonul de lng csua X Axis. Se apas OK.
n diagrama scatter, rspndirea punctelor este relativ ngust, ceea ce indic o corelaie mare. Forma mprtierii rezultatelor este relativ n linie dreapt, indicnd mai degrab o relaie n linie dreapt dect o relaie curbilinie. Linia este de la colul stnga sus pn n dreapta jos, ceea ce indic o corelaie negativ.
*Dac relaia este curbilinie atunci corelaiile Pearson i Spearman pot fi neltoare.
VII.10. Raportarea output-ului. Despre diagrama scatter s-ar putea scrie urmtoarele afirmaii: A fost examinat o diagram scatter pentru relaia dintre abilitile muzicale i matematice. Nu exist nicio dovad privind o relaie curbilinie sau asupra influenei avute de rezultatele atipice.
206
5. Spearman este un indice de corelaie: a. parametric; b. neparametric; c. ambele variante de mai sus.
6. O corelaie negativ semnific faptul c:
a. n timp ce scorurile unei variabile cresc, scorurile pentru cealalt variabil descresc; b. c scorurile unei variabile se mresc odat cu creterea scorurilor celeilalte variabile). c. nu exist nicio legtur ntre variabile.
207
O corelaie pozitiv semnific faptul c: a) n timp ce scorurile unei variabile cresc, scorurile pentru cealalt variabil descresc; b) c scorurile unei variabile se mresc odat cu creterea scorurilor celeilalte variabile). c) nu exist nicio legtur ntre variabile.
7.
8. Norul de puncte este folosit pentru: a. a reprezenta relaia dintre variabile; b. a arta frecvena de apariie pentru diferite clase de valori ale variabilei observate; c. a arta intzervalul de ncredere de 95% pentru media respectiv. 9. Pentru a realiza un tabel de asociere selectm: a. Analyze/Descrisptiv statistics/crosstabs; b. Analyze/Descrisptiv statistics/Explore; c. Statistics / Corelate / Crosstabs d. Statistics / Custom tables / Crosstabs 10. Tabelul de asociere este folosit pentru: a. selectarea unor subieci b. prezentarea relaiilor dintre dou variante categoriale c. recodificarea variabilelor d. modificarea unui tabel
208
1. a. msoar variaia concomitent a doi factori 2. a. evalueaz gradul de asociere dintre dou variabile msurate pe scal de interval/raport. 3. a. o asociere perfect ntre cele dou variabile; 4. a. parametric; 5. b. neparametric; 6. a. n timp ce scorurile unei variabile cresc, scorurile pentru cealalt variabil descresc; 7. b. c scorurile unei variabile se mresc odat cu creterea scorurilor celeilalte variabile). 8. a. a reprezenta relaia dintre variabile; 9. a. Analyze/Descrisptiv statistics/crosstabs; 10. b. prezentarea relaiilor dintre dou variante categoriale
209
VIII. Regresia.
_________________________________________________________________________________________________________________
Predicia cu precizie.
Dac exist o relaie ntre dou variabile atunci sunt posibile estimarea sau predicia scorului unei persoane la o variabil pornind de la scorul obinut la cealalt variabil. Cu ct este mai puternic corelaia cu att este mai bun predicia. Variabila independent este variabila folosit pentru a realiza predicia, aceasta fiind cunoscut i ca variabil predictor sau variabila X.
*Este foarte important a nu se confunda variabila independent cu cea dependent. Cel mai bun mod de a evita aceste probleme este de a examina scatterplot-ul sau diagrama scatter a relaiei dintre cele dou variabile. Axa orizontal X este variabila independent i axa verticala Y este variabila dependent. Se poate investiga i punctul de tiere, acesta fiind punctul n care panta se intersecteaz cu axa vertical.
Regresia devine o tehnic mult mai important atunci cnd sunt folosite mai multe variabile pentru predicia valorilor unei alte variabile. n continuare este ilustrat procesarea unei regresii simple i a unei diagrame de regresie folosind datele din tabelul urmtor.
Scor muzica Scor matematic 3 7 7 5 8 4 9 4 9 5 6 8 4 9 3 9 4 7 7 6
Pasul 2: n Data View din Data editor se introduc datele pentru: - muzic n prima coloan; - matematic n a doua coloan.
210
Pasul 2: Se selecteaz Muzic i apoi se apas butonul de lng eticheta Dependent, pentru a introduce aceast variabil n csua variabilei dependente. Se selecteaz matematica i apoi se apas butonul de lng eticheta Independent(s) pentru a introduce aceast variabil n csua variabilei (lor) independente. Se selecteaz Statistics
Pasul 3: Se selecteaz Confidence Intervals. Se selecteaz Continue. Se apas OK din ecranul precedent care reapare.
211
Coeficientul nestandardizat Coeficientul standardizat Intervalul de al regresiei este 1,049. al regresiei este 0,845. ncredere ia valori Acesta semnific faptul c, Acesta este mai mult sau de la -1,591 la -0,507. pentru fiecare cretere cu 1 mai puin coeficientul de a variabilei matematic corelaie Pearson dintre valoarea variabilei muzic abilitile muzicale i descrete cu 1,049. cele matematice. n acest tabel, B este panta liniei de regresie (n SPSS fiind denumit coeficient de regresie nestandardizat). Intervalul de ncredere de 95% pentru aceti coeficieni este de la -1,59 la -0,50. Intervalul de ncredere de 95% arat intervalul pantelor de regresie n care putem fi siguri ntr-o proporie de 95% c panta pentru populaie se va gsi. Cota denumit Beta are valoarea -0,845. Aceasta este de fapt corelaia Pearson ntre cele dou variabile.
212
Se selecteaz define; simple este deja selectat. Pasul 3: Pentru a avea variabila muzic ca ax vertical, se selecteaz i apoi se apas butonul de lng csua Y Axis Pentru a avea variabila matematic ca ax orizontal, se selecteaz apoi se apas butonul de lng csua X Axis. Se apas OK Pasul 4: Pentru a ncadra o linie de regresie n scatterplot, se d dublu clic oriunde n interior i se va deschide Chart Editor. Se selecteaz Elements i Fit Line at Total.
Linia de regresie are o pant negativ n acest caz; de exemplu: de la stnga sus spre dreapta jos. n consecin B are valoare negativ. n regresie axa orizontal este variabila predictor sau independent (n cazul nostru matematic).
214
* Linia de regresie oblic, de la stnga sus spre dreapta jos, indic o relaie negativ ntre cele dou variabile.
Punctele par relativ apropiate de line, ceea ce sugereaz c beta (corelaia) ar trebui sa fie un numr mare (negativ) i c intervalul de ncredere este relativ mic. VIIII.6. Raportarea output-ului. Interpretarea diagramei se poate realiza n felul urmtor: Diagrama scatterplot a relaiei dintre abilitile matematice i muzicale sugereaz o relaie liniar negativ ntre cele dou variabile. Este posibil predicia cu acuratee a abilitii muzicale a unei persoane cunoscnd abilitatea sa matematic. Not: Este important diferenierea terminologic ntre regresia liniar simpl i regresia multiliniar. n primul caz este vorba de o regresie bazat pe un singur predictor (exemplu: estimarea reuitei colare pe baza coeficientului de inteligen) n timp ce regresia multiliniar include mai muli predictori n ecuaie, precum nivelul de inteligen, motivaia colar, nivelul de educaie al prinilor pentru a putea estima mai bine reuita colar. (Sava, A., 2004, p. 186).
215
_________________________________________________________________________________________________________________
Eroarea standard este un indice pentru variabilitatea mediilor mai multor eantioane extrase din populaie; cu alte cuvinte este media msurii cu care media eantioanelor difer fa de media populaiei din care au fost extrase. Eroarea standard poate fi folosit de ncredere. Calcularea erorii standard estimate pentru medie este ilustrat cu un set de ase scoruri ale stimei de sine, prezentate n tabelul urmtor. Stima de sine 5 7 3 6 4 5 ca un pas intermediar n alte tehnici statistice, cum ar fi Testul t i este un concept important pentru calculul intervalelor
Pasul 2:
216
Se selecteaz stima de sine i apoi se apas butonul pentru a introduce variabila Stima de sine n variable(s). Se selecteaz Options Pasul 3: Se selecteaz S-E mean. Se selecteaz continue. Se apas OK din ecranul anterior care reapare.
testul ofer valoarea erorii standard a mediilor eantioanelor ca fiind 0,58 (suma este rotunjit la dou zecimale) aceasta fiind valoarea medie cu care mediile eantioanelor (N=6) difer fa de media populaiei. tabelul include i alte informaii cum ar fi media (5,00), abaterea standard estimat a populaiei bazat pe acest eantion, valorile minime i maxime ale datelor. ultima coloan ofer abaterea standard (estimat) a celor ase scopuri, care este 1,41.
X. Testul t.
_________________________________________________________________________________________________________________
Testul t este folosit pentru evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri. Cu ajutorul testului t se pune n eviden dac valoarea medie pentru un set de scoruri difer n medie de valoarea medie pentru alt set de scoruri. Testul t are dou variante:
1. prima variant este folosit atunci cnd cele dou seturi de scoruri ce
trebuie comparate provin dintr-un singur eantion sau cnd coeficientul de corelaie ntre cele dou seturi este mare testul t pentru eantioane perechi;
2. a doua variant a testului t este utilizat n momentul n care dou seturi
diferite de valori provin din grupe diferite de participani. testul t pentru eantioane independente.
* Testul t pentru eantioane perechi este optim dac distribuia diferenelor dintre cele dou seturi de valori se prezint (aproximativ) sub form de clopot (atunci cnd distribuia este normal). Dac distribuia este foarte diferit de forma de clopot ar trebui luat n considerare utilizarea unei tehnici statistice relaionate nonparametric pentru eantioane perechi, cum ar fi testul de perechi Wilcoxon.
Procesarea unui Test t este ilustrat cu datele din tabelul urmtor unde sunt prezentate numrul de cuvinte pe care aceeai copii le-au verbalizat cu mamele lor la 18 luni i la 24 luni.
Numrul de cuvinte verbalizate ntr-un minut la vrste diferite. Alina Cristina Raluca Carmen Simona Radu Cristi 3 2 4 5 2 3 2 5 4 7 8 3 4 4 Dan 4 6
18 luni 24 luni
Pasul 2: n Data View din Data Editor se introduc datele n primele dou coloane.
219
Primul tabel arat media, numrul de cazuri i abaterea standard pentru cele dou grupuri. Media pentru optsprezece este 3,13 i abaterea standard este 1,126.
Al doilea tabel arat gradul n care cele dou seturi de valori sunt corelate. Corelaia dintre ele 0,94. Aceasta este o corelaie mare, nivelul de semnificaie fiind de 0,00. Primele trei coloane care conin cifre sunt componentele fundamentale ale calcului unui Test t relaionat. Media de -2,000 este de fapt diferena dintre mediile pe 18 i 24 luni, deci n realitate este media diferenei. Valoarea lui t este bazat pe aceast medie a diferenei (-2,00), divizat cu eroarea standard a mediei (0,267). Calculul ofer valoarea lui t (-7,483).
XI. Testul t.
Compararea a dou eantioane de scoruri necorelate/nerelaionate.
_________________________________________________________________________________________________________________
Atunci cnd o investigaie de tip statistic se efectueaz pe un eantion, orice rezultat obinut are o valoare relativ, n sensul c datele respective nu numai c nu coincid cu cele referitoare la populaie, dar nici mcar nu se poate ti cu certitudine care este diferena dintre cele dou genuri de date, de vreme ce starea populaiei este, de regul, necunoscut. Teoria matematic a probabilitilor ofer ns proceduri pentru evaluarea rezultatelor studiilor selective, permind o estimare, n termeni de probabilitate, a marjei maxime de eroare ce se poate comite prin utilizarea mrimilor din eantion n locul celor care caracterizeaz populaia. Testul t este n esen o procedur de testare a semnificaiei diferenei dintre dou medii. Ca urmare, el este potrivit atunci cnd variabila dependent este msurat pe scal cantitativ (interval-raport). Distribuia teoretic de referin (distribuia de nul) este cea normal, pentru eantioane mai mari de 30 de subiec i, i distribuia t (Student), pentru eantioane mai mici de 30 de subieci. Chiar dac formulele de calcul sunt diferite, forma de prezentare a rezultatelor i ra ionamentul decizional sunt similare pentru ambele situaii. Testul t pentru eantioane independente este utilizat pentru a calcula dac mediile pentru dou seturi de variabile sunt diferite semnificativ una fa de cealalt.
* Testul t pentru eantioane independente este cel mai des folosit.
Testul t pentru eantioane independente este utilizat atunci cnd cele dou seturi de variabile provin din dou eantioane diferite de oameni. Procesarea unui Test t pentru eantioane independente este ilustrat cu datele din tabelul urmtorcare arat valorile la un test de emotivitate pentru 10 copii care provin din familii biparentale i 10 copii care provin din familii monoparentale.
221
Scopul analizei este de a aprecia dac valorile emotivitii sunt diferite la copii care provin din familii cu doi prini fa de copii care provin din familii monoparentale. Familii biparentale monoparentale 12 6 18 9 14 4 10 13 19 14 8 9 15 8 11 12 10 11 13 9
222
Primul tabel arat , pentru fiecare grup n parte, numrul de cazuri, media i abaterea standard. Media pentru familiile biparentale este 13,00. Dup cum se observ exist o diferen ntre cele dou tipuri de familii, dar, ntrebarea este dac mediile difer semnificativ. Valoarea lui t este media diferenei (3,500) divizat cu eroarea standard a diferenei (1,493), diviziune ce produce valoarea 2,345.
Dac valoarea semnificaiei pentru Testul Levene este mai mare de 0,05, lucru care se ntmpl aici (0,642) se folosete informaia de pe acest prim rnd. Dac valoarea semnificaiei pentru Testul Levene este mai mic de 0,05, se folosete informaia de pe al doilea rnd (al doilea rnd ofer cifrele pentru cazul n care varianele sunt diferite semnificativ).
Pentru variane egale, t este 2,345, care la 18 grade de libertate este semnificativ la 0,031 pentru nivelul two-tailed.
Rezultatele obinute se pot raporta astfel: Media pentru valorile testelor de emotivitate ale copiilor ce provin din familii cu doi prini este semnificativ mai mare dect cea a copiilor provenii din familiile cu un singur printe. Dac se prefer folosirea intervalelor de ncredere , se poate scrie: Diferena dintre valorile testelor de emotivitate ale copiilor ce provin din familii cu doi prini (M=13,00, SD=3,55) i cei provenii din familii cu un singur printe (M=9,50, SD=3,10) este de 3,50. Intervalul de ncredere de 95% pentru aceast diferen este de la 0,36 la 6,63.Deoarece intervalul nu conine punctul 0,00 diferena este statistic semnificativ la nivelul de semnificaie two-tailed de 5%.
225
1. Independent Samples T Test se aplic n cazul: a. aceluiai eantion b. eantioanelor independente c. eantioanelor dependente 2. Independent Samples T Test testeaz: a. dac mediile a dou grupe sunt egale; b. dac mediile a dou grupe difer; c. dac se compar mediile pentru un singur grup observat la momente diferite; 3. Testul t se folosete pentru: a. compararea a dou seturi de date pentru identificarea diferenelor; b. identificarea predictorilor pentru o variabil numeric; c. compararea datelor de frecven. 4. One sample T Test este un procedeu prin care: a. se compar mediile pentru un singur grup observat n momente diferite b. se testeaz dac mediile a dou grupe sunt egale c. se testeaz dac media unei variabile este egal cu o constant specificat b. se testeaz dac mediile a dou grupe difer 5. Paired Samples T test: a. testeaz dac mediile a dou grupe sunt egale b. testeaz dac media unei variabile este egal cu o constant specificat c. compar mediile pentru un singur grup observat n momente diferite d. compar mediile pentru mai multe medii observate n momente diferite 6. Testul t pentru eantioane independente este utilizat atunci cnd: a. cele dou seturi de scoruri ce trebuie comparate provin dintr-un singur eantion b. coeficientul de corelaie ntre cele dou seturi este mare c. cele dou seturi de variabile provin din dou eantioane diferite de oameni.
a. cele dou seturi de scoruri ce trebuie comparate provin dintr-un singur eantion b. coeficientul de corelaie ntre cele dou seturi este mare c. cele dou seturi de variabile provin din dou eantioane diferite de oameni. 8. Testul t: a. este folosit pentru evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; b. este potrivit atunci cnd variabila dependent este msurat pe scal cantitativ (interval-raport). c. este utilizat pentru a calcula dac mediile pentru dou seturi de variabile sunt diferite semnificativ una fa de cealalt.
227
1. b. eantioanelor independente; 2. a. dac mediile a dou grupe sunt egale; 3. a. compararea a dou seturi de date pentru identificarea diferenelor; 4. c. se testeaz dac media unei variabile este egal cu o constant specificat; 5. c. compar mediile pentru un singur grup observat n momente diferite 6. c. cele dou seturi de variabile provin din dou eantioane diferite de oameni. 7. a. cele dou seturi de scoruri ce trebuie comparate provin dintr-un singur eantion b. coeficientul de corelaie ntre cele dou seturi este mare 8. a. este folosit pentru evaluarea semnificaiei statistice a diferenei dintre mediile pentru dou seturi de scoruri; b. este potrivit atunci cnd variabila dependent este msurat pe scal cantitativ (interval-raport). c. este utilizat pentru a calcula dac mediile pentru dou seturi de variabile sunt diferite semnificativ una fa de cealalt.
228
_________________________________________________________________________________________________________________
n general Testul chi-square este folosit pentru evaluarea existenei unei diferene semnificative ntre dou eantioane formate din date de frecven (date nominale). Acesta, analizeaz tabelele de asociere sau contingen pe baza a dou variabile categoriale nominale.
*Testul chi-square analizeaz frecvene. Niciodat acestea nu trebuie s fie transformate n procente pentru a fi introduse n SPSS, deoarece vor da rezultate eronate atunci cnd se vor calcula valoarea i semnificaia chi-square. * O analiz chi-square trebuie s includ datele fiecrui individ o singur dat, astfel nct frecvenele totale s fie egale cu numrul persoanelor folosite n analiz. Tabel 1. Relaia dintre site-urile accesate i genul biologic.
Site-uri matrimoniale 27 17
anunuri 14 33
muzic 19 9
n meniul Variable View Se ndeprteaz cele Se eticheteaz valorile din Data Editor se eticheteaz dou zecimale. gen i program. primele trei coloane cu gen biologic, Site i Frecven. Pasul 2:
229
Se introduc valorile adecvate n meniul Data View din meniul Data Editor. Fiecare rnd reprezint una dintre cele ase celule din tabelul prezentat anterior. Paul 3: Pentru a pondera aceste celule se selecteaz: Data Weight Cases
Pasul 4: Se selecteaz Frecvena, Weight cases by i apoi se apas butonul . Se apas OK.
230
Pasul 2: Se selecteaz Gen i se apas butonul pentru Row(s): pentru a-l introduce n caseta respectiv. Se selecteaz Site i se apas butonul pentru Column(s): pentru a-l introduce n caseta respectiv. Ser selecteaz Statistics Pasul 3: Se selecteaz Chi-square. Se seleteaz Continue.
Pasul 5:
231
n seciunea Counts se selecteaz Expected. Se selecteaz Unstandardized n seciunea Residuals. Se selecteaze Continue, apoi se apas OK n ecranul anterior care reapare. * Termenul rezidual se refer la diferene.
232
De exemplu: Frecvena sau numrul de fete care spun c prefer site-rile de matrimoniale este de 17, iar numrul anticipat de probabilitate este 21,8, diferena dintre cele dou valori fiind de 4,8. Al treilea tabel, i ultimul indic valoarea coeficientului (Pearson) chi-square (13,518), gradele de libertate (2) i semnificaia two-tailed (0,001). Din moment ce aceast valoare este mai mic de 0,05, coeficientul chi-square este semnificativ. Al doilea tabel indic frecvenele observate i cele ateptate ale cazurilor i diferena (valoarea rezidual) dintre acestea pentru fiecare celul. Frecvena observat (numit Count) este prezentat prima, apoi frecvena ateptat (numit Expected Count. Frecvenele observate sunt ntotdeauna numere ntregi, astfel nct s fie uor de localizat. Coloana final din tabel etichetat Total conine numrul de cazuri din respectivul rnd, urmat de numrul ateptat de cazuri din tabel.
233
Astfel primul rnd are 60 de cazuri, urmat de numrul ateptat de cazuri din tabel. Astfel, primul rnd are 60 de cazuri, numr care va fi identic numrului de cazuri ateptate (adic 60). n mod similar, rndul final din acest tabel (etichetat Total) prezint mai nti numrul de cazuri din respectiva coloan urmat de numrul ateptat de cazuri din tabel pentru coloana respectiv. Astfel, prima coloan are 44 de cazuri, numr care ca fi ntotdeauna egal cu numrul ateptat de cazuri (adic 44,0). Valoarea chi-square, gradul su de liberate i nivelul su de semnificaie sunt afiate n al treilea tabel care ncepe cu Pearson (cel care a elaborat acest test). Valoarea chi-square este de 13,518, care, rotunjit la un numr cu dou zecimale, devine 13,52. Gradul su de libertate este 2, iar probabilitatea two-tailed exact este 0,001. Sub acest tabel se mai poate vedea i mrimea minimum expected count a oricrei celule din tabel, care este 13,88 pentru ultima celul (fetele care prefer siteurile cu muzic). Dac diferena minim ateptat este mai mic dect 5.0, atunci trebuie s se acorde foarte mult atenie Testului chi-square.
* Dac se folosete un tabel 2x2 de tip chi-square i apar frecvene anticipate reduse, este recomandat s se foloseasc testul Fisher, pe care aplicaia SPSS l include n output n astfel de situaii.
234
Rezultatele se pot descrie astfel: A existat o diferen semnificativ ntre frecvenele observate i cele ateptate n cazul adolescenilor biei i fete n ceea ce privete preferina lor pentru cele trei tipuri de site-uri ( 2 = 13,51. DF = 2, p = 0,001). O alt posibilitate de interpretare a rezultatelor obinute ar putea fi: Exist o asociere semnificativ ntre genul biologic i tipul de site preferat ( 2 = 13,51. DF = 2, p = 0,001). Raportarea i direcia rezultatelor se poate face astfel: Fetele tind mai mult dect bieii s prefere site-urile cu anunuri (de toate genurile) i prefer mai puin site-urile despre matrimoniale sau pe cele cu muzic.
235
* Scorurile abilitilor muzicale i matematice sunt aceleai care au fost prezentate anterior n capitolul VIII.1.
Dorim s se realizeze corelaia dintre valorile abilitilor muzicale i a celor matematice, n cazul copiilor mici i a celor mari. Pentru a realiza aceast corelaie este important s se stabileasc numrul de grupe de vrst dorite. n acest caz se vor alege dou grupe de vrst: copii mai mici de 10 ani i copii mai mari de 10 ani.
236
Pasul 3: Se selectea Vrst i se apas butonul pentru a introduce Vrsta n caseta Numeric Variable Output variable. Se introduce numele noii variabile. Se selecteaz Change pentru a aduga acest nume nou n caseta Numeric variable Output Variable. Pasul 4: Se selecteaz Lowest through i se scrie 9 n caseta alturat. Se selecteaz Value din meniul new value i se scrie 1 n csua alturat. Se selecteaz Add i se introduce lowest throught 91 n caseta OldNew.
237
Pasul 5: Se selecteaz Range: through highest i se scrie 10 n caseta de lng el. Se selecteaz value i se scrie 2 n caseta alturat. Se selecteaz Add i se introduce 10 through Highest2 n caseta OldNew. Se apas OK n ecranul care va reaprea. Pasul 6: Noua variabil i valorile sale sunt afiate n meniul Data View.
1 semnific copii cu vrste mai mici de 10 ani 2 semnific copii cu vrste mai mari de 10 ani.
*Recodificarea variabilelor este o modalitate de transformare a unei variabile prin combinarea valorilor acesteia ntr-un numr mai mic de categorii (de regul 3, 4 grupe) dac acest lucru este posibil. Pentru a realiza aceast recodificare alegem din meniul Transform comanda Recode iar din submeniul afiat una din opiunile: a. Recode Into Different Variables pentru recodificarea ntr-o variabil diferit; b. Recode Into Same Variables - pentru recodificarea n aceeai variabil
238
1. Comanda RECODE permite: a. recodificarea ntr-o variabil diferit sau n aceeai variabil; b. tranformarea unei variabile prin divizarea valorilor acesteia ntr-un numr mai mare de categorii; c. combinarea valorilor acestei variabile cu scopul crerii unei alte serii; 2. Comanda RECODE se gsete n meniul: a. transform/recode/into different variables; b. transform/recode/into same variables; c. ambele variante de mai sus. 3. Chi Square a. testeaz egalitatea a dou sau mai multe proporii b. testeaz egalitatea unei proporii cu o valoare specificat c. testeaz egalitatea mediilor a dou eantioane independente d. testeaz egalitatea mediilor a dou eantioane perechi 4. Pentru recodificarea n aceeai variabil se selecteaz: a. transform/recode/into different variables; b. transform/recode/into same variables; c. nicio variant de mai sus. 5. Pentru recodificarea ntr-o variabil diferit se selecteaz: a. transform/recode/into different variables; b. transform/recode/into same variables; c. nicio variant de mai sus.
239
1. a. recodificarea ntr-o variabil diferit sau n aceeai variabil; 2. c. ambele variante de mai sus. 3. a. testeaz egalitatea a dou sau mai multe proporii 4. b. transform/recode/into same variables; 5. a. transform/recode/into different variables;
240
_________________________________________________________________________________________________________________
Calculul variabilelor noi permite adunarea, scderea, etc. a valorilor ctorva variabile pentru a obine o nou variabil. Exemplu: Se dorete s se adune cteva ntrebri dintr-un chestionar, pentru a obine un indice general al ceea ce msoar chestionarul. Atunci cnd sunt msurate variabilele psihologice, se folosesc mai multe ntrebri pentru a msura mai mult sau mai puin acelai lucru. De exemplu, urmtoarele afirmaii pot fi folosite pentru evaluarea satisfaciei profesional: a. n general m bucur profesia mea. b. Uneori stresul de la serviciu devine insuportabil. c. Unii colegi sunt enervani cteodat. d. Viitorul pare promitor la locul de munc. Participanilor li se cere s afirme n ce msur sunt de acord cu fiecare dintre aceste afirmaii, pe urmtoarea scal de la 1 la 4: 1. ntru totul de acord; 3. dezacord; 2. de acord; 4. total dezacord.
Aceti itemi se pot folosi pentru a determina nivelul de satisfacie profesional a angajailor, prin adunarea rspunsurilor date tuturor celor patru afirmaii. ntru totul De acord de acord Respondent 1 Respondent 2 Respondent 3 Deoarece este nevoie de scoruri mari pentru a indica satisfacia profesional, se va inversa evaluarea, astfel: 4. total de acord; 2. dezacord; 3. de acord; 1. total dezacord.
241
dezacord
Total dezacord
Pasul 4: Pentru a salva aceast procedur sub form de fiier de sintax, se selecteaz Paste n caseta principal. Aceast comand de sintax va aprea n fereastra Syntax.
242
_________________________________________________________________________________________________________________
Statistici nonparametrice.
Testele nonparametrice sunt folosite atunci cnd nu este ndeplinit condiia ca scorurile fiecrei variabile s fie ct de ct normal distribuite (n form de clopot). Aceste teste fac mai puine presupuneri referitoare la caracteristicile populaiei de la care provin datele, trstur care nu este caracteristic testelor parametrice (cum ar fi Testul t). Metodele statistice nonparametrice nu testeaz diferenele dintre medii, deoarece acestea folosesc scoruri transformate n ranguri. De obicei, prin aceste metode se verific dac rangurile dintr-un grup sunt mai mari sau mai mici dect rangurile din cellalt grup. n acest capitol vom vorbi despre Testul semnului i Testul Wilcoxon pentru date corelate (eantioane perechi). Cu alte cuvinte, aceste teste sunt echivalentele nonparametrice ale Testului t pentru eantioane perechi. Testul U Mann-Witney se folosete pentru date nerelaionate, acesta fiind echivalentul nonparametric al Testului pentru eantioane independente. Procesarea a dou teste nonparametrice pentru scoruri relaionate este exemplificat folosind datele din tabelul urmtor, care a fost folosit i n capitolul X i care indic numrul de cuvinte pe care aceeai copii le-au verbalizat cu mamele lor la 18 luni i la 24 luni.
Numrul de cuvinte verbalizate ntr-un minut la vrste diferite. Alina 18 luni 24 luni 3 5 Cristin a 2 4 Raluc a 4 7 Carmen Simona Radu 5 8 2 3 3 4 Cristi Dan 2 4 4 6
243
Pasul 3: Se selecteaz Optsprezece i douzecisipatru i se apas butonul pentru a introduce aceste dou variabile n caseta Test Pair(s) List. Se deselecteaz Wilcoxon. Se selecteaz Sign. Se apas OK.
244
Al doilea tabel indic nivelul de semnificaie al acestui test. Probabilitatea two-tailed este de 0,008 ceea ce este semnificativ la nivelul de 5%.
Se poate ignora primul dintre cele dou tabele de output. Acestea indic numrul de diferene negative (0), pozitive (8) i inexistente (0) n ceea ce privete datele ordonate dup cele dou vrste, i media i suma catalogate negative i
245
pozitive. Valorile pentru dou zeci i patru de luni sunt mai mari dect cele pentru optsprezece luni. Al doilea tabel indic nivelul de semnificaie al acestui test. n loc s foloseasc tabelul valorilor critice, computerul utilizeaz o formul care stabilete o conexiune cu distribuia Z. Scorul Z este de 2,558, care are o probabilitate two-tailed de 0,011. Aceasta nseamn c diferenele dintre cele dou variabile sunt semnificative din punct de vedere statistic la un nivel de 5%.
246
Pasul 3: Se selecteaz Emotivitate i se apas butonul pentru a introduce parametrul Emotivitate n caseta Test Variable List. Se selecteaz Familie i se apas butonul pentru a introduce Familie n caseta Grouping Variables. Se selecteaz Define Groups Pasul 4: Se scrie 1 (pentru un singur printe) n c aseta de lng Group 1. Se scrie 2 (pentru 2 prini) n caseta de lng Group 2. Se selecteaz Continue. Se apas OK din ecranul anterior care va reaprea.
247
Se poate ignora primul dintre cele dou tabele de output. Acest tabel indic faptul c rangul mediu dat parametrului Emotivitate pentru primul grup (adic valoarea 2) este 13,15, iar rangul mediu pentru al doilea grup (adic valoarea 1) este de 7,85. Aceasta nseamn c valorile din grupul 2 (biparentale) au tendina s fie mai mari dect cele din grupul 1 (monoparentale). Al doilea tabel indic statistica de baz mannWhitney, valoarea U fiind de 23,500, ceea ce este semnificativ din punct de vedere statistic la un nivel de 0,043. Computerul a listat i un scor Z de -2,011, care este semnificativ la nivel de 0,044. Aceasta este valoarea Testului Mann-Whitney atunci cnd se aplic o corecie pentru ranguri nrudite. Dup cum se poate vedea, aceasta a modificat nivelul de semnificaie doar marginal, de la 0,44 la 0,44.
_________________________________________________________________________________________________________________
Analiza de varian cu scoruri nerelaionate/necorelate indic msura n care cteva (dou sau mai multe) grupuri au medii foarte diferite.
*Grupurile diferite aparin variabilei independente iar valorile numerice corespund variabilei dependente.
Analiza de varian calculeaz variaia dintre scoruri i pe cea dintre mediile eantioanelor. One way ANOVA este folosit pentru testare pentru diferenele ntre dou sau mai multe grupe independente. ANOVA este utilizat pentru a testa diferene ntre cel puin trei grupuri, deoarece cele dou grupuri de caz pot fi acoperite de u un Ttest. De fapt, testul t independent este un tip special de ANOVA simpla n care sunt implicate doar doua grupe. ANOVA simpla permite evaluarea ipotezei nule ntre mediile a doua sau mai multe serii de date cu restricia ca acestea sa fie trepte ale aceleiai variabile independente. ANOVA simpla permite compararea simultana a trei sau mai multe grupe meninnd nivelul la valoarea dorita, de maxim 0,05. Procesarea analizei one-way de varian cu scoruri nerelaionate este exemplificat folosind datele din tabelul urmtor, care indic rezultatele obinute de ctre diferii participani n condiii diferite. Este vorba despre un studiu asupra efectului unor tratamente hormonale i placebo asupra depresiei. Astfel, medicamentul este variabila independent i depresia este variabila dependent.
249
Date studiu Grup 1 Grup 2 Tratament hormonal Tratament hormonal 8 4 11 2 8 4 Grup 3 Placebo 4 6 4
Pasul 3: Se selecteaz depresie i se apas butonul de lng caseta Dependent List pentru a introduce parametrul n caset.
250
Se selecteaz Condiie i se apas butonul de lng caseta Factor pentru a introduce parametrul acolo. Se selecteaz Options
Pasul 4: Se selecteaz metodele statistice descriptive i Momogenity of variance test. Se selecteaz Continue. Se apas OK din ecranul anterior, care va reaprea.
Primul tabel ofer diferite statistici descriptive, cum ar fi numrul de cazuri, media i abaterea standard n cele trei condiii i pe eantionul total. Al doilea tabel ofer rezultatele Testului Levene al similaritii varianelor. Acest test nu este semnificativ deoarece are o semnificaie de 0,441.
251
Al treilea tabel indic rezultatele analizei de varian. Raportul F este semnificativ la nivel de 0,00, acesta fiind mai mic dect 0,05. Raportul F se calculeaz prin mprirea sum of square (suma ptratelor abaterilor de la medie) dintre grupe, este mprit suma ptratelor de la media din interiorul grupelor (sum of squares groups)m ceea ce d un Raport F de 13,941 (20,333/0,889 = 13,941). Aceasta nseamn c exist o diferen semnificativ ntre cele trei grupuri.
252
scoruri nerelaionate/necorelate.
Analiza two-way de varian permite compararea mediilor unei variabile dependente atunci cnd exist dou variabile independente. Dac exist mai mult de o variabil dependent, atunci analiza se realizeaz separat pentru fiecare variabil. Realizarea unei analize two-way pentru scoruri nerelaionate de varian este exemplificat n tabelul urmtor, care indic scorurile obinute de ctre diferii participani n ase condiii, reflectnd cei doi factori ai privrii de somn i alcool. Scopul acestei analize este acela de a aprecia dac diferitele combinaii de cafea i deprivare de somn afecteaz difereniat numrul mediu de greeli fcute. Datele pentru un experiment referitor la privarea de somn: Numrul de erori n cazul unui test video.
253
Consum alcool
Fr alcool
3 ore 14 10 15 9 9 12
9 ore 20 22 30 10 14 12
Pasul 3: Se selecteaz Erori i se apas butonul de lng caseta Dependent Variablepentru a introduce parametrul acolo. Se selecteaz Alcool i Privare de somn fie mpreun, fie separat, i se apas butonul Fixed factor(s) pentru a le introduce n caset. Se selecteaz Options
Pasul 4: Se selecteaz Descriptives statistics i Homogeneity test. Se selecteaz Continue. n ecranul anterior, care va reaprea, se selecteaz Plots.
255
Pasul 5: Se selecteaz Alcool i se apas butonul de lng caseta Horizontal axis pentru a introduce parametrul acolo. Se selecteaz Privare de somn i se apas butonul de lng caseta Separate Lines - pentru a introduce opiunea n caset. Se selecteaz Add . Se selecteaz Continue.
Al treilea tabel de ofer informaii referitoare la Testul Levene, care verific similaritatea varianelor. Din moment ce semnificaia acestui test este 0,085 (valoarea care este mai mare dect 0,05), varianele sunt similare Al patrulea tabel indic nivelele de semnificaie pentru cele dou variabile Alcool i Privare de somn, i interaciunea dintre acestea. n tabelul de analiz a varianei, raportul F pentru cele dou efecte principale (Alcool i Privare de somn) este prezentat primul. Pentru prima variabil, cea a alcoolului, Raportul F este 22,891, ceea ce este semnificativ la nivelul 0,000. Deoarece sunt numai dou condiii pentru ca acest efect s se produc, se poate conhide c scorul mediu al uneia dintre condiii este mult mai mare dect pentru cealalt. Pentru a doua variabil a privrii de somn, aceasta este egal cu 5,797, valoare care are un nivel exact de semnificaie de 0,017. Astfel, Raportul f este semnificativ din punct de vedere statistic la un nivel de 0,05, ceea ce nseamn c mediile celor trei condiii legate de somn nu sunt similare. Mediile care difer de celelalte pot fi determinate ulterior prin folosirea testelor de comparaii multiple, cum este Testul t pentru eantioane independente.
257
raportul F pentru interaciunile dintre cele dou variabile (Alcool i Privare de somn) este de 2,708 nivelul de semnificaie al acestui raport este de 0,107 nu este nicio interaciune semnificativ. Acest grafic este realizat pentru mediile celor ase condiii. El a fost editat cu ajutorul comenzii Chart Editor.
Estimated Marginal Means of erori
privare de somn 3 ore
22,50
6 ore 9 ore
20,00
17,50
15,00
12,50
alcool
258
_________________________________________________________________________________________________________________
Acest capitol extinde aria de acoperire a Testelor t multiple prezentate n capitolele anterioare i explic modul n care se decide care perechi de medii sunt diferite n mod semnificativ ntre ele, n cazul analizei de varian. Aceast tehnic se folosete atunci cnd sunt mai mult de dou medii. Pentru a prezenta aceast procedur vor fi folosite informaiile prezentate la capitolul XV. Date studiu Grup 1 Grup 2 Tratament hormonal Tratament hormonal 8 4 11 2 8 4
Grup 3 Placebo 4 6 4
Pasul 1: Se introduc datele. Se codific cele trei condiii cu valorile 1, 2, 3. Se eticheteaz Hormon 1, Hormon 2 i Placebo. Pasul 2: Se selecteaz: Analyze
259
Pasul 3: Se selecteaz depresie i se apas butonul de lng caseta Dependent List pentru a introduce parametrul n caset. Se selecteaz Condiie i se apas butonul de lng caseta Factor pentru a introduce parametrul acolo. Se selecteaz Post Hoc
Pasul 4: Se selecteaz: Tukey Duncan Scheffe. Se apas Continue. Se selecteaz OK n ecranul care va aprea din nou.
260
Primul tabel reprezint rezultatele analizei de varian. Raportul F pentru efectul dintre grupuri (adic efectul hormonilor) este 13,941, care are un nivel exact de semnificaie de 0,006. Acest lucru nseamn c efectul dintre grupuri este semnificativ; per total, mediile pentru cele trei grupuri difer. Al doilea tabel i ultimul ofer rezultatele celor trei teste de comparaii multiple.
Dac se folosete Testul Tukey al diferenei semnificative oneste (HSD), media de la grupul hormonului 1 este semnificativ diferit de media de la grupul
261
Subgrupele omogene. Grupul hormonului 2 i al controlului Placebo aparin aceleiai subgrupe, ceea ce nseamn c nu sunt semnificativ diferite. Grupul hormonului 1 este singurul din aceast a doua subgrup, motiv pentru care aceasta este semnificativ diferit de mediile celorlalte dou grupe. * Sunt reprezentate mediile grupelor din subgrupele omogene.
a. Folosete Media armonic a dimensiunilor eantioanelor =3,000.
Tabelul final, numit Subgrupele omogene, enumer grupurile de medii care nu sunt semnificativ diferite ntre ele. Dac se ia n calcul aceste dou rnduri pentru a se folosi n Testul Tukey HSD, n acest caz exist dou subgrupe de medii. Subgrupa 1 indic faptul c mediile grupelor hormonului 2 i ale controlului placebo cu valorile 3,33 i 4,67 nu difer semnificativ. Subgrupa 2 conine doar media grupei hormonului 1, n valoare de 9,00. Astfel, media grupului hormonului 1 este semnificativ diferit att de media grupei hormonului 2, ct i de cea a gupelor de control placebo .
262
Toate cele trei teste prin comparaii multiple sugereaz acelai lucru: faptul c exist diferene semnificative ntre grupele hormonului 1 i hormonului 2 i ntre grupele hormonului 1 i cele ale controlului placebo. Alte diferene nu mai exist.
263
1. Calculul variabilelor noi se poate realiza prin: a. adunare i scdere; b. nmulire i mprire;
c. ambele variante de mai sus. 2. Analiza de varian (ANOVA): a. indic msura n care dou sau mai multe grupuri au medii foarte diferite; b. calculeaz variaia dintre dou scoruri; c. calculeaz variaia dintre mediile eantionului. 3. a. b. c. 4. a. b. c. ANOVA este utilizat pentru: a testa diferena ntre cel puin 2 grupuri; a testa diferena ntre cel puin 3 grupuri; a testa diferena ntre cel puin 4 grupuri; Analiza two-way de varian permite: compararea mediilor unor variabile independente; compararea mediilor dintre dou grupuri; compararea mediilor unei variabile dependente atunci cnd exist dou variabile independente.
5. Comparaiile multiple cu ANOVA: a. explic modul n care se decise care perechi de medii sunt diferite n mod semnificativ ntre ele; b. se folosete atunci cnd sunt mai mult de dou medii;
264
265
266