Sunteți pe pagina 1din 9

STATISTICA INFERENIAL, NOIUNI DE BAZ Scorurile z i curba normal Lect. univ. dr.

Gheorghe Perea Utilizarea tehnicilor de prezentare i descriere a datelor ne ofer, aa cum am vzut, informaii asupra caracteristicilor fiecreia dintre variabilele supuse msurrii. Statistica descriptiv se ocup de analiza datelor sub aspectul caracteristicilor lor intrinseci (frecvena valorilor, indicatorii tendinei centrale, ai mprtierii sau formei distribuiilor). Dar scopul ultim al metodei tiinifice nu se limiteaz la descrierea datelor, ci vizeaz evidenierea relaiilor dintre variabile i, pe aceast baz, predicia i nelegerea fenomenelor psihice. Cercetarea tiinific n psihologie const n a identifica probleme, a emite ipoteze i teorii i a testa validitatea lor cu ajutorul unor proceduri statistice adecvate. Aceste proceduri fac parte din ceea ce se numete statistica inferenial. Pentru abordarea acesteia, vom introduce succesiv o serie de concepte i proceduri analitice fundamentale. Scoruri standard (z) n psihologie, atunci cnd msurm o anumit caracteristic a unui individ (timp de reacie, anxietate, inteligen, nivel de performan etc.) scopul implicit este acela de a efectua comparaii. Pentru aceasta ns, simpla expresie numeric a caracteristicii respective nu este suficient. S presupunem c efectum interviuri n cadrul unui examen de angajare i ntrebm un candidat dac tie limba englez, iar acesta ne rspunde am susinut, de curnd, un examen de limba englez la care am obinut 70 de puncte. Dac examenul i modul de evaluare ne sunt total necunoscute, informaia nu ne spune mare lucru. Desigur, bazndu-ne pe experiena anterioar, putem face nite presupuneri, dar acestea nu in loc de certitudini. Pentru a ne lmuri, ar trebui s-i punem candidatului punem cteva ntrebri suplimentare: Care este maximum i minimum de puncte posibil la acel examen? (dac maximul este ntr-adevr 100, iar minimul este 0, atunci putem spune c 70 este un scor mai aproape de 100 dect de 0); Care este rezultatul mediu obinut la acel examen? (dac rspunsul ar fi 60, nseamn c 70 este o valoare peste medie cu 10 uniti); n fine, dac am dori s apreciem cu maxim precizie semnificaia cifrei 70, ar trebui s tim care este mprtierea rezultatelor obinute de participanii la examen. Figura de mai jos plaseaz valoarea comunicat de candidatul nostru (70) n dou distribuii ipotetice, avnd, ambele, media 60, dar mprtieri diferite, s spunem 5, respectiv 20.

Dac privim cele dou distribuii putem face urmtoarele observaii: > Pentru ambele distribuii, valoarea 70 este cu 10 uniti peste medie (60)

> n cazul distribuiei I, mai omogen, scorul 70 se plaseaz ctre extrema valorilor, n timp ce, n contextul distribuiei II, cu mprtiere mai mare, este mai aproape de medie dect de valorile superioare. Modalitatea de a exprima semnificaia unei anumite valori dintr-o distribuie prin raportare la parametrii distribuiei (medie i abatere standard) este scorul standardizat z (numit i not z sau scor z). Aceasta msoar distana dintre o anumit valoare i media distribuiei, n abateri standard:

unde x reprezint oricare dintre valorile distribuiei Pentru cele dou distribuii de mai sus, scorurile z se calculeaz astfel:

Iar n cazul n care pentru distribuia II am avea un scor de 45:

Semnul la rezultat ne arat c performana este mai mic dect media, mai precis, se afl la 0.75 abateri standard sub medie. Semnul + indic o valoare standardizat peste medie, indicnd, n exemplul de mai sus, c se plaseaz la o jumtate de abatere standard deasupra mediei. Scorul z se numete scor standardizat (not standardizat), deoarece exprim distana unei valori fa de media distribuiei din care face parte n uniti ale abaterii standard. De aici decurge unul din avantajele lui importante, acela de a putea fi utilizat pentru a compara valori care provin din distribuii diferite, indiferent de unitatea de msur a fiecreia. Exemplu: Dac un subiect obine un scor echivalent cu z=+0.2 la un test de calcul aritmetic i un scor echivalent cu z=+0.1, la un test de reprezentare spaial, se poate spune c are o performan mai bun la primul test dect la al doilea. Calcularea valorii atunci cnd cunoatem parametrii scorului z Dac am calcula scorurile (notele) z pentru fiecare dintre valorile unei distribuii, am obine o distribuie n scoruri z a acelei distribuii. n tabelul urmtor, distribuia X a fost transformat n distribuie z. X z 14 +0.50 11 -0.75 10 -1.17 16 +1.34 13 +0.08 N=5 N=5 X=64 Z=0 m=12.8 m=0 s=1 s=2.38

Utiliznd proprietile de transformare a formulei de definiie a scorului z, putem calcula o anumit valoare atunci cnd cunoatem valoarea lui z i parametrii distribuiei, astfel:x=z*s+m adica, pentru ultimul exemplu, x=-0,75*2,38+12,8=11 Proprietile scorurilor z
1.Media

unei distribuii z este ntotdeauna egal cu 0. Aceasta rezult din proprietatea mediei de a se diminua corespunztor dac se extrage o constant din fiecare valoare a unei distribuii. Formula de calcul pentru z implic scderea unei constante din fiecare valoare a distribuiei. Aceasta nseamn c i media noii distribuii (z) se va reduce cu constanta respectiv. Dar aceast constant este nsi media distribuiei originale, ceea ce nseamn c distribuia z va avea media egal cu zero, ca rezultat al diminurii mediei cu ea nsi. 2.Abaterea standard a unei distribuii z este ntotdeauna 1. Acest fapt decurge prin efectul cumulat al proprietilor abaterii standard. Prima proprietate afirm c n cazul scderii unei constante (n cazul scorurilor z, media) din valorile unei distribuii, abaterea standard a acesteia nu se modific. A doua proprietate afirm c n cazul mpririi valorilor unei distribuii la o constant, noua abatere standard este rezultatul raportului dintre vechea abatere standard i constant. Dar constanta de care vorbim este, n cazul distribuiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre dou valori identice al crui rezultat, evident, este 1. Alte tipuri de scoruri standardizate Scorurile z prezint un avantaj important, permit compararea valorilor unei distribuii i a valorilor provenind din distribuii diferite, ca urmare a faptului ca se exprim n abateri standard de la medie. Totui se impune o anumit precauie n comparaia pe baza scorurilor z atunci cnd distribuiile au forme diferite i, mai ales, asimetrii opuse. Notele z au ns i unele dezavantaje: se exprim prin numere mici, cu zecimale, (greu de manipulat intuitiv) i, n plus, pot lua valori negative. Aceste dezavantaje pot fi uor nlturate printr-un artificiu de calcul care s conduc la note standardizate convenabile, ce corespund anumitor nevoi practice specifice. n tabelul de mai jos sunt descrise cteva tipuri de note standard calculate pe baza notelor z.
Tipuri de scoruri Formula bazat pe Formula desfurat STAN notele z Note z Note z Note T (Thurstone) Note H(Hull) QI (Binet) QI (Wechsler) 100+15*z QI =100 +15* x - m /s 100 15 z = x - m /s 50+10*z 50+14*z 100+16*z T = 50 +10* x - m /s H = 50 +14* x - m /s QI =100 +16* x - m /s m s

0 50 50 100

1 10 14 16

SAT (Scholast Assessment Test)

500+100*z

SAT = 500 +100* x - m/ s

500

100

Observaii: >Toate variantele sunt obinute prin transformarea operat pe distribuia de note z. >La nici una dintre variante nu mai avem valori negative (cu condiia ca distribuia s nu aib o variabilitatea aberant). >Zecimalele nu mai sunt semnificative (ele rezult din calcule, dar sunt ignorate). >Distribuiile variantelor oscileaz n jurul unei valori medii specifice, sub care se afl 50% din valori, i peste care se afl restul de 50% dintre valori. >Scorurile standard mari indic valori mari, iar scorurile standard mici indic valori mici. Acest fapt poate crea dificulti n unele cazuri. S lum urmtorul exemplu: Un subiect realizeaz 145 rspunsuri corecte la un test de calcul aritmetic (m=120, s=12) i un timp de reacie de 0.15 sec, la un test de reactivitate (m=0,11, s=0,05). n acest caz, notele T corespunztoare celor dou performane sunt: T1=50+10*(145120)/12=70, respectiv T2=50+10*(0,15-0,11)/0,05=58. Cu alte cuvinte, ar rezulta c la ambele teste subiectul nostru a obinut un rezultat peste medie. Dar aceast concluzie este fals, dac inem cont c la testul de reactivitate un timp mai mare nseamn o performan mai sczut. Soluia problemei const n modificarea semnului expresiei de calcul, n funcie de semnificaia calitativ a valorilor distribuiei. n acest mod, rezultatul transformrii n not standard la testul de reactivitate devine: T2=5010*(0,15-0,11)/0,05=42, ceea ce indic exact semnificaia de performan sub medie. Raportat la valoarea medie a distribuiei T, scorul 58 este echivalent cu 42, sub aspectul distanei fa de medie (8 uniti). Diferena const n faptul c valoarea 42 exprim i n mod intuitiv, nu doar cantitativ, evoluia performanei la test. O asemenea transformare nu este obligatorie, se poate utiliza oricare dintre formule, cu semnul plus, sau minus. n orice caz, trebuie s precizm semnificaia valorilor mari si mici pentru distribuiile cu care operm. Curba normal (Gauss) Reprezentarea grafic a rezultatelor msurrilor reale poate lua diverse forme, curba distribuiei putnd fi unimodal sau multimodal, aplatizat sau nalt, simetric sau asimetric. n statistic exist ns un tip special de distribuie, numit distribuie normal, care corespunde reprezentrii grafice a unei caracteristici pentru care exist un mare numr de msurri, tinznd spre infinit. Aceast distribuie este numit teoretic pentru c nu este rezultatul unui proces real de msurare, ci reprezint un model teoretic. Conceptul de curb normal (expresia grafic a distribuiei normale) se refer la un anumit tip de distribuie teoretic care are cteva proprieti caracteristice: >are form de clopot. Cea mai mare parte a valorilor se concentreaz n zona central (medie); >este perfect simetric pe ambele laturi ale sale;

>linia curbei se apropie la infinit de axa OX (orizontal), fr a o atinge vreodat; >n conformitate cu proprietatea 2, de fiecare parte a mediei se afl exact jumtate dintre valorile distribuiei. Exemple de curbe normale:

Imaginea de mai sus ilustreaz diferite variante ale familiei de curbe normale, care respect, fiecare dintre ele, condiiile de mai sus, chiar dac au medii i abateri standard diferite. Curba normal standardizat Curba normal n care valorile sunt exprimate n scoruri z se numete curba normal standardizat. Ea are toate proprietile enunate mai sus, avnd ns i parametrii oricrei distribuii z: m=0 i s=1. Rezult astfel c distribuia normal standardizat (z) este este simetric n jurul lui 0.

Curba normal standardizat are cteva caracteristici care sunt figurate n imaginea de mai sus i pe care este important s le reinem: Aproximativ 34% dintre scorurile distribuiei normale se afl ntre medie i o abatere standard deasupra mediei (z=+1) ntre 1z i +1z se afl aproximativ 68% dintre valorile distribuiei Aproximativ 96% dintre scoruri se afl ntre 2z i +2z Avnd n vedere distribuia scorurilor z pe o curb normal standardizat, aceasta poate fi utilizat pentru a afla rspuns la ntrebri precum: Care este procentajul de valori care se afl sub/peste o anumit not z; ntre anumite note z; ori ntre medie i o not z? Care este nota z corespunztoare unui anumit procentaj de valori? Pentru a rspunde la aceste ntrebri, se utilizeaz o tabel special care conine, sub form de probabiliti, frecvenele valorilor de sub curba normal z (Anexa 1).

Aa cum vom vedea mai departe, curba normal are o importan aparte pentru analiza statistic. Aceasta, deoarece se accept faptul c variabilele statistice s-ar distribui mai ales sub aceasta form dac ar fi efectuate un numr mare (tinznd spre infinit) de msurri. Exemple: S ne raportm la distribuia valorilor QI, pentru care media este egal cu 100 i abaterea standard 16 Exemplul 1: Care este procentajul oamenilor al cror scor QI este ntre 100 i 110?

Pentru a rspunde la aceast ntrebare, convertim valorile QI n scoruri z. 100(QI)=0(z). Pentru 110(QI) se aplic formula: X m 110 100 = = +0, 63 s 16

z=

Aria de sub curba normal cuprins ntre valorile QI i 100 i 110 este reprezentat pe figura urmtoare:

Citim tabela ariilor la intersecia celulelor 0.6 cu 0.03. Valoarea este 0.2357 ceea ce, exprimat n procente, este 23.57% Conchidem c 23.57% din oameni au un QI cuprins ntre 100 i 110) Exemplul 2: Care este procentul oamenilor al cror QI este mai mare dect 125? Convertim n note z: X m 125 100 = =+1.56 s 16

z=

Aria de sub curba normal pentru scoruri QI mai mari dect 125 este reprezentat mai jos:

Citim valoarea din tabel care corespunde interseciei celulei 1.5 cu 0.06, pentru a afla procentajul dintre medie i nota z +1.56. Gsim valoarea, exprimat n procente, 44.06%. Acesta este procentajul dintre medie i z=+1.56. tim c procentajul peste medie este 50%, ca urmare, procentajul celor peste QI=125 va fi 50-44.06=5.94. Conchidem c 5.94% dintre oameni au un QI mai mare de 125 (z=1.56) Exemplul 3: Care este scorul minim pe care trebuie s- l obin o persoan pentru a fi ntre primii 5% din populaie? Ne reprezentm aria de sub curb care delimiteaz cele mai mari 5% dintre valorile z, trebuind s aflm valoarea corespunztoare z, respectiv QI:

Aria dintre medie i linia noastr este 50%-5%=45%. Cutm n tabel valoarea cea mai apropiat de 0.45 i o gsim la intersecia celulelor 1.6 cu 0.04. Deci, z=1.64 pentru limita procentului de 5%. Convertim scorul z=1.64 n valoare brut: X=m+z*s=100+ (+1.64)*16=126.24 Conchidem c pentru a fi n primii 5% trebuie s obinem un QI=126.24 Exemplul 4: Care este scorul care indic cei mai slabi 33%? Ne reprezentm limita de 33% n zona valorilor de sub medie:

Cutm scorul z corespunztoare acestui procent. Mai nti, scdem 33% din 50% ct reprezint aria din partea inferioar a curbei. Obinem 17% Cutm nota z corespunztoare procentului de 17% de sub medie. Valoarea 0.1700 (17%) se gsete la intersecia celulelor 0.4 cu 0.04, ceea ce indic nota z=-0.44 (cu minus, pentru c ne aflm n partea stng a curbei). Convertim nota z n valoare brut: X=m+z*s=100+(-0.44)*16=92.96. Conchidem c este necesar un scor de cel mult 92.96 pentru a avea un QI ntre ultimii 33%. Aria de sub curba normal vzut ca probabilitate Valorile reprezentate pe curba normal nu reprezint valori reale, rezultate n urma unui proces de msurare. Ele reprezint valori ipotetice, distribuite astfel pe baza unui model matematic (legea numerelor mari). Nimic nu ne mpiedic s considerm c valorile de sub curba normal sunt rezultatul unei ipotetice extrageri aleatoare. Pe msur ce extragem mai multe valori, curba de distribuie a acestora ia o form care se apropie de forma curbei normale.

Extrgnd la infinit valori aleatoare, vom obine o distribuie normal perfect, exprimabil printr-o curb normal perfect. Din cele spuse mai sus, rezult faptul c valorile din zona central a curbei sunt mai frecvente (mai multe), pentru c apariia lor la o extragere aleatoare este mai probabil. n acelai timp, valorile mai puin probabile, apar mai rar i populeaz zonele laterale, din ce n ce mai extreme, ale distribuiei (curbei). Probabilitatea nseamn frecvena relativ a apariiei unui eveniment. Subiectiv, se traduce prin ct de siguri putem fi c acel eveniment apare. Dac probabilitatea reprezint raportul dintre evenimentul favorabil i toate evenimentele posibile, atunci valoarea ei variaz ntre 0 i 1. Ea poate fi exprimat i n procente. De exemplu, probabilitatea de 0.05 corespunde unui procentaj de apariie de 5% Utiliznd simbolul p (de la probabilitate), spunem c dac p<0.05 nseamn c evenimentul are mai puin de 5% anse s apar, n condiiile unei distribuii corespunztoare curbei normale. Procentajul ariilor de sub curba normal poate fi citit deci, i ca probabilitate a distribuiei. De exemplu, probabilitatea de a avea un scor ntre medie i z=+1 este de p=0.34, iar probabilitatea de avea un scor z=+1.65 sau mai mare, este mai mic de 0.05 (p<0.05). Distribuii reale i distribuii normale z Caracteristicile curbei normale i frecvena cu care se face apel la aceasta n studiile statistice determin adesea interpretri greite. De aceea se cuvine s insistm asupra faptului c distribuia normal reprezint un model teoretic care se consider c aproximeaz de o manier mulumitoare cele mai multe dintre distribuiile caracteristicilor naturale, incluzndu-le i pe cele psihice. Cu toate acestea, distribuiile reale pe care le descoper psihologii n studiile lor nu au niciodat parametrii unei curbe normale perfecte. Acest lucru este practic imposibil dac ne gndim c o curb normal are limitele deschise, mergnd spre infinit, n timp ce distribuiile reale sunt ntotdeauna finite. n ciuda acestui neajuns, aproximarea oferit de modelul teoretic al curbei normale este considerat acceptabil din punct de vedere tiinific. Un alt aspect care poate conduce la interpretri eronate este exprimarea valorilor curbei normale n scoruri z. Acest fapt este neles adesea cu sensul c transformarea n scoruri z a unei distribuii o transform automat ntr-o distribuie normal, ceea ce este o concluzie profund greit. Convertirea valorilor unei distribuii n scoruri z nu modific forma distribuiei. Distribuia normal z este o distribuie teoretic, n timp ce o distribuie z oarecare are forma distribuiei valorilor originale. Exerciii La o coal de aviaie a fost evaluat preferina pentru risc a studenilor care au avut incidente de zbor. Unul dintre studeni a obinut scorul 60 la preferina pentru risc. Presupunnd c preferina pentru risc a populaiei de studeni piloi ar avea o distribuie normal, cu media 50 i abaterea standard 8, calculai rspunsul la urmtoarele ntrebri: 1.Care este scorul z corespunztor studentului respectiv? 2.Care este procentajul valorilor posibile ntre valoarea 60 i medie? 3.Care este procentajul valorilor mai mari dect 60? 4.Care este procentajul scorurilor mai mici de 60? 5.Care este probabilitatea de avea un scor mai mare de 53? 6.Care este probabilitatea de a avea un scor mai mic de 30? 7.Care este probabilitatea de a avea un scor cuprins ntre 35 i 42? 8.Care este scorul minim pe care l poate avea o persoan pentru a intra n primii 10% dintre subieci? 9.Care este scorul maxim pe care trebuie s l obin cineva pentru a se afla printre ultimii 15%?

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0

0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987

Tabela ariilor de sub curba normal. Valorile din tabel reprezint ariile de sub curba normal ntre 0 (medie) i o anumit not z. De exemplu, dac vrem s aflm aria cuprins ntre notele z 0 i 2,36, ne uitm la intersecia celulei de pe linie cu eticheta 2,30 i n coloana etichetat 0,06. Aria de sub curb (probabilitatea) ntre cele dou valori este n acest caz: 0.409. Asta se poate exprima n procente astfel: 40,9% dintre valorile unei distribuii normale se afl ntre z=0 i z=2,36 (Tabela este parial, fiind ntrerupt la valoarea z=3,09) Aria dintre 0 i z 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

Tabel preluat din Electronic Textbook, STATSOFT, Copyright StatSoft, Inc., 19841999