Sunteți pe pagina 1din 27

Reprezentarea grafică a datelor

și
Indicatori statistici

Seminar 3 - 4
Modalități de reprezentare grafică și
specificul lor
- Pe baza analizei de frecvenţe, se pot realiza o serie de reprezentări
grafice ale valorilor dintr-o distribuţie.

Dintre alternativele de reprezentare grafică a datelor, vom ilustra:


• graficul de bare
• poligonul de frecvenţe
• graficul radial
• histograma
• distribuția normală-curba lui Gauss
Modalități de reprezentare grafică și
specificul lor
Graficul de bare şi poligonul de frecvenţe constituie reprezentări grafice
ale frecvenţei absolute pentru fiecare valoare a unei distribuţii.

Poligonul de frecvențe
• Este un grafic care reprezintă frecvenţele absolute dintr-un tabel de
frecvenţă printr-o linie frântă

• Linia frântă, leagă puncte din plan care au ca ordonate frecvenţele de


reprezentat
Modalități de reprezentare grafică și
specificul lor

2.0

F req u en cy
1.5

1.0

0.5

0.0
43. 57. 65. 68. 69. 72. 76. 79. 82. 85. 86. 88. 92. 97. 99. 100
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .00

Rezultate la testul de matematica


Modalități de reprezentare grafică și
specificul lor
• Poligonul frecvenţelor este şi el utilizat pentru reprezentarea grafică a
distribuţiilor de frecvenţe absolute sau relative.

• Pentru construirea lui, din fiecare valoare a caracteristicii se ridică


câte o perpendiculară şi se marchează pe ea punctul aflat la o distanţă
egală cu frecvenţa. Unind toate punctele astfel găsite rezultă un
poligon numit „poligonul frecvenţelor”.
Modalități de reprezentare grafică și specificul lor

2.0

1.5

Count
1.0

0.5

0.0
43. 57. 65. 68. 69. 72. 76. 79. 82. 85. 86. 88. 92. 97. 99. 100.
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

Rezultate la testul de matematica


Modalități de reprezentare grafică și specificul lor

• Graficul radial este o reprezentare grafică des utilizată, mai ales în


reprezentarea distribuţiilor ce rezultă din măsurarea variabilelor
nominale sau ordinale şi ilustrează frecvenţa relativă a valorilor.

Gen
fata
baiat

13
Modalități de reprezentare grafică și specificul lor

• Diagrama de structură este folosită pentru a reprezenta grafic


structura unei colectivităţi, sistematizate după valorile unei variabile
cantitative sau calitative.
• Graficul arată, aşadar, modul în care întregul se subdivide în părţi
componente.
• De obicei, diagrama se trasează cu ajutorul cercului, a cărui arie
reprezintă întregul; acesta se împarte în mai multe bucăţi („felii”),
unghiul la centru corespunzător acestei părţi de cerc este
proporţional cu raportul dintre frecvenţa absolută şi volumul total al
colectivităţii (adică cu frecvenţa relativă) acelei clase/grupe.
Modalități de reprezentare grafică și specificul lor

• Histograma

• Se realizează pe baza analizei de frecvenţe grupate pe intervale.


• Ea este importantă deoarece poate sugera eventuale abateri de la distribuţia
normală şi astfel, poate determina cercetătorul să ia decizii privind investigarea
mai aprofundată a normalităţii distribuţiei.
• Histograma conţine o succesiune de dreptunghiuri, cu bazele corespunzătoare
lungimii intervalelor şi înălţimile egale cu numărul de observaţii din fiecare
interval (sau cu ponderea lor). Dacă intervalele au mărime egală, atunci şi
coloanele vor avea lăţime egală.
• Ca aspect, histograma are barele lipite, în timp ce graficul cu bare lasă o oarecare
distanţă între bare. Nu este recomandat folosirea graficelor unul în locul celuilalt.
Indicatori statistici

• indicatori ai tendinţei centrale – modul, mediana, media

• indicatori ai variabilităţii sau ai împrăştierii – amplitudinea, abaterea


cvartilă, dispersia, abaterea standard, coeficientul de variaţie

• indicatori ai formei distribuţiei – coeficientul de asimetrie şi


coeficientul de boltire (aplatizare).
Indicatorii tendinței centrale
• Indicatorii tendinţei centrale surprind valorile tipice pentru un set de
date.

• Modul (Mo) este valoarea dintr-o distribuţie pentru care se


înregistrează cea mai mare frecvenţă absolută.
Indicatorii tendinței centrale
• Distribuţiile care are un singur mod (o singură valoare are frecvenţa
absolută cea mai ridicată) se numesc unimodale, cele care au două
moduri sunt bimodale, iar cele pentru care se înregistrează trei sau
patru moduri sunt multimodale.

• În cazul unei distribuţii de frecvenţe grupate, modul este reprezentat


de intervalul pentru care se înregistrează cea mai mare frecvenţă
absolută
Indicatorii tendinței centrale
• Modul are avantajul de a fi corespondentul unei valori reale.
 
• Modul are însă dezavantajul de a rezuma distribuţia la o singură
valoare a sa, fiind mai puţin reprezentativ decât ceilalţi indicatori ai
tendinţei centrale pentru variabilele măsurate pe scale ordinale şi de
interval.

• El este recomandat în special pentru variabilele nominale, fiind


singurul indicator statistic ce se poate calcula în aceaste cazuri.
Indicatorii tendinței centrale
• Mediana (Me) este acea valoare care prin poziţia sa se află în centrul
unei distribuţii, în sensul că 50% dintre valori sunt mai mici decât
valoarea sa şi 50% sunt mai mari, fiind chiar percentila 50% (sau
cvartila a doua).

• În cazul în care distribuţia cuprinde un număr impar de valori,


mediana este valoarea din distribuţie corespunzătoare rezultatului
formulei Me= N+1 / 2 (în timp ce în cazul distribuţiilor care includ un
număr par de valori mediana se calculează adunând cele două valori
din centrul distribuţiei şi împărţind suma acestora la doi.
Indicatorii tendinței centrale

43 57 65 68 68 69 72 76 76 79 82 85 86 88 88 92 92 97 99 100

• Media (M) este cel mai utilizat indicator al tendinţei centrale şi se calculează
ca raport între suma tuturor valorilor dintr-o distribuţie şi numărul de valori
(nu este altceva decât media aritmetică a valorilor din distribuţie): M = ΣX / N
• Spre deosebire de mod, media ia în calcul toate valorile dintr-o distribuţie şi,
în plus faţă de mediană, este afectată de valorile extreme ale unei distribuţii.
De aceea, media se recomandă ca indicator al tendinţei centrale pentru
variabilele măsurate pe scale de interval.
Indicatorii variabilităţii sau ai împrăştierii

• Indicatorii variabilităţii sau ai împrăştierii oferă informaţii despre


diferenţele dintre valorile dintr-o distribuţie;

• Două distribuţii pot avea medii identice, spre exemplu, însă


indicatorii variabilităţii ar putea ilustra cât de diferite sunt cele două
distribuţii din punct de vedere al diversităţii scorurilor.
Indicatorii variabilităţii sau ai împrăştierii

• Cel mai simplu indicator ai varibilităţii este amplitudinea (R) care se calculează
ca diferenţă între scorurile extreme ale unei distribuţii (cel mai mare şi cel mai
mic scor): R = X max – X min.

• Pentru variabila din exemplul nostru amplitudinea este R = 57 (diferenţa dintre


100 şi 43).

• Deşi nu este un indicator statistic des utilizat, deoarece poate fi influenţat


puternic de valorile extreme ale unei distribuţii şi nu ia în calcul celelalte
scoruri, amplitudinea este singurul indicator al variabilităţii care se poate
calcula pentru variabilele nominale.
Indicatorii variabilităţii sau ai împrăştierii
• Dispersia sau varianţa (s2) oferă date despre împrăştierea tuturor valorilor dintr-o distribuţie, raportându-
se la medie, ca indicator al tendinţei centrale.

• Abaterea de la medie a unei valori este diferenţa dintre acel scor şi media distribuţiei (X – M).

• Una dintre proprietăţile mediei este însă aceea că suma tuturor abaterilor individuale de la medie este
egală cu 0, Σ (X – M) = 0 - cu alte cuvinte, abaterile pozitive se vor anula cu cele negative.

• Pentru a calcula o măsură a variabilităţii la nivelul întregului eşantion sau al întregii populaţii trebuie
utilizată fie suma valorilor absolute ale abaterilor individuale de la medie, fie suma pătratelor acestor
abateri.

• Astfel, dispersia (s2) se calculează ca medie aritmetică a abaterilor pătratice ale fiecărei valori de la media
• s2= Σ (X – M)2 / N-1.
Indicatorii variabilităţii sau ai împrăştierii

• Abaterea standard (notată cu s sau SD) este cel mai utilizat indicator al
variabilităţii şi se calculează ca radical de ordinul doi din dispersie sau
varianţă:

• Din cauza ridicării la pătrat la abaterilor de la medie, varianţa este


dificil de interpretat, cercetătorii preferând abaterea standard.

• Abaterea standard este un indicator statistic stabil şi include informaţii


despre toate valorile dintr-o distribuţie.
Indicatori ai formei distribuţiei
• Coeficientul de asimetrie (engl. skweness) măsoară abaterea unei
distribuţii de la aspectul simetric şi direcţia asimetriei (pozitivă sau
negativă) faţă de curba normală.

• Coeficientul de asimetrie poate lua valori între -1 şi +1 şi se interpretează


astfel:
1. valoarea sa este 0 pentru un set de date care are o distribuţie normală s= 0
2. valori negative pentru seturile de date asimetrice spre stânga (include mai
multe valori mici) s<0
3. valori pozitive pentru seturile de date asimetrice spre dreapta (include mai
multe valori mari) s>0
Indicatori ai formei distribuţiei - de
asimetrie
Indicatori ai formei distribuţiei
• Coeficientul de boltire sau de aplatizare (engl. kurtosis) este un indicator al poziţiei valorilor
dintr-o distribuţie în raport cu valorile centrale.

• Pentru o distribuţie normală sau mezocurtică, valoarea coeficientului de boltire este 0, k=0.

• Atunci când valoarea acestuia este mai mare decât 0, scorurile sunt puternic grupate în
jurul valorilor centrale, iar curba frecvenţelor este mai boltită, indicând o distribuţie
leptocurtică - k>0.

• Când valoarea coeficientului de boltire este mai mică decât 0, cele mai multe scoruri sunt
mai departe de valorile centrale şi mai aproape de cele extreme, curba frecvenţelor fiind
mai aplatizată şi indicând o distribuţie platicurtică k <0.
Indicatori ai formei distribuţiei - de boltire
Curba normală
• Curba normală este, de fapt, o curbă a frecvenţelor care ar putea
rezulta din măsurarea oricărei caracteristici la nivelul unei populaţii.
Curba normală are formă de clopot, fiind perfect simetrică şi având
înălţime medie (valoarea coeficienţilor de simetrie şi boltire este 0);
• b) La stânga şi la dreapta mediei se află un număr egal de valori, adică
50%;
• c) Media, mediana şi modul au aceeaşi valoare;
• d) Acelaşi număr/procent de scoruri se situează la o abatere standard
în dreapta mediei (+1σ)
Curba normală – Gauss - LaPlace
Scoruri standardizate z

• Scorurile standardizate z rezultă din transformarea scorurilor reale dintr-o


distribuţie, prin raportarea concomitentă la media şi abaterea standard a
acelei distribuţii. Scorurile z se calculează după formula:

• z = (X – M) / SD, unde X este valoarea din distribuţie, M este media


distribuţiei, iar SD este abaterea standard

• Dacă scorul pe care îl transformăm este mai mare decât media distribuţiei,
valoarea lui z va fi pozitivă, iar dacă acesta este mai mic decât media,
valoarea lui z va fi negativă. Dacă scorul este egal cu media, valoarea lui z va
fi 0, deoarece media unei distribuţii de note z este întotdeauna 0 (iar
abaterea standard este întodeauna 1).
Interpretare note standardizate z
• Cand z=0 – înseamnă că avem un scor brut (X) egal cu media

• z>0 și spre exemplu z = 1 – însemnă că avem un scor brut (X) cu 1


abatere standard mai mare decât media (M)

• Z < 0 si spre exemplu z = -1 – inseamna ca avem un scor brut (X) cu 1


abateri standard mai mic decat media (M)

• Z = avem M = 0 si SD = 1

S-ar putea să vă placă și