Sunteți pe pagina 1din 30

Scale de msur

Slide 1
Msurarea reprezint un proces prin intermediul cruia se asociaz numere sau
simboluri unor caracteristici sau proprieti ale unor obiecte sau ale unor subieci, care
constituie obiectul studiului.

Atribuirea de numere sau simboluri pentru caracteristicile sau proprietile unor
obiecte se face pe baza respectrii unor reguli prestabilite i prin utilizarea unor
proceduri specifice. De exemplu, dac obiectul studiului este reprezentat de indivizi
care sunt poteniali cumprtori ai unui anumit produs, atunci caracteristicile crora
este necesar a li se atribui numere sau simboluri pot fi: vrsta, venitul, sexul, profesia
etc.
Definiie: O scal reprezint un etalon corespunztor, care stabilete modul dup
care sunt atribuite valori variabilelor; a defini o scal de msurare este echivalent cu:
a stabili o mulime de valori posibile ale variabilei, mulime numit i spaiu de
selecie;
a preciza regulile dup care sunt atribuite simboluri pentru elementele unei
realit|i date, adic a defini o structur a spaiului de selecie.




Scale de msur

Slide 2
Datele sunt n general reprezentate prin numere, dar nu ntotdeauna numerele au
acelai neles i nu pot fi utilizate n aceai fel.

Pentru a distinge diferitele modaliti n care sunt utilizate valorile numerice, n mod
tradiional se disting 4 scale de msur a variabilelor : nominale, ordinale, interval i
raport.
Scala Nominal
Scala nominal este o scal non-metric, pe baza creia valorile
variabilelor sunt definite prin intermediul simbolurilor . Msurarea
variabilelor pe scala nominal este echivalent cu procesul de codificare a
variabilelor
Scala nominal este utilizat pentru a msura caracteristici ale cror valori sunt
de natur calitativ, necuantificabil.
Valorile pe care pot s le ia caracteristicile de acest tip sunt cunoscute sub
numele de categorii sau alternative. Variabilele msurate pe scala nominal
se numesc variabile nominale i sunt variabile a cror form de exprimare
este de tip atributiv i care pot fi folosite numai pentru stabilirea apartenenei
la o anumit clas a entitii descrise prin intermediul variabilei.


Exemplu:
1 reprezint persoane cstorite ,
2 reprezint persoane divorate,
3 reprezint persoane necstorite.
Atribuirea de numere categoriilor este arbitrar i poate fi schimbat fr o pierdere a
nelesului.
Pentru caracteristicile msurate pe scala nominal, poate fi calculat un numr limitat de
indicatori statistici, care reprezint, de fapt, contorizri ale simbolurilor aprute pe scala
nominal. Aceti indicatori sunt modulul i frecvena. n cazul caracteristicilor msurate pe
scala nominal poate fi evideniat i distribuia de frecven.

Un caz particular de variabile nominale sunt

variabile dihotomice (binare, bimodale) = variabile ce nu pot lua dect dou valori

ex: masculin/feminin, fumtor/nefumtor, prezent/absent, normal/anormal , DA/NU

Obs. Numarul atribuit categoriei este arbitrar putand fi schimbat fara pierderi de informatii.


Slide 3
Scala ordinal
Scala ordinal este o scal non-metric, similar scalei nominale, adic o scal de
codificare cu deosebirea c pe aceast scal este posibil ordonarea valorilor
variabilelor.
Scala ordinal permite clasificarea valorilor unei variabile n funcie de rangul
acestora, ns diferenele ntre ranguri nu sunt relevante i nu au sens. Acest tip de
scal nu d posibilitatea stabilirii gradului n care caracteristicile a dou entiti
distincte difer ntre ele (mai mult, mai puin).
Exemplu:
1 - reprezinta absolventii de facultate
2 - reprezeinta absolventii de liceu
3 - reprezinta absolventii de gimnaziu
4 - reprezinta absolventii de scoala primara
in aceasta situatie ordinea numerelor reprezinta ordinea categoriilor
Variabilele msurate pe aceast scal se numesc variabile ordinale, sunt variabile
calitative de tip discret i nu pot fi exprimate sub o form numeric real. Ca
exemple de variabile ordinale putem meniona: categoria de venit (mic, mediu,
mare), grupe de vrst,

Slide 4
Scala ordinal este utilizat n cazul n care caracteristica subiecilor supui analizei
determin o difereniere a subiecilor din punct de vedere al poziiei pe care fiecare
dintre acetia o ocup ntr-o ierarhie, ntr-o ordonare, adic n cazul n care
caracteristica ia valori de tip ordinal.
Valorile pe care pot s le ia caracteristicile msurate pe scala ordinal sunt valori
ordinale sau note, cunoscute i sub numele de ranguri. Acestor valori li se atribuie fie
numere de ordine, fie simboluri care evideniaz o anumit ordine a valorilor
caracteristicii.
Pe scala ordinal, dou valori diferite ale unei caracteristici sunt evideniate prin
intermediul a dou ranguri diferite, adic prin intermediul a dou poziii diferite n
cadrul ierarhiei. Elementele scalei ordinale, diviziunile acesteia, sunt reprezentate de
numerele sau de simbolurile folosite pentru reprezentarea rangurilor, respectiv de
poziiile posibile n respectiva ordonare. stagnare, expansiune) etc.
Scala ordinal este utilizat n cazul n care caracteristica subiecilor supui analizei
determin o difereniere a subiecilor din punct de vedere al poziiei pe care fiecare
dintre acetia o ocup ntr-o ierarhie, ntr-o ordonare, adic n cazul n care
caracteristica ia valori de tip ordinal.
Pentru caracteristicile msurate pe scala ordinal, pot fi calculai o serie de indicatori
statistici cum ar fi: modulul, mediana, coeficientul de corelaie a rangurilor, frecvena.
De asemenea, pentru caracteristicile de tip ordinal se poate evidenia i distribuia de
frecven.

Slide 5
Scala interval

Este o scal quasi-metric pe care se poate defini un punct de referin, dar acest
punct nu este o origine "zero" real, ci convenional, arbitrar. Valoarea "zero"
pe acest tip de scal nu indic nicidecum absena fenomenului msurat. Ex: scala
timpului
Pentru scala de tip interval, originea scalei este arbitrar, avnd importan doar
scalarea valorilor n interiorul intervalului.
Exemplu:
Diferena ntre vrsta de 1 i 2 ani are aceai valoare ca i diferena ntre vrsta dintre 50 i
51 de ani sau intre 65 i 66.
Diferena ntre o nlime de 80 i 55 de cm este aceai cu diferena ntre 185 i 180 cm.

Operaiile care pot fi efectuate cu valorile msurate pe scala de tip interval sunt mai
numeroase dect cele care sunt posibile pe scala nominal i ordinal. n plus fa
de operaiile permise pe primele dou scale, scala interval mai permite: calculul
mediei, calculul abaterii standard, calculul momentelor, calculul coeficienilor de
corelaie Pearson.
Slide 6
Moduri de reprezentare a datelor

Pentru a se asigura o manipulare mai convenabil i mai
eficient, datele utilizate n analiza datelor sunt reprezentate
sub forma matricial.
Aceast form de reprezentare a datelor ofer att avantajul
unei structurri simple
i clare a datelor, ct i avantajul de a oferi posibilitatea
generalizrii conceptului de mulime de date.
n principiu, datele primare sunt reprezentate n analiza de
date sub trei forme matriciale principale:
matrici de observaii,
matrici sau tabele de contingen
matrici sau tabele de proximitate.


Slide 7
Matrici de observaii
O matrice de observaii este un tablou bidimensional n care liniile reprezint
obiectele supuse msurtorilor, iar coloanele reprezint caracteristicile obiectelor.
Elementele tabloului reprezint valori nregistrate n procesul de msurare pentru
caracteristicile obiectelor supuse msurtorilor. Aceste valori mai poart i numele
generic de scoruri.
Matricile de observaii sunt matrici de tip "obiectecaracteristici".



unde un element xij reprezint valoarea nregistrat pentru cea de-a j-a
caracteristic a obiectului i.
O linie i a matricii de observaii X definete un obiect i i reprezint valorile
nregistrate de acest obiect la cele n caracteristici pe care le posed.
O coloan j a matricii de observaii X reprezint valorile nregistrate de
caracteristica j pe mulimea tuturor celor T obiecte supuse analizei.
De regul, n analiza de date, fiecare linie a matricii de observaii X este numit|
observaie i fiecare coloan a acestei matrici este numit variabil.




Slide 8
|
|
|
|
|
.
|

\
|
=
nn n n
n
n
x x x
x x x
x x x
X

2 1
2 22 21
1 12 11
Matrici de contingen
Sunt tablouri rectangulare de dimensiune mn, utilizate pentru reprezentarea
datelor referitoare la frecvenele relative sau absolute nregistrate pe o
mulime de obiecte de valorile a dou variabile de tip discret, prima variabil,
notat cu u, avnd m valori posibile, iar cea de-a doua variabil, notat cu v,
avnd n valori posibile.
Liniile unei matrici de contingen reprezint valorile posibile ale primei
variabile discrete, iar coloanele acestei matrici reprezintvalorile posibile ale
celei de-a doua variabile discrete.
n analiza datelor, matricile de contingen se mai numesc i matrici de tip
"modalitimodaliti".
Un element reprezint frecvena, absolut sau relativ, a obiectelor pentru
care prima variabil ia valoarea u
i
cea de-a doua variabil ia valoarea v
j
.
Acest element arat la cte obiecte cele dou variabile analizate au simultan
valorile u
i
i v
j
.

Slide 9
Matrici de proximitate
Sunt matrici ptratice de dimensiune nn, utilizate pentru
reprezentarea datelor cu privire la similaritatea sau nesimilaritatea
unor obiecte.
Ordinul matricilor de proximitate este determinat de numrul
obiectelor supuse studiului.
Elementele unei matricide proximitate reprezint coeficieni de
similaritate, coeficieni de nesimilaritate sau distane. Un element x
ij

din aceast matrice msoar gradul de proximitate dintre obiectul i i
obiectul j.
Matricile de proximitate se mai numesc i matrici de tip
"obiecteobiecte" i sunt utilizate n problemele de clasificare cu
ajutorul tehnicilor de tip cluster i n problemele de scalare
multidimensional.

Slide 10
Indicatorii tendinei centrale

Slide 11
Sunt utilizai n analiza statistic a fenomenelor de mas, reprezentnd
expresia sintetizrii ntru-un singur nivel reprezentativ a ceea ce este esenial,
tipic i general n apariia, manifestarea i dezvoltarea fenomenelor.

Principalii indicatori ai tendinei centrale sunt:
Mediile:
Media aritmetic
Media ptratic
Media geometric
Media armonic
Media cronologic (se va discuta despre ea la capitolul Serii cronologice)

Indicatorii medii de poziie
Mediana
Valoarea modal





Aplicaie
Notele obinute la examen de 5 studeni sunt urmtoarele: 10, 6, 7, 10, 4.
Pentru a analiza pe ansamblu situaia celor 5 studeni se calculeaz cei 3 indicatori:
media (nota medie) se determin ca raport ntre suma notelor obinute i
numrul studenilor:
mediana (nota median) este valoarea care mparte studenii n dou pri
egale: 50% se situeaz sub nota median, 50% se situeaz peste nota
median; se determin ca valoare (not) central, dup aranjarea valorilor
seriei n ordine cresctoare sau descresctoare.
valori n ordine cresctoare:
4, 6, 7, 10, 10

M = (50% dintre studeni au luat note sub 7,5% peste 7)
Dominanta (nota dominant) este nota care se nregistreaz la cei mai muli
studeni:
D = 10 (pentru ca aceast not apare la un numr de 2 studeni, n timp
ce notele celelalte apar la un singur student).
Ca urmare s-au calculat cei 3 indicatori ai tendinei centrale, care caracterizeaz
seria statistic respectiv: X= 7,4 ; M = 7; D = 10
Valorile acestora sunt diferite, urmare a faptului c i coninutul i semnificaia
indicatorilor difer.

Slide 12
Mediile
Mediile sunt indicatorii statistici cu cel mai mare grad de aplicabilitate practic.
Mediile se prezint ca mrimi cu caracter abstract, n sensul c valoarea medie
de cele mai multe ori nu coincide cu niciuna dintre valorile individuale din care s-
a calculat (n exemplul anterior, niciunul dintre studeni nu a luat nota 7,4).
Media este nivelul la care ar fi ajuns caracteristica nregistrat, dac n toate
cazurile, toi factorii eseniali i neeseniali ar fi acionat constant.
Pentru a asigura un coninut real mediilor calculate, valorile individuale din care se
obin trebuie s fie ct mai apropiate, s existe o omogenitate a colectivitii. n
cazul eterogenitii colectivitii, aceasta trebuie separat pe grupe calitative
pentru care se calculeaz medii pariale.
n analiza statistic se calculeaz mai multe tipuri de medii:
media aritmetic;
media armonic;
media ptratic;
media geometric;
media cronologic.
n practic, mrimile medii nu se folosesc la ntmplare, ci n funcie de
specificul i de proprietile fenomenului respectiv se utilizeaz una sau alta dintre
medii.

Slide 13
Media aritmetic
Media aritmetic este rezultatul sintetizrii ntr-o singur expresie numeric a
tuturor nivelurilor individuale observate i se calculeaz prin raportarea valorii
totalizate a caracteristicii la numrul total al unitilor.
Formula de calcul
A. pentru seriile simple, adic n cazul n care numrul variantelor caracteristicii
studiate este egal cu numrul unitilor.
Fie caracteristica X cu valorile X
1
, X
2
,..., X
n,
unde n = numrul unitilor. Mrdia
aritmetic simpl are expresia:


B. pentru seriile cu distribuie de frecvene, adic n cazul n care variantele
caracteristicii se nregistreaz de mai multe ori formula de calcul pentru media
ponderat este urmtoarea


Unde
f
i
= frecvena absolut nregistrat de valoarea X
i
a caracteristicii;
m = numrul de grupe ale caracteristicii X


Slide 14
n
X
X
n
i
i
=
=
1

=
=

=
m
i
i
m
i
i i
f
f X
X
1
1
Media ptratic
Se mai numete momentul de ordin 2
pentru un ir simplu de valori


Pentru o serie de frecvene sau de date grupate
pe intervale de grupare

=
i
i i
p
n
n x
x
2
n
x
x
i
p

=
2
Media armonic
Se mai numete momentul de ordin -1

pentru un ir simplu de valori


Pentru o serie de frecvene sau de date grupate
pe intervale de grupare

=
i
i
i
h
n
x
n
x
1

=
i
h
x
n
x
1
Media geometric
Se folosete pentru calculul unor medii n cazul mrimilor relative de
dinamic
pentru un ir simplu de valori


Pentru o serie de frecvene sau de date grupate pe intervale de grupare




Observaie: MRD trebuie s fie exprimate sub form de indici (nu ritmuri) i
coeficieni (nu procente)
n
i g
x x
[
=

=
[
i i
n n
i g
x x
Relaia de ordine ntre cele patru tipuri de medii

p g h
x x x x s s s
Media variabilei de tip binar
Distribuia dup culoarea ochilor unei populaii de
100 de persoane este:




P= M/N
Observaie: orice variabil se poate binariza
Mediana (Me) (1)
Avantaj: Spre deosebire de medii, Me nu este aa de
influenat de apariia valorilor extreme
Mod de calcul:
1. Se ordoneaz cresctor seria de date
2. Se calculeaz poziia (locul) Medianei



3. n funcie de forma datelor disponibile vom avea:


| | 1 ) (
2
1
+ =
i
n locMe
Mediana (Me) (2)
Pentru un ir simplu de valori:
cu un numr impar de termeni
Me este valoarea de rang locMe din irul obinut la
pasul 2
cu un numr par de termeni
Nu exist un termen central. Me se calculeaz ca o
medie aritmetic simpl a termenilor centrali
Mediana (Me) (3)
Pentru o serie de frecvene:
3. Se calculeaz frecvene cumulate cresctor (F
i
) :
F
i
ofer rspunsul la ntrebarea: Cte cazuri ale
variabilei x
i
sunt cel mult egale cu varianta curent?
4. Mediana este prima variant pentru care este
adevrat relaia:

locMe F
i
>
Mediana (Me) (4)
Pentru o serie de date grupate pe intervale:
3. Se calculeaz frecvene cumulate cresctor (F
i
) :
F
i
ofer rspunsul la ntrebarea: Cte cazuri ale variabilei x
i
sunt cel mult
egale cu limita superioar a intervalului curent?
4. Se alege intervalul ce conine mediana ca fiind primul interval pentru
care este valabil relaia:


5. n interiorul intervalului ce conine mediana, formula de calcul este:

locMe F
i
>
Me
i
n
F locMe
k x Me
1
0

+ =
Mediana (5)
Mediana face parte din indicatorii
cuantilici(cvantiici )
Ali indicatori cuantilici sunt:
cuartilele (mpart o serie de date n 4)
decilele (mpart o serie de date n 10)
percentilele (procentilele) (mpart o serie de date
n 100)
Valoarea modal (Mo)
Definiie: Valoarea modal este valoarea cu
frecven maxim de apariie
Avantaje:
Poate fi calculat pentru variabile calitative
(exprimate prin cuvinte) (de ex.: culoarea ochilor,
culoarea prului, starea civil etc.)
ansele ca rezultatul s fie o valoare existent n
realitate sunt mult mai mari dect la medii
Valoarea modal (Mo) (2)

Nota ni
1 5
2 7
3 12
4 20
5 38
6 46
7 37
8 20
9 10
10 5
Total 200
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9 10
Nota
S
t
u
d
e
n
t
i
Mo
Serie de date unimodal
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5 6 7 8 9 10
Nota
S
t
u
d
e
n
t
i
Valoarea modal (Mo) (3)

Nota ni
1 5
2 13
3 22
4 35
5 14
6 7
7 25
8 41
9 27
10 11
Total 200
Mo
2

Serie de date bimodal
Mo
1

Valoarea modal (Mo) (4)
Pentru o serie de date grupate pe intervale:
1. Se alege intervalul modal ca fiind intervalul cu
frecvena maxim
2. n interiorul intervalului modal, valoarea modal
se determin cu ajutorul formulei:

2 1
1
0
A + A
A
+ = k x Mo
Valoarea modal (Mo) (5)

Starea civil ni
Castorit 70
Necstorit 55
Divorat 12
Vduv 13
Total 150
Valoarea modal este varianta:
cstorit
Relaia de ordine ntre , Me i Mo

x
Pentru o serie cel mult uor asimetric este valabil relaia:




) ( 3 Me x Mo x ~

S-ar putea să vă placă și