Curs4 AnalizaPreliminara

ANALIZA PRELIMINARĂ A DATELOR STATISTICE
ANALIZA PRELIMINARĂ A DATELOR STATISTICE .......................................................................................... 1

Concepte fundamentale ale analizei datelor .................................................................................................................. 1
Densitate de probabilitate și funcție de repartiție .......................................................................................................... 1
Indicatori ai variabilelor aleatoare ................................................................................................................................. 2
Distribuții empirice ....................................................................................................................................................... 4
Teste de concordanță ..................................................................................................................................................... 4
Testul χ2 .................................................................................................................................................................... 4
Testul Smirnov-Kolmogorov .................................................................................................................................... 5
Relația dintre două variabile cantitative ........................................................................................................................ 5
Legătura liniară simplă .............................................................................................................................................. 5
Interpretarea geometrică a coeficientului de corelație ............................................................................................... 6
Descrierea unei variabile calitative ............................................................................................................................... 7
Legătura dintre două variabile calitative ................................................................................................................... 7
Testul de independență χ2 ......................................................................................................................................... 7
Descrierea instanțelor .................................................................................................................................................... 8
Măsuri de asemănare ..................................................................................................................................................... 8
Tabele de date ............................................................................................................................................................... 9
Schimbarea de variabilă .............................................................................................................................................. 11
Concepte fundamentale ale analizei datelor

Populație şi eşantion. Populația sau colectivitatea generală este reprezentată de mulțimea tuturor măsurătorilor care
reprezintă interes pentru cercetător sau experimentator.
Atribut sau caracteristică. Reprezintă trăsăturile, proprietățile unităților din care este alcătuită populația.
Variabila. Variabila este un concept abstract care permite atribuirea de valori, numerice sau nenumerice, unui atribut sau
caracteristici. Ea trebuie să fie înzestrată cu o sintaxă univocă şi o semantică precisă.
Variabilele pot fi de două tipuri: variabile calitative şi variabile cantitative.
Variabilele calitative sunt variabile ce diferă prin tip, se referă la proprietăți nenumerice ale unităților elementare aparținând
unei populații şi nu pot fi exprimate numeric. Valorile variabilelor calitative sunt numite modalități.
Variabilele cantitative sunt variabile care diferă prin mărime, se referă la proprietăți numerice ale unităților elementare
dintr-o populație și sunt exprimate în unități numerice. În funcție de natura valorilor pe care le iau, variabilele se împart în două
categorii: variabile de tip discret şi variabile de tip continuu.
Variabile
Variabile calitative Variabile cantitative
Nominale Ordinale Continue Discrete
Asocierea valorilor la variabile se face în urma procesului de măsurare. Măsurarea se face prin intermediul unor repere și
sisteme de referință cunoscute sub denumirea de scală. Scala nominală este asociată variabilelor calitative de tip nominal. Scala
ordinală este asociată variabilelor calitative de tip ordinal. Scale metrice: scala interval , scala raport.
Densitate de probabilitate și funcție de repartiție
Densitatea de probabilitate măsoară posibilitatea ca o variabilă să ia o anumită valoare. Este deci o funcție definită pe
mulțimea de valori posibile ale variabilei cu valori în intervalul [0,1]:
f(x) = P(X=x),
unde X este variabila iar x este o valoare pe care o poate lua.
Exemplu. Să presupunem că avem o variabilă reprezentând talia (înălțimea) unor subiecți umani, exprimată în centimetrii.
Probabilitatea ca variabila să ia valoarea 175 este:
P(X = 175) = f(175)
și exprimă probabilitatea ca un individ să aibă 175 cm înălțime.
Densitatea de probabilitate ca funcție analitică, poate diferite forme particulare, specifice. Diferențele sunt de natura
domeniului de definiție și al valorilor parametrilor determinate de forma analitica a funcției. De exemplu, chiar dacă avem un același
domeniu de definiție, să zicem, subiecți umani (persoane), densitatea de probabilitatea a unei variabile talia va avea formă diferită
de variabila venit anual.
Exemple de densitate de probabilitate: Gaussiană (normală), uniformă, Poisson etc.
Funcția de repartiție reprezintă probabilitatea ca o variabilă aleatoare să ia valori într-un anumit interval:
x

F(x) = P(X ≤ x)= f ( y )dy .

Din punct de vedere geometric F(x) este aria de sub curba densității de probabilitate:
Indicatori ai variabilelor aleatoare

Există trei grupe de indicatori:
- indicatori de poziție: media, momentul simplu, mediana, percentilele, cuartilele și modulul;
- indicatori de împrăștiere: amplitudinea, varianța, abaterea medie absolută, abaterea standard și coeficientul de variație, momentele
centrate;
- indicatori de formă a repartiției: simetria și aplatizarea.
Media.
Cazul discret:
E( X )     x  f x  ,
xR
unde f(x) este probabilitatea ca variabila să ia valoarea x (densitatea de probabilitate).
Pentru o repartiție uniformă cu n subiecți:
1 n
E( X )    x   xi .
n i 1
Cazul continuu: E ( X )   
 x  f ( x)dx .
R
Momentul simplu de ordin k
Cazul discret:  
M k  E X k   x k  f x  .
xR
1
Pentru o distribuție uniformă Mk  
n xR
xk .
Cazul continuu: E ( X )  M k  x  f ( x)dx .

2 k
R
Se poate observa că momentul de ordin 1 este media.
Mediana este acea valoare care împarte setul de valori posibile in două: 50% valori mai mici și 50% valori mai mari. Deci:
P(X≤xme)=0.5
unde xme este mediana.
Percentila de ordinul p este acea valoare care are proprietatea că cel mult p% dintre valorile seriei sunt mai mici decât ea și cel mult
(100-p)% dintre valori sunt mai mari.
Să presupunem că avem seria Yi, i=1,n. Notăm cu Y[k] elementul de rang k al seriei (cel care are k-1 elemente mai mici). Dacă notăm
cu y(p) percentila de ordin p, aceasta se calculează astfel:
y(p) = Y[k] + d ·(Y[k+1]-Y[k]),
unde:
k este parte întreagă din p·(n+1)/100 și reprezintă numărul valorilor din serie mai mici decât percentila de ordin p, iar d reprezintă
p·(n+1)/100-k (partea zecimală a numărului real p·(n+1)/100 ) și reflectă distanța procentuală la care se află percentila de elementul
Y[k]. Valoarea d locul unde se află percentila față de valorile din jurul ei.
Exemplu.
Y = (25,10,1,1200,1010).
Căutăm percentila de ordin 61.
Prin sortarea crescătoare a lui Y obținem:
Y = (1,10,25,1010,1200).
p·(n+1) = 61*6/100=3.66
Rezultă: k = 3, d = 0.66.
y(61) = Y3+d(Y4-Y3) = 25 + 0.66·(1010-25) = 675.1
Cuartila inferioară, notată cu Q1, este percentila de ordinul 25.

Cuartila de mijloc, notată cu Q2, este percentila de prdinul 50.
Cuartila superioară, notată cu Q3, este percentila de ordinul 75.
Indicatorul interquartile este diferența dintre cuartila superioară și cea inferioară.
Modulul este valoarea cea mai probabilă. În mod uzual modulul se determină ca valoarea cu frecvența cea mai mare.
Amplitudinea reprezintă diferența dintre valoarea cea mai mare și valoarea cea mai mică a unei variabile aleatoare:
A = Xmax - Xmin.
Abaterea medie absolută caracterizează împrăștierea valorilor unei variabile aleatoare:
d=  x    f ( x) , pentru cazul discret,
xR
d=  x    f ( x)dx , pentru cazul continuu.

R
1
Pentru o repartiție uniformă, cu f(x) = , unde n reprezintă numărul valorilor posibile,
n
1 n
d=  xi  
n i 1
.
Varianța caracterizează cel mai bine împrăștierea valorilor unei variabile aleatoare. Așa cum sugerează și numele, este o măsură a
variabilității valorilor posibile luate de variabilă:
1 n
 2   x   2  f ( x) ,  2    x   2  f ( x)dx ,  2   xi   2
xR R
n i 1
Pentru comparabilitate cu valorile variabilei aleatoare, din punct de vedere al unităților de măsură, se utilizează abaterea medie
pătratică sau abaterea standard:    2 .


Coeficientul de variație se calculează ca raport între abaterea standard și media variabilei: Cv  . Prin natura calculului,

coeficientul de variație este standardizat, nedepinzând de unitățile de măsură ale variabilelor. O variabilă este cu atât mai omogenă
cu cât coeficientul de variație este mai apropiat de 0.
Momentele centrate de ordin k au în plus față de momentele simple, diferența față de medie, astfel:
MCk ( X )  MCk   x     f x  - pentru cazul discret;
k
xR
MCk ( X )  MCk   x     f ( x)dx - pentru cazul continuu.

k
R
Momentul centrat de ordin doi este varianța.
Asimetria măsoară gradul în care valorile sunt distribuite de o parte sau de alta a valorii centrale:
MC3
S
3
Cu cât valoarea lui S este mai apropiată de 0 cu atât distribuția este mai simetrică. Valorile negative indică asimetrie stânga în timp
ce valorile pozitive indică asimetrie dreapta.
Aplatizarea:
MC4 MC4
K sau K  3
 4
4
Cu cât valoarea lui K este mai apropiată de 0 cu atât distribuția va fi mai aplatizată. A doua formulă are ca punct de referință repartiția
normală. Astfel, repartițiile mai aplatizate au valori negative pentru K.
Distribuții empirice
Indicatorii prezentați se referă la nivelul întregii populații studiate. În majoritatea situațiilor, comportamentul unei variabile
aleatoare la nivelul întregii populații nu poate fi studiat din cauza problemelor de obținere completă a informațiilor. Studiul efectiv
al comportamentului unei variabile se face pe mulțimea observațiilor aparținând unor eșantioane ale colectivității generale.
Eșantionul este format din mulțimea observațiilor {x1, x2, ..., xT} unde T reprezintă volumul eșantionului. Prin distribuție empirică
se înțelege mulțimea valorilor observate aparținând eșantionului.
1
În cadrul unui eșantion densitatea de probabilitate are forma: fT ( X )  și se numește densitatea de probabilitate empirică. Prin
T
T T T
  xi  x  xi  x
1 1 2 1 2
urmare, media și varianța acestei distribuții sunt: x  xi ,  2  2
sau   pentru T-1 grade
T T T 1
i 1 i 1 i 1
de libertate.
Teste de concordanță
Un test de concordanță este o ipoteză statistică, o presupunere cu privire la caracteristicile unei repartiții, existența unei legi
de repartiție. Ca în orice test statistic sunt definite două alternative:
- ipoteza nulă sau H0 constând în afirmația făcută;
- ipoteza alternativă sau H1 care constă în non-afirmație.
Un test statistic este o procedură specifică în urma căreia se trage o concluzie logică privind afirmația din ipoteza nulă: este adevărată
sau falsă. Această procedură este una probabilistică. Testul are asociat un grad de încredere. În cazul testelor de concordanță este
verificată ipoteza că o distribuție empirică este distribuită după o lege de probabilitate specificată, sau că două distribuții empirice
urmăresc aceeași lege. Utilizarea clasică este cea legată de “concordanța” dintre modelul empiric şi modelul teoretic considerat
adecvat pentru populația din care provin datele statistice. În orice test sunt calculate două mărimi:
- valoarea calculată a testului sau valoarea critică,
- valoarea efectivă a testului sau statistica testului.
Valoarea critică depinde de gradul în care sunt acceptate valori marginale, caracterizate prin densități mici de probabilitate. Acesta
este pragul de semnificație și reflectă zona de respingere a ipotezei nule. Complementar, gradul de încredere reflectă zona de
acceptare. Dacă valoarea efectivă este mai mică sau egală decât valoarea critică, ipoteza H0 este acceptată, altfel este respinsă.
Metodele de analiză a datelor adeseori fac presupuneri cu privire la distribuții, prepuneri care trebuie verificate. Din multitudinea
de teste de concordanță, două se detașează ca frecvență de utilizare: testul χ2 și testul Smirnov-Kolmogorov.
Testul χ2
Testul χ2 este un test general, care poate fi aplicat oricărei distribuții empirice căreia putem sa îi calculăm funcția de
repartiție. Testul χ2 se aplică datelor grupate (sau datelor de frecvență). Algoritmic, testul se aplică astfel:
1. Fie distribuția empirică X = {x1, x2, ..., xT}. Vor fi împărțite observațiile în m grupe și se vor determina frecvențele absolute ale
grupelor:
fai, i = 1,m
2. Se calculează frecvențele medii estimate prin funcția de repartiție testată:
fei = T·(F(li+1)-F(li)), i = 1, m,
unde F este funcția de repartiție testată iar li, i =1,m+1 sunt limitele grupelor
3. Se calculează valoarea efectivă a testului sau statistica testului:
m
 fai  fei 2
2
 Calculat   fei
i 1
4. Se determină valoarea critică a testului  2 (α ;m − c +1)
Critic
unde:
- α este nivelul (pragul) de semnificație al testului;
- c este numărul de parametri ai distribuției F (distribuția normală-gaussiană are doi parametrii, media și abaterea standard);
- m−c+1 numărul de grade de libertate ale distribuției χ2.
Această valoare se calculează aplicând funcția de repartiție a distribuției χ2 pentru parametrii specificați.
5. Sunt testate ipotezele:
H0 - distribuția X urmează legea de repartiție F
H1 - distribuția X nu urmează legea de repartiție F
Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel:
dacă  2 2
  Critic atunci se acceptă ipoteza nulă, respectiv datele provin din distribuția testată
Calculat
altfel se respinge ipoteza nulă, respectiv datele nu provin din distribuția testată.
Testul Smirnov-Kolmogorov
Este utilizat pentru testarea ipotezei de normalitate. Etapele algoritmului:
1. Fie distribuția empirică X = {x1, x2, ..., xT}. Se calculează media distribuției și abaterea standard, μ și σ.
2. Se ordonează crescător valorile eșantionului şi se obţine eşantionul ordonat:
x(1), x(2), ..., x(T)
3. Se calculează funcția de repartiție normală pentru valorile ordonate:
F(x(1)), F(x(2)), ... , F(x(T))
4. Se calculează funcția de repartiție empirică:
j 1
Fe(x(j)) = , j=1,T, deoarece densitatea de probabilitate pentru repartiția empirică este
T T
4. Se calculează valoarea efectivă a testului sau statistica testului:
D = max|𝐹𝑒(𝑥(𝑗) ) − 𝐹(𝑥(𝑗) )|
𝑗
5. Se determină valoarea critică a testului conform tabelelor Kolmogorov, d1-α,T, unde 1-α este gradul de încredere
6. Se ia decizia astfel:
-dacă D≤ d1-α,T se acceptă ipoteza normalității cu un grad de încredere 1-α
- dacă D> d1-α,T se respinge ipoteza normalității cu un grad de încredere 1-α
Relația dintre două variabile cantitative

Legătura liniară simplă
Dacă se notează cu X şi cu Y două variabile cantitative şi cu xi şi yi valorile luate de variabile pentru instanța i, legătura
liniară simplă dintre cele două variabile este dată de relaţia:
yi = axi +b + ei, i =1,n
unde ei este un termen rezidual.
Problema care se pune este de a măsura intensitatea legăturii dintre cele două variabile deoarece legătura nu este de regulă
absolută. De exemplu, dacă urmărim variabilele greutate şi talie la un grup de persoane vom observa că ele variază în general
împreună şi în același sens. Există însă situații în care indivizi cu talie mai mică pot avea greutăți mai mari decât indivizi cu talie
mai mare.
Relația dintre variabilele X şi Y va fi cu atât mai intensă cu cât valorile reziduale ei vor fi mai mici. Din punct de vedere
n
matematic vom determina parametrii a şi b astfel încât e
i 1
i
2
să fie minimă.
Soluția acestei probleme obținută aplicând regula celor mai mici pătrate este:
 n

1
 ( xi  x)( yi  y )
 n
a  i 1
 Var ( X )
b  y  a x

n
 ( x  x)( y  y) rezultă:
1
Dacă se notează covarianța dintre cele două variabile cu Cov(X,Y) = i i
n
i 1
 Cov( X , Y )
a 
 Var ( X ) .
 b  y  ax

Fluctuațiile variabilei Y măsurate prin variantă, Var(y) reprezintă varianța totală. Fluctuațiile valorilor calculate pentru Y,
care depind de X, sunt măsurate prin varianța Var(ax+b) și reprezintă varianța explicată. Fluctuațiile valorilor reziduale , Var(e),
reprezintă varianța reziduală. Relația dintre cele trei varianțe este următoarea:
Varianța totală = Varianța explicată + Varianța reziduală
Var(y) = Var(ax+b) + Var(e)
n

1
Var(y) = ( yi  y ) 2
n
i 1
Deoarece, yi = axi +b +ei si b = y  a x , rezultă: yi  y  a( xi  x)  ei . Înlocuind în relația varianței se obține: Var(y) =
1 1
∑𝑛 (𝑎(𝑥𝑖 − 𝑥) + 𝑒𝑖 )2 = ∑𝑛𝑖=1(𝑎2 (𝑥𝑖 − 𝑥)2 − 2𝑎(𝑥𝑖 − 𝑥)𝑒𝑖 + 𝑒𝑖2 ).
𝑛 𝑖=1 𝑛
n
a2
n 
i 1
(xi  x) 2  a 2Var ( x)  Var (ax)  Var (ax  b)
n
 ( xi  x)ei  2aCov( x, e)  2aCov( x, y  ax  b) 
2a
n
i 1
2a(Cov( x, y )  Cov( x, ax  b))
Cov( x, y )
=2a(Cov(x,y) – a Cov(x,x)) = 2a ( Cov(x, y) - Var ( x)) = 0.
Var ( x)
n
e
1 2
i  Var (e)
n
i 1
Deci Var(y) = Var(ax+b) +Var(e)
Se măsoară intensitatea legăturii dintre X şi Y prin raportul dintre varianţa explicată şi varianţa totală. Acest raport , numit
2
raport de corelație (sau coeficient de determinare) este notat R (x,y):
Var (ax  b) Var ( x) Cov( x, y ) 2
R 2 ( x, y )   a2  .
Var ( y ) Var ( y ) Var ( x)Var ( y )
2
Rădăcina din R este numit coeficient de corelație liniară și este:
Cov( x, y )
R= .
 x y
Interpretarea geometrică a coeficientului de corelație

n n
O variabilă X luând n valori poate fi reprezentată printr-un vector în spațiul R , numit și spațiul variabilelor. În spaţiul R
produsul scalar simplu dintre doi vectori X şi Y de coordonate (x1,...,xn) şi (y1,...,yn) este:
n
<x,y> = 
i 1
xi y i
iar normele celor doi vectori sunt :

n
x   x, x   x
i 1
2
i
.
n
y  y i 1
2
i
.
Cosinusul unghiului dintre cei doi vectori este :

n n
  xi yi
1
xi yi
 x, y  i 1
n i 1
Cos( x, y )  = = .
x  y n n n n
 xi2  yi2  xi2  yi2
1 1
i 1 i 1
n i 1
n i 1
Dacă se consideră vectorii X şi Y două variabile centrate, din relaţia anterioară obţinem:
Cov ( X , Y )
Cos(X,Y ) = = R(X,Y )
 XY
X
Cos(G) = R(X,Y)
Unghiul G
Y
Când coeficientul de corelaţie este egal cu 1 cei doi vectori sunt coliniari. Absenţa corelaţiei se traduce printr-o valoare nulă pentru
R, deci între cei doi vectori este un unghi de 90 de grade.
Descrierea unei variabile calitative

Principalii indicatori care sunt calculați pentru variabilele calitative sunt:
- frecvența absolută care reprezintă numărul de instanțe la care se înregistrează o anumită modalitate
- frecvența relativă care reprezintă frecvența absolută raportată la numărul de instanțe.
Legătura dintre două variabile calitative

Fie două distribuții X = {x1, x2, ... , xT} și Y = {y1, y2, ... , yT}. Variabila X are p modalități iar variabila Y, q modalități. Frecvențele
încrucișate sunt memorate în tabelul N:
 n11 n12 ... n1q 
n n22 ... n2 q 
N 
21
. Un element oarecare, nij, reprezintă numărul de instanțe la care variabila X are modalitatea i iar
 ... 
 
n p1 np2 ... n pq 
variabila Y are modalitatea j. Frecvențele cumulate pe linii și coloană sunt definite astfel:
q
ni   n , i  1, p - numărul de instanțe la care se întâlnește modalitatea i pentru variabila X;
j 1
ij
p
n j  n ,
i 1
ij j  1, q - numărul de instanțe la care se întâlnește modalitatea j pentru variabila Y.
Testul de independență χ2
Testul χ2 este utilizat pentru a stabili dacă există o legătură între cele două variabile calitative (nominale). Ipoteza nulă specifică
faptul că nu există o relație între cele două variabile, adică:
H0: Cele două variabile sunt independente
H1: Cele două variabile sunt dependente
Pașii aplicării testului sunt:
1. Se calculează frecvențele medii estimate:
ni  n j
neij = , i =1,p, j = 1,q
T
2. Se calculează statistica testului:
 Calculat
2
 
p q
n
ij  neij 
2
i 1 j 1 neij
3. Se calculează valoarea critică a testului:  Critic ( ; r ) unde α este pragul de semnificație al testului iar r este numărul gradelor de
2
libertate, în acest caz r = (p-1)·(q-1).

4. Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel:
dacă  Calculat   Critic ( ; r ) atunci se respinge ipoteza nulă cu un nivel de încredere 1-α, deci cele două variabile se influențează
2 2
reciproc.
În cele mai multe situații se utilizează frecvențe relative. Acestea se determină prin raportarea frecvențelor absolute la numărul de
 f11 f12 ... f1q 
f f 22 ... f 2 q 
instanțe. Frecvențele relative se memorează într-un tabel F  
21
.
 ... 
 
 f p1 f p 2 ... f pq 
Statistica testului se va calcula astfel:
p q
f  f i f  j 
2
 2
Calculat T  
i 1 j 1
ij
f i f  j
,
nij ni n j
unde f ij  , f i  , f j  .
T T T
Descrierea instanțelor
O instanță (individ, caz) este descrisă prin mulțimea de valori luate de un grup de variabile pentru instanța respectivă.
Se notează cu X matricea valorilor luate de n instanțe pentru m variabile:
 x11 x12 ... x1m 
 
x x22 ... x2 m 
X   21 
... ...
 
x ... xnm 
 n1 xn 2
Fiecărei instanțe i se asociază o pondere, pi , i=1,n. Suma ponderilor este 1. Dacă instanțelor li se asociază aceeași pondere atunci
1
pi  .
n
Mulțimea punctelor date de cele n instanțe care formează colectivitatea studiată corespunde unui nor de puncte m-
dimensionale (m fiind numărul variabilelor).
Se poate defini baricentrul punctelor sau centrul de greutate al norului , vectorul mediilor aritmetice ale celor m variabile
care descriu colectivitatea:
 n 
 xi1    pi xi1 
n n
   i 1 
g   pi wi   pi  ...    ...  ,
n
 xim   p x 
   i im 
i 1 i 1
 i 1 
 xi1 
 
unde wi   ...  este vectorul coloană reprezentând valorile luate de cele m variabile pentru instanța i.
 xim 
 
Vom numi inerţie totală a norului de puncte , media ponderată a pătratelor distanțelor punctelor față de centrul de greutate:
n
I g   pi ( wi  g ) t M ( wi  g ) , unde (wi-g) este un vector linie, transpusul vectorului coloană wi-g, iar M este metrica
t
i 1
utilizată (tipul de distanță).
Inerția norului în raport cu un punct oarecare din spaţiu, h, este:
n
I h   pi ( wi  h) t M ( wi  h) .
i 1
Relația dintre cele doua valori ale inerţiei este:
I h  I g  ( g  h) t M ( g  h) . (Relaţia lui Huygens)
Inerția în raport cu centrul de greutate este minimă.
Măsuri de asemănare
Se numește măsură de asemănare (similaritate/disimilaritate) orice aplicație cu valori numerice care permite să se exprime
o legătură între instanțe, sau între variabile. Dacă se notează cu  mulțimea instanțelor sau variabilelor, un indice de similaritate pe
mulțimea  este o aplicație s care verifică următoarele trei proprietăți:
1. s este o aplicație a lui    în R ;
+
2. s este simetrică:  (w,w')  : s(w,w') = s(w',w);
3. (w,w' )  cu w  w' : s(w,w) = s(w',w') > s(w,w').
Un indice de disimilaritate este o aplicație s' care satisface primele două condiții din definiția indicelui de similaritate, iar
condiţia 3 este înlocuită prin cerinţa ca:
3'. w: s'(w,w) = 0.
2
O distanţă, notată cu d , este un indice de disimilaritate care verifică în plus următoarele două proprietăți:
2
4. d (w,w') = 0  w = w';
2 2 2
5. d (w,w')  d (w,w'' ) + d (w'',w'), w,w',w''  - inegalitatea triunghiului.
 xi1   xk 1 
   
Dacă luam în considerare două instanțe din tabelul de observații wi  ... şi wk  ... , (m este numărul de variabile) distanța
   
 xim   xkm 
dintre cele două instanțe se poate defini sub forma:
2
d (wi,wk) = (wi  wk )t Qwi  wk 
unde Q este o matrice simetrică pozitiv definită numită metrică.
Mai des utilizate sunt următoarele tipuri de distanțe:
1. Distanţa euclidiană simplă. Q este matricea unitate.
2. Distanţa lui Mahalanobis, aplicată în analiza discriminantă, unde Q reprezintă matricea de covarianţă.
 Cov ( X 1 , X 1 ) Cov ( X 1 , X 2 ) ... Cov ( X 1 , X m ) 
 Cov ( X , X ) Cov ( X , X ) ... Cov ( X , X ) 
V= 
2 1 2 2 2 m 
,
 ... 
 
Cov ( X m , X 1 ) Cov ( X m , X 2 ) Cov ( X m , X m )
 x1 j 
 
unde Xj =  ...  sunt înregistrările pentru variabila j la cele n instanțe.
 xnj 
 
3. Distanţa 2 este în mod particular bine adaptată tabelelor de frecvenţe. Se aplică în analiza factorială a corespondenţelor iar Q
este o matrice a indicatorilor 2 calculați pentru fiecare pereche de variabile.
Tabele de date
Un tabel de date este o matrice care se construiește din ansamblul de instanțe şi variabile.
- Tabelul de observații. Un astfel de tabel se obține atunci când elementele matricei sunt valori numerice oarecare. Pe linii
sunt așezate instanțele iar pe coloane sunt așezate variabilele urmărite. Fie n numărul de instanțe şi m numărul de variabile. Tabelul
de observații este de obicei notat:
 x11 x12 ... x1m 
x x22 ... x2 m 
X= 
21
 ... 
 
 xn1 xn 2 ... xnm 
- Tabelul de contingenţă. Pentru date calitative. X şi Y două variabile calitative
 f11 f12 ... f1q 
f f 22 ... f 2 q 
Z=  21
, cu frecvenţe relative, unde p este numărul de modalități al variabilei X şi q este numărul de
 ... 
 
 f p1 f p 2 ... f pq 
modalităţi al variabilei Y.
O alta formă a tabelului de contingență este următoarea:
 Modalitatea 1 a variabilei X Modalitatea 1 a variabilei Y f 11 
 Modalitatea 2 a variabilei X Modalitatea 1 a variabilei Y f 
 21 
 ... ... ... 
 
Z = Modalitatea p a variabilei X Modalitatea 1 a variabilei Y f p1  .
 Modalitatea 1 a variabilei X Modalitatea 2 a variabilei Y f 12 
 
 ... ... ... 
Modalitatea p a variabilei X Modalitatea q a variabilei Y f 
 pq 
Acest tabel are pq linii şi 3 coloane. Primele două coloane cuprind valori nominale pentru variabilele calitative iar a treia
coloană cuprinde frecvenţele.
- Tabelul disjunctiv complet. Este utilizat pentru variabile calitative.

0 1 ... 0 
0 0 1 ...
D=   . Are n linii şi p coloane.
 ... 
 
1 0 ... 0 
n – numărul de instanțe
p – numărul de modalități pentru variabila calitativă, X.
t
D D este matricea diagonală a frecvenţelor absolute.
Pentru v variabile calitative:
m1 m
   m 2 v 
0 ... 1 ... 0 0 ... 1 ... 0 0 ... 1 ... 0
 
 
D=  ... 
 
 
 
 
- Tabelul de preferinţe. Este un tip de tabel pentru variabile calitative, şi exprimă preferinţele unui grup de instanțe faţă de valorile
unei caracteristici. Folosește o scală de tip ordinal. Tabelele de acest tip sunt frecvent utilizate în studii de marketing. De exemplu,
în tabelul următor sunt prezentate preferințele a patru persoane pentru cinci mărci de parfum:
Persoane Mărci de parfumuri

interogate M1 M2 M3 M4 M5
w1 1 2 5 4 3
w2 4 2 3 1 5
w3 5 4 3 1 2
w4 1 2 3 5 4
Preferinţele sunt exprimate prin note de la 1 loa 5.
- Tabelul binar. Este tabelul care nu conţine decât valori 0 sau 1. Este folosit, ca şi tabelul de preferinţe, în anchete statistice.
În exemplul de mai jos se găsesc răspunsurile unor indivizi la întrebarea Citiţi ziarul Z ?.
Indivizi Ziare
Z1 Z2 Z3 Z4
w1 1 0 0 0
w2 1 1 0 0
w3 0 0 1 1
Răspunsurile pot fi Da sau Nu şi sunt codificate cu 1, respectiv 0.
- Tabelul de modalităţi. Atunci când fiecare întrebare a unei anchete statistice presupune mai multe răspunsuri, ne găsim
în faţa unui tabel de modalităţi. Astfel, dacă la întrebarea din exemplul anterior s-ar putea da trei răspunsuri: Niciodată - răspuns
codificat cu valoarea naturală 1, Câteodată - codificat cu 2, Deseori - codificat cu 3, tabelul de modalităţi asociat ar putea fi
următorul:
Indivizi Ziare
Z1 Z2 Z3 Z4
w1 3 2 2 1
w2 3 3 1 1
w3 1 2 3 3
- Tabelul de proximităţi. Atunci când se evaluează asemănările sau diferenţele între fiecare cuplu de indivizi, se construiește
un tabel de proximităţi. De exemplu, putem considera patru mărci de autoturisme, pe care să le comparăm unele cu altele. Apropierea
dintre o marcă j şi o marcă i poate fi făcută printr-o notă de la 1 la 10, sau media unor note de la 1 la 10, date, eventual, de un grup
de specialiști în domeniu. Se poate observa în Tabelul următor că se foloseşte o scală de tip raport.
Mărci Mărci autoturisme

autoturisme M1 M2 M3 M4
M1 10 4.3 9.3 2.3
M2 4.3 10 7.6 9.3
M3 9.3 7.6 10 3.6
M4 2.3 9.3 3.6 10
- Tabele eterogene. Sunt tabele în care variabilele sunt de diferite tipuri. Un exemplu de tabel eterogen este următorul:
Produse Variabile
Preţ Punct de lucru Mod de transport
p1 3.5 1 3
p2 4 3 2
p3 10 2 1
Parametrului preţ i s-a asociat o variabilă cantitativă măsurabilă, parametrului Punct de lucru i s-a asociat o variabilă
calitativă ordinală, iar parametrului Mod de transport i s-a asociat tot o variabilă calitativă ordinală.
- Tabele tridimensionale. Pot fi oricare din tipurile de tabele deja prezentate, la care se adaugă o a treia dimensiune,
de exemplu, timpul. Astfel, pentru tabelul eterogen de mai sus, dacă evaluarea se face la anumite intervale de timp, se obține un
tabel cu trei dimensiuni conform figurii:
Evoluţie în
t i m p
Indivizi
Variabile
Schimbarea de variabilă
Necesitate:
a) Când datele sunt grupate în tabele eterogene şi se doreşte exprimarea unei variabile descriptive cu ajutorul alteia, astfel încât
toate variabilele să devină de acelaşi tip.
b) Pentru a putea aplica o anumită metodă de analiză a datelor în situaţia în care aceasta este incompatibilă cu tipul datelor. De
exemplu, prin schimbare de variabilă se poate transforma un tabel de date calitative într-un tabel de modalităţi, putând astfel aplica
într-o manieră mai eficientă analiza factorială a corespondenţelor multiple.
c) Pentru a sintetiza informaţia conţinută într-un tabel de date, reducându-i astfel mărimea. Se poate, de exemplu, înlocui mulţimea
de variabile prin care se descrie o colectivitate printr-o combinație liniară de aceste variabile
Modalităţi de schimbare a variabilelor:

 Schimbarea de variabilă prin standardizare
 Schimbarea de variabila prin normalizare
 Schimbarea de variabilă prin codificare
 Codificarea unei variabile cantitative prin grupare
 Gruparea pe efective egale
 Gruparea în intervale egale
 Gruparea prin minimizarea inerției totale
 Codificarea variabilelor calitative
 Codificarea cu structură de ordine
 Codificarea fără structură de ordine
 Codificarea prin rangul mediu
Codificarea disjunctivă completă a variabilelor nominale

Curs4 AnalizaPreliminara

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs4 AnalizaPreliminara

Încărcat de

Drepturi de autor:

Formate disponibile

ANALIZA PRELIMINARĂ A DATELOR STATISTICE

ANALIZA PRELIMINARĂ A DATELOR STATISTICE .......................................................................................... 1

Concepte fundamentale ale analizei datelor

Variabile calitative Variabile cantitative

Nominale Ordinale Continue Discrete

Densitate de probabilitate și funcție de repartiție

Indicatori ai variabilelor aleatoare

Cazul continuu: E ( X )  M k  x  f ( x)dx .

Cuartila inferioară, notată cu Q1, este percentila de ordinul 25.

d=  x    f ( x)dx , pentru cazul continuu.

pătratică sau abaterea standard:    2 .

MCk ( X )  MCk   x     f ( x)dx - pentru cazul continuu.

Relația dintre două variabile cantitative

Interpretarea geometrică a coeficientului de corelație

iar normele celor doi vectori sunt :

Cosinusul unghiului dintre cei doi vectori este :

Descrierea unei variabile calitative

Legătura dintre două variabile calitative

libertate, în acest caz r = (p-1)·(q-1).

- Tabelul disjunctiv complet. Este utilizat pentru variabile calitative.

Persoane Mărci de parfumuri

Preferinţele sunt exprimate prin note de la 1 loa 5.

Mărci Mărci autoturisme

Modalităţi de schimbare a variabilelor:

S-ar putea să vă placă și