Documente Academic
Documente Profesional
Documente Cultură
Variabile
Asocierea valorilor la variabile se face în urma procesului de măsurare. Măsurarea se face prin intermediul unor repere și
sisteme de referință cunoscute sub denumirea de scală. Scala nominală este asociată variabilelor calitative de tip nominal. Scala
ordinală este asociată variabilelor calitative de tip ordinal. Scale metrice: scala interval , scala raport.
Densitatea de probabilitate măsoară posibilitatea ca o variabilă să ia o anumită valoare. Este deci o funcție definită pe
mulțimea de valori posibile ale variabilei cu valori în intervalul [0,1]:
f(x) = P(X=x),
unde X este variabila iar x este o valoare pe care o poate lua.
Exemplu. Să presupunem că avem o variabilă reprezentând talia (înălțimea) unor subiecți umani, exprimată în centimetrii.
Probabilitatea ca variabila să ia valoarea 175 este:
P(X = 175) = f(175)
și exprimă probabilitatea ca un individ să aibă 175 cm înălțime.
Densitatea de probabilitate ca funcție analitică, poate diferite forme particulare, specifice. Diferențele sunt de natura
domeniului de definiție și al valorilor parametrilor determinate de forma analitica a funcției. De exemplu, chiar dacă avem un același
domeniu de definiție, să zicem, subiecți umani (persoane), densitatea de probabilitatea a unei variabile talia va avea formă diferită
de variabila venit anual.
Exemple de densitate de probabilitate: Gaussiană (normală), uniformă, Poisson etc.
Funcția de repartiție reprezintă probabilitatea ca o variabilă aleatoare să ia valori într-un anumit interval:
x
F(x) = P(X ≤ x)= f ( y )dy .
Din punct de vedere geometric F(x) este aria de sub curba densității de probabilitate:
Cazul continuu: E ( X )
x f ( x)dx .
R
Momentul simplu de ordin k
Cazul discret:
M k E X k x k f x .
xR
1
Pentru o distribuție uniformă Mk
n xR
xk .
R
Se poate observa că momentul de ordin 1 este media.
Mediana este acea valoare care împarte setul de valori posibile in două: 50% valori mai mici și 50% valori mai mari. Deci:
P(X≤xme)=0.5
unde xme este mediana.
Percentila de ordinul p este acea valoare care are proprietatea că cel mult p% dintre valorile seriei sunt mai mici decât ea și cel mult
(100-p)% dintre valori sunt mai mari.
Să presupunem că avem seria Yi, i=1,n. Notăm cu Y[k] elementul de rang k al seriei (cel care are k-1 elemente mai mici). Dacă notăm
cu y(p) percentila de ordin p, aceasta se calculează astfel:
y(p) = Y[k] + d ·(Y[k+1]-Y[k]),
unde:
k este parte întreagă din p·(n+1)/100 și reprezintă numărul valorilor din serie mai mici decât percentila de ordin p, iar d reprezintă
p·(n+1)/100-k (partea zecimală a numărului real p·(n+1)/100 ) și reflectă distanța procentuală la care se află percentila de elementul
Y[k]. Valoarea d locul unde se află percentila față de valorile din jurul ei.
Exemplu.
Y = (25,10,1,1200,1010).
Căutăm percentila de ordin 61.
Prin sortarea crescătoare a lui Y obținem:
Y = (1,10,25,1010,1200).
p·(n+1) = 61*6/100=3.66
Rezultă: k = 3, d = 0.66.
y(61) = Y3+d(Y4-Y3) = 25 + 0.66·(1010-25) = 675.1
Varianța caracterizează cel mai bine împrăștierea valorilor unei variabile aleatoare. Așa cum sugerează și numele, este o măsură a
variabilității valorilor posibile luate de variabilă:
1 n
2 x 2 f ( x) , 2 x 2 f ( x)dx , 2 xi 2
xR R
n i 1
Pentru comparabilitate cu valorile variabilei aleatoare, din punct de vedere al unităților de măsură, se utilizează abaterea medie
xR
R
Momentul centrat de ordin doi este varianța.
Asimetria măsoară gradul în care valorile sunt distribuite de o parte sau de alta a valorii centrale:
MC3
S
3
Cu cât valoarea lui S este mai apropiată de 0 cu atât distribuția este mai simetrică. Valorile negative indică asimetrie stânga în timp
ce valorile pozitive indică asimetrie dreapta.
Aplatizarea:
MC4 MC4
K sau K 3
4
4
Cu cât valoarea lui K este mai apropiată de 0 cu atât distribuția va fi mai aplatizată. A doua formulă are ca punct de referință repartiția
normală. Astfel, repartițiile mai aplatizate au valori negative pentru K.
Distribuții empirice
Indicatorii prezentați se referă la nivelul întregii populații studiate. În majoritatea situațiilor, comportamentul unei variabile
aleatoare la nivelul întregii populații nu poate fi studiat din cauza problemelor de obținere completă a informațiilor. Studiul efectiv
al comportamentului unei variabile se face pe mulțimea observațiilor aparținând unor eșantioane ale colectivității generale.
Eșantionul este format din mulțimea observațiilor {x1, x2, ..., xT} unde T reprezintă volumul eșantionului. Prin distribuție empirică
se înțelege mulțimea valorilor observate aparținând eșantionului.
1
În cadrul unui eșantion densitatea de probabilitate are forma: fT ( X ) și se numește densitatea de probabilitate empirică. Prin
T
T T T
xi x xi x
1 1 2 1 2
urmare, media și varianța acestei distribuții sunt: x xi , 2 2
sau pentru T-1 grade
T T T 1
i 1 i 1 i 1
de libertate.
Teste de concordanță
Un test de concordanță este o ipoteză statistică, o presupunere cu privire la caracteristicile unei repartiții, existența unei legi
de repartiție. Ca în orice test statistic sunt definite două alternative:
- ipoteza nulă sau H0 constând în afirmația făcută;
- ipoteza alternativă sau H1 care constă în non-afirmație.
Un test statistic este o procedură specifică în urma căreia se trage o concluzie logică privind afirmația din ipoteza nulă: este adevărată
sau falsă. Această procedură este una probabilistică. Testul are asociat un grad de încredere. În cazul testelor de concordanță este
verificată ipoteza că o distribuție empirică este distribuită după o lege de probabilitate specificată, sau că două distribuții empirice
urmăresc aceeași lege. Utilizarea clasică este cea legată de “concordanța” dintre modelul empiric şi modelul teoretic considerat
adecvat pentru populația din care provin datele statistice. În orice test sunt calculate două mărimi:
- valoarea calculată a testului sau valoarea critică,
- valoarea efectivă a testului sau statistica testului.
Valoarea critică depinde de gradul în care sunt acceptate valori marginale, caracterizate prin densități mici de probabilitate. Acesta
este pragul de semnificație și reflectă zona de respingere a ipotezei nule. Complementar, gradul de încredere reflectă zona de
acceptare. Dacă valoarea efectivă este mai mică sau egală decât valoarea critică, ipoteza H0 este acceptată, altfel este respinsă.
Metodele de analiză a datelor adeseori fac presupuneri cu privire la distribuții, prepuneri care trebuie verificate. Din multitudinea
de teste de concordanță, două se detașează ca frecvență de utilizare: testul χ2 și testul Smirnov-Kolmogorov.
Testul χ2
Testul χ2 este un test general, care poate fi aplicat oricărei distribuții empirice căreia putem sa îi calculăm funcția de
repartiție. Testul χ2 se aplică datelor grupate (sau datelor de frecvență). Algoritmic, testul se aplică astfel:
1. Fie distribuția empirică X = {x1, x2, ..., xT}. Vor fi împărțite observațiile în m grupe și se vor determina frecvențele absolute ale
grupelor:
fai, i = 1,m
2. Se calculează frecvențele medii estimate prin funcția de repartiție testată:
fei = T·(F(li+1)-F(li)), i = 1, m,
unde F este funcția de repartiție testată iar li, i =1,m+1 sunt limitele grupelor
3. Se calculează valoarea efectivă a testului sau statistica testului:
m
fai fei 2
2
Calculat fei
i 1
4. Se determină valoarea critică a testului 2 (α ;m − c +1)
Critic
unde:
- α este nivelul (pragul) de semnificație al testului;
- c este numărul de parametri ai distribuției F (distribuția normală-gaussiană are doi parametrii, media și abaterea standard);
- m−c+1 numărul de grade de libertate ale distribuției χ2.
Această valoare se calculează aplicând funcția de repartiție a distribuției χ2 pentru parametrii specificați.
5. Sunt testate ipotezele:
H0 - distribuția X urmează legea de repartiție F
H1 - distribuția X nu urmează legea de repartiție F
Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel:
dacă 2 2
Critic atunci se acceptă ipoteza nulă, respectiv datele provin din distribuția testată
Calculat
altfel se respinge ipoteza nulă, respectiv datele nu provin din distribuția testată.
Testul Smirnov-Kolmogorov
Este utilizat pentru testarea ipotezei de normalitate. Etapele algoritmului:
1. Fie distribuția empirică X = {x1, x2, ..., xT}. Se calculează media distribuției și abaterea standard, μ și σ.
2. Se ordonează crescător valorile eșantionului şi se obţine eşantionul ordonat:
x(1), x(2), ..., x(T)
3. Se calculează funcția de repartiție normală pentru valorile ordonate:
F(x(1)), F(x(2)), ... , F(x(T))
4. Se calculează funcția de repartiție empirică:
j 1
Fe(x(j)) = , j=1,T, deoarece densitatea de probabilitate pentru repartiția empirică este
T T
4. Se calculează valoarea efectivă a testului sau statistica testului:
D = max|𝐹𝑒(𝑥(𝑗) ) − 𝐹(𝑥(𝑗) )|
𝑗
5. Se determină valoarea critică a testului conform tabelelor Kolmogorov, d1-α,T, unde 1-α este gradul de încredere
6. Se ia decizia astfel:
-dacă D≤ d1-α,T se acceptă ipoteza normalității cu un grad de încredere 1-α
- dacă D> d1-α,T se respinge ipoteza normalității cu un grad de încredere 1-α
Soluția acestei probleme obținută aplicând regula celor mai mici pătrate este:
n
1
( xi x)( yi y )
n
a i 1
Var ( X )
b y a x
n
( x x)( y y) rezultă:
1
Dacă se notează covarianța dintre cele două variabile cu Cov(X,Y) = i i
n
i 1
Cov( X , Y )
a
Var ( X ) .
b y ax
Fluctuațiile variabilei Y măsurate prin variantă, Var(y) reprezintă varianța totală. Fluctuațiile valorilor calculate pentru Y,
care depind de X, sunt măsurate prin varianța Var(ax+b) și reprezintă varianța explicată. Fluctuațiile valorilor reziduale , Var(e),
reprezintă varianța reziduală. Relația dintre cele trei varianțe este următoarea:
Varianța totală = Varianța explicată + Varianța reziduală
Var(y) = Var(ax+b) + Var(e)
n
1
Var(y) = ( yi y ) 2
n
i 1
Deoarece, yi = axi +b +ei si b = y a x , rezultă: yi y a( xi x) ei . Înlocuind în relația varianței se obține: Var(y) =
1 1
∑𝑛 (𝑎(𝑥𝑖 − 𝑥) + 𝑒𝑖 )2 = ∑𝑛𝑖=1(𝑎2 (𝑥𝑖 − 𝑥)2 − 2𝑎(𝑥𝑖 − 𝑥)𝑒𝑖 + 𝑒𝑖2 ).
𝑛 𝑖=1 𝑛
n
a2
n
i 1
(xi x) 2 a 2Var ( x) Var (ax) Var (ax b)
n
( xi x)ei 2aCov( x, e) 2aCov( x, y ax b)
2a
n
i 1
2a(Cov( x, y ) Cov( x, ax b))
Cov( x, y )
=2a(Cov(x,y) – a Cov(x,x)) = 2a ( Cov(x, y) - Var ( x)) = 0.
Var ( x)
n
e
1 2
i Var (e)
n
i 1
Deci Var(y) = Var(ax+b) +Var(e)
Se măsoară intensitatea legăturii dintre X şi Y prin raportul dintre varianţa explicată şi varianţa totală. Acest raport , numit
2
raport de corelație (sau coeficient de determinare) este notat R (x,y):
Var (ax b) Var ( x) Cov( x, y ) 2
R 2 ( x, y ) a2 .
Var ( y ) Var ( y ) Var ( x)Var ( y )
2
Rădăcina din R este numit coeficient de corelație liniară și este:
Cov( x, y )
R= .
x y
n
y y i 1
2
i
.
Cos(G) = R(X,Y)
Unghiul G
Y
Când coeficientul de corelaţie este egal cu 1 cei doi vectori sunt coliniari. Absenţa corelaţiei se traduce printr-o valoare nulă pentru
R, deci între cei doi vectori este un unghi de 90 de grade.
p
n j n ,
i 1
ij j 1, q - numărul de instanțe la care se întâlnește modalitatea j pentru variabila Y.
Testul de independență χ2
Testul χ2 este utilizat pentru a stabili dacă există o legătură între cele două variabile calitative (nominale). Ipoteza nulă specifică
faptul că nu există o relație între cele două variabile, adică:
H0: Cele două variabile sunt independente
H1: Cele două variabile sunt dependente
Pașii aplicării testului sunt:
1. Se calculează frecvențele medii estimate:
ni n j
neij = , i =1,p, j = 1,q
T
2. Se calculează statistica testului:
Calculat
2
p q
n
ij neij
2
i 1 j 1 neij
3. Se calculează valoarea critică a testului: Critic ( ; r ) unde α este pragul de semnificație al testului iar r este numărul gradelor de
2
reciproc.
În cele mai multe situații se utilizează frecvențe relative. Acestea se determină prin raportarea frecvențelor absolute la numărul de
f11 f12 ... f1q
f f 22 ... f 2 q
instanțe. Frecvențele relative se memorează într-un tabel F
21
.
...
f p1 f p 2 ... f pq
Statistica testului se va calcula astfel:
p q
f f i f j
2
2
Calculat T
i 1 j 1
ij
f i f j
,
nij ni n j
unde f ij , f i , f j .
T T T
Descrierea instanțelor
O instanță (individ, caz) este descrisă prin mulțimea de valori luate de un grup de variabile pentru instanța respectivă.
Se notează cu X matricea valorilor luate de n instanțe pentru m variabile:
x11 x12 ... x1m
x x22 ... x2 m
X 21
... ...
x ... xnm
n1 xn 2
Fiecărei instanțe i se asociază o pondere, pi , i=1,n. Suma ponderilor este 1. Dacă instanțelor li se asociază aceeași pondere atunci
1
pi .
n
Mulțimea punctelor date de cele n instanțe care formează colectivitatea studiată corespunde unui nor de puncte m-
dimensionale (m fiind numărul variabilelor).
Se poate defini baricentrul punctelor sau centrul de greutate al norului , vectorul mediilor aritmetice ale celor m variabile
care descriu colectivitatea:
n
xi1 pi xi1
n n
i 1
g pi wi pi ... ... ,
n
xim p x
i im
i 1 i 1
i 1
xi1
unde wi ... este vectorul coloană reprezentând valorile luate de cele m variabile pentru instanța i.
xim
Vom numi inerţie totală a norului de puncte , media ponderată a pătratelor distanțelor punctelor față de centrul de greutate:
n
I g pi ( wi g ) t M ( wi g ) , unde (wi-g) este un vector linie, transpusul vectorului coloană wi-g, iar M este metrica
t
i 1
utilizată (tipul de distanță).
Inerția norului în raport cu un punct oarecare din spaţiu, h, este:
n
I h pi ( wi h) t M ( wi h) .
i 1
Relația dintre cele doua valori ale inerţiei este:
I h I g ( g h) t M ( g h) . (Relaţia lui Huygens)
Inerția în raport cu centrul de greutate este minimă.
Măsuri de asemănare
Se numește măsură de asemănare (similaritate/disimilaritate) orice aplicație cu valori numerice care permite să se exprime
o legătură între instanțe, sau între variabile. Dacă se notează cu mulțimea instanțelor sau variabilelor, un indice de similaritate pe
mulțimea este o aplicație s care verifică următoarele trei proprietăți:
1. s este o aplicație a lui în R ;
+
2. s este simetrică: (w,w') : s(w,w') = s(w',w);
3. (w,w' ) cu w w' : s(w,w) = s(w',w') > s(w,w').
Un indice de disimilaritate este o aplicație s' care satisface primele două condiții din definiția indicelui de similaritate, iar
condiţia 3 este înlocuită prin cerinţa ca:
3'. w: s'(w,w) = 0.
2
O distanţă, notată cu d , este un indice de disimilaritate care verifică în plus următoarele două proprietăți:
2
4. d (w,w') = 0 w = w';
2 2 2
5. d (w,w') d (w,w'' ) + d (w'',w'), w,w',w'' - inegalitatea triunghiului.
xi1 xk 1
Dacă luam în considerare două instanțe din tabelul de observații wi ... şi wk ... , (m este numărul de variabile) distanța
xim xkm
dintre cele două instanțe se poate defini sub forma:
2
d (wi,wk) = (wi wk )t Qwi wk
unde Q este o matrice simetrică pozitiv definită numită metrică.
Mai des utilizate sunt următoarele tipuri de distanțe:
1. Distanţa euclidiană simplă. Q este matricea unitate.
2. Distanţa lui Mahalanobis, aplicată în analiza discriminantă, unde Q reprezintă matricea de covarianţă.
Cov ( X 1 , X 1 ) Cov ( X 1 , X 2 ) ... Cov ( X 1 , X m )
Cov ( X , X ) Cov ( X , X ) ... Cov ( X , X )
V=
2 1 2 2 2 m
,
...
Cov ( X m , X 1 ) Cov ( X m , X 2 ) Cov ( X m , X m )
x1 j
unde Xj = ... sunt înregistrările pentru variabila j la cele n instanțe.
xnj
3. Distanţa 2 este în mod particular bine adaptată tabelelor de frecvenţe. Se aplică în analiza factorială a corespondenţelor iar Q
este o matrice a indicatorilor 2 calculați pentru fiecare pereche de variabile.
Tabele de date
Un tabel de date este o matrice care se construiește din ansamblul de instanțe şi variabile.
- Tabelul de observații. Un astfel de tabel se obține atunci când elementele matricei sunt valori numerice oarecare. Pe linii
sunt așezate instanțele iar pe coloane sunt așezate variabilele urmărite. Fie n numărul de instanțe şi m numărul de variabile. Tabelul
de observații este de obicei notat:
x11 x12 ... x1m
x x22 ... x2 m
X=
21
...
xn1 xn 2 ... xnm
- Tabelul de contingenţă. Pentru date calitative. X şi Y două variabile calitative
f11 f12 ... f1q
f f 22 ... f 2 q
Z= 21
, cu frecvenţe relative, unde p este numărul de modalități al variabilei X şi q este numărul de
...
f p1 f p 2 ... f pq
modalităţi al variabilei Y.
O alta formă a tabelului de contingență este următoarea:
Modalitatea 1 a variabilei X Modalitatea 1 a variabilei Y f 11
Modalitatea 2 a variabilei X Modalitatea 1 a variabilei Y f
21
... ... ...
Z = Modalitatea p a variabilei X Modalitatea 1 a variabilei Y f p1 .
Modalitatea 1 a variabilei X Modalitatea 2 a variabilei Y f 12
... ... ...
Modalitatea p a variabilei X Modalitatea q a variabilei Y f
pq
Acest tabel are pq linii şi 3 coloane. Primele două coloane cuprind valori nominale pentru variabilele calitative iar a treia
coloană cuprinde frecvenţele.
- Tabelul de preferinţe. Este un tip de tabel pentru variabile calitative, şi exprimă preferinţele unui grup de instanțe faţă de valorile
unei caracteristici. Folosește o scală de tip ordinal. Tabelele de acest tip sunt frecvent utilizate în studii de marketing. De exemplu,
în tabelul următor sunt prezentate preferințele a patru persoane pentru cinci mărci de parfum:
- Tabelul binar. Este tabelul care nu conţine decât valori 0 sau 1. Este folosit, ca şi tabelul de preferinţe, în anchete statistice.
În exemplul de mai jos se găsesc răspunsurile unor indivizi la întrebarea Citiţi ziarul Z ?.
Indivizi Ziare
Z1 Z2 Z3 Z4
w1 1 0 0 0
w2 1 1 0 0
w3 0 0 1 1
Răspunsurile pot fi Da sau Nu şi sunt codificate cu 1, respectiv 0.
- Tabelul de modalităţi. Atunci când fiecare întrebare a unei anchete statistice presupune mai multe răspunsuri, ne găsim
în faţa unui tabel de modalităţi. Astfel, dacă la întrebarea din exemplul anterior s-ar putea da trei răspunsuri: Niciodată - răspuns
codificat cu valoarea naturală 1, Câteodată - codificat cu 2, Deseori - codificat cu 3, tabelul de modalităţi asociat ar putea fi
următorul:
Indivizi Ziare
Z1 Z2 Z3 Z4
w1 3 2 2 1
w2 3 3 1 1
w3 1 2 3 3
- Tabelul de proximităţi. Atunci când se evaluează asemănările sau diferenţele între fiecare cuplu de indivizi, se construiește
un tabel de proximităţi. De exemplu, putem considera patru mărci de autoturisme, pe care să le comparăm unele cu altele. Apropierea
dintre o marcă j şi o marcă i poate fi făcută printr-o notă de la 1 la 10, sau media unor note de la 1 la 10, date, eventual, de un grup
de specialiști în domeniu. Se poate observa în Tabelul următor că se foloseşte o scală de tip raport.
- Tabele eterogene. Sunt tabele în care variabilele sunt de diferite tipuri. Un exemplu de tabel eterogen este următorul:
Produse Variabile
Preţ Punct de lucru Mod de transport
p1 3.5 1 3
p2 4 3 2
p3 10 2 1
Parametrului preţ i s-a asociat o variabilă cantitativă măsurabilă, parametrului Punct de lucru i s-a asociat o variabilă
calitativă ordinală, iar parametrului Mod de transport i s-a asociat tot o variabilă calitativă ordinală.
- Tabele tridimensionale. Pot fi oricare din tipurile de tabele deja prezentate, la care se adaugă o a treia dimensiune,
de exemplu, timpul. Astfel, pentru tabelul eterogen de mai sus, dacă evaluarea se face la anumite intervale de timp, se obține un
tabel cu trei dimensiuni conform figurii:
Evoluţie în
t i m p
Indivizi
Variabile
Schimbarea de variabilă
Necesitate:
a) Când datele sunt grupate în tabele eterogene şi se doreşte exprimarea unei variabile descriptive cu ajutorul alteia, astfel încât
toate variabilele să devină de acelaşi tip.
b) Pentru a putea aplica o anumită metodă de analiză a datelor în situaţia în care aceasta este incompatibilă cu tipul datelor. De
exemplu, prin schimbare de variabilă se poate transforma un tabel de date calitative într-un tabel de modalităţi, putând astfel aplica
într-o manieră mai eficientă analiza factorială a corespondenţelor multiple.
c) Pentru a sintetiza informaţia conţinută într-un tabel de date, reducându-i astfel mărimea. Se poate, de exemplu, înlocui mulţimea
de variabile prin care se descrie o colectivitate printr-o combinație liniară de aceste variabile