Sunteți pe pagina 1din 50

Abatere (Deviation)

Prin abatere se nelege diferena dintre o dat i o valoare de referin (de regul media).
Vezi abatere standard.

Abatere standard (Standard Deviation SD)
Abaterea standard a unei mulimi de numere este rdcina medie ptrat (RMS) a
mulimii abaterilor fiecrui element de la media mulimii.

Poate fi definit ca rdcina ptrat a dispersiei mulimii de numere.
Abaterea standard este o msur a gradului de mprtiere a elementelor, se msoar n
aceeai unitate de msur ca i datele iniiale i se raporteaz, de regul, mpreun cu
media.
Este de remarcat c definiia are loc considernd c mulimea de plecare reprezint
ntreaga populaie. Pentru un eantion se va vedea Abatere standard de sondaj.

Abatere standard de sondaj (Sample Standard Deviation, S)
Abaterea standard de sondaj s este un estimator al abaterii standard a populaiei, bazat pe
un eantion aleator.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de sondaj.
Presupunnd c exist n elemente n eantion, cu valorile {x
1
, x
2
, . . . , x
n
}, avnd media
M = (x
1
+ x
2
+ . . . + x
n
)/n, atunci
s = { [(x
1
- M)
2
+ (x
2
- M)
2
+ . . . + (x
n
- M)
2
]/(n-1) }


Ptratul abaterii standard de sondaj, s
2
, dispersia de sondaj, este un estimator nedeplasat
al dispersiei populaiei.

Abaterea standard a populaiei (Population Standard Deviation)
Parametru reprezentnd abaterea standard a valorilor unei variabile pentru o populaie.

Amplitudine (Range)
Este definit ca x
max
x
min
, unde x
max
i x
min
sunt valorile extreme ale unui set de numere
observate. Ofer o imagine a ntinderii datelor, dependent ns de numrul de valori
observate. Cu ct se msoar mai multe elemente, cu att ansa de a observa valori mai
deprtate crete, deci ansa de a obine o amplitudine mai mare.

Amplitudine interquartil (Interquartile Range IQR, H-spread)
Se definete ca diferena dintre quartila a treia i quartila ntia. Are semnificaia lungimii
unui interval pe care se distribuie 50% dintre observaii. De remarcat c intervalul nu este
centrat pe quartila a doua (mediana). Este utilizat, n mod nefundamentat teoretic, pentru
a obine un interval centrat pe median, (Me-IQR/2;Me+IQR/2), interval care conine
aproximativ 50% dintre observaii, gradul de aproximare fiind dependent de forma
distribuiei.

Applet

= =
2
) (
1
x x
n
SD s
i
Un applet este un program (de regul interactiv) ncrcat automat dintr-o pagin web. Nu
este o noiune specific statisticii i este prezent aici doar pentru a lega o adres web
specializat pentru applet-uri dedicate unor prelucrri statistice: tools page
(http://www.stat.berkeley.edu/users/stark/Java/index.htm)

Aproximare normal (Normal approximation)
Aproximarea normal const n aproximarea unei arii de sub histograma datelor,
transformate n uniti standard, prin aria corespunztoare de sub curba normal standard.
De exemplu, se dorete o aproximare pentru aria de sub histograma de probabilitate
binomial cu parametrii n = 50 i p = 0,30 situat ntre 9.5 i 17.5 (aria exact este de
0,742). Pentru aproximarea normal se standardizeaz limitele intervalului utiliznd
media np = 15 i abaterea standard (n p (1-p))
1/2
= 3.24. Rezult c aria
aproximant este cea de sub curba normal situat ntre (9.5 - 15)/3.24 = -1.697 i (17.5 -
15)/3.24 = 0.772, adic 0,735, o valoare apropiat de cea corect.
Pentru aproximarea distribuiilor discrete se vor utiliza coreciile de continuitate.

Asociere (Association)
Dou variabile sunt asociate dac repartiia valorilor luate de o variabil este diferit dup
domenii de valori distincte ale celeilalte variabile. n aceast situaie se poate interpreta
c o parte din variabilitatea uneia poate fi explicat de cealalt variabil. Vizual,
asocierea poate fi detectat printr-o diagram de mprtiere (scatterplot) n care norul de
puncte prezint configuraii particulare, interpretabile ca tendine (forme liniare, curbilinii
etc.). Asocierea liniar poate fi msurat prin coeficientul de corelaie (o asociere de tipul
maremare, micmic este o asociere pozitiv, n timp ce o asociere maremic, micmare
este o asociere negativ)

Asociere liniar (Linear association)
Dou variabile sunt asociate liniar dac o modificare a unei variabile este asociat cu o
midificare proporional n cea de a doua variabil, factorul de proporionalitate fiind
constant n domeniul msurat. Gradul de asociere liniar este msurat prin coeficientul de
corelaie (liniar), cu valori n [-1,+1], valorile extreme nsemnnd asocieri perfecte,
negative sau pozitive. Vezi coeficient de corelaie.

Asociere neliniar (Nonlinear Association)
Relaia dintre dou variabile este neliniar dac o modificare n una dintre variabile este
asociat cu o modificare a celeilalte variabile, modificare dependent de valoarea primei
variabile. Situaia contrar este cea a unei asocieri liniare, n care modificrile sunt
proporionale, factorul de proporionalitate fiind constant (deci independent).

Ateptare, Valoare ateptat (Expectation, Expected Value)
Valoarea ateptat a unei v.a. este media ei, gndit ca media la limit a valorilor v.a.
obinute n experimente independente repetate. Se noteaz uzual cu Exp(X) sau cu E(X).
n cazul unei v.a. discrete, valoarea ateptat este media poderat a valorilor posibile,
ponderile fiind probabilitile cu care v.a. ia diferitele valori.
Se poate gndi valoarea ateptat a unei v.a. ca punctul de echilibru al histogramei
probabilitilor, dac aceasta ar fi o plac tiat dintr-un material uniform.
Proprietile uzuale sunt
Exp(X+Y) = Exp(X) + Exp(Y)
Exp (XY) = Exp(X)Exp(Y), dac X i Y sunt independente
Exp(aX ) = aExp(X).
Valoarea ateptat a unei statistici este media distribuiei de sondaj a statisticii.

Autoselecie (Self-Selection)
Situaia de autoselecie apare atunci cnd indivizii decid singuri dac sunt n grupul de
control sau n cel de tratament i este ntlnit n studiul comportamentului uman. De
exemplu, studiile efectului fumatului asupra sntii implic autoselecia: persoanele
decid singure dac fumeaz sau nu.
Autoselecia exclude situaia de experiment i produce un studiu observaional. n situaia
de autoselecie, cercettorul trebuie s fie precaut n privina confundrii posibile a
factorilor care influeneaz deciziile individuale de apartenen la unul dintre grupuri.

Axiomele probabilitii (Axioms of Probability)
Se numete probabilitate orice funcie definit pe mulimea evenimentelor, cu valori reale
i care ndeplinete urmtoare trei axiome: (1) probabilitate unui eveniment este
nenegativ, P(A)>0; (2) probabilitatea evenimentului total este egal cu 1, P(O)=1; (3)
probabilitatea reuniunii a dou evenimente incompatibile este egal cu suma
probabilitilor, adic dac AB = C, atunci P(AB)= P(A)+P(B). n cazul cnd
mulimea evenimentelor este infinit, suma se extinde la o reuniune infinit de
evenimente incompatibile P( A
i
) = E P(A
i
).
Probabilitatea unui eveniment se interpreteaz ca ansa de realizare a evenimentului i se
exprim, uneori, ca procentaj. Astfel, un eveniment A cu P(A)=1/4 poate fi gndit ca un
eveniment care se realizeaz n 25% din cazuri (un caz din patru).
Proprieti ale probabilitii: (1) dac AcB, atunci P(A)sP(B); (2) P(A)s1; (3) P(non A)
= 1 P(A); (4) P(C)=0; (5) P(AB) = P(A)+P(B)P(AB).
Pentru cazul cnd toate evenimentele elementare sunt egal probabile, P({e
i
})=1/n (n fiind
numrul finit de evenimente elementare), atunci P(A) = n
A
/n, unde n
A
este numrul
evenimentelor elementare care compun evenimentul A. Regula se interpreteaz sub
forma: probabilitatea evenimentului este egal cu numrul cazurilor favorabile raportat la
numrul total de cazuri posibile.

B
Bias (Bias)
Un estimator, sau un proces de msurare, se zice deplasat dac, n medie, valoarea sa
difer de mrimea estimat (msurat) adevrat. Deplasarea este media acestei diferene.
Deplasarea poate fi datorat i modului de conducere, evaluare a unui experiment. Vezi i
deplasarea de nonrspuns.

Bin (Bin)
Limita unui interval de clas. Valorile care realizeaz partiionarea n intervale de clas.

Bivariat (Bivariate)
Termenul se aplic atunci cnd sunt implicate dou variabile.De exemplu, date bivariate
apar atunci cnd se efectueaz dou msurtori pentru fiecare element al unui eantion.
n plus fa de datele univariate, apar probleme cum ar fi distribuia comun a
variabilelor, corelaia dintre variabile, regresia unei variabile n funcie de cealalt etc.

Boxplot (Boxplot)
O diagram de tip boxplot reflect grafic rezumarea prin cele 5 valori a unei distribuii:
valoarea minim, prima quartil, mediana, a treia quartil i valoarea maxim.

Prin compararea intervalelor figurate se obine o imagine a gradului de mprtiere a
valorilor n domeniul observat.
De regul, se marcheaz pe diagram i valorile aberante: situate la mai mult de 1,5D sub
prima quartil sau peste a treia quartil, unde D noteaz distana dintre prima i a treia
quartil (intervalul interquartil) n figura anterioar, poziia valorii aberante este
distorsionat din necesiti de prezentare. Uneori, ntre valorile aberante se face distincia
celor situate la mai mult de 3D de quartilele extreme.
Prin reprezentarea simultan a celor cinci valori pentru grupuri diferite, se ofer suport
pentru o comparare rapid a grupurilor.

C
Cadru, cadru de sondaj (Frame, sampling frame)
Prin cadru (frame) de sondaj se nelege o colecie de elemente de unde se extrage
eantionul. n mod ideal, cadrul este chiar populaia. Diferena dintre cadrul de sondaj i
populaie poate fi o surs de apariie a unei deplasri (biais).

Cauzalitate, relaie cauzal (Causation, causal relation)
Dou variabile sunt n relaie de cauzalitate dac modificarea valorii uneia dintre ele
(cauza) produce modificarea valorii celeilalte (efectul). Nu exist nici o legtur ntre
relaia de cauzalitate i relaia de asociere din statistic. Dou variabile pot fi asociate
0
10
20
30
40
50
60
70
80
1
mediana
prima quartila
quartila a treia
maxim
minim
valoare aberanta
statistic fr a exista nici o relaie de cauzalitate ntre ele, n timp ce dou variabile n
relaie de cauzalitate pot avea o corelaie nesemnificativ statistic.

Coeficient de corelaie (Correlation coefficient)
Coeficientul de corelaie (Pearson) este o msur a asocierii liniare dintre dou variabile,
cu alte cuvinte a gradului n care reprezentarea bivariat sub forma unei diagrame de
mprtiere se apropie de o dreapt. Notnd cu X i Y cele dou variabile i cu x
i
, y
i
,
i=1,,n, valorile variabilelor, formula de calcul este
.
Coeficientul de corelaie ia valori ntre 1 i +1, inclusiv, cu semnificaia de asociere
pozitiv/negativ dup semnul coeficientului i de lips de asociere pentru r
XY
= 0.
Semnificaia statistic (aproximativ) este obinut aplicnd un test Student cu statistica
, avnd n-2 grade de libertate.

Confundare (Confounding)
Dou variabile sunt confundate dac este imposibil s se determine care variabil este
asociat efectului observat.
Atunci cnd se compar un grup de control i un grup experimental (supus unui tratament
oarecare) i cnd diferenele dintre grupuri, altele dect tratamentul aplicat, produc
diferene ntre rezultate nedifereniabile de efectul tratamentului, aceste diferene se zic
confundate cu efectul tratamentului (dac acesta exist). De exemplu, diferenele ntre
maladiile fumtorilor i nefumtorilor pot fi confundate cu calitile individuale
difereniate ale subiecilor. Confundarea poate afecta studiile observaionale i
experimentele care nu sunt randomizate. Vezi i paradoxul lui Simpson.

Consisten (Consistency)
Un estimator se zice consistent dac tinde s se apropie de parametrul pe care-l estimeaz
o dat cu mrirea volumului eantionului.
Statisticile uzuale sunt consistente.

Contrabalansare (Counterbalancing)
Este procedura prin care se ncearc reducerea riscului de confundare. De exemplu,
ntr-un experiment n care un subiect este supus mai multor probe, ordinea acestora este
diferit astfel nct fiecare ordine posibil s fie egal prezent. n acest fel se elimin
confundarea cu variabila (ascuns) a ordinii de prezentare a probelor.

Controale istorice (Historical Controls)
Uneori, grupul experimental este comparat cu un grup de control care aparine altei epoci
istorice. n asemenea cazuri, fenomenul de confundare este mult mai mare, deoarece de la
o epoc la alta se modific muli factori ale cror efecte pot fi confundate cu efectul
tratamentului.

( )( )



=
2 2
) ( ) (
) )( (
Y y X x
Y y X x
r
i i
i i
XY
2
1
2
XY
XY
r
n
r t

=
Control (Control)
Exist cel puin trei sensuri ale cuvntului "control" n statistic: un element al unui grup
de control, un experiment controlat i controlul pentru o posibil variabil confundat (a
controla o variabil nseamn a ncerca separarea efectului ei de efectul tratamentului).

Convenia punctului extrem (Endpoint Convention)
La gruparea datelor continue, trebuie s se decid n ce interval s se includ o valoare
care este egal unui punct de divizare. Regula de includere constituie convenia punctului
extrem. Exist dou convenii utilizate: (1) se include punctul din stnga i se exclude cel
din dreapta, cu excepia intervalului din extremitatea dreapt care include ambele capete;
(2) se include punctul din dreapta i se exclude cel din stnga, cu excepia intervalului din
extremitatea stng care include ambele capete.

Convergen n probabilitate (Convergence in probability)
Un ir de variabile aleatorii X
1
, X
2
, X
3
. . . converge n probabilitate dac exist o v.a.
X astfel nct pentru orice e>0, irul
P(|X
1
- X| < e), P(|X
2
- X| < e), P(|X
3
- X| < e), . . .
converge la 1.

Corecia de populaie finit (Finite Population Correction)
Atunci cnd eantionarea este fr repunere, ca n sondajul aleatoriu simplu, eroarea
standard a sumei de sondaj i a mediei de sondaj depinde de fraciunea extras din
populaie: cu ct volumul eantionului este mai mare, cu att mai mic este eroarea
standard. Ajustarea erorii standard n acest caz este denumit corecia de populaie finit.
Sondajul cu repunere este similar celui dintr-o populaie infinit. Eroarea standard pentru
un sondaj fr repunere este mai mic dect cea pentru un sondaj cu repunere cu factorul
de corecie ((N -n)/(N - 1))

. Se verific imediat c acest factor corespunde intuiiei


pentru n=1 sau n=N.

Corecie de continuitate (Continuity Correction)
Corecia de continuitate apare atunci cnd o distribuie discret (cum ar fi cea binomial)
este aproximat printr-o distribuie continu (cum ar fi cea normal) i const extinderea
intervalului cu jumti de uniti de msur: o valoare k din distribuia discret devine un
interval (k-1/2,k+1/2) din distribuia continu.

Corelaie ecologic (Ecological Correlation)
Noiunea se utilizeaz atunci cnd se estimeaz corelaia dintre mediile grupurilor de
subieci i nu ntre subieci. Rezultatul poate s estimeze incorect asocierea variabilelor.
Noiunea este specific studilor ecologice.

Curba F (F Curve)
Printr-o curb F se nelege o familie de curbe care depind de doi parametri, v
1
i v
2
,
numii grade de libertate. Expresia analitic este

unde Ieste funcia lui Euler, dat de
.
Cteva curbe din familie sunt prezentate n imaginea urmtoare:

Funcia f este densitatea de probabilitate pentru repartiia F(v
1
;v
2
) i se observ asimetria
pozitiv pronunat pentru valori mici ale gradelor de libertate, ca i atenuarea acestei
asimetrii pentru valori mari ale parametrilor.

Curba _
2
(Chi-square Curve)
Curba _
2
este o familie de curbe care depind de un parametru, v, numit grade de libertate
(d.f.). Expresia analitic este
,
unde Ieste funcia lui Euler, dat de
.
Curba _
2
este o aproximare pentru histograma probabilitilor statisticii _
2
pentru
modelul multinomial dac numrul ateptat de rezultate din fiecare categorie este
suficient de mare.
Funcia f este densitatea de probabilitate pentru repartiia _
2
.
Pentru v suficient de mare, forma graficului se apropie de alura curbei normale.
. 0 pentru , 1
2 2
2
) (
2
2
1 2
2
2
2
1
2 1
2 1
2 1
1
1
>
|
|
.
|

\
|
+
|
|
.
|

\
|
|
.
|

\
|
I |
.
|

\
|
I
|
.
|

\
| +
I
=
+

x x x x f
u u
u
u
u
u
u
u
u u
u u
dx e x u
x u

}
= I
1
0
) (

0
0.5
1
0 1 2 3 4 x
f(x)
F(8,2)
F(8,2)

F(10,40)
F(8,10)

s
>
|
.
|

\
|
I
=
|
.
|

\
|

0 daca 0,
0 daca ,
2
2
1
) (
2
1
2
2
x
x e x
x f
x
v
v
v
dx e x u
x u

}
= I
1
0
) (


Curba normal (Normal curve)
Curba normal reprezint grafic densitatea de probabilitate a repartiiei normale. Pentru
repartiia normal standard se obine imaginea urmtoare, mai cunoscut sub denumirea
de clopotul lui Gauss.

Expresia analitic, n cazul unei repartiii normale cu parametrii i o, este:

Pentru =0 i o=1 se obine expresia analitic a funciei normale standard, reprezentat n
figura precedent.
Este de reinut c graficul este simetric iar aria de sub curb este egal cu 1.

Curba normal standard (Standard Normal Curve)
Vezi Distribuia normal.

Curba Student, t (Student's t curve)
Prin curba Student se nelege graficul densitii de probabilitate a repartiiei Student (de
fapt o familie de curbe indexat prin numrul gradelor de libertate).
Curba este simetric i are o form apropiat de curba normal standard ctre care tinde o
dat cu mrirea numrului de grade de libertate. Se poate observa c probabilitile
extreme sunt mai mari dect n cazul curbei normale.

0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-4 -3 -2 -1 0 1 2 3 4
z
f(z)
2
2
2
) (

2
1
) (
o

t o

=
x
e x f


Cazul cel mai des ntlnit de utilizare este acela n care se consider o populaie aproape
normal distribuit cu media . Fie un eantion aleator de volum n avnd media egal cu
M i abaterea standard egal cu s. Definim v.a. T prin
T = (M - )/(s/n

).
Pentru valori mici ale lui n se poate considera c T este repartizat Student cu n - 1 grade
de libertate. Adic
P(a < T < b) ~ aria de sub curba S(n 1) delimitat de x = a i x = b.

D
Date multivariate (Multivariate Data)
Un set de msurtori efectuate asupra a dou sau mai multor variabile, o observaie fiind
ansamblul valorilor pentru un anumit element (individ) din eantion.

Deplasare (Bias)
Vezi Bias.

Deplasare de non-rspuns (Nonresponse bias)
Dac cei care rspund ntr-un studiu difer de cei care nu rspund ntr-un mod dependent
de variabila urmrit, atunci apare o deplasare (biais) datorat non-rspunsurilor. De
exemplu, ntr-un anchet sociologic prin telefon, efectuat dup-amiaza, nu vor fi prini
cei care lucreaz n acel timp. Dac rezultatele obinute urmresc ntreaga populaie, este
evident c apare o deplasare de non-rspuns.

Deplasare de selecie (Selection Bias)
Este tendina sistematic dintr-o procedur de sondaj de a include i/sau exclude uniti
de sondaj de un anumit tip. O asemenea deplasare este posibil atunci cnd formarea
eantionului este la latitudinea unei persoane. Pentru eliminarea riscului de apariie a
0
0.1
0.2
0.3
0.4
-3.5 -2 -0.5 1 2.5
x
f(x)
N(0,1)
S(2)
Comparaie ntre graficele densitilor de probabilitate:
N(0,1) linia punctat; S(2) linia continu.
deplasrii de selecie se utilizeaz scheme de sondaj probabilist care nu mai las loc la
opiuni personale.

Diagram de mprtiere (Scatterplot)
Pentru date bivariate, diagrama de mprtiere este obinut prin reprezentarea grafic a
punctelor de coordonate (x
i
,y
i
), unde x
i
i y
i
sunt valorile celor dou variabile studiate care
se refer la un acelai element din eantion.
Din analiza formei norului de puncte astfel obinut se pot obine informaii privind
repartiia comun a celor dou variabile, repartiiile marginale (fiecare variabil fiind
considerat separat), precum i informaii despre asocierea variabilelor.
Mai este denumit diagram XY.

Diagrama reziduurilor (Residual Plot)
O diagram a reziduurilor lund pe axa Ox o variabil explicativ (independent) sau
explicat (dependent). Forma norului de puncte obinut conduce la concluzii asupra
adecvanei modelului.

Dispersie (Variance)
Dispersia unei liste de valori este ptratul abaterii standard, adic media ptratelor
abaterilor numerelor de la media lor.
Dispersia unei variabile aleatoare X, notat Var(X), este valoarea ateptat a diferenei
ptrate dintre variabil valoarea ei ateptat:
Var(X) = Exp((X E(X))
2
).
Dispersia unei variabile aleatoare este ptratul erorii standard (SE) a variabilei .

Dispersie de sondaj (Sample Variance)
Dispersia de sondaj s
2
este un estimator al dispersiei populaiei, bazat pe un eantion
aleatoriu.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de sondaj.
Presupunnd c exist n elemente n eantion, cu valorile {x
1
, x
2
, . . . , x
n
}, avnd media
M = (x
1
+ x
2
+ . . . + x
n
)/n, atunci
s
2
= [(x
1
- M)
2
+ (x
2
- M)
2
+ . . . + (x
n
- M)
2
]/(n-1)
Se observ c este ptratul abaterii standard de sondaj, s. Dispersia de sondaj este un
estimator nedeplasat al dispersiei populaiei.

Distribuia _
2
(Chi-square distribution)
O v.a. continu X este repartizat _
2
dac are ca funcie de repartiie
, pentru x>0 i F(x) = 0, n rest
n care f este funcia _
2
.
O v.a. repartizat _
2
are valoarea ateptat (media) egal cu v i dispersia egal cu 2v. De
regul, o v.a. repartizat _
2
este notat cu simbolul _
2
.
}
=
x
du u f x F
0
) ( ) (
Dac Z
1
, Z
2
, , Z
v
sunt v.a. independente repartizate normal standard, N(0;1), atunci
suma ptratelor lor este o v.a. repartizat _
2
cu v grade de libertate.

Distribuia cumulativ de probabilitate (Cumulative Probability Distribution Function cdf)
Este o alt denumire a funciei de repartiie

Distribuia de probabilitate comun (Joint Probability Distribution)
Dac X
1
, X
2
, . . . , X
k
sunt v.a., distribuia comun de probabilitate d probabilitatea
evenimentelor determinate de mulimea v.a. considerate, n sensul c pentru orice colecie
de mulimi numerice {A
1
, . . . , A
k
}, distribuia comun determin
P( (X
1
e A
1
) i (X
2
e A
2
) i . . . i (X
k
e A
k
) ).

Distribuia geometric (Geometric Distribution)
Distribuia geometric descrie numrul de ncercri efectuate pn la obinerea unui
succes, inclusiv ncercarea succes, ncercrile fiind independente i avnd aceeai
probabilitate de succes. Distribuia geometric depinde doar de un parametru, p,
probabilitatea unui succes i atribuie probabilitatea p(1 - p)
k1
evenimentului care
necesit k ncercri pn la primul succes.
Valoarea ateptat este 1/p, eroarea standard a distribuiei fiind (1-p)

/p.

Distribuie (Distribution)
Termenul distribuie se poate referi la o mulime de date observate (empirice) sau la o
v.a. Distribuia unei mulimi de date numerice arat cum se repartizeaz aceste date peste
mulimea numerelor reale. Distribuia este caracterizat complet de funcia de distribuie
(repartiie) empiric. Distribuia de probabilitate a unei v.a. este, n mod similar,
caracterizat complet de funcia de repartiie a v.a.

Distribuie strmb (Skewed Distribution)
O distribuie care nu este simetric. Vezi i indice de asimetrie.

Distribuie aproape normal (Nearly normal distribution).
O mulime de valori (realizri ale unei v.a.) se spune c are o distribuie aproape normal
dac histograma valorilor n uniti abateri standard urmeaz o curb normal. Mai
precis, s presupunem c media este i abaterea standard este o. Atunci numerele sunt
repartizate aproape normal dac, pentru orice a < b, proporia numerelor dintre a i b este
aproximativ egal cu aria de sub curba normal delimitat de (a - )/o i (b - )/o.

Distribuie bimodal (Bimodal)
O distribuie care are dou valori mod.

Distribuie binomial (Binomial Distribution)
O variabil aleatoare are o distribuie binomial cu parametrii n i p, notat uneori
Bi(n,p), dac reprezint numrul de "succese" ntr-un numr fixat n de ncercri aleatorii
independente, fiecare ncercare avnd aceeai probabilitate p de a produce un "succes". n
acest caz, probabilitatea apariiei a k succese (i deci a n-k insuccese) este
.
Valoarea medie (ateptat) a unei variabile aleatoare distribuit binomial este np, iar
abaterea standard este (np(1 - p))

.

Distribuie binomial negativ (Negative Binomial Distribution)
Fie o secven de ncercri independente cu aceeai probabilitate de succes p n fiecare
ncercare. Numrul de ncercri efectuate pn se obin r succese are o o distribuie
binomial negativ cu parametrii n i r. Notnd numrul menionat de ncercri cu N, are
loc

pentru k = r, r+1, r+2, . . . i zero pentru k < r.

Distribuie de frecvene (Frequency Distribution)
Fie o variabil discret care are (grupate sau nu) k nivele sau o variabil continu care
este prezentat grupat n k intervale. Se numete distribuie de frecvene ansamblul {f
1
, f
2
,
, f
k
}, unde f
i
noteaz numrul de observaii din nivelul k, sau din intervalul k (frecvena
absolut a clasei k).
Dac frecvenele sunt exprimate relativ, ca raport f
i
/ n, n fiind volumul eantionului,
atunci se vorbete de o distribuie de frecvene relative.
Pentru o variabil continu, frecvenele pot fi cumulate (absolute sau relative), frecvena
cumulat a unui interval reprezentnd suma frecvenelor (absolute sau relative) pentru
toate intervalele anterioare (inclusiv intervalul curent).
O distribuie de frecvene se prezint sub form tabelar sau sub form grafic de
histogram sau de poligon de frecvene.

Distribuie de probabilitate (Probability Distribution)
Distribuia de probabilitate a unei v.a specific, n general, probabilitile cu care v.a. ia
valori n orice submulime de numere reale.
Pentru o v.a. discret, distribuia de probabilitate poate specificat preciznd
probabilitile cu care v.a. ia valorile posibile. Pentru v.a. continue, distribuia de
probabilitate poate fi caracterizat prin densitatea de probabilitate.

Distribuie de sondaj (Sampling distribution)
Distribuia de sondaj a unui estimator este distribuia de probabilitate a valorilor
estimatorului calculate pentru toate eantioanele de acelai volum.
De exemplu, pentru a obine distribuia de sondaj a mediei, se vor considera toate
eantioanele de acelai volum n, se va calcula media fiecrui eantion i se determin
distribuia de probabilitate a valorilor astfel obinute.
Dac variabila studiat are o repartiie normal N(,o
2
), sau dac n este mai mare dect
30, distribuia de sondaj este normal,
k n k k
n
p p C

) 1 (
, ) 1 ( ) (
1
1
r k r r
k
p p C k N P

= =
.
Distribuia de sondaj are un rol important n statistica inferenial.

Distribuie F (F Distribution)
Funcia de repartiie F (FisherSnedecor) are ca densitate de probabilitate curba F.
Funciile acestei clase de repartiii teoretice sunt difereniate de doi parametri, v
1
i v
2
,
numii grade de libertate. Din aceast cauz se utilizeaz notaia F(v
1
,v
2
).
Pentru o v.a. X repartizat F(v
1
,v
2
) se demonstreaz c


ntre quantilele distribuiei exist relaia:
.
Repartiia F este utilizat pentru testarea ipotezelor n care se compar dou dispersii.
Ca rezultat important menionm:

Dac X
1
i X
2
sunt dou v.a. repartizate _
2
cu v
1
i, respectiv, v
2
grade de
libertate, atunci v.a. X definit prin

este repartizat F(v
1
,v
2
).

Teorema arat c raportul a dou dispersii de sondaj dintr-o populaie normal are o
repartiie F i de aici provine denumirile uzuale: v
1
gradele de libertate ale
numrtorului i, respectiv, v
2
gradele de libertate ale numitorului.
Alt rezultat important este:

Dac v.a. T este repartizat Student cu v grade de libertate, atunci X = T
2
este repartizat
F(1;v).

Distribuie _
2
(Chi Square Distribution)
Funcia de repartiie_
2
are ca densitate de probabilitate funcia avnd drept grafic curba
_
2
. Funciile acestei clase de repartiii sunt difereniate de un parametru numit grade de
libertate, v.
Media unei v.a. repartizat _
2
este v, valoarea mod este v2, mediana este aproximativ v
0,7.
Distribuia _
2
este utilizat direct sau indirect n teste de semnificaie.

Distribuie hipergeometric (Hypergeometric Distribution)
|
|
.
|

\
|
n
N x
2
, ~
o

. 2 pentru ,
2
) (
2
2
2
>

= u
u
u
X Exp
. 4 pentru ,
) 2 )( 4 (
) 2 ( 2
) (
2
2
2 2 1
2 1
2
2
>

+
= u
u u u
u u u
X Var
1 2
2 1
; ;
; ; 1
1
u u o
u u o
F
F =

2 1
1 2
2 2
1 1
/
/
Y
Y
Y
Y
X
u
u
u
u
= =
Distribuia hipergeometric cu parametrii N, G i n este distribuia obiectelor "bune"
ntr-un sondaj aleator simplu (fr repunere) de volum n, dintr-o populaie de N obiecte
dintre care G sunt "bune". Probabilitatea asignat obinerii a exact g obiecte bune
ntr-un eantion este
,
unde g s n, g s G i n - g s N - G (probabilitatea este zero n caz contrar).
Valoarea ateptat este nG/N iar eroarea standard este
((N-n)/(N-1))

(n G/N (1-G/N) )

.

Distribuie multimodal (Multimodal Distribution)
O distribuie cu mai mult de o valoare mod. Histograma unei distribuii multimodale are
mai multe vrfuri.

Distribuie multinomial (Multinomial Distribution)
Fie o secven de ncercri independente, fiecare avnd un rezultat care aparine unei
categorii din k posibile. Fie p
j
probabilitatea ca fiecare ncercare s produc o ieire din
categoria j, j = 1, 2, . . . , k, deci
p
1
+ p
2
+ . . . + p
k
= 1.
Numrul de ieiri de fiecare tip are o distribuie multinomial. n particular, probabilitatea
ca n n ncercri s apar n
1
rezultate de tip 1, n
2
rezultate de tip 2, , n
k
rezultate de tip
k este
n!/(n
1
! n
2
! . . . n
k
!) p
1
n
1
p
2
n
2
. . . p
k
n
k
,
unde n
1
, . . . , n
k
sunt ntregi nenegativi cu suma n; probabilitatea este zero n rest.

Distribuie normal (Normal distribution)
Prin definiie, o v.a. X are o repartiie normal cu parametrii i o dac densitatea sa de
probabilitate este
.
Se demonstreaz c i o
2
este media, respectiv dispersia, v.a. X. Conform definiiei
funciei de repartiie,

i se poate demonstra c pentru orice a s b, probabilitatea ca a < (X-m)/s < b este
n
N
g n
G N
g
G
C
C C

2
2
2
) (

2
1
) (
o

t o

=
x
e x f
}

= < =
x
du u f x X P x F ) ( ) ( ) (
P(a < (X-m)/s < b) =
= aria de sub curba normal standard delimitat de x = a i x = b
formul care permite calcularea probabilitilor asociate cu repartiia normal doar
cunoscnd probabilitile asociate repartiiei normale standard.
Notaie uzual este X~N(,o
2
). Pentru distribuia normal standard se obine X~N(0,1).

Distribuie Poisson (Poisson Distribution)
Distribuia Poisson este o distribuie de probabilitate discret care depinde de un
parametru, m. Dac X este o v.a. avnd distribuia Poisson cu parametrul m, atunci
P(X = k) =e
-m
m
k
/k!, k = 0, 1, 2, . . . ,
i 0 pentru alte valori ale lui k.
Valoarea medie (ateptat) a distribuiei Poisson este m (valoarea parametrului), iar
abaterea standard este m

.

Distribuie simetric (Symmetric Distribution)
Distribuia de probabilitate a variabilei aleatoare X este simetric dac exist un numr a
astfel nct ansa ca X>=a+b este aceeai cu ansa ca X<=a-b pentru orice valoare b. O
list de numere are o distribuie simetric dac exist un numr a astfel nct procentajul
numerelor din list care sunt mai mari sau egale cu a+b este acelai cu procentajul
numerelor din list care sunt mai mici sau egale cu a-b, pentru orice numr b. n ambele
cazuri, histograma sau curba de probabilitate este simetric fa de dreapta x=a.

Distribuie Student, t (Student's t distribution)
Distribuia Student, notat S(v) sau t
v
, este utilizat, de regul, n verificarea ipotezelor
statistice pe baza rezultatelor obinute n eantioane de volum redus, n s 30, sau atunci
cnd aproximarea cu o repartiie normal este nesatisfctoare.
Parametrul v al repartiiei poart denumirea de grade de libertate i poate lua valorile 1, 2,
. Prin definiie, densitatea de probabilitate a repartiiei Student este
.

O v.a. repartizat Student cu v grade de libertate are media egal cu zero i dispersia
v / (v2), pentru v > 2.
Pentru v > 30, se poate aproxima repartiia Student prin repartiia normal standard
N(0;1).

Distribuie uniform (Uniform Distribution)
Este aceea n care probabilitatea de apariie a oricrei valori este aceeai (constant),
rezultatele sunt egal probabile. Histograma conine n acest caz dreptunghiuri de nlimi
egale, motiv pentru care distribuia uniform mai este denumit dreptunghiular
(rectangular).

1 , , 1
2
2
1
) (
2
1
2
> 9 e
|
|
.
|

\
|
+
|
.
|

\
|
I
|
.
|

\
| +
I
=
+

u
u u
tv
u
u
t
t
t f
Domeniu (Range)
Vezi amplitudine.

Dublu orb, Experiment dublu orb (Double-Blind, Double-Blind Experiment)
ntr-un experiment dublu orb, nici subiecii i nici cei care evalueaz subiecii nu tiu cine
este n grupul experimental i cine n grupul de control.

E
Efect de transport (Carryover Effect)
Apare n planurile experimentale intra-subieci (fiecare subiect este evaluat la fiecare
nivel al factorului) i se datoreaz faptului c evaluarea unui subiect la un nivel al
factorului este influenat de faptul c subiectul a fost evaluat la nivele anterioare. De
exemplu, fornd situaia de dragul exemplificrii, un acelai copil nu poate fi nvat s
citeasc prin dou metode diferite (dup prima metod el tie deja s citeasc).
Dac efectele de transport sunt importante, atunci se va renuna la planul intra-subieci n
favoarea unui plan experimental ntre-subieci (la fiecare nivel al factorului se consider
un alt grup de subieci).

Efect placebo (Placebo effect)
Credina subiectului sau cunoaterea de ctre acesta a faptului c este tratat poate s aib
un efect care se confund cu efectul real al unui tratament. Astfel, subiecii crora li se
administreaz un placebo contro durerilor raporteaz o reducere semnificativ statistic a
durerii ntr-un experiment randomizat n care se compar cu subieci care nu primesc nici
un tratament. Acest efect psihologic, care nu este un efect biochimoc direct este numit
efect placebo. Vezi i experiment orb.

Efect principal (Main Effect)
ntr-un experiment factorial, efectul principal al unui factor evideniaz influena
factorului asupra variabilei dependente. Efectul principal se apreciaz direct prin
compararea mediilor calculate separat pentru fiecare nivel al factorului, medierea fiind
efectuat dup toate nivelele celorlali factori.
n analiza dispersional se testeaz semnificaia fiecrui efect principal al factorilor
considerai.
Vezi i efect simplu.

Efect simplu (Simple Effect)
Prin efect simplu se nelege efectul unui factor considernd un singur nivel al unui alt
factor. De regul, evidenierea efectelor simple urmeaz stabilirii interaciunii factorilor i
urmrete stabilirea acelor nivele ale celui de al doilea factor la care factorul considerat
are efect.

Efectul tratamentului (Treatment Effect)
Este efectul pe care tratamentul l are asupra comportrii unei variabile de interes.

Eficien (Efficiency)
Eficiena unei statistici reprezint gradul n care statistica rmne stabil la schimbarea
eantionului (fluctuaia de sondaj este mai mic). Deoarece este dificil de definit i de
estimat eficiena unei statistici, se utilizeaz doar sub forma de eficien relativ: se spune
c o statistic A este mai eficient dect o statistic B dac eroarea standard a lui A este
mai mic dect eroarea standard a lui B. Eficiena relativ poate s depind de distribuia
datelor: media este mai eficient dect mediana pentru date normal repartizate, dar are o
eficien mai mic pentru date cu asimetrie pronunat.

Eroare aleatoare (Random Error)
Toate msurtorile sunt afectate de erori. Acestea se pot clasifica n erori sistematice
(bias) care afecteaz toate msurtorile n acelai mod i erori aleatorii specifice
fiecrei msurtori. Se presupune c acestea sunt repartizate cu media zero i se datoreaz
unor cauze multiple neconsiderate n cercetare.

Eroare de sondaj (Sampling error)
n estimarea bazat pe un eantion aleator, diferena dintre valoarea estimatorului i
parametrul estimat poate fi scris ca suma a dou componente: deplasarea (biais) i
eroarea de sondaj. Deplasarea este eroarea medie a estimatorului, calculat dup toate
eantioanele posibile, i nu este o cantitate aleatorie (este eroarea sistematic a
msurtorilor). Eroarea de sondaj este acea component a erorii care variaz de la
eantion la eantion i are un caracter aleatoriu: depinde de norocul extragerii anumitor
elemente la formarea eantionului. Poate fi privit ca variaia datorat ansei.
Media, valoarea ateptat a erorilor de sondaj este egal cu zero.
Eroarea standard a estimatorului este o msur a mrimii tipice a erorii de sondaj.

Eroare ptrat medie (Mean Squared Error MSE)
Eroarea medie ptratic a unui estimator X al unui parametru p este valoarea ateptat a
ptratului diferenei dintre valoarea estimatorului i parametru:
MSE(X) = Exp( (X-p)
2
).
MSE msoar ct de departe este estimatorul de cea ce ncearc s estimeze, ca medie n
experimente repetate. Indicatorul combin tendina estimatorului de a sub- sau
supraaprecia valoarea adevrat (bias) i variabilitatea estimatorului (SE, eroarea
standard). Poate fi scris ca:
MSE(X) = (bias(X))
2
+ (SE(X))
2
.

Eroare sistematic (Systematic error)
O eroare care afecteaz toate msurtorile n mod similar. De exemplu, dac gradaiile
unei rigle sunt mai mici (10cm de pe rigl sunt mai mici dect valoarea real pentru
10cm), orice distan apare ca fiind mai mare (ignornd erorile aleatorii). Erorile
sistematice nu au tendina de a avea media egal cu zero.

Eroare standard (Standard Error SE)
Eroarea standard a unei variabile aleatoare este o msur a deprtrii de valoarea
ateptat, adic a mprtierii n experimente repetate.
SE(X) = {Exp [ (X - Exp (X))
2
] }

.
Definiia este similar definiiei abaterii standard.

Eroare standard (Standard Error)
Prin eroare standard se nelege abaterea standard a valorilor unei funcii fixate, valori
obinute pentru toate eantioanele posibile de un acelai volum.

Eroarea rdcinii medie ptrat (Root-mean-square error RMSE)
Dac X este un estimator al parametrului p, atunci RMSE(X) este rdcina ptrat a erorii
medii ptrate a estimatorului:
RMSE(X) = ( Exp( (X-p)
2
) )

.
Este o msur a erorii ateptate a estimatorului.

Erori de tipul I i de tipul II (Type I and Type II errors)
Se refer la testarea ipotezelor. O eroare de tip I apare atunci cnd ipoteza nul este
respins n mod eronat (ea fiind adevrat). O eroare de tip II se refer la situaia cnd
ipoteza nul nu este respins dei ea este fals.
Riscul apariiei unei erori de tip I este egal cu nivelul de semnificaie, o.
Riscul unei erori de tip II se noteaz cu |, diferena 1| constituind puterea testului.
Este de notat c nu este posibil s se minimizeze simultan cele dou riscuri.

Eantioane independente (Independent Samples)
Eantioane independente sunt acelea n care probabilitatea ca un element s fie selectat
nu depinde de faptul c un alt element a fost deja selectat n cellalt eantion. Nu exist
nici o corelare ntre elementele celor dou eantioane.

Eantioane perechi (Matched Samples)
Dou eantioane n care elementele sunt clar perechi (de exemplu msurtori efectuate pe
perechi de gemeni identici), sau n care elementele unui eantion sunt selectate pentru a
se potrivi elementelor celuilalt eantion.
O situaie special este atunci cnd acelai eantion este evaluat nainte i dup o aciune
suplimentar (aceieai atlei evaluai nainte i dup o curs), aici perechea find
msurtorile efectuate pe acelai element.
Se mai utilizeaz denumirea de eantioane corelate sau dependente.

Eantion (Sample)
Prin eantion se nelege o colecie (submulime) de elemente din populaie.

Eantion aleator (Random Sample)
Un eantion aleatoriu este un eantion ale crui elemente sunt selectate aleatoriu dintr-o
populaie dat n aa fel nct ansa obinerii oricrui eantion particular poate fi
calculat.
Numrul de elemente din eantion se numete volumul eantionului.
Un eantion aleatoriu poate fi obinut cu sau fr repunerea elementului selectat ntre
extrageri.

Eantion aleator simplu (Simple Random Sample)
Un sondaj aleatoriu simplu de n uniti dintr-o populaie const n extragerea elementelor
eantionului printr-o procedur care asigur aceeai probabilitate de selecie pentru orice
submulime de n uniti a populaiei. Eantionul astfel obinut se numete aleator simplu.
Probabilitatea ca eantionul s fie o anumit submulime de cardinal n este atunci

Un sondaj aleatoriu simplu este un sondaj fr repunere (un element selectat nu mai poate
fi ales a doua oar). De exemplu, o procedur de selectare a unui eantion de volum n
dintr-o populaie cu N >= n uniti poate fi obinut prin asignarea unui numr aleatoriu
ntre zero i unu la fiecare unitate a populaiei i reinerea acelor uniti care corespund la
cele mai mari n numere.

Eantion de convenien (Convenience Sample)
Un eantion format datorit uurinei de a-l obine. De exemplu, pentru a afla opinia
studenilor intervievm studenii unei grupe. Un asemenea eantion, nefiind aleatoriu, nu
este, de regul, reprezentativ pentru ntreaga populaie (i nici nu se poate spune ct de
nereprezentativ este).

Eantion de tip Cluster (Cluster Sample)
ntr-o eantionare de tip cluster, unitatea de eantionare este o colecie de elemente ale
populaiei (blocuri) i nu un element al populaiei. De exemplu, ntr-un studiu sociologic,
se ncepe prin a extragerea unor blocuri difereniate geografic.

Eantion probabilist (Probability Sample)
Eantion obinut printr-un mecanism aleatoriu, astfel nct fiecare element al populaiei
are o ans cunoscut de a fi selectat.

Eantion sistematic (Systematic sample)
Un eantion sistematic se obine prin numerotarea elementelor mulimii unitilor de
selecie i extragerea fiecrui al k-lea element. Eantioanele sistematice nu sunt aleatorii,
dar dac ordinea n care se face numerotarea este sistematic, atunci eantioanelor sunt ca
i cum ar fi aleatorii.

Eantion stratificat (Stratified Sample)
Un eantion obinut n urma unui sondaj stratificat.

Estimaie (Estimation)
n
N
C
1
Prin estimaie a unui parametru se nelege o valoare care aproximeaz valoarea
parametrului. De regul, estimaia este valoarea, obinut dintr-un eantion, a unui
estimator. De exemplu, o estimaie a mediei populaiei se obine utiliznd media
aritmetic (estimatorul) i calculnd-o pe baza datelor unui eantion.
Sunt utilizate dou tipuri de estimaii: estimaii punctuale i estimaii sub form de
interval. De exemplu, a spune c astzi sunt 15
o
C este o estimaie punctual, n timp ce a
spune c astzi sunt ntre 12
o
C i 18
o
C este o estimaie de interval. A se vedea i interval
de ncredere.

Estimaie bootstrap (Bootstrap estimate)
Ideea metodelor bootstrap este aceea de a presupune, n scopul estimrii, c eantionul
este populaia cercetat.i de a utiliza eroarea standard de sondaj din eantion ca estimaie
a erorii standard de sondaj pentru populaie.

Estimaie de verosimilitate maxim (Maximum Likelihood Estimate MLE)
Estimaia de verosimilitate maxim a unui parametru, obinut dintr-o mulime de date
observate, este acea valoare posibil a parametrului pentru care probabilitatea de a
observa datele efectiv observate este maxim. Presupunnd c parametrul este p i c
observm datele x, estimaia de verosimilitate maxim a lui p este q care maximizeaz
P(a observa x atunci cnd valoarea lui p este q).
De exemplu, presupunem c se dorete estimarea ansei ca aruncnd o moned s
obinem pajura (o faet fixat). Datele disponibile sunt numrul x de ori de apariie a
pajurei n n aruncri independente. Cum distribuia implicat este binomial cu
parametrii n (cunoscut) i p (necunoscut). Probabilitatea de a observa x pajure n n
ncercri este, notnd cu q ansa unui succes,
q
x
(1-q)
n-x
.
Estimaia de verosimilitate maxim a lui p este acea valoare a lui q care maximizeaz
aceast probabilitate. Se obine q = x/n, adic proporia de apariii a faetei dorite n cele n
aruncri.

Estimator (Estimator)
Un estimator este o regul de ghicire, pe baza datelor dintr-un eantion aleator, a valorii
unui parametru al populaiei. n general, o statistic este utilizat ca estimator.
Estimatorul este o variabil aleatoare tocmai pentru c valoarea lui depinde de eantionul
obinut n mod aleatoriu. Un exemplu este media eantionului, care estimeaz media
populaiei.
Cele trei caracteristici importante ale unui estimator sunt deplasarea (bias), consistena i
eficiena relativ.

Eveniment (Event)
Un eveniment este o submulime a spaiului ieirilor. Un eveniment determinat de o v.a.
este de forma A=(X e A). Atunci cnd v.a. X este observat, se interpreteaz c
evenimentul A s-a realizat dac X e A i c A nu s-a realizat dac X e A.
O colecie de evenimente {A
1
, A
2
, A
3
, . . . } este exhaustiv dac se realizeaz
ntotdeauna cel puin un eveniment din colecie
x
n
C
S = A
1
U A
2
U A
3
U . . .
unde S este spaiul ieirilor.

Eveniment aleator (Random Event)
Vezi experiment aleator.

Eveniment sigur (Certain Event)
Un eveniment sigur este un eveniment a crui probabilitate este egal cu 1. Trebuie totui
avut n vedere c se poate ca un eveniment sigur s nu se produc, dei ansa de a nu se
produce este 0.

Evenimente dependente (Dependent Events)
Dou evenimente sunt dependente dac ele nu sunt independente.

Evenimente disjuncte sau mutual exclusive (Disjoint or Mutually Exclusive Events)
Dou evenimente sunt disjuncte dac apariia unuia dintre ele exclude apariia celuilalt
(cele dou evenimente nu pot s apar simultan). Dou evenimente disjuncte sunt
incompatibile.

Evenimente incompatibile
Dac AB = C, atunci ele sunt incompatibile. Vezi evenimente disjuncte.

Evenimente independente (Independent events)
Dac P(A|B) = P(A), adic P(AB)=P(A)P(B), atunci evenimentele se numesc
independente (probabilitatea de realizare a lui A nu este modificat de realizarea lui B).

Experiment (Experiment)
Distincia dintre un experiment i un studiu observaional este aceea c n primul caz
experimentatorul decide cine este supus unui tratament.

Experiment aleator (Random Experiment)
Un experiment sau o ncercare al crui rezultat nu este perfect predictibil, dar pentru care
frecvenele relative ale rezultatelor ntr-un numr mare de repetri sunt predictibile. De
notat c aleatoriu este diferit de haotic, care nu implic n mod necesar regularitate
pe termen lung.

Experiment controlat (Controlled experiment)
Un experiment care utilizeaz compararea dintre un grup experimental (supus unui
tratament) i un grup de control (nesupus tratamentului).

Experiment controlat randomizat (Randomized Controlled Experiment)
Este un experiment n care asignarea indivizilor la grupul de control i la grupul
experimental se realizeaz aleatoriu. n acest mod se reduce ansa de confundare a
efectului tratamentului efectuat cu efectul altor factori.

Experiment necontrolat (Uncontrolled Experiment)
Un experiment n care nu exist grup de control, deci nu se utilizeaz o metod de
comparare pentru a decide asupra rezultatului unui tratament. Experimentatorul
interpreteaz i apreciaz rezultatele obinute.

F
Factor (Factor)
Denumirea de factor este utilizat ca alternativ, cu ncrctura de neles proprie totui,
la denumirea de variabil independent. Se poate astfel vorbi de experimente
unifactoriale, bifactoriale, multifactoriale, dup numrul de factori (variabile
independente) considerai pentru explicarea unui anumit efect (variabil dependent).
Pot fi considerai factori inter-subieci (between-subjects factors) n cazul n care grupuri
diferite de subieci sunt utilizate pentru fiecare nivel al factorului, sau factori
intra-subieci (within-subjects factors) n cazul n care acelai grup de subieci este
utilizat pentru fiecare nivel al factorului. Evident c se pot utiliza i denumirile variabil
inter-subieci sau variabil intra-subieci.

Funcia de repartiie (Distribution Function)
Funcia de repartiie a unei variabile aleatoare este definit prin
F(x) = P( X <= x), oricare ar fi x real.
Funcia de repartiie, calculat pentru x, msoar ansa ca v.a. X ia valori mai mici sau
egale cu x. Rezult imediat c limita la - este 0, iar limita la + este 1.
Cunoaterea funciei de repartiie a unei v.a. permite calcularea probabilitilor cu care
v.a. ia valori n anumite intervale.

Funcie de densitate de probabilitate (Probability density function)
Pentru o v.a. continu, numim densitate de probabilitate acea funcie (dac exist), f,
astfel nct funcia de repartiie se poate calcula prin relaia

Funcia de repartiie este, n acest caz, absolut continu.
Funcia densitate de probabilitate permite calculul probabilitii ca v.a. s aparin unui
interval:
P(a<= X <=b) = (aria de sub graficul lui f limitat de a i b), unde a <= b,

Funcie de distribuie empiric (Distribution Function, Empirical)
Funcia (cumulativ) de distribuie empiric a unui set de valori numerice este definit,
pentru orice valoare real x, ca proporia de observaii mai mici sau egale cu x. Diagrama
unei astfel de funcii este un grafic de tip scar, n care limea unei trepte depinde de
distana dintre date consecutive, iar nlimea depinde de numrul de valori egale cu x.
Funcia este monoton i are limita 0 spre - i 1 spre +.

. orice pentru , ) ( ) ( R x du u f x F
x
e =
}

G
Grade de libertate (degrees of freedom, d.f.)
n general, prin numr de grade de libertate al unei mrimi se nelege numrul
variabilelor independente a cror variaie nu sufer nici o restricie i care definesc
mrimea considerat. Altfel spus, numrul gradelor de libertate este egal cu numrul
variabilelor independente, care definesc mrimea considerat, minus numrul de restricii
la care sunt supuse.
De exemplu, media aritmetic a n numere are n-1 grade de libertate, deoarece pentru a
obine o valoare impus se pot alege arbitrar n-1 valori, a n-a valoare fiind n acel
moment fixat de restricia ca valoarea mediei s fie egal cu valoarea impus (altfel
spus, n valori i o restricie, deci v = n-1).
Un alt punct de vedere este acela c numrul gradelor de libertate este egal cu numrul
valorilor independente care sunt necesare estimrii minus numrul parametrilor estimai
n pai anteriori: de exemplu, pentru estimarea dispersiei se consider cele n valori, dar
este necesar estimarea prealabil a mediei, deci n-1 grade de libertate.

Graficul mediilor (Graph of Averages)
Pentru date bivariate, un grafic al mediilor este diagrama valorilor medii ale unei
variabile, fie ea y, obinute pentru intervale de valori ale celeilalte variabile, fie ea x, n
raport de mijloacele intervalelor x considerate. Intuitiv, are loc o netezire a valorilor y pe
intervale x, valorile obinute fiind reprezentate la abscisele mijloacelor intervalelor x
respective.

Grup de control (Control group)
Este, ntr-un experiment controlat, mulimea subiecilor care nu sunt supui
tratamentului. Rezultatele se vor compara cu cele din grupul experimental pentru a decide
asupra efectului tratamentului.

Grup de tratament (Treatment group)
Este format din elementele care primesc (urmeaz) tratamentul, n opoziie cu cele din
grupul de control. Diferenele observate ntre cele dou grupuri evideniaz efectul
tratamentului.

H
Heteroscedasticitate (Heteroscedasticity)
La date bivariate, variabila y prezint heteroscedasticitate dac mprtierea valorilor y
depinde de x. Grafic, seciunile verticale n diagrama de mprtiere prezint distribuii
diferite ale norilor de puncte. Noiunea contrar este cea de homoscedasticitate.

Histogram (Histogram)
O histogram este o diagram care rezum distribuia datelor. Pornind de la o mprire n
intervale de clase, histograma este o mulime de dreptunghiuri avnd ca baze intervalele
de clase i ariile proporionale cu numrul de observaii aparinnd intervalelor de clas.
Astfel, nlimea unui dreptunghi este calculat ca raportul dintre numrul de observaii
din intervalul de clas i lungimea respectivului interval. Axa vertical a unei histograme
este astfel o scal de densitate. n construcia unei histograme este important convenia
punctului extrem.

Histogram de probabilitate (Probability Histogram)
ntr-o histogram de probabilitate se reprezint grafic probabilitile cu care v.a. aparine
la intervalele de grupare (n loc de frecvenele relative se utilizeaz probabilitile).

Homoscedasticitate (Homoscedasticity)
La date bivariate, variabila y prezint homoscedasticitate dac mprtierea valorilor y nu
depinde de x. Grafic, seciunile verticale n diagrama de mprtiere prezint distribuii
similare ale norilor de puncte. Noiunea contrar este cea de heteroscedasticitate.

I
Iluzia regresiei (Regression Fallacy)
Este atribuirea efectului regresiei unei cauze externe.

Independen (Independence)
Dou evenimente A i B sunt independente statistic dac P(AB) = P(A)P(B). Aceasta este
echivalent cu a spune c apariia unui eveniment nu d nici o informaie despre realizarea
celuilalt eveniment: P(A|B) = P(A).
Dou v.a. X i Y sunt independente dac toate evenimentele determinate de acestea sunt
independente (de exemplu, evenimentul {a < X <= b} este independent de {c < Y <= d}
pentru orice a, b, c i d. Cu alte cuvinte valoarea luat de o variabil nu ofer nici o
informaie despre valoarea luat de cealalt variabil.
O colecie de mai mult de dou v.a. este independent dac pentru orice submulime
proprie de v.a. orice eveniment determinat de variabilele din submulime este
independent de orice eveniment determinat de variabilele din mulimea complementar.
Dou sau mai multe v.a. {X
1
, X
2
, . . . , } sunt independente i identic distribuite dac
variabilele au aceeai distribuie de probabilitate i sunt independente.
Dou observaii sunt independente dac obinerea primei observaii nu influeneaz
obinerea celeilalte observaii. Echivalent, includerea n eantion a unui element nu
influeneaz includerea altui element.
Dou statistici sunt independente dac sunt calculate din eantioane independente (sunt
formate din observaii independente). Este evident c aceast precizare completeaz
definiia dat la independena v.a.

Inegalitatea Chebychev (Chebychev's Inequality)
Pentru liste: Pentru orice k>0, proporia elementelor listei care difer de media aritmetic
cu cel puin k abateri standard este cel mult 1/k
2
.
Pentru v.a.: Pentru orice k>0, probabilitatea ca o v.a. X s difere cu cel puin k erori
standard de valoarea ateptat este cel mult 1/k
2
.

Inegalitatea lui Markov (Markov's Inequality)
Pentru serii numerice nenegative: procentajul de numere care sunt cel puin egale cu o
constant a>0 nu este mai mare dect media aritmetic divizat prin a.
Pentru v.a.: dac X este o v.a. nenegativ, atunci P(X>= a) <= Exp(X)/a, a>0.

Indice de aplatizare (Kurtosis)
Mai este denumit coeficient de boltire. mpreun cu indicele de asimetrie, face parte din
indicii de apreciere a formei unei distribuii. Un indice de aplatizare mare arat o
repartiie cu cozi mari (sunt prezente categorii deprtate de medie), n timp ce un indice
de aplatizare mic arat o repartiie n care sunt prezente mai puine categorii deprtate de
medie.
Formula de calcul este bazat pe momentul centrat de ordinul 4:

unde s
2
este dispersia de sondaj.
n cazul unei repartiii apropiate de repartiia normal, coeficientul de aplatizare este n
jurul valorii 3 (teoretic, repartiia normal are indicele de aplatizare |
2
= 3, b
2
fiind o
estimaie a lui |
2
). Pe baza acestui rezultat se definete excesul ca fiind
E = b
2
3. Pentru E > 0, repartiia se numete leptocurtic, iar pentru E < 0, se numete
platicurtic. Dac E = 0, repartiia este mezocurtic.
La aproximarea prin repartiia normal, probabilitile laterale reale vor fi mai mari dect
cele aproximate n cazul unei repartiii platicurtice i vor fi mai mici n cazul unei
repartiii leptocurtice. Aproximarea este cu att mai bun cu ct excesul de sondaj este
mai apropiat de 0.
Observaie. Unii autori numesc excesul ca fiind indicele de aplatizare.

Indice de asimetrie (Skewness)
Denumit i coeficientul de asimetrie, evalueaz gradul de asimetrie a unei repartiii.
Caracterizeaz, mpreun cu indicele de aplatizare, forma repartiiei (ilustrat de
reprezentarea grafic sub form de histogram). Definiia este bazat pe momentul
centrat de ordinul 3:

Indicele de asimetrie este negativ sau pozitiv dup cum repartiia de sondaj este
asimetric spre stnga sau, respectiv, spre dreapta. O distribuie simetric, cum este
distribuia normal, are asimetria nul, deci b
1
= 0.
n general, cu rare excepii provenite din realitate, o distribuie asimetric pozitiv are
media mai mare dect mediana, relaia inversndu-se pentru distribuiile cu asimetrie
negativ.
( )
2
2
4
2
) (
s n
x x
b
i

=
3
3
1
) (
s n
x x
b
i



Unii autori consider drept coeficient de asimetrie (b
1
)
2
, valoarea obinut caracteriznd
gradul de asimetrie, dar nu i sensul asimetriei.

Interaciune (Interaction)
Exist interaciune ntre dou variabile independente dac efectul unei variabile asupra
variabilei dependente este diferit dup nivelul celeilalte variabile.
Lund ca exemplu un studiu n care se urmrete efectul consumului de alcool i a
oboselii (variabile independente) asupra timpului de reacie la un stimul (variabila
dependent), se poate intui c un consum mare de alcool are un efect mai mare la un grad
nalt de oboseal dect la un grad sczut de oboseal, prin urmare exist interaciune ntre
cele dou variabile.
Interaciunea poate fi detectat prin analiza dispersional (ANOVA) sau, grafic, prin
plotarea separat a liniilor/coloanelor unui tabel de contingen poligoane paralele vor
susine lipsa de interaciune.

Interval de clas (Class Interval)
Pentru rezumarea datelor continue (reprezentri grafice, calculul anumitor statistici,
raportare), este necesar uneori gruparea datelor. Aceasta se realizeaz prin divizarea
domeniului valorilor n intervale disjuncte, numite intervale de clas (sau intervale de
grupare), astfel nct fiecare valoare s fie coninut ntr-un interval de clas. Vezi i
convenia punctului extrem.

Interval de ncredere (Confidence Interval)
Un interval de ncredere pentru un parametru este un interval construit pe baza datelor
observate n aa fel nct probabilitatea ca valoarea adevrat a parametrului s aparin
intervalului de ncredere s poat fi fixat independent de date (de regul, naintea
culegerii datelor). Dac notm cu valoarea parametrului i cu m
1
, m
2
limitele
intervalului de ncredere, atunci P(m
1
<<m
2
)=1-o,
repartitie cu asimetrie
negativa
repartitie cu asimetrie
pozitiva
unde o este pragul (nivelul) de ncredere al intervalului, iar 1-o se numete sigurana
statistic. Ca exprimare, se poate spune c (m
1
; m
2
) este intervalul de ncredere a
parametrului cu sigurana statistic 1-o sau la pragul de ncredere o.
Dac m
1
sau m
2
sunt infinite, atunci intervalul de ncredere se mai numete unilateral, n
situaia contrar vorbindu-se de un interval de ncredere bilateral.

Interval de ncredere bazat pe repartiia normal
Dac pentru estimarea unui parametru se utilizeaz o statistic, notat stat, normal
distribuit, cu eroarea standard o
stat
cunoscut, atunci intervalul de ncredere bilateral, la
nivelul de ncredere, este
(stat - z
1-o/2
o
stat
, stat + z
1-o/2
o
stat
)
unde z
1-o/2
este quantila de ordin 1-o/2 a repartiiei normale standard.
Astfel, pentru media aritmetic a populaiei se obine intervalul
,
unde o este abaterea standard a populaiei, iar n este volumul eantionului de unde s-a
calculat media de sondaj.

Interval de ncredere bazat pe repartiia Student
Situaia uzual este aceea n care eroarea standard a statisticii este i ea estimat din
eantion. n acest caz, intervalul de ncredere devine
(stat - t
v;1-o/2
s
stat
, stat + t
v;1-o/2
s
stat
),
unde t
v;1-o/2
este quantila de ordin 1-o/2 a repartiiei Student cu v grade de libertate
(asociate statisticii), iar s
stat
este eroarea standard estimat a statisticii.
n cazul mediei aritmetice, intervalul de ncredere bilateral este astfel
,
unde s este abaterea standard de sondaj (estimaie a abaterii standard a populaiei), iar n
este volumul eantionului.

Interval semiinterquartil (Semi-interquartile Range)
Ca msur a mprtierii, intervalul semiinterquartil este definit ca jumtate din diferena
dintre quartila a patra i quartila a doua: Q = (Q
3
-Q
1
)/2.
Este raportat de regul mpreun cu mediana, acceptndu-se astfel c jumtate dintre
observaii sunt situate n intervalul (Me - Q; Me + Q), afirmaie care este departe de
realitate n cazul distribuiilor cu asimetrie pronunat.

Invarian, rezisten, stabilitate a unei statistici (Resistant)
O statistic se zice rezistent (stabil) dac prin modificarea (coruperea) unei date
statistica nu se modific prea mult. De exemplu, media nu este rezistent, n timp ce
mediana este.

Ipotez alternativ (Alternative Hypothesis)
|
|
.
|

\
|
+

n
z x
n
z x
o o
o o 2 / 1 2 / 1
,
|
.
|

\
|
+

n
s
t x
n
s
t x
n n 2 / 1 ; 1 2 / 1 ; 1
,
o o
n testarea ipotezelor statistice, o ipoteza nul (cu semnificaia tipic a lipsei unui efect)
este opus unei negaii a ei, ipoteza alternativ (semnificnd uzual existena aparent a
unui efect). Ipoteza nul constituie baza raionamentului prin care se calculeaz
probabilitatea de apariie a situaiei observate. Dac aceast probabilitate este suficient de
mic (prin comparaia cu un prag de semnificaie fixat), atunci se spune c datele de
sondaj nu susin ipoteza nul i aceasta este respins n favoarea ipotezei alternative. Este
de remarcat c aceast decizie nu nseamn c situaia observat este caracteristic
ipotezei alternative, sau c ipoteza nul este fals, sau c ipoteze alternativ este
adevrat.

Ipotez nul (Null hypothesis)
n testarea ipotezelor statistice, prin ipoteza nul se nelege acea ipotez sub care se
poate preciza repartiia statisticii testului. Astfel, ipoteza nul este cea falsificabil
(pentru care se poate decide falsitatea, n sensul paradigmei falsificabilitii din filosofia
cercetrii tiinifice) pe baza datelor experimentale. De regul, ipoteza nul exprim c nu
este prezent ceva, c nu exist nici un efect, c nu exist nici o diferen (de unde i
motivaia istoric a termenului de ipotez nul).

mprtiere (Spread)
Arat gradul de modificare a valorilor unei variabile de la o observaie la alta. Ca termeni
sinonimi sunt variana, variabilitatea, dispersia. Importana aprecierii gradului de
mprtiere este dat de nsi motivaia statisticii: pentru o variabil constant nu este
nevoie de statistic.
Pentru msurarea mprtierii se utilizeaz diferii indicatori statistici: IQV, quantile,
dispersia, abaterea standard etc.
Este de notat, totui, c nu exist o msur absolut a mprtierii, gradul de mprtiere
poate fi apreciat doar relativ, prin comparare.
Intuitiv, gradul de mprtiere a unei variabile poate fi apreciat prin asimilarea
histogramei cu o grmad de nisip, despre mprtierea creia ne formm imediat o
prere.

K
Kurtosis
Vezi indice de aplatizare.

L
Legea empiric a mediilor (Empirical Law of Averages)
Legea afirm c dac se repet un experiment aleatoriu, n mod independent i n condiii
identice, atunci proporia de ncercri cu un rezultat dat converge la o limit interpretat
ca probabilitate. Legea empiric a mediilor st la baza teoriei probabilitilor ca frecvene
i este mai degrab o presupunere asupra funcionrii lumii reale, dect o lege matematic
sau fizic.

Legea mediilor (Law of Averages)
Legea mediilor afirm c dac X
1
, X
2
, X
3
, . . . , sunt v.a. independente cu aceeai
distribuie de probabilitate, iar E(X) este valoarea ateptat comun, atunci pentru orice e
> 0,
P{|(X
1
+ X
2
+ . . . + X
n
)/n - E(X) | < e}
converge la 1 dup n. Echivalent, irul de medii de sondaj
X
1
, (X
1
+X
2
)/2, (X
1
+X
2
+X
3
)/3, . . .
converge n probabilitate ctre E(X).
n cuvinte, legea mediilor afirm c media observaiilor independente ale unor v.a., care
au aceeai distribuie de probabilitate, se apropie de valoarea ateptat a v.a. pe msur ce
crete numrul de observaii. Acesta este, de fapt, fundamentul multor aplicaii statistice.

Legea numerelor mari (Law of Large Numbers)
Legea numerelor mari afirm c n ncercri repetate, independente i cu aceeai
probabilitate p de succes n fiecare ncercare se tinde ca procentajul succeselor s fie egal
cu p. Mai precis, ansa ca procentajul succeselor s difere de probabilitatea p cu mai mult
de un o cantitate fixat, e > 0, converge la zero atunci cnd numrul de ncercri tinde la
infinit, pentru orice e > 0. De notat c, spre deosebire de diferena dintre procentajul
succeselor i probabilitatea unui succes, diferena dintre numrul de succese realizate i
numrul ateptat de succese, np, tinde s creasc pe msur ce n crete.

Legea rdcinii ptrate (Square-Root Law)
Legea rdcinii ptrate afirm c eroarea standard (SE) a sumei de sondaj a n extrageri
aleatorii cu repunere dintr-o urn cu bilete numerotate este
SE(suma de sondaj) = n

SD(urn),
iar eroarea standard a mediei de sondaj a n extrageri aleatorii cu repunere dintr-o urn cu
bilete numerotate este
SE(media de sondaj) = n
-
SD(urn),
unde SD(urn) este abaterea standard a numerelor de pe biletele din urn (incuznd
valorile repetate)

Limit de clas (Class Boundary)
La date continue grupate pe intervale, o limit de clasa este extremitatea din stnga a unui
interval de clas i extremitatea din dreapta a intervalului anterior.

Linia abaterilor standard (SD line)
ntr-o diagram de mprtiere, linia abaterilor standard este dreapta care trece prin
punctul avnd drept coordonate mediile celor dou variabile i care are panta egal cu
raportul abaterilor standard ale celor dou variabile.
Din ecuaia liniei abaterilor standard,

se poate vedea c un punct de coordonate (x,y) de pe dreapt este caracterizat prin aceea
c valorile x i y sunt egal deprtate n uniti abateri standard de mediile
corespunztoare.
Un punct situat deasupra liniei abaterilor standard este mai deprtat de media variabilei y
dect de media variabilei x, n uniti abateri standard.

Localizare, Msur de ~ (Location, Measure of)
O msur de localizare este o rezumare, printr-o singur valoare, a unei distribuii i ofer
informaii asupra locului unde sunt localizate valorile. Vezi media, mediana, valoarea
mod.

M
Marginea erorii (Margin of error)
O msur a incertitudinii din estimaia unui parametru, noiune neacceptat de toi
statisticienii i suficient de neclar. n mod tipic, atunci cnd este utilizat, reprezint
eroarea standard a estimaiei sau dublul acesteia.

Msur de mprtiere (Spread, Measure of)
Un indicator statistic pentru aprecierea gradului de mprtiere a unei variabile.
Cunoaterea gradului de mprtiere mrete puterea de predicie a indicatorului de
tendin central asociat. De exemplu, media are o putere de predicie mai bun dac este
asociat cu o abatere standard mic.
Fiecare tip de variabil are anumii indicatori de mprtiere adecvai. Pentru variabilele
nominale se utilizeaz IQV (indicele de variaie calitativ) sau entropia, pentru variabilele
ordinale se utilizeaz IQV sau un sistem de quantile, iar pentru variabilele continue sunt
utilizate amplitudinea, abaterea standard, un sistem de quantile etc.

Media de sondaj (Sample Mean)
Este media aritmetic a unui eantion (aleatoriu) dintr-o populaie. Presupunnd c exist
n date, {x
1
, x
2
, . . . , x
n
}, media de sondaj este (x
1
+ x
2
+ . . . + x
n
)/n.
Ca statistic, este utilizat frecvent pentru estimarea mediei populaiei.
Valoarea ateptat a mediei de sondaj este media populaiei.
ntr-un sondaj cu repunere, abaterea standard a mediei de sondaj este egal

unde o este abaterea standard a populaiei iar n este volumul eantionului. ntr-un sondaj
fr repunere, abaterea standard a mediei de sondaj este egal cu
x y
s
x x
s
y y
=

n
o

unde primul factor reprezint corecia de populaie finit, iar N este volumul populaiei.
Pentru , cele dou formule devin egale.

Media geometric (Geometric Mean)
Media geometric a n numere {x
1
, x
2
, x
3
, . . . , x
n
} este rdcina de ordin n a produsului
lor:
(x
1
x
2
x
3
. . . x
n
)
1/n
.
Dac numerele reprezint, de exemplu, ritmuri de cretere, atunci media geometric
exprim ritmul mediu de cretere.

Media populaiei (Population Mean)
Este media numerelor dintr-o populaie numeric. Aceast valoare este un parametru al
populaiei, spre deosebire de media calculat dintr-un eantion, care este doar o estimaie
a parametrului.

Media redus (Trimmed Mean)
Media redus se calculeaz prin eliminarea unui procentaj din valorile extreme, sau a
unui numr de valori extreme i calcularea mediei aritmetice pentru valorile pstrate. n
acest mod se obine o influen mai mic a valorilor extreme, ca i o fluctuaie de sondaj
mai mic n cazul distribuiilor asimetrice. Pe de alt parte, n cazul distribuiilor
simetrice, media redus este mai puin eficient dect media aritmetic. Media redus
poate fi o opiune bun atunci cnd distribuia de sondaj conine valori aberante.
Cazuri particulare sunt mediana (media redus 100%) i media aritmetic (obinut ca o
medie redus 0%).

Median (Median)
Valoarea de mijloc a unei distribuii, este definit drept cel mai mic numr astfel nct
jumtate dintre valori s nu fie mai mari dect el. Cu alte cuvinte, jumtate dintre valori
sunt mai mici sau egale cu mediana, jumtate sunt mai mari dect mediana. De remarcat
c, dei este utilizat n general ca un indicator de tendin central, mediana ofer mai
degrab informaii asupra repartizrii observaiilor (indicator de mprtiere). De regul,
mediana este raportat mpreun cu quartilele distribuiei n aa-zisa rezumare prin cinci
valori.
Dac x
1
, x
2
, . . . , x
N
sunt valorile observate, mediana este calculat, dup ordonarea
cresctoare a valorilor, x
(1)
<= x
(2)
<= . . . <= x
(N)
, prin
.
Este de notat c mediana realizeaz minimul sumei abaterilor absolute ale valorilor
distribuiei de la un punct fixat:
n
N
n N o

1
N

=
+
+ =
=
+
+
k N
x x
k N x
Me
k k
k
2 pentru ,
2
1 2 pentru ,
1
1
E |x
i
m| este minim pentru m egal cu mediana distribuiei (n cazul unui numr par de
valori, mediana aa cum a fost definit nu este singura valoare cu aceast proprietate.

Medie (Average)
Un termen suficient de vag, precizat de context. Uzual, reprezint media aritmetic, dar
poate desemna mediana, valoarea mod, media geometric etc.

Mod, Valoare mod (Mode)
Valoarea mod este cea mai frecvent valoare dintr-o mulime de valori. Grafic, dintr-o
histogram, o valoare mod este identificat printr-un maxim relativ. O distribuie poate
avea astfel mai multe valori mod (distribuii unimodale, bimodale etc.).

Moment (Moment)
Momentul de ordin k al unui ir de valori este valoarea medie a valorilor ridicate la
puterea k. Astfel, dac lista este x
1
, x
2
, . . . , x
N
, momentul de ordin k este
( x
1
k
+ x
2
k
+ x
N
k
)/N.
Momentul de ordin k al unei v.a. X este valoarea ateptat a v.a. X
k
, adic Exp(X
k
).

Multiplicitate n testarea ipotezelor (Multiplicity in hypothesis tests)
n testarea ipotezelor, dac se verific mai multe ipoteze alternative (n teste separate,
evident), nivelul de semnificaie real al testelor combinate este diferit de nivelul de
semnificaie al unui test individual. n aceste situaii se recomand aplicarea unei
proceduri de comparaie multipl sau analiza varianei.

N
Necorelat (Uncorrelated)
Un set de date bivariate este necorelat dac are un coeficient de corelaie egal cu zero.
Dou variabile aleatoare sunt necorelate dac valoarea ateptat a produsului lor este
egal cu produsul valorilor ateptate ale celor dou variabile.
Dac dou variabile aleatoare sunt independente, atunci ele sunt necorelate (relaia
invers nu este adevrat, n general).

Nedeplasat() (Unbiased)
Se spune despre o statistic pentru care deplasarea (bias-ul) este zero.

Nici o cauzalitate fr manipulare (No causation without manipulation)
Un dicton atribuit lui Paul Holland. Dac nu s-au controlat condiiile (de exemplu, dac
situaia cercetat este un studiu observaional i nu un experiment), atunci este impropriu
s se trag concluzia unei legturi cauzale ntre rezultat i condiii. Vezi i post hoc ergo
propter hoc.

Nivel al unui factor (Level of a Factor)
Prin nivel al unui factor se nelege o valoare luat de factorul respectiv (factor este o
variabila independent dintr-un studiu). Un factor trebuie s aib cel puin dou nivele
pentru a putea evidenia influena sa.

Non-rspuns (Nonresponse)
n anumite studii (eantion format prin apel telefonic, chestionar prin pot etc.) se poate
ntmpla ca unii subieci s nu rspund. Numrul acestor non-rspunsuri poate influena
reprezentativitatea eantionului sau denatura prediciile.

O
Odds
Termen intraductibil aproape n limba romn, reprezint, pentru un eveniment, raportul
dintre probabilitatea ca evenimentul s se realizeze i probabilitatea ca evenimentul s nu
se realizeze. Este o ansa n favoarea evenimentului considerat.
De exemplu, presupunnd c un eveniment are n rezultate posibile, toate egal probabile,
i c un numr de k rezultate pot fi interpretate drept ctig, restul de n-k fiind
interpretate drept pierdere, ansa (odds) n favoarea ctigului este de (k/n)/((n-k)/n) =
k/(n-k), care este egal cu numrul cazurilor favorabile supra numrul cazurilor
nefavorabile. Dei odds nu este sinonim unei probabiliti, cele dou noiuni sunt
convertibile una n cealalt: dac ansa n favoarea unui eveniment este q, atunci
probabilitatea evenimentului este q/(1+q); dac probabilitatea unui eveniment este p,
ansele (odds) n favoarea evenimentului sunt p/(1-p) iar ansele mpotriva evenimentului
sunt (1-p)/p.

Orb, Experiment orb (Blind, Blind Experiment)
Intr-un experiment orb, subiecii nu cunosc dac aparin grupului de control sau celui
experimental. De regul, n studii medicale, subiecilor din grupul de control li se
administreaz un placebo, pentru a se asigura condiia de experiment orb.

P
Paradoxul lui Simpson (Simpson's Paradox)
Ceea ce este adevrat pentru pri nu este n mod necesar adevrat i pentru ntreg. Vezi
i confundare.

Parametru (Parameter)
Prin parametru se nelege o proprietate numeric a unei populaii. Astfel media
populaiei este un parametru al populaiei. Cunoaterea valorii adevrate a parametrului
face inutil operaiunea statistic de estimare a acestuia dintr-un eantion. Cum, de
regul, valoarea unui parametru nu este cunoscut, acesta se va estima prin valoarea unei
statistici (estimatorul parametrului) calculate dintr-un eantion.

Percentil (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic numr astfel nct
cel puin p% dintre numere nu sunt mai mari dect el. Percentila de ordin p a unei v.a.
este cel mai mic numr astfel nct probabilitatea ca v.a. s ia valori nu mai mari dect el
s fie p. Vezi i quantile.

Placebo
Un tratament fictiv care nu are efect farmacologic. Este administrat grupului de control.

Plan factorial (Factorial Design)
Noiunea apare atunci cnd se planific experimentele n aa fel nct s se poat decide
asupra influenelor mai multor factori i a interaciunilor dintre factori asupra unei
variabile dependente.
Un plan factorial complet apare atunci cnd se fac determinri experimentale pentru
fiecare combinaie posibil de nivele ale factorilor.
Exist i posibilitatea reducerii numrului de determinri prin aceea c anumite
combinaii de nivele nu sunt studiate. n acest caz se utilizeaz planuri factoriale
particulare: ptrate latine etc.

Plan intra-subieci (Within-subjects Design)
Este un plan de experiene n care una sau mai multe variabile independente sunt
variabile intra-subieci.
ntr-un asemenea plan, fiecare subiect fiind evaluat la fiecare nivel al factorului, se pot
evidenia diferenele dintre subieci. De observat c ntr-un plan ntre-subieci aceste
diferene nu sunt evideniabile i sunt, prin urmare, incluse n erori. Considerarea unui
plan intra-subieci mrete puterea testelor de semnificaie.
De remarcat, totui, c efectele de transport (carryover effects) pot impune alegerea unui
plan experimental ntre-subieci.

Plan ntre-subieci (Between-subjects Design)
Este un plan de experiene n care variabilele independente sunt variabile ntre-subieci.
Nu se pot evidenia diferenele dintre subieci.

Poligon de frecvene (Frequency Polygon)
Reprezentare grafic a unei distribuii de frecvene pentru o variabil continu: pe axa Ox
se reprezint intervalele de grupare; pentru fiecare interval se reprezint punctul de
coordonate (c
i
, f
i
), unde c
i
este mijlocul intervalului iar f
i
este frecvena corespunztoare;
punctele astfel obinute sunt unite prin segmente.
Un poligon de frecvene ofer o imagine a formei distribuiei. Dac frecvenele sunt
relative, atunci se obine poligonul frecvenelor relative care permite aproximarea
procentajului de observaii situate ntre dou valori x, similar utilizrii densitii de
probabilitate.
Dac frecvenele sunt (relative) cumulate, se obine poligonul frecvenelor (relative)
cumulate, care permite, similar funciei de repartiie, aproximarea quantilelor distribuiei.

Populaie (Population)
O colecie de elemente (uniti) care sunt de interes pentru studiu. O mare parte a
statisticii are ca obiect estimarea numeric a parametrilor populaiei pornind de la
observarea unui eantion.

Populaie int (Target Population)
Prin populaie int se nelege ntregul grup de interes ntr-o cercetare, adic acel grup
pentru care cercettorul dorete s obin concluzii i studiul efectuat.

Post hoc ergo propter hoc
"Dup aceasta, deci din cauza acesteia." O eroare de logic, cunoscut de mult, care
afirm existena unei relaii cauzale datorit observrii unei corelaii (asocieri).

Precizie (Precision)
Precizia este o msur a ct de aproape este un estimator de valoarea adevrat a unui
parametru. Este exprimat uzual n termeni de imprecizie i asociat cu eroarea standard
a estimatorului. O precizie mai mic se reflect ntr-o valoare mai mare a erorii standard.

Prima facie
La prima vedere. O eviden prima facie este informaia care sprijin concluzia la o
privire sumar, imediat. La o analiz mai profund, s-ar putea ca aceasta s nu reziste, s
existe o alt explicaie.

Probabilitate (Probability)
Probabilitatea unui eveniment este un numr pe[0,1], interpretat deseori procentual, p%.
nelesul, semnificaia, unei probabiliti este subiectul teoriei probabilitilor, cu
meniunea c dup coala tiinific, interpretrile pot fi diferite. Totui, orice regul de
asignare a probabilitilor la evenimente trebuie s satisfac axiomele probabilitii.

Probabilitate condiionat (Conditional probability)
Se numete probabilitatea evenimentului A condiionat de evenimentul B, notat
P(A|B), raportul P(A|B) = P(AB)/P(B), unde P(B)=0, interpretat ca probabilitatea de
apariie a evenimentului A tiind c s-a realizat evenimentul B.

Procentaj de sondaj (Sample Percentage)
Este procentajul elementelor dintr-un eantion (aleatoriu) care au o anumit proprietate.
Ca statistic, este utilizat frecvent pentru estimarea procentajului elementelor cu aceeai
proprietate din populaie.
Valoarea ateptat a procentajului de sondaj este procentajul din populaie, n cazul n
care eantionul este simplu aleatoriu sau aleatoriu cu repunere.
Abaterea standard a procentajului de sondaj este, pentru un sondaj cu repunere, (p(1-p)/n
)

, unde p este procentajul din populaie iar n este volumul eantionului. Pentru un sondaj
fr repunere dintr-o populaie finit, abaterea standard este egal produsul dintre corecia
de populaie finit i (p(1-p)/n )

.
Abaterea standard a procentajului de sondaj este estimat adesea prin procedeul de
bootstrap.

Proporie (procentaj) din populaie (Population Percentage)
Parametru al populaiei, care arat proporia elementelor din populaie avnd o anumit
proprietate.

Punct de rupere (Breakdown Point)
Punctul de rupere al unui estimator este cea mai mic fraciune de observaii care pot fi
corupte pentru ca estimatorul s ia orice valoare dorim.

Punctul mediilor (Point of Averages)
ntr-o diagram de mprtiere, scatterplot, prin punctul mediilor se nelege punctul care
are drept coordonate mediile aritmetice al variabilelor considerate.

Puterea unui test (Power)
Noiune referitoare la testarea ipotezelor, puterea unui test vis--vis de o ipotez
alternativ este probabilitatea ca n test s se resping, n mod corect, ipoteza nul atunci
cnd ipoteza alternativ este adevrat. Puterea unui test este definit ca 1-|, unde | este
riscul unei erori de spea a II-a.
Puterea unui test depinde de test, de nivelul de semnificaie, de volumul eantionului, de
repartiia populaiei i de ali factori.

p-value, valoare de probabilitate (Probability Value, p-value)
Presupunem o familie de teste ale unei ipoteze nule, definite de valori ale nivelului de
semnificaie p. Prin p-value asociat ipotezei nule, pentru setul de date considerat, se
nelege cel mai mic nivel de semnificaie p pentru care ipoteza nul se respinge n toate
testele.
Astfel, ntr-un test unilateral, dac X este statistica testului i notm cu x
p
valoarea critic
astfel nct respingem H
0
pentru X < x
p
, notm cu x valoarea observat a lui X, atunci P-
value pentru ipoteza nul i observaiile disponibile este cea mai mic valoare p nct
x < x
p
.
Majoritatea programelor dedicate calculelor statistice ofer, la procedurile de testare a
ipotezelor, valoarea de probabilitate. Dac p-value este mai mic sau egal cu nivelul de
semnificaie o, atunci se respinge ipoteza nul.

Q
Quantil (Quantile)
Quantila de ordin q a unei liste de valori numerice (0 < q <= 1) este cel mai mic numr
astfel nct o proporie q de elemente ale listei sunt mai mici sau cel mult egale cu el.
Adic, dac lista conine n elemente, quantila de ordin q este cel mai mic numr Q astfel
nct nq elemente ale listei sunt mai mici sau egale cu Q.
Problema determinrii quantilei de un anumit ordin se complic atunci cnd lista de
valori reprezint un eantion dintr-o anumit populaie. n acest caz, valoarea calculat
drept quantil trebuie s se refere la populaie i nu la eantion, adic se calculeaz o
estimaie a quantilei din populaie. Formulele utilizate de diverse aplicaii dedicate
prelucrrilor statistice pot fi diferite (diferenele nu sunt ns majore), astfel nct valorile
furnizate sunt diferite pentru acelai set de intrri. Diferena pornete de la ipoteze
suplimentare considerate (distribuie uniform, distribuie normal etc.) care se reflect n
formule de interpolare diferite. Regula de aur n aceste situaii este: valorile furnizate de
astfel de programe se utilizeaz ca atare, menionndu-se programul utilizat.
Se utilizeaz curent notaia q
p
pentru quantila de ordin p.

Quartile (Quartiles)
Quantilele de ordin 25%, 50% i 75% (adic q
0,25
, q
0,5
, q
0,75
) sunt denumite quartile.
Ansamblul quartilelor realizeaz deci o mprire a datelor n patru seturi de volume
egale. Quartila a doua este mediana distribuiei.

R
Rdcina medie ptrat (Root-mean-square RMS)
Este definit ca rdcina ptrat a mediei ptratelor elementelor. Este o msur a mrimii
medii a elementelor.


Rang percentil (Percentile Rank)
Rangul percentil al unui element dintr-o repartiie de valori numerice este definit ca
proporia numerelor care sunt mai mici sau egale cu numrul considerat. Este utilizat
pentru fixarea locului ierarhic ocupat de un element: dac un elev are nota 9,25 la
matematic i 94% dintre elevi au note mai mici sau egale cu 9,25, atunci rangul percentil
al elevului este 94.

Rata de descoperire fals (False Discovery Rate)
n testarea unei colecii de ipoteze, rata de descoperire fals este proporia ipotezelor nule
respinse n mod eronat (raportul dintre numrul de erori de tip I i numrul de ipoteze
nule respinse), cu convenia c rata de descoperire fals este zero dac nu s-a respins nici
o ipotez nul.

Rata de non-rspuns (Nonresponse rate)
Este proporia de non-rspunsuri din eantionul planificat. O rat mare de non-rspuns
conduce la o deplasare de non-rspuns.

Regiune de respingere (Rejection region)
n testarea ipotezelor statistice, regiunea de respingere este format din mulimea acelor
valori, la care apartenena statisticii testului conduce la respingerea ipotezei nule.

Regresia ctre medie (Regression Toward the Mean, Regression Effect)
Presupunem c se msoar dou variabile (cum ar fi nlimea tatlui i a unui fiu) pentru
elementele unei populaii statistice i c ntre acestea exist o corelaie pozitiv (cum este
de ateptat ntre nlimi). Dac, pentru o observaie, prima valoare msurat este peste
media, atunci i cea de a doua valoare tinde s fie deasupra mediei, dar la o distan mai
mic n uniti abateri standard dect prima valoare. Pentru exemplul considerat, ar

=
2
1
i
x
n
RMS
rezulta c fii prinilor nali tind s aib o nlime mai apropiat de medie (regresia ctre
medie). n cazul unei corelaii negative, apropierea este din cellalt sens.

Regresie liniar (Regression, Linear Regression)
Date fiind valorile observate pentru dou variabile, X i Y, fie acestea (x
i
,y
i
), i=1,,n,
prin funcie de regresie se va nelege acea funcie Y = f(X) care aproximeaz cel mai
bine setul de date observate. De regul, criteriul ales este acela al celor mai mici ptrate,
adic acea funcie f pentru care se minimizeaz suma E(y
i
-f(x
i
))
2
. Dac f este o funcie
liniar, atunci se obine regresia liniar, reprezentat grafic printr-o dreapt (dreapta de
regresie).
Dreapta de regresie, mpreun cu abaterile standard ale variabilelor X i Y, sau cu
coeficientul de corelaie, pot constitui o rezumare rezonabil a distribuiei comune a celor
dou variabile. Adecvana modelului liniar este mai bun atunci cnd diagrama de
mprtiere are form de elips.

Regula de multiplicare (Multiplication rule)
Probabilitatea ca evenimentele A i B s apar simultan (se produce evenimentul AB)
este produsul dintre probabilitatea condiionat P(A|B) i P(B).

Regula fundamental de numrare (Fundamental Rule of Counting)
Dac o secven de experimente sau ncercri T
1
, T
2
, T
3
, . . . , T
k
poate produce,
respectiv, n
1
, n
2
, n
3
, , n
k
rezultate posibile i dac numerele n
1
, n
2
, n
3
, , n
k
nu depind
de ieiri, ntreaga secven de k experimente are n
1
n
2
n
3
. . . n
k
ieiri posibile.

Regula lui Bayes (Bayes' Rule)
Dac evenimentele A
1
, A
2
,....., A
n
constituie o partiie a spaiului de sondaj S i P(A
i
) >
0, i, iar B este un eveniment cu P(B) > 0, atunci

Probabilitile P(A
i
) sunt numite probabiliti a priori i sunt cunoscute (determinate pe
baza cunoaterii anterioare). Regula lui Bayes permite actualizarea acestor probabiliti
utiliznd informaia suplimentar c a avut loc evenimentul B.
n cazul cnd partiia este format din A i nonA, regula devine
P(A|B) = P(B|A) P(A) / ( P(B|A)P(A) + P(B|nonA) P(nonA) ).

Reziduu (Residual)
Este definit ca diferena dintre o valoare observat i valoarea prognozat de un model.
Diagrama acestor reziduuri n regresia liniar poate s arate inadecvarea modelului.

) | ( ) ( ) | ( ) ( ) | ( ) (
) | ( ) (
) | (
2 2 1 1 n n
i i
i
A B P A P A B P A P A B P A P
A B P A P
B A P
+ + +
=

S
Scal de densitate (Density Scale)
Gradaiile axei verticale a unei reprezentri grafice (histogram) sunt procentaje pe
unitate de ax orizontal. Aceasta este denumit scal de densitate i msoar ct de
dense sunt observaiile n fiecare interval X. Vezi i densitate de probabilitate.

Scal de rapoarte (Ratio Scale)
Scala de rapoarte este similar scalei de intervale, cu deosebirea c exist un punct zero
adevrat. Exemplul clasic este al scalei Kelvin de msurare a temperaturilor, care are un
punct de zero absolut: o temperatur de 200K este de dou ori mai mare dect o
temperatur de 100K.
De remarcat c scala Fahrenheit nu respect aceast cerin, dar este o scal de intervale:
diferena dintre 10F i 20F este aceeai ca diferena dintre 15F i 25F.

Scor (Score)
Este o denumire alternativ pentru o valoare observat.

Scor studentizat (Studentized score)
Prin scor studentizat se nelege transformata Z (valoarea observat a statisticii minus
valoarea ateptat, totul mprit la eroarea standard estimat a statisticii).

Scor z (z-score)
Valoarea observat a statisticii Z. Se obine prin transformarea Z a scorurilor observate.

Semnificaie, Nivel de semnificaie, Semnificaie statistic (Significance, Significance level,
Statistical significance)
Nivelul de semnificaie al unui test statistic este probabilitatea (riscul) de a respinge, n
mod eronat, ipoteza nul dei aceasta este adevrat: nivelul de semnificaie msoar
riscul de apariie a unei erori de tip I.
Un fapt statistic este semnificativ dac produce respingerea ipotezei nule. De exemplu,
testnd ipoteza Toate lebedele sunt albe, un fapt semnificativ este gsirea unei lebede
negre. De remarcat, n acest context, c observarea orictor lebede albe nu produce nimic
semnificativ. Se poate interpreta i prin aceea c ipoteza nul reflect starea actual de
cunoatere, deci semnificativ este un fapt care respinge ipoteza nul modificnd astfel
nivelul de cunoatere.
Este de notat, totui, c un fapt semnificativ statistic nu este, n mod neaprat,
semnificativ n lumea real.

Siguran statistic (Confidence Level)
Este probabilitatea ca un interval de ncredere al unui parametru s conin valoarea
adevrat a parametrului. Este notat uzual cu 1-o, o fiind pragul (nivelul) de ncredere
al intervalului. Sensul este acela c dac se construiesc n mod repetat intervale de
ncredere plecnd de la eantioane diferite, procentajul intervalelor care conin valoarea
adevrat a parametrului va tinde ctre sigurana statistic.

Sondaj (eantionaj) prin cote (Quota Sampling)
ntr-un eantionaj prin cote, populaia este segmentat iniial n subgrupuri mutual
exclusive, ca n eantionajul stratificat. Din fiecare subgrup se aleg uniti n proporii
specificate. Acest pas produce caracterul neprobabilist al eantionajului prin cote.
De exemplu, dac se tie c studenii de la Informatic reprezint 5% din totalul
studenilor unei universiti, atunci gruparea populaiei este dat de faculti, se tie
proporia fiecrui grup, prin urmare ntr-un eantion se va urmri ca doar 5% s fie
studeni de la Informatic.
Ca avantaje se pot cita viteza i costuri mai mici n obinerea informaiei i un mai mare
grad de acceptare sociologic.

Sondaj aleator (Random Sampling)
Este acea tehnic de sondaj n care fiecare element din eantion este ales la ntmplare i
fiecare element al populaiei are o probabilitate cunoscut (chiar dac neegal posibil) de
a fi selectat n eantion. n acest mod se reduce probabilitatea unei deplasri (bias).

Sondaj aleator simplu (Simple Random Sampling)
Este un eantionaj aleatoriu, n care fiecare element al populaiei are aceeai ans de a fi
selectat n eantion. Orice eantion de volum dat are, n consecin, aceeai probabilitate
de a fi ales.

Sondaj independent (Independent Sampling)
Este operaiunea de eantionaj n care se obin eantioane independente.

Sondaj prin grupuri (Cluster Sampling)
n sondajul de tip cluster, populaia este divizat n grupuri (clustere) i este selectat un
eantion din mulimea de clustere. Toate elementele clusterelor selectate sunt incluse n
eantionul final.
Aceast tehnic este utilizat, de regul, atunci cnd cercettorul nu poate avea o list
complet a elementelor populaiei, dar poate dispune de o list complet a grupurilor. De
asemenea, dac un sondaj aleatoriu ar produce o mulime de elemente foarte dispersat
teritorial astfel nct urmrirea tuturora ar fi foarte scump.
De exemplu, un studiu zonal pe o problem de agricultur ar fi mai economic dac se
aleg la ntmplare o serie de localiti rurale i se realizeaz studiul doar n aceste
localiti (cu urmrirea tuturor activitilor de interes din fiecare localitate selectate).

Sondaj spaial (Spatial Sampling)
Se refer la situaia n care sondajul se realizeaz pe elemente spaiale (de exemplu
selectarea unor parcele ntr-un studiu privind agricultura).

Sondaj stratificat (Stratified Sampling)
Exist adesea factori care induc o mprire a populaiei n subpopulaii (grupuri, straturi)
i se dorete estimarea modului n care un anumit interes variaz n funcie de aceste
subpopulaii. Aceast mprire de facto a populaiei trebuie s fie luat n consideraie
pentru a obine un eantion reprezentativ. Sondajul stratificat realizeaz acest fapt,
eantionul final fiind obinut prin reunirea eantioanelor extrase din fiecare strat al
populaiei. Structura eantionului final trebuie s respecte, de regul, proporiile fiecrui
strat n populaie.
Tehnicile de sondaj stratificat sunt prin urmare utilizate atunci cnd populaia nu este
omogen, dar se pot identifica straturi omogene. Aceste tehnici pot fi utile i atunci cnd
se dorete estimarea parametrilor pentru fiecare subpopulaie.

Spaiul rezultatelor (Outcome Space)
Mulimea tuturor rezultatelor (ieirilor) posibile ntr-un experiment.

Standardizare (Standardize)
Transformarea n uniti standard.

Statistica _
2
(Chi-square Statistic)
Statistica _
2
este utilizat pentru a msura potrivirea dintre date categoriale i un model
multinomial care prognozeaz frecvena relativ a rezultatelor din fiecare categorie
posibil. S presupunem c exist n ncercri independente, fiecare avnd un rezultat din
k posibile. Presupunem c n fiecare ncercare probabilitatea de apariie a rezultatului i
este p
i
, i = 1, 2, . . . , k, aceleai pentru toate ncercrile. Pentru orice i, numrul de
apariii a rezultatului i este atunci
expected
i
= np
i
.
Dac modelul este corect, ne vom atepta atunci ca numrul de rezultate i s fie, cu mici
abateri, valoarea ateptat anterioar. Notm cu observed
i
numrul de apariii observate
ale rezultatului de tip i n cele n ncercri, i = 1, 2, . . . , k. Statistica _
2
rezum atunci
discrepanele dintre valorile ateptate i valorile observate prin:
_
2
= (observed
1
- expected
1
)
2
/expected
1
+ (observed
2
- expected
2
)
2
/expected
2
+ . . . +
(observed
k
- expected
k
)
2
/expected
k
.
Dac modelul este corect i n este suficient de mare, atunci distribuia de sondaj a
statisticii _
2
tinde ctre o distribuie _
2
cu k - 1 grade de libertate.

Statistic (Statistic)
Prin statistic se nelege un numr care poate fi calculat din date, fr implicarea unor
parametri necunoscui. Ca funcie de eantion aleatoriu, o statistic este o variabil
aleatoare. De exemplu: media, abaterea standard, valoarea maxim etc. sunt statistici.
Statisticile sunt utilizate pentru estimarea parametrilor i pentru testarea ipotezelor.

Statistic descriptiv (Descriptive Statistics)
Conine acele metode care permit rezumarea coleciilor de date ntr-o form simpl i
explicit, inteligibil. Metodele statisticii descriptive pot fi mprite n metode numerice
i metode grafice. Prin metodele numerice se obin rezumate numerice cum ar fi media,
abaterea standard etc. Prin metodele grafice se obin reprezentri vizuale ale datelor, utile
pentru identificarea structurii datelor (pattern-urilor). Primele metode sunt mai precise i
mai obiective, dar doar utilizarea ambelor categorii de metode pot s duc la un rezultat
satisfctor.

Statistic inferenial (Inferential Statistics)
Conine metodele prin care se obin informaii despre o populaie pe baza datelor unui
eantion aleator din populaia de interes. Principalele metode sunt estimarea i testarea
ipotezelor.
Este partea principal a statisticii, deoarece interesul unui cercettor este ndreptat, de
regul, ctre cunoaterea populaiei i nu ctre eantion.

Statistica testului (Test Statistic)
Este o statistic, proprie unui test, pentru care se cunoate repartiia n condiiile ipotezei
H
0
. Pe baza valorii calculate a statisticii testului se ia decizia in test: dac statistica
aparine, la un nivel de semnificaie stabilit, regiunii de respingere a testului, atunci se
respinge ipoteza H
0
n favoarea ipotezei alternative. Fiecare test statistic conine i modul
de definire a statisticii testului respectiv.

Statistic Z (Z statistic)
O statistic Z este o statistic a unui test a crei distribuie sub ipoteza nul are valoarea
ateptat egal cu zero i poate fi aproximat suficient de bine de curba normal.
n mod uzual, o statistic Z este construit prin standardizarea unei alte statistici dup
formula
Z = ( original Exp(original) ) / SE(original).

Statistic t (Student) (Z statistic)
O statistic t este o statistic a unui test a crei distribuie sub ipoteza nul este sau poate
fi aproximat suficient de bine de repartiia Student.

Strat (Stratum)
n sondajul aleatoriu, un eantion este extras adesea separat din diferite submulimi
disjuncte ale populaiei. Fiecare asemenea submulime este denumit strat.
Estimatorii bazai pe eantioane aleatorii stratificate pot s aib erori de sondaj mai mici
dect estimatorii calculai pentru eantioane aleatorii simple de aceeai mrime, dac
variabilitatea medie a variabilei de interes n straturi este mai mic dect cea din ntreaga
populaie (cu alte cuvinte dac apartenent la straturi este asociat cu variabila).
De exemplu, pentru a determina preul mediu al locuinelor, este mai avantajos s se
utilizeze o stratificare dup zona geografic, deoarece preurile variaz enorm dup
localizare. Se poate mpri ara n regiuni, acestea n zone urbane, suburbane, rurale;
extragerea va fi apoi aleatorie din fiecare zon astfel determinat.

Studiu de eantion (Sample Survey)
Este un studiu bazat pe un eantion i nu pe ntreaga populaie.

Studiu longitudinal (Longitudinal study)
Un studiu longitudinal privete indivizi n momente diferite de timp, scopul fiind cel al
evalurii efectului trecerii timpului asupra variabilelor observate. Posibilitatea de
confundare cu alte efecte este mai mic dect ntr-un studiu secional (transversal).

Studiu observaional (Observational Study)
Este un studiu n care datele sunt obinute prin simpla observare, investigare. Noiunea
contrar este cea de experiment controlat.

Studiu transversal, secional (Cross-sectional study)
ntr-un studiu transversal se compar diferite elemente la un moment de timp, cu alte
cuvinte subiecii aparin la o seciune prin populaie (cum ar fi persoane de vrste diferite,
msurate la acelai moment de timp). n acest caz, diferenele dintre elemente se pot
confunda cu efectul urmrit. De exemplu, urmrind opiniile cetenilor ntr-un studiu
transversal, diferena dintre opinii poate fi atribuit procesului de mbtrnire, dei
aceasta poate fi explicat prin educaia diferit primit de cei chestionai.

Subiect, Subiect experimental (Subject, Experimental Subject)
Un element al grupului de control sau a celui experimental (de tratament).

Suma de sondaj (Sample Sum)
Este suma valorilor msurate ntr-un eantion aleator.
Valoarea ateptat a sumei de sondaj este de n ori media populaiei, unde n este volumul
eantionului.
Abaterea standard a sumei de sondaj, pentru un sondaj cu repunere, este

unde o este abaterea standard a populaiei iar n este volumul eantionului. n cazul unui
sondaj fr repunere dintr-o populaie finit, formula devine
.
unde N este volumul populaiei.

T
Tabel de contingen (Contingency Table)
Este un tabel cu dou intrri care conine frecvenele observaiilor dup nivelele a dou
variabile categoriale (sau continue discretizate), cu alte cuvinte repartiia comun a celor
dou variabile. O variabil determin liniile, iar cealalt determin coloanele tabelului.
Este uzual s se completeze cu o linie de total i cu o coloan de total, acestea indicnd
distribuiile fiecrei variabile.
Printr-un test _
2
de independen se poate verifica asocierea dintre variabile (deci dac
distribuia unei variabile depinde de nivelul celeilalte variabile).

Tendin central (Central Tendency)
Indicatorii de tendin central sunt msuri pentru localizarea mijlocului sau
centrului distribuiei. Deoarece noiunea de centru este suficient de vag, indicatorii
o n
o

n
N
n N
1
de tendin central cuprind statistici diverse, cele mai uzuale fiind media, mediana,
valoarea mod, media redus, fiecare oferind o caracterizare diferit pentru datele
procesate.

Teorema de limit central (Central Limit Theorem)
Teorema de limit central explic de ce relativ multe distribuii tind s fie apropiate de
distribuia normal. O form a teoremei este urmtoarea:
Fie X
1
, X
2
, v.a. independente, identic distribuite, avnd media i abaterea standard
o. Dac notm S
n
= X
1
+X
2
++X
n
, atunci

unde u(x) este funcia de repartiie a variabilei normale standard.
Formula anterioar poate fi rescris i pentru media S
n
/n.

Teoria probabilitilor (Probability, Theories of)
O teorie a probabilitilor este un mod de atribuire a unui sens la afirmaii probabiliste de
genul ansa ca o pionez s cad cu vrful n sus este de 2/3." Astfel, o teorie a
probabilitilor conecteaz teoria matematic a probabilitilor (care este un set de
consecine a axiomelor probabilitii) cu lumea real a observaiilor i experimentelor.
Exist mai multe teorii ale probabilitii.
Potrivit teoriei probabilitilor ca frecvene, probabilitatea unui eveniment este limita
frecvenei relative a apariiilor evenimentului n ncercri independente repetate n
aceleai condiii.
Potrivit teoriei subiective a probabilitilor, probabilitatea este un numr care msoar
ct de puternic este ncrederea noastr c un eveniment poate s apar. Acest numr este
pe o scal de la 0 (sau 0%) la 1 (sau 100%), unde 0 arat c suntem siguri c evenimentul
nu poate s apar, 1 arat c suntem siguri de apariia evenimentului.
Potrivit teoriei ieirilor egal verosimile, dac un experiment are n ieiri posibile, nu
exist nici un motiv pentru care unul dintre rezultate s apar n mod preferenial fa de
celelalte. Rezult c ansa de apariie a oricrui rezultat este 100%/n.
Fiecare teorie are limitele ei, aprtorii i detractorii ei.

Teoria probabilitilor ca frecvene (Frequency theory of probability)
Vezi teoria probabilitilor.

Test bilateral (Two-sided Hypothesis test)
Denumete un test n care ipoteza alternativ nu precizeaz sensul abaterii de la ipoteza
nul. De exemplu, dac ipoteza nul este =
0
, atunci ipoteza alternativ este <
0
sau
(adic =
0
, fr precizarea abaterii lui de la
0
).
ntr-un test bilateral, probabilitatea critic a testului se refer la ansa ca statistica testului
s fie mai deprtat de valoarea nul dect valoarea calculat a statisticii, fr a preciza
sensul n care are loc deprtarea.
Regiunea de respingere a unui test bilateral conine o reuniune de dou intervale.

Test exact Fisher pentru egalitatea a dou procentaje (Fisher's exact test for the equality of
two percentages)
) ( ) ( lim x x
n
n S
P
n
n
u = s


o

S considerm dou populaii cu elemente 0 i 1. Fie p
1
proporia de elemente 1din prima
populaie i p
2
proporia de elemente 1din a doua populaie. Fie n
1
i n
2
volumele a dou
eantioane extrase din cele dou populaii, iar G numrul total de 1 din ambele
eantioane. Dorim s testm ipoteza nul p
1
= p
2
. Dac ipoteza nul este adevrat, cele
dou eantioane reunite formeaz un eantion din populaiile reunite. Alocarea
eleementelor 1 ntre eantioane este de ateptat s fie, cu variaii aleatoare, proporional
cu volumele eantioanelor. Depinznd de G i de volumele eantioanelor, sub ipoteza
nul, elementele primului eantion pot fi considerate ca formnd un un eantion aleator
de volum n
1
fr repunere dintr-o mulime avnd N = n
1
+ n
2
elemente, dintre care G sunt
egale cu 1. Astfel, sub ipoteza nul, numrul elementelor 1 din primul eantion are o
distribuie hipergeometric cu parametrii N, G i n
1
. Testul exact Fisher utilizeaz aceast
distribuie pentru determinarea numrului de elemente 1 din primul eantion pentru care
se respinge ipoteza nul.

Test unilateral (One-sided Test)
Un test unilateral este un test statistic n care ipoteza alternativ precizeaz sensul abaterii
de la ipoteza nul (i nu este, pur i simplu, negaia acesteia). Noiunea contrar este test
bilateral.

Testarea ipotezelor (Hypothesis testing)
Testarea ipotezelor statistice este formalizat ca procesul de a decide ntre respingerea i
nerespingerea unei ipoteze nule pe baza unui set de observaii. Pot s apar dou tipuri
de erori: respingerea ipotezei nule dei ea este adevrat (eroare de tip I); nerespingerea
ipotezei nule, dei ea este fals (eroare de tip II). De menionat c, n situaiile practice,
nu se poate ti dac s-a comis o eroare i de ce tip este ea. Modul de abordare este atunci
acela de minimiza riacul de producere a unei erori. n mod tipic, se specific a priori
riscul producerii unei erori de tip I, risc notat uzual cu o i denumit nivelul de
semnificaie a testului. Pentru un nivel de semnificaie dat, este apoi aleas acea regul de
decizie (test) care are cea mai mic probabilitate de producere a unei erori de tip II cnd
ipoteza alternativ este adevrat. Probabilitatea de a respinge n mod corect ipoteza nul
atunci cnd ipoteza alternativeste adevrat este numit puterea testului n raport cu
ipoteza alternativ.

Test t ( t test)
Se aplic un test t (Student) atunci cnd statistica testului se consider repartizat Student.
De regul, testele t sunt utilizate pentru verificarea ipotezelor privind media populaiei,
atunci cnd eantioanele sunt de dimensiuni reduse (<=30) i distribuia populaiei este
cunoscut ca fiind aproape normal.

Testul t pentru un coeficient de corelaie (t test for correlation coefficient)
Fie r coeficientul de corelaie estimat dintr-un eantion de volum n. n ipoteza H
0
: = 0,
statistica

este repartizat Student cu n-2 grade de libertate, astfel nct se poate aplica regula de
decizie dintr-un test t (bilateral sau unilateral).
2
1
2

= n
r
r
t

Test z (z-test)
Un test bazat pe o statistic Z (repartizat normal standard).

Transformare (Transformation)
Printr-o transformare se convertete o list de valori ntr-o alt listde valori, sau o
variabil ntr-o alt variabil. O transformare afin este o transformare de tipul y = ax +
b, unde x este variabila iniial, iar y este variabila nou (transformat). Astfel,
standardizarea unei variabile este o transformare afin.
Transformrile afine cu a > 0 au un efect simplu asupra mediei, medianei, valorii mod i
quantilelor: noile valori sunt obinute din cele vechi dup exact aceeai formul de
transformare. Dac a < 0, atunci media, mediana i valoarea mod sunt obinute prin
aceeai transformare, n timp ce quantilele au ordinea inversat. Efectul unei transformri
afine asupra abaterii standard este acela c valoarea transformat se nmulete cu |a|
pentru a obine noua abatere standard.

Transformare afin (Affine transformation)
Vezi transformare.

Transformarea z a lui Fisher (Fishers z Transformation)
Deoarece repartiia de sondaj a coeficientului de corelaie r (Fisher) nu este normal,
testarea semnificaiei coeficientului de corelaie este dificil de efectuat direct. Din aceast
cauz, Fisher a propus transformarea

v.a. z astfel obinut fiind repartizat aproape normal i avnd eroarea standard

unde n este volumul eantionului.
Devine astfel posibil calcularea unui interval de ncredere pentru r sau pentru o diferen
de coeficieni de corelaii (pentru compararea lor).
A se vedea i testul t pentru un coeficient de corelaie.

Tratament (Treatment)
Substana sau procedura studiat ntr-un studiu experimental sau observaional. n studiu
se va urmri dac tratamentul are efect asupra unei variabile de interes.

Trend secular (Secular Trend)
Prin trendul secular al unei variabile se nelege asocierea liniar (regresia liniar) a
variabilei cu timpul. Pentru a avea sens, trebuie, evident, ca obinerea valorile variabilei
s fie aib loc n timp (mai general, este important ordinea msurtorilor).

Trimedie (Trimean)
Definit drept o medie ponderat a quartilelor unei distribuii prin

r
r
z

+
=
1
1
ln
2
1
3
1

=
n
z
o
4
2
3 2 1
Q Q Q + +
trimedia este un indicator de tendin central, rar utilizat totui, la fel de puin influenat
de scorurile extreme ca i mediana. Pentru distribuii cu asimetrie pronunat, indicatorul
este mai puin supus fluctuaiilor de sondaj dect media aritmetic.

U
Unimodal (Unimodal)
O distribuie este unimodal dac are exact o singur valoare mod.

Unitate (Unit)
Un element al populaiei. Cu acest sens noiunea apare, de regul, n probleme de sondaj.

Unitate de sondaj (Sampling unit)
Un eantion dintr-o populaie poate fi extras cte un element sau cte un grup de
elemente (n cazul gruprii elementelor, clustere). Prin unitate de sondaj se nelege
unitatea fundamental utilizat la formarea unui eantion.

Uniti standard (Standard Units)
O variabil (set de date) se spune c este n uniti standard dac are media egal cu zero
i abaterea standard egal cu unu.
Se poate transforma un set de date n uniti standard prin aa-zisa transformare Z:

Prin transformarea n uniti standard se pot compara variabile msurate pe scale diferite
(cum ar fi greutatea i nlimea).

Univariat (Univariate)
Atributul se utilizeaz atunci cnd este implicat o singur variabil.

V
Valoare aberant (Outlier)
O valoare aberant este o valoare care nu se ncadreaz n comportarea uzual a unei
variabile (de genul inundaie n Sahara). n mod uzual, se va considera valoare aberant
una care este la cel puin trei abateri standard distan de medie (exist i teste
specializate pentru detectarea acestor valori).
Detectarea unei valori aberante produce, de regul, eliminarea acesteia din setul de date.
Totui, eliminarea trebuie s se bazeze pe identificarea exact a valorii, a modului de
obinere etc., deoarece poate conduce la subestimarea variabilitii reale a procesului
msurat. Sunt procese n care tocmai o valoare aberant este de maxim interes.

Valoare critic (Critical value)
Valoarea critic ntr-un test statistic apare atunci cnd decizia n test se ia pe baza regiunii
de respingere i reprezint, n general, acea valoare sub/peste care trebuie s fie statistica
testului pentru a respinge ipoteza nul. Valoarea critic a testului este deci o extremitate
) ( X SD
X X
Z

=
finit a regiunii de respingere. Valoarea critic poate fi calculat, la un prag de
semnificaie dat, nainte de aplicarea efectiv a testului este o quantil a repartiiei
statisticii testului.
De exemplu, ntr-un test z bilateral, la o = 0,05, valoarea critic este quantila
z
0,975
= 1,96. Dac valoarea statisticii este mai mare n valoare absolut dect valoarea
critic, atunci se respinge ipoteza nul.

Variabil (Variable)
Sensul curent n statistic este acela a unei valori numerice, a unui atribut care difer de
la un element la altul. A se vedea variabil categorial, variabil calitativ, variabil
cantitativ, variabil discret, variabil continu, variabil aleatoare.

Variabil aleatoare (Random Variable)
O variabil aleatoare (notat uzual cu v.a.) este o funcie real definit pe mulimea
evenimentelor. Se accept, uzual, c o v.a. asigneaz numere la ieirile posibile ale unui
experiment aleatoriu.
O afirmaie asupra unei v.a. definete un eveniment, de exemplu {Xe B}= {se S: X(s) e
B}, unde S este spaiul evenimentelor, este evenimentul prin producerea cruia v.a. ia o
valoare din B.

Variabil aleatoare indicatoare (Indicator Random Variable)
Variabila indicatoare a unui eveniment A, notat adesea 1
A
, este v.a. egal cu 1 dac se
realizeaz A i egal cu 0 dac nu se realizeaz A. Valoarea ateptat a indicatoarei lui A
este probabilitatea lui A, P(A), iar eroarea standard este (P(A)(1-P(A))

. Suma
1
A
+ 1
B
+ 1
C
+ . . .
a indicatoarelor evenimentelor {A, B, C, . . . } numr cte dintre evenimente s-au
realizat ntr-o ncercare dat.

Variabil binar (Binary Variable)
Este o variabil discret care are doar dou valori posibile, descrise uzual ca succes,
insucces. De regul, o variabil binar este de tip nominal. Codificarea valorilor prin 0
i 1 permit calcule care nu sunt posibile, n general, pentru variabile discrete: de exemplu,
suma produce frecvena valorilor codificate prin 1. Aceast caracteristic apropie o
variabil binar de tipul continuu de variabil.

Variabil calitativ (Qualitative Variable)
O variabil calitativ are ca valori adjective cum ar fi culoarea, genul, naionalitatea etc.
Vezi i variabil nominal, variabil ordinal.

Variabil cantitativ (Quantitative Variable)
O variabil care ia valori numerice i pentru care au sens operaiile aritmetice. De
exemplu, temperatura este o variabil cantitativ, dar codul numeric personal (CNP) nu.
O variabil cantitativ reprezint, de regul, cantitatea exact dintr-o anumit
caracteristic prezent la un element msurat i este o variabil continu.

Variabil categorial (Categorical Variable)
O variabil este categorial dac valorile ei aparin unei mulimi de categorii distincte
(cum ar fi apartenena etnic, sexul, culoarea etc.). O variabil categorial este o variabil
discret.

Variabil continu (Continuous Variable)
O variabil cantitativ este o variabil continu dac mulimea valorilor sale posibile este
continu (nenumrabil). De exemplu temperatura, nlimea etc. n practic nu se poate
niciodat s se msoare o variabil continu cu o precizie infinit i astfel variabilele
continue sunt aproximate prin variabile discrete. O v.a. X este numit continu dac i
numai dac funcia de repartiie este continu. De observat c, n acest caz, P(X = x) = 0
pentru orice numr real x).

Variabil dependent (Dependent Variable)
n teoria regresiei, n care se estimeaz o relaie de forma Y = f (X
1
, X
2
, , X
n
), variabila
Y este denumit variabil dependent, n timp ce X
1
, X
2
, , X
n
sunt denumite variabile
independente. Prin relaia estimat, valorile Y se presupun explicate de valorile
variabilelor independente. Rolurile de variabil dependent sau independent sunt
relative, interschimbabile n funcie de aspectele cercetate.

Variabil discret (Discrete Variable)
O variabil cantitativ este numit discret dac mulimea valorilor posibile este
numrabil. Exemple tipice sunt variabilele care iau valori ntregi: numrul persoanelor
dintr-o familie, vrsta rotunjit la ani etc. Funcia de repartiie a unei variabile discrete
este o funcie scar. O variabil categorial este, de asemenea, discret.

Variabil explicativ (Explanatory Variable)
n teoria regresiei, o denumire echivalent celei de variabil independent. ntr-un
experiment, variabila explicativ este cea manipulat de experimentator (cea explicat
fiind variabila dependent).

Variabil independent (Independent Variable)
n teoria regresiei, o variabil independent este cea despre care se presupune c explic
variaia variabilei dependente. Se mai numete variabil explicativ. n acest context,
independent nu nseamn statistic independent.
Un alt sens este oferit de modul n care este condus un experiment: anumite variabile sunt
controlate, fixate, de experimentator, alte variabile sunt msurate. Primele se numesc
variabile independente (factori, explicative), ultimile fiind variabile dependente
(explicate, efecte). Cum n asemenea cazuri analiza statistic va include, de regul, o
analiz de regresie, explicaia dat vine n completarea primului sens.

Variabil intra-subieci (Within-subjects Variable)
Este o variabil independent (factor) care este manevrat astfel nct fiecare subiect este
testat (evaluat) la fiecare nivel al variabilei. Mai este denumit variabil cu msurtori
repetate, tocmai din cauz c acelai subiect este supus unor evaluri repetate (la nivele
diferite ale factorului).

Variabil ntre-subieci (Between-subjects Variable)
Este o variabil independent (factor) manevrat astfel nct la fiecare nivel al factorului
este evaluat un alt grup de subieci.

Variabil nominal (Nominal Variable)
O variabil categorial este nominal dac ntre categorii nu exist stabilit o ordine (de
exemplu, facultatea urmat de un student: matematic, filologie etc. Ordinea de
enumerare este evident arbitrar i nu constituie un atribut al variabilei facultate.

Variabil ordinal (Ordinal Variable)
O variabil ordinal este o variabil categorial, dar ntre categorii exist o ordine. De
exemplu, locul terminrii unei curse atletice: locul I, locul II etc. Este de menionat c
dei exist o ordine ntre categorii, nu se poate vorbi de distan ntre acestea. Atunci
cnd valorile posibile sunt codificate prin valori numerice, operaiile aritmetice ntre
coduri nu au sens (de exemplu calcularea mediei), singura informaie utilizabil fiind
aceea de ordine (mai mare, mai mult etc.).

Variabile aleatoare dependente (Dependent Random Variables)
Dou v.a. sunt dependente dac ele nu sunt independente..

Variabilitate de sondaj (Sampling Variability)
Se refer la variaia valorilor luate de o anumit funcie atunci cnd este calculat pentru
eantioane obinute dintr-o aceeai populaie.

Variaie ntmpltoare, eroare ntmpltoare (Chance variation, chance error)
O variabil aleatoare poate fi descompus n suma dintre valoarea ateptat i o variaie
ntmpltoare n jurul acestei valori. Valoarea ateptat a variaiei ntmpltoare este
egal cu 0. Eroarea standard a variaiei ntmpltoare este aceeai cu eroarea standard a
variabilei aleatoare, ceea ce permite interpretarea c eroarea standard a v.a. este diferena
tipic dintre valoarea variabilei i valoarea ei ateptat.

Volumul eantionului (Sample Size)
Volumul eantionului este numrul de elemente din eantion.

S-ar putea să vă placă și