Sunteți pe pagina 1din 60

Dicionar explicativ de statistic

Selecie i organizare: Valentin Clocotici



A B C D E F G H I K L M N O P Q R S T U V
A
Abatere (Deviation)
Prin abatere se nelege diferena dintre o dat i o valoare de referin (de
regul media). Vezi abatere standard.

Abatere standard (Standard Deviation SD)
Abaterea standard a unei mulimi de numere este rdcina medie ptrat (RMS)
a mulimii abaterilor fiecrui element de la media mulimii.

Poate fi definit ca rdcina ptrat a dispersiei mulimii de numere.
Abaterea standard este o msur a gradului de mprtiere a elementelor, se
msoar n aceeai unitate de msur ca i datele iniiale i se raporteaz, de
regul, mpreun cu media.
Este de remarcat c definiia are loc considernd c mulimea de plecare
reprezint ntreaga populaie. Pentru un eantion se va vedea Abatere standard
de sondaj.

Abatere standard de sondaj (Sample Standard Deviation, S)
Abaterea standard de sondaj s este un estimator al abaterii standard a
populaiei, bazat pe un eantion aleator.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de
sondaj. Presupunnd c exist n elemente n eantion, cu valorile {x
1
, x
2
, . . .
, x
n
}, avnd media M = (x
1
+ x
2
+ . . . +x
n
)/n, atunci
s = { [(x
1
- M)
2
+ (x
2
- M)
2
+ . . . + (x
n
- M)
2
]/(n-1) }


Ptratul abaterii standard de sondaj, s
2
, dispersia de sondaj, este un estimator
nedeplasat al dispersiei populaiei.

Abaterea standard a populaiei (Population Standard Deviation)
Parametru reprezentnd abaterea standard a valorilor unei variabile pentru o
populaie.

Amplitudine (Range)
Este definit ca x
max
x
min
, unde x
max
i x
min
sunt valorile extreme ale unui set de
numere observate. Ofer o imagine a ntinderii datelor, dependent ns de
numrul de valori observate. Cu ct se msoar mai multe elemente, cu att
ansa de a observa valori mai deprtate crete, deci ansa de a obine o
amplitudine mai mare.

Amplitudine interquartil (Interquartile Range IQR, H-spread)
Se definete ca diferena dintre quartila a treia i quartila ntia. Are
semnificaia lungimii unui interval pe care se distribuie 50% dintre observaii.
De remarcat c intervalul nu este centrat pe quartila a doua (mediana). Este
utilizat, n mod nefundamentat teoretic, pentru a obine un interval centrat pe
median, (Me-IQR/2;Me+IQR/2), interval care conine aproximativ 50% dintre
observaii, gradul de aproximare fiind dependent de forma distribuiei.

Applet
Un applet este un program (de regul interactiv) ncrcat automat dintr-o
pagin web. Nu este o noiune specific statisticii i este prezent aici doar
pentru a lega o adres web specializat pentru applet-uri dedicate unor
prelucrri statistice: tools
page (http://www.stat.berkeley.edu/users/stark/Java/index.htm)

Aproximare normal (Normal approximation)
Aproximarea normal const n aproximarea unei arii de sub histograma
datelor, transformate n uniti standard, prin aria corespunztoare de sub curba
normal standard.
De exemplu, se dorete o aproximare pentru aria de sub histograma de
probabilitate binomial cu parametrii n = 50 i p = 0,30 situat ntre 9.5 i 17.5
(aria exact este de 0,742). Pentru aproximarea normal se standardizeaz
limitele intervalului utiliznd media np = 15 i abaterea standard (n p (1-
p))
1/2
= 3.24. Rezult c aria aproximant este cea de sub curba normal situat
ntre (9.5 - 15)/3.24 = -1.697 i (17.5 - 15)/3.24 = 0.772, adic 0,735, o valoare
apropiat de cea corect.
Pentru aproximarea distribuiilor discrete se vor utiliza coreciile de
continuitate.

Asociere (Association)
Dou variabile sunt asociate dac repartiia valorilor luate de o variabil este
diferit dup domenii de valori distincte ale celeilalte variabile. n aceast
situaie se poate interpreta c o parte din variabilitatea uneia poate fi explicat
de cealalt variabil. Vizual, asocierea poate fi detectat printr-o diagram de
mprtiere (scatterplot) n care norul de puncte prezint configuraii
particulare, interpretabile ca tendine (forme liniare, curbilinii etc.). Asocierea
liniar poate fi msurat prin coeficientul de corelaie (o asociere de tipul
maremare, micmic este o asociere pozitiv, n timp ce o asociere maremic,
micmare este o asociere negativ)

Asociere liniar (Linear association)
Dou variabile sunt asociate liniar dac o modificare a unei variabile este
asociat cu o midificare proporional n cea de a doua variabil, factorul de
proporionalitate fiind constant n domeniul msurat. Gradul de asociere liniar
este msurat prin coeficientul de corelaie (liniar), cu valori n [-1,+1], valorile
extreme nsemnnd asocieri perfecte, negative sau pozitive. Vezi coeficient de
corelaie.

Asociere neliniar (Nonlinear Association)
Relaia dintre dou variabile este neliniar dac o modificare n una dintre
variabile este asociat cu o modificare a celeilalte variabile, modificare
dependent de valoarea primei variabile. Situaia contrar este cea a unei
asocieri liniare, n care modificrile sunt proporionale, factorul de
proporionalitate fiind constant (deci independent).

Ateptare, Valoare ateptat (Expectation, Expected Value)
Valoarea ateptat a unei v.a. este media ei, gndit ca media la limit a
valorilor v.a. obinute n experimente independente repetate. Se noteaz uzual
cu Exp(X) sau cu E(X). n cazul unei v.a. discrete, valoarea ateptat este
media poderat a valorilor posibile, ponderile fiind probabilitile cu care v.a. ia
diferitele valori.
Se poate gndi valoarea ateptat a unei v.a. ca punctul de echilibru al
histogramei probabilitilor, dac aceasta ar fi o plac tiat dintr-un material
uniform.
Proprietile uzuale sunt
Exp(X+Y) = Exp(X) + Exp(Y)
Exp (XY) = Exp(X)Exp(Y), dac X i Y sunt independente
Exp(aX ) = aExp(X).
Valoarea ateptat a unei statistici este media distribuiei de sondaj a statisticii.

Autoselecie (Self-Selection)
Situaia de autoselecie apare atunci cnd indivizii decid singuri dac sunt n
grupul de control sau n cel de tratament i este ntlnit n studiul
comportamentului uman. De exemplu, studiile efectului fumatului asupra
sntii implic autoselecia: persoanele decid singure dac fumeaz sau nu.
Autoselecia exclude situaia de experiment i produce un studiu observaional.
n situaia de autoselecie, cercettorul trebuie s fie precaut n privina
confundrii posibile a factorilor care influeneaz deciziile individuale de
apartenen la unul dintre grupuri.

Axiomele probabilitii (Axioms of Probability)
Se numete probabilitate orice funcie definit pe mulimea evenimentelor, cu
valori reale i care ndeplinete urmtoare trei axiome: (1) probabilitate unui
eveniment este nenegativ, P(A)>0; (2) probabilitatea evenimentului total este
egal cu 1, P(O)=1; (3) probabilitatea reuniunii a dou evenimente
incompatibile este egal cu suma probabilitilor, adic dac AB = C, atunci
P(AB)= P(A)+P(B). n cazul cnd mulimea evenimentelor este infinit, suma
se extinde la o reuniune infinit de evenimente incompatibile P( A
i
)
= E P(A
i
).
Probabilitatea unui eveniment se interpreteaz ca ansa de realizare a
evenimentului i se exprim, uneori, ca procentaj. Astfel, un eveniment A cu
P(A)=1/4 poate fi gndit ca un eveniment care se realizeaz n 25% din cazuri
(un caz din patru).
Proprieti ale probabilitii: (1) dac AcB, atunci P(A)sP(B); (2) P(A)s1; (3)
P(non A) = 1 P(A); (4) P(C)=0; (5) P(AB) = P(A)+P(B)P(AB).
Pentru cazul cnd toate evenimentele elementare sunt egal probabile,
P({e
i
})=1/n (n fiind numrul finit de evenimente elementare), atunci P(A) =
n
A
/n, unde n
A
este numrul evenimentelor elementare care compun
evenimentul A. Regula se interpreteaz sub forma: probabilitatea
evenimentului este egal cu numrul cazurilor favorabile raportat la numrul
total de cazuri posibile.

B
Bias (Bias)
Un estimator, sau un proces de msurare, se zice deplasat dac, n medie,
valoarea sa difer de mrimea estimat (msurat) adevrat. Deplasarea este
media acestei diferene. Deplasarea poate fi datorat i modului de conducere,
evaluare a unui experiment. Vezi i deplasarea de nonrspuns.

Bin (Bin)
Limita unui interval de clas. Valorile care realizeaz partiionarea n intervale
de clas.

Bivariat (Bivariate)
Termenul se aplic atunci cnd sunt implicate dou variabile.De exemplu, date
bivariate apar atunci cnd se efectueaz dou msurtori pentru fiecare element
al unui eantion.
n plus fa de datele univariate, apar probleme cum ar fi distribuia comun a
variabilelor, corelaia dintre variabile, regresia unei variabile n funcie de
cealalt etc.

Boxplot (Boxplot)
O diagram de tip boxplot reflect grafic rezumarea prin cele 5 valori a unei
distribuii: valoarea minim, prima quartil, mediana, a treia quartil i valoarea
maxim.

Prin compararea intervalelor figurate se obine o imagine a gradului de
mprtiere a valorilor n domeniul observat.
De regul, se marcheaz pe diagram i valorile aberante: situate la mai mult de
1,5D sub prima quartil sau peste a treia quartil, unde D noteaz distana
dintre prima i a treia quartil (intervalul interquartil) n figura anterioar,
poziia valorii aberante este distorsionat din necesiti de prezentare. Uneori,
ntre valorile aberante se face distincia celor situate la mai mult de 3D de
quartilele extreme.
Prin reprezentarea simultan a celor cinci valori pentru grupuri diferite, se ofer
suport pentru o comparare rapid a grupurilor.

C
Cadru, cadru de sondaj (Frame, sampling frame)
Prin cadru (frame) de sondaj se nelege o colecie de elemente de unde se
extrage eantionul. n mod ideal, cadrul este chiar populaia. Diferena dintre
cadrul de sondaj i populaie poate fi o surs de apariie a unei deplasri (biais).

Cauzalitate, relaie cauzal (Causation, causal relation)
Dou variabile sunt n relaie de cauzalitate dac modificarea valorii uneia
dintre ele (cauza) produce modificarea valorii celeilalte (efectul). Nu exist nici
o legtur ntre relaia de cauzalitate i relaia de asociere din statistic. Dou
variabile pot fi asociate statistic fr a exista nici o relaie de cauzalitate ntre
ele, n timp ce dou variabile n relaie de cauzalitate pot avea o corelaie
nesemnificativ statistic.

Coeficient de corelaie (Correlation coefficient)
Coeficientul de corelaie (Pearson) este o msur a asocierii liniare dintre dou
variabile, cu alte cuvinte a gradului n care reprezentarea bivariat sub forma
unei diagrame de mprtiere se apropie de o dreapt. Notnd cu X i Y cele
dou variabile i cu x
i
, y
i
, i=1,,n, valorile variabilelor, formula de calcul este
.
Coeficientul de corelaie ia valori ntre 1 i +1, inclusiv, cu semnificaia de
asociere pozitiv/negativ dup semnul coeficientului i de lips de asociere
pentru r
XY
= 0. Semnificaia statistic (aproximativ) este obinut aplicnd un
test Student cu statistica
, avnd n-2 grade de libertate.

Confundare (Confounding)
Dou variabile sunt confundate dac este imposibil s se determine care
variabil este asociat efectului observat.
Atunci cnd se compar un grup de control i un grup experimental (supus unui
tratament oarecare) i cnd diferenele dintre grupuri, altele dect tratamentul
aplicat, produc diferene ntre rezultate nedifereniabile de efectul
tratamentului, aceste diferene se zic confundate cu efectul tratamentului (dac
acesta exist). De exemplu, diferenele ntre maladiile fumtorilor i
nefumtorilor pot fi confundate cu calitile individuale difereniate ale
subiecilor. Confundarea poate afecta studiile observaionale i experimentele
care nu sunt randomizate. Vezi i paradoxul lui Simpson.

Consisten (Consistency)
Un estimator se zice consistent dac tinde s se apropie de parametrul pe care-l
estimeaz o dat cu mrirea volumului eantionului.
Statisticile uzuale sunt consistente.

Contrabalansare (Counterbalancing)
Este procedura prin care se ncearc reducerea riscului de confundare. De
exemplu, ntr-un experiment n care un subiect este supus mai multor probe,
ordinea acestora este diferit astfel nct fiecare ordine posibil s fie egal
prezent. n acest fel se elimin confundarea cu variabila (ascuns) a ordinii de
prezentare a probelor.

Controale istorice (Historical Controls)
Uneori, grupul experimental este comparat cu un grup de control care aparine
altei epoci istorice. n asemenea cazuri, fenomenul de confundare este mult mai
mare, deoarece de la o epoc la alta se modific muli factori ale cror efecte
pot fi confundate cu efectul tratamentului.

Control (Control)
Exist cel puin trei sensuri ale cuvntului "control" n statistic: un element al
unui grup de control, un experiment controlat i controlul pentru o posibil
variabil confundat (a controla o variabil nseamn a ncerca separarea
efectului ei de efectul tratamentului).

Convenia punctului extrem (Endpoint Convention)
La gruparea datelor continue, trebuie s se decid n ce interval s se includ o
valoare care este egal unui punct de divizare. Regula de includere constituie
convenia punctului extrem. Exist dou convenii utilizate: (1) se include
punctul din stnga i se exclude cel din dreapta, cu excepia intervalului din
extremitatea dreapt care include ambele capete; (2) se include punctul din
dreapta i se exclude cel din stnga, cu excepia intervalului din extremitatea
stng care include ambele capete.

Convergen n probabilitate (Convergence in probability)
Un ir de variabile aleatorii X
1
, X
2
, X
3
. . . converge n probabilitate dac
exist o v.a. X astfel nct pentru orice e>0, irul
P(|X
1
- X| < e), P(|X
2
- X| < e), P(|X
3
- X| < e), . . .
converge la 1.

Corecia de populaie finit (Finite Population Correction)
Atunci cnd eantionarea este fr repunere, ca n sondajul aleatoriu simplu,
eroarea standard a sumei de sondaj i a mediei de sondaj depinde de fraciunea
extras din populaie: cu ct volumul eantionului este mai mare, cu att mai
mic este eroarea standard. Ajustarea erorii standard n acest caz este denumit
corecia de populaie finit. Sondajul cu repunere este similar celui dintr-o
populaie infinit. Eroarea standard pentru un sondaj fr repunere este mai
mic dect cea pentru un sondaj cu repunere cu factorul de corecie ((N -n)/(N -
1))

. Se verific imediat c acest factor corespunde intuiiei pentru n=1 sau


n=N.

Corecie de continuitate (Continuity Correction)
Corecia de continuitate apare atunci cnd o distribuie discret (cum ar fi cea
binomial) este aproximat printr-o distribuie continu (cum ar fi cea normal)
i const extinderea intervalului cu jumti de uniti de msur: o valoare k
din distribuia discret devine un interval (k-1/2,k+1/2) din distribuia continu.

Corelaie ecologic (Ecological Correlation)
Noiunea se utilizeaz atunci cnd se estimeaz corelaia dintre mediile
grupurilor de subieci i nu ntre subieci. Rezultatul poate s estimeze incorect
asocierea variabilelor. Noiunea este specific studilor ecologice.

Curba F (F Curve)
Printr-o curb F se nelege o familie de curbe care depind de doi
parametri, v
1
i v
2
, numii grade de libertate. Expresia analitic este

unde Ieste funcia lui Euler, dat de
.
Cteva curbe din familie sunt prezentate n imaginea urmtoare:

Funcia f este densitatea de probabilitate pentru repartiia F(v
1
;v
2
) i se observ
asimetria pozitiv pronunat pentru valori mici ale gradelor de libertate, ca i
atenuarea acestei asimetrii pentru valori mari ale parametrilor.

Curba _
2
(Chi-square Curve)
Curba _
2
este o familie de curbe care depind de un parametru, v, numit grade
de libertate (d.f.). Expresia analitic este
,
unde Ieste funcia lui Euler, dat de
.
Curba _
2
este o aproximare pentru histograma probabilitilor
statisticii _
2
pentru modelul multinomial dac numrul ateptat de rezultate din
fiecare categorie este suficient de mare.
Funcia f este densitatea de probabilitate pentru repartiia _
2
.
Pentru v suficient de mare, forma graficului se apropie de alura curbei normale.


Curba normal (Normal curve)
Curba normal reprezint grafic densitatea de probabilitate a repartiiei
normale. Pentru repartiia normal standard se obine imaginea urmtoare, mai
cunoscut sub denumirea de clopotul lui Gauss.

Expresia analitic, n cazul unei repartiii normale cu parametrii i o, este:

Pentru =0 i o=1 se obine expresia analitic a funciei normale standard,
reprezentat n figura precedent.
Este de reinut c graficul este simetric iar aria de sub curb este egal cu 1.

Curba normal standard (Standard Normal Curve)
Vezi Distribuia normal.

Curba Student, t (Student's t curve)
Prin curba Student se nelege graficul densitii de probabilitate a repartiiei
Student (de fapt o familie de curbe indexat prin numrul gradelor de libertate).
Curba este simetric i are o form apropiat de curba normal standard ctre
care tinde o dat cu mrirea numrului de grade de libertate. Se poate observa
c probabilitile extreme sunt mai mari dect n cazul curbei normale.


Cazul cel mai des ntlnit de utilizare este acela n care se consider o populaie
aproape normal distribuit cu media . Fie un eantion aleator de
volum n avnd media egal cu M i abaterea standard egal cu s. Definim v.a. T
prin
T = (M - )/(s/n

).
Pentru valori mici ale lui n se poate considera c T este repartizat Student
cu n - 1 grade de libertate. Adic
P(a < T < b) ~ aria de sub curba S(n 1) delimitat de x = a i x = b.

D
Date multivariate (Multivariate Data)
Un set de msurtori efectuate asupra a dou sau mai multor variabile, o
observaie fiind ansamblul valorilor pentru un anumit element (individ) din
eantion.

Deplasare (Bias)
Vezi Bias.

Deplasare de non-rspuns (Nonresponse bias)
Dac cei care rspund ntr-un studiu difer de cei care nu rspund ntr-un mod
dependent de variabila urmrit, atunci apare o deplasare (biais) datorat
non-rspunsurilor. De exemplu, ntr-un anchet sociologic prin telefon,
efectuat dup-amiaza, nu vor fi prini cei care lucreaz n acel timp. Dac
rezultatele obinute urmresc ntreaga populaie, este evident c apare o
deplasare de non-rspuns.

Deplasare de selecie (Selection Bias)
Este tendina sistematic dintr-o procedur de sondaj de a include i/sau
exclude uniti de sondaj de un anumit tip. O asemenea deplasare este posibil
atunci cnd formarea eantionului este la latitudinea unei persoane. Pentru
eliminarea riscului de apariie a deplasrii de selecie se utilizeaz scheme de
sondaj probabilist care nu mai las loc la opiuni personale.

Diagram de mprtiere (Scatterplot)
Pentru date bivariate, diagrama de mprtiere este obinut prin reprezentarea
grafic a punctelor de coordonate (x
i
,y
i
), unde x
i
i y
i
sunt valorile celor dou
variabile studiate care se refer la un acelai element din eantion.
Din analiza formei norului de puncte astfel obinut se pot obine informaii
privind repartiia comun a celor dou variabile, repartiiile marginale (fiecare
variabil fiind considerat separat), precum i informaii despre asocierea
variabilelor.
Mai este denumit diagram XY.

Diagrama reziduurilor (Residual Plot)
O diagram a reziduurilor lund pe axa Ox o variabil explicativ
(independent) sau explicat (dependent). Forma norului de puncte obinut
conduce la concluzii asupra adecvanei modelului.

Dispersie (Variance)
Dispersia unei liste de valori este ptratul abaterii standard, adic media
ptratelor abaterilor numerelor de la media lor.
Dispersia unei variabile aleatoare X, notat Var(X), este valoarea ateptat a
diferenei ptrate dintre variabil valoarea ei ateptat:
Var(X) = Exp((X E(X))
2
).
Dispersia unei variabile aleatoare este ptratul erorii standard (SE) a variabilei .

Dispersie de sondaj (Sample Variance)
Dispersia de sondaj s
2
este un estimator al dispersiei populaiei, bazat pe un
eantion aleatoriu.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de
sondaj. Presupunnd c exist n elemente n eantion, cu valorile {x
1
, x
2
, . . .
, x
n
}, avnd media M = (x
1
+ x
2
+ . . . +x
n
)/n, atunci
s
2
= [(x
1
- M)
2
+ (x
2
- M)
2
+ . . . + (x
n
- M)
2
]/(n-1)
Se observ c este ptratul abaterii standard de sondaj, s. Dispersia de sondaj
este un estimator nedeplasat al dispersiei populaiei.

Distribuia _
2
(Chi-square distribution)
O v.a. continu X este repartizat _
2
dac are ca funcie de repartiie
, pentru x>0 i F(x) = 0, n rest
n care f este funcia _
2
.
O v.a. repartizat _
2
are valoarea ateptat (media) egal cu v i dispersia egal
cu 2v. De regul, o v.a. repartizat _
2
este notat cu simbolul _
2
.
Dac Z
1
, Z
2
, , Z
v
sunt v.a. independente repartizate normal standard, N(0;1),
atunci suma ptratelor lor este o v.a. repartizat _
2
cu v grade de libertate.

Distribuia cumulativ de probabilitate (Cumulative Probability Distribution
Function cdf)
Este o alt denumire a funciei de repartiie

Distribuia de probabilitate comun (Joint Probability Distribution)
Dac X
1
, X
2
, . . . , X
k
sunt v.a., distribuia comun de probabilitate d
probabilitatea evenimentelor determinate de mulimea v.a. considerate, n
sensul c pentru orice colecie de mulimi numerice {A
1
, . . . , A
k
}, distribuia
comun determin
P( (X
1
e A
1
) i (X
2
e A
2
) i . . . i (X
k
e A
k
) ).

Distribuia geometric (Geometric Distribution)
Distribuia geometric descrie numrul de ncercri efectuate pn la obinerea
unui succes, inclusiv ncercarea succes, ncercrile fiind independente i avnd
aceeai probabilitate de succes. Distribuia geometric depinde doar de un
parametru, p, probabilitatea unui succes i atribuie probabilitatea p(1 - p)
k
1
evenimentului care necesit k ncercri pn la primul succes.
Valoarea ateptat este 1/p, eroarea standard a distribuiei fiind (1-p)

/p.

Distribuie (Distribution)
Termenul distribuie se poate referi la o mulime de date observate (empirice)
sau la o v.a. Distribuia unei mulimi de date numerice arat cum se
repartizeaz aceste date peste mulimea numerelor reale. Distribuia este
caracterizat complet de funcia de distribuie (repartiie) empiric. Distribuia
de probabilitate a unei v.a. este, n mod similar, caracterizat complet de funcia
de repartiie a v.a.

Distribuie strmb (Skewed Distribution)
O distribuie care nu este simetric. Vezi i indice de asimetrie.

Distribuie aproape normal (Nearly normal distribution).
O mulime de valori (realizri ale unei v.a.) se spune c are o distribuie
aproape normal dac histograma valorilor n uniti abateri standard urmeaz o
curb normal. Mai precis, s presupunem c media este i abaterea standard
este o. Atunci numerele sunt repartizate aproape normal dac, pentru
orice a < b, proporia numerelor dintre a i b este aproximativ egal cu aria de
sub curba normal delimitat de (a - )/o i (b - )/o.

Distribuie bimodal (Bimodal)
O distribuie care are dou valori mod.

Distribuie binomial (Binomial Distribution)
O variabil aleatoare are o distribuie binomial cu parametrii n i p, notat
uneori Bi(n,p), dac reprezint numrul de "succese" ntr-un numr fixat n de
ncercri aleatorii independente, fiecare ncercare avnd aceeai
probabilitate p de a produce un "succes". n acest caz, probabilitatea apariiei
a k succese (i deci a n-k insuccese) este
.
Valoarea medie (ateptat) a unei variabile aleatoare distribuit binomial
este np, iar abaterea standard este (np(1 - p))

.

Distribuie binomial negativ (Negative Binomial Distribution)
Fie o secven de ncercri independente cu aceeai probabilitate de succes p n
fiecare ncercare. Numrul de ncercri efectuate pn se obin r succese are o o
distribuie binomial negativ cu parametrii n i r. Notnd numrul menionat
de ncercri cu N, are loc

pentru k = r, r+1, r+2, . . . i zero pentru k < r.

Distribuie de frecvene (Frequency Distribution)
Fie o variabil discret care are (grupate sau nu) k nivele sau o variabil
continu care este prezentat grupat n k intervale. Se numete distribuie de
frecvene ansamblul {f
1
, f
2
, , f
k
}, unde f
i
noteaz numrul de observaii din
nivelul k, sau din intervalul k (frecvena absolut a clasei k).
Dac frecvenele sunt exprimate relativ, ca raport f
i
/ n, n fiind volumul
eantionului, atunci se vorbete de o distribuie de frecvene relative.
Pentru o variabil continu, frecvenele pot fi cumulate (absolute sau relative),
frecvena cumulat a unui interval reprezentnd suma frecvenelor (absolute
sau relative) pentru toate intervalele anterioare (inclusiv intervalul curent).
O distribuie de frecvene se prezint sub form tabelar sau sub form grafic
de histogram sau de poligon de frecvene.

Distribuie de probabilitate (Probability Distribution)
Distribuia de probabilitate a unei v.a specific, n general, probabilitile cu
care v.a. ia valori n orice submulime de numere reale.
Pentru o v.a. discret, distribuia de probabilitate poate specificat preciznd
probabilitile cu care v.a. ia valorile posibile. Pentru v.a. continue, distribuia
de probabilitate poate fi caracterizat prin densitatea de probabilitate.

Distribuie de sondaj (Sampling distribution)
Distribuia de sondaj a unui estimator este distribuia de probabilitate a
valorilor estimatorului calculate pentru toate eantioanele de acelai volum.
De exemplu, pentru a obine distribuia de sondaj a mediei, se vor considera
toate eantioanele de acelai volum n, se va calcula media fiecrui eantion i
se determin distribuia de probabilitate a valorilor astfel obinute.
Dac variabila studiat are o repartiie normal N(,o
2
), sau dac n este mai
mare dect 30, distribuia de sondaj este normal,
.
Distribuia de sondaj are un rol important n statistica inferenial.

Distribuie F (F Distribution)
Funcia de repartiie F (FisherSnedecor) are ca densitate de probabilitate curba
F. Funciile acestei clase de repartiii teoretice sunt difereniate de doi
parametri, v
1
i v
2
, numii grade de libertate. Din aceast cauz se utilizeaz
notaia F(v
1
,v
2
).
Pentru o v.a. X repartizat F(v
1
,v
2
) se demonstreaz c


ntre quantilele distribuiei exist relaia:
.
Repartiia F este utilizat pentru testarea ipotezelor n care se compar dou
dispersii.
Ca rezultat important menionm:

Dac X
1
i X
2
sunt dou v.a. repartizate _
2
cu v
1
i, respectiv, v
2
grade de
libertate, atunci v.a. X definit prin

este repartizat F(v
1
,v
2
).

Teorema arat c raportul a dou dispersii de sondaj dintr-o populaie normal
are o repartiie F i de aici provine denumirile uzuale: v
1
gradele de libertate
ale numrtorului i, respectiv, v
2
gradele de libertate ale numitorului.
Alt rezultat important este:

Dac v.a. T este repartizat Student cu v grade de libertate, atunci X = T
2
este
repartizat F(1;v).

Distribuie _
2
(Chi Square Distribution)
Funcia de repartiie_
2
are ca densitate de probabilitate funcia avnd drept
grafic curba _
2
. Funciile acestei clase de repartiii sunt difereniate de un
parametru numit grade de libertate, v.
Media unei v.a. repartizat _
2
este v, valoarea mod este v2, mediana este
aproximativ v0,7.
Distribuia _
2
este utilizat direct sau indirect n teste de semnificaie.

Distribuie hipergeometric (Hypergeometric Distribution)
Distribuia hipergeometric cu parametrii N, G i n este distribuia obiectelor
"bune" ntr-un sondaj aleator simplu (fr repunere) de volum n, dintr-o
populaie de N obiecte dintre care G sunt "bune". Probabilitatea asignat
obinerii a exact g obiecte bune ntr-un eantion este
,
unde g s n, g s G i n - g s N - G (probabilitatea este zero n caz contrar).
Valoarea ateptat este nG/N iar eroarea standard este
((N-n)/(N-1))

(n G/N (1-G/N) )

.

Distribuie multimodal (Multimodal Distribution)
O distribuie cu mai mult de o valoare mod. Histograma unei distribuii
multimodale are mai multe vrfuri.

Distribuie multinomial (Multinomial Distribution)
Fie o secven de ncercri independente, fiecare avnd un rezultat care aparine
unei categorii din k posibile. Fie p
j
probabilitatea ca fiecare ncercare s
produc o ieire din categoria j, j = 1, 2, . . . , k, deci
p
1
+ p
2
+ . . . + p
k
= 1.
Numrul de ieiri de fiecare tip are o distribuie multinomial. n particular,
probabilitatea ca n n ncercri s apar n
1
rezultate de tip 1, n
2
rezultate de tip
2, , n
k
rezultate de tip k este
n!/(n
1
! n
2
! . . . n
k
!) p
1
n
1
p
2
n
2
. . . p
k
n
k
,
unde n
1
, . . . , n
k
sunt ntregi nenegativi cu suma n; probabilitatea este zero n
rest.

Distribuie normal (Normal distribution)
Prin definiie, o v.a. X are o repartiie normal cu parametrii i o dac
densitatea sa de probabilitate este
.
Se demonstreaz c i o
2
este media, respectiv dispersia, v.a. X. Conform
definiiei funciei de repartiie,

i se poate demonstra c pentru orice a s b, probabilitatea ca a < (X-m)/s
< b este
P(a < (X-m)/s < b) =
= aria de sub curba normal standard delimitat de x = a i x = b
formul care permite calcularea probabilitilor asociate cu repartiia normal
doar cunoscnd probabilitile asociate repartiiei normale standard.
Notaie uzual este X~N(,o
2
). Pentru distribuia normal standard se obine
X~N(0,1).

Distribuie Poisson (Poisson Distribution)
Distribuia Poisson este o distribuie de probabilitate discret care depinde de
un parametru, m. Dac X este o v.a. avnd distribuia Poisson cu parametrul m,
atunci
P(X = k) =e
-m
m
k
/k!, k = 0, 1, 2, . . . ,
i 0 pentru alte valori ale lui k.
Valoarea medie (ateptat) a distribuiei Poisson este m (valoarea
parametrului), iar abaterea standard este m

.

Distribuie simetric (Symmetric Distribution)
Distribuia de probabilitate a variabilei aleatoare X este simetric dac exist un
numr a astfel nct ansa ca X>=a+b este aceeai cu ansa ca X<=a-b pentru
orice valoare b. O list de numere are o distribuie simetric dac exist un
numr a astfel nct procentajul numerelor din list care sunt mai mari sau
egale cu a+b este acelai cu procentajul numerelor din list care sunt mai mici
sau egale cua-b, pentru orice numr b. n ambele cazuri, histograma sau curba
de probabilitate este simetric fa de dreapta x=a.

Distribuie Student, t (Student's t distribution)
Distribuia Student, notat S(v) sau t
v
, este utilizat, de regul, n verificarea
ipotezelor statistice pe baza rezultatelor obinute n eantioane de volum
redus, n s 30, sau atunci cnd aproximarea cu o repartiie normal este
nesatisfctoare.
Parametrul v al repartiiei poart denumirea de grade de libertate i poate lua
valorile 1, 2, . Prin definiie, densitatea de probabilitate a repartiiei Student
este
.

O v.a. repartizat Student cu v grade de libertate are media egal cu zero i
dispersia v / (v2), pentru v > 2.
Pentru v > 30, se poate aproxima repartiia Student prin repartiia normal
standard N(0;1).

Distribuie uniform (Uniform Distribution)
Este aceea n care probabilitatea de apariie a oricrei valori este aceeai
(constant), rezultatele sunt egal probabile. Histograma conine n acest caz
dreptunghiuri de nlimi egale, motiv pentru care distribuia uniform mai este
denumit dreptunghiular (rectangular).

Domeniu (Range)
Vezi amplitudine.

Dublu orb, Experiment dublu orb (Double-Blind, Double-Blind Experiment)
ntr-un experiment dublu orb, nici subiecii i nici cei care evalueaz subiecii
nu tiu cine este n grupul experimental i cine n grupul de control.

E
Efect de transport (Carryover Effect)
Apare n planurile experimentale intra-subieci (fiecare subiect este evaluat la
fiecare nivel al factorului) i se datoreaz faptului c evaluarea unui subiect la
un nivel al factorului este influenat de faptul c subiectul a fost evaluat la
nivele anterioare. De exemplu, fornd situaia de dragul exemplificrii, un
acelai copil nu poate fi nvat s citeasc prin dou metode diferite (dup
prima metod el tie deja s citeasc).
Dac efectele de transport sunt importante, atunci se va renuna la planul
intra-subieci n favoarea unui plan experimental ntre-subieci (la fiecare nivel
al factorului se consider un alt grup de subieci).

Efect placebo (Placebo effect)
Credina subiectului sau cunoaterea de ctre acesta a faptului c este tratat
poate s aib un efect care se confund cu efectul real al unui tratament. Astfel,
subiecii crora li se administreaz un placebo contro durerilor raporteaz o
reducere semnificativ statistic a durerii ntr-un experiment randomizat n care
se compar cu subieci care nu primesc nici un tratament. Acest efect
psihologic, care nu este un efect biochimoc direct este numit efect placebo.
Vezi i experiment orb.

Efect principal (Main Effect)
ntr-un experiment factorial, efectul principal al unui factor evideniaz
influena factorului asupra variabilei dependente. Efectul principal se apreciaz
direct prin compararea mediilor calculate separat pentru fiecare nivel al
factorului, medierea fiind efectuat dup toate nivelele celorlali factori.
n analiza dispersional se testeaz semnificaia fiecrui efect principal al
factorilor considerai.
Vezi i efect simplu.

Efect simplu (Simple Effect)
Prin efect simplu se nelege efectul unui factor considernd un singur nivel al
unui alt factor. De regul, evidenierea efectelor simple urmeaz stabilirii
interaciunii factorilor i urmrete stabilirea acelor nivele ale celui de al doilea
factor la care factorul considerat are efect.

Efectul tratamentului (Treatment Effect)
Este efectul pe care tratamentul l are asupra comportrii unei variabile de
interes.

Eficien (Efficiency)
Eficiena unei statistici reprezint gradul n care statistica rmne stabil la
schimbarea eantionului (fluctuaia de sondaj este mai mic). Deoarece este
dificil de definit i de estimat eficiena unei statistici, se utilizeaz doar sub
forma de eficien relativ: se spune c o statistic A este mai eficient dect o
statistic B dac eroarea standard a lui A este mai mic dect eroarea standard a
lui B. Eficiena relativ poate s depind de distribuia datelor: media este mai
eficient dect mediana pentru date normal repartizate, dar are o eficien mai
mic pentru date cu asimetrie pronunat.

Eroare aleatoare (Random Error)
Toate msurtorile sunt afectate de erori. Acestea se pot clasifica n erori
sistematice (bias) care afecteaz toate msurtorile n acelai mod i erori
aleatorii specifice fiecrei msurtori. Se presupune c acestea sunt
repartizate cu media zero i se datoreaz unor cauze multiple neconsiderate n
cercetare.

Eroare de sondaj (Sampling error)
n estimarea bazat pe un eantion aleator, diferena dintre valoarea
estimatorului i parametrul estimat poate fi scris ca suma a dou componente:
deplasarea (biais) i eroarea de sondaj. Deplasarea este eroarea medie a
estimatorului, calculat dup toate eantioanele posibile, i nu este o cantitate
aleatorie (este eroarea sistematic a msurtorilor). Eroarea de sondaj este acea
component a erorii care variaz de la eantion la eantion i are un caracter
aleatoriu: depinde de norocul extragerii anumitor elemente la formarea
eantionului. Poate fi privit ca variaia datorat ansei.
Media, valoarea ateptat a erorilor de sondaj este egal cu zero.
Eroarea standard a estimatorului este o msur a mrimii tipice a erorii de
sondaj.

Eroare ptrat medie (Mean Squared Error MSE)
Eroarea medie ptratic a unui estimator X al unui parametru p este valoarea
ateptat a ptratului diferenei dintre valoarea estimatorului i parametru:
MSE(X) = Exp( (X-p)
2
).
MSE msoar ct de departe este estimatorul de cea ce ncearc s estimeze, ca
medie n experimente repetate. Indicatorul combin tendina estimatorului de a
sub- sau supraaprecia valoarea adevrat (bias) i variabilitatea estimatorului
(SE, eroarea standard). Poate fi scris ca:
MSE(X) = (bias(X))
2
+ (SE(X))
2
.

Eroare sistematic (Systematic error)
O eroare care afecteaz toate msurtorile n mod similar. De exemplu, dac
gradaiile unei rigle sunt mai mici (10cm de pe rigl sunt mai mici dect
valoarea real pentru 10cm), orice distan apare ca fiind mai mare (ignornd
erorile aleatorii). Erorile sistematice nu au tendina de a avea media egal cu
zero.

Eroare standard (Standard Error SE)
Eroarea standard a unei variabile aleatoare este o msur a deprtrii de
valoarea ateptat, adic a mprtierii n experimente repetate.
SE(X) = {Exp [ (X - Exp (X))
2
] }

.
Definiia este similar definiiei abaterii standard.

Eroare standard (Standard Error)
Prin eroare standard se nelege abaterea standard a valorilor unei funcii fixate,
valori obinute pentru toate eantioanele posibile de un acelai volum.

Eroarea rdcinii medie ptrat (Root-mean-square error RMSE)
Dac X este un estimator al parametrului p, atunci RMSE(X) este rdcina
ptrat a erorii medii ptrate a estimatorului:
RMSE(X) = ( Exp( (X-p)
2
) )

.
Este o msur a erorii ateptate a estimatorului.

Erori de tipul I i de tipul II (Type I and Type II errors)
Se refer la testarea ipotezelor. O eroare de tip I apare atunci cnd ipoteza nul
este respins n mod eronat (ea fiind adevrat). O eroare de tip II se refer la
situaia cnd ipoteza nul nu este respins dei ea este fals.
Riscul apariiei unei erori de tip I este egal cu nivelul de semnificaie, o.
Riscul unei erori de tip II se noteaz cu |, diferena 1| constituind puterea
testului.
Este de notat c nu este posibil s se minimizeze simultan cele dou riscuri.

Eantioane independente (Independent Samples)
Eantioane independente sunt acelea n care probabilitatea ca un element s fie
selectat nu depinde de faptul c un alt element a fost deja selectat n cellalt
eantion. Nu exist nici o corelare ntre elementele celor dou eantioane.

Eantioane perechi (Matched Samples)
Dou eantioane n care elementele sunt clar perechi (de exemplu msurtori
efectuate pe perechi de gemeni identici), sau n care elementele unui eantion
sunt selectate pentru a se potrivi elementelor celuilalt eantion.
O situaie special este atunci cnd acelai eantion este evaluat nainte i dup
o aciune suplimentar (aceieai atlei evaluai nainte i dup o curs), aici
perechea find msurtorile efectuate pe acelai element.
Se mai utilizeaz denumirea de eantioane corelate sau dependente.

Eantion (Sample)
Prin eantion se nelege o colecie (submulime) de elemente din populaie.

Eantion aleator (Random Sample)
Un eantion aleatoriu este un eantion ale crui elemente sunt selectate
aleatoriu dintr-o populaie dat n aa fel nct ansa obinerii oricrui eantion
particular poate fi calculat.
Numrul de elemente din eantion se numete volumul eantionului.
Un eantion aleatoriu poate fi obinut cu sau fr repunerea elementului selectat
ntre extrageri.

Eantion aleator simplu (Simple Random Sample)
Un sondaj aleatoriu simplu de n uniti dintr-o populaie const n extragerea
elementelor eantionului printr-o procedur care asigur aceeai probabilitate
de selecie pentru orice submulime de nuniti a populaiei. Eantionul astfel
obinut se numete aleator simplu. Probabilitatea ca eantionul s fie o anumit
submulime de cardinal n este atunci

Un sondaj aleatoriu simplu este un sondaj fr repunere (un element selectat nu
mai poate fi ales a doua oar). De exemplu, o procedur de selectare a unui
eantion de volum n dintr-o populaie cu N>= n uniti poate fi obinut prin
asignarea unui numr aleatoriu ntre zero i unu la fiecare unitate a populaiei i
reinerea acelor uniti care corespund la cele mai mari n numere.

Eantion de convenien (Convenience Sample)
Un eantion format datorit uurinei de a-l obine. De exemplu, pentru a afla
opinia studenilor intervievm studenii unei grupe. Un asemenea eantion,
nefiind aleatoriu, nu este, de regul, reprezentativ pentru ntreaga populaie (i
nici nu se poate spune ct de nereprezentativ este).

Eantion de tip Cluster (Cluster Sample)
ntr-o eantionare de tip cluster, unitatea de eantionare este o colecie de
elemente ale populaiei (blocuri) i nu un element al populaiei. De exemplu,
ntr-un studiu sociologic, se ncepe prin a extragerea unor blocuri difereniate
geografic.

Eantion probabilist (Probability Sample)
Eantion obinut printr-un mecanism aleatoriu, astfel nct fiecare element al
populaiei are o ans cunoscut de a fi selectat.

Eantion sistematic (Systematic sample)
Un eantion sistematic se obine prin numerotarea elementelor mulimii
unitilor de selecie i extragerea fiecrui al k-lea element. Eantioanele
sistematice nu sunt aleatorii, dar dac ordinea n care se face numerotarea este
sistematic, atunci eantioanelor sunt ca i cum ar fi aleatorii.

Eantion stratificat (Stratified Sample)
Un eantion obinut n urma unui sondaj stratificat.

Estimaie (Estimation)
Prin estimaie a unui parametru se nelege o valoare care aproximeaz valoarea
parametrului. De regul, estimaia este valoarea, obinut dintr-un eantion, a
unui estimator. De exemplu, o estimaie a mediei populaiei se obine utiliznd
media aritmetic (estimatorul) i calculnd-o pe baza datelor unui eantion.
Sunt utilizate dou tipuri de estimaii: estimaii punctuale i estimaii sub form
de interval. De exemplu, a spune c astzi sunt 15
o
C este o estimaie punctual,
n timp ce a spune c astzi sunt ntre 12
o
C i 18
o
C este o estimaie de interval.
A se vedea i interval de ncredere.

Estimaie bootstrap (Bootstrap estimate)
Ideea metodelor bootstrap este aceea de a presupune, n scopul estimrii, c
eantionul este populaia cercetat.i de a utiliza eroarea standard de sondaj din
eantion ca estimaie a erorii standard de sondaj pentru populaie.

Estimaie de verosimilitate maxim (Maximum Likelihood Estimate MLE)
Estimaia de verosimilitate maxim a unui parametru, obinut dintr-o mulime
de date observate, este acea valoare posibil a parametrului pentru care
probabilitatea de a observa datele efectiv observate este maxim. Presupunnd
c parametrul este p i c observm datele x, estimaia de verosimilitate
maxim a lui p este q care maximizeaz P(a observa x atunci cnd valoarea
lui p este q).
De exemplu, presupunem c se dorete estimarea ansei ca aruncnd o moned
s obinem pajura (o faet fixat). Datele disponibile sunt numrul x de ori
de apariie a pajurei n n aruncri independente. Cum distribuia implicat
este binomial cu parametrii n (cunoscut) i p (necunoscut). Probabilitatea de
a observa x pajure n n ncercri este, notnd cu q ansa unui succes,
q
x
(1-q)
n-x
.
Estimaia de verosimilitate maxim a lui p este acea valoare a lui q care
maximizeaz aceast probabilitate. Se obine q = x/n, adic proporia de apariii
a faetei dorite n cele n aruncri.

Estimator (Estimator)
Un estimator este o regul de ghicire, pe baza datelor dintr-un eantion aleator,
a valorii unui parametru al populaiei. n general, o statistic este utilizat ca
estimator. Estimatorul este o variabil aleatoare tocmai pentru c valoarea lui
depinde de eantionul obinut n mod aleatoriu. Un exemplu este media
eantionului, care estimeaz media populaiei.
Cele trei caracteristici importante ale unui estimator sunt deplasarea (bias),
consistena i eficiena relativ.

Eveniment (Event)
Un eveniment este o submulime a spaiului ieirilor. Un eveniment determinat
de o v.a. este de forma A=(X e A). Atunci cnd v.a. X este observat, se
interpreteaz c evenimentul A s-a realizat dac X e A i c A nu s-a
realizat dac X e A.
O colecie de evenimente {A
1
, A
2
, A
3
, . . . } este exhaustiv dac se realizeaz
ntotdeauna cel puin un eveniment din colecie
S = A
1
U A
2
U A
3
U . . .
unde S este spaiul ieirilor.

Eveniment aleator (Random Event)
Vezi experiment aleator.

Eveniment sigur (Certain Event)
Un eveniment sigur este un eveniment a crui probabilitate este egal cu 1.
Trebuie totui avut n vedere c se poate ca un eveniment sigur s nu se
produc, dei ansa de a nu se produce este 0.

Evenimente dependente (Dependent Events)
Dou evenimente sunt dependente dac ele nu sunt independente.

Evenimente disjuncte sau mutual exclusive (Disjoint or Mutually Exclusive Events)
Dou evenimente sunt disjuncte dac apariia unuia dintre ele exclude apariia
celuilalt (cele dou evenimente nu pot s apar simultan). Dou evenimente
disjuncte sunt incompatibile.

Evenimente incompatibile
Dac AB = C, atunci ele sunt incompatibile. Vezi evenimente disjuncte.

Evenimente independente (Independent events)
Dac P(A|B) = P(A), adic P(AB)=P(A)P(B), atunci evenimentele se numesc
independente (probabilitatea de realizare a lui A nu este modificat de
realizarea lui B).

Experiment (Experiment)
Distincia dintre un experiment i un studiu observaional este aceea c n
primul caz experimentatorul decide cine este supus unui tratament.

Experiment aleator (Random Experiment)
Un experiment sau o ncercare al crui rezultat nu este perfect predictibil, dar
pentru care frecvenele relative ale rezultatelor ntr-un numr mare de repetri
sunt predictibile. De notat c aleatoriu este diferit de haotic, care nu
implic n mod necesar regularitate pe termen lung.

Experiment controlat (Controlled experiment)
Un experiment care utilizeaz compararea dintre un grup experimental (supus
unui tratament) i un grup de control (nesupus tratamentului).

Experiment controlat randomizat (Randomized Controlled Experiment)
Este un experiment n care asignarea indivizilor la grupul de control i la grupul
experimental se realizeaz aleatoriu. n acest mod se reduce ansa de
confundare a efectului tratamentului efectuat cu efectul altor factori.

Experiment necontrolat (Uncontrolled Experiment)
Un experiment n care nu exist grup de control, deci nu se utilizeaz o metod
de comparare pentru a decide asupra rezultatului unui tratament.
Experimentatorul interpreteaz i apreciaz rezultatele obinute.

F
Factor (Factor)
Denumirea de factor este utilizat ca alternativ, cu ncrctura de neles
proprie totui, la denumirea de variabil independent. Se poate astfel vorbi de
experimente unifactoriale, bifactoriale, multifactoriale, dup numrul de factori
(variabile independente) considerai pentru explicarea unui anumit efect
(variabil dependent).
Pot fi considerai factori inter-subieci (between-subjects factors) n cazul n
care grupuri diferite de subieci sunt utilizate pentru fiecare nivel al factorului,
sau factori intra-subieci (within-subjects factors) n cazul n care acelai grup
de subieci este utilizat pentru fiecare nivel al factorului. Evident c se pot
utiliza i denumirile variabil inter-subieci sau variabil intra-subieci.

Funcia de repartiie (Distribution Function)
Funcia de repartiie a unei variabile aleatoare este definit prin
F(x) = P( X <= x), oricare ar fi x real.
Funcia de repartiie, calculat pentru x, msoar ansa ca v.a. X ia valori mai
mici sau egale cu x. Rezult imediat c limita la - este 0, iar limita la + este
1.
Cunoaterea funciei de repartiie a unei v.a. permite calcularea probabilitilor
cu care v.a. ia valori n anumite intervale.

Funcie de densitate de probabilitate (Probability density function)
Pentru o v.a. continu, numim densitate de probabilitate acea funcie (dac
exist), f, astfel nct funcia de repartiie se poate calcula prin relaia

Funcia de repartiie este, n acest caz, absolut continu.
Funcia densitate de probabilitate permite calculul probabilitii ca v.a. s
aparin unui interval:
P(a<= X <=b) = (aria de sub graficul lui f limitat de a i b), unde a <= b,

Funcie de distribuie empiric (Distribution Function, Empirical)
Funcia (cumulativ) de distribuie empiric a unui set de valori numerice este
definit, pentru orice valoare real x, ca proporia de observaii mai mici sau
egale cu x. Diagrama unei astfel de funcii este un grafic de tip scar, n care
limea unei trepte depinde de distana dintre date consecutive, iar nlimea
depinde de numrul de valori egale cu x. Funcia este monoton i are limita 0
spre - i 1 spre +.

G
Grade de libertate (degrees of freedom, d.f.)
n general, prin numr de grade de libertate al unei mrimi se nelege numrul
variabilelor independente a cror variaie nu sufer nici o restricie i care
definesc mrimea considerat. Altfel spus, numrul gradelor de libertate este
egal cu numrul variabilelor independente, care definesc mrimea considerat,
minus numrul de restricii la care sunt supuse.
De exemplu, media aritmetic a n numere are n-1 grade de libertate, deoarece
pentru a obine o valoare impus se pot alege arbitrar n-1 valori, a n-a valoare
fiind n acel moment fixat de restricia ca valoarea mediei s fie egal cu
valoarea impus (altfel spus, n valori i o restricie, deci v = n-1).
Un alt punct de vedere este acela c numrul gradelor de libertate este egal cu
numrul valorilor independente care sunt necesare estimrii minus numrul
parametrilor estimai n pai anteriori: de exemplu, pentru estimarea dispersiei
se consider cele n valori, dar este necesar estimarea prealabil a mediei,
deci n-1 grade de libertate.

Graficul mediilor (Graph of Averages)
Pentru date bivariate, un grafic al mediilor este diagrama valorilor medii ale
unei variabile, fie ea y, obinute pentru intervale de valori ale celeilalte
variabile, fie ea x, n raport de mijloacele intervalelor xconsiderate. Intuitiv, are
loc o netezire a valorilor y pe intervale x, valorile obinute fiind reprezentate la
abscisele mijloacelor intervalelor x respective.

Grup de control (Control group)
Este, ntr-un experiment controlat, mulimea subiecilor care nu sunt supui
tratamentului. Rezultatele se vor compara cu cele din grupul experimental
pentru a decide asupra efectului tratamentului.

Grup de tratament (Treatment group)
Este format din elementele care primesc (urmeaz) tratamentul, n opoziie cu
cele din grupul de control. Diferenele observate ntre cele dou grupuri
evideniaz efectul tratamentului.

H
Heteroscedasticitate (Heteroscedasticity)
La date bivariate, variabila y prezint heteroscedasticitate dac mprtierea
valorilor y depinde de x. Grafic, seciunile verticale n diagrama de mprtiere
prezint distribuii diferite ale norilor de puncte. Noiunea contrar este cea
de homoscedasticitate.

Histogram (Histogram)
O histogram este o diagram care rezum distribuia datelor. Pornind de la o
mprire n intervale de clase, histograma este o mulime de dreptunghiuri
avnd ca baze intervalele de clase i ariile proporionale cu numrul de
observaii aparinnd intervalelor de clas. Astfel, nlimea unui dreptunghi
este calculat ca raportul dintre numrul de observaii din intervalul de clas i
lungimea respectivului interval. Axa vertical a unei histograme este astfel o
scal de densitate. n construcia unei histograme este important convenia
punctului extrem.

Histogram de probabilitate (Probability Histogram)
ntr-o histogram de probabilitate se reprezint grafic probabilitile cu care
v.a. aparine la intervalele de grupare (n loc de frecvenele relative se utilizeaz
probabilitile).

Homoscedasticitate (Homoscedasticity)
La date bivariate, variabila y prezint homoscedasticitate dac mprtierea
valorilor y nu depinde de x. Grafic, seciunile verticale n diagrama de
mprtiere prezint distribuii similare ale norilor de puncte. Noiunea contrar
este cea de heteroscedasticitate.

I
Iluzia regresiei (Regression Fallacy)
Este atribuirea efectului regresiei unei cauze externe.

Independen (Independence)
Dou evenimente A i B sunt independente statistic dac P(AB) = P(A)P(B).
Aceasta este echivalent cu a spune c apariia unui eveniment nu d nici o
informaie despre realizarea celuilalt eveniment: P(A|B) = P(A).
Dou v.a. X i Y sunt independente dac toate evenimentele determinate de
acestea sunt independente (de exemplu, evenimentul {a < X <= b} este
independent de {c < Y <= d} pentru orice a, b, ci d. Cu alte cuvinte valoarea
luat de o variabil nu ofer nici o informaie despre valoarea luat de cealalt
variabil.
O colecie de mai mult de dou v.a. este independent dac pentru orice
submulime proprie de v.a. orice eveniment determinat de variabilele din
submulime este independent de orice eveniment determinat de variabilele din
mulimea complementar.
Dou sau mai multe v.a. {X
1
, X
2
, . . . , } sunt independente i identic
distribuite dac variabilele au aceeai distribuie de probabilitate i sunt
independente.
Dou observaii sunt independente dac obinerea primei observaii nu
influeneaz obinerea celeilalte observaii. Echivalent, includerea n eantion a
unui element nu influeneaz includerea altui element.
Dou statistici sunt independente dac sunt calculate din eantioane
independente (sunt formate din observaii independente). Este evident c
aceast precizare completeaz definiia dat la independena v.a.

Inegalitatea Chebychev (Chebychev's Inequality)
Pentru liste: Pentru orice k>0, proporia elementelor listei care difer de media
aritmetic cu cel puin k abateri standard este cel mult 1/k
2
.
Pentru v.a.: Pentru orice k>0, probabilitatea ca o v.a. X s difere cu cel
puin k erori standard de valoarea ateptat este cel mult 1/k
2
.

Inegalitatea lui Markov (Markov's Inequality)
Pentru serii numerice nenegative: procentajul de numere care sunt cel puin
egale cu o constant a>0 nu este mai mare dect media aritmetic divizat
prin a.
Pentru v.a.: dac X este o v.a. nenegativ, atunci P(X>= a) <= Exp(X)/a, a>0.

Indice de aplatizare (Kurtosis)
Mai este denumit coeficient de boltire. mpreun cu indicele de asimetrie, face
parte din indicii de apreciere a formei unei distribuii. Un indice de aplatizare
mare arat o repartiie cu cozi mari (sunt prezente categorii deprtate de
medie), n timp ce un indice de aplatizare mic arat o repartiie n care sunt
prezente mai puine categorii deprtate de medie.
Formula de calcul este bazat pe momentul centrat de ordinul 4:

unde s
2
este dispersia de sondaj.
n cazul unei repartiii apropiate de repartiia normal, coeficientul de aplatizare
este n jurul valorii 3 (teoretic, repartiia normal are indicele de
aplatizare |
2
= 3, b
2
fiind o estimaie a lui |
2
). Pe baza acestui rezultat
se definete excesul ca fiind
E = b
2
3. Pentru E > 0, repartiia se numete leptocurtic, iar pentru E < 0, se
numete platicurtic. Dac E = 0, repartiia este mezocurtic.
La aproximarea prin repartiia normal, probabilitile laterale reale vor fi mai
mari dect cele aproximate n cazul unei repartiii platicurtice i vor fi mai mici
n cazul unei repartiii leptocurtice. Aproximarea este cu att mai bun cu ct
excesul de sondaj este mai apropiat de 0.
Observaie. Unii autori numesc excesul ca fiind indicele de aplatizare.

Indice de asimetrie (Skewness)
Denumit i coeficientul de asimetrie, evalueaz gradul de asimetrie a unei
repartiii. Caracterizeaz, mpreun cu indicele de aplatizare, forma repartiiei
(ilustrat de reprezentarea grafic sub form de histogram). Definiia este
bazat pe momentul centrat de ordinul 3:

Indicele de asimetrie este negativ sau pozitiv dup cum repartiia de sondaj este
asimetric spre stnga sau, respectiv, spre dreapta. O distribuie simetric, cum
este distribuia normal, are asimetria nul, deci b
1
= 0.
n general, cu rare excepii provenite din realitate, o distribuie asimetric pozitiv
are media mai mare dect mediana, relaia inversndu-se pentru distribuiile cu
asimetrie negativ.


Unii autori consider drept coeficient de asimetrie (b
1
)
2
, valoarea obinut
caracteriznd gradul de asimetrie, dar nu i sensul asimetriei.

Interaciune (Interaction)
Exist interaciune ntre dou variabile independente dac efectul unei variabile
asupra variabilei dependente este diferit dup nivelul celeilalte variabile.
Lund ca exemplu un studiu n care se urmrete efectul consumului de alcool
i a oboselii (variabile independente) asupra timpului de reacie la un stimul
(variabila dependent), se poate intui c un consum mare de alcool are un efect
mai mare la un grad nalt de oboseal dect la un grad sczut de oboseal, prin
urmare exist interaciune ntre cele dou variabile.
Interaciunea poate fi detectat prin analiza dispersional (ANOVA) sau, grafic,
prin plotarea separat a liniilor/coloanelor unui tabel de contingen
poligoane paralele vor susine lipsa de interaciune.

Interval de clas (Class Interval)
Pentru rezumarea datelor continue (reprezentri grafice, calculul anumitor
statistici, raportare), este necesar uneori gruparea datelor. Aceasta se
realizeaz prin divizarea domeniului valorilor n intervale disjuncte, numite
intervale de clas (sau intervale de grupare), astfel nct fiecare valoare s fie
coninut ntr-un interval de clas. Vezi i convenia punctului extrem.

Interval de ncredere (Confidence Interval)
Un interval de ncredere pentru un parametru este un interval construit pe baza
datelor observate n aa fel nct probabilitatea ca valoarea adevrat a
parametrului s aparin intervalului de ncredere s poat fi fixat independent
de date (de regul, naintea culegerii datelor). Dac notm cu valoarea
parametrului i cu m
1
, m
2
limitele intervalului de ncredere, atunci
P(m
1
<<m
2
)=1-o,
unde o este pragul (nivelul) de ncredere al intervalului, iar 1-o se numete
sigurana statistic. Ca exprimare, se poate spune c (m
1
; m
2
) este intervalul de
ncredere a parametrului cu sigurana statistic 1-o sau la pragul de
ncredere o.
Dac m
1
sau m
2
sunt infinite, atunci intervalul de ncredere se mai numete
unilateral, n situaia contrar vorbindu-se de un interval de ncredere bilateral.

Interval de ncredere bazat pe repartiia normal
Dac pentru estimarea unui parametru se utilizeaz o statistic, notat stat,
normal distribuit, cu eroarea standard o
stat
cunoscut, atunci intervalul de
ncredere bilateral, la nivelul de ncredere, este
(stat - z
1-o/2
o
stat
, stat + z
1-o/2
o
stat
)
unde z
1-o/2
este quantila de ordin 1-o/2 a repartiiei normale standard.
Astfel, pentru media aritmetic a populaiei se obine intervalul
,
unde o este abaterea standard a populaiei, iar n este volumul eantionului de
unde s-a calculat media de sondaj.

Interval de ncredere bazat pe repartiia Student
Situaia uzual este aceea n care eroarea standard a statisticii este i ea estimat
din eantion. n acest caz, intervalul de ncredere devine
(stat - t
v;1-o/2
s
stat
, stat + t
v;1-o/2
s
stat
),
unde t
v;1-o/2
este quantila de ordin 1-o/2 a repartiiei Student cu v grade de
libertate (asociate statisticii), iar s
stat
este eroarea standard estimat a statisticii.
n cazul mediei aritmetice, intervalul de ncredere bilateral este astfel
,
unde s este abaterea standard de sondaj (estimaie a abaterii standard a
populaiei), iar n este volumul eantionului.

Interval semiinterquartil (Semi-interquartile Range)
Ca msur a mprtierii, intervalul semiinterquartil este definit ca jumtate din
diferena dintre quartila a patra i quartila a doua: Q = (Q
3
-Q
1
)/2.
Este raportat de regul mpreun cu mediana, acceptndu-se astfel c jumtate
dintre observaii sunt situate n intervalul (Me - Q; Me + Q), afirmaie care este
departe de realitate n cazul distribuiilor cu asimetrie pronunat.

Invarian, rezisten, stabilitate a unei statistici (Resistant)
O statistic se zice rezistent (stabil) dac prin modificarea (coruperea) unei
date statistica nu se modific prea mult. De exemplu, media nu este rezistent,
n timp ce mediana este.

Ipotez alternativ (Alternative Hypothesis)
n testarea ipotezelor statistice, o ipoteza nul (cu semnificaia tipic a lipsei
unui efect) este opus unei negaii a ei, ipoteza alternativ (semnificnd uzual
existena aparent a unui efect). Ipoteza nul constituie baza raionamentului
prin care se calculeaz probabilitatea de apariie a situaiei observate. Dac
aceast probabilitate este suficient de mic (prin comparaia cu un prag de
semnificaie fixat), atunci se spune c datele de sondaj nu susin ipoteza nul i
aceasta este respins n favoarea ipotezei alternative. Este de remarcat c
aceast decizie nu nseamn c situaia observat este caracteristic ipotezei
alternative, sau c ipoteza nul este fals, sau c ipoteze alternativ este
adevrat.

Ipotez nul (Null hypothesis)
n testarea ipotezelor statistice, prin ipoteza nul se nelege acea ipotez sub
care se poate preciza repartiia statisticii testului. Astfel, ipoteza nul este cea
falsificabil (pentru care se poate decide falsitatea, n sensul paradigmei
falsificabilitii din filosofia cercetrii tiinifice) pe baza datelor
experimentale. De regul, ipoteza nul exprim c nu este prezent ceva, c nu
exist nici un efect, c nu exist nici o diferen (de unde i motivaia istoric a
termenului de ipotez nul).

mprtiere (Spread)
Arat gradul de modificare a valorilor unei variabile de la o observaie la alta.
Ca termeni sinonimi sunt variana, variabilitatea, dispersia. Importana
aprecierii gradului de mprtiere este dat de nsi motivaia statisticii: pentru
o variabil constant nu este nevoie de statistic.
Pentru msurarea mprtierii se utilizeaz diferii indicatori statistici: IQV,
quantile, dispersia, abaterea standard etc.
Este de notat, totui, c nu exist o msur absolut a mprtierii, gradul de
mprtiere poate fi apreciat doar relativ, prin comparare.
Intuitiv, gradul de mprtiere a unei variabile poate fi apreciat prin asimilarea
histogramei cu o grmad de nisip, despre mprtierea creia ne formm
imediat o prere.

K
Kurtosis
Vezi indice de aplatizare.

L
Legea empiric a mediilor (Empirical Law of Averages)
Legea afirm c dac se repet un experiment aleatoriu, n mod independent i
n condiii identice, atunci proporia de ncercri cu un rezultat dat converge la
o limit interpretat ca probabilitate. Legea empiric a mediilor st la baza
teoriei probabilitilor ca frecvene i este mai degrab o presupunere asupra
funcionrii lumii reale, dect o lege matematic sau fizic.

Legea mediilor (Law of Averages)
Legea mediilor afirm c dac X
1
, X
2
, X
3
, . . . , sunt v.a. independente cu
aceeai distribuie de probabilitate, iar E(X) este valoarea ateptat comun,
atunci pentru orice e > 0,
P{|(X
1
+ X
2
+ . . . + X
n
)/n - E(X) | < e}
converge la 1 dup n. Echivalent, irul de medii de sondaj
X
1
, (X
1
+X
2
)/2, (X
1
+X
2
+X
3
)/3, . . .
converge n probabilitate ctre E(X).
n cuvinte, legea mediilor afirm c media observaiilor independente ale unor
v.a., care au aceeai distribuie de probabilitate, se apropie de valoarea ateptat
a v.a. pe msur ce crete numrul de observaii. Acesta este, de fapt,
fundamentul multor aplicaii statistice.

Legea numerelor mari (Law of Large Numbers)
Legea numerelor mari afirm c n ncercri repetate, independente i cu
aceeai probabilitate p de succes n fiecare ncercare se tinde ca procentajul
succeselor s fie egal cu p. Mai precis, ansa ca procentajul succeselor s difere
de probabilitatea p cu mai mult de un o cantitate fixat, e > 0, converge la zero
atunci cnd numrul de ncercri tinde la infinit, pentru orice e > 0. De notat c,
spre deosebire de diferena dintre procentajul succeselor i probabilitatea unui
succes, diferena dintre numrul de succese realizate i numrul ateptat de
succese, np, tinde s creasc pe msur ce ncrete.

Legea rdcinii ptrate (Square-Root Law)
Legea rdcinii ptrate afirm c eroarea standard (SE) a sumei de sondaj
a n extrageri aleatorii cu repunere dintr-o urn cu bilete numerotate este
SE(suma de sondaj) = n

SD(urn),
iar eroarea standard a mediei de sondaj a n extrageri aleatorii cu repunere
dintr-o urn cu bilete numerotate este
SE(media de sondaj) = n
-
SD(urn),
unde SD(urn) este abaterea standard a numerelor de pe biletele din urn
(incuznd valorile repetate)

Limit de clas (Class Boundary)
La date continue grupate pe intervale, o limit de clasa este extremitatea din
stnga a unui interval de clas i extremitatea din dreapta a intervalului
anterior.

Linia abaterilor standard (SD line)
ntr-o diagram de mprtiere, linia abaterilor standard este dreapta care trece
prin punctul avnd drept coordonate mediile celor dou variabile i care are
panta egal cu raportul abaterilor standard ale celor dou variabile.
Din ecuaia liniei abaterilor standard,

se poate vedea c un punct de coordonate (x,y) de pe dreapt este caracterizat
prin aceea c valorile x i y sunt egal deprtate n uniti abateri standard de
mediile corespunztoare.
Un punct situat deasupra liniei abaterilor standard este mai deprtat de media
variabilei y dect de media variabilei x, n uniti abateri standard.

Localizare, Msur de ~ (Location, Measure of)
O msur de localizare este o rezumare, printr-o singur valoare, a unei
distribuii i ofer informaii asupra locului unde sunt localizate valorile.
Vezi media, mediana, valoarea mod.

M
Marginea erorii (Margin of error)
O msur a incertitudinii din estimaia unui parametru, noiune neacceptat de
toi statisticienii i suficient de neclar. n mod tipic, atunci cnd este utilizat,
reprezint eroarea standard a estimaiei sau dublul acesteia.

Msur de mprtiere (Spread, Measure of)
Un indicator statistic pentru aprecierea gradului de mprtiere a unei variabile.
Cunoaterea gradului de mprtiere mrete puterea de predicie a
indicatorului de tendin central asociat. De exemplu, media are o putere de
predicie mai bun dac este asociat cu o abatere standard mic.
Fiecare tip de variabil are anumii indicatori de mprtiere adecvai. Pentru
variabilele nominale se utilizeaz IQV (indicele de variaie calitativ) sau
entropia, pentru variabilele ordinale se utilizeaz IQV sau un sistem de
quantile, iar pentru variabilele continue sunt utilizate amplitudinea, abaterea
standard, un sistem de quantile etc.

Media de sondaj (Sample Mean)
Este media aritmetic a unui eantion (aleatoriu) dintr-o populaie. Presupunnd
c exist n date, {x
1
, x
2
, . . . , x
n
}, media de sondaj este (x
1
+ x
2
+ . . . + x
n
)/n.
Ca statistic, este utilizat frecvent pentru estimarea mediei populaiei.
Valoarea ateptat a mediei de sondaj este media populaiei.
ntr-un sondaj cu repunere, abaterea standard a mediei de sondaj este egal

unde o este abaterea standard a populaiei iar n este volumul eantionului.
ntr-un sondaj fr repunere, abaterea standard a mediei de sondaj este egal cu

unde primul factor reprezint corecia de populaie finit, iar N este volumul
populaiei. Pentru , cele dou formule devin egale.

Media geometric (Geometric Mean)
Media geometric a n numere {x
1
, x
2
, x
3
, . . . , x
n
} este rdcina de ordin n a
produsului lor:
(x
1
x
2
x
3
. . . x
n
)
1/n
.
Dac numerele reprezint, de exemplu, ritmuri de cretere, atunci media
geometric exprim ritmul mediu de cretere.

Media populaiei (Population Mean)
Este media numerelor dintr-o populaie numeric. Aceast valoare este un
parametru al populaiei, spre deosebire de media calculat dintr-un eantion,
care este doar o estimaie a parametrului.

Media redus (Trimmed Mean)
Media redus se calculeaz prin eliminarea unui procentaj din valorile extreme,
sau a unui numr de valori extreme i calcularea mediei aritmetice pentru
valorile pstrate. n acest mod se obine o influen mai mic a valorilor
extreme, ca i o fluctuaie de sondaj mai mic n cazul distribuiilor asimetrice.
Pe de alt parte, n cazul distribuiilor simetrice, media redus este mai puin
eficient dect media aritmetic. Media redus poate fi o opiune bun atunci
cnd distribuia de sondaj conine valori aberante.
Cazuri particulare sunt mediana (media redus 100%) i media aritmetic
(obinut ca o medie redus 0%).

Median (Median)
Valoarea de mijloc a unei distribuii, este definit drept cel mai mic numr
astfel nct jumtate dintre valori s nu fie mai mari dect el. Cu alte cuvinte,
jumtate dintre valori sunt mai mici sau egale cu mediana, jumtate sunt mai
mari dect mediana. De remarcat c, dei este utilizat n general ca un indicator
de tendin central, mediana ofer mai degrab informaii asupra repartizrii
observaiilor (indicator de mprtiere). De regul, mediana este raportat
mpreun cu quartilele distribuiei n aa-zisa rezumare prin cinci valori.
Dac x
1
, x
2
, . . . , x
N
sunt valorile observate, mediana este calculat, dup
ordonarea cresctoare a valorilor, x
(1)
<= x
(2)
<= . . . <= x
(N)
, prin
.
Este de notat c mediana realizeaz minimul sumei abaterilor absolute ale
valorilor distribuiei de la un punct fixat:
E |x
i
m| este minim pentru m egal cu mediana distribuiei (n cazul unui
numr par de valori, mediana aa cum a fost definit nu este singura valoare
cu aceast proprietate.

Medie (Average)
Un termen suficient de vag, precizat de context. Uzual, reprezint media
aritmetic, dar poate desemna mediana, valoarea mod, media geometric etc.

Mod, Valoare mod (Mode)
Valoarea mod este cea mai frecvent valoare dintr-o mulime de valori. Grafic,
dintr-o histogram, o valoare mod este identificat printr-un maxim relativ. O
distribuie poate avea astfel mai multe valori mod (distribuii unimodale,
bimodale etc.).

Moment (Moment)
Momentul de ordin k al unui ir de valori este valoarea medie a valorilor
ridicate la puterea k. Astfel, dac lista este x
1
, x
2
, . . . , x
N
, momentul de
ordin k este
( x
1
k
+ x
2
k
+ x
N
k
)/N.
Momentul de ordin k al unei v.a. X este valoarea ateptat a v.a. X
k
, adic
Exp(X
k
).

Multiplicitate n testarea ipotezelor (Multiplicity in hypothesis tests)
n testarea ipotezelor, dac se verific mai multe ipoteze alternative (n teste
separate, evident), nivelul de semnificaie real al testelor combinate este diferit
de nivelul de semnificaie al unui test individual. n aceste situaii se recomand
aplicarea unei proceduri de comparaie multipl sau analiza varianei.

N
Necorelat (Uncorrelated)
Un set de date bivariate este necorelat dac are un coeficient de corelaie egal
cu zero. Dou variabile aleatoare sunt necorelate dac valoarea ateptat a
produsului lor este egal cu produsul valorilor ateptate ale celor dou
variabile.
Dac dou variabile aleatoare sunt independente, atunci ele sunt necorelate
(relaia invers nu este adevrat, n general).

Nedeplasat() (Unbiased)
Se spune despre o statistic pentru care deplasarea (bias-ul) este zero.

Nici o cauzalitate fr manipulare (No causation without manipulation)
Un dicton atribuit lui Paul Holland. Dac nu s-au controlat condiiile (de
exemplu, dac situaia cercetat este un studiu observaional i nu un
experiment), atunci este impropriu s se trag concluzia unei legturi cauzale
ntre rezultat i condiii. Vezi i post hoc ergo propter hoc.

Nivel al unui factor (Level of a Factor)
Prin nivel al unui factor se nelege o valoare luat de factorul respectiv (factor
este o variabila independent dintr-un studiu). Un factor trebuie s aib cel
puin dou nivele pentru a putea evidenia influena sa.

Non-rspuns (Nonresponse)
n anumite studii (eantion format prin apel telefonic, chestionar prin pot etc.)
se poate ntmpla ca unii subieci s nu rspund. Numrul acestor
non-rspunsuri poate influena reprezentativitatea eantionului sau denatura
prediciile.

O
Odds
Termen intraductibil aproape n limba romn, reprezint, pentru un eveniment,
raportul dintre probabilitatea ca evenimentul s se realizeze i probabilitatea ca
evenimentul s nu se realizeze. Este o ansa n favoarea evenimentului
considerat.
De exemplu, presupunnd c un eveniment are n rezultate posibile, toate egal
probabile, i c un numr de k rezultate pot fi interpretate drept ctig, restul
de n-k fiind interpretate drept pierdere, ansa (odds) n favoarea ctigului
este de (k/n)/((n-k)/n) = k/(n-k), care este egal cu numrul cazurilor favorabile
supra numrul cazurilor nefavorabile. Dei odds nu este sinonim unei
probabiliti, cele dou noiuni sunt convertibile una n cealalt: dac ansa n
favoarea unui eveniment este q, atunci probabilitatea evenimentului
este q/(1+q); dac probabilitatea unui eveniment este p, ansele (odds) n
favoarea evenimentului sunt p/(1-p) iar ansele mpotriva evenimentului sunt
(1-p)/p.

Orb, Experiment orb (Blind, Blind Experiment)
Intr-un experiment orb, subiecii nu cunosc dac aparin grupului de control sau
celui experimental. De regul, n studii medicale, subiecilor din grupul de
control li se administreaz un placebo, pentru a se asigura condiia de
experiment orb.

P
Paradoxul lui Simpson (Simpson's Paradox)
Ceea ce este adevrat pentru pri nu este n mod necesar adevrat i pentru
ntreg. Vezi i confundare.

Parametru (Parameter)
Prin parametru se nelege o proprietate numeric a unei populaii. Astfel media
populaiei este un parametru al populaiei. Cunoaterea valorii adevrate a
parametrului face inutil operaiunea statistic de estimare a acestuia dintr-un
eantion. Cum, de regul, valoarea unui parametru nu este cunoscut, acesta se
va estima prin valoarea unei statistici (estimatorul parametrului) calculate
dintr-un eantion.

Percentil (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic numr
astfel nct cel puin p% dintre numere nu sunt mai mari dect el. Percentila de
ordin p a unei v.a. este cel mai mic numr astfel nct probabilitatea ca v.a. s ia
valori nu mai mari dect el s fie p. Vezi i quantile.

Placebo
Un tratament fictiv care nu are efect farmacologic. Este administrat grupului de
control.

Plan factorial (Factorial Design)
Noiunea apare atunci cnd se planific experimentele n aa fel nct s se
poat decide asupra influenelor mai multor factori i a interaciunilor dintre
factori asupra unei variabile dependente.
Un plan factorial complet apare atunci cnd se fac determinri experimentale
pentru fiecare combinaie posibil de nivele ale factorilor.
Exist i posibilitatea reducerii numrului de determinri prin aceea c anumite
combinaii de nivele nu sunt studiate. n acest caz se utilizeaz planuri
factoriale particulare: ptrate latine etc.

Plan intra-subieci (Within-subjects Design)
Este un plan de experiene n care una sau mai multe variabile independente
sunt variabile intra-subieci.
ntr-un asemenea plan, fiecare subiect fiind evaluat la fiecare nivel al
factorului, se pot evidenia diferenele dintre subieci. De observat c ntr-un
plan ntre-subieci aceste diferene nu sunt evideniabile i sunt, prin urmare,
incluse n erori. Considerarea unui plan intra-subieci mrete puterea testelor
de semnificaie.
De remarcat, totui, c efectele de transport (carryover effects) pot impune
alegerea unui plan experimental ntre-subieci.

Plan ntre-subieci (Between-subjects Design)
Este un plan de experiene n care variabilele independente sunt variabile
ntre-subieci. Nu se pot evidenia diferenele dintre subieci.

Poligon de frecvene (Frequency Polygon)
Reprezentare grafic a unei distribuii de frecvene pentru o variabil continu:
pe axa Ox se reprezint intervalele de grupare; pentru fiecare interval se
reprezint punctul de coordonate (c
i
, f
i
), unde c
i
este mijlocul intervalului
iar f
i
este frecvena corespunztoare; punctele astfel obinute sunt unite prin
segmente.
Un poligon de frecvene ofer o imagine a formei distribuiei. Dac frecvenele
sunt relative, atunci se obine poligonul frecvenelor relative care permite
aproximarea procentajului de observaii situate ntre dou valori x, similar
utilizrii densitii de probabilitate.
Dac frecvenele sunt (relative) cumulate, se obine poligonul frecvenelor
(relative) cumulate, care permite, similar funciei de repartiie, aproximarea
quantilelor distribuiei.

Populaie (Population)
O colecie de elemente (uniti) care sunt de interes pentru studiu. O mare parte
a statisticii are ca obiect estimarea numeric a parametrilor populaiei pornind
de la observarea unui eantion.

Populaie int (Target Population)
Prin populaie int se nelege ntregul grup de interes ntr-o cercetare, adic
acel grup pentru care cercettorul dorete s obin concluzii i studiul efectuat.

Post hoc ergo propter hoc
"Dup aceasta, deci din cauza acesteia." O eroare de logic, cunoscut de mult,
care afirm existena unei relaii cauzale datorit observrii unei corelaii
(asocieri).

Precizie (Precision)
Precizia este o msur a ct de aproape este un estimator de valoarea adevrat
a unui parametru. Este exprimat uzual n termeni de imprecizie i asociat cu
eroarea standard a estimatorului. O precizie mai mic se reflect ntr-o valoare
mai mare a erorii standard.

Prima facie
La prima vedere. O eviden prima facie este informaia care sprijin
concluzia la o privire sumar, imediat. La o analiz mai profund, s-ar putea
ca aceasta s nu reziste, s existe o alt explicaie.

Probabilitate (Probability)
Probabilitatea unui eveniment este un numr pe[0,1], interpretat deseori
procentual, p%. nelesul, semnificaia, unei probabiliti este subiectul teoriei
probabilitilor, cu meniunea c dup coala tiinific, interpretrile pot fi
diferite. Totui, orice regul de asignare a probabilitilor la evenimente trebuie
s satisfac axiomele probabilitii.

Probabilitate condiionat (Conditional probability)
Se numete probabilitatea evenimentului A condiionat de evenimentul B,
notat P(A|B), raportul P(A|B) = P(AB)/P(B), unde P(B)=0, interpretat
ca probabilitatea de apariie a evenimentului A tiind c s-a realizat
evenimentul B.

Procentaj de sondaj (Sample Percentage)
Este procentajul elementelor dintr-un eantion (aleatoriu) care au o anumit
proprietate. Ca statistic, este utilizat frecvent pentru estimarea procentajului
elementelor cu aceeai proprietate din populaie.
Valoarea ateptat a procentajului de sondaj este procentajul din populaie, n
cazul n care eantionul este simplu aleatoriu sau aleatoriu cu repunere.
Abaterea standard a procentajului de sondaj este, pentru un sondaj cu
repunere, (p(1-p)/n )

, unde p este procentajul din populaie iar n este volumul


eantionului. Pentru un sondaj fr repunere dintr-o populaie finit, abaterea
standard este egal produsul dintre corecia de populaie finit i (p(1-p)/n )

.
Abaterea standard a procentajului de sondaj este estimat adesea prin
procedeul de bootstrap.

Proporie (procentaj) din populaie (Population Percentage)
Parametru al populaiei, care arat proporia elementelor din populaie avnd o
anumit proprietate.

Punct de rupere (Breakdown Point)
Punctul de rupere al unui estimator este cea mai mic fraciune de observaii
care pot fi corupte pentru ca estimatorul s ia orice valoare dorim.

Punctul mediilor (Point of Averages)
ntr-o diagram de mprtiere, scatterplot, prin punctul mediilor se nelege
punctul care are drept coordonate mediile aritmetice al variabilelor considerate.

Puterea unui test (Power)
Noiune referitoare la testarea ipotezelor, puterea unui test vis--vis de o
ipotez alternativ este probabilitatea ca n test s se resping, n mod corect,
ipoteza nul atunci cnd ipoteza alternativ este adevrat. Puterea unui test
este definit ca 1-|, unde | este riscul unei erori de spea a II-a.
Puterea unui test depinde de test, de nivelul de semnificaie, de volumul
eantionului, de repartiia populaiei i de ali factori.

p-value, valoare de probabilitate (Probability Value, p-value)
Presupunem o familie de teste ale unei ipoteze nule, definite de valori ale
nivelului de semnificaie p. Prin p-value asociat ipotezei nule, pentru setul de
date considerat, se nelege cel mai mic nivel de semnificaie p pentru care
ipoteza nul se respinge n toate testele.
Astfel, ntr-un test unilateral, dac X este statistica testului i notm
cu x
p
valoarea critic astfel nct respingem H
0
pentru X < x
p
, notm
cu x valoarea observat a lui X, atunci P-value pentru ipoteza nul i
observaiile disponibile este cea mai mic valoare p nct x < x
p
.
Majoritatea programelor dedicate calculelor statistice ofer, la procedurile de
testare a ipotezelor, valoarea de probabilitate. Dac p-value este mai mic sau
egal cu nivelul de semnificaie o, atunci se respinge ipoteza nul.

Q
Quantil (Quantile)
Quantila de ordin q a unei liste de valori numerice (0 < q <= 1) este cel mai mic
numr astfel nct o proporie q de elemente ale listei sunt mai mici sau cel
mult egale cu el. Adic, dac lista conine nelemente, quantila de ordin q este
cel mai mic numr Q astfel nct nq elemente ale listei sunt mai mici sau egale
cu Q.
Problema determinrii quantilei de un anumit ordin se complic atunci cnd
lista de valori reprezint un eantion dintr-o anumit populaie. n acest caz,
valoarea calculat drept quantil trebuie s se refere la populaie i nu la
eantion, adic se calculeaz o estimaie a quantilei din populaie. Formulele
utilizate de diverse aplicaii dedicate prelucrrilor statistice pot fi diferite
(diferenele nu sunt ns majore), astfel nct valorile furnizate sunt diferite
pentru acelai set de intrri. Diferena pornete de la ipoteze suplimentare
considerate (distribuie uniform, distribuie normal etc.) care se reflect n
formule de interpolare diferite. Regula de aur n aceste situaii este: valorile
furnizate de astfel de programe se utilizeaz ca atare, menionndu-se
programul utilizat.
Se utilizeaz curent notaia q
p
pentru quantila de ordin p.

Quartile (Quartiles)
Quantilele de ordin 25%, 50% i 75% (adic q
0,25
, q
0,5
, q
0,75
) sunt
denumite quartile. Ansamblul quartilelor realizeaz deci o mprire a datelor
n patru seturi de volume egale. Quartila a doua este mediana distribuiei.

R
Rdcina medie ptrat (Root-mean-square RMS)
Este definit ca rdcina ptrat a mediei ptratelor elementelor. Este o msur
a mrimii medii a elementelor.


Rang percentil (Percentile Rank)
Rangul percentil al unui element dintr-o repartiie de valori numerice este
definit ca proporia numerelor care sunt mai mici sau egale cu numrul
considerat. Este utilizat pentru fixarea locului ierarhic ocupat de un element:
dac un elev are nota 9,25 la matematic i 94% dintre elevi au note mai mici
sau egale cu 9,25, atunci rangul percentil al elevului este 94.

Rata de descoperire fals (False Discovery Rate)
n testarea unei colecii de ipoteze, rata de descoperire fals este proporia
ipotezelor nule respinse n mod eronat (raportul dintre numrul de erori de tip I
i numrul de ipoteze nule respinse), cu convenia c rata de descoperire fals
este zero dac nu s-a respins nici o ipotez nul.

Rata de non-rspuns (Nonresponse rate)
Este proporia de non-rspunsuri din eantionul planificat. O rat mare de
non-rspuns conduce la o deplasare de non-rspuns.

Regiune de respingere (Rejection region)
n testarea ipotezelor statistice, regiunea de respingere este format din
mulimea acelor valori, la care apartenena statisticii testului conduce la
respingerea ipotezei nule.

Regresia ctre medie (Regression Toward the Mean, Regression Effect)
Presupunem c se msoar dou variabile (cum ar fi nlimea tatlui i a unui
fiu) pentru elementele unei populaii statistice i c ntre acestea exist o
corelaie pozitiv (cum este de ateptat ntre nlimi). Dac, pentru o
observaie, prima valoare msurat este peste media, atunci i cea de a doua
valoare tinde s fie deasupra mediei, dar la o distan mai mic n uniti abateri
standard dect prima valoare. Pentru exemplul considerat, ar rezulta c fii
prinilor nali tind s aib o nlime mai apropiat de medie (regresia ctre
medie). n cazul unei corelaii negative, apropierea este din cellalt sens.

Regresie liniar (Regression, Linear Regression)
Date fiind valorile observate pentru dou variabile, X i Y, fie acestea (x
i
,y
i
),
i=1,,n, prin funcie de regresie se va nelege acea funcie Y = f(X) care
aproximeaz cel mai bine setul de date observate. De regul, criteriul ales este
acela al celor mai mici ptrate, adic acea funcie f pentru care se minimizeaz
suma E(y
i
-f(x
i
))
2
. Dac f este o funcie liniar, atunci se obine regresia liniar,
reprezentat grafic printr-o dreapt (dreapta de regresie).
Dreapta de regresie, mpreun cu abaterile standard ale variabilelor X i Y, sau
cu coeficientul de corelaie, pot constitui o rezumare rezonabil a distribuiei
comune a celor dou variabile. Adecvana modelului liniar este mai bun atunci
cnd diagrama de mprtiere are form de elips.

Regula de multiplicare (Multiplication rule)
Probabilitatea ca evenimentele A i B s apar simultan (se produce
evenimentul AB) este produsul dintre probabilitatea condiionat P(A|B) i
P(B).

Regula fundamental de numrare (Fundamental Rule of Counting)
Dac o secven de experimente sau ncercri T
1
, T
2
, T
3
, . . . , T
k
poate
produce, respectiv, n
1
, n
2
, n
3
, , n
k
rezultate posibile i dac
numerele n
1
, n
2
, n
3
, , n
k
nu depind de ieiri, ntreaga secven de k
experimente are n
1
n
2
n
3
. . . n
k
ieiri posibile.

Regula lui Bayes (Bayes' Rule)
Dac evenimentele A
1
, A
2
,....., A
n
constituie o partiie a spaiului de
sondaj S i P(A
i
) > 0, i, iar B este un eveniment cu P(B) > 0, atunci

Probabilitile P(A
i
) sunt numite probabiliti a priori i sunt cunoscute
(determinate pe baza cunoaterii anterioare). Regula lui Bayes permite
actualizarea acestor probabiliti utiliznd informaia suplimentar c a avut loc
evenimentul B.
n cazul cnd partiia este format din A i nonA, regula devine
P(A|B) = P(B|A) P(A) / ( P(B|A)P(A) + P(B|nonA) P(nonA) ).

Reziduu (Residual)
Este definit ca diferena dintre o valoare observat i valoarea prognozat de
un model. Diagrama acestor reziduuri n regresia liniar poate s arate
inadecvarea modelului.

S
Scal de densitate (Density Scale)
Gradaiile axei verticale a unei reprezentri grafice (histogram) sunt
procentaje pe unitate de ax orizontal. Aceasta este denumit scal de
densitate i msoar ct de dense sunt observaiile n fiecare interval X. Vezi i
densitate de probabilitate.

Scal de rapoarte (Ratio Scale)
Scala de rapoarte este similar scalei de intervale, cu deosebirea c exist un
punct zero adevrat. Exemplul clasic este al scalei Kelvin de msurare a
temperaturilor, care are un punct de zero absolut: o temperatur de 200K este
de dou ori mai mare dect o temperatur de 100K.
De remarcat c scala Fahrenheit nu respect aceast cerin, dar este o scal de
intervale: diferena dintre 10F i 20F este aceeai ca diferena dintre 15F i
25F.

Scor (Score)
Este o denumire alternativ pentru o valoare observat.

Scor studentizat (Studentized score)
Prin scor studentizat se nelege transformata Z (valoarea observat a statisticii
minus valoarea ateptat, totul mprit la eroarea standard estimat a
statisticii).

Scor z (z-score)
Valoarea observat a statisticii Z. Se obine prin transformarea Z a scorurilor
observate.

Semnificaie, Nivel de semnificaie, Semnificaie statistic (Significance,
Significance level, Statistical significance)
Nivelul de semnificaie al unui test statistic este probabilitatea (riscul) de a
respinge, n mod eronat, ipoteza nul dei aceasta este adevrat: nivelul de
semnificaie msoar riscul de apariie a unei erori de tip I.
Un fapt statistic este semnificativ dac produce respingerea ipotezei nule. De
exemplu, testnd ipoteza Toate lebedele sunt albe, un fapt semnificativ este
gsirea unei lebede negre. De remarcat, n acest context, c observarea orictor
lebede albe nu produce nimic semnificativ. Se poate interpreta i prin aceea c
ipoteza nul reflect starea actual de cunoatere, deci semnificativ este un fapt
care respinge ipoteza nul modificnd astfel nivelul de cunoatere.
Este de notat, totui, c un fapt semnificativ statistic nu este, n mod neaprat,
semnificativ n lumea real.

Siguran statistic (Confidence Level)
Este probabilitatea ca un interval de ncredere al unui parametru s conin
valoarea adevrat a parametrului. Este notat uzual cu 1-o, o fiind pragul
(nivelul) de ncredere al intervalului. Sensul este acela c dac se construiesc n
mod repetat intervale de ncredere plecnd de la eantioane diferite, procentajul
intervalelor care conin valoarea adevrat a parametrului va tinde ctre
sigurana statistic.

Sondaj (eantionaj) prin cote (Quota Sampling)
ntr-un eantionaj prin cote, populaia este segmentat iniial n subgrupuri
mutual exclusive, ca n eantionajul stratificat. Din fiecare subgrup se aleg
uniti n proporii specificate. Acest pas produce caracterul neprobabilist al
eantionajului prin cote.
De exemplu, dac se tie c studenii de la Informatic reprezint 5% din totalul
studenilor unei universiti, atunci gruparea populaiei este dat de faculti, se
tie proporia fiecrui grup, prin urmare ntr-un eantion se va urmri ca doar
5% s fie studeni de la Informatic.
Ca avantaje se pot cita viteza i costuri mai mici n obinerea informaiei i un
mai mare grad de acceptare sociologic.

Sondaj aleator (Random Sampling)
Este acea tehnic de sondaj n care fiecare element din eantion este ales la
ntmplare i fiecare element al populaiei are o probabilitate cunoscut (chiar
dac neegal posibil) de a fi selectat n eantion. n acest mod se reduce
probabilitatea unei deplasri (bias).

Sondaj aleator simplu (Simple Random Sampling)
Este un eantionaj aleatoriu, n care fiecare element al populaiei are aceeai
ans de a fi selectat n eantion. Orice eantion de volum dat are, n
consecin, aceeai probabilitate de a fi ales.

Sondaj independent (Independent Sampling)
Este operaiunea de eantionaj n care se obin eantioane independente.

Sondaj prin grupuri (Cluster Sampling)
n sondajul de tip cluster, populaia este divizat n grupuri (clustere) i este
selectat un eantion din mulimea de clustere. Toate elementele clusterelor
selectate sunt incluse n eantionul final.
Aceast tehnic este utilizat, de regul, atunci cnd cercettorul nu poate avea
o list complet a elementelor populaiei, dar poate dispune de o list complet
a grupurilor. De asemenea, dac un sondaj aleatoriu ar produce o mulime de
elemente foarte dispersat teritorial astfel nct urmrirea tuturora ar fi foarte
scump.
De exemplu, un studiu zonal pe o problem de agricultur ar fi mai economic
dac se aleg la ntmplare o serie de localiti rurale i se realizeaz studiul doar
n aceste localiti (cu urmrirea tuturor activitilor de interes din fiecare
localitate selectate).

Sondaj spaial (Spatial Sampling)
Se refer la situaia n care sondajul se realizeaz pe elemente spaiale (de
exemplu selectarea unor parcele ntr-un studiu privind agricultura).

Sondaj stratificat (Stratified Sampling)
Exist adesea factori care induc o mprire a populaiei n subpopulaii
(grupuri, straturi) i se dorete estimarea modului n care un anumit interes
variaz n funcie de aceste subpopulaii. Aceast mprire de facto a populaiei
trebuie s fie luat n consideraie pentru a obine un eantion reprezentativ.
Sondajul stratificat realizeaz acest fapt, eantionul final fiind obinut prin
reunirea eantioanelor extrase din fiecare strat al populaiei. Structura
eantionului final trebuie s respecte, de regul, proporiile fiecrui strat n
populaie.
Tehnicile de sondaj stratificat sunt prin urmare utilizate atunci cnd populaia
nu este omogen, dar se pot identifica straturi omogene. Aceste tehnici pot fi
utile i atunci cnd se dorete estimarea parametrilor pentru fiecare
subpopulaie.

Spaiul rezultatelor (Outcome Space)
Mulimea tuturor rezultatelor (ieirilor) posibile ntr-un experiment.

Standardizare (Standardize)
Transformarea n uniti standard.

Statistica _
2
(Chi-square Statistic)
Statistica _
2
este utilizat pentru a msura potrivirea dintre date categoriale i
un model multinomial care prognozeaz frecvena relativ a rezultatelor din
fiecare categorie posibil. S presupunem c exist n ncercri independente,
fiecare avnd un rezultat din k posibile. Presupunem c n fiecare ncercare
probabilitatea de apariie a rezultatului i este p
i
, i = 1, 2, . . . , k, aceleai pentru
toate ncercrile. Pentru orice i, numrul de apariii a rezultatului i este atunci
expected
i
= np
i
.
Dac modelul este corect, ne vom atepta atunci ca numrul de rezultate i s
fie, cu mici abateri, valoarea ateptat anterioar. Notm cu observed
i
numrul
de apariii observate ale rezultatului de tip in cele n ncercri, i = 1, 2, . . . , k.
Statistica _
2
rezum atunci discrepanele dintre valorile ateptate i valorile
observate prin:
_
2
= (observed
1
- expected
1
)
2
/expected
1
+ (observed
2
- expected
2
)
2
/expected
2
+
. . . + (observed
k
- expected
k
)
2
/expected
k
.
Dac modelul este corect i n este suficient de mare, atunci distribuia de sondaj
a statisticii _
2
tinde ctre o distribuie _
2
cu k - 1 grade de libertate.

Statistic (Statistic)
Prin statistic se nelege un numr care poate fi calculat din date, fr
implicarea unor parametri necunoscui. Ca funcie de eantion aleatoriu, o
statistic este o variabil aleatoare. De exemplu: media, abaterea standard,
valoarea maxim etc. sunt statistici.
Statisticile sunt utilizate pentru estimarea parametrilor i pentru testarea
ipotezelor.

Statistic descriptiv (Descriptive Statistics)
Conine acele metode care permit rezumarea coleciilor de date ntr-o form
simpl i explicit, inteligibil. Metodele statisticii descriptive pot fi mprite
n metode numerice i metode grafice. Prin metodele numerice se obin
rezumate numerice cum ar fi media, abaterea standard etc. Prin metodele
grafice se obin reprezentri vizuale ale datelor, utile pentru identificarea
structurii datelor (pattern-urilor). Primele metode sunt mai precise i mai
obiective, dar doar utilizarea ambelor categorii de metode pot s duc la un
rezultat satisfctor.

Statistic inferenial (Inferential Statistics)
Conine metodele prin care se obin informaii despre o populaie pe baza
datelor unui eantion aleator din populaia de interes. Principalele metode
sunt estimarea i testarea ipotezelor.
Este partea principal a statisticii, deoarece interesul unui cercettor este
ndreptat, de regul, ctre cunoaterea populaiei i nu ctre eantion.

Statistica testului (Test Statistic)
Este o statistic, proprie unui test, pentru care se cunoate repartiia n condiiile
ipotezei H
0
. Pe baza valorii calculate a statisticii testului se ia decizia in test:
dac statistica aparine, la un nivel de semnificaie stabilit, regiunii de
respingere a testului, atunci se respinge ipoteza H
0
n favoarea ipotezei
alternative. Fiecare test statistic conine i modul de definire a statisticii testului
respectiv.

Statistic Z (Z statistic)
O statistic Z este o statistic a unui test a crei distribuie sub ipoteza nul are
valoarea ateptat egal cu zero i poate fi aproximat suficient de bine de
curba normal.
n mod uzual, o statistic Z este construit prin standardizarea unei alte
statistici dup formula
Z = ( original Exp(original) ) / SE(original).

Statistic t (Student) (Z statistic)
O statistic t este o statistic a unui test a crei distribuie sub ipoteza nul este
sau poate fi aproximat suficient de bine de repartiia Student.

Strat (Stratum)
n sondajul aleatoriu, un eantion este extras adesea separat din diferite
submulimi disjuncte ale populaiei. Fiecare asemenea submulime este
denumit strat.
Estimatorii bazai pe eantioane aleatorii stratificate pot s aib erori de sondaj
mai mici dect estimatorii calculai pentru eantioane aleatorii simple de
aceeai mrime, dac variabilitatea medie a variabilei de interes n straturi este
mai mic dect cea din ntreaga populaie (cu alte cuvinte dac apartenent la
straturi este asociat cu variabila).
De exemplu, pentru a determina preul mediu al locuinelor, este mai avantajos
s se utilizeze o stratificare dup zona geografic, deoarece preurile variaz
enorm dup localizare. Se poate mpri ara n regiuni, acestea n zone urbane,
suburbane, rurale; extragerea va fi apoi aleatorie din fiecare zon astfel
determinat.

Studiu de eantion (Sample Survey)
Este un studiu bazat pe un eantion i nu pe ntreaga populaie.

Studiu longitudinal (Longitudinal study)
Un studiu longitudinal privete indivizi n momente diferite de timp, scopul
fiind cel al evalurii efectului trecerii timpului asupra variabilelor observate.
Posibilitatea de confundare cu alte efecte este mai mic dect ntr-un studiu
secional (transversal).

Studiu observaional (Observational Study)
Este un studiu n care datele sunt obinute prin simpla observare, investigare.
Noiunea contrar este cea de experiment controlat.

Studiu transversal, secional (Cross-sectional study)
ntr-un studiu transversal se compar diferite elemente la un moment de timp,
cu alte cuvinte subiecii aparin la o seciune prin populaie (cum ar fi persoane
de vrste diferite, msurate la acelai moment de timp). n acest caz, diferenele
dintre elemente se pot confunda cu efectul urmrit. De exemplu, urmrind
opiniile cetenilor ntr-un studiu transversal, diferena dintre opinii poate fi
atribuit procesului de mbtrnire, dei aceasta poate fi explicat prin educaia
diferit primit de cei chestionai.

Subiect, Subiect experimental (Subject, Experimental Subject)
Un element al grupului de control sau a celui experimental (de tratament).

Suma de sondaj (Sample Sum)
Este suma valorilor msurate ntr-un eantion aleator.
Valoarea ateptat a sumei de sondaj este de n ori media populaiei, unde n este
volumul eantionului.
Abaterea standard a sumei de sondaj, pentru un sondaj cu repunere, este

unde o este abaterea standard a populaiei iar n este volumul eantionului. n
cazul unui sondaj fr repunere dintr-o populaie finit, formula devine
.
unde N este volumul populaiei.

T
Tabel de contingen (Contingency Table)
Este un tabel cu dou intrri care conine frecvenele observaiilor dup nivelele
a dou variabile categoriale (sau continue discretizate), cu alte cuvinte repartiia
comun a celor dou variabile. O variabil determin liniile, iar cealalt
determin coloanele tabelului. Este uzual s se completeze cu o linie de total i
cu o coloan de total, acestea indicnd distribuiile fiecrei variabile.
Printr-un test _
2
de independen se poate verifica asocierea dintre variabile
(deci dac distribuia unei variabile depinde de nivelul celeilalte variabile).

Tendin central (Central Tendency)
Indicatorii de tendin central sunt msuri pentru localizarea mijlocului sau
centrului distribuiei. Deoarece noiunea de centru este suficient de vag,
indicatorii de tendin central cuprind statistici diverse, cele mai uzuale fiind
media, mediana, valoarea mod, media redus, fiecare oferind o caracterizare
diferit pentru datele procesate.

Teorema de limit central (Central Limit Theorem)
Teorema de limit central explic de ce relativ multe distribuii tind s fie
apropiate de distribuia normal. O form a teoremei este urmtoarea:
Fie X
1
, X
2
, v.a. independente, identic distribuite, avnd media i abaterea
standard o. Dac notm S
n
= X
1
+X
2
++X
n
, atunci

unde u(x) este funcia de repartiie a variabilei normale standard.
Formula anterioar poate fi rescris i pentru media S
n
/n.

Teoria probabilitilor (Probability, Theories of)
O teorie a probabilitilor este un mod de atribuire a unui sens la afirmaii
probabiliste de genul ansa ca o pionez s cad cu vrful n sus este de 2/3."
Astfel, o teorie a probabilitilor conecteaz teoria matematic a probabilitilor
(care este un set de consecine a axiomelor probabilitii) cu lumea real a
observaiilor i experimentelor. Exist mai multe teorii ale probabilitii.
Potrivit teoriei probabilitilor ca frecvene, probabilitatea unui eveniment este
limita frecvenei relative a apariiilor evenimentului n ncercri independente
repetate n aceleai condiii.
Potrivit teoriei subiective a probabilitilor, probabilitatea este un numr care
msoar ct de puternic este ncrederea noastr c un eveniment poate s
apar. Acest numr este pe o scal de la 0 (sau 0%) la 1 (sau 100%), unde 0
arat c suntem siguri c evenimentul nu poate s apar, 1 arat c suntem
siguri de apariia evenimentului.
Potrivit teoriei ieirilor egal verosimile, dac un experiment are n ieiri
posibile, nu exist nici un motiv pentru care unul dintre rezultate s apar n
mod preferenial fa de celelalte. Rezult c ansa de apariie a oricrui
rezultat este 100%/n.
Fiecare teorie are limitele ei, aprtorii i detractorii ei.

Teoria probabilitilor ca frecvene (Frequency theory of probability)
Vezi teoria probabilitilor.

Test bilateral (Two-sided Hypothesis test)
Denumete un test n care ipoteza alternativ nu precizeaz sensul abaterii de la
ipoteza nul. De exemplu, dac ipoteza nul este =
0
, atunci ipoteza
alternativ este <
0
sau (adic =
0
, fr precizarea abaterii lui de la
0
).
ntr-un test bilateral, probabilitatea critic a testului se refer la ansa ca
statistica testului s fie mai deprtat de valoarea nul dect valoarea calculat
a statisticii, fr a preciza sensul n care are loc deprtarea.
Regiunea de respingere a unui test bilateral conine o reuniune de dou
intervale.

Test exact Fisher pentru egalitatea a dou procentaje (Fisher's exact test for the
equality of two percentages)
S considerm dou populaii cu elemente 0 i 1. Fie p
1
proporia de elemente
1din prima populaie i p
2
proporia de elemente 1din a doua populaie.
Fie n
1
i n
2
volumele a dou eantioane extrase din cele dou populaii,
iar G numrul total de 1 din ambele eantioane. Dorim s testm ipoteza
nul p
1
= p
2
. Dac ipoteza nul este adevrat, cele dou eantioane reunite
formeaz un eantion din populaiile reunite. Alocarea eleementelor 1 ntre
eantioane este de ateptat s fie, cu variaii aleatoare, proporional cu
volumele eantioanelor. Depinznd de G i de volumele eantioanelor, sub
ipoteza nul, elementele primului eantion pot fi considerate ca formnd un un
eantion aleator de volum n
1
fr repunere dintr-o mulime
avnd N = n
1
+ n
2
elemente, dintre care G sunt egale cu 1. Astfel, sub ipoteza
nul, numrul elementelor 1 din primul eantion are o distribuie
hipergeometric cu parametrii N, G i n
1
. Testul exact Fisher utilizeaz aceast
distribuie pentru determinarea numrului de elemente 1 din primul eantion
pentru care se respinge ipoteza nul.

Test unilateral (One-sided Test)
Un test unilateral este un test statistic n care ipoteza alternativ precizeaz
sensul abaterii de la ipoteza nul (i nu este, pur i simplu, negaia acesteia).
Noiunea contrar este test bilateral.

Testarea ipotezelor (Hypothesis testing)
Testarea ipotezelor statistice este formalizat ca procesul de a decide ntre
respingerea i nerespingerea unei ipoteze nule pe baza unui set de
observaii. Pot s apar dou tipuri de erori: respingerea ipotezei nule dei ea
este adevrat (eroare de tip I); nerespingerea ipotezei nule, dei ea este fals
(eroare de tip II). De menionat c, n situaiile practice, nu se poate ti dac s-a
comis o eroare i de ce tip este ea. Modul de abordare este atunci acela de
minimiza riacul de producere a unei erori. n mod tipic, se specific a
priori riscul producerii unei erori de tip I, risc notat uzual cu o i denumit
nivelul de semnificaie a testului. Pentru un nivel de semnificaie dat, este apoi
aleas acea regul de decizie (test) care are cea mai mic probabilitate de
producere a unei erori de tip II cnd ipoteza alternativ este adevrat.
Probabilitatea de a respinge n mod corect ipoteza nul atunci cnd ipoteza
alternativeste adevrat este numit puterea testului n raport cu ipoteza
alternativ.

Test t ( t test)
Se aplic un test t (Student) atunci cnd statistica testului se consider
repartizat Student. De regul, testele t sunt utilizate pentru verificarea
ipotezelor privind media populaiei, atunci cnd eantioanele sunt de
dimensiuni reduse (<=30) i distribuia populaiei este cunoscut ca fiind
aproape normal.

Testul t pentru un coeficient de corelaie (t test for correlation coefficient)
Fie r coeficientul de corelaie estimat dintr-un eantion de volum n. n ipoteza
H
0
: = 0, statistica

este repartizat Student cu n-2 grade de libertate, astfel nct se poate aplica
regula de decizie dintr-un test t (bilateral sau unilateral).

Test z (z-test)
Un test bazat pe o statistic Z (repartizat normal standard).

Transformare (Transformation)
Printr-o transformare se convertete o list de valori ntr-o alt listde valori,
sau o variabil ntr-o alt variabil. O transformare afin este o transformare de
tipul y = ax + b, unde x este variabila iniial, iar y este variabila nou
(transformat). Astfel, standardizarea unei variabile este o transformare afin.
Transformrile afine cu a > 0 au un efect simplu asupra mediei, medianei,
valorii mod i quantilelor: noile valori sunt obinute din cele vechi dup exact
aceeai formul de transformare. Dac a < 0, atunci media, mediana i valoarea
mod sunt obinute prin aceeai transformare, n timp ce quantilele au ordinea
inversat. Efectul unei transformri afine asupra abaterii standard este acela c
valoarea transformat se nmulete cu |a| pentru a obine noua abatere standard.

Transformare afin (Affine transformation)
Vezi transformare.

Transformarea z a lui Fisher (Fishers z Transformation)
Deoarece repartiia de sondaj a coeficientului de corelaie r (Fisher) nu este
normal, testarea semnificaiei coeficientului de corelaie este dificil de efectuat
direct. Din aceast cauz, Fisher a propus transformarea

v.a. z astfel obinut fiind repartizat aproape normal i avnd eroarea standard

unde n este volumul eantionului.
Devine astfel posibil calcularea unui interval de ncredere pentru r sau pentru
o diferen de coeficieni de corelaii (pentru compararea lor).
A se vedea i testul t pentru un coeficient de corelaie.

Tratament (Treatment)
Substana sau procedura studiat ntr-un studiu experimental sau observaional.
n studiu se va urmri dac tratamentul are efect asupra unei variabile de
interes.

Trend secular (Secular Trend)
Prin trendul secular al unei variabile se nelege asocierea liniar (regresia
liniar) a variabilei cu timpul. Pentru a avea sens, trebuie, evident, ca obinerea
valorile variabilei s fie aib loc n timp (mai general, este important ordinea
msurtorilor).

Trimedie (Trimean)
Definit drept o medie ponderat a quartilelor unei distribuii prin

trimedia este un indicator de tendin central, rar utilizat totui, la fel de puin
influenat de scorurile extreme ca i mediana. Pentru distribuii cu asimetrie
pronunat, indicatorul este mai puin supus fluctuaiilor de sondaj dect media
aritmetic.

U
Unimodal (Unimodal)
O distribuie este unimodal dac are exact o singur valoare mod.

Unitate (Unit)
Un element al populaiei. Cu acest sens noiunea apare, de regul, n probleme
de sondaj.

Unitate de sondaj (Sampling unit)
Un eantion dintr-o populaie poate fi extras cte un element sau cte un grup
de elemente (n cazul gruprii elementelor, clustere). Prin unitate de sondaj se
nelege unitatea fundamental utilizat la formarea unui eantion.

Uniti standard (Standard Units)
O variabil (set de date) se spune c este n uniti standard dac are media
egal cu zero i abaterea standard egal cu unu.
Se poate transforma un set de date n uniti standard prin aa-zisa transformare
Z:

Prin transformarea n uniti standard se pot compara variabile msurate pe
scale diferite (cum ar fi greutatea i nlimea).

Univariat (Univariate)
Atributul se utilizeaz atunci cnd este implicat o singur variabil.

V
Valoare aberant (Outlier)
O valoare aberant este o valoare care nu se ncadreaz n comportarea uzual a
unei variabile (de genul inundaie n Sahara). n mod uzual, se va considera
valoare aberant una care este la cel puin trei abateri standard distan de
medie (exist i teste specializate pentru detectarea acestor valori).
Detectarea unei valori aberante produce, de regul, eliminarea acesteia din setul
de date. Totui, eliminarea trebuie s se bazeze pe identificarea exact a valorii,
a modului de obinere etc., deoarece poate conduce la subestimarea
variabilitii reale a procesului msurat. Sunt procese n care tocmai o valoare
aberant este de maxim interes.

Valoare critic (Critical value)
Valoarea critic ntr-un test statistic apare atunci cnd decizia n test se ia pe
baza regiunii de respingere i reprezint, n general, acea valoare sub/peste care
trebuie s fie statistica testului pentru a respinge ipoteza nul. Valoarea critic a
testului este deci o extremitate finit a regiunii de respingere. Valoarea critic
poate fi calculat, la un prag de semnificaie dat, nainte de aplicarea efectiv a
testului este o quantil a repartiiei statisticii testului.
De exemplu, ntr-un test z bilateral, la o = 0,05, valoarea critic este quantila
z
0,975
= 1,96. Dac valoarea statisticii este mai mare n valoare absolut dect
valoarea critic, atunci se respinge ipoteza nul.

Variabil (Variable)
Sensul curent n statistic este acela a unei valori numerice, a unui atribut care
difer de la un element la altul. A se vedea variabil categorial, variabil
calitativ, variabil cantitativ, variabil discret, variabil continu,
variabil aleatoare.

Variabil aleatoare (Random Variable)
O variabil aleatoare (notat uzual cu v.a.) este o funcie real definit pe
mulimea evenimentelor. Se accept, uzual, c o v.a. asigneaz numere la
ieirile posibile ale unui experiment aleatoriu.
O afirmaie asupra unei v.a. definete un eveniment, de exemplu {Xe B}=
{se S: X(s) e B}, unde S este spaiul evenimentelor, este evenimentul prin
producerea cruia v.a. ia o valoare din B.

Variabil aleatoare indicatoare (Indicator Random Variable)
Variabila indicatoare a unui eveniment A, notat adesea 1
A
, este v.a. egal cu 1
dac se realizeaz A i egal cu 0 dac nu se realizeaz A. Valoarea ateptat a
indicatoarei lui A este probabilitatea lui A, P(A), iar eroarea standard
este (P(A)(1-P(A))

. Suma
1
A
+ 1
B
+ 1
C
+ . . .
a indicatoarelor evenimentelor {A, B, C, . . . } numr cte dintre evenimente
s-au realizat ntr-o ncercare dat.

Variabil binar (Binary Variable)
Este o variabil discret care are doar dou valori posibile, descrise uzual ca
succes, insucces. De regul, o variabil binar este de tip nominal.
Codificarea valorilor prin 0 i 1 permit calcule care nu sunt posibile, n general,
pentru variabile discrete: de exemplu, suma produce frecvena valorilor
codificate prin 1. Aceast caracteristic apropie o variabil binar de tipul
continuu de variabil.

Variabil calitativ (Qualitative Variable)
O variabil calitativ are ca valori adjective cum ar fi culoarea, genul,
naionalitatea etc. Vezi i variabil nominal, variabil ordinal.

Variabil cantitativ (Quantitative Variable)
O variabil care ia valori numerice i pentru care au sens operaiile aritmetice.
De exemplu, temperatura este o variabil cantitativ, dar codul numeric
personal (CNP) nu. O variabil cantitativ reprezint, de regul, cantitatea
exact dintr-o anumit caracteristic prezent la un element msurat i este o
variabil continu.

Variabil categorial (Categorical Variable)
O variabil este categorial dac valorile ei aparin unei mulimi de categorii
distincte (cum ar fi apartenena etnic, sexul, culoarea etc.). O variabil
categorial este o variabil discret.

Variabil continu (Continuous Variable)
O variabil cantitativ este o variabil continu dac mulimea valorilor sale
posibile este continu (nenumrabil). De exemplu temperatura, nlimea etc.
n practic nu se poate niciodat s se msoare o variabil continu cu o
precizie infinit i astfel variabilele continue sunt aproximate prin variabile
discrete. O v.a. X este numit continu dac i numai dac funcia de repartiie
este continu. De observat c, n acest caz, P(X = x) = 0 pentru orice numr
real x).

Variabil dependent (Dependent Variable)
n teoria regresiei, n care se estimeaz o relaie de forma Y = f (X
1
, X
2
, , X
n
),
variabila Y este denumit variabil dependent, n timp ce X
1
, X
2
, , X
n
sunt
denumite variabile independente. Prin relaia estimat, valorile Y se presupun
explicate de valorile variabilelor independente. Rolurile de variabil
dependent sau independent sunt relative, interschimbabile n funcie de
aspectele cercetate.

Variabil discret (Discrete Variable)
O variabil cantitativ este numit discret dac mulimea valorilor posibile
este numrabil. Exemple tipice sunt variabilele care iau valori ntregi: numrul
persoanelor dintr-o familie, vrsta rotunjit la ani etc. Funcia de repartiie a
unei variabile discrete este o funcie scar. O variabil categorial este, de
asemenea, discret.

Variabil explicativ (Explanatory Variable)
n teoria regresiei, o denumire echivalent celei de variabil independent.
ntr-un experiment, variabila explicativ este cea manipulat de experimentator
(cea explicat fiind variabila dependent).

Variabil independent (Independent Variable)
n teoria regresiei, o variabil independent este cea despre care se presupune
c explic variaia variabilei dependente. Se mai numete variabil explicativ.
n acest context, independent nu nseamn statistic independent.
Un alt sens este oferit de modul n care este condus un experiment: anumite
variabile sunt controlate, fixate, de experimentator, alte variabile sunt msurate.
Primele se numesc variabile independente (factori, explicative), ultimile fiind
variabile dependente (explicate, efecte). Cum n asemenea cazuri analiza
statistic va include, de regul, o analiz de regresie, explicaia dat vine n
completarea primului sens.

Variabil intra-subieci (Within-subjects Variable)
Este o variabil independent (factor) care este manevrat astfel nct fiecare
subiect este testat (evaluat) la fiecare nivel al variabilei. Mai este denumit
variabil cu msurtori repetate, tocmai din cauz c acelai subiect este supus
unor evaluri repetate (la nivele diferite ale factorului).

Variabil ntre-subieci (Between-subjects Variable)
Este o variabil independent (factor) manevrat astfel nct la fiecare nivel al
factorului este evaluat un alt grup de subieci.

Variabil nominal (Nominal Variable)
O variabil categorial este nominal dac ntre categorii nu exist stabilit o
ordine (de exemplu, facultatea urmat de un student: matematic, filologie etc.
Ordinea de enumerare este evident arbitrar i nu constituie un atribut al
variabilei facultate.

Variabil ordinal (Ordinal Variable)
O variabil ordinal este o variabil categorial, dar ntre categorii exist o
ordine. De exemplu, locul terminrii unei curse atletice: locul I, locul II etc.
Este de menionat c dei exist o ordine ntre categorii, nu se poate vorbi de
distan ntre acestea. Atunci cnd valorile posibile sunt codificate prin valori
numerice, operaiile aritmetice ntre coduri nu au sens (de exemplu calcularea
mediei), singura informaie utilizabil fiind aceea de ordine (mai mare, mai
mult etc.).

Variabile aleatoare dependente (Dependent Random Variables)
Dou v.a. sunt dependente dac ele nu sunt independente..

Variabilitate de sondaj (Sampling Variability)
Se refer la variaia valorilor luate de o anumit funcie atunci cnd este
calculat pentru eantioane obinute dintr-o aceeai populaie.

Variaie ntmpltoare, eroare ntmpltoare (Chance variation, chance error)
O variabil aleatoare poate fi descompus n suma dintre valoarea ateptat i o
variaie ntmpltoare n jurul acestei valori. Valoarea ateptat a variaiei
ntmpltoare este egal cu 0. Eroarea standard a variaiei ntmpltoare este
aceeai cu eroarea standard a variabilei aleatoare, ceea ce permite interpretarea
c eroarea standard a v.a. este diferena tipic dintre valoarea variabilei i
valoarea ei ateptat.

Volumul eantionului (Sample Size)
Volumul eantionului este numrul de elemente din eantion.

S-ar putea să vă placă și