Sunteți pe pagina 1din 4

Statistic multivariat

Lucrarea nr. 1 Statistic descriptiv (Excel)


A. Noiuni teoretice
Variabil o caracteristic ale crei valori se modific dup elementele studiate
(este modelat printr-o variabil aleatorie). Statistica este inutil n analiza
caracteristicilor constante n domeniul observat.
Observaie valorile unei mulimi de variabile msurate pentru un element studiat.
Statistic descriptiv 1. Valoare care reprezint o sintez, un rezumat al valorilor
unei caracteristici pentru un eantion sau care evalueaz relaia dintre dou variabile.
2. Parte a statisticii care privete descrierea variabilelor (calcularea indicatorilor
statistici descriptivi statisticile descriptive , reprezentri grafice etc.).
Statistic inferenial Parte a statisticii care cuprinde procedurile prin intermediul
crora se pot obine aseriuni asupra populaiei studiate din observaiile efectuate
asupra unui eantion din acea populaie.
Msurare atribuirea de valori la elemente, observaii potrivit unei reguli; este
procesul prin care se obin valorile variabilelor.
Scal de msur regula prin care se atribuie o valoare numeric n procesul de
msurare.
Niveluri de msurare clasificarea variabilelor dup proprietile numerice asociate
scalelor pe care se msoar valorile.
Variabile nominale (nivelul nominal) variabile care pot lua un numr finit de
valori neordonate; variabile calitative, permit doar clasificarea observaiilor. De
observat c nivelul de msurare nu se modific prin utilizarea unei codificri
numerice.
Variabilele calitative care au exact dou valori sunt denumite dihotomice sau binare.
Codificarea prin 0/1 permite utilizarea acestor variabile n proceduri dedicate
nivelurilor mai nalte de msurare (ordinal, interval).
Variabile ordinale (nivelul ordinal) variabile ale cror valori sunt ordonate dar nu
este definit (nu se poate defini) distana dintre dou valorile posibile.
Variabile de interval (nivelul interval) variabile cu valori ordonate i pentru care
este definit o distan (se poate gndi c valorile posibile sunt similare gradaiilor
unei rigle uzuale). Dac exist o valoare zero adevrat, variabila se zice de
raport Variabilele de interval sunt cele mai complexe i majoritatea tehnicilor
statistice au fost dezvoltate tocmai pentru aceste variabile.
Variabile continue variabile care odat cu dou valori pot lua orice valoare
intermediar; pot lua orice valori din domeniul lor. Variabilele de interval (raport)
sunt, de regul, continue.
Variabile discrete variabile care nu sunt continue. Variabilele nominale i cele
ordinale sunt variabile discrete.
Distribuia unei variabile toate valorile unei variabile pentru fiecare caz
(element) studiat/cunoscut. Tipuri de distribuie: 1. valorile pentru un eantion sau
populaie (distribuie empiric), 2. distribuia de sondaj a unei statistici (distribuie
teoretic), 3. distribuia privit ca structur a datelor, ilustrat numeric sau grafic.
Descrierea distribuiilor

1. Tabelar
a. listarea datelor fr nicio ordonare prealabil

b. tablouri ordonate - cu ct numrul de observaii este mai mare, cu att


este mai greu de intuit structura.
c. distribuii de frecvene absolute - se pot utiliza pentru toate tipurile de
variabile, dar utilizarea cea mai frecvent este pentru datele discrete
(nominale, ordinale).
d. distribuii de frecvene relative (procentuale) - evideniaz valorile mai
frecvente, sunt utile pentru comparaii.
e. distribuii cumulate - att pentru frecvene absolute, ct i relative.
2. Grafic (tipurile uzuale)
a. grafice cu bare pentru date discrete.
b. histograme pentru date continue.
c. grafice arie pentru date cumulate.
Caracterizarea unei distribuii - trebuie s surprind trei aspecte
a. tendina central (referit uzual ca "medie" dei poate fi vorba de
indicatori statistici diferii)
b. mprtierea (ct de mult sunt repartizate sau deprtate valorile)
c. forma distribuiei (simetria - asimetrie, aplatizare)

Rezumate pentru evaluarea tendinei centrale - ofer o valoare de prognoz,


ncrederea depinde de gradul de mprtiere a valorilor
1. Mod - cea mai frecvent valoare; este utilizat n special pentru date discrete.
Pentru date continue se obinuiete gruparea datelor i mijlocul intervalului
modal.
2. Mediana - valoarea care depete jumtate dintre observaii (quantila de ordin
0.5); este o valoare "negociat" pentru date ordinale (valoarea care mparte cel
mai bine observaiile). Deoarece presupune ordine ntre valori, nu se aplic
datelor nominale. Este un indicator de tendin central preferat n locul
mediei pentru distribuii continue asimetrice.
3. Media - este media aritmetic a valorilor msurate, utilizat pentru date
continue.
Rezumate pentru evaluarea mprtierii
1. IQV (indicele de variaie calitativ), Entropia - sunt utilizate n cazul datelor
discrete
2. Quantile - utilizate pentru datele ordonate (ordinale, de interval)
3. Domeniul (amplitudinea) - pentru date continue
4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz
pentru date ordinale), reprezint domeniul centrat pe median i care conine
jumtate dintre valorile msurate.
5. Dispersia (variana), abaterea standard - sunt indicatorii uzuali de caracterizare
a mprtierii datelor continue. Interpretarea uzual a abaterii standard este
aceea c, pentru o variabil distribuit normal - aceast ipotez se omite
uneori, prin exces - , circa 68% dintre valori difer de medie cu cel mult o
abatere standard i circa 95% dintre valori difer de medie cu cel mult dou
abateri standard.
mpreun cu media (aritmetic) sunt indicatorii statistici cei mai des invocai
in analiza datelor continue (de interval sau de raport).

B. Instrumente Excel
Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att
funciile statistice ale aplicaiei, ct i proceduri obinute prin Tools Data Analysis.
Funciile statistice uzuale sunt (n ordine alfabetic):
AVEDEV abaterea medie absolut
AVERAGE media aritmetic
BINOMDIST funcia de repartiie
binomial
CHIDIST funcia de repartiie 2
CHIINV inversa funciei de repartiie 2
CHITEST aplicarea testului 2
CONFIDENCE intervalul de ncredere
pentru medie
FDIST funcia de repartiie F
FINV inversa funciei de repartiie F
FTEST aplicarea testului F
HARMEAN media armonic
KURT coeficientul de aplatizare
MIN, MAX valorile extreme din list
MEDIAN mediana
MODE valoarea mod
NORMDIST funcia de repartiie
normal

NORMINV inversa funciei de repartiie


normal
NORMSDIST funcia de repartiie
normal standard
NORMSINV inversa funciei de repartiie
normal standard
PERCENTILE quantile
QUARTILE quartile
RANK rangul argumentului ntr-o list
SKEW coeficientul de asimetrie
STANDARDIZE valoarea standardizat a
argumentului
STDEV abaterea standard
TDIST funcia de repartiie Student, t
TINV inversa funciei de repartiie
Student
TTEST aplicarea testului Student
VAR dispersia

Pentru a utiliza procedurile statistice, trebuie ca prin Tools AddIns s se


verifice dac este instalat utilitarul Analysis ToolPak. n caz afirmativ, comanda
Tools Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o
serie de prelucrri statistice conduse de dialogurile asociate. Astfel, Descriptive
Statistics va produce indicatorii statistici ai unei variabile continue.
Tot n partea de descriere statistic poate fi ncadrat i metoda de creare a
cuburilor OLAP prin Data Pivot Table, metod prin care se obin distribuiile
simple sau multivariate ale unor variabile discrete sau indicatorii statistici eseniali ai
subpopulaiilor.
De asemenea, nu trebuie uitat c toate procedurile legate de reprezentrile
grafice, iniiate prin Insert - Chart (sau uneltele corespunztoare) sunt o parte a
prelucrrii statistice descriptive oferind grafice, histograme etc.

C. Lucrarea practic
1. Se va importa n Excel fiierul de date
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
care conine datele de la un examen de admitere la facultatea de
informatic, pe vremea cnd examenul includea i o prob scris.
2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval)
Legitimatie - numrul legitimaiei (eliberate n ordinea
nscrierii)
Bacalaureat - media la bacalaureat
Optiune - proba la alegere (A - analiz matematic, C programare C, P - programare Pascal)
Sala - sala de examen
Scris - media la scris

3.
4.
5.
6.
7.

Final - media final


Situatie - situaia dup examen (1 - fr taxa, 2 - cu tax, 3 respins, 4 - n ateptare)
Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
Se vor realiza grafice de ilustrare a distribuiilor variabilelor.
Se vor identifica subpopulaiile pentru care este de interes s se
realizeze prelucrri separate.
S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
Utiliznd att indicatori statistici ct i reprezentri grafice, se vor
compara subpopulaiile att dup repartiiile unor variabile discrete, ct
i a unor variabile continue. Se va decide:
i. dac a fost mai avantajos s se dea examen la analiz sau la
programare; la analiz, la programare C sau la programare
Pascal;
ii. care candidai i-au depit ateptarea dat de media la
bacalaureat;
iii. dac s-au obinut note mai mari la scris de ctre cei care au
susinut proba n sli de examen mai mari;
iv. dac se poate spune c acei candidai care s-au nscris n
primele zile au avut rezultate mai bune.