Sunteți pe pagina 1din 3

Statistică multivariată

Lucrarea nr. 1 — Statistică descriptivă (Excel)


A. Noţiuni teoretice
Variabilă — o caracteristică ale cărei valori se modifică după elementele studiate
(este modelată printr-o variabilă aleatorie). Statistica este inutilă în analiza
caracteristicilor constante în domeniul observat.
Observaţie — valorile unei mulţimi de variabile măsurate pentru un element studiat.
Statistică descriptivă — 1. Valoare care reprezintă o sinteză, un rezumat al valorilor
unei caracteristici pentru un eşantion sau care evaluează relaţia dintre două variabile.
2. Parte a statisticii care priveşte descrierea variabilelor (calcularea indicatorilor
statistici descriptivi – statisticile descriptive –, reprezentări grafice etc.).
Statistică inferenţială — Parte a statisticii care cuprinde procedurile prin intermediul
cărora se pot obţine aserţiuni asupra populaţiei studiate din observaţiile efectuate
asupra unui eşantion din acea populaţie.
Măsurare —atribuirea de valori la elemente, observaţii potrivit unei reguli; este
procesul prin care se obţin valorile variabilelor.
Scală de măsură — regula prin care se atribuie o valoare numerică în procesul de
măsurare.
Niveluri de măsurare— clasificarea variabilelor după proprietăţile numerice asociate
scalelor pe care se măsoară valorile.
Variabile nominale (nivelul nominal) – variabile care pot lua un număr finit de
valori neordonate; variabile calitative, permit doar clasificarea observaţiilor. De
observat că nivelul de măsurare nu se modifică prin utilizarea unei codificări
numerice.
Variabilele calitative care au exact două valori sunt denumite dihotomice sau binare.
Codificarea prin 0/1 permite utilizarea acestor variabile în proceduri dedicate
nivelurilor mai înalte de măsurare (ordinal, interval).
Variabile ordinale (nivelul ordinal) – variabile ale căror valori sunt ordonate dar nu
este definită (nu se poate defini) distanţa dintre două valorile posibile.
Variabile de interval (nivelul interval) – variabile cu valori ordonate şi pentru care
este definită o distanţă (se poate gândi că valorile posibile sunt similare gradaţiilor
unei rigle uzuale). Dacă există o valoare zero adevărată, variabila se zice de
raport Variabilele de interval sunt cele mai complexe şi majoritatea tehnicilor
statistice au fost dezvoltate tocmai pentru aceste variabile.
Variabile continue – variabile care odată cu două valori pot lua orice valoare
intermediară; pot lua orice valori din domeniul lor. Variabilele de interval (raport)
sunt, de regulă, continue.
Variabile discrete – variabile care nu sunt continue. Variabilele nominale şi cele
ordinale sunt variabile discrete.
Distribuţia unei variabile — toate valorile unei variabile pentru fiecare caz
(element) studiat/cunoscut. Tipuri de distribuţie: 1. valorile pentru un eşantion sau
populaţie (distribuţie empirică), 2. distribuţia de sondaj a unei statistici (distribuţie
teoretică), 3. distribuţia privită ca structură a datelor, ilustrată numeric sau grafic.
Descrierea distribuţiilor
1. Tabelară
a. listarea datelor fără nicio ordonare prealabilă
b. tablouri ordonate - cu cât numărul de observaţii este mai mare, cu atât
este mai greu de intuit structura.
c. distribuţii de frecvenţe absolute - se pot utiliza pentru toate tipurile de
variabile, dar utilizarea cea mai frecventă este pentru datele discrete
(nominale, ordinale).
d. distribuţii de frecvenţe relative (procentuale) - evidenţiază valorile mai
frecvente, sunt utile pentru comparaţii.
e. distribuţii cumulate - atât pentru frecvenţe absolute, cât şi relative.
2. Grafică (tipurile uzuale)
a. grafice cu bare pentru date discrete.
b. histograme pentru date continue.
c. grafice arie pentru date cumulate.
Caracterizarea unei distribuţii - trebuie să surprindă trei aspecte
a. tendinţa centrală (referită uzual ca "medie" deşi poate fi vorba de
indicatori statistici diferiţi)
b. împrăştierea (cât de mult sunt repartizate sau depărtate valorile)
c. forma distribuţiei (simetria - asimetrie, aplatizare)
Rezumate pentru evaluarea tendinţei centrale - oferă o valoare de prognoză,
încrederea depinde de gradul de împrăştiere a valorilor
1. Mod - cea mai frecventă valoare; este utilizată în special pentru date discrete.
Pentru date continue se obişnuieşte gruparea datelor şi mijlocul intervalului
modal.
2. Mediana - valoarea care depăşeşte jumătate dintre observaţii (quantila de ordin
0.5); este o valoare "negociată" pentru date ordinale (valoarea care împarte cel
mai bine observaţiile). Deoarece presupune ordine între valori, nu se aplică
datelor nominale. Este un indicator de tendinţă centrală preferat în locul
mediei pentru distribuţii continue asimetrice.
3. Media - este media aritmetică a valorilor măsurate, utilizată pentru date
continue.
Rezumate pentru evaluarea împrăştierii
1. IQV (indicele de variaţie calitativă), Entropia - sunt utilizate în cazul datelor
discrete
2. Quantile - utilizate pentru datele ordonate (ordinale, de interval)
3. Domeniul (amplitudinea) - pentru date continue
4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz
pentru date ordinale), reprezintă domeniul centrat pe mediană şi care conţine
jumătate dintre valorile măsurate.
5. Dispersia (varianţa), abaterea standard - sunt indicatorii uzuali de caracterizare
a împrăştierii datelor continue. Interpretarea uzuală a abaterii standard este
aceea că, pentru o variabilă distribuită normal - această ipoteză se omite
uneori, prin exces - , circa 68% dintre valori diferă de medie cu cel mult o
abatere standard şi circa 95% dintre valori diferă de medie cu cel mult două
abateri standard.
Împreună cu media (aritmetică) sunt indicatorii statistici cei mai des invocaţi
in analiza datelor continue (de interval sau de raport).
B. Instrumente Excel
Pentru prelucrarea unui set de date memorat într-un document Excel se pot utiliza atât
funcţiile statistice ale aplicaţiei, cât şi proceduri obţinute prin Tools – Data Analysis.
Funcţiile statistice uzuale sunt (în ordine alfabetică):
AVEDEV – abaterea medie absolută NORMINV – inversa funcţiei de repartiţie
AVERAGE – media aritmetică normală
BINOMDIST – funcţia de repartiţie NORMSDIST – funcţia de repartiţie
binomială normală standard
CHIDIST – funcţia de repartiţie χ2 NORMSINV – inversa funcţiei de repartiţie
CHIINV – inversa funcţiei de repartiţie χ2 normală standard
CHITEST – aplicarea testului χ2 PERCENTILE – quantile
CONFIDENCE – intervalul de încredere QUARTILE – quartile
pentru medie RANK – rangul argumentului într-o listă
FDIST – funcţia de repartiţie F SKEW – coeficientul de asimetrie
FINV – inversa funcţiei de repartiţie F STANDARDIZE – valoarea standardizată a
FTEST – aplicarea testului F argumentului
HARMEAN – media armonică STDEV – abaterea standard
KURT – coeficientul de aplatizare TDIST – funcţia de repartiţie Student, t
MIN, MAX – valorile extreme din listă TINV – inversa funcţiei de repartiţie
MEDIAN – mediana Student
MODE – valoarea mod TTEST – aplicarea testului Student
NORMDIST – funcţia de repartiţie VAR – dispersia
normală

Pentru a utiliza procedurile statistice, trebuie ca prin Tools – AddIns să se


verifice dacă este instalat utilitarul Analysis ToolPak. În caz afirmativ, comanda
Tools – Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o
serie de prelucrări statistice conduse de dialogurile asociate. Astfel, Descriptive
Statistics va produce indicatorii statistici ai unei variabile continue.
Tot în partea de descriere statistică poate fi încadrată şi metoda de creare a
cuburilor OLAP prin Data – Pivot Table, metodă prin care se obţin distribuţiile
simple sau multivariate ale unor variabile discrete sau indicatorii statistici esenţiali ai
subpopulaţiilor.
De asemenea, nu trebuie uitat că toate procedurile legate de reprezentările
grafice, iniţiate prin Insert - Chart (sau uneltele corespunzătoare) sunt o parte a
prelucrării statistice descriptive oferind grafice, histograme etc.

C. Lucrarea practică
1. Se va importa în Excel fişierul de date
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
care conţine datele de la un examen de admitere la facultatea de
informatică, pe vremea când examenul includea şi o probă scrisă.
2. Se va stabili tipul fiecărei variabile (nominal, ordinal, interval)
• Legitimatie - numărul legitimaţiei (eliberate în ordinea
înscrierii)
• Bacalaureat - media la bacalaureat
• Optiune - proba la alegere (A - analiză matematică, C -
programare C, P - programare Pascal)
• Sala - sala de examen
• Scris - media la scris

S-ar putea să vă placă și