Sunteți pe pagina 1din 4

Statistic multivariat

Lucrarea nr. 1 Statistic descriptiv (Excel)


A. Noiuni teoretice
Variabil o caracteristic ale crei valori se modific dup elementele studiate (este modelat printr-o variabil aleatorie). Statistica este inutil n analiza caracteristicilor constante n domeniul observat. Observaie valorile unei mulimi de variabile msurate pentru un element studiat. Statistic descriptiv 1. Valoare care reprezint o sintez, un rezumat al valorilor unei caracteristici pentru un eantion sau care evalueaz relaia dintre dou variabile. 2. Parte a statisticii care privete descrierea variabilelor (calcularea indicatorilor statistici descriptivi statisticile descriptive , reprezentri grafice etc.). Statistic inferenial Parte a statisticii care cuprinde procedurile prin intermediul crora se pot obine aseriuni asupra populaiei studiate din observaiile efectuate asupra unui eantion din acea populaie. Msurare atribuirea de valori la elemente, observaii potrivit unei reguli; este procesul prin care se obin valorile variabilelor. Scal de msur regula prin care se atribuie o valoare numeric n procesul de msurare. Niveluri de msurare clasificarea variabilelor dup proprietile numerice asociate scalelor pe care se msoar valorile. Variabile nominale (nivelul nominal) variabile care pot lua un numr finit de valori neordonate; variabile calitative, permit doar clasificarea observaiilor. De observat c nivelul de msurare nu se modific prin utilizarea unei codificri numerice. Variabilele calitative care au exact dou valori sunt denumite dihotomice sau binare. Codificarea prin 0/1 permite utilizarea acestor variabile n proceduri dedicate nivelurilor mai nalte de msurare (ordinal, interval). Variabile ordinale (nivelul ordinal) variabile ale cror valori sunt ordonate dar nu este definit (nu se poate defini) distana dintre dou valorile posibile. Variabile de interval (nivelul interval) variabile cu valori ordonate i pentru care este definit o distan (se poate gndi c valorile posibile sunt similare gradaiilor unei rigle uzuale). Dac exist o valoare zero adevrat, variabila se zice de raport Variabilele de interval sunt cele mai complexe i majoritatea tehnicilor statistice au fost dezvoltate tocmai pentru aceste variabile. Variabile continue variabile care odat cu dou valori pot lua orice valoare intermediar; pot lua orice valori din domeniul lor. Variabilele de interval (raport) sunt, de regul, continue. Variabile discrete variabile care nu sunt continue. Variabilele nominale i cele ordinale sunt variabile discrete. Distribuia unei variabile toate valorile unei variabile pentru fiecare caz (element) studiat/cunoscut. Tipuri de distribuie: 1. valorile pentru un eantion sau populaie (distribuie empiric), 2. distribuia de sondaj a unei statistici (distribuie teoretic), 3. distribuia privit ca structur a datelor, ilustrat numeric sau grafic.
Descrierea distribuiilor

1. Tabelar a. listarea datelor fr nicio ordonare prealabil

b. tablouri ordonate - cu ct numrul de observaii este mai mare, cu att este mai greu de intuit structura. c. distribuii de frecvene absolute - se pot utiliza pentru toate tipurile de variabile, dar utilizarea cea mai frecvent este pentru datele discrete (nominale, ordinale). d. distribuii de frecvene relative (procentuale) - evideniaz valorile mai frecvente, sunt utile pentru comparaii. e. distribuii cumulate - att pentru frecvene absolute, ct i relative. 2. Grafic (tipurile uzuale) a. grafice cu bare pentru date discrete. b. histograme pentru date continue. c. grafice arie pentru date cumulate. Caracterizarea unei distribuii - trebuie s surprind trei aspecte a. tendina central (referit uzual ca "medie" dei poate fi vorba de indicatori statistici diferii) b. mprtierea (ct de mult sunt repartizate sau deprtate valorile)
c. forma distribuiei (simetria - asimetrie, aplatizare)

Rezumate pentru evaluarea tendinei centrale - ofer o valoare de prognoz, ncrederea depinde de gradul de mprtiere a valorilor 1. Mod - cea mai frecvent valoare; este utilizat n special pentru date discrete. Pentru date continue se obinuiete gruparea datelor i mijlocul intervalului modal. 2. Mediana - valoarea care depete jumtate dintre observaii (quantila de ordin 0.5); este o valoare "negociat" pentru date ordinale (valoarea care mparte cel mai bine observaiile). Deoarece presupune ordine ntre valori, nu se aplic datelor nominale. Este un indicator de tendin central preferat n locul mediei pentru distribuii continue asimetrice. 3. Media - este media aritmetic a valorilor msurate, utilizat pentru date continue. Rezumate pentru evaluarea mprtierii 1. IQV (indicele de variaie calitativ), Entropia - sunt utilizate n cazul datelor discrete 2. Quantile - utilizate pentru datele ordonate (ordinale, de interval) 3. Domeniul (amplitudinea) - pentru date continue 4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz pentru date ordinale), reprezint domeniul centrat pe median i care conine jumtate dintre valorile msurate. 5. Dispersia (variana), abaterea standard - sunt indicatorii uzuali de caracterizare a mprtierii datelor continue. Interpretarea uzual a abaterii standard este aceea c, pentru o variabil distribuit normal - aceast ipotez se omite uneori, prin exces - , circa 68% dintre valori difer de medie cu cel mult o abatere standard i circa 95% dintre valori difer de medie cu cel mult dou abateri standard. mpreun cu media (aritmetic) sunt indicatorii statistici cei mai des invocai in analiza datelor continue (de interval sau de raport).

B. Instrumente Excel
Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att funciile statistice ale aplicaiei, ct i proceduri obinute prin Tools Data Analysis. Funciile statistice uzuale sunt (n ordine alfabetic):
AVEDEV abaterea medie absolut AVERAGE media aritmetic BINOMDIST funcia de repartiie binomial CHIDIST funcia de repartiie 2 CHIINV inversa funciei de repartiie 2 CHITEST aplicarea testului 2 CONFIDENCE intervalul de ncredere pentru medie FDIST funcia de repartiie F FINV inversa funciei de repartiie F FTEST aplicarea testului F HARMEAN media armonic KURT coeficientul de aplatizare MIN, MAX valorile extreme din list MEDIAN mediana MODE valoarea mod NORMDIST funcia de repartiie normal NORMINV inversa funciei de repartiie normal NORMSDIST funcia de repartiie normal standard NORMSINV inversa funciei de repartiie normal standard PERCENTILE quantile QUARTILE quartile RANK rangul argumentului ntr-o list SKEW coeficientul de asimetrie STANDARDIZE valoarea standardizat a argumentului STDEV abaterea standard TDIST funcia de repartiie Student, t TINV inversa funciei de repartiie Student TTEST aplicarea testului Student VAR dispersia

Pentru a utiliza procedurile statistice, trebuie ca prin Tools AddIns s se verifice dac este instalat utilitarul Analysis ToolPak. n caz afirmativ, comanda Tools Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrri statistice conduse de dialogurile asociate. Astfel, Descriptive Statistics va produce indicatorii statistici ai unei variabile continue. Tot n partea de descriere statistic poate fi ncadrat i metoda de creare a cuburilor OLAP prin Data Pivot Table, metod prin care se obin distribuiile simple sau multivariate ale unor variabile discrete sau indicatorii statistici eseniali ai subpopulaiilor. De asemenea, nu trebuie uitat c toate procedurile legate de reprezentrile grafice, iniiate prin Insert - Chart (sau uneltele corespunztoare) sunt o parte a prelucrrii statistice descriptive oferind grafice, histograme etc.

C. Lucrarea practic
1. Se va importa n Excel fiierul de date http://thor.info.uaic.ro/~val/statistica/Admitere.txt care conine datele de la un examen de admitere la facultatea de informatic, pe vremea cnd examenul includea i o prob scris. 2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval) Legitimatie - numrul legitimaiei (eliberate n ordinea nscrierii) Bacalaureat - media la bacalaureat Optiune - proba la alegere (A - analiz matematic, C programare C, P - programare Pascal) Sala - sala de examen Scris - media la scris

3. 4. 5. 6. 7.

Final - media final Situatie - situaia dup examen (1 - fr taxa, 2 - cu tax, 3 respins, 4 - n ateptare) Se vor caracteriza variabilele cu ajutorul indicatorilor statistici adecvai. Se vor realiza grafice de ilustrare a distribuiilor variabilelor. Se vor identifica subpopulaiile pentru care este de interes s se realizeze prelucrri separate. S se creeze tablourile de frecvene ncruciate dintre variabilele Opiune i Situaie, incluznd i calculul frecvenelor relative. Utiliznd att indicatori statistici ct i reprezentri grafice, se vor compara subpopulaiile att dup repartiiile unor variabile discrete, ct i a unor variabile continue. Se va decide: i. dac a fost mai avantajos s se dea examen la analiz sau la programare; la analiz, la programare C sau la programare Pascal; ii. care candidai i-au depit ateptarea dat de media la bacalaureat; iii. dac s-au obinut note mai mari la scris de ctre cei care au susinut proba n sli de examen mai mari; iv. dac se poate spune c acei candidai care s-au nscris n primele zile au avut rezultate mai bune.

S-ar putea să vă placă și