Sunteți pe pagina 1din 19

Sisteme informatice de asistare a deciziilor

Stat Tools

Studeni: Nistor Alexandru-Paul, Rahovan Bernadeta, Lengyel


Francisca Lauxedia, Nerghe Norbert

Coordonator: Asist. Univ. Drd. Diana Moisuc


Microsoft Excel 2013 nu conine funcii statistice avansate,
sau instrumente de analiz a datelor pentru a executa toate
procedurile statistice. Astfel, StatTools este o extensie a Microsoft
Excel care extinde raza opiunilor statistice i grafice pentru
utilizatorii softului Excel. Sistemul de ajutor al extensiei StatTools
include explicaii detaliate ale analizei datelor i instrumentelor
de statistic pentru fiecare buton n parte.

n cele ce urmeaz, am s prezint butoanele aferente


extensiei software-ului Microsoft Excel, StatTools.

Primul meniu pe care l voi prezenta va fi ,,Data set


manager .

Data Set Manager definete un set de date i de variabile, iar


pe urm poate s l modifice sau s l tearg, dup preferine.
Dup ce apsm pe buton, ne va aprea o fereastr care
arat cam aa:

Urmtorul meniu pe care l voi prezenta, i anume ,,Data


viewer ne ajut s creem un grafic rapid de vizualizare a
variabilelor.

Dup ce apsm butonul, ne va aprea o fereastr care ne


ntreab pe baza cror variabile din tabelul pe care l-am creat
precedent utiliznd butonul ,,Data Set Manager dorim s ne
afieze graficul respectiv, iar aceea fereastr arat aa:

Dup cum se observ, tabelul pe care l-am nserat are trei


coloane, i anume nume, prenume i salar. Avnd n vedere c
numele i prenumele nu au date valorice, singurul criteriu de pe
baza cruia putem s creem graficul respectiv este, desigur,
salariul.
Dup ce apsm ok, o nou fereastra se va deschide, i
anume graficul cu valorile date de ctre noi, i anume salariile
aferente fiecrei persoane n parte din tabel.

Meniul Data utilities creeaz una sau mai


multe variabile noi cu utiliti diverse. Acest
buton se imparte n mai multe funcii, i anume:

Stack
Unstack
Transform
Lag
Difference
Interaction
Combination
Dummy
Random Sample

Comanda Stack ajut s transforme un set de variabile


neaezate ntr-un set de variabile aezate.

Dup ce selectm coloanele care dorim s le aranjm, excel


ne va deschide o pagin nou unde vor fi afiate n ordine ceea ce
am selectat.

Comanda Unstack transform un set de variabile din


formatul Stack n formatul Unstack.

Comanda Unstack face exact opusul comenzii Stack.

Comanda Transform execut o transformare non-linear al


oricrei variabile folosind una din cele patru transformri posibile:
logaritm natural, ptrat, rdcin ptrat sau reciproca. n plus,
poi s introduci o formul care va fi folosit s calculeze o
valoare a unei variabile transformate.

Comanda Lag creeaz una sau mai multe variabile noi


rmase bazate pe o variabil existent. O variabil rmas este o
versiune mai simpl a variabilei originale

Comanda Difference creeaz una sau mai multe variabile


diferite dintr-o variabil existent. Este folosit n primul rnd
pentru seriile de variabile n timp. Selectezi o variabil s fie
diferit i numrul de diferene (deobicei se ia 1 sau 2). Fiecare
variabil diferit conine diferene ale variabilei selectate.

Comanda Difference este deseori folosit n analize ale


seriilor de timp, cnd variabila original nu este staionar prin
timp.

Comanda Interaction creeaz una sau mai multe variabile de


interaciune din variabile existente. Variabilele de interaciune pot
fi create din dou variabile numerice, una numeric i una
variabil categoric, sau dou variabile categorice. Dac ambele
variabile sunt numerice, creeaz produsul lor.

Comanda Combination i permite s creezi o variabil


combinat din o mulime de variabile existente. Variabilele
existente sunt combinate dup una din urmtoarele operaii:
product, sum, average, min, max, sau min-max range.
Comanda Dummy creeaz una sau mai multe variabile
marionete, bazate pe variabile existente.

Avem dou opiuni:

Putem s creem o variabil marionet pentru fiecare


categorie a variabilelor categorice.
Putem s creem o singur variabil marionet dintr-o
variabil numeric, bazat pe o valoare cu cale tiat
pe care o selectm noi

Comanda Random sample genereaz orice numr al probei


aleatoare din variabilele selectate. Specificm numrul de probe
i mrimea probei pentru fiecare prob, i StatTools va genera
probele din variabilele selectate.

Meniul Summary Statistics ne permite s calculm mai multe


msuri sumare numerice pentru variabile singure sau pentru
perechi de variabile.

n cadrul Summary Statistics avem dou sub-comenzi, i


anume:

One-Variable Summary
Correlation and Covariance
Comanda One-Variable Summary calculeaz rezumatul
statistic pentru variabilele selectate. Aceast comand prevede
date rezumate pentru orice numr dintr-o mulime de variabile
numerice selectate. Acestea includ mean, median, standard
deviation, variance, minimum, maximum,
range, first quartile, third quartile,
interquartile range, mean absolute
deviation, skewness, kurtosis, count, sum, i
selected percentiles.

Comanda Corelation and Covariance produce un tabel de


corelaii sau/i un tabel al covarianelor ntre orice variabile
numerice selectate. Deoarece ambele din acest tabel sunt
simetrice, corelaia ntre X i Y este aceeai ca i corelaia ntre Y
i X.

Meniul Summary Graphs creeaz diagrame utile pentru


analize statistice. Rezultatele acestor diagrame sunt diagrame din
excel, n consecin, ele pot fi modificate ca i diagramele
implicite din excel.

Sunt patru feluri n care putem s generm diagrama, i


anume sub form de Histogram, Scatterplot, Box-Whisker Plot, i
Bar Chart.
Comenzile meniului Statistical Inference execut cele mai
comune analize ale deduciilor statistice: creeaz intervale de
ncredere i efectueaz ipoteze standard.

Prima sub-comand a meniului Statistical Inference este


Confidence Interval, care este mprit n comenzile Mean/Std.
Deviation i Proportion. Acest Confidence Interval poate fi calculat
folosind Analize de tip one-sample, analize de tip two-sample sau
analize de tip paired-sample. Numrul de variabile selectate
depinde de tipul de analiz utilizat.

Comanda Hypothesis Test


execut teste de ipoteze pentru
mean sau/i standard deviation
al variabilelor singure, sau
diferena ntre mean pentru o
pereche de variabile.

Comanda Sample Size Selection determin mrimea probei


necesar pentru a obine un interval de ncredere. Nu avem
nevoie de seturi de date sau variabile, deoarece mrimea
probelor sunt deobicei determinate nainte de a colecta datele.
Comanda One-Way ANOVA este o generalizare a dou
proceduri de probe pentru compararea mijloacelor ntre dou
populaii. Valoarea cheie n tabelul ANOVA este valoarea p.

Comanda Two-Way ANOVA execut n


dou feluri o analiz a variaiei. Ca i
exemplu, ntr-un studiu de performan a
golfului, doi factori ar putea fi marca i
temperatura de afar. Iar nivelele de tratare pentru marc ar
putea fi de la A la E, iar nivelul tratamentelor pentru temperatur
ar putea fi ,,rcoroas , ,,moderat sau ,,clduroas.

Comanda Chi-Square Independence Test comand teste


pentru independen ntre atribuiile coloanelor i rndurilor a
unui tabel de contingen.

Comanda Chi-Square Goodness-of-Fit Test este aplicat s


vedem dac frecvena distribuiilor a variabilelor categorice se
ncadreaz ntr-un model specific. Dou valori sunt implicate, o
valoare observat i o valoare de ateptat

Normality Tests

Deoarece multe proceduri statistice presupun c o variabil este distribuit in


mod normal este util in a avea multe metode de verificare. StatTools se mparte in
trei subcriterii.

Chi-square Test
Lilliefors Test
Q-Q Normal Plot

1. Cu Chi-square Test-putem testa dac o variabil este distribuit n mod


normal. Aceasta procedur de testare utilizeaz un hi-ptrat goodness-of-fit test
pentru a testa dac datele observate ntr-un specificat variabil ar fi putut proveni
dintr-o distribuie normal. Pentru a face acest lucru trebuie creat o histogram a
acestei variabile i sa vedem rezultatele. Singura cerin pentru Normalitatea testul
Chi-Square trebuie s fie de cel puin o variabil numeric.
2. Lilliefors Test- Procedura de testare Lilliefors ofer un test mult mai
puternic pentru normalitate dect testul mai familiar hi-ptrat goodness-of-fit test.
(Mai puternic nseamn c este mult mai probabil de a detecta non-normalitate
dac ea exist.) Aceasta se bazeaz pe o comparaie a CDF empiric i o cdf
normal, n cazul n care CDF reprezint funcia de distribuie cumulativ,
indicnd probabilitatea de a fi mai mic sau egal cu o valoare dat. Lilliefors
gsete maximul distana vertical dintre CDF empiric i CDF normal, i
compar acest maxim la valorile tabelate (care se bazeaz pe marime de mostra).
Dac distana vertical maxim observat este suficient de mare, exist dovezi c
datele nu vin dintr-o distribuie normal.
3. Q-Q Normal Plot - Q-Q Comanda se traseaz normal crend un complot
cuantila-cuantila (Q-Q) pentru o singur variabil. Acesta ofer un test informal de
normalitate. Dei detaliile sunt oarecum complexe, obiectivul este destul de
simplu: pentru a compara cuantile (sau percentile) pentru datele la cuantile dintr-o
distribuie normal. n cazul n care datele sunt, n esen normale, apoi punctele de
pe parcela Q-Q ar trebui s fie aproape de 45 de grade/linie. Cu toate acestea,
curbura evident n complot este un indiciu al unor forme de non-normalitate
(asimetrici, de exemplu).
Time Series and Forecasting

Procedurile privind Time Series i Forecasting sunt utilizate pentru a analiza


datele colectate de-a lungul timpului, aplicatii de previziune i de control.Metodele
de forecasting inlud i metoda Holt Metoda exponenial de netezire i Winters'
Metoda de netezire exponenial (pentru captarea tendin i de sezonalitate. Time
Series and Forecasting are patru subcriterii:

Time Series Graph


Autocorrelation
Runs Test for Randomness
Forecasting

1.Command Time Series Graph Creeaz serii de timp cu grafice pentru


variabilele selectate. Command Time Series Graph este comanda de parcele pentru
una sau mai multe serii variabile de timp. Dac sunt selectate dou variabile, avem
opiunea de a folosi identice sau diferite scale de pe axa Y pentru cele dou
variabile. O ultim opiune este util atunci cnd intervalele de valori pentru cele
dou variabile sunt considerabil diferite. Cu toate acestea, dac mai mult de dou
variabile sunt reprezentate grafic, toate acestea trebuie s mpart aceea i scal
vertical.Trebuie s existe cel puin o variabil numeric din setul de date. Acolo
poate fi, de asemenea, o data variabil. Dac dorim sa utilizam axa orizontal a
graficului, trebuie selectat ca variabila eticheta.
2. Autocorrelation calculeaz autocorelaiile pentru orice variabil
numeric selectat. De obicei, aceste variabile vor fi seri variabile de timp cu toate
c StatTools va efectua calculele pentru orice variabile.
3. Runs Test for Randomness- ne permite s verificm,,dezordinea,, de
valori pentru una sau mai multe variabile deobicei se refer pentru seri variabile
de timp. Raporteaz numrul ce ruleaz n secvene. n cazul n care o rula este un
numr consecutiv de valori pe de o parte sau alta un anumit punct de ntrerupere,
cum ar fi media sau mediana din secven. Pentru o secven aleatoare, ne asteptm
nici la mai puine puncte nici la foarte multe puncte.
4.Forecasting- Genereaz previziuni pentru variabilele seriilor de timp,
ofer o serie de metode pentru prognozarea unei serii variabile de timp. Aceste
metode includ mutarea metodei mediilor, metoda Holts exponenial (pentru
captarea tendin), i Winters' exponenial metoda de netezire (pentru captarea
tendin i de sezonalitate).
Forecating includ un set de coloane care arat diferitele calcule (de exemplu,
nivelurile netezite i tendinele pentru Holt metoda, factorii sezonieri din raportul
n-micare-medii metod, i aa mai departe), prognozele, i a erorilor de
prognoz.
Regression and Classification Menu

Comenzile Regression and Classification Menu este pentru a efectua analize


de regresie i de clasificare. Analizele de regresie disponibile includ multiple, n
trepte, nainte, napoi, i Block. Metodele de clasificare includ regresie logistic i
discriminant analiz.
1.Regression- Analiza regresiei susine diferite modele de regresie, inclusiv
Dummy Variable Regression (regresie cu categorie variabil) Regresie polinomial
i Regresie cu interaciuni ntre variabile. Opional Regresie Wizard ne ajut s
configurm acest model n cazul n care vrem s-l folosim.

Pentru a include o ecuaie putem folosi fiecare metod menionat mai sus.
Acestea sunt menionate ca Tipuri de regresie i includ Multiple, Stepwise,
Forward, Backward, i metoda Block . Rapoartele din fiecare regresie includ
msuri de sintez, un tabel ANOVA, i un tabel de estimat coeficien ii de regresie,
erorile lor standard, t-valorile lor, plus valorile lor i intervalele de ncredere de
95%.
Regresia Wizard ofer o modalitate mai uoar de a crea modele de regresie,
Dummy Variable Regression sau Polynomial Regression. Aceste modele necesit
transformarea variabilelor ( variabile derivate). Putem face cu ajutorul Wizard-
ului.

Model de regresie cu variabila neliniara


Opiunile includ:

2.Logistic regression efectueaz o regresie logistic, analizez un set de


variabile. Acesta este un tip de regresie neliniar. Logistic regression analizeaz
unde variabila dependent este binar (0 sau 1). Ar trebui s fie o variabil
dependent 0-1 care specific fiecare observaie, plus una sau mai multe variabile
independente, care pot fi utilizate pentru a estima probabilitatea de categoria 1. Un
al doilea format de set de date pentru regresia logistic este de a avea un
numrde variabile care s specifice numrul de ncercri observate la fiecare
combinaie de variabile independente. Apoi variabila dependentar trebui s indice
numrul de ncercri care rezult n valoare de 1. Rezultatul regresiei logistice este
o ecuaie de regresie care este similar cu o ecuaie obinuit de regresie multipl.
Cu toate acestea, trebuie s fie interpretat oarecum diferit. Procedura StatTools de
regresie logistic se bazeaz pe optimizarea pentru gsi ecuaia de regresie.
Aceast optimizare utilizeaz un complex de algoritm neliniar, astfel nct
procedura poate dura un timp, n funcie de numrul de variabile i observaii,
precum i viteza PC-ului.

3. The Discriminant Analysis efectueaz o analiz discriminant pe un set


de date. n aceast analiz exist o variabil categorie, care specific care dintre
dou sau mai multe grupuri de observaie este n plus una sau mai multe variabile
independente, care pot fi folosite pentru a prezice membrul grupului. Exist dou
moduri de a prezice membrul grupului. Modul mai general, valabil pentru orice
numr de grupuri, este de a calcula distana statistic a fiecare observa ie la
media fiecrui grup i pentru a clasifica observaia n conformitate cu cea mai mic
statistic distan. O a doua metod, utilizat pentru grupa doua este de a calcula
funcia descriminant (o expresie liniar a variabilei independente) i s clasificm
fiecare observaie dac valoarea sa discriminant este mai mic sau mai mare dect
unele valori. Aceast a doua metod, de asemenea, ne permite s specificm
probabilitile anterioare de membru al grupului, precum i costurile de clasificare
eronat. Apoi, procedura de clasificare este echivalent cu minimalizarea costul
estimat de clasificare eronat.
Quality Control Menu- aceast metod analizez datele colectate de-a
lungul timpului, cu aplicatii de control al calitii. Diagrama Pareto afieaz
importana relativ a diferitelor categorii n date categorice. Cele patru tipuri de
grafice de control grafic datele seriilor de timp ne permit s vedeam dac un proces
este n control statistic. Putem vedea dac datele rmn n limitele de control pe
diagram, i putem de asemenea verifica pentru alte tipuri de comportamente.

Quality Control Menu are 5 subcriterii:

1. Pareto Chart sunt utile pentru determinarea celeor mai importante


elemente dintr-un grup de date categorice fcnd un chart. De obicei, diagrama
Pareto este utilizat[ n domeniul asigurrii calitii pentru a determina c iva
factori
2. X/R Charts Aceast analiz produce diagrame X-bar i R pentru date
de serii de timp.
3. P Chart diagrame P sunt create pentru date ,,atribute,, n cazul n care
fiecare observaie indic numrul (sau fraciunea) acelor elemente care nu sunt
conform specificate.
4.C Chart sunt folosite pentru a reprezenta grafic numrul de defecte
pentru elementele unei constant.
5 U Chart sunt similare cu diagram C, dar ele se traseaz ca rata
defectelor.

Nonparametric Tests Menu

Meniul testelor neparametrice sunt proceduri statistice pentru a testa ipoteze


despre care stau la baza distribuii de probabilitate. Ipoteza face presupuneri despre
tipul de distribuie care stau la baza (de obicei, c acesta este normal), i estimarea
parametrilor de acest tip de distribuie (de obicei, medie i deviaia standard). n
multe aplicaii ipoteza normalitate nu este valida. De exemplu, numrul de apeluri
pe or la un centru de service client i timpul de ateptare la o cas ntr-un
supermarket nu sunt normal distribuite.

Comanda Sign test efectueaza testare selectat variabilele semn testa


comanda efectueaz un test de ipoteza mediana de o singur variabil (o prob de
analiz) sau median diferenele pentru o pereche de variabile (asociate-prob de
analiz). Testul face orice presupuneri despre forma de distribuie (i n special nu
i asum c este normal). O prob de analiz poate fi folosit cu date ordinale aa
cum este descris n imaginea de ansamblu

Wilcoxon Sign-Rank Test efectueaz ipoteza de teste pentru mediana de o


singur variabil (o prob de analiz) sau pentru mediana de diferen pentru o
pereche de variabile (asociate-prob de analiz). Testul presupune c distribuia de
probabilitate este simetric, dar se presupune c este normal.
Mann-Whitney test efectueaz un test de ipoteza pe dou eantioane. ntr-o
versiune de test (versiunea Median) afirm c medianele a dou populaii sunt
identice. n aceast versiune de distribuii de probabilitate se presupune c au
aceeai form. n alt versiune (versiunea generala) aceast ipotez nu este fcut,
i ipoteza neag c distribuia de probabilitate tinde s cedeze valori mai mici dect
alte (mai precis, se afirm c P [X1 > X2] = P [X2 > X1], unde P [X1 > X2] este
probabilitatea ca o observaie din partea populaiei 1 este mai mare dect o
observaie din partea populaiei 2). Reinei c testul Mann-Whitney poate fi folosit
pentru a respinge ipoteza c cele dou eantioane sunt generate de aceeai
distribuie de probabilitate. Testul Mann-Whitney este adesea denumit testul
Wilcoxon rang-suma.

Kruskal-Wallis test on variables efectueaz un test de ipoteza


pe trei sau mai multe probe. Se extinde la testul Mann-Whitney, la care se aplic
perechi de variabile. n versiunea generala de testare, ipoteza afirm c toate
probele provin de la aceeai distribuie. n acest caz, se presupune c sunt
distribuii continue. Pe de alt parte, n cazul n care este posibil s se presupun c
toate distributiile de populatie au aceeasi forma (normale sau nu), ipoteza afirm c
medianele populaiei sunt identice.

Multivariate Analysis Menu

Dou proceduri n aceast seciune se ncadreaz n zona generale de analiza


multivariat. Ele lucra pe un numr de variabile simultan. Primul ncearc s
gseasc variabile corelate, care pot fi combinate, astfel nct dimensiunea setului
de date pot fi reduse. A doua ncearc s gseasc subseturi de cazuri, care sunt "la
fel".
Principal Components Analysis Command efectueaz principalele
componente de analiza pe variabilele selectate, principalele componente de analiza
este o procedur pentru a reduce dimensionalitatea unui set de date cu mai multe
variaii. Mai exact, se transform un set de variabile corelate ntr-un numr mai
mic de variabile necorelate. Aceast analiz este adesea folosit ca date de intrare
pentru alte analize:

n regresie liniar este utilizat n cazul n care exist probleme de


multicolinearitate, sau n cazul n care numrul de variabile independente
este relativ mare n raport cu numrul de observaii.

Cluster Analysis Command cauta modele ntr-un set de date n scopul de a


clasifica observaii sau variabile n grupuri de elemente similare. Aceast
procedur utilizeaz mai multe \"agglomerative hierarchical\" metode. Fiecare
dintre aceste metode incepe cu fiecare observaie ntr-un cluster separat i apoi,
ntr-o serie de pai, combina grupuri pentru a termina cu un singur grup care
conine toate observaiile. Selectnd una dintre etapele din procedura nainte de a
ajunge la un singur grup, vei obine o mprire a setului de date n grupuri de
elemente similare. Analiza accept o varietate de metode agglomerative ierarhice i
msuri de distanta. Putei selecta, de asemenea, printre trei opiuni pentru a
determina numrul final al cluster-ului pentru a fi generate. Procesul de cluster este
rezumat de un grafic cunoscut ca un \"dendrogram\" i de un tabel cuprinznd
etape ale procesului.