Sunteți pe pagina 1din 25

Pachete Software CSIE, ID, anul III

PRODUSE SOFTWARE STATISTICE


Piaa produselor software cuprinde o mare varietate de pachete software pentru analiza datelor statistice.

I.1. Criterii de alegere a pachetelor software statistice


Cele mai importante aspecte care trebuiesc avute n vedere la alegerea unui pachet de programe statistice sunt: Facilitile de gestiune a datelor statistice Funciile de analiz statistic disponibile Faciliti de reprezentare grafic Interfaa cu utilizatorul Celelalte criterii generale referitoare la alegerea produselor Facilitile de gestiune a datelor statistice Salvarea datelor n fiiere sau baze de date; de regul, gestiunea datelor i prelucrrilor nu este orientat pe documente, ca n aplicaiile de tip Office. Posibilitile de import de date din alte formate (versiuni anterioare, MS Access, MS Excel, valori separate prin virgul etc.) Posibiliti de export a datelor n alte formate Precizia de memorare a datelor numerice Volumul maxim de date ce poate fi memorat i prelucrat. Funciile de analiz statistic disponibile Sunt de regul structurate pe module care pot fi achiziionate independent, dup necesiti Faciliti de reprezentare grafic Flexibilitatea n generarea graficelor bazate pe date i pe rezultate Faciliti de configurare i adaptare a reprezentrilor de ex, prin culori, simboluri etc. Interfaa cu utilizatorul Trebuie s asigure un echilibru ntre accesul rapid la cele mai utilizate funcii i flexibilitatea de adaptare a prelucrrilor conform cerinelor utilizatorilor Cele mai multe p.sw. cuprind att o interfa grafic (meniuri, butoane) ct i un mod de operare de tip linie de comand. Prezentarea rezultatelor se face n ferestre sau zone specializate, n diferite formate (tabelar, text, grafic etc.). Sunt importante i facilitile de salvare /export a acestor rezultate.

Pachete Software CSIE, ID, anul III

I.2. Pai tipici n realizarea de analize statistice cu software specializat


Activitile uzuale pentru realizarea unei analize statistice sunt: 1. Introducerea datelor de lucru a. Definirea variabilelor b. Introducerea datelor statistice c. Sau: import din surse externe de date 2. Operaii de rearanjare a datelor n vederea prelucrrii 3. Execuia funciilor de prelucrare i interpretarea rezultatelor 4. Realizarea Ordinea acestor pai nu este strict secvenial, fiind adaptat dup scopul prelucrrii i rezultatele intermediare obinute. 1. Introducerea datelor de lucru Datele statistice sunt structurate tabelar, sub forma Variabilelor (pe coloane) i a Cazurilor (pe linii). Variabilele reprezint caracteristicile observate (de ex., pentru persoane, vrsta, nivel de educaie, nivel de venituri etc.), iar cazurile sunt seturi de valori ale acestor variabile pentru elementele din populaia statistic considerat. a. Definirea variabilelor b. Introducerea datelor statistice c. Sau: import din surse externe de date 2. Operaii de rearanjare a datelor n vederea prelucrrii 3. Execuia funciilor de prelucrare i interpretarea rezultatelor 4. Realizarea de reprezentri grafice ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Cteva dintre etapele care sunt parcurse n utilizarea produselor software statistice pentru rezolvarea diverselor analize statistice sunt: Definirea variabilelor - nainte de a ncepe introducerea datelor este necesar definirea variabilelor. Unele pachete software statistice realizeaz acest lucru n mod automat, dar indiferent dac o fac sau nu este preferabil ca acest lucru s fie efectuat de ctre utilizatorul familiarizat cu aceste date. Numele variabilelor este deseori limitat la opt caractere i nu este permis introducerea spaiilor ntre acestea. Este bine ca numele variabilelor s fie alese astfel nct s fie uor de neles astfel nct seturile de date s poat fi divizate sau concatenate fr a provoca confuzii. Multe produse program permit de asemenea s se ataeze variabilei descrieri textuale sub form de etichete. Introducerea datelor - majoritatea produselor software statistice dispun, pentru introducerea datelor, de un ecran de tip spreadsheet. Altele pot de asemenea s importe date din surse de date alternative, de exemplu Excel, din formate delimitate de tab-uri i alte formate statistice uzuale. nainte de efectuarea analizelor statistice, utilizatorul trebuie s se asigure de corectitudinea datelor, s verifice inexistena erorilor de introducere i a inconsistenei datelor. Verificarea

Pachete Software CSIE, ID, anul III

poate fi fcut direct de ctre utilizator dau pot fi folosite diverse faciliti oferite de produsele program. Selectarea metodei statistice care va fi utilizat - nainte de nceperea analizei, utilizatorul trebuie s i defineasc clar scopul acesteia, ntrebrile la care trebuie s rspund i care metod sau metode statistice vor fi utilizate pentru a rspunde la aceste ntrebri. Dup stabilirea cerinelor i a metodei de rezolvare se poate trece la utilizarea funciei corespunztoare din cadrul pachetului de programe. Execuia funciei statistice adecvate din cadrul produsului program Citirea i interpretarea rezultatelor multe pachete de programe statistice dispun de formate de ieire specializate, ofer diagrame i informaii standard pentru fiecare test statistic, precum i informaii suplimentare, afiabile n funcie de dorina utilizatorului. Programarea dac produsul software ofer utilizatorului funciile statistice i facilitile necesare efecturii analizei dorite, acesta va utiliza opiunile interfeei standard bazate pe meniuri i icoane. n caz contrar, dac produsul software ofer aceast posibilitate, se poate utiliza limbajul de programare propriu acestuia. Alegerea unui mod de lucru sau al altuia prezint att avantaje ct i dezavantaje. Utilizarea modului de lucru bazat pe meniuri i icoane poate fi util dac: - Utilizatorul nu are experien n lucrul cu produse software statistice. - Dac se rezolv analize clasice sau seturi de date predefinite. - Dac se rezolv un numr limitat de teste statistice. - Dac testele se repet de un numr limitat de ori. Programarea utiliznd limbajul de programare propriu al produsului software este recomandat - Dac datele au nevoie de prelucrri anterioare efecturii testelor - Dac se dorete utilizarea repetat a anumitor comenzi sau a unor structuri repetitive - Dac se dorete utilizarea unor analize statistice speciale pentru care meniul produsului program nu ofer funcii predefinite - Dac se dorete efectuarea aceluiai test de un numr foarte mare de ori sau a aceluiai test pe un numr mare de variabile - Dac se planific utilizarea programului de mai multe ori. Sintaxa limbajului de programare este diferit n funcie de pachetul de programe statistice. n continuare sunt prezentate cteva aspecte utile folosirii acestiu mod de lucru. Limbajele de programare se bazeaz pe logic. Dac se cunoate un limbaj de programare specific unui anumit produs software statistic sau un limbaj de programare de uz general, nu este dificil de a nva i utiliza limbajele specifice altor pachete de programe. nainte de activitatea de programare utilizatorul trebuie d cunoasc foarte bine metoda statistic care va fi programat Multe produse software, care dispun de limbaje de programare, dispun i de abloane standard pentru anumite teste statistice sau formate de afiarea a rezultatelor. Anumite pachete de programe afieaz echivalentul, n comenzi ale limbajului de programare, a lanului de opiuni selectate de utilizator n cadrul interfeei pe baz de meniu i icoane iar alte pachete software permit salvarea lanului de comenzi n fiier de tip text. Afiarea datelor de multe ori este util ca nainte de prelucrarea lor statistic, datele s fie vizualizate ntr-o form grafic. n acest scop orice produs software statistic ofer funcii specifice.

Pachete Software CSIE, ID, anul III

I.3. Consideraii privind unele dintre cele mai cunoscute pachete software statistice
SAS - Sistemul software SAS, produs de SAS Institute din Cary, North Carolina, USA, este un set de instrumente software care permite accesarea, managementul, prezentarea i analiza datelor. Poate fi utilizat pe diverse platforme hardware i este proiectat s funcioneze n mod similar pe diferite sisteme de operare. Produsele SAS pot fi utilizate pentru introducerea datelor, prelucrarea lor, pentru generarea rapoartelor i graficelor, pentru analiz matematic i statistic, pentru planificarea afacerilor, previziune i suport de decizie, mbuntirea calitilor analizelor statistice, evaluarea performanelor calculatoarelor i dezvoltarea de aplicaii proprii. Sistemul este astfel conceput nct ofer soluii pentru rezolvarea diverselor probleme ce apar n cadrul unei firme, putnd fi alese numai anumite componente aferente nevoilor fiecrui utilizator. Pe msur ce necesitile cresc, exist posibilitatea achiziionrii unor componente adiionale care se vor integra perfect cu soluiile oferite de pachetul anterior. Sistemul SAS este organizat ntr-un numr de module, numite produse, posibil de achiziionat separat SAS prezint o serie de avantaje dar i dezavantaje. El este un pachet complex, poate rula pe diferite platforme, de la mainframe-uri la PC-uri, dar poate fi mai dificil de utilizat i mai costisitor dect alte produse software statistice. SYSTAT produsul este realizat de compania Systat Software Inc., situat n San Jose, California, USA. SYSTAT este un produs software statistic puternic, care conine toate procedurile statistice necesare realizrii de analize eficiente de date. El ofer utilizatorului, de la cei mai elementari indicatori statistici descriptivi, la cele mai avansate metode de calcul. Interfaa de programare a produsului SYSTAT este mai uor de utilizat dect ar fi nvarea sintaxei limbajului de programare i deine capabiliti grafice puternice. Dintre utilizatorii care au folosit att SAS ct i SYSTAT, muli au preferat SYSTAT-ul, dar au utilizat SAS-ul pentru anumite procese, cum ar fi managementul datelor. SPSS - Statistical Package for the Social Sciences (SPSS) este un produs al firmei americane SPSS Inc., destinat gestionarii i analizei statistice a datelor. Produsul SPSS ofer o foarte mare varietate de prelucrri statistice, de la cele mai des folosite n practic (statistici descriptive, teste statistice) i pn la cele care necesit cunotine statistice avansate (modele liniare generale, analiza MANOVA etc.). Vizualizarea datelor este posibil prin tabele cu una, dou sau trei dimensiuni i prin diverse reprezentri grafice, n plan i n spaiul tridimensional. Produsul mbin facilitile oferite de pachete cunoscute, cum sunt Excel i Quattro Pro, pentru condensarea datelor n tabele i pentru reprezentri grafice, cu posibilitile de prelucrare statistic mai mult sau mai puin sofisticat. SPSS/Windows se adreseaz tuturor celor care au de efectuat calcule statistice, indiferent de domeniul n care i desfoar activitatea (urmrirea produciei i a vnzrilor, marketing, cercetare tiinific etc.). Dintre cei care folosesc produsul SPSS la ora actuala, jumtate lucreaz n industrie i afaceri, peste o treime n cercetare i nvmnt, iar majoritatea celorlali n instituii guvernamentale. Utilizarea SPSS/Windows prezint o serie de avantaje: suplee n stabilirea condiiilor de prelucrare a datelor, prezentare sugestiv a rezultatelor, n tabele i grafice, soluionarea problemelor complexe prin metode statistice avansate, simplitate n manevrare. SPSS/Windows este realizat sub forma modular. Fiecare utilizator are libertatea de a achiziiona doar acele componente care i sunt necesare.

Pachete Software CSIE, ID, anul III

STATA este un pachet software complet i integrat, care ofer facilitile necesare pentru analiza datelor, managementul datelor i grafice. Cu o interfa de tip point-and-click, ca i cu o sintax intuitiv a comenzilor, STATA este un produs software uor de utilizat, rapid i precis. Toate analizele pot fi reproduse i documentate. STATA ofer o documentaie complet, inclusiv un Base Reference Manual cu exemple i explicaii statistice, metode i formule. STATA este un produs programabil, astfel nct dezvolttorii i utilizatorii pot aduga, cu uurin, noi faciliti. Comenzile pentru managementul datelor ofer un control complet asupra tuturor tipurilor de date, utilizatorii pot s combine sau s sparg seriile de date, pot gestiona variabile. STATISTICA este un produs software de analiz realizat de firma StatSoft. Este un ansamblu integrat de module Windows care ncearc s acopere, reuind n mare msur, tot ceea ce nseamn prelucrri de date, teste i expertize statistice, precum i un bogat sortiment de grafice de cea mai bun calitate. Ceea ce impresioneaz la acest produs este complexitatea i multitudinea facilitilor pe care le pune la dispoziie. Aproape toate facilitile sunt accesibile prin intermediul butoanelor, situate n toolbar-ul din partea de sus a ferestrei, dar i prin intermediul sistemului de meniuri. Sistemul de ajutor (Help), de care dispune pachetul de programe, ofer explicaii referitoare la noiunile de statistic. Sunt explicate noiunile i procedurile de baz, care pot fi testate pe datele de test cu care este livrat programul. Dac utilizatorul dorete s efectueze o anumit expertiz statistic i nu tie exact la ce procedur trebuie s apeleze, ce variante are la dispoziie, dar cunoate ce rezultat urmrete s obin, atunci el are la dispoziie un sftuitor (Statistical Advisor) - de fapt un sistem expert bazat pe hipertext, accesibil din cadrul meniului Help, care pe baza unor ntrebri pe care le pune (n englez) i la care se rspunde prin selectarea variantei de rspuns care se potrivete cel mai bine, explic i detaliaz succesiv paii i neclaritile cu privire la procedura ce trebuie urmat. STATISTICA beneficiaz i de un limbaj de comand SCL (de la Statistica Command Language), care permite scrierea de programe care s ruleze Statistica n mod batch. Este permis lucrul cu macrouri (nregistrare, rulare), filtrele de import date recunosc fiiere STG, Megafile Manager, Excel, Lotus, Quattro, dBASE, Paradox, SPSS, ASCII Free i ASCII Fix, iar exportul de date se poate face pentru: MFM (Megafile Manager), Excel, Lotus, Symphony, i fiiere 3D Lotus, Quattro, dBASE III and IV, Paradox, SPSS Portable File format, ASCII (free and fixed format) i CSS/3 (versiunea pentru DOS de STATISTICA. La lansarea n execuie a aplicaiei controlul este gestionat prin intermediul unui modul numit Statistica Module Switcher. Acesta este un modul program care permite activarea oricruia dintre module specializate care compun STATISTICA, respectiv Data Management/MFM, Basic Statistics/Tables, Nonlinear Estimation, Nonparametric Statistics & Distribution Fitting, ANOVA/MANOVA, Linear Regression, Multiple Regression Analysis, Nonparametric Distribution, Canonical Analysis, Cluster Analysis, Reliability and Item Analysis, Discriminant Analysis, Log-Linear Analysis, Time Series / Forecasting Time Series Analysis, Quality Control, Process Analysis, Experimental Design, Multidimensional Scaling. Fiecare pachet software statistic are anumite avantaje i dezavantaje. Ca un tot, SAS, STATA i SPSS pot forma mpreun un set de instrumente care poate fi utilizat pentru o gam larg de analize statistice.

Pachete Software CSIE, ID, anul III

Cu Stat/Transfer este foarte uor de convertit fiierele de date create cu diferitele pachete software. Uneori, schimbarea unui pachet cu altul, poate fi chiar un avantaj, n funcie de natura problemei care va fi rezolvat. Pentru unele persoane, SPSS, cu interfa lui de tip point and click, poate fi mai uor de utilizat, STATA poate avea avantajele ei datorate performanelor iar, pentru analizele statistice, foarte multe persoane folosesc produsul SYSTAT. n general SYSTAT i SAS sunt compatibile n ceea ce privete facilitile de lucru pe PC. Ambele dispun de un limbaj de programare puternic i implementeaz o gam larg de metode statistice. SAS este mai adecvat pentru soluii de ntreprindere, unde datele pot exista n diferite formate. Muli statisticieni utilizeaz mai multe pachete software n acelai timp. Fcilitile de baz exist n toate pachetele, dar fiecare dintre acestea ofer i alte avantaje specifice, necesare n diferite tipuri de analize. Dac o persoan realizeaz frecvent anumite analize statistice, ea trebuie s fac, din fiecare dintre aceste pachete software, o parte din kit-ul de instrumente utilizat n analiza datelor. Exist faciliti specifice fiecrui produs software, de aceea utilizatorul trebuie s tie cu precizie ce intenioneaz s fac cu seriile de date.

Pachete Software CSIE, ID, anul III

II. EXCEL
II.1. EXCEL- DESCRIERE GENERAL
Microsoft Excel este un puternic pachet de calcul tabelar disponibil pentru Microsoft Windows i Apple Macintosh. Software-ul de tip calcul tabelar este utilizat pentru a stoca informaii n foi de calcul, pe linii i coloane, pentru a putea fi organizate i/sau prelucrate. Foile de calcul sunt proiectate s lucreze att cu numere ct i cu texte. Excel organizeaz lucrul n fiiere de tip workbooks; fiecare workbook poate conine mai multe foi de calcul, utilizate pentru listarea i analiza datelor. Excel conine o gam larg de funcii statistice, care pot servi ca instrument de nelegere a conceptelor statistice i de rezolvare a problemelor de acest tip. Excel-ul este util n organizarea i management-ul datelor, calcul tabelar i reprezentri grafice. Pentru realizarea analizelor statistice de amploare trebuie utilizate pachete statistice profesionale, cum ar fi SAS i SPSS. Microsoft Excel ofer un set de instrumente pentru analiza datelor, numit Analysis ToolPak, care poate fi utilizat n diverse faze de dezvoltare a analizelor statistice complexe. n acest scop, se furnizeaz datele i parametrii pentru fiecare dintre analize, iar instrumentul de analiz utilizeaz macro-funciile statistice corespunztoare i afieaz rezultatele ntr-un tabel de ieire. Unele instrumente auxiliare genereaz i diagrame auxiliare tabelelor de ieire. Excel furnizeaz multe alte funcii statistice, financiare i inginereti pentru foile de lucru. Unele dintre funciile statistice sunt predefinite iar altele devin disponibile dup instalarea Analysis ToolPak. Instrumentele de analiz Anova furnizeaz diferite tipuri de analiz de varian. Instrumentul care va fi utilizat depinde de numrul factorilor i de numrul eantioanelor pe care le utilizeaz din cadrul populaiilor testate. Anova: Single Factor efectueaz o analiz simpl de varian asupra datelor pentru dou sau mai multe eantioane. Analiza furnizeaz o testare a ipotezei c fiecare eantion este derivat din aceeai distribuie de probabilitate de baz fa de ipoteza c distribuia de probabilitate de baz nu este aceeai pentru toate eantioanele. Dac sunt numai dou eantioane, se poate utiliza la fel de bine funcia foii de lucru, TTEST. Cnd sunt mai mult de dou eantioane, nu este adecvat generalizarea funciei TTEST, ci poate fi utilizat numai modelul Single Factor Anova. Anova: Two-Factor With Replication - Acest instrument de analiz este util cnd datele pot fi clasificate dup dou dimensiuni diferite. Anova: Two-Factor Without Replication este un instrument de analiz util cnd datele sunt clasificate dup dou dimensiuni diferite, ca n cazul instrumentului Two-Factor case With Replication. Pentru acest instrument, ns, se presupune c exist o singur observaie pentru fiecare pereche Utiliznd acest instrument, se pot aplica testele din prima i a doua etap a

Pachete Software CSIE, ID, anul III

cazului Anova: Two-Factor With Replication, dar nu exist suficiente date pentru a aplica testul din a treia etap. Instrumentul de analiz de corelaie. Funciile foii de lucru CORREL i PEARSON calculeaz coeficientul de corelaie dintre dou variabile de msurare cnd msurarea fiecrei variabile este observat pentru fiecare dintre N subieci. (Orice observaie lips pentru oricare dintre subieci provoac ignorarea acelui subiect n analiz). Instrumentul de analiz a corelaiei este n special util cnd exist mai mult de dou variabile de msurare pentru fiecare dintre N subieci. Acesta furnizeaz un tabel cu rezultate, o matrice de corelaii, artnd valoarea funciei CORREL (sau PEARSON) aplicat fiecrei perechi posibile de variabile de msurare. Coeficientul de corelaie, la fel ca cel de covarian, este o msur a gradului de variaie comun al celor dou variabile de msurare. Spre deosebire de covarian, coeficientul de corelaie este msurat pe o scar, astfel c valoarea sa este independent de unitatea n care se exprim variabilele. Valoarea oricrui coeficient de corelaie trebuie s fie ntre -1 i +1 inclusiv. Se poate utiliza instrumentul de Corelaie pentru a examina fiecare pereche de variabile de msurare i pentru a determina dac cele dou variabile de msurare tind s se mute mpreun aceasta nsemnnd, dac valorile mari ale unei variabile tind s poat fi asociate cu valorile mari ale celeilalte variabile (corelaie pozitiv), dac valorile mici ale unei variabile tind s poat fi asociate cu valorile mici ale celeilalte variabile (corelaie negativ) sau dac valorile celor dou variabile tind s fie necorelate (corelaie aproape zero). Instrumentul de analiz de covarian. Instrumentele Corelaie i Covarian pot fi ambele utilizate n aceleai condiii, cnd exist N diferite variabile de msurare observate pe un set de indivizi. Instrumentele Corelaie i Covarian ofer, fiecare, un tabel de rezultate, o matrice, care arat coeficientul de corelaie sau, respectiv, de covarian dintre fiecare pereche de variabile de msurare. Deosebirea const n aceea c n timp ce coeficientul de corelaie este msurat pe o scar de la -1 la +1 inclusiv, covariana corespunztoare nu este msurat pe o scar. Att coeficientul de corelaie, ct i cel de covarian sunt msuri ale gradului de variaie comun pentru cele dou variabile. Instrumentul Covarian calculeaz valoarea funciei COVAR a foii de calcul, pentru fiecare pereche de variabile de msurare. (Utilizarea direct a funciei COVAR n locul instrumentului covarian este o alternativ rezonabil cnd exist numai dou variabile de msurare, adic N=2.) Intrarea pe diagonala tabelului cu rezultate al instrumentului covarian din rndul i, coloana i este covariana variabilei de msurare i cu ea nsi; adic este exact variana populaiei pentru acea variabil, calculat cu funcia VARP a foii de lucru. Instrumentul covarian se poate utiliza pentru a examina fiecare pereche de variabile de msurare i a determina dac valorile mari ale unei variabile tind s poat fi asociate cu valorile mari ale celeilalte variabile (covarian pozitiv), dac valorile mici ale unei variabile tind s poat fi asociate cu valorile mici ale celeilalte variabile (covarian negativ) sau dac valorile celor dou variabile tind s fie necorelate (covarian aproape zero).

Pachete Software CSIE, ID, anul III

Instrumentul de analiz a statisticilor descriptive. Acest instrument de analiz genereaz un raport de statistici univariabile pentru datele din zona de intrare, furniznd informaii despre tendina central i variabilitatea datelor. Instrumentul de analiz pentru netezirea exponenial. Acest instrument de analiz i formula aferent acestuia, estimeaz o valoare bazat pe prognoza din perioada anterioar, ajustat cu eroarea din acea prognoz. Instrumentul utilizeaz constanta de netezire a, mrimea ce determin ct de puternic rspunde prognoza la erorile din prognoza anterioar. Valori de la 0,2 la 0,3 sunt constante de netezire rezonabile. Aceste valori indic faptul c prognoza curent ar trebui ajustat cu 20 pn la 30 procente pentru eroarea din prognoza anterioar. Constante mai mari produc un rspuns mai rapid, dar pot produce proiecii nesigure. Constante mai mici pot determina o ntrziere mai mare a valorilor prognozate. Instrumentul de analiz Test F: Dublu-eantion pentru variane efectueaz un test F pe dou eantioane pentru a compara varianele a dou populaii. Instrumentul furnizeaz rezultatul testrii cu ipotez nul conform creia cele dou eantioane provin din distribuii cu varian egal, fa de ipoteza alternativ n care se consider c varianele nu sunt egale n distribuiile de baz. Instrumentul calculeaz valoarea f a unei statistici F (sau proporie F). O valoare f apropiat de 1 este dovad a varianelor egale ale populaiilor de baz. Instrumentul de analiz Fourier rezolv probleme n sisteme liniare i analizeaz periodic datele utiliznd metoda Fast Fourier Transform (FFT) pentru transformarea datelor. Acest instrument suport de asemenea transformri inverse, n care inversa datelor transformate returneaz datele iniiale. Instrumentul de analiz Histogram calculeaz frecvene individuale i cumulative pentru o zon de celule de date. Acest instrument genereaz datele pentru numrul de apariii ale unei valori n setul de date. Un tabel de tip histogram prezint limitele categoriilor i numrul de puncte ntre limita inferioar i limita curent. Punctajul cel mai frecvent reprezint modul datelor. Instrumentul de analiz Medie mobil proiecteaz valorile n perioada de prognoz pe baza valorii medii a variabile dup un anumit numr de perioade anterioare. O medie mobil furnizeaz informaii de tendin pe care o simpl medie a tuturor datelor istorice ar putea-o masca. Fiecare valoare prognozat se bazeaz pe formula

unde: N este numrul de perioade anterioare incluse n media mobil, Aj este valoarea actual la timpul j iar Fj este valoarea prognozat la timpul j Instrumentul de analiz Generator de numere aleatoare umple un interval cu numere independente aleatoare, derivate din una dintre mai multe distribuii.

Pachete Software CSIE, ID, anul III

Instrumentul de analiz Rang i percentil produce un tabel care conine rangul ordinal i procentual al fiecrei valori dintr-un set de date. Exist posibilitatea s se analizeze poziia relativ a valorilor dintr-un set de date. Acest instrument utilizeaz funciile foii de lucru RANK i PERCENTRANK. n mod implicit, funcia nu ine seama de valorile legate; dac se dorete totui acest lucru, ea va fi utilizat, mpreun cu factorul de corecie sugerat n fiierul de ajutor pentru RANK. Instrumentul de analiz Regresie execut analiza de regresie liniar prin utilizarea metodei celor mai mici ptrate, pentru a gsi o linie care corespunde unui set de observaii. Se ofer astfel posibilitatea analizrii modului n care o variabil dependent este afectat de valorile uneia sau a mai multor variabile independente. Instrumentul Regresie utilizeaz funcia LINEST a foii de lucru. Instrumentul de analiz Eantionare creeaz un eantion dintr-o populaie prin tratarea intervalului de intrare ca pe o populaie. Cnd populaia este prea mare pentru a o procesa sau pentru a o nscrie ntr-o diagram, exist posibilitatea utilizrii unui eantion reprezentativ. De asemenea, n cazul n care se consider c datele de intrare sunt periodice, exist posibilitatea crerii unui eantion care s conin numai valori dintr-o anumit parte a unui ciclu. Instrumentele de analiz test t pentru dou eantioane - testeaz egalitatea mediilor populaiilor de baz pentru fiecare dintre eantioane. Exist trei instrumente de acest tip, care folosesc ipoteze diferite: varianele populaiilor sunt egale, varianele populaiilor nu sunt egale i cele dou eantioane reprezint observaiile nainte i dup tratament asupra acelorai subieci. Pentru toate cele trei instrumente este calculat o valoare a statisticii t, i este prezentat ca t Stat n tabelul cu rezultate. n funcie de date, aceast valoare t, poate fi negativ sau pozitiv. Test t: Dou eantioane cu variane egale. Acest test t presupune c cele dou seturi de date provin din distribuii cu aceleai variane. I se spune test t homoscedastic. Exist posibilitatea s se utilizeze acest test t pentru a determina dac este probabil ca cele dou eantioane s provin din distribuii cu medii egale ale populaiilor. Test t: Dou eantioane cu variane inegale. Acest instrument de analiz execut un test t al lui Student pe dou eantioane. Acest test presupune c cele dou seturi de date provin din distribuii cu variane inegale i se numete test t heteroscedastic . Ca i n cazul varianelor egale, exist posibilitatea s se utilizeze acest test t pentru a determina dac este probabil ca cele dou eantioane s provin din distribuii cu medii egale ale populaiilor. Acest test se va utiliza atunci cnd n cele dou eantioane exist subieci distinci. Testul Pereche, descris mai jos, se va utiliza atunci cnd exist un singur set de subieci i cele dou eantioane reprezint msurtori ale subiecilor nainte i dup un experiment. Deoarece rezultatul calculului nu este, n general, un numr ntreg, valoarea lui df este rotunjit la cel mai apropiat ntreg pentru a obine o valoare critic din tabelul t.

Pachete Software CSIE, ID, anul III

Funcia Excel pentru foi de lucru, TTEST, utilizeaz valoarea calculat df fr a o rotunji, fiind deci posibil calcularea unei valori pentru TTEST fr ca valoarea lui df s fie n mod necesar un ntreg. Datorit acestor diferene de abordare pentru determinarea gradelor de libertate, rezultatele lui TTEST i ale acestui instrument test t vor diferi n cazul varianelor inegale. Test t: Dou eantioane pereche pentru medii. Testul pereche se va utiliza atunci cnd exist o coresponden natural a observaiilor din eantioane, cum ar fi atunci cnd un grup eantion este testat de dou ori - nainte i dup un experiment. Instrumentul de analiz efectueaz un test t al lui Student cu dou eantioane pereche pentru a determina dac este probabil ca observaiile fcute nainte i dup un experiment s provin din distribuii cu medii egale ale populaiilor. Aceast form de test t nu presupune c varianele celor dou populaii sunt egale. Printre rezultatele generate de instrument se afl variana centralizat. Test z: Instrumentul de analiz Dou eantioane pentru medii execut un test z pe dou eantioane pentru medii cu variane cunoscute. Acest instrument este utilizat pentru a testa ipoteza nul, care presupune c nu exist nici o diferen ntre mediile a dou populaii, n comparaie cu ipotezele alternative, fie cea unilateral fie cea bilateral. Dac varianele nu sunt cunoscute, n locul acestui instrument, trebuie utilizat funcia foii de lucru, ZTEST. Cnd se utilizeaz instrumentul Test z, trebuie mult atenie la interpretarea rezultatelor. Testul z poate s se utilizeze, de asemenea, pentru cazul cnd ipoteza nul specific faptul c exist o valoare diferit de zero pentru diferena dintre mediile a dou populaii.

III.1. SPSS DESCRIERE GENERAL


Statistical Package for the Social Sciences (pe scurt, SPSS) este un produs al firmei americane SPSS Inc. destinat gestionrii i analizei statistice a datelor. Firma SPSS s-a impus n domeniul realizrii de software pentru prelucrarea statistic a datelor prin produsul SPSS. Prima variant a produsului SPSS a fost elaborat acum 20 de ani. De atunci, fiecare dintre marile schimbri care au avut loc n lumea calculatoarelor a fost urmat, la scurta vreme, de apariia unei noi versiuni. Produsul SPSS ofer o foarte mare varietate de prelucrri statistice, de la cele mai des folosite n practic (statistici descriptive, teste statistice) i pn la cele care pretind cunotine statistice avansate (modele liniare generale, analiza MANOVA etc.). Vizualizarea datelor este posibil prin tabele cu una, dou sau trei dimensiuni i prin diverse reprezentri grafice, n plan i n spaiul tridimensional. SPSS mbin facilitile oferite de programe cunoscute, cum sunt Excel i Quattro Pro, pentru prelucrarea datelor n tabele i pentru reprezentri grafice, cu posibiliti de

Pachete Software CSIE, ID, anul III

prelucrare statistic mai mult sau mai puin avansate. Unele metode de calcul utilizate de SPSS/Windows nu sunt accesibile n alte programe de analiz statistic, precum BMDP, SYSTAT sau STATISTICA SPSS/Windows se adreseaz tuturor celor care au de efectuat calcule statistice, indiferent de domeniul n care i desfoar activitatea (urmrirea produciei i a vnzrilor, marketing, cercetare tiinific etc.). Utilizarea SPSS/Windows prezint urmtoarele avantaje: suplee n stabilirea condiiilor de prelucrare a datelor, prezentare sugestiv a rezultatelor n tabele i grafice, soluionarea problemelor complexe prin metode statistice avansate, simplitate n manevrare. SPSS/Windows este realizat sub forma modular. n consecin, fiecare utilizator are libertatea de a achiziiona doar acele componente care i sunt necesare.

III.2. MODULE SPSS


Se vor prezenta n continuare cteva dintre cele mai importante module SPSS: Base module - realizeaz gestionarea datelor i a fiierelor, transformarea datelor, diverse reprezentri grafice (histograme, diagrame de structur, nori statistici etc.), precum i prelucrrile statistice cele mai cunoscute i mai frecvent utilizate: calculul frecventelor, al indicilor tendinei centrale i al indicatorilor variabilitii; calculul unor msuri de asociere i testare a independentei probabilistice pentru date incluse n tabele de contingen compararea mediilor i a dispersiilor eantioanelor; analiza de varian unifactorial; calculul coeficienilor de corelaie Pearson, Kendall i Spearman; analiza de regresie liniar; teste neparametrice. Modulul Professional Statistics - include proceduri care servesc la cercetarea relaiilor dintre variabile, prin urmtoarele metode: analiza de discriminant; analiza factorial; analiza de clusteri; scalarea multidimensional; regresia ponderat; analiza fidelitii. Modulul Advanced Statistics - permite efectuarea unor prelucrri statistice complicate, necesare atunci cnd datele nu ndeplinesc condiiile de aplicare a prelucrrilor statistice obinuite (mai simple). Asemenea metode sunt: analiza de regresie logistic; diverse extinderi ale analizei de varian unifactorial ANOVA; analiza de varian multivariat MANOVA; analiza logliniar;

Pachete Software CSIE, ID, anul III

analiza de regresie neliniar; analiza probit i logit; analiza duratei de via; analiza de supravieuire Kaplan-Meier; modelul liniar general (GLM). Modulul Tables servete la condensarea datelor n tabele cu una, dou sau trei dimensiuni. Fiecare dimensiune este definit printr-o variabil sau printr-un grup de variabile (de exemplu, pe linii se poate reprezenta profesia i sexul subiecilor, iar pe coloane, rspunsurile posibile la un element dintr-un chestionar). Tabelele pot conine, alturi de valorile variabilelor, frecvente i valori ale unor indicatori statistici (media, abaterea standard etc.). Modulul Exact Tests determin nivelul de semnificaie (valorile p) pentru: teste neparametrice aplicate la un eantion, la dou eantioane independente sau perechi i la k eantioane dependente sau independente; teste aplicate tabelelor de contingen 2x2 i rxc; teste de semnificaie pentru coeficienii de corelaie Pearson i Spearman; teste referitoare la relaiile dintre variabile msurate pe scala nominal sau pe scala ordinal. Acest modul calculeaz valori exacte pentru nivelurile de semnificaie ale statisticilor, spre deosebire de modulul de baza, care calculeaz doar valori asimptotice. Modulul CHAID (Chi-squared Automatic Interaction Detector) aplica algoritmi de segmentare, pentru mprirea unei populaii n grupe disjuncte, care difer ntre ele n ceea ce privete un criteriu precizat. Grupele formate la fiecare pas al algoritmilor sunt vizualizate sub forma unei dendrograme. Modulul Categories se folosete n scopul determinrii influenei exercitate de caracteristicile produselor sau a serviciilor asupra preferinei consumatorilor. El permite i vizualizarea obiectelor analizate, prin puncte, n scopul identificrii asemnrii sau a deosebirii dintre acestea. Modulul TRENDS servete la analiza i reprezentarea grafica a seriilor de timp. El estimeaz coeficienii modelului potrivit unei serii de timp, prin urmtoarele tehnici: proceduri de netezire; metode de regresie; analiza Box-Jenkins (ARIMA), pentru modele sezoniere i nesezoniere unidimensionale; procedura de descompunere sezoniera, pentru determinarea factorilor sezonieri, aditivi i multiplicativi, din serii de timp periodice; analiza componentelor de frecventa.

III.3. CARACTERISTICI SPSS


Dintre caracteristicile produsului SPSS fac parte: Diversitatea condiiilor de prelucrare

Pachete Software CSIE, ID, anul III

Orice prelucrare se poate face n condiii extrem de variate. Spre exemplu, calculul frecventelor poate fi nsoit sau nu de afiarea tabelului de frecvente, de reprezentarea grafic prin histogram sau prin diagram n coloane, de calculul unor indici statistici cum ar fi cuantile, indici ai tendinei centrale (media, mediana, modul), parametri de mprtiere (dispersia, valoarea minima i maxima); reprezentarea grafic poate lua n considerare frecvenele absolute ale valorilor sau procentele; peste histogram se poate sau nu suprapune curba normal. Uurina n nvare, uurina n prelucrare Utilizatorul nu are nevoie sa citeasc manualul de utilizare pentru a ti cum s reaizeze o anumit prelucrare. Opiunea Help este accesibil permanent i i poate explica semnificaia diverilor termeni din meniuri i csue de dialog. n plus, un program tutorial on-line ofer explicaii i exemple care ajut la orientarea rapid printre numeroasele prelucrri care pot fi realizate de acest produs. Pachetul de programe poate fi folosit i de persoane puin iniiate n statistic. Pentru orice noiune, dintr-o csu de dialog sau chiar dintr-o list de ieire, se obine afiarea unui text explicativ, dac se alege din meniul Help, opiunea Whats This? i se indic denumirea respectiv. Cu SPSS se pot reactualiza i completa cunotinele de statistic, ntruct butonul Help permite accesul la un glosar de termeni statistici. Simplitate n manevrarea datelor de intrare Introducerea i modificarea datelor este o operaie simpl, datorit existenei unui editor gen spreadsheet. Pe ecran este afiat un tabel, ale crui linii corespund cazurilor (subieci care rspund unui chestionar sau obiecte observate) i n ale crui coloane figureaz variabilele (rspunsuri date de subieci ori rezultatele unor msurtori sau observaii. Utilizatorul poate naviga prin acest tabel, dup dorin, inspectnd valorile existente, schimbnd unele date, adugnd sau tergnd cazuri i variabile. SPSS adapteaz automat dimensiunile tabelului astfel nct sa nu se piard nici o valoare introdus. Nu exist limitri n privina numrului de cazuri sau de variabile care pot fi incluse n fiier. Comunicarea bidirecional cu alte programe Datele prelucrate de SPSS pot fi preluate i din fiiere provenind din alte programe, cum sunt: tabele create de Lotus 1-2-3 i Excel, baze de date create de dBase, fiiere de date salvate n format SYLK (symbolic link), fiiere de text ASCII. De asemenea, fiierele de date create de SPSS pot fi exportate n Lotus 1-2-3 i Excel sau pot fi salvate n format SYLK ori ca fiiere de text ASCII. Transformarea automat a datelor de intrare nainte de efectuarea prelucrrilor statistice, datele pot fi modificate automat de ctre SPSS, pe baza unor algoritmi indicai de utilizator pentru recodificarea valorilor sau prin aplicarea unor funcii matematice. De exemplu, ntr-un fiier n care cazurile sunt reprezentate de diverse produse iar variabilele de caracteristici ale acestora, toate preturile pot fi schimbate prin adugarea TVA-ului sau toate produsele realizate nainte de 1995 pot primi o aceeai valoare a datei de fabricaie care s semnifice nainte de 1995. Selectarea cazurilor prelucrate

Pachete Software CSIE, ID, anul III

Utilizatorul poate alege cazurile care s fie luate n considerare la efectuarea prelucrrilor, formulnd condiii asupra valorilor uneia sau a mai multor variabile. De exemplu, n studiul relaiei dintre nivelul de colarizare i preferina pentru diverse genuri muzicale pot fi incluse, din ntregul fiier de date, doar persoanele domiciliate n mediu urban. Tratarea speciala a datelor necunoscute Utilizatorul poate decide cum sa fie tratate de SPSS cazurile n care valoarea unei variabile nu este cunoscut sau nu prezint interes pentru cercetare. Ele pot s fie sau sa nu fie incluse n calcule. Evidenierea excepiilor Diverse grafice permit depistarea rapid a valorilor aberante. Acestea sunt valori izolate, diferite mult de celelalte din fiier, care ar putea fi datorate unor erori la introducerea datelor. Controlul asupra afirii informaiilor Utilizatorul are controlul deplin asupra tuturor variabilelor prelucrate. El decide cum s se afieze valorile n listele de ieire (pe ce lungime, cu cte cifre zecimale) i ce text s fie scris n locul denumirilor de variabile (dac acestea nu sunt destul de sugestive) sau n locul valorilor variabilelor (dac n fiierul de date s-au introdus coduri). De exemplu, dac pentru variabila corespunztoare mediului de domiciliu al subiecilor, cu denumirea MEDDOM, s-au introdus n fiier valorile U i R, n listele de ieire poate sa apr scris Urban n loc de U i Rural n loc de R, iar numele variabilei s fie nlocuit cu textul Mediu de domiciliu. Simplitate n selectarea opiunilor Alegerea modului de prelucrare a datelor este deosebit de simpl, datorit meniurilor i a cutiilor de dialog la care se ajunge prin manevrarea mause-ului. Pentru utilizatorii crora nu le place s foloseasc mause-ul, exist posibilitatea de a indica prelucrrile dorite prin scrierea de comenzi. Reinerea setului de comenzi selectate Dac un grup de prelucrri se efectueaz periodic (de exemplu, daca intereseaz situaia zilnic a vnzrilor pe magazine i produse) nu este nevoie s se repete de fiecare data ntreaga succesiune de cutari prin meniuri i de alegeri de opiuni. I se poate cere SPSS-ului s nregistreze ntr-un fiier de comenzi toate aceste operaii, executate de utilizator o singur data. Fiierul va fi rulat ori de cte ori este necesar. La nevoie, fiierul poate fi modificat, adugndu-se sau tergndu-se comenzi. Posibilitatea de formatare a rezultatelor Rezultatele prelucrrilor statistice se pot vizualiza prin tabele de diverse formate (sunt posibile 16 stiluri de ntocmire a tabelelor - i prin multe tipuri de reprezentri grafice: histograme, diagrame n coloane - izolate sau grupate, diagrame de structur circulare, nori statistici n care punctele corespunztoare unor grupe diferite de cazuri sunt colorate diferit, diagrame care indic n acelai timp media, valorile extreme i repartiia valorilor unei variabile pentru valori diferite ale altei variabile (de exemplu, reprezentarea grafica a vrstei persoanelor, n funcie de localitatea de domiciliu). Posibilitatea de modificare a rezultatelor

Pachete Software CSIE, ID, anul III

Listele de rezultate, tabelele i graficele realizate de SPSS pot fi incluse n rapoarte, aa cum se prezint pe ecran sau modificate. Utilizatorul poate interveni n ele prin: editarea de text; schimbarea caracteristicilor fontului (tip, stil, culoare, mrime); modificarea desenelor prin deplasarea axelor, rotirea lor sau chiar schimbarea tipului de grafic; ascunderea unor variabile din tabele; reorganizarea informaiilor din tabele (de exemplu, un tabel de frecvente, care conine pe linii rspunsurile la un chestionar, iar pe coloane localitatea de domiciliu si n cadrul fiecrei localiti, sexul clienilor, poate fi transformat ntrun tabel cu numai dou coloane, corespunztor sexului i cu grupe de linii, cte o grupa pentru fiecare localitate). Toate aceste operaii sunt uor de executat, datorit existentei a trei editoare: de text, de tabele i de grafice. Spre exemplu, schimbarea locului unei coloane dintr-un tabel se face trgnd cu mouse-ul de iconia corespunztoare ei.

IV.1. SYSTAT DESCRIERE GENERAL


SYSTAT este unul dintre cele mai cunoscute i utilizate pachete software statistice, el fiind un produs integrat, cuprinztor i uor de utilizat. Produsul a fost dezvoltat ncepnd cu anul 1970 de ctre Leland Wilkinson, profesor de statistic la University of Illinois, Chicago. Prima versiune PC/DOS a fost produs n anul 1984. Scopul lui Wilkinson a fost s ofere cercettorilor un instrument statistic pe PC cu ajutorul cruia s dezvolte i s estimeze o serie de statistici descriptive ca i un numr dintre cele mai cunoscute i utilizate modele statistice. La acel moment de timp erau puine pachete software statistice, dintre care principalele, cum ar fi SAS i SPSS erau nc orientate pe mainframe. n 1987 SYSTAT a realizat un pachet de grafic separate, numit SYGRAPH. Acesta a fost poate cel mai puternic pachet grafic statistic existent n acea perioad. Chiar dac funciona sub sistemul de operare DOS, facilitile lui grafice le depeau cu mult pe cele ale produselor SAS i SPSS. Versiunea Windows a produsului SYSTAT, denumit Versiunea 6 pentru Windows, a aprut in 1996. Alte produse software statistice, cum ar fi StatGraphics, Statistica, Stata, i SPSS au utilizat mult mai devreme facilitile oferite de interfaa grafic utilizator (GUI) oferit de Windows, oferind funcii grafice mult mai sofisticate. ncepnd cu versiunea 6, SYSTAT i-a mbuntit continuu oferta statistic precum i aspectele de interfa. ncepnd cu anul 2004, cnd a aprut versiunea 11, lista facilitilor oferite de SYSTAT a devenit impresionant, fcnd ca produsul s devin unul dintre cele mai puternice i prietenoase produse de pe pia. SYSTAT dispune de o interfa grafic puternic, uor de utilizat, cu faciliti de vizualizare rapid a datelor i a prezentrilor grafice. Interfaa, de tip Windows, este bazat pe meniuri, cuti de dialog precum i butoane rapide. Caracteristic este faptul c fiecare fereastr dispune de un meniu propriu.

Pachete Software CSIE, ID, anul III

Ieirile SYSTAT pot fi vizualizate n ferestre proprii i pot fi copiate sau mutate n alte ferestre de aplicaie. Rezultatele i graficele pot fi editate. Utilizatorul poate selecta dintro gama larga de font-uri, dimensiuni de caractere i figuri. Datele pot fi introduse prin intermediul unui editor de tip foaie de calcul, sau pot fi preluate din diverse tipuri de fiiere cum ar fi formate ASCII, DBF, EXCEL sau dBASE. De asemenea pot fi citite direct fiiere SPSS sau BMDP. Utilizatorul poate s exporte fiierele SYSTAT n fiiere de tipurile enumerate mai sus. Dintre analizele statistice oferite de produs, se pot aminti, printre altele: statistici descriptive conine ntreg setul standard de indicatori statistici, n plus 7 distribuii discrete, 18 distribuii continue etc., corelaii, distane i statistici de similaritate, corelaii canonice, analiza valorilor lips, modele logliniare, regresii, statistici neparametrice, testarea ipotezelor statistice, ANOVA i MANOVA, modele liniare, analiza de calitate, analiza de discriminant, analize cluster, scalare multidimensional, serii de timp, statistici spaiale, metoda Monte-Carlo, proiectarea experimentelor etc. Facilitile grafice oferite de produs cuprind, printre altele, grafice interactive, histograme, plot-uri de densitate, scatterplot, pentru proiecii geografice, multiplots, function-plots etc. Versiunea 11 a adugat noi formate de fiiere pentru salvarea graficelor i anume GIF, TIFF, PS, PNG, BMP, EPS, EMF, JPG, PICT, WMF i CGM. Managementul datelor este asigurat prin faciliti de selecii de tip Drag-and-drop, box-uri de dialog, posibilitatea de a utiliza pn la 3200 de variabile i un numr nelimitat de observaii, posibilitatea de a realiza toate transformrile i conversiile standard, calcule matriciale, generarea de numere aleatoare, limbajul BASIC pentru manipularea datelor, salvarea rezultatelor n format RTF sau HTML, help on-line. Utilizatorul are mai multe variante pentru introducerea datelor i anume posibilitatea de a utiliza ecranul Data Editor pentru introducerea lor direct de la tastatur, posibilitatea de a deschide fiiere de date create anterior prin intermediul aceluiai produs sau posibilitatea de a importa fiiere de alt format, cum sunt SAS v 9 (*sd2, *sas7bdat), SAS Transport (*xpt, *tpt), BMDP Text (*.por), BMDP Bin (*.sav), Minitab v 11 (*mbw), Dbase (*.dbf), SPSS (*sav), ArcView (*.shp), Statistica v 5 (*.sta), Lotus (*.wk1, *wk2, *wks), Stata (*.dta), DIF files (*.dif), Jmp v 3.2 (*.jmp), ASCII (*.txt, *.dat, *.csv), StatView (*svd). Produsul dispune de un limbaj de comand, de un nivel nalt, oferind astfel utilizatorului posibilitatea unui alt mod de operare a produsului. O alt facilitate interesant a pachetului STATIST este aceea de a salva, n fiiere de comenzi posibil de reutilizat, lanuri de selecii de meniuri i opiuni. De asemenea produsul ofer peste 500 de exemple de astfel de fiiere de comenzi, care pot fi folosite ca instrumente de nvare de ctre utilizatorii nceptori, care le pot utiliza pe propriile lor seturi de date.

V.1. STATISTICA DESCRIERE GENERAL

Pachete Software CSIE, ID, anul III

STATISTICA este un produs software de analiz statistic realizat de firma StatSoft. El este un ansamblu integrat de module Windows care ncearc s acopere, reuind n mare msur, tot ceea ce nseamn prelucrri de date, teste i expertize statistice, precum i un bogat sortiment de grafice de cea mai bun calitate. Ceea ce impresioneaz la acest produs este complexitatea i multitudinea facilitilor pe care le pune la dispoziie. Aproape toate facilitile sunt accesibile prin intermediul butoanelor, situate n toolbar-ul din partea de sus a ferestrei, dar i prin intermediul sistemului de meniuri. Sistemul de ajutor (Help), de care dispune pachetul de programe, ofer explicaii referitoare la noiunile de statistic, sunt explicate noiunile i procedurile de baz, care pot fi testate pe datele de test cu care este livrat programul. Dac utilizatorul dorete s efectueze o anumit expertiz statistic i nu tie exact ce procedur trebuie s apeleze, ce variante are la dispoziie, dar cunoate ce rezultat urmrete, atunci el are la dispoziie un sftuitor (Statistical Advisor) - de fapt un sistem expert bazat pe hipertext, accesibil din cadrul meniului Help, care pe baza unor ntrebri ce le pune (n englez) i la care se rspunde prin selectarea variantei de rspuns ce se potrivete cel mai bine, explic i detaliaz succesiv paii i neclaritile cu privire la procedura ce trebuie urmat. STATISTICA beneficiaz i de un limbaj de comand SCL (de la Statistica Command Language), care permite scrierea de programe care s ruleze Statistica n mod batch. De asemenea este permis lucrul cu macrouri (nregistrare, rulare), filtrele de import date recunosc fiiere STG, Megafile Manager, Excel, Lotus, Quattro, dBASE, Paradox, SPSS, ASCII Free i ASCII Fix, iar exportul de date se poate face pentru formate de urmtoarele tipuri: MFM (Megafile Manager), Excel, Lotus, Symphony, i fiiere 3D Lotus, Quattro, dBASE III i IV, Paradox, SPSS Portable File format, ASCII i CSS/3 (versiunea pentru DOS de STATISTICA. La lansarea n execuie a aplicaiei controlul este trecut prin filtrul lui Statistica Module Switcher, un modul program care permite activarea oricruia dintre cele nousprezece module specializate care compun STATISTICA, respectiv Data Management/MFM, Basic Statistics/Tables, Nonlinear Estimation, Nonparametric Statistics & Distribution Fitting, ANOVA/MANOVA, Linear Regression, Multiple Regression Analysis, Nonparametric Distribution, Canonical Analysis, Cluster Analysis, Reliability i Item Analysis, Discriminant Analysis, Log-Linear Analysis, Time Series/Forecasting Time Series Analysis, Quality Control, Process Analysis, Experimental Design, Multidimensional Scaling, STATISTICA Command Language. n afar de primul i de ultimul modul, care rezolv mai mult probleme legate de manipularea datelor i de programare, toate celelalte abordeaz cte un subdomeniu particular din statistic. Administrarea datelor Avnd ca element principal Megafile Manager modulul Data Management/MFM identific sistemul de gestiune a datelor ncorporat n Statistica/W. Conceput n genul spreadsheet-urilor, editorul de date care se afl la baza acestui modul este susinut de o serie de faciliti de restructurare a datelor. Practic, scopul principal al lui este de a

Pachete Software CSIE, ID, anul III

pregti datele pentru analize statistice. El poate gestiona i procesa direct diverse tipuri de date care necesit transformri, agregri i selectri, permind lucrul cu fiiere de date foarte mari. Posibilitatea gestionrii unor astfel de fiiere este extrem de util la ntreinerea unor bnci cu arhive mari de date constnd din unificarea i concatenarea a numeroase fiiere. MFM permite, printre altele, pstrarea legturilor ntre seturile de date legate (i ierarhic organizate). Subseturi de coloane din astfel de bnci de date pot fi extrase i folosite de o serie de alte aplicaii, printre acestea numrndu-se Excel, Paradox, dBase etc. pentru efectuarea de diverse analize. Megafile Manager (MFM) permite crearea de proceduri utilizator pentru verificarea i corectarea interactiv a datelor prin intermediul MML (limbajul propriu al acestuia, de fapt un superset al limbajului Quick MML) care ofer o serie de funcii specializate pe editarea interactiv i pentru verificarea datelor. MFM nu ofer doar faciliti de agregare, stocare i ntreinere de fiiere cu nregistrri de dimensiuni mari. Limbajul MLL integrat n acesta ofer o varietate de opiuni analitice precum i o bogat bibliotec de funcii specializate. Acesta include elementele statistice de baz i permite generarea de matricelor de corelaie de dimensiuni practic nelimitate. O alt facilitate mai deosebit este posibilitatea de prelucra valori text foarte lungi. Pentru a putea asigura toate aceste faciliti, MFM utilizeaz fiiere cu extensia mfm, avnd un format propriu, optimizat pentru activitile specifice ale acestuia. n ce privete limbajul Quick MLL, acesta opereaz direct pe fiierele de date produsului STATISTICA (.sta) i permite utilizatorului s scrie transformri extensive ale datelor i s codeze programe. El este integrat ntr-un mediu de editare/depanare i permite un acces rapid la manualele electronice care conin o serie de exemple i ntreaga sintax a limbajului, permind astfel chiar i unui novice s scrie programe fr a consulta vreun alt manual. n principiu, funciile (formulele) de prelucrare integrate n spreadsheet-urile din produsul STATISTICA sunt suficiente pentru executarea celor mai simple transformri, recodri sau verificri. ns multe sarcini de prelucare a datelor statistice necesit executarea de operaii ce nu pot fi definite prin intermediul formulelor individuale. Acestea ar fi: transformri pe baza unor condiii logice compuse, cicluri, funcii de codare complexe, procesare iterativ a cazurilor (observaiilor) sau chiar accesul aleator la anumite observaii (linii). Pentru efectuarea unor astfel de operaii este necesar un limbaj de programare adecvat i de aceea produsul STATISTICA pune la dispoziie Quick MLL. Odat datele introduse sau importate n fiier, trebuie efectuat verificarea integritii (consistenei logice) i completitudinea acestora. Prelucrri statistice Deoarece sunt folosite de obicei n faza de explorare a analizei datelor, elementele statistice incluse n modulul Basic Statistics and Tables sunt numite n mod convenional "statistici de baz" i sunt privite ca un grup unitar. Aici pot fi gsite o serie de teste destinate ce servesc diverselor scopuri pe care le urmrete analiza statistic. De exemplu, selectnd opiunea Descriptive statistics pot fi calculai coeficieni statistici de sumarizare, ca medii, dispersii, mediane, abateri standard etc., care de multe ori constituie

Pachete Software CSIE, ID, anul III

cea mai eficient metod de a sumariza datele. Statisticile descriptive pentru variabile ordinale pot fi calculate din modulul Nonparametric Statistics. Aceste statistici sunt de fapt "msuri de localizare" (medie, median, mod, etc.) i dispersii (varian, abatere medie, rangul cuartilei, etc.) i ele vin s completeze "imaginea" pe care utilizatorul dorete s o obin despre un anumit set de date. Dac se dorete determinarea unei relaii ntre dou variabile, de obicei se calculeaz coeficientul de corelaie. Produsul STATISTICA ofer, din modulul de baz, posibilitatea calculrii de matrice de corelaie (ptrate sau rectangulare) i a matricelor de corelaie n format expandat cu alegerea inteligent a perechilor (n, p - prag de semnificaie), iar prin intermediul modulul de statistici neparametrice permite calculul coeficienilor de corelaie neparametrici (r - Spearman, tau - Kendall, Gamma etc.) iar apoi testarea dependenei se poate face fie cu testul Hi-ptrat, fie cu testul exact al lui Fisher, fie pe baza coeficientului Fi. Dac se dorete testarea legturilor dintre mai multe variabile este disponibil testul concordanei ce utilizeaz coeficientul lui Kendall. Pentru calculul pragurilor de semnificaie i a valorilor critice (de exemplu valoarea semnificativ n cazul testului Hi-ptrat, corespunztoare unui prag de semnificaie p=0.05) se poate folosi opiunea Probability Calculator din modulul statisticilor de baz. Testul-t pentru eantioane independente permite compararea mediilor a dou grupuri n raport cu o anumit variabil. O serie de alte teste neparametrice pentru compararea de grupuri (Wald-Wolfowitz, testul U/Mann-Whitney i testul Kolmogorov-Smirnov pentru dou eantioane), sunt puse la dispoziie n modulul de statistici neparametrice, iar metode pentru compararea grupurilor de observaii parial cenzurate (incomplete) pot fi gsite n modulul Survival Analysis. Testul-t pentru eantioane dependente permite compararea mediilor ntre variabilele msurate pentru un acelai eantion de cazuri (subieci, indivizi). Alternativele neparametrice pentru acest test sunt testul semnului (Sign test) i testul perechilor potrivite al lui Wilcoxon (matched pairs test). Dac variabilele de interes sunt categorii naturale, atunci este recomandat testul McNemar/Hi-ptrat. Dac exist mai mult de dou variabile msurate la acelai eantion, se ofer posibilitatea de a utiliza repetat ANOVA (analiza dispersiei). Alternativele neparametrice oferite de produsul STATISTICA pentru aceast ultim metod sunt: analiza dispersiei a lui Friedman (2-ci) i testul Q al lui Cochran. Ultimul este n mod particular util la msurarea modificrilor n frecvene (proporii) de-a lungul timpului. Estimarea neliniar, posibil n STATISTICA datorit procedurilor nglobate n modulul ce poart acest nume, este folosit pentru a calcula dependenele (legturile) dintre un set de variabile independente i o variabil dependent. Ea se desfoar ntr-o manier asemntoare tehnicilor de regresie multipl sau de analiz a dispersiei, i poate fi privit ca o generalizare a acestor metode. Pe lng opiunea Frequency Tables, destinat calculului tabelelor de frecvene i a histogramelor, STATISTICA pune la dispoziie i o serie de opiuni pentru determinarea categoriilor (grupelor) folosite de tabelele de frecvene (intervale ntregi, coduri specifice, etc.). De asemenea, utilizatorul poate tabela datele n funcie de anumite condiii logice ce pot fi introduse direct de la tastatur, iar prin opiunea Crosstabulation & Stub-and-

Pachete Software CSIE, ID, anul III

Banner Tables se ofer acces la crearea mai multor tipuri de date tabelate n raport cu dou variabile (crosstabulation data). Modulul Log-Linear permite suplimentar crearea de tabele "crosstab" multi-ci (variabile) i ofer instrumentele necesare efecturii de analize linear-logaritmice sofisticate asupra acestora. n mod particular acest modul permite utilizatorului s testeze diferii factori ce sunt utilizai n tabelele crosstab i interaciunile acestora cu semnificaia statistic. (Semnificaia statistic - de nivel p - a unui rezultat reprezint o msur estimat a gradului n care acest rezultat este adevrat - n sensul c este reprezentativ pentru populaie). Analiza de regresie liniar multipl se poate realiza cu STATISTICA prin intermediul modulului Multiple Regression Analysis iar n acest caz se presupune c relaia dintre variabile este liniar. n practic aceast presupunere, virtual, aproape c nu poate fi confirmat; din fericire procedurile de regresie multipl nu sunt afectate (practic) de abaterile minore de la aceast presupunere. Ca regul general, de pruden, este indicat studierea graficului de mprtiere (scaterplot), creat pe baza celor dou variabile care prezint interes. Pentru aceasta, cnd se studiaz regresia multipl, programul permite obinerea de grafice (la cerere) direct din scrollsheet-ul ce conine matricea de corelaie, corespunztor zonei de celule selectate. Dac devierea este evident pot fi aplicate transformri variabilelor respective, fie via Quick MLL fie explicit pentru componentele neliniare. Modulul Cluster Analysis permite calcularea unei varieti mari de tipuri de msuri (pentru distane) i include mai muli algoritmi de clasificare. Analiza canonic este cuprins i ea ntr-un modul separat (Canonical Analysis) i are ca scop specific evaluarea relaiilor ntre seturi de variabile; iar procedura canonical correlation din acest modul rezolv problema evalurii relaiilor dintre variabilele simple. Scalarea multidimensional poate fi privit ca o alternativ la analiza factorilor, scopul acesteia fiind de a descoperi dimensiuni ascunse care s permit cercettorului s observe similaritile i disimilaritile dintre obiectele investigate. n analiza factorilor (Factor Analasys) similaritile dintre obiecte (variabile) sunt exprimate n matricea de corelaie. n multe domenii de cercetare, precizia msurtorilor de testare a ipotezelor sau a variabilelor devine ea nsi o problem. Pentru a oferi soluii de rezolvare pentru acest gen de probleme, STATISTICA pune la dispoziie, prin modulul Reliability & Item Analysis, cteva instrumente ce permit construirea unor scale de msur sigure (engl. reliable), ce le mbuntesc pe cele existente i care s poat permite evaluarea siguranei scalelor ce se sunt folosite. Discriminant Analysis (analiza discriminant), disponibil i ea n STATISTICA este de obicei folosit la determinarea variabilelor care difereniaz ntre dou sau mai multe grupuri ce pot apare n mod natural. Survival&Failure Time Analysis este un alt modul mai specializat care pune la dispoziie o serie de tehnici de analiz a supravieuirii/eecului i permite efectuarea unor comparri ale distribuiilor de supravieuire. Exist aici metode descriptive de estimare a distribuiei timpilor de supravieuire (life table, survival distribution i Kaplan-Meier

Pachete Software CSIE, ID, anul III

survivorship estimation), tehnici de comparare pentru dou sau mai multe grupuri (Weibull, Gompertz) i cteva modele de regresie pentru estimarea legturilor (multiple) a variabilelor continue cu timpi de supravieuire (Cox proporional hazard, log-normal, exponenial). Quality Control este modulul care pune la dispoziia utilizatorului o serie de metode on-line de control a calitii proceselor i au rolul de a monitoriza un proces de producie continuu. Prin aceast monitorizare continu se ncearc s se observe efectele celor doi inamici ai calitii produciei: abaterile de la specificaiile stabilite i variabilitatea excesiv n jurul acestor specificaii. Practic acest control, oferit de produsul STATISTICA, const n extragerea unor eantioane (de date specific unui proces de producie) de o anumit dimensiune, crearea diagramelor (liniare) de variabilitate i apoi determinarea apropierii de specificaiile urmrite; dac se observ o tendin n aceste linii sau dac eantionul "pic" n afara limitelor pre-specificate se poate spune c procesul este scpat de sub control i se trece la determinarea cauzelor. Process Analysis este un modul ce conine trei proceduri analitice diferite: estimarea dimensiunii eantioanelor, tehnici de analiz a capacitii proceselor i proceduri pentru proiecte de repetare i reproducere a msurilor i analiza acestora. Experimental Design este un modul care permite efectuarea de expertize statistice, mai exact proiectarea de experimente statistice. n cadrul acestui modul sunt puse la dispoziie patru tipuri (clase) majore de proiectare i analiz a experimentelor, i anume: proiectarea multi-factor pe 2-nivele (2**(k-p)), proiectarea central mixt (sau a suprafeei rspuns), proiectarea ptratelor latine (i greco-latine) i proiectarea robust a lui Tagushi. Faciliti grafice Din punct de vedere al facilitilor grafice, odat creat un grafic, fiecare avnd propria fereastr n care este afiat, utilizatorul are posibilitatea s-l modifice i personalizeze pn la cele mai mici amnunte. Acest lucru este asigurat de editorul grafic ncorporat care, pe lng adugarea de text, un control bun al culorilor la nivelul fiecrui element component al graficului, posibilitatea crerii ad-hoc de elemente grafice suplimentare cu ajutorul instrumentelor de desen integrate, ofer o serie de alte instrumente extrem de practice necesare pentru a obine o personalizare a oricrui grafic creat de utilizator. Pe lng graficele specializate, care sunt disponibile prin intermediul dialogurilor de ieire ale procedurilor statistice, mai exist dou tipuri de grafice accesibile prin intermediul meniurilor i a toolbar-urilor asociate scrollsheet-urilor i spreadsheet-urilor: grafice ajustabile (custom) i grafice predefinite (Stats and Quick Stats). Graficele ajustabile reprezint o categorie de grafice care permit vizualizarea oricrei combinaii (de linii, coloane i subseturi ale acestora) definite de utilizator. Cnd este selectat una dintre cele patru subcategorii generale de acest tip (Custom 2D, Custom 3D Sequential, Custom 3D XY sau Custom nD and Icons) din meniul Graph va apare o fereastr de dialog, specific tipului de grafic selectat, care va permite stabilirea preliminar a opiunilor graficului ce va fi creat. Pot fi stabilite: zona de date din foaia de lucru (spreadsheet sau scrollsheet) ce va fi reprezentat, tipului de grafic i eventual alte cteva opiuni specifice tipului de grafic selectat. Tipul graficului poate fi ns ajustat i

Pachete Software CSIE, ID, anul III

dup ce a fost creat, via General Layout sau Plot Layout dialoguri accesibile prin clic pe fundalul graficului sau din meniul Layouts. Aceste tipuri de grafice sunt: 2D (Scatterplot, Line Plot, Step Plot, Min-Max X, Min-Max Y, Bar X, Bar Left Y, Bar Right Y, Bar Top, Bar Dev, Pie, MPatt Bar i Voronoi) pentru grafice n dou dimensiuni; 3D Sequential (Box Plot, Block Plot, Ribbons, Lines, Spikes, Contour/Discrete, Surface Plot, Contour Plot) - grafice secveniale n trei dimensiuni; 3D Scatterplots and Surfaces (Scatterplot, Space Plot, Spectral Plot, Deviation Plot, Trace Plot, Surface Plot, Contour Plot) - grafice de mprtiere i suprafee. Pentru aceast subcategorie de grafice, n loc de a desena (puncta) n ntregime datele pe grafic, se poate opta pentru afiarea unei suprafee (sau desenarea unor contururi) obinndu-se astfel o imagine netezit a datelor corespunztor aplicrii uneia din urmtoarele transformri (fitting procedures - proceduri de fitare): Linear, Quadratic, Least Squares, Negative Exponential, Spline Smooth sau funcie utilizator. Custom Matrix and Icon Graphs (Scatterplot (matrix), Line (matrix), Column (matrix), Chernoff Faces, Stars, Sun Rays, Polygons, Pies, Columns, Lines, Profiles) ofer un bogat sortiment de grafice care sunt create pe baza unui suport de date matricial sau grafice cu tent iconic sugestiv. Graficele predefinite reprezint o categorie de grafice care este disponibil prin meniul pull-down i ofer sute de tipuri de reprezentri grafice i de sumare analitice. Acest tip de grafice nu sunt limitate la valorile din scroolsheet-ul curent i nu depind de blocul de date selectat sau de poziia curent a cursorului. Graficele predefinite reprezint att metode de standard de sumarizare grafic a datelor (diferite grafice de mprtiere, histograme, grafice de evideniere a tendinelor - mediana, etc.), ct i tehnici de analiz grafic standard (categorized normal probability plots, detrended probability plots, sau grafice cu intervalele de ncredere corespunztoare dreptelor de regresie). La generarea acestor grafice produsul STATISTICA va lua n considerare selecia cazurilor curente i condiiile de importan (greutate, engl. weighting) pentru variabilele selectate ce urmeaz a fi reprezentate grafic. Aceste tipuri de grafice sunt urmtoarele: 2D Histograms, 2D Scatterplots, Probability Plots, 2D Range Plots, 2D Box Plots, 2D Line Plots, Sequential/Stacked Plots, Pie Charts, 2D Custom Function Plots, 3D Sequential Graphs - Raw Data Plots, 3D Sequential Graphs - Bivariate Histograms, 3D Sequential Graphs - Range Plots, 3D Sequential Graphs - Box Plots, 3D XYZ Graphs - Scatterplots, 3D XYZ Graphs - Surface Plots, 3D XYZ Graphs - Contour Plots, 3D XYZ Graphs - Trace Plots, 3D Categorized Plots, 3D XYZ Graphs - Custom Function Plots, nD Matrix Plots, nD Icon Plots, Categorized Histograms, Categorized Scatterplots. Dintre toate aceste grafice, cele mai des folosite au fost grupate n categoria Quick Stats Graph fiind mai rapid accesibile prin intermediul mai multe ci: meniul Graph, meniurile zburtoare (flying menus) i din toolbar.

Pachete Software CSIE, ID, anul III

VI.1. SAS DESCRIERE GENERAL


Sistemul software SAS, produs de SAS Institute din Cary, North Carolina, USA, este un set de instrumente software care permite accesarea, managementul, prezentarea i analiza datelor. El poate fi utilizat pe diferite platforme hardware i este proiectat s funcioneze n mod similar pe diferite sisteme de operare. Produsele SAS pot fi utilizate pentru introducerea datelor, prelucrarea lor, pentru generarea rapoartelor i graficelor, pentru analiz matematic i statistic, pentru planificarea afacerilor, previziune i suport de decizie, mbuntirea calitilor analizelor statistice, evaluarea performanelor calculatoarelor i dezvoltarea de aplicaii proprii. Sistemul este astfel conceput nct ofer soluii pentru rezolvarea diverselor probleme ce apar n cadrul unei firme, putnd fi alese numai anumite componente aferente nevoilor fiecrui utilizator. Pe msur ce necesitaile cresc, exist posibilitatea achiziionrii unor componente adiionale care se vor integra perfect cu soluiile oferite de pachetul anterior SAS. Sistemul SAS este organizat ntr-un numr de module, numite produse, posibil de achiziionat separat, dintre care: Base SAS Software SAS/STAT Software SAS/ETS Software SAS/QC Software SAS/LAB Software SAS/EIS Software SAS/SPECTRAVIEW Software SAS/ACCESS Interface to Teradata Software SAS/ACCESS Interface to DB2 Software SAS/ACCESS Interface to ODBC Software SAS/ACCESS Interface to OLE DB Software SAS/ACCESS Interface to ORACLE Software SAS/ACCESS Interface to PC Files Software SAS/ACCESS Interface to SYBASE Software SAS/ACCESS Interface to R/3 Software SAS/GRAPH Software SAS/INSIGHT Software SAS/FSP Software SAS/Warehouse Administrator Software SAS/Enterprise Reporter Software SAS OnlineTutor Programming Software SAS/AF Software SAS/ASSIST Software SAS/CONNECT Software

Pachete Software CSIE, ID, anul III

SAS/GIS Software SAS/IML Software SAS/OR Software SAS/SECURE for Windows Software SAS/SHARE Software Enterprise Miner Client Solution SAS IT Resource Management-Client SAS Integration Technologies Software SAS/IntrNet Software

S-ar putea să vă placă și