Sunteți pe pagina 1din 3

LUCRUL CU DATE NTR-UN PROIECT nainte de a realiza orice n SAS EG este necesar s adugai datele pe care dorii s le analizai

n proiect. Pe lng fiierele de date SAS (date locale sau la distan), SAS Enterprise Guide poate citi majoritatea tipurilor de fiiere de date ca HTML (date locale), tabele Microsoft Access, foi de calcul Microsoft Excel i foi de calcul Lotus (date locale), baze de date dBASE2, Oracle i Sybase (locale sau la distan, cu precizarea c este necesar o licen pentru motoru l SAS database), cuburi OLAP (locale sau la distan i cu conectare la un server OLAP) i altele. Accesarea Datelor in SAS EG - SLIDE 1- Formate comune de date Formatele de fiiere suportate de SAS Enterprise Guide pot fi clasificate n trei categorii: 1. Tabele de date SAS, care sunt formate proprietare ale pachetului de programe SAS. Pentru a putea fi supuse prelucrrilor, toate celelalte tipuri de formate suportate de pachetul SAS trebuie tranformate n tabele de date SAS. 2. Fiiere flat conin nregistrri ntre care nu exist nici o interrelaionare. Avantajul este acela c ocup mai puin spaiu dect fiierele structurate. Totui, necesit ca aplicaia care le folosete s cunoasc modul n care datele sunt organizate n fiier. Exemple de fiiere flat sunt fiiere text, fiiere ASCII sau fiiere secveniale. 3. Fiiere ale altor aplicaii software cum ar fi Microsoft Access sau Paradox. Nu este nevoie s se instaleze software adiional pentru a citi date n urmtoarele formate: dBASE, HTML, IBM Lotus 1-2-3, Microsoft Access,Microsoft Excel, Microsoft Exchange, Paradox. Pentru fiiere de dimensiuni mari, se pot mbunti performanele aplicaiei prin utilizarea software-ului SAS/ ACCESS. n acest sens, n funcie de tipul de fiier care va fi citit, interfeete SAS/ ACCESS to PC Files sau SAS/ ACCESS to ODBC trebuie instalate pe acelai calculator pe care este instalat i SAS. Fiiere text cu laime fix i fiiere text delimitate Un fiier text cu lime fix are un format specific care permite salvarea datelor/informaiilor textuale ntr-o manier organizat. Este un tip special de fiier n care formatul este definit de limea coloanei, de caracterele folosite pentru spaiere i de alinierea la stnga sau dreapta. Limea coloanei este specificat sub forma unui numr de caractere. Spaierea datelor se face folosind caracterul spaiu (sau orice caracter se dorete) n cazul n care datele ocup mai puine caractele dect limea specificat pentru coloana respectiv. Exemplu de fiier text n care limea primei coloane este de 25 de caractere, celei de-a doua de 10 caractere i cea de-a treia de 12 caractere. Nume Popescu Maria Ionescu Damian Diamandescu Victor Judet VL DJ DB Telefon 0250277189 0251767868 0245876590

ntr-un fiier text delimitat fiecare linie de text reprezint o nregistrare, iar cmpurile sunt separate prin caractere cunoscute. Delimitatori frecvent utilizai sunt caracterul tab ( \t) sau diferite caractere de punctuaie. Delimitatorul trebuie ntotdeauna s fie un caracter care nu se regsete n date. Astfel de fiiere se pot crea facil folosind aplicaii de calcul tabelar sau pentru baze de date (ex. Microsoft Excel, Microsoft Access). Spre exemplu, n Excel: File > Save AS, Text (Tab delimited). Exemplu - delimitator simbolul linie vertical (|): Popescu|Maria|35 Ionescu|Damian|42 Diamandescu|Victor|29 Date compatibile cu standardul ODBC i OLE DB ODBC (Open DataBase Connectivity) este o metod standard de accesare a bazelor de date care permite accesul la orice date din cadrul oricrei aplicaii, indiferent de sistemul de gestiune a bazelor de date care gestioneaz datele. ODBC realizeaz acest lucru prin inserarea unui strat de mijloc (middle layer), numit driver de baze de date, ntre aplicaie i SGBD. Scopul acestui strat este de a transforma interogrile de date ale aplicaiei n comenzi pe care un SGBD le nelege. n acest sens, att aplicaia, ct i SGBD -ul trebuie s fie compatibile ODBC, adic aplicaia trebuie s fie capabil s genereze comenzi ODBC, iar SGBD-ul trebuie s fie capabil s rspund la acestea. OLE DB (Object Linking and Embedding, Database) este o intera API proiectat de Microsoft pentru accesarea diferitelor tipuri de date stocate ntr-o manier uniform. OLE DB include i capabilitile ODBC. Tabele SAS, Foi de calcul Microsoft Excel, Fiiere dBase, Tabele HTML, Tabele Microsoft Access Pentru a putea fi accesate de SAS EG, datele trebuie s fie reprezentate n format tabelar (ca o mulime de linii i coloane). O linie reprezint o instan a unei entiti. Entitatea poate fi un produs, un client, o comand sau orice alt lucru. Fiecare coloan descrie caracteristicile entitii, cum ar fi codul de identificare a unui produs, numele clientului sau cantitatea vndut. Toate coloanele trebuie s aib un nume, un tip i o lungime. Numele pot avea o lungime de la 1 la 32 de caractere. Eticheta ataat unei coloane poate avea lungimea de maxim 265 de caractere. SAS privete datele ca fiind fie de tip caracter, fie de tip numeric. n cazul n care datele dintr-o coloan conin doar litere, aceasta are date de tip caracter. n cazul n care datele dintr-o coloan conin numere, aceasta poate fi de tip caracter sau numeric. Datele numerice sunt grupate n patru categorii de date, n funcie de modul n care acestea sunt afiate. Tabela arat ce simbol este asociat fiecrui tip de dat. Aceste pictograme apar n titlurile de coloan ale tabelei de date. De asemenea, aceste pictograme se pot vedea atunci cnd se ruleaz o prelucrare. Aceste simboluri constituie un indiciu despre modul n care pot fi folosite coloanele sau varibilele n prelucrri.

Un format de afiare (Format) este o instruciune care se aplic unei coloane, indicnd produsului SAS Enterprise Guide cum s afieze valorile datelor. Formatele de intrare (Informat) sunt, de obicei, folosite pentru a citi ntr-o variabil date din surse externe numite fiiere flat (fiiere text, fiiere ASCII sau fiiere secveniale). Not: Fiierele flat conin nregistrri ntre care nu exist nici o interrelaionare. Avantajul este acela c ocup mai mult spaiu dect fiierele structurate. Totui, necesit ca aplicaia care le folosete s cunoasc modul n care datele sunt orgaizate n fiier. Formatele de intrare instruiesc aplicaiile SAS despre modul n care trebuie s citeasc datele ntr-o variabil SAS. Sunt, de obicei, grupate n trei categorii: caracter, numeric i dat/timp. Formatele de intrare au urmtoarea sintax: Formate de intrare caracter: $INFORMATw. Formate de intrare numerice: INFORMATw.d Formate de intare dat/timp: INFORMATw. Semnificaia simbolurilor folosite de formatele de intrare: $ indic prezena unui caracter w semnific limea unei variabile (n octei sau numr de coloane) INFORMAT este un nume opional de format de intrare SAS d este folosit n cazul datelor numerice pentru a specifica numrul de cifre ale prii zecimale. Toate formatele de intare trebuie s conin punctul zecimal (.), astfel nct s se poat face diferena ntre un format de intrare i o variabil SAS. n SAS Enterprise Guide sunt multe funcii care furnizeaz opiuni pentru modul de manipulare a valorilor lips, n scopul raportrii sau analizei. Multe formate de fiiere care memoreaz date sub form tabelar includ metadate ca parte a tabelei. Metadatele reprezint informaii despre datele n sine, cum ar fi originea/sursa datelor, dimensiunea sau formatul lor. Tabelele SAS, MS Access sau dBASE sunt exemple de fiiere care conin metadate stocate n interiorul lor. Atunci cnd acceseaz un astfel de fiier, SAS EG poate accesa metadatele pentru a determina numele unei coloane, tipul (caracter sau numeric) i lungimea (dimensiunea). Exist i cteva formate de fiiere, cum ar fi foile de calcul, tabelele HTML sau fiierele text care nu conin metadate. Pentru aceste tipuri de fiiere, SAS EG trebuie s fac anumite deducii referitoare la atributele fiecrei coloane. Implicit, SAS EG caut numele coloanei n primul rnd al fiierului i analizeaz valorile stocate n cmpuri sau celule pentru a stabili dac o anumit coloan trebuie memorat ca ir de caractere sau ca numr. Dac se stabilete c o coloan este de tip caracter, atunci lungimea ei este setat n mod automat ca fiind 255 (octei), care este numrul maxim de caractere permis de motorul de baze de date Microsoft Jet

S-ar putea să vă placă și