Sunteți pe pagina 1din 18

Introducin

al sas
Entorno y
manipulacin de
datos.

Juana M. Alonso Revenga


Complementos de formacin en Mineria de Datos

1. INICIO DE LA SESIN.

Cuando iniciamos nuestra sesin en el programa sas aparece la siguiente pantalla con
la que trabajaremos normalmente.
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

El programa SAS bsicamente es encuentra dividido en dos grandes ventanas:


- Ventana izquierda "Explorer": contiene accesos directos a los ficheros que
interesen, informacin sobre las libreras (que estudiaremos ms adelante) y una
ventana de resultados dnde aparece la informacin obtenida de las diferentes
ejecuciones desglosadas.
- Ventana derecha: Contiene las ventanas principales LOG, OUTPUT, EDITOR. El
modo de trabajo que utiliza SAS se basa en stas tres ventanas:

1. Ventana EDITOR: Esta ventana corresponde a la ventana de sintaxis, por lo

tanto es editable. Para poder ejecutar la sintaxis, se debe pulsar el botn: .


Para ejecutar una parte de la sintaxis, primero se selecciona dicha parte y
despus se pulsa el botn.
Complementos de formacin en Mineria de Datos

2. Ventana LOG: En esta ventana se consulta y revisa todo lo que se ha


ejecutado, aparecen mensajes de advertencia y de error. Es muy importante
revisar en cuanto algo falla.
3. Ventana OUTPUT: Cuando se ejecutan procedimientos de SAS, en esta
ventana se muestran los listados, tablas y/o resultados. Si utilizamos el modo
HTML aparecern tambin en la ventana: Result View.

Botones superiores. Los ms utilizados son:

Por orden de izquierda a derecha los tres primeros: Borrar, Abrir, y Guardar el
contenido de la ventana activa.
Para consultar la ayuda de SAS.

Ventanas de dilogo desplegables: SAS es un programa adaptado para trabajar


bajo Windows, de forma que la mayora de ventanas desplegables tienen bsicamente
las mismas opciones que en cualquier otro programa para Windows:
FILE: abrir, guardar, imprimir,tanto programas sas, como ficheros de datos.
Especialmente utilizaremos las opciones abrir y guardar programa e importar datos.
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

EDIT: deshacer, copiar, pegar, borrar, buscar, reemplazar, ...


VIEW: Nos permite abrir una ventana que ha sido cerrada.
Complementos de formacin en Mineria de Datos

TOOLS: Lo utilizaremos para cambiar opciones en la visualizacin de resultados o


grficos.
WINDOW: permite cambiar de ventana (Log, Output, Editor,...).
HELP: SAS SYSTEM HELP (ayuda de SAS ),

2. EL PASO DATA.
Bsicamente, todos los programas de sintaxis elaborados con SAS contienen tan slo
dos tipos de instrucciones: DATA y PROC.
Con la instruccin DATA nombre se crea un conjunto de datos nuevo (o bien se
Facultad de Estudios Estadsticos

reemplaza). "nombre" es el nombre del nuevo conjunto.


Juana Mara Alonso Revenga

Cualquier operacin a realizar con un conjunto de datos sas: lectura de datos, creacin
de variables nuevas, recodificacin, cambio de etiquetas, seleccin de casos, etc.. se
hace dentro de la instruccin DATA.

2.1. COMO OBTENER DATOS CON SAS.


Los conjuntos de datos sas se pueden crear de diferentes formas, a continuacin
veremos las ms frecuentes.

2.1.1. LEER DATOS DIRECTAMENTE DESDE TECLADO.


* DATOS CORRESPONDIENTES A UN ESTUDIO SOBRE ENFERMOS CON FIEBRE;
* LOS CULES TOMARON DOS TRATAMIENTOS DIFERENTES;

DATA PACTIVO1;
INPUT NUM_PAC TRATAM INIC $ SEXO EDAD;
CARDS;
1 1 JPP 1 53
2 2 JDA 1 47
3 1 RRA 0 81
4 2 HSB 0 29
;
RUN;
PROC PRINT; RUN;
Complementos de formacin en Mineria de Datos

Observemos que:
Despus de cada instruccin es necesario el signo " ; ".
Los comentarios van precedidos por un signo " * ".
Despus de un paso DATA o de un PROC es til escribir RUN;
La instruccin INPUT declara como se leen las variables: nombres de las
variables y " $ " a continuacin si se trata de una variable alfanumrica.
La instruccin CARDS DATALINES sirve para iniciar la lectura de los datos.
El procedimiento PROC PRINT es el procedimiento que lista los datos en la
pantalla de resultados.
Observando la ventana LOG, se consultan los errores cometidos en la sintaxis
del EDITOR.

Para visualizar los datos creados iremos a la librera donde se han guardado (en la
ventana Explorer, en este caso librera work) y pinchamos sobre su icono que aparece
cuando se ha creado el conjunto de datos. De esta forma abrimos el visor de tabla de
datos de sas (Viewtable). El resultado es el fichero PACTIVO que est en la librera
temporal work.
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Con el procedimiento PRINT podemos ver dichos datos en el visor de resultados.


Complementos de formacin en Mineria de Datos

2.1.2. LEER DATOS EXTERNOS MEDIANTE LA SENTENCIA INFILE.

La instruccin INFILE se utiliza para la lectura de datos externos (normalmente en


ficheros .dat) y en ella se menciona la ruta dnde se encuentra el fichero que contiene
los datos.
En la instruccin INPUT se declara las variables que se van a leer. Se escriben las
columnas dnde se encuentran las variables si el fichero de datos externo es de
formato fijo. En el caso en qu el fichero de datos est delimitado, no tiene sentido
especificar las columnas. Por defecto, el separador que lee SAS es el espacio, pero
con la opcin DLM se define el delimitador que deseado, por ejemplo: DLM='09'x si el
fichero es encuentra delimitado por tabuladores o DLM=';' si el fichero es encuentra
delimitado por el smbolo " ; ".
Por ejemplo si queremos crear un conjunto de datos sas a partir del siguiente fichero
que contiene el nmero de nacimientos en Espaa desde 1946 (en miles):
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Escribiremos la siguiente sintaxis.


DATA nacidos;
INFILE 'C:\Users\Ani Alonso\Desktop\MASTER\EJERCICIOS\NACIDOS.DAT' ;
INPUT YEAR NACIMIENT;
RUN;

Cuando lo ejecutemos se crear un fichero en la librera Work.


Complementos de formacin en Mineria de Datos

2.1.3. IMPORTAR FICHEROS EXCEL Y CREACIN DE LIBRERAS.

Para importar ficheros desde Excel lo mejor previamente es crear una librera en
donde guardaremos nuestro fichero de datos para as acceder a l cuando queramos.

Para crear la librera, en la ventana Explorer, pinchamos con el botn derecho del
ratn en libreras:

Seleccionar nueva y crearla en alguna carpeta de nuestro ordenador o dispositivo de


almacenamiento extrable.

Asignamos un nombre a la librera (SERIES por ejemplo) y con la opcin Browse


seleccionamos la carpeta que alojar librera, donde luego se guardarn nuestros
Facultad de Estudios Estadsticos

datos.
Juana Mara Alonso Revenga
Complementos de formacin en Mineria de Datos

OK y ya est creada. Si pinchamos en libreras aparece la nueva:

Ahora importamos los datos que guardaremos aqu. Si no hemos creado esta librera
cuando hagamos una importacin de datos se guardarn en la librera WORK que es
la que viene por defecto y al final de la sesin sas desaparecern. Mientras que, si
creamos nuestra propia librera los datos se guardarn automticamente en esta
direccin siempre que los creemos con nombre de fichero de datos
LIBRERA.CONJUNTO en nuestro Ejemplo SERIES.TRIGO .

Nota: Los nombres de los datasets y de las variables no pueden tener ms de 8


caracteres.
Facultad de Estudios Estadsticos

Tambin se puede crear una librera con la instruccin LIBNAME especificando el


Juana Mara Alonso Revenga

nombre y la ruta dnde ubicarla a continuacin. Por ejemplo la siguiente sintaxis


asigna la librera de nombre SERIES en el subdirectorio A:

LIBNAME SERIES 'A:\';

Para importar los datos del fichero Excel, podemos utilizar el procedimiento IMPORT o
bien en la barra mediante la opcin File.

La sintaxis del procedimiento IMPORT es la siguiente:

proc import datafile="C:\Asignaturas\MASTER\EJERCICIOS\TEMA 0 Y


1\LLUVIA.xlsx" out=SERIES.LLUVIA dbms=xlsx;
run;

Observemos que la opcin dbms=xlsx est indicando el tipo de fichero y


out=SERIES.LLUVIA la librera y el nombre de fichero sas que se va a crear.
Complementos de formacin en Mineria de Datos

Mediante la opcin File seleccionar


Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Seleccionar siguiente,

Con Browse buscamos donde est nuestro fichero Excel y seleccionamos abrir
Complementos de formacin en Mineria de Datos

Presionar Abrir y en la siguiente Next


Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Elegir nuestra librera pinchando en la flecha


Complementos de formacin en Mineria de Datos

Asignar un nombre a nuestro fichero de datos.


Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Siguiente y en la ltima pantalla finish


Complementos de formacin en Mineria de Datos

Si ahora hacemos doble click en la librera de datos aparece nuestro fichero de datos
cuyo nombre para utilizar en cualquier programa sas ser SERIES.TRIGO

Y si queremos ver como se han creado hacemos doble click en el icono del fichero
de datos
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

Cuidado! Hay que tener cerrada la hoja de datos (viewtable) cuando ejecutemos
un programa sas que manipula dichos datos!

En el visor de datos de sas no podemos manipular los datos como en una hoja de
clculo, pero si obtener informacin sobre las variables. Si pinchamos en el icono se
abre una ventana donde aparece el nombre de la variable, que ser el que tenemos
que usar en la programacin, su etiqueta y el tipo
Complementos de formacin en Mineria de Datos

2.2. CREACIN Y MODIFICACION DE DATOS A PARTIR DE OTROS.


Si queremos crear nuevas variables o modificar alguna existente en un fichero lo
haremos en el paso DATA y con la opcin SET.
La instruccin SET asigna al conjunto de datos del paso DATA los mismos datos,
variables y propiedades que el conjunto de la instruccin SET.
Cdigo ejemplo:
DATA B;
SET A;
RUN;
Con el cdigo anterior, se crea una copia del dataset A llamado B. En estos
momentos, los datasets A y B son idnticos y ambos temporales (librera work).
Cdigo ejemplo:
DATA B;
SET B;
VAR_A=1;
RUN;
Con el cdigo anterior se crea una copia del dataset B llamado tambin B.
Simultneamente se aade la variable VAR_A y se asigna para todos los casos el
Facultad de Estudios Estadsticos

valor 1. De hecho se ha reemplazado el dataset B por otro idntico pero con una
Juana Mara Alonso Revenga

variable ms.
3. ORDENAR UN CONJUNTO DE DATOS.

Los procedimientos PROC se emplean para trabajar con los datos anteriormente
creados sin modificar su estructura: anlisis, tablas, listados, clculos, estadsticos, ...
Uno de los ms utilizados es el procedimiento SORT que ordena el conjunto de datos
segn las variables requeridas en la instruccin BY.

PROC SORT DATA=SERIES.PACTIVO1;


BY NUM_PAC;
RUN;

4. MEZCLAR CONJUNTOS DE DATOS.


4.1. AADIR VARIABLES.
Si tenemos dos conjuntos de datos que contienen informacin sobre los mismos
individuos, es decir lo que queremos es aadir variables (columnas) a nuestro fichero
utilizaremos la sentencia MERGE del paso DATA.
Complementos de formacin en Mineria de Datos

Si queremos unir en un mismo archivo informacin sobre los mismos individuos, por
ejemplo los pacientes del fichero activo1 tienen su peso en el fichero activo2.
DATA PACTIVO2;
INPUT NUM_PAC PESO;
CARDS;
1 60
3 75
4 54
2 83
;
RUN;

Como los pacientes estn desordenados y las columnas se aadirn en este orden
previamente ordenamos el fichero pactivo2 para estar seguros de que a cada paciente
se le asigna su peso.
PROC SORT DATA=PACTIVO2;
BY NUM_PAC;
RUN;
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

DATA PACTIVO3;
MERGE PACTIVO1 PACTIVO2;
BY NUM_PAC;
RUN;
Con esta sintaxis estamos creando un nuevo fichero PACTIVO3 que es el
pacativo1con la columna de peso de pactivo2. Si los datasets que contienen las
diferentes variables no tienen el mismo nmero de observaciones, es recomendable
utilizar la instruccin BY variables. Las variables referidas en la instruccin BY, tienen
que estar presentes en ambos datasets, permitiendo identificar los diferentes casos
dentro de cada dataset y asignarles una cierta correspondencia. En caso de utilizar
esta ltima opcin, los dos datasets deben estar ordenados por las variables
mencionadas en BY antes de realizar la fusin.
Este es el nuevo fichero pactivo3.
Complementos de formacin en Mineria de Datos

4.2. AADIR CASOS.

Para aadir casos, se utiliza el procedimiento APPEND. El conjunto de datos


resultante es el fichero especificado en la opcin BASE, y a ste se le aaden todos
los casos del fichero de la opcin DATA. Cuando ambos conjuntos no tienen idntica
estructura (por ejemplo una misma variable est definida cmo Alfanumrica de 5
posiciones en un fichero y de 8 posiciones en otro) se requiere la opcin FORCE al
final de la instruccin.
Si creamos el fichero PACTIVO4 que contiene los datos de los individuos 5 al 8 de la
siguiente forma:

DATA PACTIVO4;
INPUT NUM_PAC TRATAM INIC $ SEXO EDAD;
CARDS;
5 1 JPP 1 41
6 2 JDA 1 56
7 1 RRA 1 76
8 2 HSB 0 54
Facultad de Estudios Estadsticos

;
RUN;
Juana Mara Alonso Revenga

Creamos un nuevo fichero PACTIVO5 que va a contener el 1 y el 4.


DATA PACTIVO5;
SET PACTIVO1;
RUN;

PROC APPEND BASE= PACTIVO5 DATA= PACTIVO4 FORCE;


RUN;

Cuando existe una variable identificativa comn en ambos datasets tambin se puede
usar la instruccin SET en un paso DATA, obteniendo exactamente el mismo
resultado que con PROC APPEND, de la siguiente forma:
Complementos de formacin en Mineria de Datos

DATA PACTIVO6;
SET PACTIVO4 PACTIVO1;
BY NUM_PAC;
RUN;

4.3. SELECCIONAR UN SUBCONJUNTO DE VARIABLES.

La instruccin KEEP permite guardar en el dataset creado slo las variables all
mencionadas. Las dems variables son eliminadas del dataset resultante.
El fichero Pactivo6 contiene los siguientes datos

Obs NUM_PAC TRATAM INIC SEXO EDAD


1 1 1 JPP 1 53
2 2 2 JDA 1 47
3 3 1 RRA 0 81
4 4 2 HSB 0 29
5 5 1 JPP 1 41
6 6 2 JDA 1 56
7 7 1 RRA 1 76
8 8 2 HSB 0 54

Si queremos crear un fichero (Pactivo7) con solo las variables Num_pac y Edad,
utilizaramos la siguiente sintaxis:

DATA PACTIVO7;
Facultad de Estudios Estadsticos

SET PACTIVO6;
Juana Mara Alonso Revenga

keep NUM_PAC edad;


RUN;

5. LOS PROCEDIMENTOS
La sintaxis de los diferentes procedimientos suele ser muy similar. La mayora de
opciones sirven para casi todos los procedimientos, pero con prudencia, ya que cada
procedimiento tiene sus particularidades y no siempre estas opciones tienen sentido
Complementos de formacin en Mineria de Datos

en cualquier PROC. En lneas generales, la estructura de un procedimiento puede ser


la siguiente:

PROC NOM_PROC DATA=nombre_dataset OPCIONES ESPECFICAS;


WHERE CONDICIN;
BY VARIABLES;
OUTPUT OUT=dataset_salida;
RUN;

Despus del nombre del procedimiento se pueden escribir las opciones especficas
que usualmente son diferentes para cada procedimiento, excepto la opcin
DATA=nombre_dataset que ya ha sido comentada anteriormente. Esta opcin
permite especificar cul es el dataset de trabajo.
Las instrucciones especficas de cada procedimiento son un requisito indispensable
para el funcionamiento del mismo, y suelen estar relacionadas con las variables que
se analizan.
Generalmente, despus de escribir la lista de variables, se escribe el smbolo ' / '
seguido de otras opciones ms concretas que debe realizar el procedimiento.
La instruccin BY se utiliza para partir los datos del dataset en diferentes grupos
Facultad de Estudios Estadsticos

segn los valores que toma la variable all mencionada. El procedimiento repite su
Juana Mara Alonso Revenga

anlisis para cada uno de estos subgrupos. BY es una opcin imprescindible en el


procedimiento SORT aunque no tiene este sentido.
La instruccin OUTPUT OUT=dataset_salida es una opcin muy til que permite
guardar los estadsticos calculados por el procedimiento en un dataset que se llama
dataset_salida. En algunos casos, tambin se pueden almacenar los datos que ha
generado el procedimiento para calcular los estadsticos, pero este paso se menciona
dentro de las instrucciones especficas del procedimiento despus del smbolo ' / ' por
ejemplo.
Para cualquier duda en la sintaxis de un procedimiento, consultar el HELP. All se
describen todas las instrucciones que son imprescindibles y todas las opciones que
permite el procedimiento.
Como ejemplo de procedimiento veamos el proc means. Este procedimiento calcula
algunos de los estadsticos ms sencillos para tener as una idea aproximada de cmo
son las variables analizadas. Esta informacin tambin puede ayudar a detectar
posibles errores de los datos. La siguiente calcula la media, desviacin estndar ,
mnimo y mximo de la variable Edad en el fichero pactivo5 con los datos divididos en
dos grupos por la variable sexo.
Complementos de formacin en Mineria de Datos

PROC MEANS DATA=activo5;


VAR EDAD;
CLASS SEXO;
RUN;

Analysis Variable : EDAD


SEXO N Obs N Mean Std Dev Minimum Maximum
0 3 3 54.6666667 26.0064095 29.0000000 81.0000000
1 5 5 54.6000000 13.2778010 41.0000000 76.0000000
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga

S-ar putea să vă placă și