Documente Academic
Documente Profesional
Documente Cultură
al sas
Entorno y
manipulacin de
datos.
1. INICIO DE LA SESIN.
Cuando iniciamos nuestra sesin en el programa sas aparece la siguiente pantalla con
la que trabajaremos normalmente.
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga
Por orden de izquierda a derecha los tres primeros: Borrar, Abrir, y Guardar el
contenido de la ventana activa.
Para consultar la ayuda de SAS.
2. EL PASO DATA.
Bsicamente, todos los programas de sintaxis elaborados con SAS contienen tan slo
dos tipos de instrucciones: DATA y PROC.
Con la instruccin DATA nombre se crea un conjunto de datos nuevo (o bien se
Facultad de Estudios Estadsticos
Cualquier operacin a realizar con un conjunto de datos sas: lectura de datos, creacin
de variables nuevas, recodificacin, cambio de etiquetas, seleccin de casos, etc.. se
hace dentro de la instruccin DATA.
DATA PACTIVO1;
INPUT NUM_PAC TRATAM INIC $ SEXO EDAD;
CARDS;
1 1 JPP 1 53
2 2 JDA 1 47
3 1 RRA 0 81
4 2 HSB 0 29
;
RUN;
PROC PRINT; RUN;
Complementos de formacin en Mineria de Datos
Observemos que:
Despus de cada instruccin es necesario el signo " ; ".
Los comentarios van precedidos por un signo " * ".
Despus de un paso DATA o de un PROC es til escribir RUN;
La instruccin INPUT declara como se leen las variables: nombres de las
variables y " $ " a continuacin si se trata de una variable alfanumrica.
La instruccin CARDS DATALINES sirve para iniciar la lectura de los datos.
El procedimiento PROC PRINT es el procedimiento que lista los datos en la
pantalla de resultados.
Observando la ventana LOG, se consultan los errores cometidos en la sintaxis
del EDITOR.
Para visualizar los datos creados iremos a la librera donde se han guardado (en la
ventana Explorer, en este caso librera work) y pinchamos sobre su icono que aparece
cuando se ha creado el conjunto de datos. De esta forma abrimos el visor de tabla de
datos de sas (Viewtable). El resultado es el fichero PACTIVO que est en la librera
temporal work.
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga
Para importar ficheros desde Excel lo mejor previamente es crear una librera en
donde guardaremos nuestro fichero de datos para as acceder a l cuando queramos.
Para crear la librera, en la ventana Explorer, pinchamos con el botn derecho del
ratn en libreras:
datos.
Juana Mara Alonso Revenga
Complementos de formacin en Mineria de Datos
Ahora importamos los datos que guardaremos aqu. Si no hemos creado esta librera
cuando hagamos una importacin de datos se guardarn en la librera WORK que es
la que viene por defecto y al final de la sesin sas desaparecern. Mientras que, si
creamos nuestra propia librera los datos se guardarn automticamente en esta
direccin siempre que los creemos con nombre de fichero de datos
LIBRERA.CONJUNTO en nuestro Ejemplo SERIES.TRIGO .
Para importar los datos del fichero Excel, podemos utilizar el procedimiento IMPORT o
bien en la barra mediante la opcin File.
Seleccionar siguiente,
Con Browse buscamos donde est nuestro fichero Excel y seleccionamos abrir
Complementos de formacin en Mineria de Datos
Si ahora hacemos doble click en la librera de datos aparece nuestro fichero de datos
cuyo nombre para utilizar en cualquier programa sas ser SERIES.TRIGO
Y si queremos ver como se han creado hacemos doble click en el icono del fichero
de datos
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga
Cuidado! Hay que tener cerrada la hoja de datos (viewtable) cuando ejecutemos
un programa sas que manipula dichos datos!
En el visor de datos de sas no podemos manipular los datos como en una hoja de
clculo, pero si obtener informacin sobre las variables. Si pinchamos en el icono se
abre una ventana donde aparece el nombre de la variable, que ser el que tenemos
que usar en la programacin, su etiqueta y el tipo
Complementos de formacin en Mineria de Datos
valor 1. De hecho se ha reemplazado el dataset B por otro idntico pero con una
Juana Mara Alonso Revenga
variable ms.
3. ORDENAR UN CONJUNTO DE DATOS.
Los procedimientos PROC se emplean para trabajar con los datos anteriormente
creados sin modificar su estructura: anlisis, tablas, listados, clculos, estadsticos, ...
Uno de los ms utilizados es el procedimiento SORT que ordena el conjunto de datos
segn las variables requeridas en la instruccin BY.
Si queremos unir en un mismo archivo informacin sobre los mismos individuos, por
ejemplo los pacientes del fichero activo1 tienen su peso en el fichero activo2.
DATA PACTIVO2;
INPUT NUM_PAC PESO;
CARDS;
1 60
3 75
4 54
2 83
;
RUN;
Como los pacientes estn desordenados y las columnas se aadirn en este orden
previamente ordenamos el fichero pactivo2 para estar seguros de que a cada paciente
se le asigna su peso.
PROC SORT DATA=PACTIVO2;
BY NUM_PAC;
RUN;
Facultad de Estudios Estadsticos
Juana Mara Alonso Revenga
DATA PACTIVO3;
MERGE PACTIVO1 PACTIVO2;
BY NUM_PAC;
RUN;
Con esta sintaxis estamos creando un nuevo fichero PACTIVO3 que es el
pacativo1con la columna de peso de pactivo2. Si los datasets que contienen las
diferentes variables no tienen el mismo nmero de observaciones, es recomendable
utilizar la instruccin BY variables. Las variables referidas en la instruccin BY, tienen
que estar presentes en ambos datasets, permitiendo identificar los diferentes casos
dentro de cada dataset y asignarles una cierta correspondencia. En caso de utilizar
esta ltima opcin, los dos datasets deben estar ordenados por las variables
mencionadas en BY antes de realizar la fusin.
Este es el nuevo fichero pactivo3.
Complementos de formacin en Mineria de Datos
DATA PACTIVO4;
INPUT NUM_PAC TRATAM INIC $ SEXO EDAD;
CARDS;
5 1 JPP 1 41
6 2 JDA 1 56
7 1 RRA 1 76
8 2 HSB 0 54
Facultad de Estudios Estadsticos
;
RUN;
Juana Mara Alonso Revenga
Cuando existe una variable identificativa comn en ambos datasets tambin se puede
usar la instruccin SET en un paso DATA, obteniendo exactamente el mismo
resultado que con PROC APPEND, de la siguiente forma:
Complementos de formacin en Mineria de Datos
DATA PACTIVO6;
SET PACTIVO4 PACTIVO1;
BY NUM_PAC;
RUN;
La instruccin KEEP permite guardar en el dataset creado slo las variables all
mencionadas. Las dems variables son eliminadas del dataset resultante.
El fichero Pactivo6 contiene los siguientes datos
Si queremos crear un fichero (Pactivo7) con solo las variables Num_pac y Edad,
utilizaramos la siguiente sintaxis:
DATA PACTIVO7;
Facultad de Estudios Estadsticos
SET PACTIVO6;
Juana Mara Alonso Revenga
5. LOS PROCEDIMENTOS
La sintaxis de los diferentes procedimientos suele ser muy similar. La mayora de
opciones sirven para casi todos los procedimientos, pero con prudencia, ya que cada
procedimiento tiene sus particularidades y no siempre estas opciones tienen sentido
Complementos de formacin en Mineria de Datos
Despus del nombre del procedimiento se pueden escribir las opciones especficas
que usualmente son diferentes para cada procedimiento, excepto la opcin
DATA=nombre_dataset que ya ha sido comentada anteriormente. Esta opcin
permite especificar cul es el dataset de trabajo.
Las instrucciones especficas de cada procedimiento son un requisito indispensable
para el funcionamiento del mismo, y suelen estar relacionadas con las variables que
se analizan.
Generalmente, despus de escribir la lista de variables, se escribe el smbolo ' / '
seguido de otras opciones ms concretas que debe realizar el procedimiento.
La instruccin BY se utiliza para partir los datos del dataset en diferentes grupos
Facultad de Estudios Estadsticos
segn los valores que toma la variable all mencionada. El procedimiento repite su
Juana Mara Alonso Revenga