Sunteți pe pagina 1din 54

CURSO PRACTICO DE BIOESTAD ISTICA CON R

Alfredo S anchez Alberca (asalber@ceu.es)

Pr acticas de Estad stica con R Santiago Angulo D az-Parre no, Jos e Miguel C ardenas Rebollo, Anselmo Romero Lim on y Alfredo S anchez Alberca (asalber@gmail.com).

Esta obra est a bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 Espa na de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/byncsa/2.5/es/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. Con esta licencia eres libre de: Copiar, distribuir y mostrar este trabajo. Realizar modicaciones de este trabajo. Bajo las siguientes condiciones: Reconocimiento. Debe reconocer los cr editos de la obra de la manera especicada por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo o apoyan el uso que hace de su obra). No comercial. No puede utilizar esta obra para nes comerciales. Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera una obra derivada, s olo puede distribuir la obra generada bajo una licencia id entica a esta. Al reutilizar o distribuir la obra, tiene que dejar bien claro los t erminos de la licencia de esta obra. Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los derechos de autor Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Indice general

1. Introducci on a R y RKWard 1.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Instalaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Instalaci on de R . . . . . . . . . . . . . . . . . . . . . 1.2.2. Instalaci on de la interfaz gr aca RKWard y el paquete 1.3. Arranque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Tipos de datos y operadores aritm eticos y l ogicos . . . . . . . 1.5. Introducci on y manipulaci on de datos . . . . . . . . . . . . . 1.5.1. Introducci on de datos en l nea de comandos . . . . . . 1.5.2. Introducci on de datos en RKWard . . . . . . . . . . . 1.5.3. Ponderaci on de datos . . . . . . . . . . . . . . . . . . 1.5.4. Guardar datos . . . . . . . . . . . . . . . . . . . . . . 1.5.5. Abrir datos . . . . . . . . . . . . . . . . . . . . . . . . 1.5.6. Eliminaci on de datos . . . . . . . . . . . . . . . . . . . 1.6. Transformaci on de datos . . . . . . . . . . . . . . . . . . . . . 1.6.1. Filtrado de datos . . . . . . . . . . . . . . . . . . . . . 1.6.2. C alculo de variables . . . . . . . . . . . . . . . . . . . 1.6.3. Recodicaci on de variables . . . . . . . . . . . . . . . 1.7. Manipulaci on de cheros de resultados . . . . . . . . . . . . . 1.7.1. Guardar los resultados . . . . . . . . . . . . . . . . . . 1.7.2. Limpiar la ventana de resultados . . . . . . . . . . . . 1.8. Manipulaci on de guiones de comandos . . . . . . . . . . . . . 1.8.1. Creaci on de un gui on de comandos . . . . . . . . . . . 1.8.2. Guardar un gui on de comandos . . . . . . . . . . . . . 1.8.3. Abrir un gui on de comandos . . . . . . . . . . . . . . 1.9. Ayuda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.10. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . 2. Distribuciones de Frecuencias y Representaciones Gr acas 2.1. Fundamentos te oricos . . . . . . . . . . . . . . . . . . . . . . 2.1.1. C alculo de Frecuencias . . . . . . . . . . . . . . . . . . 2.1.2. Representaciones Gr acas . . . . . . . . . . . . . . . . 2.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . 3. Estad sticos Muestrales 3.1. Fundamentos te oricos . . . . . 3.1.1. Medidas de posici on . . 3.1.2. Medidas de dispersi on . 3.1.3. Medidas de forma . . . 3.1.4. Estad sticos de variables 3.2. Ejercicios resueltos . . . . . . . 3.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . en las que . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . se denen . . . . . . . . . . . . i . . . . . . . . . . . . . . . . grupos . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . rkTeaching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 2 2 2 2 4 5 5 6 7 8 8 8 9 9 9 9 10 10 10 11 11 11 11 11 13 15 15 15 16 21 23 25 25 25 26 27 28 29 30

INDICE GENERAL

Universidad San Pablo CEU

4. Regresi on Lineal Simple 4.1. Fundamentos te oricos 4.1.1. Regresi on . . . 4.1.2. Correlaci on . . 4.2. Ejercicios resueltos . . 4.3. Ejercicios propuestos .

y . . . . .

Correlaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

33 33 33 36 40 44

5. Regresi on no lineal 45 5.1. Fundamentos te oricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.2. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

ii

Pr actica de Estad stica con R

Introducci on a R y RKWard

Introducci on

La gran potencia de c alculo alcanzada por los ordenadores ha convertido a los mismos en poderosas herramientas al servicio de todas aquellas disciplinas que, como la estad stica, requieren manejar un gran volumen de datos. Actualmente, pr acticamente nadie se plantea hacer un estudio estad stico serio sin la ayuda de un buen programa de an alisis estad stico. R es un potente lenguaje de programaci on que incluye multitud de funciones para la representaci on el an alisis de datos. Fue desarrollado por Robert Gentleman y Ross Ihaka en la Universidad de Auckland en Nueva Zelanda, aunque actualmente es mantenido por una enorme comunidad cient ca en todo el mundo.

Las ventajas de R frente a otros programas habituales de an alisis de datos, como pueden ser SPSS, SAS, SPlus, Matlab o Minitab, son m ultiples: Es software libre y por tanto gratuito. Puede descargarse desde la web http://www.r-project. org/. Es multiplataforma. Existen versiones para Windows, Macintosh, Linux y otras plataformas. Est a avalado y en constante desarrollo por una amplia comunidad cient ca que lo utiliza como est andar para el an alisis de datos. Cuenta con multitud de paquetes para todo tipo de an alisis estad sticos y representaciones gr acas, desde los m as habituales, hasta los m as novedosos y sosticados que no incluyen otros programas. Los paquetes est an organizados y documentados en un repositorio CRAN (Comprehensive R Archive Network) desde donde pueden descargarse libremente. En Espa na hay una copia de este repositorio en la web http://cran.es.r-project.org/. Es programable, lo que permite que el usuario pueda crear f acilmente sus propias funciones o paquetes para an alisis de datos espec cos. Existen multitud de libros, manuales y tutoriales libres que permiten su aprendizaje e ilustran el an alisis estad stico de datos en distintas disciplinas cient cas como las matem aticas, la f sica, la biolog a, la psicolog a, la medicina, etc. Por defecto el entorno de trabajo de R es en l nea de comandos, lo que signica que los c alculos y los an alisis se relizan mediante comandos o instrucciones que el usuario teclea en una ventana de texto. No obstante, existen distintas interfaces gr acas de usuario que facilitan su uso, sobre todo para usuarios 1

1. Introducci on a R y RKWard

Universidad San Pablo CEU

noveles. La interfaz gr aca que se utilizar a para realizar estas pr acticas ser a RKWard, desarrollada por Thomas Friedrichsmeier, junto al paquete rkTeaching especialmente desarrollado por el departamento de Matem aticas de la Universidad San Pablo CEU para la docencia de estad stica. El objetivo de esta pr actica es introducir al alumno en la utilizaci on de este programa, ense na ndole a realizar las operaciones b asicas m as habituales de carga y manipulaci on de datos.

2
2.1

Instalaci on
Instalaci on de R

Linux En la distribuci on Debian y cualquiera de sus derivadas (Ubuntu, Kubuntu, etc.) basta con teclear en la l nea de comandos > sudo apt - get i n s t a l l r - base - html r - cran - rcmdr r - cran - rodbc r - doc - html r - r e c o m m e n d e d Windows Descargar de http://cran.es.r-project.org/bin/windows/base/release.htm el programa de instalaci on de R, ejecutarlo y seguir las instrucciones de instalaci on.

2.2

Instalaci on de la interfaz gr aca RKWard y el paquete rkTeaching

La interfaz gr aca de usuario RKWard puede descargarse desde la web http://rkward.sourceforge. net/ donde se indican las instrucciones para instalarlo en cada plataforma. Para Windows se recomienda seleccionar el paquete de instalaci on completa que incorpora R, las librer as gr acas de KDE y el propio RKWard. R dispone de una gran librer a de paquetes que incorporan nuevas funciones y procedimientos. En la instalaci on base de R vienen ya cargados los procedimientos y funciones para los an alisis m as comunes, pero en ocasiones, para otros an alisis ser a necesario cargar alg un paquete adicional como por ejemplo el paquete rkTeaching que incorpora un nuevo men u a RKWard con la mayor a de los an alisis que se realizar an en estas pr acticas. Para instalar el paquete rkTeaching, basta con arrancar R o RKWard y, en la consola de comandos teclear el comando > i n s t a l l. p a c k a g e s (" r k T e a c h i n g" , d e p e n d e n c i e s = TRUE ) La instalaci on de cualquier otro paquete se realiza con el mismo comando, cambiando el nombre del paquete por el deseado. En RKWard, tambi en puede instalarse desde la ventana de R mediante el men u Preferencias Configurar paquetes. Con esto aparecer a una ventana donde se muestran los paquetes instalados localmente. Para cargar un paquete instalado localmente basta son seleccionarlo y hacer clic sobre el bot on Cargar. En esa misma ventana aparece una solapa Install/Update/Remove que permite instalar nuevos paquetes desde un repositorio de R. Al hacer clic sobre esta solapa se abrir a una conexi on a internet y aparecer a una ventana con los distintos repositorios disponibles. Normalmente seleccionaremos en m as cercano geogr acamente, en nuestro caso Spain(Madrid). Despu es aparecer a un lista de paquetes instalados y nuevos. Para instalar un paquete nuevo basta con seleccionarlo y hacer clic en el bot on Aceptar. Una vez instalado localmente, podr a cargarse como se ha indicado antes.

Arranque

Como cualquier otra aplicaci on de Windows, para arrancar el programa hay que hacer clic sobre la opci on correspondiente del men u Inicio Programas RKWard, o bien sobre el icono de escritorio 2

Universidad San Pablo CEU

1. Introducci on a R y RKWard

Al arrancar, aparece la ventana de bienvenida de RKWard (gura 1.1).

Figura 1.1 Interfaz gr aca de usuario de RKWard.

La interfaz gr aca de usuario RKWard consta de los siguientes elementos: Barra de men us. Contiene distintos men us con operaciones que pueden realizarse con R. Si se ha instalado el paquete rkTeaching debe de aparecer el men u Teaching. Barra de botones. Contiene botones para abrir, crear y guardar conjuntos de datos, espacios de trabajo y guiones de comandos. Ventana principal. Es la ventana central donde apareceran la ventana de introducci on de datos, los resultados de los comandos ejecutados o de las b usquedas realizadas. Espacio de trabajo. Es una ventana desplegable al hacer clic sobre la solapa situada en el lado izquierdo que contiene todos los elementos del espacio de trabajo de R. Entre estos elementos aparecen los paquetes cargados, los conjuntos de datos y las variables que contienen los datos de la sesi on actual. Bit acora de comandos Es una solapa desplegable situada en la parte inferior donde aparece un registro de todas las acciones realizadas o comandos ejecutados en la sesi on de trabajo actual. Cada vez que se seleccione un men u que lleve asociado la ejecuci on de alg un comando, dicho comando aparecer a en esta ventana. Esto permite modicar f acilmente los par ametros del comando y volver a ejecutarlo r apidamente sin necesidad de volver al men u. Consola de R Es una solapa desplegable situada tambi en en la parte inferior que da acceso al int erprete de comandos de R. En esta ventana pueden teclearse y ejecutarse directamente los comandos de R. Buscar en la ayuda Es una solapa desplegable situada en la parte inferior que permite hacer b usquedas sobre comandos de R o de alg un paquete. Mensajes. Es la l nea de texto que aparece en la parte inferior, donde se muestra informaci on adicional sobre errores, advertencias u otra informaci on auxiliar al ejecutar un comando, as como la ruta del espacio de trabajo activo. 3

1. Introducci on a R y RKWard

Universidad San Pablo CEU

Tipos de datos y operadores aritm eticos y l ogicos


En R existen distintos tipos de datos. Los m as b asicos son:

Numeric : Es cualquier n umero decimal. Se utiliza el punto como separador de decimales. Por defecto, cualquier n umero que se teclee tomar a este tipo. Integer : Es cualquier n umero entero. Para convertir un n umero de tipo Numeric en un entero se utiliza el comando as.integer() Logical : Puede tomar cualquiera de los dos valores l ogicos TRUE (verdadero) o FALSE (falso). Character : Es cualquier cadena de caracteres alfanum ericos. Deben introducirse entre comillas. Para convertir cualquier n umero en una cadena de caracteres se utiliza el comando as.character(). Los valores de estos tipos de datos pueden operarse utilizando distintos operadores o funciones predenidas para cada tipo de datos. Los m as habituales son: Operadores aritm eticos : + (suma), - (resta), * (producto), / (cociente), ^ (potencia). Operadores de comparaci on : > (mayor), < (menor), >= (mayor o igual), <= (menor o igual), == (igual), != (distinto). on y), | (disyunci on o), ! (negaci on no). Operadores l ogicos : & (conjunci z cuadrada), abs() (valor absoluto), log() (logar tmo nepeFunciones predenidas : sqrt() (ra riano), exp() (exponencial), sin() (seno), cos() (coseno), tan() (tangente). Al evaluar las expresiones aritm eticas existe un orden de prioridad entre los operadores de manera que primero se evaluan las funciones predenidas, luego las potencias, luego los productos y cocientes, luego las sumas y restas, luego los operadores de comparaci on, luego las negaciones, luego las conjunciones y nalmente las disyunciones. Para forzar un orden de evaluaci on distinto del predenido se pueden usar par entesis. Por ejemplo > 2^2+4 / 2 [1] 6 > ( 2 ^ 2 + 4 )/ 2 [1] 4 > 2^(2+4 / 2) [1] 16 > 2 ^ ( 2 + 4 )/ 2 [1] 32 > 2 ^ ( ( 2 + 4 )/ 2) [1] 8 Tambi en es posible asignar valores a variables mediante el operador de asignaci on =. Una vez denidas, las variables pueden usarse en cualquier expresi on aritm etica o l ogica. Por ejemplo, > x =2 > y = x +2 > y [1] 4 > y>x [1] TRUE > x >= y [1] FALSE > x == y -2 [1] TRUE > x ! = 0 & !y < x [1] TRUE

Universidad San Pablo CEU

1. Introducci on a R y RKWard

Introducci on y manipulaci on de datos


Antes de realizar cualquier an alisis de datos hay que introducir los datos que se quieren analizar.

5.1

Introducci on de datos en l nea de comandos

Existen muchas formas de introducir datos en R pero aqu s olo veremos las m as habituales. La forma m as r apida de introducir datos es usar la consola de R para crear un vector de datos mediante el comando c(). Por ejemplo, para introducir las notas de 5 alumnos se debe teclear en la consola de R > nota = c (5.6 ,7.2 ,3.5 ,8.1 ,6.4) Esto crea el vector nota con el que posteriormente se pueden realizar c alculos como por ejemplo la media > mean ( nota ) [1] 6.16 Otra forma habitual de introducir los datos de una muestra es crear un conjunto de datos mediante el comando data.frame(). Por ejemplo, para crear un conjunto de datos a partir de las notas anteriores, hay que teclear > curso = data . frame ( nota ) Esto crea una matriz de datos en la que cada columna se corresponde con una variable y cada la con un individuo de la muestra. En el ejemplo la matriz curso s olo tendr a una columna que se corresponder a con las notas y 5 las, cada una de ellas correspondiente a un alumno de la muestra. Es posible acceder a las variables de un conjunto de datos con el operador dolar $. Por ejemplo, para acceder a las notas hay que teclear > curso $ nota [1] 5.6 7.2 3.5 8.1 6.4 Es f acil a nadir nuevas variables a un conjunto de datos, pero siempre deben tener el mismo tama no muestral. Por ejemplo, para a nadir una nueva variable con el grupo (ma nana o tarde) de los alumnos, hay que teclear > curso $ grupo = c (" m " ," t " ," t " ," m " ," m ") Ahora el conjunto de datos curso tendr a dos columnas, una para la nota y otra para el grupo de los alumnos. Tecleando el nombre de cualquier objeto, se muestra su informaci on: > curso nota 1 5.6 2 7.2 3 3.5 4 8.1 5 6.4 grupo m t t m m

Cuando se introducen datos se puede utilizar el c odigo NA (not available), para indicar la ausencia del dato. Las variables denidas en cada sesi on de trabajo quedan almacenas en la memoria interna de R en lo que se conoce como espacio de trabajo. Es posible obtener un listado de todos los objetos almacenados en as informaci on, el comando ls.str() el espacio de trabajo mediante los comandos ls(). Si se desea m adem as de mostrar los objetos de la memoria indica sus tipos y sus valores. > ls () [1] " curso " " nota " " x " "y" > ls . str () curso : data . frame : 5 obs . of 2 v a r i a b l e s: $ nota : num 5.6 7.2 3.5 8.1 6.4 $ grupo : chr " m " " t " " t " " m " ... 5

1. Introducci on a R y RKWard

Universidad San Pablo CEU

nota : num [1:5] 5.6 7.2 3.5 8.1 6.4 x : num 2 y : num 4 Para eliminar un objeto de la memoria se utiliza el comando rm(). > ls () [1] " curso " " nota " > rm ( x , y ) > ls () [1] " curso " " nota " "x" "y"

5.2

Introducci on de datos en RKWard

RKWard dispone de una interfaz gr aca para introducir los datos sin necesidad de saberse los comandos anteriores. Para ello hay que ir al menu Archivo Nuevo Conjunto de datos. Con esto aparecer a una ventana donde hay que darle un nombre al conjunto de datos y tras esto aparece la ventana de la gura 1.2 con una tabla en la que se pueden introducir los datos de la muestra. Al igual que antes, cada variable debe introducirse en una columna y cada individuo en una la.

Figura 1.2 Ventana de introducci on de datos

Haciendo clic en las casillas de la cabecera cada la es posible cambiar el nombre de la variable, ponerle una etiqueta, su tipo, su formato y los niveles en caso de tratarse de un factor o variable categ orica. Los nombres de variables deben comenzar con una letra o un punto y pueden contener cualquier letra, punto, subrayado (_) o n umero. En particular, no se pueden utilizar espacios en blanco. Adem as, R es distingue entre may usculas y min usculas. Una vez denida la variable, para introducir los datos basta con teclearlos en las casillas que aparecen m as abajo en la misma columna. R permite denir m as de un conjunto de datos en un mismo espacio de trabajo. Los objetos denidos en el espacio de trabajo pueden verse haciendo clic en la solapa Espacio de trabajo. Para editar una variable o un conjunto de datos basta con hacer doble clic sobre el. Tambi en puede obtenerse un resumen como el que se muestra en la gura 1.3 haciendo clic en el bot on derecho y seleccionando ver en el men u contextual que aparece. 6

Universidad San Pablo CEU

1. Introducci on a R y RKWard

Figura 1.3 Ventana de resumen descriptivo de un conjunto de datos

5.3

Ponderaci on de datos

Cuando una variable o un conjunto de datos tiene unos pocos valores que se repiten mucho, en lugar de teclearlos es m as r apido indicar los valores y ponderarlos por sus frecuencias. Para ello se utiliza el men u Teaching Datos Ponerar datos. Al seleccionarlo aparece una ventana donde hay que seleccionar el conjunto de datos a ponderar, la variable num erica de dicho conjunto de datos que contiene las frecuencias de ponderaci on, e indicar un nombre para el nuevo conjunto de datos. Por ejemplo, si en una clase hay 20 chicas y 30 chicos, se puede crear un conjunto de datos con la variables sexo y es llamar al men u de ponderaci on con los datos frequencia, tal y como se muestra en la gura 1.4, y despu que aparencen la gura 1.5.

Figura 1.4 Conjunto de datos preparado para ser ponderado

1. Introducci on a R y RKWard

Universidad San Pablo CEU

Figura 1.5 Ventana de ponderaci on de datos

5.4

Guardar datos

Una vez introducidos los datos, conviene guardarlos en un chero para no tener que volver a introducirlos en futuras sesiones. Para guardar los conjunto de datos denidos en el espacio de trabajo, se utiliza el men u Espacio de trabajo Guardar espacio de trabajo. Con esto aparece una ventana donde hay que darle un nombre al chero y seleccionar la carpeta donde se guardar a. Los conjuntos de datos se guardan siempre en cheros de R con extensi on rda o rData. Tambi en es posible guardar los datos en un chero de texto plano mediante el men u Archivo ExportarExport tabular data. Tras esto aparece una ventana donde hay que seleccionar el conjunto de datos a exportar, darle un nombre al chero de texto y seleccionar la carpeta donde se guardar a. Esta ventana contiene tambi en solapas donde se puede indicar entre otras cosas si incluir los nombres de las variables o no, el separador de decimales o el separador de los datos, que puede ser un espacio, tabuladores, comas u otro caracter.

5.5

Abrir datos

Si los datos con los que se pretende trabajar ya est an guardados en un chero de R, entonces tendremos que abrir dicho chero. Para ello se utiliza el Espacio de trabajo Abrir espacio de trabajo y en la ventana que aparece se selecciona el chero que se desea abrir. Autom aticamente se cargar a el conjunto de datos del chero y pasar a a ser el conjunto de datos activo. Tambi en es posible cargar datos de cheros con otros formatos, como por ejemplo un chero de texto. Para ello se utiliza el men u Archivo Importar Importar datos y en la ventana que aparece se selecciona el chero de texto que se desea abrir y en el cuadro desplegable del formato de archivo se debes seleccionar Text. Despu es aparecer a una ventana donde habr a que darle un nombre al conjunto de datos y seleccionar el tipo de separador y si los nombres de las variables aparecen en la primera l nea del chero.

5.6

Eliminaci on de datos

Para eliminar una variable del conjunto de datos primero hay que editar el conjunto de datos, y despu es, en la ventana de edici on de datos, hay que hacer clic con el bot on derecho del rat on sobre la cabecera de la columna correspondiente y seleccionar en el men u contextual que aparece Borrar esta variable. Para eliminar individuos del conjunto de datos que hacer clic con el bot on derecho del rat on sobre la cabecera de la la correspondiente y seleccionar en el men u contextual que aparece Borrar esta fila. En la ventana del espacio de trabajo tambi en es posible borrar cualquier objeto del espacio de trabajo de R haciendo clic con el bot on derecho del rat on sobre el y seleccionando el men u Eliminar. 8

Universidad San Pablo CEU

1. Introducci on a R y RKWard

Transformaci on de datos

A menudo en los an alisis hay que realizar transformaciones en los datos originales. A continuaci on se presentan las transformaciones m as habituales.

6.1

Filtrado de datos

Cuando se desea realizar un an alisis con un subconjunto de individuos del conjunto de datos activo que cumplen una determinada condici on es posible ltrar el conjunto de datos para quedarse con esos individuos. Para ello se utiliza el men u Teaching Datos Filtrar. Con esto aparece un cuadro de di alogo en el que hay que seleccionar el conjunto de datos que se desea ltrar, y en el cuadro de texto Condici on de selecci on indicar la condici on l ogica que tienen que cumplir los individuos seleccionados. Tambi en hay que indicar el nombre del nuevo conjunto de datos. Por ejemplo, para seleccionar los alumnos del grupo de la ma nana habr a que indicar la condici on grupo==m tal y como se muestra en la gura 1.6.

Figura 1.6 Ventana de ltrado de datos.

6.2

C alculo de variables

Para calcular una nueva variable a partir de otras ya existentes en el espacio de trabajo de R se utiliza el men u Teaching Datos Calcular variable. Con esto aparece un cuadro de di alogo en el que hay que introducir la expresi on a partir de la que se calcular a la nueva variable en el cuadro de texto Expresi on de c alculo, e indicar el nombre de la nueva variable. La expresi on de c alculo puede ser cualquier expresi on aritm etica o l ogica de R, en las que pueden utilizarse cualquiera de las variables del espacio de trabajo de R. Por ejemplo, para eliminar los decimales de la variable nota podr a crearse una nueva variable puntuacion multiplicando por 10 las notas, tal y como se muestra en la gura 1.7.

Figura 1.7 Ventana de c alculo de nuevas variables.

6.3

Recodicaci on de variables

Otra transformaci on habitual es la recodicaci on de variables que permite transformar los valores de una variable de acuerdo a un conjunto de reglas de reescritura. Normalmente se utiliza para convertir una variable num erica en una variable categ orica que pueda usarse como un factor. 9

1. Introducci on a R y RKWard

Universidad San Pablo CEU

Para recodicar una variable se utiliza el men u Teaching Datos Recodificar variable. Con esto aparece una ventana en la que hay que seleccionar la variable que se desea recodicar, indicar el nombre de la nueva variable recodicada e introducir las reglas de recodicaci on en el cuadro de texto Reglas de recodificaci on. Las reglas de recodicaci on siempre siguen la sintaxis valor o rango de valores = nuevo valor y pueden introducirse tantas reglas como se desee, cada una en una l nea. Al lado izquierdo de la igualdad puede introducirse un u nico valor, varios valores separados por comas, o un rango de valores indicando el l mite inferior y el l mite superior del intervalo separados por el operador :. A la hora de denir el l mite inferior puede utilizarse la palabra clave lo para referirse al menor de los valores de la muestra y hi para referirse al mayor de los valores. Por ejemplo, para recodicar la variable nota en categor as correspondientes a las calicaciones ([0-5) Suspenso, [5,7) Aprobado, [7,9) Notable y [9,10] Sobresaliente), habr a que introducir las reglas que se muestran en la gura 1.8. Despu es, en la ventana de introducci on de datos, se pueden renombrar los niveles del factor introduciendo el valor suspenso para la categor a 1, aprobado para la categor a 2, notable para la categor a 3 y sobresaliente para la categor a 4.

Figura 1.8 Ventana de recodicaci on de variables

7
7.1

Manipulaci on de cheros de resultados


Guardar los resultados

Cada vez que se ejecuta un comando de R, bien en la consola de comandos o a trav es de un men u, el comando ejecutado y su salida quedan registrados en la bit acora de comandos. Sin embargo, esta salida es en texto plano sin formato por lo que muchos de los procedimientos recogidos en los men us producen adem as una salida mucho m as comprensible en formato HTML en la ventana de resultados. Para guardar el contenido de la ventana de resultados en un chero se utiliza el men u Archivo Exportar p agina como HTML. Con esto aparece un cuadro de di alogo en el que hay que indicar el nombre del chero y la carpeta donde se desea guardar. El chero resultante est a en formato HTML por lo que se podr a visualizar con cualquier navegador web.

7.2

Limpiar la ventana de resultados

La vetana de resultados va acumulando todas las salidas de los an alisis realizados en cada sesi on de trabajo. Para no mezclar los resultados de estudios distintos, conviene limpiar la ventana de resultados cada vez que se empiece un estudio nuevo. Para ello hay que seleccionar el men u Edici on Limpiar salida. 10

Universidad San Pablo CEU

1. Introducci on a R y RKWard

8
8.1

Manipulaci on de guiones de comandos


Creaci on de un gui on de comandos

RKWard tambi en incorpora un entorno de desarrollo para programadores de R que permite crear guiones de comandos que pueden ejecutarse todos seguidos. Esta opci on es muy interesante para repetir an alisis o automatizar tareas repetitivas. Para crear un gui on de comandos hay que seleccionar el men u Archivo Nuevo Archivo de guiones. Con esto aparecer a una venta como la que aparece en la an teclecar los comandos de R para despu es ejecutarlos uno a uno o en bloque. gura 1.9 donde se podr

Figura 1.9 Ventana de edici on de guiones de comandos

8.2

Guardar un gui on de comandos

Los guiones de comandos tambi en pueden guardarse en un chero de texto plano mediante el men u Ar chivo Guardar gui on e indicando el nombre del chero y la carpeta donde se guardar a en el cuadro de di alo que aparece.

8.3

Abrir un gui on de comandos

Para abrir un chero con un gui on de comandos se utiliza el men u Archivo Abrir archivo de guiones de R y despu es seleccionar el chero que se desea abrir en el cuadro de di alogo que aparece.

Ayuda

Otra de las ventajas de R es que tiene un sistema de ayuda muy documentado. Es posible conseguir ayuda sobre cualquier funci on, prodecimiento o paquete simplemente tecleando el comando help(). Por ejemplo, para obtener ayuda sobre el comando mean se teclear a > help (" mean ") y con esto aparecer a una ventana de ayuda donde se describe la funci on y tambi en aparecen ejemplos que ilustran su uso. Si no se conoce exactamente el nombre de la funci on o comando, se puede hacer una b usqueda aproximada con el comando help.search(). Por emplo, si no se recuerda el nombre de la funci on logar tmica, se podr a teclear > help (" l o g a r i t h m ") y con esto aparecer a una ventana con todos los cheros de ayuda que contienen la palabra logarithm. Finalmente, tambi en es posible invocar la ayuda general de R en RKWard con el men u Ayuda Ayuda de R con lo que aparecer a una p agina web desde donde podremos navegar a la informaci on deseada. 11

1. Introducci on a R y RKWard

Universidad San Pablo CEU

Tambi en es posible buscar ayuda sobre un comando concreto en el men u Ayuda Buscar en la ayuda de R. Para m as informaci on sobre R se recomienda visitar la p agina http://www.r-project.org/, y para m as informaci on sobre RKWard se recomienda visitar la p agina http://rkward.sourceforge.net/.

12

Universidad San Pablo CEU

1. Introducci on a R y RKWard

10

Ejercicios resueltos

1. Crear un conjunto de datos con los datos de la siguiente muestra y guardarlo con el nombre coleste rol.rda Nombre Jos e Luis Mart nez Izquierdo Rosa D az D az Javier Garc a S anchez Carmen L opez Pinz on Marisa L opez Collado Antonio Ruiz Cruz
Indicaci on Para crear el conjunto de datos: a ) Seleccionar el men u Archivo Nuevo Conjunto de datos. b ) En el cuadro de di alogo que aparece introducir el nombre del conjunto de datos colesterol y hacer clic en el bot on Aceptar. c ) En la ventana del editor de datos hay que denir una variable en cada columna introduciendo su nombre y tipo en las casillas de la cabecera de cada columna. d ) Una vez denidas las variables hay que introducir los datos de cada variable en la columna correspondiente. Para guardar los datos: a ) Selecionar el men u Espacio de trabajo Guardar espacio de trabajo. b ) En el cuadro de di alogo que aparece hay que darle un nombre al chero, seleccionar la carpeta donde guardarlo y hacer clic en el bot on Aceptar.

Sexo H M H M M H

Peso 85 65 71 65 51 66

Altura 179 173 181 170 158 174

Colesterol 182 232 191 200 148 249

2. Abrir el chero creado en el ejercicio anterior y realizar las siguientes operaciones: a ) Insertar una nueva variable Edad con las edades de todos los individuos de la muestra. Nombre Jos e Luis Mart nez Izquierdo Rosa D az D az Javier Garc a S anchez Carmen L opez Pinz on Marisa L opez Collado Antonio Ruiz Cruz Edad 18 32 24 35 46 68

Indicaci on Para abrir el conjunto de datos del ejercicio anterior: 1) Seleccionar el men u Espacio de trabajo Abrir espacio de trabajo. 2) En el cuadro de di alogo que aparece seleccionar la carpeta donde se encuentra el chero con los datos del ejercicio anterior, seleccionar el chero y hacer clic en el bot on Aceptar. Para insertar la variable Edad: 1) Hacer clic en la solapa Espacio de trabajo. 2) En la ventana del espacio de trabajo doble clic sobre el conjunto de datos colesterol. 3) En la ventana del editor de datos introducir el nombre de la variable edad y su tipo en las casillas de la cabecera de una nueva columna vac a, e introducir los datos de las edades en las celdas de ma s abajo.

b ) Insertar un nuevo individuo con siguientes datos Nombre: Crist obal Campos Ruiz. Edad: 44 a nos. Sexo: Hombre. Peso: 70 Kg. Altura: 178 cm. Colesterol: 220 mg/dl. 13

1. Introducci on a R y RKWard

Universidad San Pablo CEU

Indicaci on 1) En la ventana del editor de datos introducir los datos de del nuevo individuo en la primera la vac a.

c ) Crear una nueva variable donde se calcule el ndice de masa corporal de cada paciente mediante la formula: Peso (en Kg) imc = 2 Altura (en mt)
Indicaci on 1) Seleccionar el men u Teaching Datos Calcular variable. 2) En el cuadro de di alogo que aparece introducir la f ormula para calcular el ndice de masa corporal en el campo Expresi on de c alculo. 3) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar. 4) En el cuadro de di alogo que aparece seleccionar como objeto padre la el conjunto de datos colesterol y hacer clic sobre el bot on Aceptar. 5) Introducir el nombre de la nueva variable imc y hacer clic sobre el bot on Aceptar.

d ) Recodicar el ndice de masa corporal en una nueva variable de acuerdo a las siguientes categor as: Menor de 18,5 De 18,5 a 24,5 De 24,5 a 30 Mayor de 30 Bajo peso Saludable Sobrepeso Obeso

Indicaci on 1) Selecionar el men u Teaching Datos Recodificar variable. 2) En el cuadro de di alogo que aparece seleccionar como variable a recodicar la variable imc. 3) Introducir las reglas de recodicaci on en el campo Reglas de recodificaci on: lo:18.5 = 1 18.5:24.5 = 2 24.5:30 = 3 30:hi = 4 4) En el cuadro Guardar nueva variable hacer clic sobre el bot on Cambiar. 5) En el cuadro de di alogo que aparece seleccionar como objeto padre la el conjunto de datos colesterol y hacer clic sobre el bot on Aceptar. 6) Introducir el nombre de la nueva variable obesidad y hacer clic sobre el bot on Aceptar. 7) En la ventada de edici on de datos introducir los niveles del factor, asignando Bajo peso a la categor a 1, Saludable a la categor a 2, Sobrepeso a la categor a 3 y Obeso a la categor a 4.

e ) Filtrar el conjunto de datos para obtener un nuevo conjunto de datos con los datos de los hombres
Indicaci on 1) Selecionar el men u Teaching Datos Filtrar. 2) En el cuadro de di alogo que aparece seleccionar como conjunto de datos colesterol. 3) En el campo Condici on de selecci on introducir la condici on sexo=="H". 4) Introducir el nombre del nuevo conjunto de datos colesterol.hombres y hacer clic sobre el bot on Aceptar.

14

Pr actica de Estad stica con R

Distribuciones de Frecuencias y Representaciones Gr acas


1 Fundamentos te oricos

Uno de los primeros pasos en cualquier estudio estad stico es el resumen y la descripci on de la informaci on contenida en una muestra. Para ello se van a aplicar algunos m etodos de an alisis descriptivo, que nos permitir an clasicar y estructurar la informaci on al igual que representarla gr acamente. Las caracter sticas que estudiamos pueden ser o no susceptibles de medida; en este sentido deniremos una variable como un car acter susceptible de ser medido, es decir, cuantitativo y cuanticable mediante la observaci on, (por ejemplo el peso de las personas, la edad, etc...), y deniremos un atributo como un car acter no susceptible de ser medido, y en consecuencia observable tan s olo cualitativamente (por ejemplo el color de ojos, estado de un paciente, etc...). Se llaman modalidades a las posibles observaciones de un atributo. Dentro de los atributos, podemos hablar de atributos ordinales, los que presentan alg un tipo de orden entre las distintas modalidades, y de atributos nominales, en los que no existe ning un orden entre ellas. Dentro de las variables podemos diferenciar entre discretas, si sus valores posibles son valores aislados, y continuas, si pueden tomar cualquier valor dentro de un intervalo. En algunos textos no se emplea el t ermino atributo y se denominan a todos los caracteres variables. En ese caso se distinguen variables cuantitativas para designar las que aqu hemos denido como variables, y variables cualitativas para las que aqu se han llamado atributos. En lo sucesivo se aplicar a este criterio para simplicar la exposici on.

1.1

C alculo de Frecuencias

Para estudiar cualquier caracter stica, lo primero que deberemos hacer es un recuento de las observaciones, y el n umero de repeticiones de estas. Para cada valor xi de la muestra se dene: Frecuencia absoluta Es el n umero de veces que aparece cada uno de los valores xi y se denota por ni . Frecuencia relativa Es el n umero de veces que aparece cada valor xi dividido entre el tama no muestral y se denota por fi fi = ni n

Generalmente las frecuencias relativas se multiplican por 100 para que representen el tanto por ciento. En el caso de que exista un orden entre los valores de la variable, a veces nos interesa no s olo conocer el n umero de veces que se repite un determinado valor, sino tambi en el n umero de veces que aparece dicho valor y todos los menores. A este tipo de frecuencias se le denomina frecuencias acumuladas. Frecuencia absoluta acumulada Es la suma de las frecuencias absolutas de los valores menores que xi m as la frecuencia absoluta de xi , y se denota por Ni N i = n1 + n2 + . . . + ni 15

2. Distribuciones de Frecuencias y Representaciones Gr acas

Universidad San Pablo CEU

Frecuencia relativa acumulada Es la suma de las frecuencias relativas de los valores menores que xi m as la frecuencia relativa de xi , y se denota por Fi Fi = f1 + f2 + . . . + fi Los resultados de las observaciones de los valores de una variable estad stica en una muestra suelen representarse en forma de tabla. En la primera columna se representan los valores xi de la variable colocados en orden creciente, y en la siguiente columna los valores de las frecuencias absolutas correspondientes ni . Podemos completar la tabla con otras columnas, correspondientes a las frecuencias relativas, fi , y a las frecuencias acumuladas, Ni y Fi . Al conjunto de los valores de la variable observados en la muestra junto con sus frecuencias se le conoce como distribuci on de frecuencias muestral. Ejemplo En una encuesta a 25 matrimonios, sobre el n umero de hijos que tienen, se obtienen los siguientes datos: 1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2. Los valores distintos de la variable son: 0, 1, 2, 3 y 4. As la tabla ser a: xi 0 1 2 3 4 xi 0 1 2 3 4 Suma Recuento II IIIII I IIIII IIIII IIII II I ni 2 6 14 2 1 25 fi 0,08 0,24 0,56 0,08 0,04 1 Ni 2 8 22 24 25 ni 2 6 14 2 1 Fi 0,08 0,32 0,88 0,96 1

La distribuci on de las frecuencias quedar a:

Cuando el tama no de la muestra es grande en el caso de variables discretas con muchos valores distintos de la variable, y en cualquier caso si se trata de variables continuas, se agrupan las observaciones en clases, que son intervalos contiguos, preferiblemente de la misma amplitud. Para decidir el n umero de clases a considerar, una regla frecuentemente utilizada es tomar el entero m as pr oximo a n donde n es el n umero de observaciones en la muestra. Pero conviene probar con distintos n umeros de clases y escoger el que proporcione una descripci on m as clara. As se prejan los intervalos (ai1 , ai ], i = 1, 2, . . . , l siendo a = a0 < a1 < .... < al = b de tal modo que todos los valores observados est en dentro del intervalo (a, b], y sin que exista ambig uedad a la hora de decidir a qu e intervalo pertenece cada dato. Llamaremos marca de clase al punto medio de cada intervalo. As la marca de la clase (ai1 , ai ] es el punto medio xi de dicha clase, es decir ai1 + ai 2 En el tratamiento estad stico de los datos agrupados, todos los valores que est an en una misma clase se consideran iguales a la marca de la clase. De esta manera si en la clase (ai1 , ai ] hay ni valores observados, se puede asociar la marca de la clase xi con esta frecuencia ni . xi =

1.2

Representaciones Gr acas

Hemos visto que la tabla estad stica resume los datos de una muestra, de forma que esta se puede analizar de una manera m as sistem atica y resumida. Para conseguir una percepci on visual de las caracter sticas de la poblaci on resulta muy u til el uso de gr acas y diagramas. Dependiendo del tipo de variable y de si trabajamos con datos agrupados o no, se utilizar an distintos tipos. 16

Universidad San Pablo CEU

2. Distribuciones de Frecuencias y Representaciones Gr acas

Diagrama de barras y pol gono de frecuencias Consiste en representar sobre el eje de abscisas de un sistema de ejes coordenados los distintos valores de la variable X , y levantar sobre cada uno de esos puntos una barra cuya altura sea igual a la frecuencia absoluta o relativa correspondiente a ese valor, tal y como se muestra en la gura 2.1(a). Esta representaci on se utiliza para distribuciones de frecuencias con pocos valores distintos de la variable, tanto cuantitativas como cualitativas, y en este u ltimo caso se suele representar con rect angulos de altura igual a la frecuencia de cada modalidad. En el caso de variables cuantitativas se puede representar tambi en el diagrama de barras de las frecuencias acumuladas, tal y como se muestra en la gura 2.1(b). Otra representaci on habitual es el pol gono de frecuencias que consiste en la l nea poligonal cuyos vertices son los puntos (xi , ni ), tal y como se ve en la gura 2.1(c), y si en vez de considerar las frecuencias absolutas o relativas se consideran las absolutas o relativas acumuladas, se obtiene el pol gono de frecuencias acumuladas, como se ve en la gura 2.1(d).

12

14

Frecuencia absoluta acumulada Ni 0 1 2 3 4

Frecuencia absoluta ni

10

10

15

20

25

2 N umero de hijos

N umero de hijos

(a) Diagrama de barras de frecuencias absolutas.

(b) Diagrama de barras de frecuencias absolutas acumuladas.

12

14

Frecuencia absoluta acumulada Ni 0 1 2 N umero de hijos 3 4

Frecuencia absoluta ni

10

10

15

20

25

2 N umero de hijos

(c) Pol gono de frecuencias absolutas.

(d) Pol gono de frecuencias absolutas acumuladas

Figura 2.1 Diagramas de barras y pol gonos asociados para datos no agrupados.

17

2. Distribuciones de Frecuencias y Representaciones Gr acas

Universidad San Pablo CEU

Histogramas Este tipo de representaciones se utiliza en variables continuas y en variables discretas en que se ha realizado una agrupaci on de las observaciones en clases. Un histograma es un conjunto de rect angulos, cuyas bases son los intervalos de clase (ai1 , ai ] sobre el eje OX y su altura la correspondiente frecuencia absoluta , relativa, absoluta acumulada, o relativa acumulada, tal y como se muestra en la guras 2.2(a) y 2.2(b). Si unimos los puntos medios de las bases superiores de los rect angulos del histograma, se obtiene el pol gono de frecuencias correspondiente a datos agrupados (gura 2.2(c)). El pol gono de frecuencias tambi en se puede utilizar para representar las frecuencias acumuladas, tanto absolutas como relativas. En este caso la l nea poligonal se traza uniendo los extremos derechos de las bases superiores de los rect angulos del histograma de frecuencias acumuladas, en lugar de los puntos centrales (gura 2.2(d)).

12

Frecuencia absoluta acumulada Ni 150 160 170 180 190 200

Frecuencia absoluta ni

10

0 150

10

15

20

25

30

160

170

180

190

200

Estatura

Estatura

(a) Histograma de frecuencias absolutas.

(b) Histograma de frecuencias absolutas acumuladas.

12

Frecuencia absoluta acumulada Ni 150 160 170 180 190 200

10

Frecuencia absoluta ni

0 150

10

15

20

25

30

160

170

180

190

200

Estatura

Estatura

(c) Pol gono de frecuencias absolutas.

(d) Pol gono de frecuencias absolutas acumuladas

Figura 2.2 Histograma y pol gonos asociados para datos agrupados.

Para variables cualitativas y cuantitativas discretas tambi en se pueden usar las supercies representativas; de estas, las m as empleadas son los sectores circulares. 18

Universidad San Pablo CEU

2. Distribuciones de Frecuencias y Representaciones Gr acas

Sectores circulares o diagrama de sectores Es una representaci on en la que un c rculo se divide en sectores, de forma que los angulos, y por tanto las a reas respectivas, sean proporcionales a la frecuencia. Ejemplo Se est a haciendo un estudio en una poblaci on del grupo sangu neo de sus ciudadanos. Para ello disponemos de una muestra de 30 personas, con los siguientes resultados: 5 personas con grupo 0, 14 con grupo A, 8 con grupo B y 3 con grupo AB. El el diagrama de sectores de frecuencias relativas correspondiente aparece en la gura 2.3.
Distribuci on del grupo sangu neo

grupo A 47 %

grupo 0 16 %

grupo B 27 % grupo AB 10 %

Figura 2.3 Diagrama de sectores de frecuencias relativas del grupo sangu neo.

Diagrama de cajas y datos at picos Los datos extremadamente altos o bajos, en comparaci on con los del resto de la muestra, reciben el nombre de datos inuyentes o datos at picos. Tales datos que, como su propio nombre indica, pueden modicar las conclusiones de un estudio, deben ser considerados atentamente antes de aceptarlos, pues no pocas veces podr an ser, simplemente, datos err oneos. La representaci on gr aca m as apropiada para detectar estos datos es el diagrama de cajas. Este diagrama est a formado por una caja que contiene el 50 % de los datos centrales de la distribuci on, y unos segmentos que salen de la caja, que indican los l mites a partir de los cuales los datos se consideran at picos. En la gura 2.4 se puede observar un ejemplo en el que aparecen dos datos at picos.

19

2. Distribuciones de Frecuencias y Representaciones Gr acas

Universidad San Pablo CEU

Diagrama de caja y bigotes del peso de recien nacidos

Dato at pico

C1 C2

C3

2.0

2.5

3.0

3.5

4.0

4.5

Peso (Kg)

Figura 2.4 Diagrama de cajas para una muestra de reci en nacidos. Existen dos ni nos con pesos at picos, uno con peso extremadamente bajo 1,9 kg, y otro con peso extremadamente alto 4,3 kg.

20

Dato at pico

Universidad San Pablo CEU

2. Distribuciones de Frecuencias y Representaciones Gr acas

Ejercicios resueltos

1. En una encuesta a 25 matrimonios sobre el n umero de hijos que ten an se obtuvieron los siguientes datos: 1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2 Se pide: a ) Crear un conjunto de datos con la variable hijos e introducir los datos. b ) Construir la tabla de frecuencias.
Indicaci on 1) Seleccionar el men u Teaching Distribuci on de frecuencias Tabla de frecuencias . 2) En el cuadro de di alogo que aparece, seleccionar la variable hijos y hacer clic en el bot on Enviar.

c ) Dibujar el diagrama de barras de las frecuencias absolutas.


Indicaci on 1) Seleccionar el men u Teaching Gr aficos Diagrama de barras. 2) En el cuadro de di alogo que aparece, seleccionar la variable hijos y hacer clic en el bot on Enviar.

d ) Para la misma tabla de frecuencias anterior, dibujar tambi en el diagrama de barras de las frecuencias relativas, el de absolutas acumuladas y el de relativas acumuladas, adem as de sus correspondientes pol gonos.
Indicaci on Repetir los pasos del apartado anterior activando, en la solapa de Opciones de las barras, la opci on Frecuen cias relativas si se desea el diagrama de barras de frecuencias relativas, activando la opci on Frecuencias acumuladas si se desea el diagrama de barras de frecuencias acumuladas y activando la opci on Pol gono para obtener el pol gono asociado.

2. En un hospital se realiz o un estudio sobre el n umero de personas que ingresaron en urgencias cada d a del mes de noviembre. Los datos observados fueron: 15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26 30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20 Se pide: a ) Crear un conjunto de datos con la variable urgencias e introducir los datos. b ) Dibujar el diagrama de cajas. Existe alg un dato at pico? En el caso de que exista, eliminarlo y proceder con los siguientes apartados.
Indicaci on 1) Seleccionar el men u Teaching Gr aficos Diagrama de cajas. 2) En el cuadro de di alogo que aparece, seleccionar la variable urgencias y hacer clic en el bot on Enviar. 3) En la ventana que aparece con el diagrama de barras identicar el dato at pico. 4) Ir a la ventana de edici on de datos y eliminar la la del dato at pico haciendo clic con el bot on derecho del rat on en la cabecera de la la y seleccionando Borrar esta fila.

c ) Construir la tabla de frecuencias agrupando en 5 clases.


Indicaci on 1) Seleccionar el men u Teaching Distribuci on de frecuencias Tabla de frecuencias. 2) En el cuadro de di alogo que aparece seleccionar la variable urgencias. 3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on N umero de intervalos e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on Enviar.

21

2. Distribuciones de Frecuencias y Representaciones Gr acas

Universidad San Pablo CEU

d ) Dibujar el histograma de frecuencias absolutas correspondiente a la tabla anterior.


Indicaci on 1) Seleccionar el men u Teaching Gr aficos Histograma. 2) En el cuadro de di alogo que aparece seleccionar la variable urgencias. 3) En la solapa de Clases activar la casilla Agrupar en intervalos, marcar la opci on N umero de intervalos e introducir el n umero deseado de intervalos en el campo Intervalos sugeridos y hacer clic sobre el bot on Enviar.

e ) Para la misma tabla de frecuencias anterior, dibujar tambi en el histograma de las frecuencias relativas, el de absolutas acumuladas y el de relativas acumuladas, adem as de sus correspondientes pol gonos.
Indicaci on Repetir los pasos del apartado anterior activando, en la solapa de Opciones del histograma, la opci on Frecuen cias relativas si se desea el histograma de frecuencias relativas, activando la opci on Frecuencias acumuladas si se desea el histograma de frecuencias acumuladas y activando la opci on Pol gono para obtener el pol gono asociado.

3. Los grupos sangu neos de una muestra de 30 personas son: A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB, A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0. Se pide: a ) Crear un conjunto de datos con la variable grupo.sanguineo e introducir los datos. b ) Construir la tabla de frecuencias.
Indicaci on 1) Seleccionar el men u Teaching Distribuci on de frecuencias Tabla de frecuencias . 2) En el cuadro de di alogo que aparece, seleccionar la variable grupo.sanguineo y hacer clic en el bot on Enviar.

c ) Dibujar el diagrama de sectores.


Indicaci on 1) Seleccionar el men u Teaching Gr aficos Diagrama de sectores. 2) En el cuadro de di alogo que aparece, seleccionar la variable grupo.sanguineo y hacer clic sobre el bot on Enviar.

4. En un estudio de poblaci on se tom o una muestra de 27 personas, y se les pregunt o por su edad y estado civil, obteniendo los siguientes resultados: Estado civil Soltero Casado Viudo Divorciado Se pide: a ) Crear un conjunto de datos con la variables estado.civil y edad e introducir los datos. b ) Dibujar los diagramas de cajas de la edad seg un el estado civil. Existen datos at picos? En qu e grupo hay mayor dispersi on?
Indicaci on 1) Seleccionar el men u Teaching Gr aficos Diagrama de cajas. 2) En el cuadro de di alogo que aparece, seleccionar la variable edad en el campo Variable(s), activar la casilla Dibujar por grupos, seleccionar la variable estado.civil en el campo Variable de agrupaci on y hacer clic en el bot on Enviar.

31 62 80 31

45 39 68 65

35 62 65 59

65 59 40 49

Edad 21 38 21 62 78 69 65

62 75

22

31

22

Universidad San Pablo CEU

2. Distribuciones de Frecuencias y Representaciones Gr acas

5. El conjunto de datos datos.curso contiene las notas de un grupo de alumnos de un curso. Se pide a ) Cargar el conjunto de datos.
Indicaci on 1) Hacer clic en la solapa Espacio de trabajo par desplegarla y ver los paquetes del espacio de trabajo. 2) Hacer doble clic sobre el paquete rk.Teaching para ver todos los conjuntos de datos que contiene. 3) Hacer clic con el bot on derecho sobre el conjunto de datos datos.curso y en el men u contextual que aparece selecconar Copiar a .GlobalEnv para hacer una copia del conjunto de datos en nuestro entorno de trabajo.

Ejercicios propuestos

1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue el siguiente: 0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1 Se pide: a ) Construir la tabla de frecuencias. b ) Dibujar el diagrama de barras de las frecuencias relativas y de frecuencias relativas acumuladas. c ) Dibujar el diagrama de sectores. 2. Para realizar un estudio sobre la estatura de los estudiantes universitarios, seleccionamos, mediante un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados (medidos en cent metros): 179, 173, 181, 170, 158, 174, 172, 166, 194, 185, 162, 187, 198, 177, 178, 165, 154, 188, 166, 171, 175, 182, 167, 169, 172, 186, 172, 176, 168, 187. Se pide: a ) Dibujar el histograma de las frecuencias absolutas agrupando desde 150 a 200 en clases de amplitud 10. b ) Dibujar el diagrama de cajas. Existe alg un dato at pico?.

23

2. Distribuciones de Frecuencias y Representaciones Gr acas

Universidad San Pablo CEU

24

Pr actica de Estad stica con R

Estad sticos Muestrales

Fundamentos te oricos

Hemos visto c omo podemos presentar la informaci on que obtenemos de la muestra, a trav es de tablas o bien a trav es de gr acas. La tabla de frecuencias contiene toda la informaci on de la muestra pero resulta dif cil sacar conclusiones sobre determinados aspectos de la distribuci on con s olo mirarla. Ahora veremos c omo a partir de esos mismos valores observados de la variable estad stica, se calculan ciertos n umeros que resumen la informaci on muestral. Estos n umeros, llamados Estad sticos, se utilizan para poner de maniesto ciertos aspectos de la distribuci on, tales como la dispersi on o concentraci on de los datos, la forma de su distribuci on, etc. Seg un sea la caracter stica que pretenden reejar se pueden clasicar en medidas de posici on, medidas de dispersi on y medidas de forma.

1.1

Medidas de posici on

Son valores que indican c omo se sit uan los datos. Los m as importantes son la Media aritm etica, la Mediana y la Moda. Media aritm etica x Se llama media aritm etica de una variable estad stica X , y se representa por x , a la suma de todos los resultados observados, dividida por el tama no muestral. Es decir, la media de la variable estad stica X , cuya distribuci on de frecuencias es (xi , ni ), viene dada por x= x1 n1 + . . . + xk nk 1 x1 + . . . + x1 + . . . + xk + . . . + xk = = n1 + . . . + nk n n
k

xi ni
i=1

La media aritm etica s olo tiene sentido en variables cuantitativas. Mediana Me Se llama mediana y lo denotamos por M e, a aquel valor de la muestra que, una vez ordenados todos los valores de la misma en orden creciente, tiene tantos t erminos inferiores a el como superiores. En consecuencia, divide la distribuci on en dos partes iguales. La mediana s olo tiene sentido en atributos ordinales y en variables cuantitativas. Moda Mo La moda es el valor de la variable que presenta una mayor frecuencia en la muestra. Cuando haya m as de un valor con frecuencia m axima diremos que hay m as de una moda. En variables continuas o discretas agrupadas llamaremos clase modal a la que tenga la m axima frecuencia. Se puede calcular la moda tanto en variables cuantitativas como cualitativas. 25

3. Estad sticos Muestrales

Universidad San Pablo CEU

Cuantiles Si el conjunto total de valores observados se divide en r partes que contengan cada una n r observaciones, los puntos de separaci on de las mismas reciben el nombre gen erico de cuantiles. Seg un esto la mediana tambi en es un cuantil con r = 2. Algunos cuantiles reciben determinados nombres como: Cuartiles. Son los puntos que dividen la distribuci on en 4 partes iguales y se designan por C1 , C2 , C3 . Es claro que C2 = M e. Deciles. Son los puntos que dividen la distribuci on en 10 partes iguales y se designan por D1 , D2 , . . . , D9 . Percentiles. Son los puntos que dividen la distribuci on en 100 partes iguales y se designan por P1 , P2 , . . . , P99 .

1.2

Medidas de dispersi on

Miden la separaci on existente entre los valores de la muestra. Las m as importantes son el Rango o Recorrido, el Rango Intercuart lico, la Varianza, la Desviaci on T pica y el Coeciente de Variaci on. Rango o Recorrido Re La medida de dispersi on m as inmediata es el rango. Llamamos recorrido o rango y lo designaremos por Re a la diferencia entre los valores m aximo y m nimo que toma la variable en la muestra, es decir Re = max{xi , i = 1, 2, . . . , n} min{xi , i = 1, 2, . . . , n}. Este estad stico sirve para medir el campo de variaci on de la variable, aunque es la medida de dispersi on que menos informaci on proporciona sobre la mayor o menor agrupaci on de los valores de la variable alrededor de las medidas de tendencia central. Adem as tiene el inconveniente de que se ve muy afectado por los datos at picos. Rango Intercuart lico RI El rango intercuart lico RI es la diferencia entre el tercer y el primer cuartil, y mide, por tanto, el campo de variaci on del 50 % de los datos centrales de la distribuci on. Por consiguiente RI = C3 C1 . La ventaja del rango intercuart lico frente al recorrido es que no se ve tan afectado por los datos at picos. Varianza s2 x Llamamos varianza de una variable estad stica X , y la designaremos por s2 x , a la media de los cuadrados de las desviaciones de los valores observados respecto de la media de la muestra, es decir, s2 x = 1 n
k i=1

(xi x)2 ni .

Desviaci on T pica sx La ra z cuadrada positiva de la varianza se conoce como desviaci on t pica de la variable X , y se representa por s, s = + s2 x. 26

Universidad San Pablo CEU

3. Estad sticos Muestrales

Coeciente de Variaci on de Pearson Cvx Al cociente entre la desviaci on t pica y el valor absoluto de la media se le conoce como coeciente de variaci on de Pearson o simplemente coeciente de variaci on : Cvx = sx . |x |

El coeciente de variaci on es adimensional, y por tanto permite hacer comparaciones entre variables expresadas en distintas unidades. Cuanto m as pr oximo est e a 0, menor ser a la dispersi on de la muestra en relaci on con la media, y m as representativa ser a esta u ltima del conjunto de observaciones.

1.3

Medidas de forma

Indican la forma que tiene la distribuci on de valores en la muestra. Se pueden clasicar en dos grupos: Medidas de asimetr a y medidas de apuntamiento o curtosis. Coeciente de asimetr a de Fisher g1 El coeciente de asimetr a de Fisher, que se representa por g1 , se dene g1 = Dependiendo del valor que tome tendremos: g1 = 0. Distribuci on sim etrica. g1 < 0. Distribuci on asim etrica hacia la izquierda. g1 > 0. Distribuci on asim etrica hacia la derecha. Coeciente de apuntamiento o curtosis g2 El grado de apuntamiento de las observaciones de la muestra, se caracteriza por el coeciente de apuntamiento o curtosis, que se representa por g2 , y se dene g2 =
k i=1 (xi s4 x k i=1 (xi s3 x

x)3 fi

x)4 fi

3.

Dependiendo del valor que tome tendremos: g2 = 0. La distribuci on tiene un apuntamiento igual que el de la distribuci on normal de la misma media y desviaci on t pica. Se dice que es una distribuci on mesoc urtica. g2 < 0. La distribuci on es menos apuntada que la distribuci on normal de la misma media y desviaci on t pica. Se dice que es una distribuci on platic urtica. g2 > 0. La distribuci on es m as apuntada que la distribuci on normal de la misma media y desviaci on t pica. Se dice que es una distribuci on leptoc urtica. Tanto g1 como g2 suelen utilizarse para comprobar si los datos muestrales provienen de una poblaci on no normal. Cuando g1 est a fuera del intervalo [-2,2] se dice que la distribuci on es demasiado asim etrica como para que los datos provengan de una poblaci on normal. Del mismo modo, cuando g2 est a fuera del intervalo [-2,2] se dice que la distribuci on es, o demasiado apuntada, o demasiado plana, como para que los datos provengan de una poblaci on normal. 27

3. Estad sticos Muestrales

Universidad San Pablo CEU

1.4

Estad sticos de variables en las que se denen grupos

Ya sabemos c omo resumir la informaci on contenida en una muestra utilizando una serie de estad sticos. Pero hasta ahora s olo hemos estudiado ejemplos con un u nico car acter objeto de estudio. En la mayor a de las investigaciones no estudiaremos un u nico car acter, sino un conjunto de caracteres, y muchas veces ser a conveniente obtener informaci on de un determinado car acter, en funci on de los grupos creados por otro de los caracteres estudiados en la investigaci on. A estas variables que se utilizan para formar grupos se les conoce como variables clasicadoras o factores. Por ejemplo, si se realiza un estudio sobre un conjunto de ni nos reci en nacidos, podemos estudiar su peso. Pero si adem as sabemos si la madre de cada ni no es fumadora o no, podremos hacer un estudio del peso de los ni nos de las madres fumadoras por un lado y los de las no fumadoras por otro, para ver si existen diferencias entre ambos grupos.

28

Universidad San Pablo CEU

3. Estad sticos Muestrales

Ejercicios resueltos

1. En una encuesta a 25 matrimonios sobre el n umero de hijos que ten an se obtuvieron los siguientes datos: 1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2 Se pide: a ) Crear un conjunto de datos con la variable hijos e introducir los datos. Si ya se tienen los datos, simplemente recuperarlos. b ) Calcular la media aritm etica, varianza y desviaci on t pica de dicha variable. Interpretar los estad sticos.
Indicaci on 1) Seleccionar el men u Teaching Estad stica descriptiva Estad sticos. 2) En el cuadro de di alogo que aparece seleccionar la variable hijos. 3) En la solapa Estad sticos b asicos seleccionar Media y Desviaci on t pica, y hacer click sobre el bot on Aceptar.

c ) Calcular los cuartiles, el recorrido, el rango intercuart lico, el tercer decil y el percentil 68.
Indicaci on 1) Seleccionar el men u Teaching Estad stica descriptiva Estad sticos. 2) En el cuadro de di alogo que aparece seleccionar la variable hijos. 3) En la solapa Estad sticos b asicos seleccionar Cuartiles, Rango, Rango intercuart lico, introducir los valores 0,3 y 0,68 en el campo Percentiles , y hacer click sobre el bot on Aceptar.

2. En un hospital se realiz o un estudio sobre el n umero de personas que ingresaron en urgencias cada d a del mes de noviembre. Los datos observados fueron: 15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26 30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20 Se pide: a ) Crear un conjunto de datos con la variable urgencias e introducir los datos. b ) Calcular la media aritm etica, varianza, desviaci on t pica y coeciente de variaci on de dicha variable. Interpretar los estad sticos.
Indicaci on 1) Seleccionar el men u Teaching Estad stica descriptiva Estad sticos. 2) En el cuadro de di alogo que aparece seleccionar la variable urgencias. 3) En la solapa Estad sticos b asicos seleccionar Media, Varianza, Desviaci on t pica y Coeficiente de variaci on, y hacer click sobre el bot on Aceptar.

c ) Calcular el coeciente de asimetr a y el de curtosis e interpretar los resultados


Indicaci on Seguir los mismos pasos del apartado anterior, seleccionando Cofeficiente de asimetr a y Coeficiente de Curtosis en la solapa Estad sticos b asicos.

3. En un grupo de 20 alumnos, las calicaciones obtenidas en Matem aticas fueron: SS, AP, SS, AP, AP, NT, NT, AP, SB, SS SB, SS, AP, AP, NT, AP, SS, NT, SS, NT Se pide: 29

3. Estad sticos Muestrales

Universidad San Pablo CEU

a ) Crear un conjunto de datos curso con la variable calicaciones e introducir los datos. b ) Recodicar esta variable, asignando 2,5 al SS, 6 al AP, 8 al NT y 9,5 al SB.
Indicaci on 1) Selecionar el men u Teaching DatosRecodificar variable. 2) En el cuadro de di alogo que aparece seleccionar como variable a recodicar la variable calicaciones. 3) Introducir las reglas de recodicaci on en el campo Reglas de recodificaci on: SS = 2.5 AP = 6 NT = 8 SB = 9.5 4) En el cuadro Guardar nueva variable hacer click sobre el bot on Cambiar. 5) En el cuadro de di alogo que aparece seleccionar como objeto padre la el conjunto de datos curso y hacer click sobre el bot on Aceptar. 6) Introducir el nombre de la nueva variable nota, desmarcar la casilla Convertir en factor y hacer click sobre el bot on Aceptar.

c ) La mediana y el rango intercuart lico.


Indicaci on 1) Seleccionar el men u Teaching Estad stica descriptiva Estad sticos. 2) En el cuadro de di alogo que aparece seleccionar la variable nota. 3) En la solapa Estad sticos b asicos seleccionar Mediana y Rango intercuart lico, y hacer click sobre el bot on Aceptar.

4. Para realizar un estudio sobre la estatura de los estudiantes universitarios se ha seleccionado mediante un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados (medidos en cent metros): Mujeres: Hombres: Se pide: a ) Crear un conjunto de datos con las variables estatura y sexo e introducir los datos. b ) Obtener un resumen de estad sticos en el que se muestren la media aritm etica, mediana, varianza, desviaci on t pica y cuartiles seg un el sexo. Interpretar los estad sticos.
Indicaci on 1) Seleccionar el men u Teaching Estad stica descriptiva Estad sticos. 2) En el cuadro de di alogo que aparece seleccionar la variable estatura, marcar la casilla Estad stica por grupos y seleccionar la variable sexo en el campo Variables de agrupaci on. 3) En la solapa Estad sticos b asicos seleccionar Media, Mediana, Varianza, Desviaci on t pica y Cuarti les, y hacer click sobre el bot on Aceptar.

173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168. 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187.

Ejercicios propuestos

1. El n umero de lesiones padecidas durante una temporada por cada jugador de un equipo de f utbol fue el siguiente: 0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1 Se pide: a ) Calcular la media aritm etica, mediana, varianza y desviaci on t pica de las lesiones e interpretarlas. b ) Calcular los coecientes de asimetr a y curtosis e interpretarlos. 30

Universidad San Pablo CEU

3. Estad sticos Muestrales

c ) Calcular el cuarto y el octavo decil e interpretarlos. 2. En un estudio de poblaci on se tom o una muestra de 27 personas, y se les pregunt o por su edad y estado civil, obteniendo los siguientes resultados: Estado civil Soltero Casado Viudo Divorciado Se pide: a ) Calcular la media y la desviaci on t pica de la edad seg un el estado civil e interpretarlas. b ) En qu e grupo es m as representativa la media? 3. En un estudio se ha medido la tensi on arterial de 25 individuos. Adem as se les ha preguntado si fuman y beben: Fumador Bebedor Tensi on arterial Fumador Bebedor Tensi on arterial si no 80 si si 71 no no 92 no no 52 si si 75 no si 98 si si 56 si si 104 si no 89 no no 57 no no 93 no no 89 no si 101 no si 70 si si 67 si si 93 no no 89 no si 69 si si 63 si no 82 no no 98 no si 70 si si 58 si no 49 no si 91 Edad 21 38 21 62 78 69 65

31 62 80 31

45 39 68 65

35 62 65 59

65 59 40 49

62 75

22

31

Calcular la media aritm etica, desviaci on t pica, coeciente de asimetr a y curtosis de la tensi on arterial por grupos dependiendo de si beben o fuman e interpretarlos.

31

3. Estad sticos Muestrales

Universidad San Pablo CEU

32

Pr actica de Estad stica con R

Regresi on Lineal Simple y Correlaci on

1
1.1

Fundamentos te oricos
Regresi on

La regresi on es la parte de la estad stica que trata de determinar la posible relaci on entre una variable num erica Y , que suele llamarse variable dependiente, y otro conjunto de variables num ericas, X1 , X2 , . . . , Xn , conocidas como variables independientes, de una misma poblaci on. Dicha relaci on se reeja mediante un modelo funcional y = f (x1 , . . . , xn ). El caso m as sencillo se da cuando s olo hay una variable independiente X , y entonces se habla de regresi on simple. En este caso el modelo que explica la relaci on entre X e Y es una funci on de una variable y = f (x). Dependiendo de la forma de esta funci on, existen muchos tipos de regresi on simple. Los m as habituales son los que aparecen en la siguiente tabla: Modelo Lineal Parab olico Polin omico de grado n Potencial Exponencial Logar tmico Inverso Curva S Ecuaci on gen erica y = a + bx y = a + bx + cx2 y = a0 + a1 x + + an xn y = axb y = ea+bx y = a + b log x y = a + b/x y = ea+b/x

Para elegir un tipo de modelo u otro, se suele representar el diagrama de dispersi on, que consiste en dibujar sobre unos ejes cartesianos correspondientes a las variables X e Y , los pares de valores (xi , yj ) observados en cada individuo de la muestra. on correspondiente a una muestra de Ejemplo En la gura la gura 4.1 aparece el diagrama de dispersi 30 individuos en los que se ha medido la estatura en cm (X ) y el peso en kg (Y ). En este caso la forma de la nube de puntos reeja una relaci on lineal entre la estatura y el peso. Seg un la forma de la nube de puntos del diagrama, se elige el modelo m as apropiado (gura 4.2), y se determinan los par ametros de dicho modelo para que la funci on resultante se ajuste lo mejor posible a la nube de puntos.

33

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

Diagrama de dispersi on de Estaturas y Pesos 110 90 100

Peso (Kg)

(179, 85)

50 150

60

70

80

160

170

180

190

200

Estatura (cm)

Figura 4.1 Diagrama de dispersi on. El punto (179,85) indicado corresponde a un individuo de la muestra que mide 179 cm y pesa 85 Kg.

Sin relaci on

Relaci on lineal

Relaci on parab olica

(a) Sin relaci on.


Relaci on exponencial

(b) Relaci on lineal.


Relaci on logar mica

(c) Relaci on polin omica.


Relaci on inversa

(d) Relaci on exponencial.

(e) Relaci on logar tmica.

(f) Relaci on inversa.

Figura 4.2 Diagramas de dispersi on correspondientes a distintos tipos de relaciones entre variables.

34

Universidad San Pablo CEU

4. Regresi on Lineal Simple y Correlaci on

El criterio que suele utilizarse para obtener la funci on optima, es que la distancia de cada punto a la curva, medida en el eje Y, sea lo menor posible. A estas distancias se les llama residuos o errores en Y (gura 4.3). La funci on que mejor se ajusta a la nube de puntos ser a, por tanto, aquella que hace m nima la suma de los cuadrados de los residuos.1

yj

(xi , yj ) eij = yj f (xi )

f (xi ) Y

xi X

Figura 4.3 Residuos o errores en Y . El residuo correspondiente a un punto (xi , yj ) es la diferencia entre el valor yj observado en la muestra, y el valor te orico del modelo f (xi ), es decir, eij = yj f (xi ).

Rectas de regresi on En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la relaci on entre X e Y mediante una recta y = a + bx, los par ametros a determinar son a (punto de corte con el eje de ordenadas) y b (pendiente de la recta). Los valores de estos par ametros que hacen m nima la suma de residuos al cuadrado, determinan la recta optima. Esta recta se conoce como recta de regresi on de Y sobre X y explica la variable Y en funci on de la variable X . Su ecuaci on es sxy y=y + 2 (x x ), sx donde sxy es un estad stico llamado covarianza que mide el grado de relaci on lineal, y cuya f ormula es sxy = 1 n (xi x )(yj y )nij .

i,j

on de Estatura sobre Peso y de Peso sobre Ejemplo En la gura 4.4 aparecen las rectas de regresi Estatura del ejemplo anterior. La pendiente de la recta de regresi on de Y sobre X se conoce como coeciente de regresi on de Y sobre X , y mide el incremento que sufrir a la variable Y por cada unidad que se incremente la variable X , seg un la recta. Cuanto m as peque nos sean los residuos, en valor absoluto, mejor se ajustar a el modelo a la nube de puntos, y por tanto, mejor explicar a la relaci on entre X e Y . Cuando todos los residuos son nulos, la recta pasa por todos los puntos de la nube, y la relaci on es perfecta. En este caso ambas rectas, la de Y sobre X y la de X sobre Y coinciden (gura 4.5(a)). Por contra, cuando no existe relaci on lineal entre las variables, la recta de regresi on de Y sobre X tiene pendiente nula, y por tanto la ecuaci on es y = y , en la que, efectivamente no aparece x, o x = x en el caso de la recta de regresi on X sobre Y , de manera que ambas rectas se cortan perpendicularmente (gura 4.5(b)).
1 Se

elevan al cuadrado para evitar que en la suma se compensen los residuos positivos con los negativos.

35

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

Rectas de regresi on entre Estaturas y Pesos 110 100

Estatura sobre Peso

Peso (Kg)

90

Peso sobre Estatura ( x, y )

50 150

60

70

80

160

170

180

190

200

Estatura (cm)

Figura 4.4 Rectas de regresi on de Estatura sobre Peso y de Peso sobre Estatura. Las rectas de regresi on siempre se cortan en el punto de medias ( x, y )

1.2

Correlaci on

El principal objetivo de la regresi on simple es construir un modelo funcional y = f (x) que explique lo mejor posible la relaci on entre dos variables X (variable independiente) e Y (variable dependiente) medidas en una misma muestra. Generalmente, el modelo construido se utiliza para realizar inferencias predictivas de Y en funci on de X en el resto de la poblaci on. Pero aunque la regresi on garantiza que el modelo construido es el mejor posible, dentro del tipo de modelo elegido (lineal, polin omico, exponencial, logar tmico, etc.), puede que a un as , no sea un buen modelo para hacer predicciones, precisamente porque no haya relaci on de ese tipo entre X e Y . As pues, con el n de validar un modelo para realizar predicciones ables, se necesitan medidas que nos hablen del grado de dependencia entre X e Y , con respecto a un modelo de regresi on construido. Estas medidas se conocen como medidas de correlaci on. Dependiendo del tipo de modelo ajustado, habr a distintos tipos de medidas de correlaci on. As , si el modelo de regresi on construido es una recta, hablaremos de correlaci on lineal; si es un polinomio, hablaremos de correlaci on polin omica; si es una funci on exponencial, hablaremos de correlaci on exponencial, etc. En cualquier caso, estas medidas nos hablar an de lo bueno que es el modelo construido, y como consecuencia, de si podemos arnos de las predicciones realizadas con dicho modelo. La mayor a de las medidas de correlaci on surgen del estudio de los residuos o errores en Y , que son las distancias de los puntos del diagrama de dispersi on a la curva de regresi on construida, medidas en el eje Y , tal y como se muestra en la gura (4.3). Estas distancias, son en realidad, los errores predictivos del modelo sobre los propios valores de la muestra. Cuanto m as peque nos sean los residuos, mejor se ajustar a el modelo a la nube de puntos, y por tanto, mejor explicar a la relaci on entre X e Y . Cuando todos los residuos son nulos, la curva de regresi on pasa por todos los puntos de la nube, y entonces se dice que la relaci on es perfecta, o bien que existe una dependencia funcional entre X e Y (gura 4.5(a)). Por contra, cuando los residuos sean grandes, el modelo no explicar a bien la relaci on entre X e Y , y por tanto, sus predicciones no ser an ables (gura 4.5(b)). Varianza residual Una primera medida de correlaci on, construida a partir de los residuos es la varianza residual, que se dene como el promedio de los residuos al cuadrado: s2 ry =
i,j

e2 ij nij n

= 36

i,j (yj

f (xi ))2 nij n

Universidad San Pablo CEU

4. Regresi on Lineal Simple y Correlaci on

Relaci on lineal perfecta

Sin relaci on lineal

Y y X sobre Y = Y sobre X Y sobre X

X sobre Y

x X X

(a) Dependencia funcional lineal.

(b) Independencia lineal.

Figura 4.5 Distintos grados de dependencia. En el primer caso, la relaci on es perfecta y los residuos son nulos. En el segundo caso no existe relaci on lineal y la pendiente de la recta es nula.

Cuando los residuos son nulos, entonces s2 ry = 0 y eso indica que hay dependencia funcional. Por otro lado, cuando las variables son independientes, con respecto al modelo de regresi on ajustado, entonces los residuos se convierten en las desviaciones de los valores de Y con respecto a su media, y se cumple que 2 s2 pues, se cumple que ry = sy . As 2 0 s2 ry sy . Seg un esto, cuanto menor sea la varianza residual, mayor ser a la dependencia entre X e Y , de acuerdo al modelo ajustado. No obstante, la varianza tiene como unidades las unidades de Y al cuadrado, y eso diculta su interpretaci on. Coeciente de determinaci on Puesto que el valor m aximo que puede tomar la varianza residual es la varianza de Y , se puede denir f acilmente un coeciente a partir de la comparaci on de ambas medidas. Surge as el coeciente de determinaci on que se dene como s2 ry R2 = 1 2 . sy Se cumple que 0 R 2 1, y adem as no tiene unidades, por lo que es m as f acil de interpretar que la varianza residual: R2 = 0 indica que existe independencia seg un el tipo de relaci on planteada por el modelo de regresi on. R2 = 1 indica dependencia funcional. Por tanto, cuanto mayor sea R2 , mejor ser a el modelo de regresi on. Si multiplicamos el coeciente de determinaci on por 100, se obtiene el porcentaje de variabilidad de Y que explica el modelo de regresi on. El porcentaje restante corresponde a la variabilidad que queda por explicar y se corresponde con el error predictivo del modelo. As , por ejemplo, si tenemos un coeciente de determinaci on R2 = 0,5, el modelo de regresi on explicar a la mitad de la variabilidad de Y , y en consecuencia, si se utiliza dicho modelo para hacer predicciones, estas tendr an la mitad de error que si no se utilizase, y se tomase como valor de la predicci on el valor de la media de Y . 37

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

Coeciente de determinaci on lineal En el caso de que el modelo de regresi on sea lineal, la f ormula del coeciente de determinaci on se simplica y se convierte en s2 xy r2 = 2 2 , sx sy que se conoce como coeciente de determinaci on lineal. Coeciente de correlaci on Otra medida de dependencia bastante habitual es el coeciente de correlaci on, que se dene como la ra z cuadrada del coeciente de determinaci on: R= 1 s2 ry , s2 y

tomando la ra z del mismo signo que la covarianza. La u nica ventaja del coeciente de correlaci on con respecto al coeciente de determinaci on, es que tiene signo, y por tanto, adem as del grado de dependencia entre X e Y , tambi en nos habla de si la relaci on es directa (signo +) o inversa (signo -). Su interpretaci on es: R = 0 indica independencia con respecto al tipo de relaci on planteada por el modelo de regresi on. R = 1 indica dependencia funcional inversa. R = 1 indica dependencia funcional directa. Por consiguiente, cuanto m as pr oximo est e a -1 o a 1, mejor ser a el modelo de regresi on. Coeciente de correlaci on lineal Al igual que ocurr a con el coeciente de determinaci on, cuando el modelo de regresi on es lineal, la f ormula del coeciente de correlaci on se convierte en r= sxy , sx sy

y se llama coeciente de correlaci on lineal. Por u ltimo, conviene remarcar que un coeciente de determinaci on o de correlaci on nulo, indica que hay independencia seg un el modelo de regresi on construido, pero puede haber dependencia de otro tipo. Esto se ve claramente en el ejemplo de la gura 4.6. Fiabilidad de las predicciones Aunque el coeciente de determinaci on o de correlaci on nos hablan de la bondad de un modelo de regresi on, no es el u nico dato que hay que tener en cuenta a la hora de hacer predicciones. La abilidad de las predicciones que hagamos con un modelo de regresi on depende de varias cosas: El coeciente de determinaci on: Cuando mayor sea, menores ser an los errores predictivos y mayor la abilidad de las predicciones. La variablidad de la poblaci on: Cuanto m as variable es una poblaci on, m as dif cil es predecir y por tanto menos ables ser an las predicciones del modelo. El tama no muestral: Cuanto mayor sea, m as informaci on tendremos y, en consecuencia, m as ables ser an las predicciones. Adem as, hay que tener en cuenta que un modelo de regresi on es v alido para el rango de valores observados en la muestra, pero fuera de ese rango no tenemos informaci on del tipo de relaci on entre las variables, por lo que no deber amos hacer predicciones para valores que est en lejos de los observados en la muestra.

38

Universidad San Pablo CEU

4. Regresi on Lineal Simple y Correlaci on

y = 0,02x + 4,07 r =0
2

y = 0,25x2 2,51x + 8,05 r2 = 0,97

Y 3 2 0 2 4 X 6 8 10 2 0 3 4

4 X

10

(a) Dependencia lineal d ebil.

(b) Dependencia parab olica fuerte.

Figura 4.6 En la gura de la izquierda se ha ajustado un modelo lineal y se ha obtenido un R2 = 0, lo que indica que el modelo no explica nada de la relaci on entre X e Y , pero no podemos armar que X e Y son independientes. De hecho, en la gura de la derecha se observa que al ajustar un modelo parab olico, R2 = 0,97, lo que indica que casi hay una dependencia funcional parab olica entre X e Y .

39

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

Ejercicios resueltos

1. Se han medido dos variables X e Y en 10 individuos obteniendo los siguientes resultados: X Y Se pide: a ) Crear un conjunto de datos con las variables X y Y e introducir estos datos. b ) Dibujar el diagrama de dispersi on correspondiente.
Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable Y y como Variable X la variable X, y hacer click en el bot on Aceptar.

0 2

1 2 5 8

3 4 5 6 7 8 9 11 14 17 20 23 26 29

En vista del diagrama, qu e tipo de modelo crees que explicar a mejor la relaci on entre X y Y? c ) Calcular la recta de regresi on de Y sobre X .
Indicaci on 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable Y como Variable dependiente y la variable X como Variable independiente, seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer click sobre el bot on Aceptar.

d ) Dibujar dicha recta sobre el diagrama de dispersi on.


Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable Y y como Variable X la variable X. 3) En la solapa L nea de ajuste, seleccionar Dibujar recta de regresi on y hacer click en el bot on Aceptar.

e ) Calcular la recta de regresi on de X sobre Y y dibujarla sobre el correspondiente diagrama de dispersi on.
Indicaci on Repetir los pasos de los apartados anteriores pero escogiendo como Variable dependiente la variable X, y como Variable independiente la variable Y

f ) Son grandes los residuos? Comentar los resultados. 2. En una licenciatura se quiere estudiar la relaci on entre el n umero medio de horas de estudio diarias y el n umero de asignaturas suspensas. Para ello se obtuvo la siguiente muestra: Horas Suspensos 3 ,5 1 0 ,6 5 2 ,8 1 2 ,5 3 2 ,6 1 3 ,9 0 1 ,5 3 0 ,7 3 3 ,6 1 3 ,7 1 Se pide: a ) Crear un conjunto de datos con las variables horas estudio y suspensos e introducir estos datos. 40 Horas Suspensos 2 ,2 2 3 ,3 0 1 ,7 3 1 ,1 3 2 ,0 3 3 ,5 0 2 ,1 2 1 ,8 2 1 ,1 4 0 ,7 4 Horas Suspensos 1 ,3 4 3 ,1 0 2 ,3 2 3 ,2 2 0 ,9 4 1 ,7 2 0 ,2 5 2 ,9 1 1 ,0 3 2 ,3 2

Universidad San Pablo CEU

4. Regresi on Lineal Simple y Correlaci on

b ) Calcular la recta de regresi on de suspensos sobre horas estudio y dibujarla.


Indicaci on Para calcular la recta de regresi on: 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable suspensos como Variable dependiente y la variable horas estudio como Variable independiente, seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Para dibujar la recta de regresi on: 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable suspensos y como Variable X la variable horas estudio. 3) En la solapa L nea de ajuste, seleccionar Dibujar recta de regresi on y hacer click en el bot on Aceptar.

c ) Indicar el coeciente de regresi on de suspensos sobre horas estudio. C omo lo interpretar as?
Indicaci on El coeciente de regresi on es la pendiente de la recta de regresi on.

d ) La relaci on lineal entre estas dos variables, es mejor o peor que la del ejercicio anterior? Comentar los resultados a partir las gr acas de las rectas de regresi on y sus residuos. e ) Calcular los coecientes de correlaci on y de determinaci on lineal. Es un buen modelo la recta de regresi on? Qu e porcentaje de la variabilidad del n umero de suspensos est a explicada por el modelo?
Indicaci on El coeciente de determinaci on aparece en la ventana de resultados como Multiple R-squared, y el coeciente de correlaci on es su ra z cuadrada.

f ) Utilizar la recta de regresi on para predecir el n umero de suspensos correspondiente a 3 horas de estudio diarias. Es able esta predicci on?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar como modelo de regresi on la recta calculada en el segundo apartado, introducir los valores para los que se desea la predicci on en el campo Predicciones para y hacer click sobre el bot on Aceptar.

g ) Seg un el modelo lineal, cu antas horas diarias tendr a que estudiar como m nimo un alumno si quiere aprobarlo todo?
Indicaci on Seguir los mismos pasos de los apartados anteriores, pero escogiendo como variable dependiente horas estudio, y como independiente suspensos, y haciendo la predicci on para 0 suspensos.

3. Despu es de tomar un litro de vino se ha medido la concentraci on de alcohol en la sangre en distintos instantes, obteniendo: Tiempo despu es (minutos) 30 60 90 120 150 180 210 Concentraci on (gramos/litro) 1,6 1,7 1,5 1,1 0,7 0,2 2,1 Se pide: a ) Crear las variables tiempo y alcohol e introducir estos datos. b ) Calcular el coeciente de correlaci on lineal entre el alcohol y el tiempo e interpretarlo. Es bueno el modelo lineal?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable alcohol como Variable dependiente y la variable tiempo como Variable independiente, y hacer click sobre el bot on Aceptar.

41

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

c ) Dibujar la recta de regresi on del alcohol sobre el tiempo. Existe alg un individuo con un residuo demasiado grande? Si es as , eliminar dicho individuo de la muestra y volver a calcular el coeciente de correlaci on. Ha mejorado el modelo?
Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable alcohol y como Variable X la variable tiempo. 3) En la solapa L nea de ajuste, seleccionar Dibujar recta de regresi on y hacer click en el bot on Aceptar. Se observa que hay un residuo at pico para el punto que corresponde al los 210 minutos. Para eliminarlo: En la ventana de edici on del conjunto de datos hacer click con el bot on derecho del rat on sobre la la correspondiente al dato con el residuo at pico y seleccionar Borrar esta fila.

d ) Si la concentraci on m axima de alcohol en la sangre que permite la ley para poder conducir es 0,5 g/l, cu anto tiempo habr a que esperar despu es de tomarse un litro de vino para poder conducir sin infringir la ley? Es able esta predicci on?
Indicaci on Para construir la recta de regresi on: 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable tiempo como Variable dependiente y la variable alcohol como Variable independiente. 3) Seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Para hacer la predicci on: 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar como modelo de regresi on la recta calculada e introducir los valores para los que se desea la predicci on en el campo Predicciones para y hacer click sobre el bot on Aceptar.

4. En un estudio se ha medido la estatura y la edad de 30 personas y se han guardado en el chero edad estatura.txt. Se pide: a ) Importar los datos del chero edad estatura.txt en un conjunto de datos. b ) Calcular la recta de regresi on de la estatura sobre la edad. Es un buen modelo la recta de regresi on?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable estatura como Variable dependiente y la variable edad como Variable independiente, 3) Seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Aceptar.

c ) Dibujar el diagrama de dispersi on de la estatura sobre la edad. Alrededor de qu e edad se observa un cambio en la tendencia?
Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable estatura y como Variable X la variable edad, y hacer click en el bot on Aceptar.

d ) Recodicar la variable edad en dos grupos para mayores y menores de 20 a nos.


Indicaci on 1) Seleccionar el men u Teaching DatosRecodificar variable. 2) En el cuadro de di alogo que aparece seleccionar en el campo Variable a recodicar la variable edad. 3) En el campo Reglas de recodificaci on introducir lo:20 = menores 20:hi = mayores 4) En el cuadro Guardar nueva variable hacer click sobre el bot on Cambiar. 5) En el cuadro de di alogo que aparece seleccionar como objeto padre la el conjunto de datos edad estatura y hacer click sobre el bot on Aceptar. on Aceptar. 6) Introducir el nombre de la nueva variable grupo edad y hacer click sobre el bot

42

Universidad San Pablo CEU

4. Regresi on Lineal Simple y Correlaci on

e ) Calcular la recta de regresi on de la estatura sobre la edad para cada grupo de edad. En qu e grupo explica mejor la recta de regresi on la relaci on entre la estatura y la edad? Justicar la respuesta.
Indicaci on 1) Seleccionar el men u Teaching Regresi on Regresi on lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable estatura como Variable dependiente y la variable edad como Variable independiente. 3) Seleccionar la opici on Filtro e introducir en el campo Condici on de selecci on la condici on grupo_edad ="menores". 4) Seleccionar Guardar el modelo, introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Repetir lo mismo pero con la condici on grupo_edad="mayores".

f ) Dibujar las rectas de regresi on anteriores.


Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como Y la variable estatura y como Variable X la variable edad. 3) Seleccionar la opci on Diferenciar grupos e introducir la variable grupo edad en el campo Variable de agrupaci on. 4) En la solapa L nea de ajuste, seleccionar Dibujar recta de regresi on y hacer click en el bot on Aceptar.

g ) Qu e estatura se espera que tenga una persona de 14 a nos? Y una de 38?


Indicaci on Para predecir la estatura de la persona de 14 a nos: 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar como modelo de regresi on la recta calculada para los menores e introducir 14 en el campo Predicciones para y hacer click sobre el bot on Aceptar. para predecir la estatura de la persona de 38 a nos, repetir lo mismo pero seleccionando la recta de regresi on para los mayores e introducidento 38 en el campo Predicciones para.

5. El chero naciones.txt contiene informaci on sobre el desarrollo de distintos pa ses (tasa de fertilidad, tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c apita y continente). Se pide: a ) Importar el chero naciones.txt en un conjunto de datos. b ) Entre qu e variables existe relaci on lineal?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Correlaci on. 2) En el cuadro de di alogo que aparece seleccionar todas las variables num ericas y hacer click sobre el bot on Aceptar.

c ) Existe relaci on lineal entre la tasa de mortalidad infantil y tasa de fertilidad en Europa? Y en Africa? Qu e relaci on es m as fuerte?
Indicaci on Para la correlaci on en Europa: 1) Seleccionar el men u Teaching DatosFiltrar datos. 2) En el cuadro de di alogo que aparece seleccionar el conjunto de datos naciones. 3) Introducir la condici on region=="Europe" en el campo Condici on de selecci on. 4) Introducir el nombre europa en el campo Guardar nuevo conjunto de datos y hacer click en el bot on Aceptar. 5) Seleccionar el men u Teaching Regresi on Correlaci on. 6) En el cuadro de di alogo que aparece seleccionar las variables fertilidad y mortalidad.infantil del conjunto de datos europa y hacer click sobre el bot on Aceptar. Para la correlaci on de Africa repetir los mismos pasos pero cambiando la condici on de selecci on por region==" Africa".

6. La siguiente tabla recoge la informaci on de las calicaciones obtenidas por un grupo de alumnos en dos asignaturas X e Y . 43

4. Regresi on Lineal Simple y Correlaci on

Universidad San Pablo CEU

Alumno X Y Se pide:

1 NT SB

2 AP SS

3 SS AP

4 SS SS

5 AP AP

6 AP NT

7 SS SS

8 NT NT

9 SB NT

10 SS AP

11 AP AP

12 AP NT

a ) Crear un conjunto de datos con las variables X e Y e introducir los datos. b ) Existe relaci on entre las calicaciones de X e Y ? Justicar la respuesta.
Indicaci on 1) Seleccionar el men u Teaching Regresi on Correlaci on. 2) En el cuadro de di alogo que aparece seleccionar la variables X e Y. 3) En la solapa Opciones de correlaci on seleccionar el m etodo de Ro de Spearman y hacer click sobre el bot on Aceptar.

Ejercicios propuestos

1. Se determina la p erdida de actividad que experimenta un medicamento desde el momento de su fabricaci on a lo largo del tiempo, obteni endose el siguiente resultado: Tiempo (en a nos) Actividad restante ( %) Se desea calcular: a ) La relaci on fundamental (recta de regresi on) entre actividad restante y tiempo transcurrido. b ) En qu e porcentaje disminuye la actividad cada a no que pasa? c ) Cu ando tiempo debe pasar para que el f armaco tenga una actividad del 80 %? Cu ando ser a nula la actividad? Son igualmente ables estas predicciones? 2. Al realizar un estudio sobre la dosicaci on de un cierto medicamento, se trataron 6 pacientes con dosis diarias de 2 mg, 7 pacientes con 3 mg y otros 7 pacientes con 4 mg. De los pacientes tratados con 2 mg, 2 curaron al cabo de 5 d as, y 4 al cabo de 6 d as. De los pacientes tratados con 3 mg diarios, 2 curaron al cabo de 3 d as, 4 al cabo de 5 d as y 1 al cabo de 6 d as. Y de los pacientes tratados con 4 mg diarios, 5 curaron al cabo de 3 d as y 2 al cabo de 4 d as. Se pide: a ) Calcular la recta de regresi on del tiempo de curaci on con respecto a la dosis suministrada. b ) Calcular el coeciente de regresi on del tiempo de curaci on con respecto a la dosis e interpretarlo. c ) Calcular el coeciente de correlaci on lineal e interpretarlo. d ) Determinar el tiempo esperado de curaci on para una dosis de 5 mg diarios. Es able esta predicci on? e ) Qu e dosis debe aplicarse si queremos que el paciente tarde 4 d as en curarse? Es able la predicci on? 3. En una clase de alumnos universitarios se ha medido la estatura, el peso y el sexo de cada uno y se han guardado en el chero estaturas pesos alumnos.txt. Se pide: a ) Importar los datos del chero estaturas pesos alumnos.txt en un conjunto de datos. b ) Calcular la recta de regresi on del peso sobre la estatura y dibujarla. c ) Calcular las rectas de regresi on del peso sobre la estatura para cada sexo y dibujarlas. d ) Calcular los coecientes de determinaci on de ambas rectas. Qu e recta es mejor modelo? Justicar la respuesta. e ) Qu e peso tendr a un hombre que mida 170 cm? Y una mujer de la misma estatura? 1 96 2 84 3 70 4 58 5 52

44

Pr actica de Estad stica con R

Regresi on no lineal

Fundamentos te oricos

La regresi on simple tiene por objeto la construcci on de un modelo funcional y = f (x) que explique lo mejor posible la relaci on entre dos variables Y (variable dependiente) y X (variable independiente) medidas en una misma muestra. Ya vimos que, dependiendo de la forma de esta funci on, existen muchos tipos de regresi on simple. Entre los m as habituales est an: Modelo Lineal Parab olico Polin omico de grado n Potencial Exponencial Logar tmico Inverso Curva S Ecuaci on gen erica y = a + bx y = a + bx + cx2 y = a0 + a1 x + + an xn y = axb y = ea+bx y = a + b log x y = a + b/x y = ea+b/x

La elecci on de un tipo de modelo u otro suele hacerse seg un la forma de la nube de puntos del diagrama de dispersi on. A veces estar a claro qu e tipo de modelo se debe construir, tal y como ocurre en a tan claro, y en estas ocasiones, lo los diagramas de dispersi on de la gura 5.1. Pero otras veces no estar normal es ajustar los dos o tres modelos que nos parezcan m as convincentes, para luego quedarnos con el que mejor explique la relaci on entre Y y X , mirando el coeciente de determinaci on1 de cada modelo. Ya vimos en la pr actica sobre regresi on lineal simple, c omo construir rectas de regresi on. En el caso de que optemos por ajustar un modelo no lineal, la construcci on del mismo puede realizarse siguiendo los mismos pasos que en el caso lineal. B asicamente se trata de determinar los par ametros del modelo que minimizan la suma de los cuadrados de los residuos en Y . En los modelos multiplicativo y exponencial, el sistema aplica transformaciones logar tmicas a las variables y despu es ajusta un modelo lineal a los datos transformados. En el modelo rec proco, el sistema sustituye la variable dependiente por su rec proco antes de estimar la ecuaci on de regresi on.

1 Ver

la pr actica de regresi on lineal y correlaci on.

45

5. Regresi on no lineal

Universidad San Pablo CEU

Sin relaci on

Relaci on lineal

Relaci on parab olica

(a) Sin relaci on.


Relaci on exponencial

(b) Relaci on lineal.


Relaci on logar mica

(c) Relaci on polin omica.


Relaci on inversa

(d) Relaci on exponencial.

(e) Relaci on logar tmica.

(f) Relaci on inversa.

Figura 5.1 Diagramas de dispersi on correspondientes a distintos tipos de relaciones entre variables.

46

Universidad San Pablo CEU

5. Regresi on no lineal

Ejercicios resueltos

El procedimiento m as sencillo para construir un modelo no lineal, siempre que sea posible, es transformar las variables para convertirlo en un modelo lineal. En el caso de los modelos de regresi on simple m as comunes las transformaciones que convierten cada modelo en un modelo lineal aparecen en la tabla siguiente: Modelo Potencial Exponencial Logar tmico Inverso Curva S Modelo no lineal y = axb y = ea+bx y = a + b log x y = a + b/x y = ea+b/x Modelo lineal log(y ) = log(a) + b log(x) log(y ) = a + bx y = a + b log x
1 y = a + bx 1 log(y ) = a + b x

Transformaci on Se toma el logaritmo de ambas variables Se toma el logaritmo de la variable dependiente Se toma el logaritmo de la variable independiente Se toma el inverso de la variable independiente Se toma el logaritmo de la variable dependiente y el inverso de la independiente

1. En un experimento se ha medido el n umero de bacterias por unidad de volumen en un cultivo, cada hora transcurrida, obteniendo los siguientes resultados: Horas No Bacterias Se pide: a ) Crear un conjunto de datos con las variables horas y bacterias e introducir estos datos. b ) Dibujar el diagrama de dispersi on correspondiente. En vista del diagrama, qu e tipo de modelo crees que explicar a mejor la relaci on entre el n umero de bacterias y el tiempo transcurrido?
Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar como X la variable horas y como Y la variable bacterias, y hacer click en el bot on Aceptar.

0 25

1 28

2 47

3 65

4 86

5 121

6 190

7 290

8 362

c ) Calcular los modelos exponencial y cuadr atico de las bacterias sobre las horas. Qu e tipo de modelo es el mejor?
Indicaci on Para el modelo exponencial: 1) Seleccionar el men u Teaching Regresi on Regresi on no lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable bacterias como Variable dependiente y la variable horas como Variable independiente. 3) Seleccionar como modelo el Exponencial. 4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Para el modelo cuadr atico repetir los pasos pero seleccionando como modelo el Cuadr atico. El modelo mejor ser a aquel que tenga un coeciente de determinaci on mayor.

d ) Dibujar la curva del mejor de los modelos anteriores.


Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar la variable bacterias como Variable Y y la variable horas como Variable X. 3) En la solapa L nea de ajuste seleccionar la opci on Dibujar curva de regresi on no lineal, elegir el modelo exponencial y hacer click sobre el bot on Aceptar.

47

5. Regresi on no lineal

Universidad San Pablo CEU

e ) Seg un el modelo anterior, cu antas bacterias habr a al cabo de 3 horas y media del inicio del cultivo? Y al cabo de 10 horas? Son ables estas predicciones?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar el modelo de regresi on exponencial construido antes. 3) Introducir los valores 3,5, 10 en el campo Predicciones para y hacer click sobre el bot on Aceptar. 4) Como se trata de un modelo exponencial, las predicciones obtenidas corresponden al logaritmo de bacterias. Para obtener la predicci on de bacterias basta con aplicar la funci on exponencial a los valores obtenidos.

f ) Dar una predicci on lo m as able posible del tiempo que tendr a que transcurrir para que en el cultivo hubiese 100 bacterias.
Indicaci on Para construir el modelo logar tmico: 1) Seleccionar el men u Teaching Regresi on Regresi on no lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable horas como Variable dependiente y la variable bacterias como Variable independiente. 3) Seleccionar como modelo el Logar tmico. 4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer click sobre el bot on Aceptar. Para hacer la predicci on: 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar el modelo de regresi on logar tmico construido antes. 3) Introducir el valor 100 en el campo Predicciones para y hacer click sobre el bot on Aceptar.

2. El chero naciones.txt contiene informaci on sobre el desarrollo de distintos pa ses (tasa de fertilidad, tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c apita y continente). Se pide: a ) Importar el chero naciones.txt en un conjunto de datos. b ) Entre qu e variables existe relaci on no lineal?
Indicaci on 1) Seleccionar el men u Teaching Gr aficosMatriz de dispersi on. 2) En el cuadro de di alogo que aparece seleccionar todas las variables y hacer click sobre el bot on Aceptar.

c ) Construir el mejor modelo de regresi on de la tasa de mortalidad infantil sobre el producto interior bruto. C omo explicar as esta relaci on?
Indicaci on 1) Seleccionar el men u TeachingRegresi on Comparaci on de modelos. 2) En el cuadro de di alogo que aparece, seleccionar la variable mortalidad.infantil como Variable dependiente y la variable pib como Variable independiente. 3) En la solapa Modelos de regresi on seleccionar todos los modelos y hacer click sobre el bot on Aceptar. 4) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinaci on mayor.

d ) Dibujar el modelo del apartado anterior.


Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar la variable mortalidad.infantil como Variable Y y la variable pib como Variable X. 3) En la solapa L nea de ajuste seleccionar la opci on Dibujar curva de regresi on no lineal, elegir el mejor modelo y hacer click sobre el bot on Aceptar.

3. El chero dieta.txt contiene los datos de un estudio llevado a cabo por un centro diet etico para probar una nueva dieta de adelgazamiento. Para cada individuo se ha medido el n umero de d as que lleva con la dieta, el n umero de kilos perdidos desde entonces y si realiz o o no un programa de ejercicios. Se pide: 48

Universidad San Pablo CEU

5. Regresi on no lineal

a ) Importar el chero dieta.txt en un conjunto de datos. b ) Dibujar el diagrama de dispersi on. Seg un la nube de puntos, qu e tipo de modelo explicar a mejor la relaci on entre los kilos perdidos y los d as de dieta?
Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar la variable dias como Variable X y la variable kilos y como Variable Y, y hacer click en el bot on Aceptar.

c ) Construir el modelo de regresi on que mejor explique la relaci on entre los kilos perdidos y los d as de dieta.
Indicaci on 1) Seleccionar el men u Teaching Regresi on Comparaci on de modelos. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable dependiente y la variable dias como Variable independiente. 3) En la solapa Modelos de regresi on seleccionar todos los modelos y hacer click sobre el bot on Aceptar. 4) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinaci on mayor.

d ) Dibujar el modelo del apartado anterior.


Indicaci on 1) Seleccionar el men u Teaching Gr aficosDiagrama de Dispersi on. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable Y y la variable dias como Variable X. 3) En la solapa L nea de ajuste seleccionar la opci on Dibujar curva de regresi on no lineal, elegir el mejor modelo y hacer click sobre el bot on Aceptar.

e ) Construir el modelo de regresi on que mejor explique la relaci on entre los kilos perdidos y los d as de dieta para los que no hacen ejercicio.
Indicaci on Para ver qu e modelo es mejor: 1) Seleccionar el men u Teaching Regresi on Comparaci on de modelos. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable dependiente y la variable dias como Variable independiente. on de selec 3) Seleccionar la opci on Filtro e introducir la condici on ejercicio=="no" en el campo Condici ci on. 4) En la solapa Modelos de regresi on seleccionar todos los modelos y hacer click sobre el bot on Aceptar. 5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinaci on mayor. Para construir el modelo: 1) Seleccionar el men u Teaching Regresi on Regresi on no lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable dependiente y la variable dias como Variable independiente. 3) Seleccionar la opci on Filtro e introducir la condici on ejercicio=="no" en el campo Condici on de selec ci on. 4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer click sobre el bot on Aceptar.

f ) Construir el modelo de regresi on que mejor explique la relaci on entre los kilos perdidos y los d as de dieta para los que si hacen ejercicio. 49

5. Regresi on no lineal

Universidad San Pablo CEU

Indicaci on Para ver qu e modelo es mejor: 1) Seleccionar el men u Teaching Regresi on Comparaci on de modelos. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable dependiente y la variable dias como Variable independiente. on de selec 3) Seleccionar la opci on Filtro e introducir la condici on ejercicio=="si" en el campo Condici ci on. 4) En la solapa Modelos de regresi on seleccionar todos los modelos y hacer click sobre el bot on Aceptar. 5) El mejor modelo aparece en primer lugar y es el que tenga el coeciente de determinaci on mayor. Para construir el modelo: 1) Seleccionar el men u Teaching Regresi on Regresi on no lineal. 2) En el cuadro de di alogo que aparece, seleccionar la variable kilos como Variable dependiente y la variable dias como Variable independiente. 3) Seleccionar la opci on Filtro e introducir la condici on ejercicio=="si" en el campo Condici on de selec ci on. 4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer click sobre el bot on Aceptar.

g ) Utilizar el modelo construido para predecir el n umero de kilos perdidos tras 40 y 500 d as de dieta, tanto para los que hacen ejercicio como para los que no. Son ables estas predicciones?
Indicaci on 1) Seleccionar el men u Teaching Regresi on Predicciones. 2) En el cuadro de di alogo que aparece seleccionar el modelo de regresi on construido antes para los que no hacen ejercicio. 3) Introducir los valores 40, 500 en el campo Predicciones para y hacer click sobre el bot on Aceptar. Repetir los pasos anteriores seleccionando el modelo de regresi on construido antes para los que si hacen ejercicio.

Ejercicios propuestos

1. La concentraci on de un f armaco en sangre, C en mg/dl, es funci on del tiempo, t en horas, y viene dada por la siguiente tabla: t C Se pide: a ) Seg un el modelo exponencial, qu e concentraci on de f armaco habr a a las 4,8 horas? Es able la predicci on? Justicar adecuadamente la respuesta. b ) Seg un el modelo logar tmico, qu e tiempo debe pasar para que la concentraci on sea de 100 mg/dl? 2. El chero naciones.txt contiene informaci on sobre el desarrollo de distintos pa ses (tasa de fertilidad, tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c apita y continente). Se pide: a ) Importar el chero naciones.txt en un conjunto de datos. b ) Construir el mejor modelo de regresi on de la tasa de fertilidad sobre el producto interior bruto. C omo explicar as esta relaci on? c ) Dibujar el modelo del apartado anterior. d ) Qu e tasa de fertilidad le corresponde a una mujer que viva en un pa s con un producto interior bruto per c apita de 10000 $? Y si la mujer vive en Europa? 2 25 3 36 4 48 5 64 6 86 7 114 8 168

50

S-ar putea să vă placă și