Sunteți pe pagina 1din 25

Bioestadstica I -G.Cavada Ch.

MAGISTER E EPIDEMIOLOGIA

BIOESTADISTICA I

GABRIEL CAVADA CHACO

SATIAGO CHILE 2009

Bioestadstica I -G.Cavada Ch.

Bioestadstica I -G.Cavada Ch.

1. Introduccin a la Estadstica Qu es Estadstica?, etimolgicamente el vocablo deriva de Estado y significa "contar los bienes del Estado", los albores de esta disciplina se encuentran en la Antigedad, las autoridades del Egipto faranico contaban sus bienes y registraban la profundidad del ro Nilo en cada estacin del ao, recurdese tambin que Jesucristo nace en Beln, porque un edicto del emperador romano ordena un censo, para conocer el nmero y caractersticas de los habitantes del Imperio, as las personas deban reportarse a sus lugares de nacimiento y San Jos es nacido en Beln de Jud. Sin embargo la disciplina, desde aquellos lejanos tiempos hasta nuestros das ha ampliado su quehacer, perfeccionado tanto sus mtodos, que hoy es la disciplina mas usada por el resto de las Ciencias, lo que ha conllevado su vertiginoso desarrollo, sobretodo en el siglo XX. As, hoy decimos que la Estadstica es la disciplina que se ocupa de: 1) la recoleccin, organizacin y procesamiento de datos, y 2) la obtencin de inferencias a partir de un volumen de datos cuando se observa slo una parte.

Bioestadstica I -G.Cavada Ch.

1.1.- Mtodo Cientfico y Estadstico. El hombre busca en forma inclaudicable una explicacin racional a los fenmenos que lo rodean. El Mtodo Cientfico le ayuda a organizar adecuadamente la observacin de los hechos y a enunciar las leyes que los rigen. En la gran mayora de los casos reales el enunciado de las leyes se complica porque el fenmeno estudiado tiene una multicausalidad y esta contingencia se trata de superar con el Mtodo Estadstico. Mtodo Cientfico es un procedimiento que se aplica al ciclo completo de la investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. Al aplicar el Mtodo Cientfico se distinguen las siguientes etapas: 1) Deteccin y Enunciado del Problema: Es la descripcin de una situacin problema o es el planteamiento de una pregunta. 2) Formulacin de la Hiptesis: Es una respuesta o explicacin al problema enunciado, que se hace en base al conocimiento cientfico existente.

Bioestadstica I -G.Cavada Ch.

3) Deduccin de una consecuencia verificable: Como la hiptesis es una explicacin general, a menudo ocurre que no se puede investigar directamente, luego se procede a deducir, lgicamente, consecuencias particulares de la hiptesis. 4) Verificacin de la consecuencia: En ciencias exactas esto se realiza usando lgica pura, sin embargo en ciencias no exactas la verificacin se hace a travs de la recoleccin de informacin o la observacin de los fenmenos, lo que hace necesario la aplicacin de Procedimientos Estadsticos. 5) Conclusin: Consiste en la aceptacin, modificacin o total rechazo de la hiptesis planteada. Mtodo Estadstico es el que proporciona las tcnicas necesarias para Recolectar y Analizar la informacin requerida. El Mtodo Estadstico distingue dos etapas: la Planificacin y la Ejecucin. En la Planificacin se deben considerar los siguientes aspectos: 1) Definicin de objetivos: es la descripcin formal del problema que da origen a la investigacin. Se debe

Bioestadstica I -G.Cavada Ch.

sealar detalladamente lo que se va a investigar, el qu, cmo, dnde, cundo y por qu. 2) Universo del estudio: es la definicin del conjunto desde el cual se extraer la informacin y hacia el que se generalizarn las conclusiones obtenidas. 3) Diseo de la muestra: la Teora de Muestreo garantiza que la informacin que generaremos nos permita proyectar vlidamente las conclusiones al Universo de inters. 4) Definicin de las unidades de observacin (que objetos observaremos), las escalas de clasificacin y las unidades de medida. 5) Preparacin del Plan de Tabulacin y Anlisis de la informacin: aqu se determinan las formas de presentar y analizar la informacin recolectada. En la fase de Ejecucin se pueden reconocer los siguientes aspectos: 1) Recoleccin de la informacin. 2) Elaboracin de la informacin. 3) Anlisis de los resultados.

Bioestadstica I -G.Cavada Ch.

1.2.- Unidad de anlisis, atributos, variables, escalas de medida, poblacin y muestra. Unidad de anlisis: Una vez definido el problema que se va a investigar, se definen naturalmente los objetos que sern observados anlisis. Atributos: Teniendo definidas las unidades de anlisis, obviamente ellas presentan caractersticas que nos importan para nuestro estudio: Por ejemplo, si es de nuestro inters analizar como: - Sexo - Edad - Peso - Estatura - Nivel socio econmico - Estado civil, etc. Estas caractersticas las denominaremos atributos. antropomtricamente un grupo de personas, podemos consignar algunas caractersticas esenciales tales (seres humanos, consultorios, hgados, etc.), los que llamaremos en lenguaje tcnico unidades de

Bioestadstica I -G.Cavada Ch.

Variables: Cuando se han definido los atributos a estudiar, podemos ya observar unidades de anlisis especificadas y los atributos quedan consignados como caractersticas nicas del objeto que estamos estudiando. Por ejemplo si observamos una persona definida podemos consignar: - Sexo: Femenino - Edad: 40 aos cumplidos - Peso: 66 kilos. - Estatura: 1.65 metros - Nivel socio econmico: bajo - Estado civil: casada Cuando los atributos ya han sido evaluados, reciben el nombre de Variables del estudio. Escalas de medida: Cuando procedemos a medir las variables del estudio, debemos tener presente que estamos consignando valores con unidades de medida y por consiguiente introduciendo unidades de medida. Estas escalas de medidas pueden ser: Nominales, Ordinales o Intervalares (o de Razn). Estas escalas tienen diferente Poder de Clasificacin. Presentemos el siguiente esquema:

Bioestadstica I -G.Cavada Ch.

Escala de Medida Nominal

Poder de Clasificacin

Slo es capaz de nombrar o etiquetar la unidad de anlisis. Por ejemplo: Sexo, Estado civil

Ordinal

Es capaz de nombrar pero adems introduce una jerarqua en las unidades observadas. Por ejemplo: Nivel socioeconmico

Intervalar

Es capaz de nombrar, jerarquizar pero adems permite hacer comparaciones matemticas entre las unidades de anlisis. Por ejemplo: Edad, Peso, Estatura

Estas escalas de medida son inherentes a la variable que se mide. Puntualicemos en las variables de escala intervalar, pues debido a su naturaleza numrica estas se pueden clasificar en variables Discretas o Continuas. Las variables discretas, formalmente estn relacionadas con los nmeros Naturales (0,1,2,3,....) es decir, su funcin es Contar, como ejemplo tenemos: Cantidad de Hijos, Cantidad de caries, Das trabajados etc. Las variables continuas, formalmente estn relacionadas con los nmeros Reales, su funcin es medir, en el sentido fsico, como ejemplo tenemos: la Masa, la longitud, el Tiempo, etc...

Bioestadstica I -G.Cavada Ch.

10

Una importante observacin es que una variable inherentemente continua, por razones operativas se discretiza, esto es: si a Ud. le preguntan por su Edad, su respuesta estar en Aos Cumplidos (30 aos, 23 aos,..), sin embargo la Edad de una persona es una variable que indica tiempo de vida, si se quisiera ser exacto se tendra que contestar 30.213 aos (30 aos con 2 meses, 16 das, 16 horas y 19 minutos) lo que parece impracticable. La precisin con que se mide una variable va de acuerdo al inters de la investigacin, como se seal en el prrafo de Mtodo Estadstico. Poblacin: Llamamos Poblacin al Conjunto Universo de las unidades de anlisis, la poblacin puede ser de tamao finito o infinito. Por ejemplo, si se desea averiguar el tamao de las clulas hepticas de un paciente, la poblacin en estudio son Todas las clulas del hgado de dicho paciente, esta poblacin en la prctica es infinita. Si se desea analizar los egresos hospitalarios del Hospita Dr. Stero del Ro correspondientes al ao 2008, la poblacin es finita. Muestra: Como se puede apreciar, en muchos casos trabajar con una poblacin completa puede resultar muy costoso o simplemente impracticable, de aqu la necesidad de

Bioestadstica I -G.Cavada Ch.

11

tomar una Muestra de la Poblacin, formalmente una muestra es un SUBCONJUNTO FINITO de la Poblacin, que debe cumplir caractersticas ineludibles para lograr que las conclusiones estadsticas sean vlidas, as las caractersticas de una "buena muestra" son: 1) Aleatoria: componen garantiza la que los elementos que

muestra

fueron

escogidos

completamente al azar, es decir no hay predileccin alguna por incluir o excluir determinada unidad de anlisis. 2) El tamao de la muestra, que es el nmero de unidades de anlisis que se deben escoger, debe ser lo suficientemente grande como para garantizar la generalidad de los resultados. La determinacin del tamao de una muestra no es un problema trivial y constituye una especializacin de la estadstica llamada Teora de Muestreo.

Bioestadstica I -G.Cavada Ch.

12

2. Estadstica Descriptiva Se llama estadstica descriptiva, al conjunto de tcnicas que permiten ordenar, resumir y representar la informacin recolectada, como su nombre lo indica, slo pretende hacer una descripcin cuantitativa del fenmeno sin proyectar, an, sus resultados a la universalidad del fenmeno. 2.1.- Recoleccin, ordenacin y representacin de datos: Obtenida la informacin que se desea analizar es necesario: Ordenarla, para ello utilizaremos tcnicas que dependen de la naturaleza de la variable y su escala de medida; Representarla en tablas y/o grficos que nos permitan una primera impresin de la muestra en anlisis, tambin los grficos y tablas se adecuan a la naturaleza de la variable y su escala de medida. El detalle de este tema lo trataremos a continuacin con ejemplos prcticos:

Bioestadstica I -G.Cavada Ch.

13

2.2.- Datos en escalas nominales y ordinales, tablas de frecuencia, grfico de barras y circular. Consideremos la siguiente situacin: Para saber la apreciacin que tienen 30 usuarios de un consultorio, acerca de la atencin recibida se indaga lo siguiente: Atributo Sexo Edad Etiqueta 0: masculino 1:femenino En aos cumplidos

Calidad de atencin 1: mala 2: regular 3: buena 4: muy buena

Notemos que la variable sexo est medida en escala NOMINAL y calidad de atencin ORDINAL y la edad en escala intervalar (de razn). Los datos recogidos se muestran a continuacin:

Bioestadstica I -G.Cavada Ch.

14

persona sexo calaten edad persona sexo calaten edad 1 0 3 45 16 1 4 31 2 1 4 44 17 0 2 39 3 1 4 31 18 1 4 57 4 1 4 22 19 0 2 48 5 1 4 32 20 1 4 19 6 0 1 32 21 0 2 16 7 1 4 35 22 0 3 33 8 0 1 27 23 0 3 37 9 1 4 23 24 1 4 36 10 1 4 27 25 1 4 42 11 0 2 45 26 0 3 26 12 0 1 45 27 0 3 35 13 0 3 58 28 1 4 51 14 1 4 35 29 0 1 32 15 1 4 35 30 1 4 46

Al tabular la variable Sexo, es decir contabilizar las mujeres y los hombres vaciando el resultado en una tabla se obtiene:

. tab sexo 0:mascu | 1:femen | Freq. Percent Cum. ------------+----------------------------------0 | 14 46.67 46.67 1 | 16 53.33 100.00 ------------+----------------------------------Total | 30 100.00

La informacin que contiene es la siguiente: de las 30 personas encuestadas: 14 o bien el 46.7% son hombres y 16

Bioestadstica I -G.Cavada Ch.

15

o bien el 53.3% son mujeres. La columna Cum. No tiene interpretacin en esta tabla. Esta informacin se puede representar en un grfico de barras o en un grfico circular, como se muestra a continuacin:
. tab sexo, gen(Sexo) 0:mascu | 1:femen | Freq. Percent Cum. ------------+----------------------------------0 | 14 46.67 46.67 1 | 16 53.33 100.00 ------------+----------------------------------Total | 30 100.00

. graph bar (mean) Sexo1 (mean) Sexo2

.6 .55 .5 .45 .4 .35 .3 .25 .2 .15 .1 .05 0 Hombres Mujeres

Bioestadstica I -G.Cavada Ch.

16

. graph pie Sexo1 Sexo2, plabel(_all percent)

46.67% 53.33%

Hombres

Mujeres

Notemos que el grfico circular presenta una gran ventaja visual frente al grfico de barras, por esta razn se prefiere para representar variables medidas en escala nominal.

Bioestadstica I -G.Cavada Ch.

17

Al tabular la Calidad de la atencin, sin distinguir el Sexo del encuestado, se obtiene la siguiente tabla:
. tab calaten

1:mala 2: | regu 3:buen | 4: muy bu | Freq. Percent Cum. ------------+----------------------------------1 | 3 10.00 10.00 2 | 4 13.33 23.33 3 | 6 20.00 43.33 4 | 17 56.67 100.00 ------------+----------------------------------Total | 30 100.00

La informacin que contiene es la siguiente: 3 p o bien el 10% de las personas encuestadas encuentran mala la atencin, 4 personas o bien el 13.3% de las personas estiman que la atencin es regular, 6 o bien el 20% cree que la atencin es buena y 17 o bien el 56.7% de los encuestados encuentra la atencin muy buena.. Notemos que la forma de la tabla es idntica a la anterior, sin embargo ahora los nmeros que contiene la columna Cum tienen significado, esto se debe a que la variable est medida en escala ordinal, es decir aparece una jerarqua en la percepcin de la "calidad de la atencin" que se refleja en su codificacin, as el 43.3%, destacado en negritas y cursiva cree que la atencin es a lo ms Buena o bien es Buena o menos que buena. Esta informacin tambin se puede representar en un grfico de

Bioestadstica I -G.Cavada Ch.

18

barras o en un grfico circular, sin embargo en un grfico circular se pierde la jerarqua establecida por la escala de medicin de la variable:
. histogram calaten, discrete percent gap(5)

60 55 50 45 40 Percent 35 30 25 20 15 10 5 0 1 2 3 1:mala 2: regu 3:buen 4: muy bu 4

10% 13.33%

56.67% 20%

Mala Buena

Regular Muy buena

Bioestadstica I -G.Cavada Ch.

19

2.3.- Datos en escala intervalar, diagrama de Tallo y hoja, tablas e histograma. La ordenacin de datos en escala intervalar, actualmente se realiza usando el algoritmo llamado Diagrama de tallo y hoja, inventado por Tukey en 1977, consiste en mantener la decena del dato y clasificar la unidad numrica, si se desea clasificar los nmeros 58, 67, 42, 57, 59 y 45 se procede como sigue: 4 25 5 789 6 7 Notemos que las unidades, por cada decena, han sido puestas en orden, as observamos que los nmeros ordenados ascendentemente son 42, 45, 57, 58, 59 y 67.

Veamos el ejemplo: Se tienen las edades, en aos cumplidos, de las 30 personas encuestadas se muestran a continuacin:

Bioestadstica I -G.Cavada Ch.

20

45 44 31 22 32 32 35 27 23 27

45 45 58 35 35 31 39 57 48 19

16 33 37 36 42 26 35 51 32 46

Si ordenamos estos datos usando el diagrama de Tallo y hoja se obtiene:


. stem edad, line(1)

Stem-and-leaf plot for edad (aos cumplidos)

1* | 69 2* | 23677 3* | 1122235555679 4* | 2455568 5* | 178

Ahora es fcil observar, por ejemplo que: 1) la persona con menor edad tiene 16 aos 2) la persona de mayor edad tiene 58 aos 3) existen tres personas con 45 aos, etc.

Bioestadstica I -G.Cavada Ch.

21

La informacin anterior se puede representar en una tabla, pero como se ver la prdida de informacin que se produce es bastante considerable, pues se debe agrupar la informacin. La tabla para las Edades se muestra a continuacin:
Edad | Freq. Percent Cum. ------------+----------------------------------10-20 | 2 6.67 6.67 20-30 | 5 16.67 23.33 30-40 | 13 43.33 66.67 40-50 | 7 23.33 90.00 50-60 | 3 10.00 100.00 ------------+----------------------------------Total | 30 100.00

Como se observa, la prdida de informacin radica en que, si bien sabemos que hay 5 individuos con edad entre 20 y 29 aos, no es posible al observar la tabla cul es la edad exacta de estas personas. Volvemos a observar que la tabulacin es similar a la hecha para variables ordinales, las columnas Percent y Cum tienen igual significado que antes, pero adems La se pueden de la hacer tabla otras puede comparaciones representarse numricas. informacin grficamente, a este grfico se le llama Histograma:

Bioestadstica I -G.Cavada Ch.

22

30

25

20 Percent

15

10

0 10 20 30 40 aos cumplidos 50 60

Bioestadstica I -G.Cavada Ch.

23

Al graficar las frecuencias acumuladas se obtiene un grfico llamado OJIVA, que se muestra a continuacin:

Frec. Acumulada en %

100 90 80 60 40 20 0 6.67 10-20 20-30 30-40 40-50 23.33 66.67

100

50-60

Edad

Bioestadstica I -G.Cavada Ch.

24

Frecuencias ajustadas: Cuando se desea construir un histograma en que la tabulacin presenta intervalos de clase de distinta longitud, es necesario ajustar por dichos largos usando la siguiente frmula:

f k* =

fk lk

Revisemos el siguiente ejemplo: La siguiente tabla muestra la frecuencia de accidentes caseros por rango de edad:

Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95

frec. 30 50 40 60 40 35

largo 3.0 2.0 5.0 20.0 30.0 35.0

frec.* 10.00 25.00 8.00 3.00 1.33 1.00

Bioestadstica I -G.Cavada Ch.

25

70 N de accidentes 60 50 40 30 20 10 0 0-3 3-5


30 50 40

60

40 35

5 - 10 10 - 30 30 - 60 60 - 95 Edad en aos

frecuencia ajustada

30.00 25.00 20.00 15.00 10.00 5.00 0.00 0-3 10.00

25.00

8.00 3.00 1.33 1.00

3 - 5 5 - 10 10 - 30 30 - 60 60 - 95 Edad en aos

S-ar putea să vă placă și