Sunteți pe pagina 1din 13

Estadstica Descriptiva

Primer Taller
29/04/2012

Ramrez Isabel Zapata Estefany

1037234 1031947

ESTADISTICA DESCRIPTIVA
Ramrez Isabel, Zapata Estefany.

Universidad del Valle Facultad de Ingeniera


Resumen: Este documento contiene la aplicacin de los conceptos vistos en clase a cerca de estadstica descriptiva, entendida como la etapa de metodologa estadstica, en la que no se involucra la teora de la probabilidad como herramienta para realizar inferencias a cerca de la poblacin se construyen indicadores, se hacen grficas y se realizan comparaciones [1]. Los anlisis aqu descritos se hacen respecto a una base de datos facilitada por la profesora Claudia Mora de 575 personas que presentaron una enfermedad infecciosa en la ciudad de Cali, en el ao 2010. Las conclusiones que obtuvimos a partir del anlisis de las grficas y tablas de frecuencias es que gran parte de las personas de la base de datos se encuentran entre 6 y 35 aos, es decir, la gran parte de los enfermos por infeccin son jvenes o nios y adems la mayor parte mujeres.

1. INTRODUCCIN En estadstica las variables, cualquier caracterstica o atributo que puede asumir valores diferentes [2], se clasifican en cualitativas y cuantitativas, Las variables cuantitativas son nmeros que representan conteos o mediciones y las cualitativas, categricas o de atributos distinguen alguna caracterstica no numrica. La escala de las variables cualitativas es nominal u ordinal, es decir, el nivel de medicin ordinal se caracteriza por datos que consisten exclusivamente en nombres, rtulos o categoras. Los datos no pueden acomodarse segn un esquema de ordenamiento. Por lo contrario el nivel de medicin ordinal implica datos que pueden acomodarse en algn orden, pero no es posible determinar diferencias entre los valores de los datos. Este nivel ordinal proporciona informacin sobre comparaciones relativas, pero los grados de las diferencias no se pueden usar en clculos. Las variables cuantitativas tambin tienen un nivel de medicin, uno es el intervalo que es como el nivel ordinal con la propiedad

adicional de que podemos determinar magnitudes de diferencias entre los datos que tienen algn significado. Sin embargo, no hay un punto de partida o cero inherente natural en el que la cantidad est totalmente ausente. El nivel de medicin de razn es el nivel de intervalo modificado para indicar el punto de partida o cero inherente, donde el cero indica ausencia. Para valores en este nivel tanto las diferencias como las razones tienen significado. Las variables cuantitativas tambin las podemos clasificar en continuas y discretas. La primera clasificacin consiste en un nmero finito de posibles valores o que pueden contarse y la segunda en un nmero infinito de posibles valores que pueden asociarse a puntos de una escala continua de tal manera que no hay huecos ni interrupciones. [3] De lo anterior podemos decir que tenemos, de la base de datos, 5 variables, edad, sexo, comuna, nmero de personas con las que vive y nivel escolar las cuales clasificaremos en la siguiente tabla.

Estadstica Descriptiva

Pgina 1

Tabla 1 Clasificacin de las Variables

Variable Edad Sexo Comuna N per_vive Nivel escolar

Tipo de Variable Cuantitativa Cualitativa Cualitativa Cuantitativa Cualitativa

Escala Razn Discreta Nominal Nominal Razn Discreta Ordinal

construy una tabla de frecuencias y un diagrama de cajas y bigotes. Perimero, explicaremos cmo se construy la tabla de frecuancias de la variable edad. a. Como son tantos datos y tantas edades diferentes, la tabla de frecuencias deba construirse por intervalos, as que determinamos el nmero de intervalos apropiados. = 1 + 3,3 log (1)

Para poder analizar los datos y sacar algunas conclusiones de ellos, es necesario organizarlos de manera que sea mejor la visualizacin de los mismos, ya que con una base de datos de 575 personas poco se alcanza a ver. Por ello organizamos los datos en tablas de frecuencias, es decir la cantidad de veces que ocurre el evento al que hace referencia y elaboramos un diagrama de cajas y bigotes1 que es muy til para revelar tendencia central, dispersin de los datos, distribucin de los datos y presencia de datos extremos u OUTLIERS. Los Outliers son muy importantes ya que pueden ser errores de medicin o grandes hallazgos. [4] Para poder elaborar el diagrama de cajas y bigotes de debe tener muy en claro qu significan los valores con base en los cuales se hace el diagrama. Algunos de estos valores se denominan cuartiles de la distribucin, ya que dividen la muestra ordenada en cuatro partes con aproximadamente el mismo nmero de datos. 2. MTODO Para tener una informacin ms visual de las edades de las personas de la base de datos se

La ecuacin 1 es el resultado de investigacin estadstica, n es el tamao de la muestra y m nmero de valores posibles de la variable x en nuestro caso el nmero de intervalos que se construiran. Reemplazando en la ecuacin 1 se obtuvo m igual a 10,106 de lo que concuimos que el nmero de intervalos sera 10. Este valor es apropiado, ya que vimos que m debe estar entre 4 y 20. b. Pasamos a calcular la longitud del intervalo que es el rango entre el nmero de intervalos. (2) (3)

El grfico de cajas y bigotes es contribucin del gran estadstico Jhon Tukey.

De las ecuaciones anteriores obtuvimos r igual a 87 y C igual a 8,7. Al hacer la tabla de frecuencias vimos que no era apropiado ni tena sentido que los intervalos tuvieran decimales, por lo que decidimos que algunos de los intervalos tuvieran una longitud de 8 y otros una longitud de 9. Tratando de que fuera muy similar

Estadstica Descriptiva

Pgina 1

al clculo obtenido de la longitud del intervalo. c. Seguido debamos determinar el lmite inferior del primer intervalo, teniendo en cuenta que era ms conveniente que comenzara cerrado y con una longitud de intervalo de 9 decidimos que comenzara desde 0, adems se nos es muy familiar escuchar que comiencen de esta manera. d. Proseguimos a calcular la marca de clase de cada intervalo. = -1 + 2 (4)

C es la amplitud de cada intervalo que en nuestro caso son diferentes. Multiplicando este valor por 100 obtenemos la densidad de frecuencia porcentualmente, que resulta ms apropiada. Seguido de esto, basndonos en los datos proporcionados en la tabla de frecuencias, se construy un diagrama de cajas y bigotes con ayuda de la funcin emprica de densidad. Se hallaron los cuartiles de la distribucin, el rango intercuartlico, distancia entre el primer y tercer cuartil, y las fronteras o ceros internos2.

La marca de clase es el valor que representa a todo el intervalo para el clculo de algunos parmetros como la media aritmtica o la desviacin estndar. e. La frecuencia absoluta la hallamos contando los datos que pertenecan a cada intervalo y la frecuencia relativa dividiendo cada uno de esos datos entre el total de datos. Si se quiere este ltimo se puede multiplicar por 100 y expresarse porcentualmente. f. La frecuencia absoluta y relativa acumulada se calcul sumando las columnas anteriores y actuales respectivamente. Significa los la cantidad de datos menores o iguales al lmite superior del intervalo mencionado. g. Por ltimo la densidad de frecuencia de cada intervalo, la densidad de frecuencia hace referencia a la concentracin de datos en un intervalo. h*i =

(5)

Por motivos de practicidad en este informe las ecuaciones para realizar el diagrama de cajas y bigotes se mencionaron de manera poco desarrollada en el anlisis, pero bien se puede consultar de manera muy ampliada en cualquiera de los libros mencionados en la bibliografa.

Estadstica Descriptiva

Pgina 2

3. RESULTADOSi

Tabla 2 Tabla frecuencias Variable sexo

M 1 2 TOTAL

Ni 351 224 575

Hi 0,61 0,39 1

Ni 351 575

Hi 0,61 1

Figura 1 Diagrama de Torta Variable Sexo en SPSS

Tabla 3 Tabla Frecuencias Variable Comuna M 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Rural Total Ni 14 31 21 22 21 24 14 15 10 29 12 15 24 16 17 18 51 36 62 78 17 10 18 575 Hi 0.0243 0,0539 0,0352 0,0383 0,0365 0,0417 0,0243 0,0261 0,0174 0,0543 0,0209 0,0261 0,0417 0,0278 0,0296 0,0313 0,0887 0,0626 0,1078 0,1356 0,0296 0,0174 0,0313 0,97811 Ni 14 45 66 88 109 133 147 162 172 201 213 228 252 268 285 303 354 390 452 530 547 557 575 Hi 0,0243 0,0539 0,0891 0,1274 0,1639 0,2056 0,2299 0,256 0,2734 0,3277 0,3486 0,3747 0,4164 0,4442 0,4738 0,5051 0,5938 0,6564 0,7642 0,8998 0,9294 0,9468 0,97811

Puede notarse que en la tabla 3, tabla de frecuencias de la variable comuna existen ms de 20 valores posibles de la variable x, antes se mencion que m no deba ser mayor a 20 ni menor a 4 pero este es el caso de una variable cualitativa de escala nominal y no tiene sentido alguno formar intervalos, as que para tener una mejor visualizacin de los datos decidimos dejar las comunas intactas.

Estadstica Descriptiva

Pgina 3

Tabla 4 Tabla de Frecuencias Variable N de Personas

m 1 2 3 4 5 6 Total

ni 26 153 83 210 77 26 575

Hi 0,0452 0,2661 0,1443 0,3652 0,1339 0,0452 0,99991

Ni Hi 26 0,0452 179 0,3113 262 0,4556 472 0,8208 549 0,9547 575 0,99991

Para la variable Nmero de personas con las que vive nos parece muy apropiado un diagrama de barras. Como lo mencionamos antes la variable nmero de personas con las que vive est clasificada como una variable de tipo cuantitativo, de razn pero algo muy importante es que es discreta. Por la cantidad de valores que tom la variable no es apropiado formar intervalos as que el diagrama ms propicio o mejor para el caso es el de barras y su respectivo diagrama de frecuancias acumuladas.

Figura 2 Diagrama de barras Variable N de Personas

Figura 3 Diagrama Frecuencias Acumuladas Variable N de Personas

Estadstica Descriptiva

Pgina 4

Tabla 5 Tabla de frecuencias variable Edad

m 1 2 3 4 5 6 7 8 9 10

Intervalos (0 - 9] (9 - 18] (18- 27] (27 - 35] (35 - 44] (44 - 53] (53 - 61] (61 - 70] (70 - 79] (79 - 88] TOTAL

xi 4 13 22 31 39 48 57 65 74 83

ni 210 47 101 77 55 26 28 17 10 4 575

hi 0,365 0,082 0,176 0,134 0,096 0,045 0,049 0,029 0,017 0,007 1

Ni 210 257 358 435 490 516 544 561 571 575

Hi 0,365 0,447 0,623 0,757 0,853 0,898 0,947 0,976 0,993 1

Ni% 36,5% 44,7% 62,3% 75,7% 85,3% 89,8% 94,7% 97,6% 99,3% 100%

h*i % 4,05% 0,91% 1,95% 1,67% 1,06% 0,5% 0,61% 0,33% 0,19% 0,08%

Figura 4 Diagrama Ojiva Variable Edad Figura 5 Histograma Variable Edad

Estadstica Descriptiva

Pgina 5

Figura 6 Diagrama Cajas y Bigotes Variable Edad

Dos de los diagramas antes mostrados se reslizaron en un programa para efectos de comparacin, con un programa llamado SPSS reslizamos el diagrama de cajas y

bigotes y el histograma de la variable edad. El diagrama de Torta mostrado anteriormente tambin se realiz con este programa.

Estadstica Descriptiva

Pgina 6

Figura 7 Histograma Variable Edad en SPSS

Figura 8 Diagrama Cajas y Bigotes Variable Edad en SPSS

Estadstica Descriptiva

Pgina 7

4. ANLISIS

1 1.5 3 1

(9)

Para la realizacin del diagrama de Cajas y Bigotes, como ya mencionamos, fue necesario el clculo de cuartiles de la distribucin que son los tres valores que dividen al conjunto (la caja) en partes iguales. Existen tres cuartiles, el primer cuartil es un valor por el cual queda un cuarto (25%) de los valores ordenados; el segundo cuartil es la mediana es decir el valor donde se distribuye el 50% de datos ordenados, y el tercer cuartil es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Las formulas para hallar los cuartiles son las siguientes3:

3 1 Se conoce como RIC o Rango intercuartlico y a la ecuacin 9 se la llama frontera inferior o cero interno inferior. En este caso no hay, as que el lmite inferior del bigote es nuestro dato mnimo 1; Tambin son atpicos los valores mayores que: 3 + 1.5 3 1 (10) La ecuacin 10 se la conoce como frontera superior o cerco interno superior. En nuestro caso reemplazando tenesmos que: (34,6 + 1.5(34,6 6,16) 77 Nuestros valores atpicos u Outliers son 5 (88, 87,86, 80 y 79), estos datos aparecen por encima del lmite superior marcados con crculos En resumen los datos ms importantes de la distribucin de edades son: La edad mnima marcada fue de 1ao. El primer cuartil con 6 aos deja el 25% de la distribucin en la parte inferior. La mediana de 21 aos, deja dividido a cada parte el mismo nmero de datos. El tercer cuartil de 35 aos, deja el 75% de la distribucin en la parte inferior. La edad mxima dentro de la distribucin es de 77 aos.
Pgina 8

1 = 1 + ( 1 = 8.7
0.25

0.251

(6)

Reemplazando en 6:
0.365

6
0.51 0.50.447 0.176

2 = 1 +

(7)

Reemplazando en 7:

2 = 18.4 + 8.7

21 3 = 1 + (
0.751

(8)

Reemplazando en 8:

3 = 27.1 + 8.7
Se consideran menores que:
3

0.75 0.623 0.134 35


valores atpicos los

Los datos a los que hacen referencia las ecuaciones son tomados de la tabla de frecuencias.

Estadstica Descriptiva

Se presentaron 5 datos atpicos dentro de la muestra.

2 =
=1

)2

(13)

Por ltimo calcularemos algunos datos importantes en este anlisis. Uno es la mediana, se define como un valor Me, tal que supera no ms de la mitad de los datos y es superado por no ms de la mitad de los datos. Como ya habrn notado la mediana es el segundo cuartil que ya hallamos y su ecuacin correspondiente es la numero 7, es decir, la mediana de la edad es 21 aos. Otro de los datos importantes es la media aritmtica que suele ser la ms importante de todas las mediciones descriptivas numricas y la mayora de las personas la llama promedio. Es el valor que se obtiene sumando los datos y dividiendo el total entre nmero de datos, es decir: = =
=1

Reemplazando 13 en 12 tenemos que la desviacin estndar resulta:

=
=1

)2

(14)

(11)

Reemplazando en la ecuacin anterior para m igual a 10 y los dems valores de la tabla de frecuencia tenemos que la desviacin estndar hecha a mano es 19,2 y en consecuencia una varianza de 368,9. El programa SPSS nos mostr una desviacin estndar de 20,126 y una varianza de 405,061. Teniendo en cuenta las aproximaciones que se hacen a mano y las aproximaciones que hace el programa nos parece que los datos son similares. Si los datos estn muy juntos la variacin estndar es pequea, pero si estn separados o dispersos nos dar un numero grande, es decir, la desviacin estndar crece a medida que crece la dispersin delos datos. [3] 5. DISCUSIN. Como se mencion anteriormente los intervalos en la tabla de frecuencias de la variable edad se construyeron con longitudes distintas, ms explicitamente dos tienen longitud diferente, para no mostrarlos con decimales ya que no tiene sentido. Tambin se pudieron haber
Pgina 9

Reemplazando en la ecuacin 11 tenemos que la media de nuestra distribucin es: = 13384 = 23,276 575

Por ltimo otro dato importante se conoce como desviacin estndar, sta es una medida de la variacin de los valores alrededor de a media y se calcula con la ecuacin 12. 2 (12)

Entendiendo por 2 la varianza

Estadstica Descriptiva

construido de tal manera que an sin mostrar decimales tubieran la misma longitud, pero, esto nos ocasionaba la singularidad de que el ltimo intervalo terminaba en 90 y nos vinculaba menos datos. Frente a esto decidimos que tendran longitudes diferentes4. Para el diagrama de cajas y bigotes relizado con el Software se puede notar que slo hay 3 outliers y adems que los numeros son diferentes, stos nmeros corresponden a la posicin en la tabla de datos y el hecho de que sean 3 outliers se debe a que algunas aproximaciones que hace el programa. La ojiva o polgono de frecuancia acumulada es una grfica de la distribucin de frecuancias acumuladas, nos permite ver cuantas observaciones son menores o iguales a un valor de interes. En nuesto caso se puede observar el diagrama ojiva realizado para la variable edad. Adems de los datos hallados en el anlisis, desviacion estandar, media y mediana decidimos calcular el coeficiente de variacin o CV que nos permite sacar conclusiones acerca de la representatividad de la media aritmtica. = 100 (15)

De lo anterior tenemos que el coeficiente de variacin es del 86%. Es importante tener en cuenta que si el coeficiente de variacin es mayor al 20% la media no es representativa de los datos o los datos no son homogeneos. En nuestro caso confirma lo visto en el diagrama de cajas y bigotes, pues los datos son muy dispersos en edades mayores. 6. CONCLUSIONES. Para el diagrama de cajas y bigotes tenemos que la parte inferior es ligeramente mayor a la parte superior de la caja, esto quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacin estn ms dispersas que entre el 50% y el 75%; aun as el tamao muestra de la caja sugiere una existencia de datos homogneos cercanos a la edad media del grupo. El bigote inferior es mucho ms corto que el bigote superior, lo que indica que las personas menores estn ms concentradas que las mayores, o sea, el 25% de los menores estn ms concentrados que el 25% de los mayores El rango intercuartlico es de 3 1 = 34,6 6,16 28, entre 6 y 35 aos se encuentra el 50% central de los datos. Y la distancia es de aproximadamente 28 aos o 29 aos si aproximamos desde un principio. Las edades varan de 1 a 77 aos (sin tener en cuenta los datos atpicos), lo que da un rango de 77 aos una gran diferencia en la distribucin de edades. De todo esto podemos concluir que gran parte de los enfermos por infeccin en Cali son jvenes o nios. Son muy pocas
Pgina 10

Tambin nos apoyamos en un comentario del libro estadstica con un enfoque descriptivo, pg. 40 en el que se menciona que algunas veces no es posible construir intervalos con longitudes iguales.

Estadstica Descriptiva

las personas mayores que sufran de enfermedades infecciosas como se puede evidenciar en los datos atpicos aunque tambin puede deberse a que pocas personas en Cali llegan a esas edades y adems sobreviven a enfermedades infecciosas. Del diagrama de torta para la tabla de frecuencias para la variable sexo podemos concluir que hay ms mujeres que padecen de enfermedades infecciosas que

hombres, aunque esto debe ser comparado con la proporcin entre hombres y mujeres en la ciudad de Cali. Para la variable nmero de personas tenemos que gran parte de los infectados viven con 2 o 4 personas, de aqu no podemos sacar conclusiones muy aceleradas sin complementar con informacin acerca del ncleo familiar de la persona.

REFERENCIAS [1] Estadstica. Un enfoque descriptivo, Roberto Behar G., Mario Yepes A. [2] Profesora Claudia Mora, Epidemiloga [3] Estadstica Elemental, introduccin a la estadstica, Mario F. Triola.

[4] Estadstica. Un enfoque descriptivo, Roberto Behar G., Mario Yepes A. pg. 48 Nota al pie sobre los Outliers

La Base de datos, las tablas de frecuencias mejor presentadas y las grficas ampliadas se encuentran en al archivo BD_taller_variables.xlsx adjunto a este.

Estadstica Descriptiva

Pgina 11

S-ar putea să vă placă și