Sunteți pe pagina 1din 12

http://www.uaq.mx/matematicas/estadisticas/xu3.

html 20 septiembre 1999

Unidad 3. Estadstica Descriptiva


1. Introduccin
Una de las ramas de la Estadstica ms accesible a la mayora de la poblacin es la Descriptiva. Esta parte se dedica nica y exclusivamente al ordenamiento y tratamiento mecnico de la informacin para su presentacin por medio de tablas y de representaciones grficas, as como de la obtencin de algunos parmetros tiles para la explicacin de la informacin. La Estadstica Descriptiva es la parte que conocemos desde los cursos de educacin primaria, que se ensea en los siguientes niveles y que, por lo general, no pasa a ser un anlisis ms profundo de la informacin. Es un primer acercamiento a la informacin y, por esa misma razn, es la manera de presentar la informacin ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodologa o algo similar, sino que, al contrario, por ser un medio accesible a la mayora de la poblacin humana, resulta de suma importancia considerar para as evitar malentendidos, tergiversaciones o errores.

2. Representacin de tronco y hoja


Un mtodo para iniciar el anlisis exploratorio de los datos, previo al uso de los mtodos estadsticos tradicionales, y que adems proporciona informacin rpida, visual y es relativamente nueva, es la representacin grfica de tronco y hoja. Esta representacin se basa en la ordenacin de los datos a manera de grfico, pero sin llegar a ello, utilizando las decenas y las unidades. Esta tcnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su uso a travs del siguiente ejemplo que contiene las calificaciones obtenidas en una prueba de matemticas: 78 66 93 73 61 76 100 81 70 83 83 64 88 91 74 70 97 77 72 86

Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir, el nmero 51 se ver como 5 | 1. De esta manera las decenas se pondrn en una columna, en forma vertical, y las unidades a su derecha:

6 7 8 9 10

1 8 3 3 0

6 0 8 7

4 4 2 3 6 0 7 1 3 6 1

Para entenderle un poco ms, hemos de decir que el primer rengln que dice 6 | 1 6 4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representacin grfica tronco y hoja, donde cada rengln es una posicin de tronco y cada dgito de la derecha es una hoja.

El procedimiento para realizarla es primero empezar con los troncos, es decir la columna de la izquierda, y despus dato por dato ir llenando las hojas a la derecha de la lnea vertical, en el tronco correspondiente. Adems, si se desean tener los datos ordenados, y hay gente que lo prefiere as, se pueden ordenar las hojas en cada rengln para que la representacin quede como sigue:

6 7 8 9 10

1 0 1 1 0

4 0 3 3

6 2 3 4 6 7 8 3 6 8 7

En realidad una representacin de tronco y hojas presenta la misma informacin que la lista original de datos, pero de una manera mucho ms compacta (especialmente si la lista de datos es ms grande) y manejable. Sin embargo, informacin ms compleja resulta un poco ms difcil de manejar, por lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los nmeros para las troncos. En cada uno de esos casos conviene hacer alguna anotacin, o poner una nota, a fin que los lectores puedan identificar las adecuaciones realizadas y as poder interpretar lo que se quiere transmitir. Para mostrar la informacin de manera ms clara, es posible modificar el nmero de posiciones del posiciones del tronco, aumentndola o disminuyndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los datos del examen anterior, se pueden dividir en dos cada posicin del tronco, utilizando la primera posicin para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posicin para las hojas restantes. De esta manera, se obtiene la representacin grfica de doble tronco:

66+ 77+ 88+ 99+ 10-

1 6 0 6 1 6 1 7 0

4 0 2 3 4 7 8 3 3 8 3

Con esto se han duplicado el nmero de posiciones del tronco, con la intencin de buscar una mayor claridad en la presentacin. Esta manera de representacin inicial de los datos no la profundizaremos ms, sino que la utilizaremos ms adelante en algunos casos para, precisamente, presentar una representacin inicial de la informacin obtenida.

3. Poblacin y muestra
Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. sto por diversas razones, que pueden ser desde prcticas hasta por economa. Por ejemplo, resultara muy costoso obtener los datos de todos los seres humanos, o imprctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medicin de toda la produccin. El estudio conducira a la empresa a la ruina, pues la produccin entera desaparecera.

Por esta razn se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La poblacin, entonces, es el total hipottico de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la poblacin, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la poblacin, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio ms detallado de las caractersticas de las muestras para permitir tales generalizaciones se realizar ms adelante.

3.2. Parmetros y estadsticos


Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferencindose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las descriven se denominan parmetros, y suelen estar representadas con letras griegas (por ejemplo Q y W). Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadsticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarn enseguida.

4. Datos sin agrupar 5. Medidas de tendencia central para datos sin agrupar
David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un applet que demuestra las propiedades bsicas de la media y la mediana. Puedes realizar un ejercicio calculando las medidas de tendencia central para una poblacin de tamao 20 haciendo click en el botn de la derecha.

6. Medidas de dispersin para datos sin agrupar


Para hacer un ejercicio del clculo de las medidas de dispersin para una poblacin de tamao 20 haciendo click en el botn de la derecha.

7. Medidas de ubicacin para datos sin agrupar 8. Datos agrupados 9. Distribuciones de frecuencias 10. Representaciones grficas
Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms rpidos y eficientes, aunque tambin uno de los que ms pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones bsicas al realizar las grficas. Existen tambin varios tipos de grficas, o representaciones grficas, utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al presentar la informacin.

Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier grfica a fin de que la informacin sea transmitida de la manera ms eficaz posible y sin distorsiones: 1. El eje que represente a las frecuencias de las observaciones (comnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podra dar impresiones errneas al comparar la altura, longitud o posicin de las columnas, barras o lneas que representan las frecuencias. 2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la grfica deben ser iguales. 3. El tipo de grfico debe coincidir por sus caractersticas con el tipo de informacin o el objetivo que se persigue al representarla, de otra manera la representacin grfica se convierte en un instrumento ineficaz, que produce ms confusin que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporcin de poblacin masculina en un pas conviene ms usar una grfica de pastel o circular que una grfica de barras al compararla contra la poblacin femenina; por un lado se puede apreciar dicha proporcin, por el otro se aprecia cul de las dos poblaciones es mayor. Hay un punto que conviene remarcar: existe software que permite la construccin rpida y eficiente de grficas a partir de bases de datos o hojas de clculos, pero no importa cun bonita, bien delineada, bien coloreada o bien presentada est una grfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver ms sobre el objetivo de estas herramientas y la Estadstica: la transmisin eficiente de la informacin. Si quieres ver indicaciones de cmo hacerlas usando Excel haz click.

10.2. Tipos de grficos


Para las distribuciones de frecuencias la representacin grfica ms comn es el histograma. Un ejemplo es el que se presenta a continuacin y que representa el nmero de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcndose de manera continua las fronteras entre cada uno de los stos. De esta manera, el histograma est compuesto rectngulos, cuyo nmero coincide con la cantidad de intervalos considerados, el ancho de la base de cada

uno de esos rectngulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo. Es importante observar que resulta difcil utilizar este tipo de representacin cuando existen intervalos abiertos o cuando los intervalos no son iguales entre s. Otra observacin es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues al cambiarla la presentacin visual de un histograma puede variar. Un applet que muestra cmo el nmero de clases y su ancho pueden hacer variar fue desarrollado por Webster West de la Universidad del Sur de Carolina. El programa Excel no permite crear de manera automtica histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas.

Un tipo de grfico muy parecido al histograma es la grfica de columnas. Para este tipo de grfica, elaboradas con rectngulos tambin, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectngulos (o barras) no tienen que aparecer juntas entre s. Otra observacin pertinente es que se pueden representar en la misma grfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una grfica con varias series, correspondiendo cada una de ellas a cada observacin de la muestra (o poblacin), y tenindose una grfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre s, pero distinta de las dems. El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales) estn coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los dems. Es interesante observar que la escala horizontal no es continua (es nominal).

Existe la posibilidad, y si los recursos lo permiten, de representar grficos compuestos de una manera "tridimensional", es decir, con grficos que posean no slo dos ejes, sino tres; y en los que los rectngulos son sustitudos por prismas de base rectangular (ocasionalmente el software en el mercado permite utilizar prismas cuya base son polgonos regulares de ms de cuatro lados, pirmides o cilindros). Un ejemplo es el siguiente:

donde se representa el porcentaje del PIB gastado en docencia e investigacin por cinco pases en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de grficos puede complicarse mucho, haciendo que la informacin sea menos legible.

Tambin es posible realizar grficas de barras horizontales, los cuales se parecen mucho a las grficas de columnas, con la salvedad importante de que la funcin de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy comn que este tipo de grficos se utilicen para ilustrar el tamao de una poblacin dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la poblacin de un pas ficticio llamado "Timbuctulandia":

A este tipo de grficos en particular se le llama pirmide de edades por su forma. Incluso, cuando se compara la poblacin masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para

la poblacin de un sexo y el lado derecho para el otro, el resultado es una "pirmide" casi simtrica (depender de la poblacin en particular).

Cuando los datos se relacionan entre s, es decir, cuando podemos decir que existe cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolucin del peso o estatura de una persona a travs del tiempo, el desempeo acadmico de un estudiante a lo largo de su instruccin escolar, las variaciones presentadas en la medicin realizada en algn experimento cada segundo o minuto) se pueden utilizar las grficas de lneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, unindose consecutivamente con lneas:

Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las grficas de columnas (y de otras ms) es posible presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un individuo).

Otra forma de representacin de un uso menos comn, y muy parecida a las grficas de lneas, es el polgono de frecuencias. La diferencia fundamental entre ambas es que en el polgono de frecuencias se aaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra despus de la ltima. El resultado es que se "sujeta" la lnea por ambos extremos al eje horizontal y lo que podra ser una lnea separada del eje se convierte, junto con ste, en un polgono. El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigacin durante el ao de 1990 en cinco pases (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

El Excel no crea automticamente polgonos de frecuencias, sino que produce grficas de lneas. Sin embargo, es posible arreglrselas para hacerlas.

Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por sto la aplicacin de la tcnica es parcial): 1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. 2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el nmero de observaciones menores que la frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la hora que seala la frontera).

Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribucin porcentual:

En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una llamada grfica de reas, la cual consiste en rellenas el rea que se encuentre debajo de las lneas que resultan de una grfica de lneas. El ejemplo que se presenta es la comparacin del total de las especies de las familias del orden Carnivora y las que estn amenazadas, en Mxico, (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):58):

Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se est usando una escala categrica, conviene utilizar una grfica llamada de pastel o circular. Por ejemplo, para ilustrar la matrcula en licenciatura (en Mxico) por reas de conocimiento en el ao de 1992 se puede usar algo as como sigue (Fuente: ANUIES,1995):

De hecho, si se desea resaltar una de las categoras que se presentan, es vlido tomar esa "rebanada" de la grfica y separarla de las dems:

Para hacer una grfica de este tipo en papel. Hay que tomar algunas precauciones al utilizar este tipo de grficos. Por un lado, comparar dos grficos circulares (por ejemplo, si se quisieran comparar las proporciones de matrculas en licenciatura por reas de conocimiento en licenciatura para dos aos distintos) resulta muy difcil y, por tanto, no es muy aconsejable. Por otro lado, en ocasiones existen categoras con pocas frecuencias (por ejemplo, dos o tres con frecuencias relativas menores al 1% cada una), haciendo que la grfica resulte "pesada" y las etiquetas se encimen. Una posible solucin es juntarlas en una sola categora (por ejemplo, la tpica "otras" o "varias"), pero entonces habra que ponderar si se hace una grfica extra con dichas observaciones nicamente, haciendo la anotacin pertinente, o simplemente se ignoran por no resultar significativas.

Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos para representar dicha

informacin, y el tamao o el nmero de estos dibujos dentro de una grfica queda determinado por la frecuencia correspondiente. A este tipo de grfica se le llama pictograma y stos son dos ejemplos:

El de la izquierda representa la poblacin de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene ms 17 veces ms masa que la Tierra). Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de grficas, las posteriores s. Otros programas contemporneos (como el Corel Draw o el Harvard Graphics) s son capaces.

Cuando se pretende ilustrar la dispersin de las observaciones realizadas, y as trabajar algunas cosas como correlaciones se puede utilizar una grfica de dispersin. Por ejemplo, el ejemplo de la izquierda es la dispersin que se presenta al comparar el nmero de tesis doctorales en ciencias exactas contra el nmero de total de tesis doctorales (todo en Mxico) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

La grfica de la derecha es resultado de comparar el dimetro (en miles de kilmetros) de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos por centmetro cbico). Es interesante observar que los puntos parecen "seguir" una lnea imaginaria que se asemeja a una recta, con excepcin de un caso atpico: Mercurio. Uno de los usos de este tipo de grficas es precisamente encontrar si las observaciones siguen algn patrn lineal (una lnea de tendencia) o si existen valores atpicos. Para el caso del Excel, el programa es capaz de graficar las lneas de tendencias que siguen un conjunto de datos.

Un tipo de grfico similar a las grficas de dispersin son las grficas de burbujas, en las cuales se presenta la dispersin de las observaciones de la misma forma que aqullas, pero se le aade la posibilidad de visualizar otra variable representada en el tamao del punto, pues stos se convierten en crculos (burbujas) con radios proporcionales a las magnitudes que representan.

Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus rbitas, y el tamao de las burbujas indica la masa de cada planeta.

Adems existen otros tipos de grficos, cada uno con caractersticas particulares que les proporcionan cierta intencionalidad para su uso, como son las grficas de radar y las grficas polares.

11. Medidas de tendencia central para datos agrupados


Para hacer un ejercicio de las medidas de tendencia central con una distribucin de frecuenicas de hasta diez intervalo haz click en el botn de la derecha.

12. Medidas de dispersin para datos agrupados


Un ejercicio del clculo de las medidas de dispersin con una distribucin de frecuenicas de hasta diez intervalo se puede acceder si das click en el botn de la derecha.

13. Medidas de ubicacin para datos agrupados


1997-1999. ViL & DDT Software'n'Web, Co. 1997-1999. Vctor Larios Osorio. Universidad Autnoma de Quertaro (Mxico). URL de esta pgina: http://www.uaq.mx/matematicas/estadisticas/xu3.html. ltima actualizacin: 20 de septiembre de 1999.

S-ar putea să vă placă și