Sunteți pe pagina 1din 13

SISTEMA DE

VOLUMEN
EDUCACIÓN
A DISTANCIA

INTRODUCCIÓN A LOS
MÉTODOS
ESTADÍSTICOS

SEP
1989

Material adaptado a fines didácticos para dictado de las materias: Estadística en Educación del
Prof. y Lic. en Ciencias de la Educación y Estadística I y II de la Licenciatura en Antropología de
la Universidad Nacional de Salta – Facultad de Humanidades.
Tema 3
DESCRIPCIÓN NUMÉRICA DE UN CONJUNTO DE DATOS:
TENDENCIA CENTRAL.

En el tema anterior vimos como describir la distribución de un conjunto de datos mediante las
tablas de distribución de frecuencias, o mediante representaciones graficas. Ambas nos permiten captar
cierta información con respecto a la distribución de valores de una variable.
Los aspectos que generalmente nos interesa conocer de una distribución son:
1) ¿Cuál es el valor de mayor frecuencia?
2) Si los datos tienden a acumularse hacia un valor, ¿Cuál es este valor?
3) ¿Cuál es el valor que mejor representaría a la distribución si la suma de los valores se repartiera
homogéneamente?
4) ¿Cuál es el valor central de la distribución?
5) ¿Cuál es la dispersión de los datos?
6) ¿Cuánto difieren los valores entre sí?

Como vimos en el tema anterior, las frecuencias relativas o proporciones de los valores (o de las
clases) de un distribución nos permite contestar algunas de las preguntas que hemos planteado. Podemos
decir, que las proporciones son una forma de descripción aritmética de un conjunto de datos.
Así, en el ejemplo 1.1, los valores de la variable categórica fueron “caminando” y “en algún
vehículo”, y, como usted vio en la actividad de estudio 2.1, las frecuencias relativas de los valores fueron
0.42 y 0.58 respectivamente. Ahora bien, el grupo escolar en el que se estudio la variable forma de
traslado puede ser considerado como una muestra de la población formada por todos los alumnos de la
secundaria.
Podemos entonces considerar que hemos obtenido las proporciones sobre los datos de una
muestra. Si las hubiéramos obtenido con los datos de toda la población es casi seguro que las
proporciones habrían sido distintas a las correspondientes de la muestra. Por ello, nos interesara
distinguir con símbolos a las proporciones de las poblaciones de las obtenidas a partir de una muestra. Si
en una población dada interesa conocer cierta proporción, denotaremos a esta con la letra P y diremos
que P es un parámetro de la población. Si de esta población se tiene una muestra, denotaremos a la
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

proporción muestral obtenida en ella por y diremos que es un estimador de P: con esto queremos
decir que nos da una idea del valor de P.
En el ejemplo 1.1, tenemos:
Para los alumnos que se trasladas caminando =

Y para los que utilizan algún vehículo =

Así, estas proporciones nos permiten saber que el valor de mayor frecuencia es “en algún
vehículo”. observe que si en un grupo de otra escuela se obtiene = y = se puede
decir que la forma de traslado en este segundo grupo es más homogénea que en el primero, o sea que los
datos están menos dispersos.

2
Hay otras formas de contestar las preguntas planteadas mediante números o mediante valores de
la variable. Las medidas descriptivas que nos permiten obtener respuestas a las cuatro primeras
preguntas reciben el nombre de medidas de tendencia central, y las que nos permiten contestar las
preguntas 5 y 6 se llaman medidas de dispersión.
De este modo podemos caracterizar la distribución de algunas de las variables mediante la
medida de tendencia central y la medida de dispersión. Además, y esto es tal vez lo más importante, estas
medidas descriptivas calculadas a partir de datos de una muestra permiten efectuar inferencias sobre la
población de la que proviene la muestra.
En este tema estudiaremos las medidas de tendencia central y en el próximo las medidas de
dispersión.
En el caso de las variables numéricas, una de las medidas de tendencia central más usual es el
promedio, también conocido como media aritmética o simplemente media. Recordemos con un ejemplo
cómo se obtiene el valor de la media.

Ejemplo 3.1

Supongamos que cinca niños tienen 7, 2, 3, 7 y 1 manzanas respectivamente. Para obtener la


media se suman los cinco valores obtenidos y la suma se divide entre cinco. En este caso la media es:

Una interpretación física de la media puede lograrse de la manera siguiente. Imaginemos que la
recta numérica es una varilla sin peso y consideremos el segmento comprendido entre 0 y 8. Colguemos
en los puntos asociados a cada valor tantos ganchitos de igual peso como veces se presenta dicho valor.

0 1 2 3 5 6 7 8
S S S S
S
En el punto correspondiente a 7 colgamos dos ganchitos, ya que el 7 se presenta dos veces en
nuestros datos; en los puntos correspondientes a 1, 2 y 3 colgamos un solo ganchito, puesto que cada uno
de estos valores aparece una solo vez. Si suspendiéramos la varilla de un punto, veríamos que el numero
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

asociado al punto en el que la varilla queda en equilibro coincide con el valor de la media. Entonces, si
consideramos la varilla con los ganchitos como una representación de la distribución de los datos,
podemos decir que la media es el “centro de gravedad” de la distribución.
Otra manera de interpretar la media es la siguiente: si juntáramos las manzanas de los cinco niños
y las repartiéramos equitativamente, a cada niño le correspondería una cantidad de manzanas igual al
valor de la media.
Podemos observar que, en este caso, a pesar de que el valor de la media, 4, no aparece en
nuestra colección de datos, nos da información acerca de esta colección, permitiéndonos responder a las
preguntas 3 y 4.
Veamos ahora otro ejemplo.

Ejemplo 3.2

3
En el ejemplo 2.3, vimos que los datos obtenidos por una trabajadora social al estudiar la variable
número de hijos en cada familia fueron:
8 4 7 4 5
10 3 5 2 4
2 9 4 6 2
5 6 8 3 6
0 11 6 7 4
6 4 4 5 0
3 2 3 4 8
8 5 9 7 5
4 3 5 10 3
7 9 8 6 9

La media del número de hijos en cada familia es de 5.36, puesto que

Es decir, las familias que atiende la trabajadora social de nuestro ejemplo tienen, en promedio,
5,36 hijos. Es obvio que este número no es un valor de la variable, puesto que los hijos son unidades
enteras y no tiene sentido hablas de 0,36 de hijo. Sin embargo, este número nos da información acerca
del conjunto de datos (el número promedio de hijos por familia está alrededor de 5).
Cada vez que se calcula un promedio se deben sumar todos los datos y luego dividir la suma
obtenida entre el numero de datos. Ahora veremos que existe una manera más breve para indicar las
operaciones por realizar. Observemos que el dato correspondiente a la primera familia es 8, el
correspondiente a la segunda es 10, y así sucesivamente. De esta forma se establece una relación entre
los números naturales del 1 a 50 y los 50 datos obtenidos, donde los números naturales del 1 a 50 señalan
el orden en que se obtuvieron los datos. Si denotamos por X la variable número de hijos, tenemos:
Valor de la
Familia Variable X
1 8
2 10
3 2
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

. .
. .
. .
49 3
50 9

Esta relación nos permite denotar los valores de la variable con x1 , x2 , x3 , ….., x49 y x50 ,
respectivamente. Es decir, x1 = 8 es el valor que toma la variable X en la primera familia, x 2 =10 el que toma
en la segunda, etc. Como la decima familia observada tuvo 7 hijos, tenemos que x10 =7. Entonces el cálculo
de la media es:

4
Y en la relación anterior se puede expresar de la manera siguiente:
Valor de la
Familia Variable X
1 x1 = 8
2 x2 = 10
3 x3 = 2
. .
. .
. .
49 X49 = 3
50 X50= 9

Una forma general de expresar esta relación es:


i xi
donde i representa a cualquier numero natural entre 1 y 50 inclusive. A i se le da el nombre de subíndice.
Esta simbología nos permite expresar la suma.

x1 + x2 + x3 + ….. + x49 + x50


en la forma abreviada

Que se lee “ la suma desde que i es igual a 1 hasta que i es igual a 50 de las equis i”
Entonces,
= x1 + x2 + x3 + ….. + x49 + x50

Y el número promedio de hijos por familia en nuestro ejemplo es:


= 5,36 hijos

Antes de seguir adelante en nuestro estudio de la media, le proponemos dos actividades de estudio para
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

que se familiarice con esta notación.

3.1 Encuentre los valores de cada una de las xi en el ejemplo 3.2


ACTIVIDAD
DE
ESTUDIO

3.2 Considere los siguientes números:

x1 = 7, x2 = 5, x3 = 6, x4 = 6

5
Calcule:

a)

b)

c)

d)

e) (

f) [

Continuemos ahora con el estudio de la media.

Si x1 , x2 ,…xn son los n valores de una variable X obtenidos en una


muestra, denotamos su media por , y tenemos:

=
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

Observe que n es un numero que representa el tamaño de la muestra, por lo que no tiene unidad
de medida, mientras que las xi son los valores de una variable, misma que sí tiene (implícita o
explícitamente), unidad de medida. Así, por ejemplo, si la X es la variable peso de las alumnas de un
grupo, sus valores xi se expresarán comúnmente en kg, y la media se expresará también en kg. Es decir,
la media se expresa con la misma unidad de medida que la de la variable.
Como en el caso de las proporciones, la media de una muestra nos permite tener una idea acerca
de la media de la población, sin que por ello ambas deban coincidir. Para distinguir la media muestral de
la media poblacional usamos distintos símbolos: denotaremos por la media de una muestra y cuando
nos refiramos a la media de la población la denotaremos con la letra griega µ (mu).

Si x1 , x2 ,…xN son los N datos de una población, su media es:

6
µ=
Observe que indicamos el tamaño de la muestra con n y el tamaño de la población con N.

Se dice que la media µ de una población es un parámetro de la población. Si es un estimador de


µ, porque nos da una idea del valor de µ. En general, mientras más grande sea el tamaño de la muestra,
la media muestral ( diferirá de la media de la población (µ).

3.3 supongamos que los tiempos empleados por una muestra de 10 alumnos de
un grupo para resolver un examen son: ACTIVIDAD
DE
70 min, 90 min, 60 min, 80 min, 85 min, ESTUDIO

55 min, 72 min, 68 min, 70 min, 88 min.

Calcule la media de esta muestra.

3.4 las calificaciones de los 53 alumnos en el examen diagnostico del ejemplo 1.6 pueden ser
consideradas como la población de interés, si al profesor solo le preocupa medir hasta que punto
manejaba el grupo los temas del examen. Calcule la media de los datos presentados en la actividad de
estudio 2.4 exprese el resultado con la simbología adecuada.
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

Veremos ahora como se puede calcular la media de un conjunto de datos que están presentados en una
tabla de distribución de frecuencias o en un histograma. Para ello, consideremos un ejemplo.

Ejemplo 3.3

El siguiente histograma representa la distribución de las puntuaciones de una prueba de


razonamiento abstracto que un profesor le aplico a su grupo:

7
16
14
12

frecuencia
10
8
6
4
2
0
// 1 45 2 50 3 55 4 60 5 65 6 70 7
Puntuación

Fig. 3.2

Supongamos que el profesor extravió el cuaderno en el que tenia anotados las puntuaciones
obtenidas por los alumnos, y que ahora desea conocer el promedio de ellas, aunque sea
aproximadamente a partir del histograma. El valor distintivo o representativo de cada intervalo es el valor
medio de este, si suponemos que todos los valores que caen en un intervalo del histograma están bien
representados por el valor medio de ese intervalo. En nuestro ejemplo, el valor distintivo o el valor medio
del intervalo [45, 50> es:

= 47,5

Y para los demás intervalos se tiene:

Intervalo valor medio

[50, 55> 52,5

[55, 60> 57,5

[60, 65> 62,5

[65,70> 67,5

Observe que en el histograma anterior se han señalado los puntos correspondientes a los valores
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

medios.
Para obtener una aproximación al promedio, podemos considerar que el valor medio de cada
clase aparece el número de veces que indica la frecuencia de esa clase. Es decir:

3 veces el valor 47,5

5 veces el valor 52,5

12 veces el valor 57,5

14 veces el valor 62,5

10 veces el valor 67,5

8
Así,

Es una aproximación de la media que se deseaba conocer.

3.5 El histograma siguiente corresponde a la distribución de las calificaciones


ACTIVIDAD
DE obtenidas por un grupo de alumnos en una prueba de historia.
ESTUDIO

14

12

10
frecuencia

0
// 1 60 2 66 3 72 4 76 5 84 6 90 7 90

calificaciones

Calcule aproximadamente la media de estas calificaciones.


INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

9
Otras medidas de tendencia central

Aunque a lo largo de este curso usaremos la media como medida de tendencia central, en los
reportes de periódicos y revistas suelen aparecer otras como la moda y la mediana, por lo que es
necesario saber a qué se refieren estas.

La moda de un conjunto de datos es el


valor (o los valores) de la variable que
se presenta (n) con mayor frecuencia.

La moda es una medida de tendencia central que se puede aplicar a variables categóricas y
numéricas. Veamos un ejemplo.

Ejemplo 3.4
En el ejemplo 1.2 una maestra de una escuela primaria tenía interés en conocer la materia de
preferencia de sus alumnos entre Matemáticas, Ciencias Sociales, Ciencias Naturales y Español.
Supongamos ahora que esto le interesaba, sobre todo, en relación a diez de sus alumnos, en los que había
detectado problemas de aprendizaje. Los datos obtenidos, al consultar a los diez alumnos, son:
M, CN, CS, E, E, M, CN, M, E, M.
La moda de esta colección es M ya que es el valor que aparece con más frecuencia.
Supongamos ahora que la maestra decidió consultar a otro alumno mas y que los datos que
obtuvo fueron los siguientes:
M, CN, CS, E, E, M, CN, M, E, M, E.
Podemos observar que esta colección de datos tiene dos modas, que son M y E, ya que ambos
aparecen con la misma frecuencia. Esta observación nos permite concluir que la moda no necesariamente
es única. Cuando los datos están agrupados en intervalos, la moda es la clase de mayor frecuencia.

La mediana de una colección de datos es el valor (o los


valores) de la variable que ocupa(n) el(los) lugar(es)
central(es) cuando se han colocado los datos en orden
de magnitud
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

La mediana es una medida de tendencia central que se puede aplicar a variables categóricas
ordinales y a variables numéricas.

Ejemplo 3.5
En una escuela rural, se vio que las distancias en km recorridas por siete alumnos de su casa a la
escuela fueron:
1 km, 0,5 km, 2 km, 4 km, 1,5 km, 3,5 km, 3 km.
Al ordenar estos datos de menor a mayor se obtiene
0,5 km, 1 km, 1,5 km, 2 km, 3 km, 3,5 km, 4 km.

10
Y la mediana de los datos es 2 km puesto que hay tres valores menores que 2 km y tres mayores.
Cuando el numero de datos es par, se tiene dos valores centrales, en cuyo caso puede sucede que
la mediana no sea única. Si la variable es numérica, se puede decir que la mediana es el promedio de los
dos valores centrales. Si se hubiera obtenido en nuestro ejemplo un octavo valor de 4 km, los dos valores
centrales serían 2 km y 3 km, y la mediana de la colección de datos podría ser

Observe que el valor de la mediana no se ve afectado por valores extremos de la variable. En el


ejemplo 3.5, la mediana de los siete valores habría sido la misma si el valor menor hubiera sido 0,02 km y
el mayor 11,3 km. Sin embargo, es claro que la media si habría cambiado.

3.6 En el mercado existen cinco marcas de semillas de maíz mejorado, A, B, C,


ACTIVIDAD
D, E. En una región del sureste del país, se consulto a 20 campesinos con el objeto
DE
de conocer cuál es la marca de su preferencia. El resultado de la encuesta ESTUDIO
proporciono los datos siguientes:

A C D B
E D E B
B A A E
C B D E
E A A C

Encuentre la moda de esta colección de datos.

3.7 se eligieron 12 alumnos de un grupo de 5º grado de primaria, y se les practico una evaluación de
conocimientos de aritmética. Los tiempo empleados (en horas y decimos de hora), por cada alumnos en la
solución de la evaluación fueron:
2.0 hs, 1.5 hs, 1.0 hs, 1.8 hs, 1.6 hs, 2.1 hs,
1.6 hs, 1.1 hs, 1.7 hs, 2.0 hs, 1.2 hs, 1.4 hs.

Calcule la mediana de estos datos.


INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

Cada una de las medidas de tendencia central que hemos visto (media, moda y mediana) expresa
distintos aspectos de la distribución de un conjunto de datos. Veamos esto en un ejemplo.
Supongamos que queremos describir con una medida de tendencia central los salarios de los
empleados de una fabrica. Unas de las medidas que podríamos utilizar es la media. Como la media se
obtiene sumando todos los salarios y dividiendo la suma entre el número total de empleados, entonces el
salario promedio es el que percibiría cada empleado si el monto total de los saliros se repartiera
equitativamente.

11
También podríamos utilizar la moda, que indica que es el salario percibido por un mayor número
de empleados.
Por otra parte, la mediana es el salario tal que la mitad de los empleados percibe por lo menos
este salario y la otra mitas cuando mucho dicho salario.

3.8 En general, la mayoría de los saliros de los empleados en las fabricas son bajos,
ACTIVIDAD mientras que pocos empleados perciben salarios altos. Supongamos que un
DE
ESTUDIO reportero visita una fabrica y que entrevista tanto al gerente de la fabrica como al
delegado sindical. A cada uno le pregunta cuál es el salario más representativo de
los empleados de la fabrica. ¿Qué medida de tendencia central cree usted que usaría cada uno? ¿Por
qué?

3.9 Un maestro aplica un examen a sus alumnos y obtiene la siguiente grafica de barras para la calificación
(se considera aquí que esta es una variable numérica discreta).
14
12
10
frecuencia

8
6
4
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

2
0
0
1 21 2
3 34 54 5
6 76 7
8 98 9
10 10
11

Calificación
Fig. 3.4
a) ¿Qué valor de la variable es la moda?

b) Haga una lista de las calificaciones obtenidas por los alumnos ¿Cuál es la mediana?

12
c) Calcule la media de los datos

d) Compare los resultados obtenidos en los incisos anteriores. ¿Cómo se interpreta cada uno?

Hemos visto que cada una de las tres medidas de tendencia central tiene una interpretación
especifica. Así mismo, vimos que la moda es la única de ellas aplicable a datos provenientes de variables
categóricas nominales, y que le mediana puede ser útil cuando se desea una medida que no se vea
afectada por valores excesivamente grandes o pequeños.
La característica principal que tiene la media como medida de tendencia central de los datos de
una muestra es que permite hacer inferencias sobre la población. Es por ello que en adelante nos
referiremos exclusivamente a ellas.
INTRODUCCIÓN A LOS MÉTODOS ESTADÍSTICOS

13

S-ar putea să vă placă și