Sunteți pe pagina 1din 169

Y DE ESTUDIOS AVANZADOS

CENTRO DE INVESTIGACION

DEL INSTITUTO POLITECNICO


NACIONAL

DEPARTAMENTO DE MATEMATICA
EDUCATIVA

ESTADISTICA EN LA EXPERIMENTACION
EDUCATIVAS
Y EVALUACION
J. A. Riestra Vel
azquez

PROVISIONAL:
Segunda edicion 1985. Version preliminar.
Departamento de Matematica Educativa, CINVESTAV del IPN.
Revision Academica: C. Armando Cuevas V. y Gonzalo Zubieta B.
Impreso y hecho en Mexico.
Derechos reservados.


INDICE
ESTAD
ISTICA DESCRIPTIVA E INFERENCIAL

1. Medicion . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Agrupacion de datos. Distribuciones de frecuencia

. . . . . . .

Una tecnica para la agrupacion de datos en clases


de igual tama
no (caso continuo) . . . . . . . . . . . . . 15

Complemento a los captulos 1 y 2 . . . . . . . . . . . . . . . . 21


3. Medidas de tendencia central . . . . . . . . . . . . . . . . . 35
4. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . 51
5. Nociones de probabilidad. Distribuciones teoricas . . . . . . . . 63
6. Distribuciones Continuas. Distribucion Normal . . . . . . . . . 79
7. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . 93

Distribuciones normales en general

. . . . . . . . . . .

100

Distribucion normal acumulada . . . . . . . . . . . . .

105

Ajuste de distribuciones normales


a distribuciones empricas . . . . . . . . . . . . . . .

109

8. Una Escala de Intervalo para Reactivos

. . . . . . . . . . .

115

9. Independencia y Dependencia de Variables. . . . . . . . . . .

121

Correlacion Lineal

. . . . . . . . . . . . . . . . . .

130

Obtencion del Coeficiente de Correlacion. Un punto


de vista vectorial . . . . . . . . . . . . . . . . . . .

137

Algunos resultados teoricos . . . . . . . . . . . . . . .

140

Ejercicios y problemas . . . . . . . . . . . . . . . . .

151

Concepto de confiabilidad . . . . . . . . . . . . . . .

153

Teora clasica de la confiabilidad en la medicion . . . . . .

156

10. Presentacion esquematica de la experimentacion

. . . . . . .

161

Medici
on
CAPITULO 1:

MEDICION.

En la evaluacion, la medicion juega un papel importante. Conviene se


nalar
dos etapas en el proceso de la medicion. La primera se refiere al dise
no
y la elaboracion de los aparatos de medicion. La segunda, tiene que ver
con la transformacion de los resultados crudos, que arrojan los aparatos de
medicion, en informacion u
til (la cual pueda, a su vez, servir de base para
interpretacion, la cual la convertira en juicios y conclusiones valorativos).
A este respecto, posteriormente seran introducidos lenguaje, conceptos y
tecnicas afines o propios de la estadstica matematica, los cuales resultaran
u
tiles en ambas etapas.
Para fijar ideas, cuando se habla de aparatos de medicion, se esta refiriendo
usualmente, aunque no necesariamente, a pruebas o examenes (tests). Los
resultados crudos, de los que se hablo, seran entonces los puntajes directos
(no procesados) que se obtienen en la prueba.
Puesto que el manejo o procesamiento (en el cual interviene la Estadstica)
de los resultados o puntajes crudos, depende de la escala con la cual se realizo
la medicion, este tema sera expuesto en primer termino.
Cuando se habla de medicion, generalmente se piensa en acciones como la
de encontrar la longitud de un objeto valiendose de una cinta metrica. El
termino medicion se emplea muy com
unmente para designar la estimacion de
una dimension o una extension. Esta es, en realidad, una idea muy limitada
del termino; se miden asimismo pesos, densidades, etc. Sin embargo, en todo
caso, es casi seguro que el temino solo sugiera la medicion como es concebida
en las ciencias fsicas, a saber, la asignacion de n
umeros a observaciones.
Esta u
ltima concepcion es seguramente tan dominante que, a menudo, en las
Ciencias Sociales se procede copiando a este modelo, sugerido por la Fsica,
en forma poco crtica al medir variables sociales.
Conviene aclarar, sin embargo, que puede existir una diferencia importante
en el sentido en el cual los n
umeros asignados representen verdaderamente a
las observaciones, en el caso de variables fsicas por un lado y de variables
sociales, por el otro. Cuando se miden variables fsicas, los n
umeros obtenidos son significativos en el sentido de que es posible al manipularlos (p. ej.
aritmeticamente) obtener nueva informacion. Mas precisamente, la adecuaci
on de los n
umeros a las cantidades fsicas que miden, es tan perfecta que,
por ejemplo, la estructura aritmetica de los n
umeros tiene su correspondiente
en las variables observadas; as, si un objeto pesa 1kg. y otro 2kg., los dos
juntos pesaran seguramente 3kg. (puesto que 3 = 1 + 2). Puede decirse, en
1

Medici
on
este sentido, que las variables fsicas tienen una naturaleza verdaderamente
numerica. Este no es ciertamente el caso para muchas variables sociales.
Para poner un ejemplo trivial, pensemos en la medicion del estado civil de
ciertos individuos. Aqu la medicion consiste, en realidad, en clasificar a los
individuos seg
un su estado civil: soltero, casado, viudo, divorciado, etc. Uno
podra, por supuesto, asignar claves numericas a las clasificaciones; digamos
1 a soltero, 2 a casado, 3 a viudo, etc. Del hecho de que 1 < 2 < 3,
no se sigue, claro esta, que soltero sea menor o inferior a casado, que este
u
ltimo sea menor o inferior a viudo, ni nada del estilo. En otras palabras,
estas claves numericas para las clasificaciones no hacen a la variable social
estado civil, una variable numerica.
En vez de hablar de variables verdaderamente numericas o aparentemente
numericas, se suele hablar, m
as tecnicamente, del nivel alcanzado en la medici
on o del nivel alcanzado en la escala de medicion. Dicho nivel se especifica
clasificando el tipo de escala de medicion; clasificacion que ahora veremos.
LA ESCALA NOMINAL.

Representa la medicion en su nivel mas bajo. Nuestra


medicion esta al nivel de una escala nominal, cuando sencillamente se clasifican objetos, sujetos o sus atributos, empleando para ello smbolos o n
umeros,
los cuales juegan simplemente el papel de nombres. La lista de tales nombres
constituye la llamada escala nominal.
Cuando una persona, quien realiza una encuesta, clasifica a los maestros
entrevistados en relacion a su actitud para con sus alumnos como hostil,
amistoso o indiferente, esta empleando simplemente un nombre para
designar la categora o clase, a la cual, el maestro entrevistado, pertenece;
est
a empleando por tanto una escala nominal. Sera en realidad difcil, por
ejemplo, establecer una relacion de orden en tales clasificaciones: Es mejor
hostil que indiferente, o al contrario? Seguramente la respuesta depende del
caso particular y de sus circustancias especiales.
En el ejemplo precedente, pudieron igualmente haberse empleado smbolos
como H, I, A en vez de hostil, indiferente y amistoso sin alterar
esencialmente a la escala. Mas precisamente, una escala nominal es u
nica
excepto por transformaciones biunvocas.
Desde el punto de vista matematico, la escala nominal simplemente crea una
particion en clases de la coleccion de personas u objetos clasificados o medidos. Dentro de cada clase (o sea la coleccion de objetos o sujetos que caen
en determinada clasificacion), los individuos u objetos se consideran equivalentes. En el ejemplo visto, tenemos la clase de los maestros hostiles, la
clase de los indiferentes, etc. Aunque en una misma clase, digamos la de
2

Medici
on
los hostiles, existan diferencias entre dos maestros, la escala los considera
equivalentes. Esto tiene mucho sentido si uno desea estudiar en forma sistem
atica o estadstica las relaciones personales entre maestros y alumnos. Si se
va al extremo de considerar a cada maestro como un caso u
nico, el estudio
se vuelve probablemente imposible o, en todo caso, infructuoso. Aunque la
escala nominal se utiliza en condiciones pobres de medicion, puede resultar
verdaderamente u
til.
Consecuencia de la naturaleza particular de una escala nominal, es que solo es
admisible el empleo, para las variables por ella medidas, de estadsticos (que
veremos mas adelante) como frecuencia, moda, etc.; ya que estos u
ltimos no
se alteran por los nombres o smbolos empleados en la escala, siempre que
sean intercambiados de modo biunvoco.
Una escala ordinal es una escala clasificatoria como
la nominal, pero en ella se tienen ademas relaciones (jerarquicas) entre una
categora y otra del estilo: superior a, preferido a, mejor que, etc., las cuales,
se denotan con el smbolo > (el cual significa literalmente mayor que,
pero se emplea seg
un el contexto como superior a, preferido a, etc.).
LA ESCALA ORDINAL.

Un ejemplo de este tipo de escalas es el sistema de rangos o grados en la


milicia: teniente > sargento > cabo.
Puesto que cualquier transformacion que preserve el orden no cambia la informacion contenida en una escala ordinal, estas son u
nicas excepto por tales
transformaciones (llamadas monotonas). As
una escala ordinal dada por: 1, 3, 5, 7
puede ser sustituida por:
0, 1, 7, 11
(se entiende que 1 se cambia por 0, 3 por 1, etc.).
Como medida descriptiva estadstica para estas escalas, ademas de las mencionadas para las nominales, podemos citar a la mediana (que se vera mas
adelante).
Como comentario final a este respecto, a las clases o categoras de una escala
ordinal se les suele llamar rangos.
Cuando la escala goza de las propiedades de
una escala ordinal y ademas las distancias entre dos marcas o n
umeros en la
escala son conocidas y significativas (en un sentido que aclararemos adelante)
tenemos una escala de intervalos. Una escala de intervalos se caracteriza por
una unidad uniforme de medida. Para aclarar esto u
ltimo, si los n
umeros
LA ESCALA DE INTERVALOS.

Medici
on
2, 4, 7, 9 dan la magnitud de cierta caracterstica de los objetos A, B, C, D
en una escala de intervalos, podemos decir que la diferencia entre A y B (de
esta caracterstica) es la misma que entre C y D. Tambien que la diferencia
entre B y C es 1.5 veces la diferencia entre A y B. En esta clase de medicion,
la relacion de cualesquiera dos intervalos es independiente de la unidad de
medida y del punto cero. En una escala de intervalos, la unidad y el punto
cero son arbitrarios (pero una vez elegida una unidad, esta es uniforme en
toda la escala).
Las temperaturas, por ejemplo, se miden en escalas de intervalos. Si se
comparan las escalas Celsius y Fahrenheit se vera que se transforman la una
en la otra por un cambio de origen (translacion) seguido (o precedido) por
un cambio de unidad (homotecia)
C=

5
(F 32)
9

F =

9
C + 32
5

los orgenes (punto de congelacion del agua y temperatura de una mezcla


de nieve y sal com
un, respectivamente) fueron convencionalmente elegidos,
lo mismo que las unidades (grados). Las escalas de intervalos son u
nicas
excepto por transformaciones afines (x 7 ax+b, a > 0). Suelen ser asociados
n
umeros a las posiciones de la escala de tal manera que las operaciones de
la aritmetica pueden efectuarse significativamente con las diferencias entre
estos n
umeros.
Todas las medidas estadsticas parametricas comunes, p. ej. media aritmetica,
desviacion estandar, son aplicables en una escala de intervalos.
O PROPORCION.

LA ESCALA DE RAZON

Es una escala con las caractersticas


de una escala de intervalos, pero que ademas posee un verdadero punto cero
como origen. En una escala de razon, la proporcion o razon entre dos puntos
de la escala es independiente de la unidad de medida. Una escala de razon
es u
nica excepto por transformaciones lineales (x 7 ax; a > 0). Por ejemplo,
la medicion de masas o pesos se hace en una escala de razon. La razon de la
masa de un cuerpo a la masa de otro es independiente si la escala esta en gr.,
kg., lb., etc. Si los n
umeros 2, 4, 7, 9 representan la magnitud de un atributo
de los objetos A, B, C, D al nivel de una escala de razon, sabemos que B tiene
dos veces el atributo que tiene A; D tiene 4.5 veces el atributo que A tiene, C
tiene 1.75 veces el atributo que B tiene, etc.

Medici
on
CONTROL DE LECTURA

1. En el texto, a que nos referimos cuando hablamos de aparatos de medicion?


2. Cuales son las dos etapas (mencionadas en el texto) del proceso de
medicion?
3. En las ciencias fsicas, que significa, usualmente, medir?
4. De un ejemplo de medicion (distinto al del texto) el cual no arroje resultados numericos.
5. A traves de que concepto se especifica el nivel de medicion alcanzado?
6. Que niveles de medicion se mencionan en el texto?

EVALUACION

1. Para cada uno de los siguientes ejemplos, especifique la escala de medicion correspondiente:
a) Lugar obtenido en una competencia deportiva.

. . . . .

b) Lugar de nacimiento.

. . . . .

c) Indice de mortalidad infantil de una poblacion (en %).

. . . . .

2. En una escala de intervalos es posible intercambiar las categoras -3, 0,


3, 4, 6 por -3, 0, 3, 4, 5, respectivamente.
V

3. En una escala ordinal es posible intercambiar las categoras -3, 0, 3, 4,


6 por -3, 0, 3, 4, 5, respectivamente.
V

4. En una escala de intervalos es posible intercambiar las categoras -3, 0,


3, 4, 6 por 0, 6, 12, 14, 18, respectivamente.
V

Medici
on
5. En una escala de razon es posible intercambiar las categoras -3, 0, 3, 4,
6 por 0, 6, 12, 14, 18.
V

6. Las clases o categoras en una escala ordinal se denominan: . . . . .


7. Si un cierto atributo medido al nivel de escala de intervalos arroja para
los sujetos A, B, C, D los resultados 1, 2, 4, 6 respectivamente, puede
asegurarse que:
a)

posee el atributo en mayor grado que


V

b)

posee el atributo doblemente que

excede en el atributo a

y que

c)

B
F

en el doble de lo que excede

8. Un maestro elabora un examen consistente en 20 preguntas. El alumno


A.A. obtiene 12 aciertos y el alumno B.B. obtiene s
olo 6.
Este examen pretenda medir el aprovechamiento de los alumnos en el
tema X.
El maestro argumenta que, puesto que 12 = 2 6 (12 es el doble de 6)
es una verdad matematica incontrovertible, el alumno A.A. tuvo el doble
de aprovechamiento que B.B.
Es el juicio del maestro correcto?

Medici
on
RESPUESTAS

1. a) ordinal

b) nominal

c) de razon

2. Falso. (La unidad de medida es uniforme en una escala de intervalos y


no elastica, como se requirira para contraer los valores 4 y 6 a 4 y 5,
dejando las diferencias restantes sin cambio).
3. Verdadero. (El orden, que es lo u
nico que importa, se preserva bajo el
intercambio).
4. Verdadero. (Se trata de la transformacion x 7 2x + 6).
5. Falso. (Vease 4, y recuerde que en el caso de escalas de razon no se
admiten translaciones, pues existe un verdadero origen).
6. Rangos.
7. a) Verdadero.

b) Falso.

c) Verdadero.

8. Difcilmente. De la relacion: 12 es el doble de 6, puede concluirse con


certeza que A.A. contest
o acertadamente al doble de las preguntas que
B.B., pero no necesariamente que aprovech
o el doble. Los n
umeros
asignados miden la cantidad de aciertos, con certeza, pero no necesariamente la cantidad de aprovechamiento. Para que el juicio del
meastro fuese correcto, se requerira que los n
umeros asignados midieran el aprovechamiento a nivel de escala de razon. Esto u
ltimo implicara
que acertar en dos preguntas corresponde al doble de aprovechamiento
que acertar en una. Luego, todas las preguntas deben tener exactamente
(o muy aproximadamente) el mismo nivel de dificultad (cosa, en verdad, difcil!) y ademas en esas 20 preguntas se debe haber cubierto todo
el aprovechamiento posible respecto al tema X (si alguien no acierta a
pregunta alguna, obtiene 0; luego, debio aprovechar exactamente nada;
etc, etc.).

Agrupaci
on de datos. Distribuciones de frecuencia.
CAPITULO 2:

DE DATOS.
AGRUPACION
DISTRIBUCIONES DE FRECUENCIA.

En un sentido clasico, la estadstica podra ser definida como la ciencia que


trata del procesamiento de datos. Incluye la toma de datos, su recopilacion y
el analisis de los mismos; derivando de este u
ltimo, conclusiones o decisiones
razonables.
Que son los datos?
Los datos son los resultados concretos que arroja una medicion. Pueden
tener un caracter numerico o no numerico. Cuando medimos las estaturas
de una coleccion de personas, utilizando para ello una cinta metrica, cuya
escala este graduada en cm., los datos as obtenidos (estaturas en cm.) son
numericos. Cuando medimos el estado civil de una coleccion de personas,
de acuerdo a una escala nominal, cuyas clasificaciones sean: soltero, casado, union libre, viudo, divorciado; los datos as obtenidos son no numericos.
Aunque empleasemos claves como 1, 2, 3, etc., para designar soltero, casado,
uni
on libre, etc., respectivamente, no cambiaramos la naturaleza no numerica de los datos; los n
umeros solo estaran jugando el papel de nombres, al
no cuantificar ni jerarquizar cosa alguna.
El proposito de medir es el de establecer el valor, o la posible determinacion de
una variable en un individuo particular. Suele decirse que medimos variables.
En los ejemplos anteriores, las variables en consideracion eran: ESTATURA
EN CM. y ESTADO CIVIL, respectivamente.
Que es una variable?
Una variable puede ser definida como un atributo en el cual los individuos
difieren entre s. El termino individuo, debe entenderse en un sentido muy
amplio: personas, animales u objetos. Las variables pueden ser atributos
tan concretos como estatura, peso, etc., o tan nebulosos como sensibilidad
musical, tacto o buen gusto. Cuando se trata de atributos tan evasivos
como inteligencia o aprovechamiento, es frecuente que el investigador o el
docente defina operativamente la variable en cuestion a traves del desempe
no
en una cierta prueba o en un examen. As, la inteligencia puede por ejemplo,
ser definida operativamente como el puntaje obtenido por el alumno en el
Test X.
Que nos comunican los datos?
Los metodos estadsticos son frecuentemente empleados en educacion, debido
a que nos permiten escribir en forma resumida o a golpe de vista colecciones de datos. Supongase que se ha realizado un examen en un grupo de
9

Agrupaci
on de datos. Distribuciones de frecuencia.
31 alumnos; consistiendo de 10 reactivos del tipo verdadero-falso. El desempe
no de un alumno siendo juzgado por el n
umero de reactivos contestados
correctamente. El desempe
no de los 31 alumnos se describe en la siguiente
lista:
2
6
8

3
6
8

3
6
8

4
6
9

4
7
9

5
7
9

5
7
10

5
7
10

5
7
10

6
8

6
8

As, un alumno respondio correctamente 2 reactivos, otro 3, otro 3, otro 4,


etc. Para que tal informacion resulte mas u
til, manejable o comunicable, los
datos pueden ser organizados en una tabla:
N
umero de
reactivos
correctos
0
1
2
3
4
5
6
7
8
9
10

Frecuencia

Frecuencia
relativa

Frecuencia
acumulada

0
0
1
2
2
4
6
5
5
3
3

0
0
3
6.5
6.5
13
19
16
16
10
10

0
0
1
3
5
9
15
20
25
28
31

%
%
%
%
%
%
%
%
%
%
%

Frecuencia
acumulada
relativa
0
%
0
%
3
%
10
%
16
%
29
%
48
%
64.5 %
81
%
90
%
100
%

Distribuci
on de frecuencias de la variable:
n
umero de reactivos correctos
En la tabla, cada renglon corresponde a una categora de la variable en
cuestion. De hecho, las categoras estan constitudas por los valores posibles
de tal variable: 0, 1, 2, . . ., 9, 10. Con el termino FRECUENCIA se designa el
n
umero de datos que caen en una categora o clasificacion. As, en el sexto
renglon, que corresponde al valor 5 de la variable, la frecuencia (de ocurrencia
del valor 5) es 4, como puede verse en la lista, pues en ella el 5 aparece
en cuatro ocasiones. Con FRECUENCIA RELATIVA se designa la fraccion o
proporcion de los datos que caen en una categora dada. Tomando como
ejemplo de nuevo a la sexta categora (sexto renglon de la tabla), observamos
que de 31 datos el valor 5 aparece cuatro veces; luego, la frecuencia relativa
10

Agrupaci
on de datos. Distribuciones de frecuencia.
es 4/31 = 0.129 (aprox.) o sea el 12.9%, la cual hemos redondeado a 13% en
la tabla. La frecuencia relativa puede expresarse como un n
umero entre 0 y
1, o bien en por ciento. Con FRECUENCIA ACUMULADA se designa al n
umero
de datos que caen en la categora dada o en cualquiera de las anteriores. As,
tomando la sexta categora, la cual corresponde al valor 5, vemos que un total
de 0+0+1+2+2+4 = 9 datos caen en las categoras de la primera a la sexta
(vease la segunda columna de la tabla o la lista). Estrictamente hablando,
la frecuencia acumulada es, en el ejemplo anterior, el n
umero de datos que
son menores o iguales que 5. La FRECUENCIA ACUMULADA RELATIVA es la
proporcion de la frecuencia acumulada al total de los datos. Siguiendo con
nuestro ejemplo: 9/31 = 0.290 o sea el 29%.
Si hubiesemos hecho una tabla con solo las dos primeras columnas de la
tabla anterior, obtendramos una Distribucion de Frecuencias (a secas) de la
variable. Si formamos otra con la primera y tercera columnas, obtenemos
una Distribucion de Frecuencias Relativas. Si utilizamos solo la primera y la
cuarta columnas, obtenemos una Distribucion de Frecuencias Acumuladas,
etc.
Las distribuciones de frecuencias suelen representarse graficamente en forma
de histogramas, polgonos de frecuencia y polgonos de frecuencia acumula
da. Estos
se ilustran a continuacion para los datos de la pag. 10, seg
un la
tabulacion anterior.
El Histograma se forma del siguiente modo: En el eje horizontal se describen
las categoras. Con base en cada categora, se levantan rectangulos cuya
altura es igual a la frecuencia (relativa o no) correspondiente a la categora:
19%
f
r 16%
e
c
u 13%
e
n 10%
c
i 6.3%
a
3%

6
5
4
3
2
1
0

9 10

Histograma
El polgono de frecuencias se forma uniendo los puntos medios de las tapas
(o lados paralelos a las bases) de los rectangulos, de tal forma que el area
11

Agrupaci
on de datos. Distribuciones de frecuencia.
total de los rectangulos del histograma es igual al area bajo el polgono as
formado. Se notara que en los extremos se suponen rectangulos de altura
cero con igual base que los restantes. En nuestro ejemplo, el polgono de
frecuencia se obtiene teoricamente uniendo los puntos (0, 0), (1, 0), (2, 1),
(3, 2), (4, 2), (5, 4), . . ., (10, 3) y (11, 0) donde en cada pareja la primera
coordenada representa el valor central de la variable (en una categora dada),
y la segunda, la frecuencia correspondiente:
f
r
e
c
u
e
n
c
i
a

6
5
4
3
2
1

.......
..
.
..........
..............................
.
.
...
.

.

.
.. ...
.....
........
.

.
. ..
......
.........................
...
.
....
.

.....
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

...
....
.........
.........
.
.

.
.
...
...
.........
.......
.........
.
.
.

0 1 2 3 4 5 6 7 8 9 10 11
Polgono de frecuencia
Por u
ltimo, el polgono de frecuencia acumulada, se obtiene uniendo las parejas formadas por el valor del extremo superior (en cada categora) y la
frecuencia acumulada (relativa o no) correspondiente, en ese orden. En nuestro caso uniendo las parejas (1.5, 0), (2.5, 1), (3.5, 3), (4.5, 5), . . . , (9.5, 28) y
(10.5, 31) [o bien uniendo las parejas (1.5, 0%), (2.5, 3%), (3.5, 10%), . . . ] que
corresponden a la primera y cuarta columnas (resp. por la primera y quinta
columnas):
f
r
e
c
u 100% 31
..
...
......
e
.......
.......
.
.

.
.
.
.
.
n
........
.......
c
....
25
.....
.
.
.
.
75%
i
....
.....
.....
.
a
20
.....
.
.
.
.
..
.....
a
.....
....
50% 15
c
...
.
.
..
u
....
....
.....
m
.
.
.
.
.
9
.....
u
.....
25%
......
.......
.
.
.
.
.
.

.
.
.
l
5
...
..........
....
a
.........
.........
....................
....................
d
a
0 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5
Polgono de frecuencia acumulada
Comentamos finalmente que lo que hemos llamado categoras o clasificaciones, son llamadas clases. En nuestro ejemplo, cada clase estaba definida por
un u
nico valor de la variable y estaba denotada precisamente por ese valor
12

Agrupaci
on de datos. Distribuciones de frecuencia.
numerico. Estas clases constituyen la primera columna de la tabla de la pag.
10.
Veamos otro ejemplo. Un maestro de matematicas desea conocer la aptitud matematica de sus alumnos. Hablando tecnicamente, el desea medir la
(variable) aptitud matematica de sus estudiantes. Puesto que la variable
aptitud matematica resulta bastante vaga en su significacion, el maestro
la define operativamente como el puntaje en el test A. El test A ha sido
elaborado por el propio maestro para el fin deseado. Dicho test consiste en
70 reactivos y cada uno es calificado con 0 o 1; 0 por una respuesta incorrecta
y 1 por una respuesta correcta, al reactivo considerado. El puntaje en el test
A es computado sumando las calificaciones de los reactivos individuales, o lo
que es lo mismo, es el n
umero de reactivos contestados correctamente. Despues de que ha aplicado el test A a sus 21 alumnos, los 21 puntajes obtenidos
por ellos se enlistan abajo
62
60
60

59
58
57

57
56
55

55
54
53

52
51
50

50
48
47

40
37
32

Deseamos recopilar la informacion para hacerla mas manejable. En principio,


los puntajes posibles estan formados por todos los enteros desde 0 hasta
70 (o sea 71 puntajes posibles). Obviamente no podramos proceder como
lo hicimos con los puntajes de la prueba de 10 reactivos V-F por razones
pr
acticas (una columna de 71 miembros sera demasiado grande).
Se procede entonces a agrupar los datos en clases o categoras. Cada clase
comprende a cierto rango de puntajes. Por ejemplo, las clases podran ser
las siguientes:
CLASES

30
37
44
51
58

36
43
50
57
64

As, la primera clase engloba a los puntajes comprendidos entre 30 y 36


(incluyendo a ambos valores extremos). En este caso, hemos elegido a las
clases de igual tama
no (tama
no 7, de hecho).
La distribucion de frecuencias se construye como antes, asignandole a cada
clase su frecuencia, en vez de a cada puntaje individual. Entendiendo por
frecuencia de clase al n
umero de datos que caen en el rango de valores de la
13

Agrupaci
on de datos. Distribuciones de frecuencia.
clase. En nuestro ejemplo, la frecuencia de la primera clase (30 36) es 1,
pues solo el dato 32 pertenece a la clase.
A continuacion se expresa la distribucion, en forma de tabla:
Punto
medio
33
40
47
54
61

Clase

Frecuencia

(de puntajes)

30 36
37 43
44 50
51 57
58 64
totales:

1
2
4
9
5
21

Frecuencia
relativa
4.8 %
9.5 %
19.0 %
42.9 %
23.8 %
100.0 %

La u
nica columna nueva que aparece es la primera (la de PUNTOS MEDIOS).
Se entiende que el punto medio de la clase es el representante de la clase,
en el sentido de que se pueden suponer concentrados los datos en los puntos
medios (siempre que se trate de una distribucion de frecuencias, a secas, y
no de una distribucion acumulada).
Medici
on.
Otra clasificacion de las escalas numericas que va a resultar relevante posteriormente es:
n
continuas
escalas numericas
discretas
Continua. Entre dos marcas cualesquiera existe siempre una tercera. Si x e
y son dos tales marcas, digamos que se cumple que x < y, entonces existe
una marca c tal que x < c < y. Mas a
un, cualquier posicion intermedia entre
dos marcas es concebible: para pasar de una intensidad x a una mayor y se
pasa por todas las intensidades intermedias.
Discreta. En el caso infinito, se puede poner en correspondencia con el conjunto de los enteros positivos, de tal forma que la correspondencia es creciente
(o decreciente) en sentido estricto ya que, en particular, la correspondencia
es biunvoca (ademas de monotona). En el caso finito se puede poner en
correspondencia creciente o decreciente con un conjunto {1, . . . , N} para
alg
un N Z+ .

Por otro lado, tenemos que las restricciones propias de los aparatos de medici
on, dado su poder de resoluci
on, nos discretizan las escalas numericas. Por
ejemplo, supongamos que una cierta balanza puede precisar las mediciones
hasta decimos de gramo; as, las lecturas que se hicieran (en gramos) seran
de la forma N.d (N entero, d dgito).
14

Tecnica para la agrupaci


on de datos ...
Una t
ecnica para la agrupaci
on de datos en clases de igual tama
no
(caso continuo).
Partiremos de los siguientes supuestos:
S1. Suponemos, en principio, una escala de medicion continua para la variable en cuestion1 .
S2. Suponemos conocido el poder de resolucion del instrumento de medicion,
ya sea explcitamente dado o implcitamente reflejado en la escritura de
los datos. Esto es, conocemos la precision (el n
umero de cifras significativas resp. a la unidad) utilizada para los datos.
Para fijar ideas, antes de continuar tomemos como referencia la siguiente
coleccion de datos, una muestra, los cuales son reales, i.e., corresponden a
observaciones empricas:
Financiamiento solicitado para Proyectos
de Investigaci
on Educativa, 1993.
(en miles de N$)
93.6
73.2
5.9
12.8
18.2

51.3
98.3
82.3
60.0
31.9

24.3
40.1
66.3
60.4
34.3

7.5
9.6
14.3
18.6
66.0

42.5
8.4
46.6
16.1
26.5

88.2
12.9
10.0
63.6
18.5

Como puede apreciarse, la variable en cuestion es financiamiento solicitado,


la cual es, al menos teoricamente, de naturaleza continua. Vemos, tambien,
que los datos, en miles de nuevos pesos (i.e., la unidad es el millar de nuevos
pesos), han sido redondeados a decimas de unidad, es decir, al centenar mas
pr
oximo de nuevos pesos. Luego, la precision de los datos, en este caso hasta
decimas de la unidad, nos es dada en forma implcita. La precision de los
datos, discretiza a la escala de medicion en el sentido de que las posiciones
en la escala (i.e., las marcas) las cuales pueden representar datos proceden
por incrementos o decrementos discretos a partir de una de ellas (en nuestro
ejemplo, a partir de 93.6, tenemos 93.7, 93.8, 93.9, etc. y no hay dato alguno
1

Esta hip
otesis suele ser relajada. Esto es, ya sea la tecnica de este apartado, o bien,
los principios o ideas utilizados, se aplican, como tendremos oportunidad de verlo m
as
adelante, a variables discretas. Claro est
a, las ideas expuestas modelan mejor el caso
continuo, del que se fundamentan.

15

Tecnica para la agrupaci


on de datos ...
que pueda caer estrictamente entre dos marcas consecutivas, v. gr. ning
un
dato puede ser intermedio entre 93.6 y 93.7).
Una vez que se tiene determinado lo anterior, se siguen los siguientes pasos:
1o Determinacion del intervalo de valores aceptables para el n
umero de
clases. Restringimos primero al entero N (n
umero de clases) de acuerdo
a una regla emprica, digamos 4 N 15. Para evitar clases vacas,
aplicamos otra restriccion sobre N . Si denotamos con M el tama
no de
la muestra (i.e., M es el n
umero de datos de la muestra; en el ejemplo
M = 30), pedimos, en promedio, del orden de 4 o mas datos por clase,
i.e., M/N 4, o sea, N M
4 si el cociente es entero y podemos acordar,
M
cuando 4 no es entero, que N no exceda al entero mas proximo superior
al cociente. Equivalentemente, puesto que N debe ser un entero, que
N M4+3 (ver Nota 1). En resumen, 4 N mn{15, M4+3 }. (Para el
ejemplo, 4 N mn{15, 30+3
}, o sea, 4 N 8).
4

2o Ordenamos los datos, determinando los datos mnimo y maximo. (En


nuestro ejemplo, mn = 5.9 y max = 98.3; vease tabla abajo)
Datos Ordenados
5.9
7.5
8.4
9.6
10.0

12.8
12.9
14.3
16.1
18.2

18.5
18.6
24.3
26.5
31.9

34.3
40.1
42.5
46.6
51.3

60.0
60.4
63.6
66.0
66.3

73.2
82.3
88.2
93.6
98.3

3o Calculamos m, el n
umero de datos posibles entre el mnimo y maximo
inclusives. (Para el ejemplo, m = 925; vease el calculo de m abajo)
m = #{5.9, 6.0, 6.1, . . . , 98.2, 98.3}
= #{59, 60, 61, . . . , 982, 983}
= #{1, 2, 3, . . . , 982, 983} #{1, 2, 3, . . . , 57, 58}
= 983 58
= 925.

4o Hacemos una tabla con las columnas: N (n


umero de clases), T (tama
no
de clase) y S (marcas sobrantes). En la tabla, para cada valor de N
aceptable (en el ejemplo, 4 N 8), el valor de T correspondiente
m
se obtiene como el menor entero impar que es mayor o igual a N
(ver

16

Tecnica para la agrupaci


on de datos ...
Nota 2). Puesto que el menor entero que es mayor o igual a m
N coincide
m+N 1
(ver nota 3), tenemos que2
con la parte entera del cociente
N
T =

 m+N 1 

N
 m+N 1 
N

si
+1

si

 m+N 1 
N

 m+N 1 
N

es impar
es par

Finalmente, S esta dado por S = NT m. Ilustramos lo anterior con


una tal tabla3 para nuestro ejemplo:
N
4
5
6
7
8

m+N 1
N
928
4
929
5
930
6
931
7
932
8

= 232

233

= 185.8

185

= 155

155

= 133

133

= 116.5

117

11

5o Son preferentes los valores de N que den un valor mnimo, y tambien


par, para S. Tratando de establecer un compromiso entre ambos requerimientos, daremos, a continuacion, un criterio para los mejores valores
para N . Se escoge el (los) mejor(es) valor(es) para N de acuerdo al
criterio que sigue. Sea S0 el valor mnimo para los S correspondientes
a los valores admisibles de N . Si S0 es par, o bien, S0 es impar y S
nunca toma el valor S0 + 1, los mejores valores para N son los que
correspondan a S0 . Si S0 es impar y el par siguiente, i.e. S0 + 1, es un
valor de S, entonces los mejores valores de N son los correspondientes
al entero par S0 + 1. Para nuestro ejemplo (ver tabla), el mejor valor
de N es 5. Como segunda mejor opcion (piensese que no existe el renglon de N = 5 en la tabla), tenemos, de acuerdo al criterio, la selecci
on
N = 7, correspondiente a S = 6.
2

Con [x], donde x es un n


umero real positivo, estamos denotando la parte entera de x,
i.e., [x] es el mayor entero que no excede a x.

La presencia de la segunda columna de la tabla es opcional, lo mismo que su contenido:


m
Tambien se puede, simplemente, calcular N
y por inspecci
on del cociente determinar
m
el menor impar mayor que, o igual a, N . La ventaja del procedimiento sugerido en la
segunda columna con respecto al u
ltimo, es que resulta m
as algortmico, i.e., m
as natural
de ser programado en una computadora.

17

Tecnica para la agrupaci


on de datos ...
Notas
Nota 1. Las condiciones, N M
si M
es entero, o bien, N menor o igual
4
4
M
ltimo no es entero,
que el entero mas proximo, por exceso, a 4 , cuando este u
son equivalentes a N k, donde k es el menor entero mayor o igual a M
4 .
M
En efecto, la equivalencia es obvia si 4 es entero, pues en ese caso coincide
con k (i.e., el menor entero mayor igual al cociente es el cociente mismo) y
si el cociente no es entero, el entero mas proximo por exceso es tambien el
menor entero mayor que el cociente, luego, coincide con k. Por otro lado, k
es la parte entera del cociente M4+3 (ver Nota 3), luego las condiciones del
inicio equivalen a N M4+3 .
Nota 2. El valor de T debe ser impar para que los puntos medios de cada
clase tengan la misma precision en cifras decimales que los datos, i.e., para
que los puntos medios representen un dato (o una medicion directa) posible.
m
La otra condicion sobre T , a saber T N
, se requiere para que NT
m; esto es, con las N clases contiguas deben cubrirse las m marcas, para
que pueda garantizarse que las marcas extremas (mn y max), las cuales
corresponden a datos, esten includas en la cobertura (no queremos que haya
datos huerfanos, sin clase alguna que los acoja).
Nota 3. Probaremos, en general, que si m y n son dos enteros positivos, el
menor entero que es mayor o igual que el cociente m
n coincide con la parte
m+n1
entera de
. Sean, respectivamente, k el menor entero m
n
n y q la parte
m+n1
entera de
. Tenemos m + n 1 = nq + r donde r, el residuo de dividir
n
entre n en los enteros, satisface 0 r n 1. Luego, si r = n 1 se tiene
m = nq, i.e., el cociente m
n es entero y coincide con q; y si r < n 1, entonces
m = n(q 1) + (r + 1) con 0 < r + 1 < n, luego m
= (q 1) + r+1
, o
n
n
m
m+n1
sea, (q 1) < n < q. En resumen, q, la parte entera del cociente
,
n
coincide con k.
6o Una vez elegido N , se procede a determinar las clases de tal manera
que las S marcas sobrantes se repartan lo mas balanceadamente posible:
tantas marcas por debajo del valor mnimo (denotado mn) como por
arriba del maximo (denotado max) de los datos. Mas precisamente,
descomponemos a S en la suma de dos enteros lo mas parecidos entre
s: S = Sa + Sb , la primera clase (i.e., la mas inferior) iniciando con
la marca cuyo valor denotaremos con a1 y que se encuentra Sa lugares
abajo de la marca que corresponde al mnimo y la u
ltima clase (i.e., la
N -esima) finalizando con la marca que esta Sb posiciones por arriba de
la marca del dato maximo. Si denotamos con el incremento entre
marcas (para nuestro ejemplo, = 0.1), la primera clase iniciara con
18

Tecnica para la agrupaci


on de datos ...
a1 = mn Sa y la u
ltima clase finalizara con bN = max + Sb . Si en
general, para una clase cualquiera, e.g., la i-esima, denotamos con ai el
valor de su marca inicial y con bi el de su marca final, el diagrama de
abajo ilustra la situacion de una clase tpica:
T marcas

..
..

..
..

ai

ai +

}|

..
..

..
..

ai+1

bi

de donde, como bi se encuentra T 1 marcas por arriba de ai , se tiene


bi = ai + (T 1) y, por lo tanto, ai+1 = ai + T . Consiguientemente,
se obtienen las formulas:
ai = a1 + (i 1)T

y bi = a1 + (iT 1)

(i = 1, . . . , N)

donde a1 = mn Sa . Como mecanismo de comprobacion, utilicemos


las formulas para obtener el valor de bN :
bN = a1 + (NT 1)

= mn Sa + (m 1 + S)

pues NT = m + S

= mn + (m 1) + (S Sa )
= max + Sb
pues max = mn + (m 1)
Los puntos medios o marcas de clase que estamos denotando con ci , se
calculan (recuerde que T es impar), de acuerdo a la figura,
z ..

1
2 (T 1)

....

ai

marcas

}|

{
..
....

.
....

ci

z ..

1
2 (T 1)

....

marcas

}|

.
....

bi

con ci = ai + 12 (T 1). Observe que ai + 21 (T 1) = 21 (ai + bi ),


luego ci = 12 (ai + bi ). Sin embargo, desde el punto de vista practico,
seguramente resultan mas u
tiles las siguientes formulas recursivas, cuya
redundancia favorece la introduccion de mecanismos de comprobacion:
a1 = mn Sa

b1 = a1 + (T 1)

ai+1 = ai + T

bi+1 = bi + T

1
c1 = a1 + (T 1)
2
ci+1 = ci + T

Finalmente, para el ejemplo que hemos venido trabajando, aplicamos las


u
ltimas formulas (junto con bN = max + Sb ) determinando las clases para
los tres mejores valores de N (ver tabla del apartado 4o ):
19

Tecnica para la agrupaci


on de datos ...
N

= 0.1

mn = 5.9

max = 98.3

clase

5.9
24.4
42.9
61.4
79.9
5.6
a1 = 5.6
S =6
Sa = 0.3 b1 = 18.8 18.9
32.2
Sb = 0.3 c1 = 15.1
45.5
58.8
72.1
(b7 = 98.6) 85.4
5.7
a1 = 5.7
S =5
21.2
Sa = 0.2 b1 = 21.1
36.7
Sb = 0.3 c1 = 13.4
52.2
67.7
(b6 = 98.6) 83.2

T = 185
S =0
Sa = 0
T = 18.5
(T 1) = 18.4 Sb = 0
1
(T 1) = 9.2
2

T = 133
T = 13.3
(T 1) = 13.2
1
2 (T 1) = 6.6

T = 155
T = 15.5
(T 1) = 15.4
1
2 (T 1) = 7.7

a1 = 5.9
b1 = 24.3
c1 = 15.1
(b5 = 98.3)

20

24.3
42.8
61.3
79.8
98.3
18.8
32.1
45.4
58.7
72.0
85.3
98.6
21.1
36.6
52.1
67.6
83.1
98.6

punto
medio frec.
13
15.1
5
33.6
52.1
4
70.6
4
89.1
4
12
12.2
3
25.5
38.8
3
2
52.1
5
65.4
78.7
2
92.0
3
12
13.4
4
28.9
4
44.4
5
59.9
2
75.4
3
90.9

Complemento a los captulos 1 y 2


COMPLEMENTO A LOS CAPITULOS 1 Y 2
Escalas.
Los niveles de medicion son un ejemplo de una escala ordinal:
nominal < ordinal < intervalo < razon
donde < debe leerse ser m
as bajo que, con respecto al nivel de medicion.
As, nominal < ordinal significa que el nivel de medicion de la escala nominal
es m
as bajo que el nivel de medicion de la escala ordinal.
La escala nominal es una escala finita, en particular discreta, como el selector
de un aparato, por ejemplo:
B
........................................................
..........
........
.......
........
......
......
.
.
.
.
.
......
..
.
.
.
.
.....
.
..... ....
..........
..........
.
.
.
.
.
.
.
.
.
.
.
...........
..........................
.
.
.
.
.
.
.
.
.
....
.......................................
..
.
.
.
.
.
...
.
.
.
...
...
...
..
...

..............
...................................
.......................

en donde no es posible posicionar el selector entre dos marcas contiguas (entre


A y B no hay nada y entre B y C tampoco.
La escala ordinal es normalmente discreta pero podra ser continua. La
escala de intervalo es continua, pero el poder de resoluci
on del aparato de
medicion la discretiza.
Datos.
La variable es el proposito de la medicion. Los datos son los resultados, no
procesados, de la medicion. Medimos siempre variables. Los datos representan: a) valores posibles (teorico) y b) valores concretos (empricos) de la
variable que se mide. Los smbolos que suelen utilizarse para representar a
una variable son generalmente las u
ltimas letras: r, s, t, u, v, w, x, y, z, . . .
y para representar a una constante, las primeras: a, b, c, . . .
Constante. Una constante es un smbolo (usualmente a, b, c, . . .) que representa a objeto determinado, muchas veces un n
umero del que suele desconocerse su valor exacto.
Variable. Una variable, en matematicas, es un smbolo que representa a
un objeto no determinado de entre varios, el conjunto de los cuales (s esta
21

Complemento a los captulos 1 y 2


determinado) es llamado el conjunto de valores de la variable o rango de la
misma.
Variable (en matematicas) es una pareja v. gr. (x, A) formada por un smbolo
(el nombre de la variable) y un conjunto (barrido o rango) cuyos elementos
son los valores de la variable. En la practica la variable se identifica con su
smbolo y su rango es frecuentemente sobreentendido.
Por ejemplo, x + 3 < 2x + 2 implica que 1 < x entonces x + 3 < 2x +
2 x > 1 . Pero si tuvieramos la condicion de que x + 2 < x + 3 esto
implicara que 0 < 1 (o 1 < 0) lo cual ciertamente es verdadero, por lo
que x + 2 < x + 3 x R.
En Estadstica (educativa): la variable es cualquier caracterstica (o atributo)
con la cual es posible, en principio, distinguir a unos individuos de otros.
(La palabra individuos, tomada en un sentido amplio, puede referirse a
personas, a animales, a objetos, etc.)
El barrido o rango se deja generalmente implcito y la Estadstica no constituye la excepcion. Este conjunto de valores corresponde en Estadstica a la
poblacion de interes4 (conjunto de individuos en los que se pretende medir
cierta caracterstica).
La poblaci
on meta es la coleccion de individuos de interes (i. e. en los que
interesa determinar el valor de la variable). Medir una variable quiere decir
determinar el atributo en cuestion para individuos de la poblacion.
El proposito de medir es el de averiguar el comportamiento de la variable
en cierta poblacion. Por ejemplo, en una poblacion de profesores se mide
la variable actitud hacia los alumnos, la cual puede asumir los valores:
amigable (A), hostil (H) o indiferente (I). Observemos lo siguiente:

.......................
..
...
...
..
.....
..
....
...
...
..
...
..
...
...
...
..
...
..
...
...
..
...
...
.....
..

......................
..
...
...
..
....
...
...
...
..
..
...
...
....
..
....
..
..
..

...................
....
...
..
...
..
..
....

..................
....
...
..
...
...
..
.....
..
....
..
.

.......................
..
...
...
.
....
..
..
...
...
...
..
....
...
..
..
.

.......................
..
...
...
..
.....
..
....
...
...
..
...
..
...
...
...
..
...
..
...
...
..
...
...
.....
..

Poblaci
on de maestros

Poblaci
on de maestros

de la Universidad X

de la Universidad Y

A veces se sustituye por una muestra representativa.

22

Complemento a los captulos 1 y 2


En esto lo que se lee es que el comportamiento en la poblacion X es esencialmente indiferente (I) y el de la poblacion Y es esencialmente amigable
(A).
La comparacion esta basada en la frecuencia. Las frecuencias (de hecho las
relativas) son el criterio para determinar el comportamiento de la variable.
En estos diagramas de barras la escala del eje vertical no tiene ninguna
importancia ya que esto nos hablara solo del tama
no de la poblacion; pero lo
que estamos tomando para la comparacion es la MODA (frecuencia mayor).
Datos agrupados.
Como ya antes mencionamos, el instrumento de medicion discretiza la escala ya que su poder de resolucion la achata, es decir, un intervalo continuo
de infinitas marcas lo discretiza en un n
umero finito de ellas.
Si queremos emular lo anterior (hecho para una escala nominal) pero ahora
midiendo una variable a nivel de escala de intervalo o cercana (i. e. una
escala al menos ordinal, numerica y continua) necesitamos agrupar datos, es
decir, hacer categoras o clases gordas a partir de infinitas teoricas o un
gran n
umero de ellas discretizadas por el instrumento.
Por ejemplo, supongamos que la variable que queremos medir es la estatura
de las personas adultas de cierta poblacion. Los valores de nuestra variable
seguramente estaran entre 1m y 2m, intervalo en el cual tendramos infinitas
categoras (teoricas). Pero ya sea por las limitaciones del aparato de medicion
o por que se considere que las cifras significativas en la medicion sean solo
hasta mm, tendremos entonces 1001 categoras: 1.000, 1.001, 1.002, ... ,
1.999, 2.000.
Aunque la discretizacion nos reduzca de infinitas a solo mil categoras, crear
y leer el comportamiento de la variable en un diagrama de barras con mil
rect
angulos o en una tabla de distribucion de frecuencias con mil renglones
sera algo muy difcil y posiblemente infructuoso, por lo que hay que agrupar
datos, es decir agrupar categoras.
Estimaci
on.
Supongamos que queremos estimar
a

99. Vamos a considerar que

x=

23

a+ x

Complemento a los captulos 1 y 2


y como primera aproximacion de
10

99 vamos a tomar x0 = 10. Entonces

99 =

10 + 99

1
, tenemos entonces que 10 x1 =
10 xi+1 se estima con 10+x
i
1
donde x1 = 10 10+x0 y como x0 = 10 entonces

x1 = 10

1
10+x0

de

1
199
1
= 10
=
= 9.95
10 + 10
20
20

por lo que x1 = 9.95. Para x2 :


x2 = 10

1
1
= 10
= 9.949,
x1
10 + 9.95

...

etc.

Lectura de datos. Precisi


on y exactitud.
Primer acercamiento a la medicion. Lectura inteligente de los datos.
Idealmente deberamos tener
cifras significativas = redondeos naturales
La precisi
on tiene que ver con cuantas cifras se usan, pero esto no es lo
mismo que la exactitud. Por ejemplo, los datos del Financiamiento para
Proyectos: 93.6, 73.2, 5.9, ... se expresan en miles de nuevos pesos (1993)
con una precision de cientos de pesos. Y en este caso los valores se han
redondeado al centenar de pesos mas cercano, por lo que su exactitud es
hasta cientos de pesos.
Precision vs. exactitud: Como representante numerico de , 3.001 es un
n
umero con mayor precision que lo sera el n
umero 3.1; pero 3.1, como representante de , es un n
umero con mayor exactitud que 3.001 en esa misma
calidad.
Respecto a los datos del Financiamiento para Proyectos, partimos de las
siguientes hipotesis:
(1) La escala es teoricamente continua ($).
(2) Se acuerda que la precision de los datos es hasta cientos de pesos. (En la
coleccion de datos, no se vale que los datos tengan diferente precision).
Nota: como dato, como observacion emprica, no es lo mismo 15 que
15.0.
24

Complemento a los captulos 1 y 2


T
ecnica para la agrupaci
on de datos en clases iguales.
Vamos a tomar como ejemplo los datos de la pagina 9:
62

59

57

55

52

50

40

60

58

56

54

51

48

37

60

57

55

53

50

47

32

Para la tecnica que a continuacion se describe, consideremos:


M = tama
no de la muestra. El tama
no de la muestra (o poblacion) es
el n
umero total de datos. En nuestro ejemplo, M = 21.
m = n
umero de datos te
oricamente posibles entre el dato mnimo y el
maximo y
N = n
umero de clases.
T
ecnica.
1. Valores aceptables para N .
a) Como una regla emprica tenemos que
4 N 15
Muy pocas clases (menos de 4) no dicen nada o casi nada. Demasiadas clases (mas de 15) hacen los histogramas de difcil lectura.
b) Se debe evitar que queden clases vacas ya que esto provoca una
imagen de discontinuidad:
.........................
...................
..............
..............
..................
..............
..............
....................
..............
.............
...................
..............
...................
..............
..............
.
.

..................
....................
..............
...................
..............
..............
...................................
........................
...........................
....................................
..........................
.

................................
..............
...................
...............

Con el fin de evitar esto, vamos a pedir un cierto n


umero (en promedio) mnimo de datos por clase: ese n
umero mnimo de datos
M
lo obtenemos del cociente M
N , pidiendo que N 4 (holgadamente).
Despejando obtenemos:
N

M
4

si
25

M
4

es entero;

Complemento a los captulos 1 y 2


y si no, pedimos
N

M +3
4

21
En nuestro ejemplo M
andole obtenemos 6, por
4 = 4 = 5.25, estir
M +3
M +3
lo tanto N 6. Con 4 obtenemos 4 = 21+3
= 24
4
4 = 6

Finalmente, hemos determinado que el intervalo de valores aceptables para N (n


umero de clases) es 4 N 6.
2. Ordenar los datos y determinar el dato mnimo y el datos maximo. En
el ejemplo, mn = 32 y max = 62.
3. Calcular m que es igual al n
umero de datos posibles que hay entre el
dato mnimo y el dato maximo.
En el ejemplo, m = dato maximo sobrantes = 62 31 = 31 :
sobrantes

}|

dato m
aximo

30 31

33 34
32

60 61

62

Para evitar clases fantasmas (o sea, que ning


un dato cae ah) T se define
como el mnimo entero impar tal que NT m y de aqu se deduce que los
valores sobrantes seran S = NT m. Los sobrantes deben ser mnimos y
de preferencia pares para repartirlos por exceso y por defecto y as tener
los datos centrados.
En nuestro ejemplo, tenemos 31 marcas que hay que barrerlas todas, por
lo que una condicion obvia es que NT 31. En general NT m, de donde
m
obtenemos la condicion de que T N
.
Ademas ponemos tambien la condicion de que T sea impar. Por que? Veamos.
Supongamos T par

clase

}|
...
........
.. ......
...
...

centro
(el centro de la clase es una marca inexistente)
El centro de la clase es el representante de la clase. Con T par, como
podemos ver en la figura, la clase va a ser representada por una marca que
no existe (i. e. el centro de la clase tiene una precision diferente, de hecho
mayor, a la de los datos). Esta es la razon fundamental por la que T debe
26

Complemento a los captulos 1 y 2


ser impar, para poder tomar como representante de la clase la marca central,
la cual es un valor posible de la variable (con la misma precision).
4. Formar una tabla con tres columnas: la primera columna contendra los
valores posibles de la variable independiente N (n
umero de clases), de
la que dependeran los valores de T (tama
no de clase) y de S (datos
sobrantes) los cuales ocuparan la segunda y la tercera columnas respectivamente:
N

S = datos sobrantes
(S = NT m)

T = tama
no de la clase
m
)
(menor entero impar N

Para los datos anteriores, los valores posibles de N son: 4, 5 o 6. Podramos


buscar el valor de T usando la condicion de que NT 31. Por ejemplo, para
N =4
sea T = 7 entonces NT = 4 7 = 28 < 31
sea T = 8 entonces NT = 4 8 = 32 > 31 (pero 8 es par)
sea T = 9 entonces NT = 4 9 = 36 > 31,
en la siguiente tabla podemos ver que el valor de T calculado para N = 4 es
precisamente 9. Calculando T y S para cada uno de los valores de N (4, 5 y
6) obtenemos:
N
4
5
6

T
9
7
7

S
5
4
11

Como ya antes mencionamos, los sobrantes deben ser mnimos y de preferencia pares. Los valores de S que hemos obtenido son 4, 5 y 11 de los cuales 4
es el mnimo y es par por lo que nuestra eleccion claramente debe ser N = 5.
De esta manera los sobrantes pueden repartirse exactamente por exceso y
por defecto:
defecto

exceso

z }| {

z }| {

30 31

32

27

62

63 64

Complemento a los captulos 1 y 2


5. As:

N =5

.......
........ T =7
.......
........
........
.......
........
N =5
.......

1
2
3
4
5

T =7

S0 = 4

30

31

37
44
51
58

38
45
52
59

32
39
46
53
60

33
40
47
54
61

34
41
48
55
62

35
42
49
56

36
43
50
57

63

64

La tabla de frecuencias y el diagrama de barras que corresponden a esta


agrupacion nos quedan:

1
2
3
4
5

clase
30 36
37 43
44 50
51 57
58 64

........................................................
...............................
.....................
.......................
..............................
.....................
.......................
...............................
.......................
......................
.............................
....................... .............................................
............................... ...............................
....................
...................................................... .................................. ..................................
............................. .............................. ..............................
...................... ...................... ......................
...................... ...................... ......................
............................... ............................... ...............................
..............................
.......................................................... ................................... ................................... ...................................
.............................. .............................. .............................. ..............................
.
. . . . . . . . .. .. . . . . . . . .. .. . . . . . . . .. .. . . . . . . . ..
......................................... .... . . . . . . . . .... .... . . . . . . . . .... .... . . . . . . . . .... .... . . . . . . . . ....
.. .
... ..
... ..
... ..
...
..
......
.
....
....
....
.

frecuencia
1
2
4
9
5

3036 3743 4450 5157 5864


4
1
2
3
5

Lo que buscamos es la mejor distribucion al agrupar los datos. De los


sobrantes S sea S0 el mnimo. Si S0 es impar, prefierase la N correspondiente
a S0 +1 (par). Veamos el siguiente ejemplo (tomado de las notas de la tecnica
para la agrupacion de datos):
N
4
5
6
7
8

T
233
185
155
133
117

S
7
0
5
6
11

1o
3o
2o

En primer lugar tomamos N = 5 con S = 0. En segundo lugar tomaramos


N = 7 con S = 6 (3 por defecto y 3 por exceso). Y en tercer lugar tomaramos N = 6 con S = 5. En este u
ltimo caso, los sobrantes tendramos que
28

Complemento a los captulos 1 y 2


repartirlos 3 (o 2) por exceso y 2 (o 3) por defecto, que aunque de todas
maneras representa un sesgo, sera el mejor balance.
Redondeos.
Redondear x a enteros es encontrar un n
umero que corresponda al entero
m
as cercano a x. El proposito es asignarle a x (o convertirlo a) este n
umero
entero.
La regla para redondear a enteros es la siguiente: los n
umeros decimales entre
N.0 y N.4 se convierten a (se les asigna) N . Mientras que los n
umeros
decimales entre N.5 y N.9 se convierten a (se les asigna) N + 1.
Por ejemplo, para los n
umeros decimales entre 3 y 4 con precision hasta
decimales tenemos

3.0

5 mas bajos
}|

3.1

3.2

3.3

3.4

5 mas altos
}|

3.5

3.6

3.7

3.8

3.9

y con precision hasta centesimos tenemos


50 mas bajos
z
}|
{
3.00, 3.01, 3.02, . . . , 3.48, 3.49,

50 mas altos
z
}|
{
3.50, 3.51, 3.52, . . . , 3.98, 3.99,

El sistema esta balanceado a nivel continuo, ya que hay un s


olo caso (en una
infinidad) en el que falla.
3.49999 . . . y 3.50000 . . . son dos representaciones para el mismo n
umero real.
El el caso de 3.49999 . . . al redondear a enteros se convierte a 3 y en el caso
de 3.50000 . . . se le asigna 4. As que la mitad de las veces lo manda para
atr
as y la otra mitad lo manda para adelante, por lo que esta en balance
(bueno, es lo mismo para redondear a decimos, a centesimos, etc.).
C
omo saber si una calculadora trunca o redondea?
1. Ver cuantos dgitos imprime en la pantalla. Supongamos que son ocho.

29

Complemento a los captulos 1 y 2


2. Calcular (1.0003)2 :
(1 + 0.0003)2 = (1 + 3 104 )2

= 1 + 6 104 + 9 108

= 1 + 0.0006 + 0.00000009
= 1. 00060009
| {z }

8 cifras significativas

Si la calculadora trunca, el resultado sera 1.0006000; si redondea, entonces el resultado sera 1.0006001.
Volviendo al ejemplo de las notas, en la tabla al final de la pagina 8 (de
este escrito), tenemos una columna para T : como se calculan estos valores?
m
, entonces (m = 925):
Veamos. T es el menor entero impar N
m/N
925/4 = 231.25
925/5 = 185.00
925/6 = 154.17
925/7 = 132.14
925/8 = 115.63

N
4
5
6
7
8

T
233
185
155
133
117

Ahora bien, debemos avanzar hacia la construccion de una Tabla de Frecuencias. En ella se especifican, ademas de la clase, los puntos medios
(marcas de clase), las frecuencias, las frecuencias relativas, las frecuencias
acumuladas y posiblemente las frecuencias acumuladas relativas. Tomemos
de nuevo los datos de la pagina 13 con las clases que ya habamos determinado
y veamos la siguiente tabla:
punto
frec.
clase medio frec. acum.
30 36

33

37 43

40

44 50

47

51 57

54

16

58 64

61

21

1
21
2
21
4
21
9
21
5
21

frecuencia
relativa
= 0.0476 = 4.76%
= 0.0952 = 9.52%
= 0.1905 = 19.05%
= 0.4285 = 42.85%
= 0.2381 = 23.81%

1
21
3
21
7
21
16
21
21
21

frec. acum.
relativa
= 0.0476 = 4.76%
= 0.1429 = 14.29%
= 0.3333 = 33.33%
= 0.7619 = 76.19%
= 1.0000 = 100.00%

Con la informacion contenida en esta tabla de frecuencias estamos casi listos


para empezar a graficar histogramas, polgonos de frecuencia y polgonos
30

Complemento a los captulos 1 y 2


de frecuencia acumulada. El detalle que falta es la determinacion de los
extremos reales de la clase.
Vamos a empezar considerando que los datos son redondeos de los n
umeros
exactos. Por ejemplo, la primera clase de la tabla anterior es el conjunto de
los valores: 30, 31, 32, 33, 34, 35 y 36. Que valores reales (la totalidad) al
ser redondeados a enteros nos da la coleccion de estos 7 elementos?
Va redondeo a enteros, el intervalo [29.5, 36.5] (36.5 = 36.4999 . . .) se convierte en la clase: [30, 36]. De la misma forma podemos determinar que, va
redondeo a enteros, el intervalo [36.5, 43.5] (43.5 = 43.4999 . . .) se convierte
en la clase [37, 43], etc.
En resumen, los intervalos de extremos reales para las clases de la tabla
anterior son
[29.5, 36.5] 30 36
[36.5, 43.5] 37 43

[43.5, 50.5] 44 50
[50.5, 57.5] 51 57

[57.5, 64.5] 58 64

Si en lugar de tomar directamente las clases para graficar las frecuencias


(como lo hicimos en la pag. 7 de estas notas) tomamos los intervalos reales,
vamos a tener los rectangulos del diagrama contiguos, dando correctamente
la idea de continuidad (recordemos que partimos de la hipotesis de que la
variable es continua) entonces lo que estamos obteniendo es el histograma
que describe graficamente la distribucion (la frecuencia) de los datos:
42.9%
f
r
e
c
u 23.8%
e
19%
n
c
i
a
9.5%
4.8%

5
4
2
1
26

33

29.5

40

36.5

47

43.5

54

50.5

Histograma

31

61

57.5

64.5

68

Complemento a los captulos 1 y 2


Las fronteras en los histogramas son los extremos reales de las clases. La
precision de los datos es menor que la de las fronteras, y es justamente por
esto que nunca vamos a tener el problema de que un dato caiga en alguna
de las fronteras. Esta tecnica es muy u
til para construir histogramas, como
acabamos de ver, y tambien para graficar polgonos de frecuencia y polgonos
de frecuencia acumulada, como veremos a continuacion.
La siguiente figura es el Polgono de frecuencia al que corresponden los datos
de la quinta columna de la tabla de la pagina 30 y los intervalos de extremos
reales para las clases de esa tabla:
42.9%9

.....
......
........
.
.
......
......
........
.
.
. ..
......
........
.
.
...
......
......
.......
.

.
.
.......
.......
...
.
.
.
...
.....
........
.

.
.
...
..
.....
........
.
.
.

.......
.......
.....
.......
.
.
.....
.........
......

............
.
.
.
.
.
.
.. .
.........
....... ..
..........
..........
.
.
.
.
.
.
..
...........
.....................

f
r
e
c
u 23.8%5
e
19% 4
n
c
i
a
9.5%2
4.8%1

26

33

40

47

54

61

68

Polgono de frecuencia
La siguiente figura es el Polgono de frecuencia acumulada al que corresponden los datos de la u
ltima columna de la tabla:
f
r
e
c
u 100%
e
n
c
75%
i
a
a
c
50%
u
m
u
25%
l
a
d
a

21

16

7
3
1

..
.
...
...
...
.
.
...
...
...
.
.
..
...
...
...
.
..

....
...
....
.
.
...
....
....
...
.
.
.
....
....
....
.....
.
.
.
.
.....
.....
.....
.....
.
.
.
.
.
.
........
.........
........
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............

29.5

36.5

43.5

50.5

57.5

64.5

Polgono de frecuencia acumulada


32

Complemento a los captulos 1 y 2


Es importante hacer notar que tanto la frecuencia acumulada como la frecuencia acumulada relativa deben acumularse precisamente en el extremo
donde ya se cumpli
o la clase, es decir, tomar el extremo de la derecha permitiendo as que ya se hayan acumulado los datos. De esta manera, podemos
ver en los polgonos de frecuencia y frecuencia acumulada que tenemos lo
siguiente:

intervalos
reales

clase

punto frec.
medio acum.

[29.5 , 36.5] 30 36

33

[36.5 , 43.5] 37 43

40

[43.5 , 50.5] 44 50

47

[50.5 , 57.5] 51 57

54

16

[57.5 , 64.5] 58 64

61

21

1
21
3
21
7
21
16
21
21
21

frec. acum.
relativa
= 0.0476 = 4.76% hasta 36.5
= 0.1429 = 14.29% hasta 43.5
= 0.3333 = 33.33% hasta 50.5
= 0.7619 = 76.19% hasta 57.5
= 1.0000 = 100.00% hasta 64.5

Con respecto a los extremos reales de clase, por u


ltimo veamos un ejemplo:
Supongamos que tenemos un examen de 10 preguntas que mide el aprovechamiento. Sea X = n
umero de reactivos contestados correctamente. Si X = 0,
tendramos el intervalo real [0.5, 0.5]. Los valores negativos de este intervalo podran confundirnos un poco, pero lo que pasa es que la escala es de
intervalo, no de razon: no hay un origen verdadero. Entonces, esos valores
negativos no significan saber de menos; pueden significar saber algo.

33

Medidas de tendencia central.


CAPITULO 3:

MEDIDAS DE TENDENCIA CENTRAL.

La aptitud para la lectura al nivel del primer grado ha sido definida operativamente como el puntaje de un cierto test. Dos grupos han sido sometidos
a dicha prueba y sus puntajes se presentan abajo.
Grupo
62
60
60
59
58
57
57

56
55
55
54
53
52
51

Grupo

50
50
48
47
40
37
32

69
68
68
67
65
64
64

64
63
62
61
60
58
58

56
56
54
54
51
50
48

Se desea responder las siguientes preguntas:


a) De cual grupo puede predecirse un mejor desempe
no en tareas de lectura de 1er. grado?
b) Si otros factores son iguales de que grupo puede esperarse un desempe
no
mas homogeneo en tareas de lectura de 1er. grado?
Se entiende que las respuestas a tales preguntas deben fundamentarse en la
definicion operativa de la aptitud para la lectura; mas concretamente, en los
puntajes (datos) obtenidos.
Si el test o prueba ha sido bien elaborado, cabe esperar que puntajes relativamente mas altos correspondan a mayores aptitudes para la lectura. As,
el alumno que obtuvo el puntaje 62 debe ser probablemente mas apto que
aquel que obtuvo 60 en el grupo B y por lo tanto cabe esperar que el primer
alumno tendra mejor desempe
no en tareas de lectura que el segundo. La
dificultad de responder a la pregunta (a), consiste en que debemos comparar grupos, y no alumnos individualmente. Es decir, si pudiesemos decidir
que grupo (como una unidad) tiene el puntaje mas alto, ese grupo sera el
que esperaramos que tuviese el mejor desempe
no. Pero como podramos
asignarle un puntaje (en base a los datos) a un grupo entero?
Notemos en primer termino que lo que andamos buscando es un puntaje tpico o promedio que sea representativo de los puntajes de una cierta coleccion.
Este puntaje tpico o promedio sera una medida de la aptitud del grupo o
coleccion. Sera una especie de centro de los datos.
35

Medidas de tendencia central.


A continuacion daremos diversos criterios para encontrar ese promedio, el
cual en lenguaje tecnico es una medida de la tendencia central de los datos
(o de la variable en cuestion).
Como acabamos de anticipar, para una coleccion de datos (o valores de la
variable), existen varias medidas de su tendencia central; no puede decirse,
en abstracto, que una sea mejor que otra, todo depende del contexto o de
los intereses involucrados. A continuacion definimos e ilustramos las mas
empleadas:
Moda. Si se tiene una colecci
on de datos (no necesariamente numericos), la
moda es el valor mas frecuente de los datos. Por ejemplo, si los valores o
datos son:
A,

A,

B,

B,

B,

B,

la moda es B.
La moda puede no existir, por ejemplo, los datos A, B, C, R, no admiten moda.
Tambien puede aceptarse que no es u
nica; por ejemplo, para los datos
10,

9,

9,

8,

8,

8,

7,

7,

7,

6,

6,

puede aceptarse que tanto 8 como 7 son modas.


Algunas veces se impone el buen criterio al juzgar si existen varias modas
o ninguna. As, para los datos del grupo A, tendramos 4 modas (a saber,
60, 57, 55, 50) o bien ninguna. En este caso particular, sera mas prudente
optar por la no existencia de la moda; se trata de 21 datos y los cuatro datos
candidatos a moda tienen cada uno solo una frecuencia de valor 2 (aparecen
dos veces cada uno).
Cuando la escala de medicion esta solo al nivel nominal, la medida de tendencia central obligada, es la moda. Para ciertos fines especiales, aunque la
escala sea de nivel superior al nominal, se utiliza tambien la moda. Para
un fabricante de ropa unitalla, la medida tpica o promedio mas adecuada
sera la moda y en todo caso, la mediana y la media aritmetica (que veremos
a continuacion) podran carecer de importancia como medidas tpicas de las
dimensiones de la ropa. Mas adelante, veremos un metodo para obtener la
moda en los casos como el del grupo A.
Mediana. Si se tiene una coleccion de datos (no necesariamente numericos,
pero s jerarquizados u ordenados) la mediana es el valor promedio de los
datos con respecto al orden. Es decir, la mediana es aquel valor que en la
lista o coleccion es precedido o excedido por igual n
umero de datos.
Por ejemplo, de una lista de calificaciones
36

Medidas de tendencia central.


B,

C,

A,

A,

B,

B,

C,

B,

en la cual A es la maxima, le sigue B, etc., procedemos en primer termino a


ordenarla (en orden creciente o decreciente):
A,

A,

B,

B,

B,

B,

B,

C,

Se trata de 9 datos, as que, puestos en orden, el quinto (a saber,


precedido y excedido por 4 en cada caso:
A

B)

es

luego, en este ejemplo, la mediana es B.


Cuando el n
umero de datos es impar, no habra problema en encontrar la
mediana. El caso de n
umero par de datos, se trabaja como se muestra en los
ejemplos (o bien, se evita el n
umero par de datos).
Si los datos son numericos, por ejemplo:
1,

1,

2,

2,

2,

3,

3,

4,

5,

en el cual tenemos diez datos, la mediana estara entre el quinto y el sexto:


1, 1,

2, 2,

2,

3, 3,

4,

5, 5

Pero como tal dato no existe, se toma la semisuma de los dos datos medios
(a saber, el 2 y el 3):
1,

1, 2,

2, 2 | 3, 3, 4, 5, 5

datos medios (resp. al orden)

2+3
= 2.5.
2
Si en el n
umero par de datos, estos no tienen un caracter numerico, se elige
cualesquiera de los dos puntos medios o se dice que esta entre ellos; por
ejemplo, para los datos
Mediana =

A,

A,

B,

B,

C,

C,

C,

C,

C,

no hay problema: mediana = B.


Para los datos:
A,

la mediana puede ser

A,

B,

o C. O, si parece razonable, se puede decir que es


37

Medidas de tendencia central.


BC

(algo intermedio entre

y C).

Cuando la escala de medicion empleada esta al nivel ordinal, pero no mas


all
a, conviene utilizar la mediana o la moda como medidas de tendencia
central; preferiblemente la mediana, a menos que se tengan en mente fines
de utilizacion muy particulares de la medida.
Media aritmetica (o simplemente MEDIA). Si se tiene una coleccion de datos
(necesariamente numericos), la media aritmetica es el cociente obtenido al
dividir la suma de los datos entre el n
umero de ellos. Simbolicamente, si
los datos son: X1 , X2 , . . . , XN , la media aritmetica (o simplemente media)
es:
denotada X
= X1 + X2 + . . . + XN
X
N
Cuando la medicion esta al nivel de una escala de intervalo, se puede utilizar
la media como medida de la tendencia central de los datos.
En una tabla presentamos las posibles medidas de tendencia central seg
un el
nivel de la escala de medicion
Nivel de la
escala

Medida de tendencia
central apropiada

Nominal

Moda

Ordinal

Mediana, moda

Intervalo

Media, mediana, moda

Razon

Media, mediana, moda

Utilizando las medidas de tendencia central, podemos responder ahora la


pregunta (a) formulada al principio de este captulo.
Si los puntajes del test son una buena medida de la aptitud para la lectura
al nivel ordinal (i. e. si puntajes mas altos s garantizan mayor aptitud),
las medianas de los puntajes de los grupos constituiran una buena medida
promedio de la aptitud de los grupos. Para el grupo A, la mediana es 54,
mientras que para el B, es 61; luego, la aptitud del grupo B sera superior a
la del grupo A y podremos esperar, por tanto, que el grupo B se desempe
nara
mejor que el A en tareas de lectura de 1er. grado.

38

Medidas de tendencia central.


Si los puntajes del test son tan buena medida de la aptitud para la lectura
como para asegurar un nivel de medicion de escala de intervalo (i. e. no solo
puntajes mas altos garantizan mayor aptitud, sino ademas, un puntaje de 60
corresponde a un alumno que excede en tanta aptitud a otro de puntaje 58,
como este excede en aptitud a otro de puntaje 56, algo en verdad difcil
de lograr en un test), podremos emplear las medias de los puntajes como
aptitudes promedios de los grupos. Tenemos
A = 62 + 60 + 60 + + 37 + 32 = 1093 52.05
X
21
21
B = 69 + 68 + 68 + + 50 + 48 = 1260 60.00
X
21
21
B > X
A , la aptitud para lectura del grupo B es mayor
Luego, puesto que X
y cabe esperar del grupo B un mejor desempe
no en tareas de lectura de 1er.
grado.
Mencionamos antes que no considerabamos que el grupo A tuviese moda.
Por esta razon no ejemplificaremos con la moda para establecer el mejor
grupo en cuanto a la aptitud.
Cuando se desea obtener la moda de una coleccion que no admite tal en forma
directa, se recurre a agrupar los datos en una distribucion de frecuencia.
Para el caso de los puntajes de los grupos A y B, no se puede establecer una
categora o clase para cada puntaje posible (por obvias razones practicas);
as que, se escogen clases que comprenden rangos de puntajes. He aqu una
posibilidad de clases para el grupo A (todas las clases se tomaron de igual
tama
no):
GRUPO A

Punto
medio
33
40
47
54
61

Clase
(de puntajes)

30 36
37 43
44 50
51 57
58 64
totales:

Similarmente para el grupo B:


39

Frecuencia
1
2
4
9
5
21

Frecuencia
relativa
4.8 %
9.5 %
19.0 %
42.9 %
23.8 %
100.0 %

Medidas de tendencia central.

GRUPO B

Punto
medio
48
53
58
63
68

Clase
(de puntajes)

46 50
51 55
56 60
61 65
66 70
totales:

Frecuencia
2
3
5
7
4
21

Frecuencia
relativa
9.5
%
14.3
%
23.8
%
33.3
%
19.0
%
99.9 %

N
otese que las clases en el grupo A (y en el B) tienen el mismo n
umero de
puntajes (7 para todas las clases del A y 5 para todas las clases del B). La
frecuencia de clase es, por supuesto, el n
umero de puntajes que caen en la
clase dada. As, por ejemplo, hay dos puntajes de B comprendidos entre 46
y 50, esto es, en la clase 46 50; estos dos puntajes son a saber, 48 y 50,
como puede verse en la pagina 33. Los puntos medios de cada clase son los
centros de la clase. As, 48 es el centro de los puntajes comprendidos entre
46 y 50:
46, 47, 48 49, 50

centro (o punto medio de la clase)


Si uno desea que el punto medio de la clase sea un puntaje posible, se deben
tomar clases con un n
umero impar de miembros (como es nuestro caso: 7 es
el tama
no de clase para el grupo A y 5 es el tama
no de clase para el grupo
B).
Pero vayamos al punto: Notese que hemos marcado con una flecha cierta clase, tanto en la distribucion del grupo A como en la del B. Hemos precisamente
se
nalado las clases modales o sea las clases cuya frecuencia es maxima. As,
la clase 51 57 es la clase modal del grupo A y la clase 61 65 la clase modal
del grupo B. Podemos tomar a los puntos medios (tambien llamados marcas
de clase) como representantes de la clase. En nuestro caso, 54 y 63 son los
representantes de las clases modales de los grupos A y B, respectivamente.
Los valores 54 y 63 pueden ser considerados como las modas de los grupos
A y B. Si esto es as, tambi
en llegaremos a la misma conclusion (que con
medianas y medias) acerca de la respuesta a la pregunta (a) del principio de
este captulo.
40

Medidas de tendencia central.


Tal vez se ocurra pensar que este modo de determinar la moda dependa demasiado de la eleccion de las clases. Es decir, arbitrariamente se eligieron
5 clases para cada grupo (i. e. se hizo la distribucion de frecuencias de cinco clases). Tal vez si hubiesemos tomados 6 clases o 4, tendramos modas
distintas.
Para evitar modas tan fuertemente dependientes del modo de seleccionar las
clases, se recurre a dos cosas:
(i) Hay que hacer buenas distribuciones de frecuencia (aunque no sea para
calcular la moda!).
(ii) Para encontrar la moda se recurre no solo a la clase modal, sino tambien
se toman en cuenta a las dos clases inmediatamente contiguas a ella.
Para (i) se dan una serie de consejos al final de la pagina 28 del libro
<<Estadstica>> por Murray R. Spiegel de la serie Schaum, mismos que
han sido incorporados en el captulo anterior.
Para (ii), se utiliza al histograma (nada mas las tres clases involucradas).
Por ejemplo, para el grupo A:
C
....... ...... ...... ...... ...... ...... ...... .....
9 ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... .............
...

....
...
.
.
.
.
....
|
.
....
|
...
.
.
....
.
....
|
...
....
|
...
.
....
.
.
....
|
...
....
|
...
.
....
.
.
...
|
.... P .....
.... ...
|
.......
2
......
... ...
.. ... ......
.
.
1
|
.. . ...
... ... .......
...
....
.
|
...
.
.
.
|
.
.
.
....
.
...
....
...
|
....
|
...
.
.
.
.
....
.
.
...
...
|
..
.
...

...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ......... ...... ...... ....... ...... ...... ...... .....
5
...
|
....
...
...
.
.
....
..
|
.
.
...
..

...
...... ...... ...... ...... ...... ...... ...... .....
.
4
...
.
...

43.5

CLASE

CLASE MODAL

CLASE

44 50

51 . 57

58 64

..
.
...
.
...
.
..
..

...
.........
.......
.......
.
.
.
.
.
.
.
.....
.......
.......

L1

50.5

41

X
Moda

57.5

64.5

Medidas de tendencia central.


En la figura se muestran las clases inmediatamente proximas a la modal
(incluyendo a esta u
ltima). Se muestra geometricamente como obtener al
es la moda de la distribucion:
punto P. La abscisa de tal punto P (denotada X)

Existe una formula para hallar a la moda X:


L1 +


1
C
1 + 2

donde L1 es el lmite inferior real de la clase modal (el lmite inferior de


la clase modal 51 57 es 51, pero el lmite inferior real es 50.5, para no
dejar huecos entre los rectangulos del histograma), 1 es el exceso de la
frecuencia de la clase modal respecto a la que le precede, 2 es el exceso de
la frecuencia de la clase modal respecto a la que le sucede ; y, finalmente, C
es el tama
no de cada una de las clases (en nuestro caso cada clase tiene 7
elementos designados con enteros consecutivos, luego C es igual a 7 unidades;
de todos modos, se ilustra en el dibujo de la pagina anterior).
En nuestro caso, para el grupo A:
A = L1 +
X

= 50.5 +




1
5
C = 50.5 +
7
1 + 2
5+4
35
54.39
9

(se puede tomar 54)

Y para el grupo B:
L1 = 60.5
C

1 =

2 =

(lmite inferior real de la clase modal 61 65)


(tama
no de las clases; por ej. 65.5 60.5 = 5)

(Exceso de la modal resp. anterior: 7 5 = 2)

(Exceso de la modal resp. posterior: 7 4 = 3)

luego
B = L1 +
X




1
2
C = 60.5 +
5 = 60.5 + 2 = 62.5
1 + 2
2+3

Acerca de esta forma de hallar la moda, puede verse <<Estadstica>> por


M. R. Spiegel de la serie Schaum (pags. 47 48; pag. 59 ejercicio 32). Se
reproducen a continuacion.
42

Medidas de tendencia central.


MODA
La moda de una serie de n
umeros es aquel valor que se presenta con la mayor frecuencia,
es decir, es el valor m
as com
un. La moda puede no existir, o incluso, si existe, puede no
ser u
nica.
Ejemplo 1. El sistema

2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18

Ejemplo 2. El sistema

3, 5, 8, 10, 12, 15, 16

Ejemplo 3. El sistema

2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9

tiene de moda 9.

no tiene moda.
tiene dos modas: 4 y 7,

y se llama bimodal.
Una distribuci
on que tiene una s
ola moda se llama unimodal.
En el caso de datos agrupados donde se ha construdo una curva de frecuencias para ajustar
los datos, la moda ser
a el valor (o valores) de X correspondientes al m
aximo (o m
aximos)
.
de la curva. Este valor de X se representa a veces por X

De una distribuci
on de frecuencias, o de un histograma, la moda puede sacarse de la
f
ormula
Moda=L1 +

1
1 +2

donde
L1

= Lmite

(9)

real infreior de clase de la clase modal

(es decir, la clase que contiene la moda).


1

= Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior.

= Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior.

= Tamano del intervalo de clase modal.

32. Desarrollar una f


ormula para determinar la moda de los datos dados por una distribuci
on de frecuencias.

|
|
|

Fig. 3 - 4

...... ...... ...... ...... ...... ....


...... ...... ...... ...... ......
...
....
...
....
....
...
.
.
....
...
....
...
....
...
....
.
.
.
.... ..
.... ...
2
...... ...... ...... .............. ...... ......
.
... . .....
1
... ... ......
.
.
....
.
....
... ....
....
...
..
....
...
.
.
.
....
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
..
...
..
.
....
..
.
..
.
...
.
..
..
.......
........
.
.........
.
. .....
.
.
.
.
......
..
.
.
.
...
.
.....
..
.
.
.
.
.
.....
...
.
.....
.
X=L1
.
X=U1

|
|
|

Moda
X=

43

|
|
|
|

Medidas de tendencia central.


Soluci
on:
Sup
ongase que la figura 3 4 representa tres rect
angulos del histograma de una distribuci
on
de frecuencias, el rect
angulo central corresponde a la clase modal. Sup
ongase igualmente
que todos los intervalos de clase tienen igual tama
no.
del punto de intersecci
Definimos la moda como la abscisa X
on P de las lneas QS y RT.

Sean X=L1 y X=U1 los lmites reales inferior y superior de la clase modal, y 1 y 2
representen, respectivamente, el exceso de frecuencia de la clase modal sobre las dos clases
contiguas a ella.
EP
De los tri
angulos semejantes PQR y PST se tiene RQ
Entonces:

2 (XL
1 )=1 (U1 X)

2 X
2 L1 =1 U1 1 X

PF
XL
1
ST o
1

U1 X
2 .

2 X+
1 X=1 U1 +2 L1

por lo tanto: (2+1 )X=


1 U1 +2 L1 , de donde
1 U1 +2 L1
X=
+
1

Puesto que U1 =L1 +C , donde C es el tama


no del intervalo de clase, se tiene
1 (L1 +C)+2 L1 = 1 L1 +1 C+2L1
X=
+
+
1

( + )L +1 C
= 1 2+1
=L1 +
1
2

1
1 +2

El resultado tiene la siguiente interpretaci


on de inter
es. Si se construye una par
abola de
modo que pase por los puntos medios de las bases superiores de los tres rect
angulos de la
figura, la abscisa del m
aximo de esta par
abola ser
a la moda obtenida anteriormente.

Para responder a la pregunta (b) del principio de este captulo, necesitamos


considerar las llamadas medidas de dispersion, las cuales dan cuenta de lo
contrario de la homogeneidad; i. e. a menor dispersion, mayor homogeneidad.
Las medidas de dispersion seran estudiadas en el siguiente captulo.
Para finalizar el presente, veamos el calculo de la media y de la mediana para
datos agrupados (como lo hicimos de hecho para la moda).
Para empezar, si los n
umeros X1 , X2 , . . . , XK se presentan con frecuencias
f1 , f2 , . . . , fK respectivamente, la media de la coleccion completa se calcula
mediante la formula
P
f1 X1 + f2 X2 + + fK XK
fi Xi

= P
3.1
X=
f1 + f2 + + fK
fi

44

Medidas de tendencia central.


Por supuesto que esto no es nada extraordinario. As, para la coleccion de
datos (valores de una cierta variable Y ): 1, 1, 2, 2, 2, 4, 4, 4, 4, 4 el
c
alculo de la media (en este caso denotada por Y ) es por la formula ordinaria
1+1+2+2+2+4+4+4+4+4
28
Y =
=
= 2.8
10
10
y utilizando la formula 3.1:
(2)1 + (3)2 + (5)4
28
Y =
=
= 2.8
2+3+5
10
Si para estos mismos los datos hacemos una distribucion de frecuencias relativas (expresadas como n
umeros entre 0 y 1, y tambien en porcentaje)
obtenemos

Frecuencia
relativa

Frecuencia
relativa en %

Clase

Frecuencia

2
10

= 0.2

20%

3
10

= 0.3

30%

5
10

= 0.5

50%

totales:

10

10
10

= 1.0

100%

Utilizando a
un la formula 3.1 para las frecuencias relativas (entre 0 y 1):
P
fi Yi
(0.2)1 + (0.3)2 + (0.5)4
Y = P
= 2.8
=
fi
1

y la misma formula para las frecuencias relativas (en %):


P
fi Yi
(20)1 + (30)2 + (50)4
=
Y = P
= 2.8
fi
100

Como se ve para este caso, la f


ormula 3.1 puede ser empleada a
un con frecuencias relativas. En el caso particular de que las fi sean frecuencias relativas
entre 0 y 1, la formula se simplifica a:
X
=
X
fi Xi
3.2
45

Medidas de tendencia central.


donde fi denota la frecuencia relativa. El lector debe ser capaz de justificar
a partir de la definicion de media (pag. 36) la validez de la formula 3.1 para
frecuencias y frecuencias relativas.
Veamos ahora el caso de una verdadera distribucion de frecuencias, por ejemplo, la de los puntajes del grupo A (pag. 37):
GRUPO A
Punto
medio
33
40
47
54
61

Clase
(de puntajes)

30 36
37 43
44 50
51 57
58 64
totales:

Frecuencia
1
2
4
9
5
21

Frecuencia
relativa
0.048
0.095
0.190
0.429
0.238
1.000

Frecuencia
relativa en %
4.8%
9.5%
19.0%
42.9%
23.8%
100.0%

Para el caso de una distribucion de frecuencias con K clases, cuyos puntos


1 , X
2, . . . , X
K y cuyas frecuencias de clase
medios (o marcas de clase) son X
correspondientes son f1 , f2 , . . . , fK (frecuencias relativas o no) definimos
la media con la formula
PK

i=1 fi Xi
= P
X
3.3
K
f
i
i=1

Para el grupo

tenemos

(1)33 + (2)40 + (4)47 + (9)54 + (5)61


1092
=
= 52
1+2+4+9+5
21

(exacto)

A
Comparese este resultado con el obtenido directamente en la pag. 37: X
52.05. El error es muy peque
no. Este se debe a que hemos supuesto, al
aplicar la formula 3.3, que los datos (puntajes para el grupo A) se encuentran
centrados en las marcas de clase, pero esto no es as en la realidad. Por
ejemplo, en la clase 30 36 la marca de clase es 33, la frecuencia de clase es
1 y corresponde al puntaje 32.
Si se hiciese un histograma de la distribucion de frecuencias de los puntajes
= 52 corresponde a la abscisa de
del grupo A, se encontrara que el valor X
la recta vertical que lo divide en dos, de tal forma que apoyandose a la figura
quedara en equilibrio (es decir, X
= 52 es la abscisa del centro de
en X,
gravedad de la figura):
46

Medidas de tendencia central.

29.5

30 36

36.5

37 43

43.5

44 50

50.5

51 57
6

= 52
X

57.5

58 64

64.5

(punto de equilibrio)

La definicion de media de datos agrupados es consistente con la definicion


de media
P de datos aislados. As, para los datos X1 , X2 , . . . , XN , su media
Xi
=
X
es el punto de equilibrio, si pusiesemos masas iguales en cada uno
N
de los puntos X1 , X2 , . . . , XN

X
X1

X2

X3

..
............
...........................
......................................................................
.
.
.........
.
.
.
.
.
.
.
.
.
.
..........................................................................
..........................................................................

XN

para el caso de datos agrupados es la


La mediana (denotada a veces X)
abscisa de la vertical que divide al histograma en dos mitades de igual area
(vease figura)

47

Medidas de tendencia central.

area = area

6
= mediana
X

se calcula utilizando interpolacion lineal.


En la practica , X
6= X;
pero para distribuciones simetricas X
=X
y corresponEn general X
den a la abscisa del eje de simetra, en ese caso.
Calculemos la mediana para la distribucion vista del grupo A (pag. 45):
puesto que las bases de los rectangulos son de la misma magnitud (a saber,
7) las areas son proporcionales a las alturas (con la misma constante de
proporcionalidad). As, el area de los primeros 3 rectangulos es (1+2+4)7 =
49, el area de los primeros 4 es (1 + 2 + 4 + 9) 7 = 112; y la de todos es
21 7 = 147, as que tenemos que fraccionar al cuarto rectangulo de tal
manera que los primeros tres rectangulos mas la fraccion nos de la mitad del
area total (147/2)

(1 + 2 + 4) 7 + fraccion de (9 7) =
es decir
49 + f 63 =

147
2

de donde

f=

147
2
49
126

As, debemos sumar, a partir del lmite inferior de la base del rectangulo, la
fraccion f de la base del mismo.
El lmite inferior real del rectangulo de altura 9 es 50.5 y como su base tiene
magnitud 7 tendremos
= 50.5 + f 7 = 50.5 + 49 7
X
= 50.5 + 2.72
= 53.2
126
La mediana tambien puede ilustrarse geometricamente en un polgono de
frecuencias acumuladas relativas (esto se vera mas adelante al considerar los
cuartiles, deciles y percentiles).
Nota: M. R. Spiegel (o los traductores) le llaman a los polgonos de frecuencias acumuladas relativas, ojivas percentuales.
48

Medidas de tendencia central.

AUTOEVALUACION

1. Para los puntajes:


(a) Media

0,

2,

5,

8,

8,

9,

9,

(b) Moda

9,

13

encuentre:

(c) Mediana

2. El valor promedio de los rangos empricos


11, 13, 14 es:
.

0,

2,

7,

7,

9,

9,

3. Elija el mejor estadstico a usar, seg


un la escala, poniendo en el parentesis la(s) letra(s) que corresponda(n):
(
(
(
(

)
)
)
)

Moda
Media
Frecuencia
Mediana

Escala de razon
B. Escala ordinal
C. Escala de intervalo
D. Escala nominal
A.

4. Para los siguientes datos agrupados, encuentre la media, la mediana y


la moda:
Clase
0 2
3 5
6 8
9 11
12 14
15 17
18 20

Frecuencia
1
3
8
9
5
4
2

5. Aparee:
A.

Mediana
B. Media
C. Moda

(
(
(

49

)
)
)

Medidas de tendencia central.


RESPUESTAS

1. a) 7

b) 9

c) 8.

2. 9 (puesto que se trata de rangos, la escala es ordinal y su promedio lo


proporciona la mediana).
3. ( D )
( A, C )
(--)
(B)
4. Media = 10.2 (aprox.)
Mediana = 9.8 (aprox.)
Moda = 9.1
5. (
(
(

A
C
B

)
)
)

50

Medidas de dispersi
on.
CAPITULO 4:

MEDIDAS DE DISPERSION.

En el captulo anterior habamos abordado un problema del cual resolvimos


una parte: La aptitud para la lectura en el 1er. grado ha sido definida
operativamente como el puntaje de un cierto test. Los puntajes obtenidos
por alumnos de dos grupos son los siguientes:
Grupo
62
60
60
59
58
57
57

56
55
55
54
53
52
51

Grupo

50
50
48
47
40
37
32

69
68
68
67
65
64
64

64
63
62
61
60
58
58

56
56
54
54
51
50
48

(a) De cual grupo puede predecirse un mejor desempe


no en tareas de lectura de 1er. grado?
(b) De cual de los dos grupos cabe esperar un desempe
no mas homogeneo
en tareas de lectura de 1er. grado?
La pregunta (a) fue respondida en base a la medida de tendencia central
de los puntajes de cada grupo. Mas precisamente, se le asigno un puntaje
promedio a cada grupo y estos fueron comparados para decidir la cuestion.
La segunda pregunta, que abordaremos ahora, involucra la cuestion de la
homogeneidad de los grupos. Puesto que la aptitud para la lectura ha
sido definida (operativamente) como el puntaje en el test, el grupo que tenga
puntajes mas homogeneos sera el que tenga una aptitud m
as pareja o mas
uniforme y esto nos dara la respuesta a la pregunta (b).
Desde el punto de vista estadstico, las medidas que se introducen para medir
la homogeneidad son las llamadas medidas de dispersion. En realidad, estas
u
ltimas miden lo contrario a la homogeneidad: a mayor dispersion menor
homogeneidad; a menor dispersion mayor homogeneidad.
La dispersi
on de una colecci
on de datos cuantifica que tan disparados (o
separados) estan los datos. Pero no constituye una medida para cada dato
individual, sino una medida global de que tan dispersos estan los datos como
coleccion, como un todo. As como las medidas de tendencia central (moda,
51

Medidas de dispersi
on.
mediana, media) constituyen un valor promedio para la coleccion de los datos
(valores de una cierta variable) las medidas de dispersion constituyen un valor
promedio de que tanto se dispersan los datos de la coleccion.
La medida de dispersion mas conocida es, seguramente, la desviaci
on est
andar (o desviacion tpica). Esta medida de dispersion se utiliza asociada con la
media aritmetica y, por lo tanto, es aplicable a mediciones al nivel de escala
de intervalo o de razon.
Veamos primero la definicion de la desviacion estandar y luego comentaremos
por que es definida precisamente de esa manera.
Si la variable X asume los valores X1 , X2 , . . . , XN , la dispersi
on de tales valores, medida seg
un su desviaci
on est
andar
(denotada en este caso por SX ), est
a dada por
v
u
N
u1 X
t
2
(Xi X)
SX =
N i=1
=
donde X

X1 +X2 ++XN
N

es la media aritmetica de los valores.

Para entender mejor la formula anterior, notemos algunos de sus componentes:


es llamada la desviaci
Xi X
on de Xi .

es la desviacion de Xi respecto a la media.


En realidad Xi X
Por que medir la desviacion respecto a la media? Para empezar, toda desviacion tiene que medirse con respecto a algo. Si pregunto, por ejemplo,
est
a el valor Xi muy desviado?, me replicaran justamente: con respecto a
que o a quien? Esto es, no se puede hablar en abstracto de desviacion.
Bien, pero por que precisamente se elige medir la desviacion con respecto
a la media? Si estamos pensando que la media aritmetica es un buen centro
o promedio de los datos, parece sensato medir las desviaciones respecto al
centro natural de los datos.
Ahora bien, si queremos una especie de promedio de las desviaciones, podramos simplemente considerar:
N
1 X

(Xi X)
N
i=1

52

Medidas de dispersi
on.
Consideremos tal suma para ver que ocurre:
N
N
N
1 X
1 X
1 X

1 (N X)
=X
X
=0
(Xi X) =
Xi
X =X
N
N
N
N
i=1

i=1

..

i=1

N
1 X
=0
(Xi X)
N i=1

N
X
i=1

=0
(Xi X)

Evidentemente la media de las desviaciones no sirve para nada (siempre toma


mide la desviacion con signo. Un
el valor 0). La razon de esto es que Xi X
dato que se encuentre 3 unidades por encima o por debajo de la media esta
igualmente desviado en ambos casos. Por esta razon, en cierto modo, se
introduce el cuadrado de la desviacion:
2 = desviacion cuadratica de Xi .
(Xi X)
Lo que sigue en la formula de SX es tomar la media de las desviaciones
cuadraticas:
N
1 X
2
(Xi X)
N
i=1

Finalmente, para que las unidades tengan la dimension adecuada, se toma la


raz cuadrada de la u
ltima expresion:

SX

v
u
N
u1 X
t
2
(Xi X)
=
N i=1

2 queda en
(esto es, si los Xi estan medidos, por ejemplo, en cm, (Xi X)
cm2 ; de aqu la necesidad al final de tomar raz cuadrada).
S
olo queda una cuestion pendiente. No haba necesidad estricta de tomar
2 para evitar el problema del signo (i. e. lo insensato de tener
(Xi X)
desviaciones negativas en este contexto de dispersi
on). Se pudo resolver
, con lo cual la
el problema de otra manera, por ejemplo tomando Xi X
siguiente expresion sera una buena medida promedio de las desviaciones:
N

1 X

Xi X
N i=1

De hecho, esta u
ltima medida de la dispersion recibe el nombre de desviaci
on
media.
53

Medidas de dispersi
on.
Veamos por que resulta mas adecuado utilizar la raz de la desviacion cuadr
atica media1.
Habamos dicho antes que medir desviaciones implicaba tener un origen respecto al cual se medan. Si tenemos datos como se muestra en la figura y se
miden sus desviaciones respecto a un punto A (que tambien se muestra), los
datos luciran mas desviados a medida que A se aleje de ellos:

.
.
.
.
.
.................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.

X1

X2

X3

X4

Esto es, cambiando el origen A cambia el valor de la dispersion de los datos (medida desde A), de tal forma que no existe un valor maximo para tal
dispersion (si A se aleja indefinidamente de X1 , X2 , . . . , el valor de la dispersi
on crece indefinidamente. Mdase esta u
ltima en terminos de la raz de la
desviacion cuadratica media o en terminos de la media de valores absolutos
de las desviaciones o de cualquier otra formula sensata).
M
as precisamente, si definimos una suerte de dispersion como la raz cuadrada de la desviacion cuadratica media con respecto a A:
v
u
N
u1 X
t
S(A) =
(Xi A)2
N
i=1

es claro que a medida que A se aleje de todos los valores X1 , . . . , XN , S(A)


crecera sin lmite. Lo mismo ocurrira con D(A) dado por:
N
1 X
D(A) =
|Xi A|
N
i=1

La dispersion depende del origen elegido desde el cual se midan las desviaciones, sean estas cuadraticas o no, de tal manera que no habra una cota (un
valor tope o maximo) para tales valores de la dispersion. Sin embargo, s hay
un tope inferior, esto es, un valor mnimo posible para tales dispersiones.
Podemos razonablemente pensar que el verdadero valor de la dispersion
es aquel que se mide con el mejor origen A posible, en el sentido de que
1

1
N

PN

i=1

2 es llamada desviaci
(Xi X)
on cuadr
atica media, pues es la media de las

desviaciones cuadr
aticas.

54

Medidas de dispersi
on.
este u
ltimo haga mnima a tal dispersion. Es decir, podemos pensar ilusoriamente que la dispersion es grande porque nuestro origen o punto de
referencia esta mal elegido (vease la siguiente figura).
X1

X3

.
.
.
.
.
.................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.

X2

X4

Los datos se ven muy dispersos si se juzgan con A como punto de referencia,
pues |Xi A| y (Xi A)2 resultan muy grandes en relacion con |Xi Xj | o
(Xi Xj )2 , i 6= j. Tal eleccion de A es muy artificial.
Ahora bien, mostraremos que el punto A, que hace mnima a S(A), es precisamente la media aritmetica. Esto es
v
u
N
u1 X
t

Mn
(Xi A)2 ,
ocurre cuando A = X.
N i=1

En efecto, el valor de A que hace mnimo a S(A) es el mismo que hace mnimo

2
a S(A) , pero
N
N

2

1 X
1 X
2
+ (X
A) 2
S(A) =
(Xi A) =
(Xi X)
N i=1
N i=1

N 
1 X
2
2

=
(Xi X) + 2(Xi X)(X A) + (X A)
N
i=1

N
N
N
2


2
1 X
2 X
1 X

Xi X +
Xi X X A +
=
X A
N
N
N
i=1
i=1
i=1
 N
N

X



1 X
2+ 2 X A
+ 1N X
A 2
=
Xi X
Xi X
N
N
N
i=1

pero ya vimos que

i=1

N
X
i=1


= 0; luego, nuestra expresion se reduce a:
Xi X

N
2


1 X
2+ X
A 2
S(A) =
Xi X
N
i=1

55

Medidas de dispersi
on.
N

1 X
2 no depende de A, la expresion como funcion de
puesto que
Xi X
N
i=1
2
A sera mnima cuando Xi A sea mnima. Esta u
ltima expresion, por
adquirir solo valores positivos o el cero, sera mnima cuando A se elija igual
en cuyo caso:
a X,


N

2

1 X
2
Mn S(A)
=
Xi X
N i=1

Por cierto, D(A) se minimiza (y esto no lo probay ocurre cuando A = X.


remos aqu) cuando A es la mediana y no la media de los datos.
Con toda esta serie de consideraciones se espera que el lector se haya convencido de que la medida de dispersion naturalmente asociada a la media
aritmetica como centro, es precisamente la desviacion estandar2 , SX , dada
por la relacion
v
u
N
u1 X
t
2
(Xi X)
SX =
N
i=1

Podemos ahora abordar la segunda pregunta planteada al inicio del presente


captulo, acerca de la homogeneidad de los grupos A y B. Para ello, calcularemos la desviacion estandar de los puntajes. Tenamos que (en el captulo
sobre Medidas de Tendencia Central, pag. 13) aproximadamente:
A = 52.05
X

B = 60.00
X

con lo que (aqu N = 21 en ambos casos)



 1220.95
2 1

SA
(62 52.05)2 + + (32 52.05)2 =
=
= 58.14
21
21

..

SA
=

58.14
= 7.6

Mientras que

 782
2 1

SB
(69 60)2 + + (48 60)2 =
=
= 37.24
21
21

..
SB
= 37.24
= 6.1
2

En el apendice damos una justificaci


on fsica de la naturalidad de la desviaci
on
est
andar.

56

Medidas de dispersi
on.
Observamos que SB < SA , esto es, la dispersion del grupo B (seg
un la desviacion estandar) es menor que la del grupo A; luego, el grupo B es mas
homogeneo que el A. En resumen, si la escala de medicion que determinan
los puntajes del test estan al nivel de una escala de intervalo o superior,
entonces puede decirse que, en cuanto a aptitud, el grupo B es ligeramente
m
as homogeneo que el grupo A; luego, puede predecirse un desempe
no mas
homogeneo en tareas de lectura en el grupo B que en el A.
Cuando se tienen datos agrupados como los de la tabla del grupo A (pag. 37)
o del grupo B (pag. 38), la desviacion estandar se calcula como si los valores
de los datos fuesen los puntos medios o marcas de clase, repetidos tantas
veces como su frecuencia, tal como se hace para calcular la media. As, para
el grupo A tenemos
SA =

1(3352)2 +2(4052)2 +4(4752)2 +9(5452)2 +5(6152)2


1+2+4+9+5

1(19)2 + 2(12)2 + 4(5)2 + 9(2)2 + 5(9)2


21
r
r
361 + 288 + 100 + 36 + 405
1190
=
=
= 7.53
21
21
=

donde la media de los datos agrupados ya se haba calculado como 52 (exacto). Existen otras medidas de la dispersion, como veremos.
El rango se obtiene para una coleccion de datos restando del mayor
de ellos el menor:
RANGO.

Rango = Dato mayor Dato menor


As, para el grupo A:
Rango = 62 32 = 30.
Y para el grupo B:
Rango = 69 48 = 21.
El rango utilizado directamente es una medida muy imprecisa de la dispersi
on. En efecto, las dos colecciones siguientes tienen el mismo rango:
Coleccion 1: 3, 2, 1,

0,

1,

2,

Coleccion 2: 3,

3,

3,

3,

3,

3,

Sin embargo, es claro que los datos de la coleccion 2 estan menos dispersos
que los de la coleccion 1.
57

Medidas de dispersi
on.
Percentiles, deciles, cuartiles.
La desviacion estandar es muy buena medida de la dispersi
on, cuando la
variable en cuestion se mide en una escala de intervalo. Esto es as por
varias razones. Baste por ahora observar que la desviacion estandar esta
naturalmente asociada a la media aritmetica y que, esta u
ltima solo puede
ser utilizada apropiadamente cuando la medicion se realiza al menos al nivel
de la escala de intervalo. Recuerdese, para insistir en este respecto, que la
media aritmetica representa el promedio o centro de los datos, en el sentido
de que apoyando una balanza en la media y poniendo una misma masa en
lugar de cada dato, se obtiene una situacion de equilibrio.

.
.
.
.
.
..............................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
..........
.................................................
.
.
.
...................................
......................................................
1
2
3
N

Pero esto es valido, seg


un la ley de la palanca, cuando la suma de los momentos (productos de los pesos por los brazos de palanca) de uno y otro
lado del punto de apoyo son iguales. O lo que es lo mismo: cuando la suma
algebraica (se le dan signos a los brazos de palanca) de los momentos es cero.
En nuestro caso (representando los pesos por M):
N
X
i=1


=0
M Xi X

No escribimos Mi en vez de M, pues supusimos todos los pesos iguales.


Ahora bien, para que tal ley de la palanca sea valida, se sobreentiende que
todos los brazos de palanca son medidos con una misma unidad. Esto es,
debe haber una unidad uniforme de medida. Pero esta u
ltima condicion
s
olo la satisfacen escalas de medicion de intervalo y razon. Sin embargo,
cuando realizamos mediciones en educacion, rara vez se obtiene una escala
con estas caractersticas, de practicamente todas las escalas que se emplean
en la Fsica: longitud en centmetros, masa en kilogramos, etc. Por ejemplo,
cuando se mide la inteligencia como el puntaje de un test, es realmente
difcil asegurar que: Si un sujeto A tiene un puntaje de 90 y un sujeto B uno
de 110, entonces el defecto en inteligencia de A con respecto a la inteligencia
del puntaje 100, sera el mismo que el exceso de inteligencia de B con respecto
a la del puntaje 100. Esto es, no es claro que los 10 puntos por encima
de 100 son equivalentes a los 10 puntos por debajo de 100. As, aunque la
media aritmetica de 90 y 110 sea 100, no es claro que esta mida la inteligencia
promedio de los sujetos A y B.
58

Medidas de dispersi
on.
Cuando se realiza un test con cierto cuidado para medir una cierta variable en educacion (o en general en las ciencias de la conducta), cabe esperar,
que puntajes mas altos correspondan verdaderamente a valores mas altos
de la variable (p. ej. mayor puntaje corresponde a mayor inteligencia; mayor puntaje corresponde a mayor habilidad matematica. Entendiendo que
el test define operativamente a las variables inteligencia y habilidad matem
atica, respectivamente). En otras palabras, cabe esperar, si el test ha
sido cuidadosamente elaborado, que la escala de los puntajes constituya una
escala ordinal con respecto a la medicion de la variable en cuestion.
Nuestro asunto, en el presente captulo, es el de medidas de dispersion y estamos precisamente observando que las escalas que nos ata
nen son jerarquicas
u ordinales y que por tanto, no podemos medir la dispersion, con buen grado de confianza, con la desviacion estandar. Desafortunadamente, no existe
ninguna medida de dispersion (que los autores conozcan) tan perfectamente
adecuada o impecable, para escalas ordinales, como lo es la desviacion estandar para las de intervalo. Sin embargo, hay una serie de conceptos y medidas
de dispersion asociados a ellos, los cuales, utilizados con buen tino pueden
servirnos para la dispersion en escalas ordinales. Los conceptos a que nos
referimos son los de percentil, decil y cuartil.
Se recordara que la mediana era el valor (o medida de la variable) la cual
divida, en cuanto al orden, a la coleccion de datos en dos partes iguales: un
mismo n
umero de datos mayores que los menores que la mediana. Esta idea,
puede generalizarse. El percentil 20 (denotado P20 ) es aquel que divide a la
coleccion de datos en dos grupos de tal suerte, que el 20% de los datos caigan
por debajo de el y el restante 80% por encima. En este sentido, la mediana
es el percentil 50 (se designa con P50 ).
Este lenguaje es, por supuesto, solo aproximado. Cuando se tiene, por ejemplo, cinco datos: X1 , X2 , X3 , X4 , X5 puestos en orden
X1 < X2 < X3 < X4 < X5
la mediana es X3 . Estrictamente hablando, solo el 40% de los datos (X1 y
X2 ) son menores que la mediana y el 40% mayores. Lo que ocurre es que
X3 mismo se toma en cuenta: medio X3 se considera inferior a X3 y otro
medio X3 se considera superior a X3 . De este modo, 2.5 datos (el 50%) son
superiores a X3 y 2.5 (el otro 50%) son inferiores a X3 .
La utilizacion adecuada de los percentiles ocurre cuando se tiene una buena cantidad de datos, para la cual las aproximaciones sujetas a criterio se
vuelven menos significativas. Esto es especialmente cierto cuando se consideran datos agrupados (por ejemplo en distribuciones de frecuencia). Cuando
59

Medidas de dispersi
on.
se construye un polgono de frecuencias acumuladas relativas en por ciento, el percentil P35 , por ejemplo, es la abcisa cuya ordenada en el polgono
corresponde a 35%.
Los percentiles P1 , P2 , . . . , P99 dividen a los datos (al menos teoricamente)
en 100 partes iguales. De modo similar, los deciles los dividen en 10 partes
iguales. As, el primer decil D1 corresponde a P10 ; D2 a P20 , etc.
Los cuartiles Q1 , Q2 , Q3 dividen a los datos en cuatro partes iguales (siempre
con respecto al orden). As Q1 = P25 , Q2 = P50 = mediana, Q3 = P75 .
Ahora veremos como se pueden utilizar los percentiles para medir la dispersi
on. Habamos apuntado antes que las marcas 1, 2, 3, 4, 5 de una escala
ordinal podan ser cambiadas por las marcas 0, 3, 7, 11, 16 sin alterar esencialmente la escala. Mas precisamente, que las escalas ordinales son u
nicas
excepto por transformaciones monotonas. Conviene, sin embargo, para fines de medicion de la dispersion, nombrar las distintas marcas de la escala
(rangos), de la jerarquicamente menor a la mayor, con enteros consecutivos,
como 1, 2, 3, 4, . . ., etc. De este modo, un incremento en dos unidades, por
ejemplo, representa un ascenso de dos rangos o categoras.
Observemos que entre los cuartiles Q1 y Q3 (que corresponden a P25 y P75
respectivamente) se encuentran el 50% de los datos, con la mediana ocupando una posicion intermedia entre Q1 y Q3 . El llamado Rango semi
intercuartlico se define por
Q3 Q1
2
Este rango semi-intercuartlico es una medida de la desviacion de la mediana
del 50% central de los datos y puesto que este 50% es la mitad de los datos,
parece una buena medida de la dispersion de los mismos.
Rango semi-intercuartlico =

Debe, empero, utilizarsele con cuidado en las escalas ordinales. Para nuestro
muy trillado ejemplo de los grupos A y B, tenemos:
Grupo A:

21
= 5.25;
4

Q1 = 49.5,

Q3 = 57.25

(porque 48 ocupa el lugar 4.5 y 50 el 5.5, etc.). As tenemos que el rango


semi-intercuartlico es
SI =

Q3 Q1
57.25 49.5
7.75
=
=
=4
2
2
2

60

Medidas de dispersi
on.
Grupo B:

21
= 5.25;
4

Q01 = 55.5,

Q03 = 64.25

y el rango nos queda


SI =

Q3 Q1
64.25 55.5
8.75
=
=
= 4.5
2
2
2

Los redondeos son debidos a que menos de media unidad representa un incremento o decremento de menos de medio rango, lo cual es poco significativo
(tal vez, un incremento o decremento de medio rango tampoco lo sea, de
hecho).
Aparentemente, la dispersion, seg
un esta medida, es mayor para los datos
del grupo B, pero solo ligeramente. Sin embargo, debe tomarse en cuenta
la posicion de los cuartiles: Q1 = 49.5, Q3 = 57.25, Q01 = 55.5, Q03 = 64.25.
Observese que los intervalos intercuartlicos comprenden puntajes que son
pr
acticamente ajenos y esto tiene mucha importancia, pues no hay una unidad uniforme de medida en una escala ordinal. El brinco de Q1 a Q3 de
aprox. 8 unidades, no se puede claramente comparar con el de Q01 a Q03 de
aprox. 9 unidades, pues son 8 y 9 unidades medidas en porciones distintas
de las escala:
Q1

55.5

Q3

64.25

49.5

Q01

57.25

Q03

.
.
.
...
...........................................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.

En este ejemplo, los rangos semi-intercuartlicos no son significativos para


establecer la comparacion de ambas dispersiones.
Otra medida de la dispersion, es el Rango entre percentiles 10 90. Se define
como sigue:
Rango entre percentiles 10 90 = P90 P10
Observese que entre P10 y P90 se encuentra el 80% central de los datos. Por
supuesto, el experimentador educativo puede decidir si este 80% es o no el
grueso de los datos y elegir otros percentiles si mas le acomoda. Como en
el caso de los cuartiles, cuando se hagan comparaciones, debe tenerse cuidado
de que se tengan porciones semejantes de la escala entre P10 y P90 y entre
0
0
P10
y P90
, de preferencia que un intervalo este contenido en el otro.

61

Medidas de dispersi
on.
Para el caso de los grupos A y B, puesto que el 10% de los datos quiere decir
10
on 1.5, 40 la
21 = 2.1 datos y como para el grupo A 37 ocupa la posici
posicion 2.5, etc., tenemos
P10 = 37 +
P90 = 60

2.1 1.5
(40 37) = 37 + 0.6(3) = 38.8
2.5 1.5
(60 ocupa las posiciones 21 2.5 y 21 1.5)

con lo que
P90 P10 = 60 38.8 = 21.2 .
Mientras que para el grupo B, 50 ocupa la posicion 1.5, 51 la posicion
2.5, etc. Luego
0
P10
= 50 +

2.1 1.5
(51 50) = 50.6 ,
2.5 1.5

0
P90
= 68

0
0
y P90
P10
= 17.4

De nuevo, aunque P90 P10 excede (no por mucho, en un 20% mas o menos)
0
0
a P90
P10
, el intervalo [P10 , P90 ] tiene, relativamente, poca interseccion con
0
0
[P10 , P90 ] por lo que no se concluyen diferencias en la dispersion y por ende,
en la homogeneidad.
Aunque en este caso no funciono, la recomendacion es probar, de ser necesario, con ambos rangos, el semi-intercuartlico y el rango entre percentliles
10 90. Si para uno de ellos, digamos el intercuartlico, el intervalo entre
el primer y tercer cuartil de un grupo esta contenido en el correspondiente
intervalo del otro grupo, la cuestion se decide facilmente: el intervalo mas
peque
no probablemente corresponde al grupo mas homogeneo o menos disperso.

62

Nociones de probabilidad. Distribuciones Te


oricas.
CAPITULO 5:

NOCIONES DE PROBABILIDAD.

DISTRIBUCIONES TEORICAS.

Cuando realizamos un experimento cuyos resultados no pueden ser controlados a voluntad, o cuando no puede predecirse con seguridad, cual precisamente, entre los varios posibles (resultados), va a ocurrir, decimos que se
trata de un experimento de azar o aleatorio. Tal es el caso del lanzamiento
de una moneda en un volado; no es posible predecir cual sera la cara de
la moneda que quedara expuesta: aguila o sol. Este es, probablemente,
el ejemplo mas clasico de experimento de azar, seguramente porque resulta
did
acticamente adecuado. Este ejemplo, resultara especialmente u
til para
nuestros propositos, por lo cual, para economizar la escritura, denotaremos
al evento (o resultado) consistente en que la cara expuesta de la moneda sea

aguila con A y al otro evento posible (caer sol), con S.


En vez de pensar en un solo lanzamiento de la moneda, podemos considerar
series de lanzamientos. Para fijar ideas, pensemos en una serie de 3 lanzamientos. Los eventos o resultados en terminos de A y de S (i. e. de aguilas y
soles) se enlistan abajo:
AAA

ASA

ASS

SSA

AAS

SAA

SAS

SSS

donde, por ejemplo, ASA denota la ocurrencia de aguila en el primer lanzamiento, de sol en el segundo y finalmente, de aguila en el tercero. El lector
habra notado que esta serie de tres lanzamientos es un experimento de azar.
No puede de antemano saberse cual de entre esos 8 posibles resultados va a
tener lugar.
Sup
ongase, siempre que se piense en lanzamientos, que la moneda en cuestion
es decente. Esto es, la moneda no esta deformada, ni esta cargada; no
tiene cara privilegiada.
Regresando a la serie de 3 lanzamientos, notemos que cada uno de los ocho
eventos enlistados es posible. Es posible tambien que al efectuar CINCO series
de 3 lanzamientos cada una, ocurra solamente el evento AAA; esto es, que
el evento AAA ocurra en cinco realizaciones del experimento consistente en
una serie de 3 lanzamientos. Nos preguntamos si el lector estara dispuesto a
hacer una apuesta con un amigo, en los siguientes terminos:
1. Cuando ocurra el evento

AAA,

el amigo pagara al lector 2 pesos.

2. Cuando ocurra cualquier otro, el lector pagara al amigo 1 peso.


63

Nociones de probabilidad. Distribuciones Te


oricas.
Probablemente el lector conozca otros modos mas interesantes o mas divertidos de perder dinero. Aunque es posible que el evento AAA ocurra con
mucha frecuencia, es muy poco probable que sea as. El hecho de que un
experimento sea de azar, no significa que todo da lo mismo. En particular, ciertamente que no da lo mismo que ocurra el evento AAA o el evento
cualquier terna distinta de AAA. Intuitivamente, esperamos que el segundo
evento ocurra con mas frecuencia que el primero, ya que el segundo evento tiene 7 oportunidades en las 8 posibilidades de ocurrir, mientras que el
primero, tiene solo 1 de 8. Seg
un esto, la frecuencia (relativa) con la cual
esperamos que ocurra el evento segundo, es 78 y para el primero esperamos
una frecuencia relativa de solo 18 .
La probabilidad de un evento es la frecuencia relativa con la cual se espera
(a la larga) que ocurra. De acuerdo a nuestro punto de vista intuitivo, la
frecuencia esperada para el evento AAA, despues de la serie de tres lanzamientos, es 81 ; luego entonces, la probabilidad (de la ocurrencia) del evento AAA
es 18 . Similarmente, la probabilidad (de la ocurrencia) del evento cualquier
terna distinta de AAA es 87 . Esto es correcto, pero amerita cierta justificaci
on. Obtener la frecuencia relativa esperada (y por lo tanto la probabilidad)
dividiendo el n
umero de casos favorables entre el n
umero total de posibilidades, es correcto solo cuando las posibilidades (i. e. los posibles resultados)
tienen la misma oportunidad de ocurrir. Cuando dos o mas eventos tienen la
misma oportunidad de ocurrir se dice que son equiprobables (i. e. igualmente
probables).
Trataremos ahora de justificar que los 8 eventos enlistados en la pag. 37, para
la serie de tres lanzamientos, son efectivamente equiprobables. Para empezar,
partimos de la hipotesis de que la moneda involucrada es honesta. Esto
significa que el resultado A tiene la misma oportunidad que el S. Dicho en
terminos operativos, en un lanzamiento la probabilidad de ocurrencia de A
es la misma que la probabilidad de la ocurrencia de S. Puesto que solo puede
ocurrir A o S (no tomando en cuenta la posibilidad, demasiado remota de que
la moneda quede de canto), la probabilidad o frecuencia relativa teoricamente
esperada para la ocurrencia de A es 21 y la probabilidad de S es tambien 21 .
Sabemos ya que para el caso de un lanzamiento, los eventos A y S son equiprobables (con probabilidad 12 ). Veamoslo ahora con series de lanzamientos.
Para ello, una segunda hipotesis nos dice que, en cuestion de lanzamientos, la
moneda no tiene memoria. Esto es, el hecho de que ocurra A en un lanzamiento no influye en el resultado del siguiente lanzamiento; puede ocurrir A
o S todava con la misma probabilidad. La moneda no sabe que resultado
ha tenido lugar en el lanzamiento anterior (en particular, la moneda no se

64

Nociones de probabilidad. Distribuciones Te


oricas.
deforma; no han quedado huellas del resultado anterior). Suele decirse que
los resultados de los lanzamientos son independientes.
Encontremos, en una serie de dos lanzamientos, la probabilidad de que ocurra
el evento AA. La A del primer lanzamiento ocurre (teoricamente) la mitad de
las veces; despues de esa primera A, en el segundo lanzamiento la (segunda)
A ocurre la mitad de las veces. As, las dos A juntas (formando AA) ocurren
(te
oricamente) la mitad de la mitad de las veces; o sea, la cuarta parte de
las veces. Vease el siguiente cuadro ilustrando el comportamiento esperado:
primer
lanzamiento

(# total de intentos)

N2

veces cae

2 veces cae

segundo
lanzamiento

4 veces cae

N
4

A se obtiene AA

veces cae

S se obtiene AS

4 veces cae

A se obtiene SA

N
4

veces cae

S se obtiene SS

En el cuadro se ilustra lo dicho en palabras. En N intentos (N series de


2 lanzamientos), se espera haya cado A en el primer lanzamiento en N2
ocasiones y S en N2 ocasiones tambien. Entre estas N2 veces de ocurrencia
de A en el primer lanzamiento, en la mitad de ellas ( N4 ) habra cado A en
el segundo lanzamiento tambien. As se espera obtener AA (teoricamente)
en N4 casos de los N. Luego la probabilidad de AA es 41 . Similarmente, la
probabilidad de AS, SA y SS es 14 en cada caso.
Otro modo de visualizar este asunto es con un arbol, donde se sube con
y se baja con S, como se ilustra:
segundo
lanzamiento
primer
lanzamiento 1

............
....................................
.......
....
....
.....
.
..
.........
...................
.
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
......
........ .............
...
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.................................
.
...... ..........
........
..............
......
.....................
1 ..................................
...........................
........
.......
.
.
.
.
.
........... ...............
.
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........................
........... .........
....
2.........
................
1
.....
.
.
.
.
......
...
......
......
.....
2
.
.
.
.
.
.
.
.
.
........... .............
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...........
....
.........
.....
.....
............................................
.
.
.....
.
.
......
.....
....
......
.....
1 ........................
.....
.....
.....
....... ......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.......
........
.
1 .......... . ............. .............. ...............
.
.
.
.
.
.
.
.
.
................................
............
.
.
.
.
.
.
.
.
.............
2 ................
............
......
....... ...............
..........................................
.........
......
.....
........................................
.........
..
.....
1 .....................................
.
......
....
2
.......
........
.
.
.
.
..............................
...........

AA

SA

inicio

AS

SS

65

Nociones de probabilidad. Distribuciones Te


oricas.
Partiendo del inicio, se abren dos posibilidades para el primer lanzamiento, A
y S, esperando que ocurran teoricamente la mitad de las veces cada una. Una
vez obtenido el resultado (sea A o S) se vuelven a abrir dos posibilidades, A y
S, para el segundo lanzamiento, esperando que ocurran la mitad de las veces
cada una. Ubicados en el inicio, anticipamos la ocurrencia de AA la mitad de
la mitad de las veces, i.e. 21 12 = 14 , o sea, la cuarta parte de las veces. La
probabilidad de AA, como la frecuencia relativa esperada, sera entonces 14 y
lo mismo puede decirse de los otros tres pares. As, los eventos AA, AS, SA y
1
alisis semejante, muestra
SS son equiprobables (con probabilidad 4 ). Un an
que, en series de tres lanzamientos, los eventos AAA, AAS, ASA, SAA, ASS, SAS,
1
1
1
1
SSA, SSS son equiprobables con probabilidad 2 2 2 = 8 .
Introduzcamos ahora una variable:

X = n
umero de aguilas en una serie de 3 lanzamientos.
As, los posibles valores de X son 0, 1, 2 y 3. Note que la condicion X = 2,
por ejemplo, constituye el evento ocurrencia de 2 aguilas en tres lanzamientos. Note tambien que no todos los valores posibles de X tiene la misma
oportunidad.
X =0

solo se cumple cuando ocurre

X =1
X =2

se cumple cuando ocurre


se cumple cuando ocurre

X =3

solo se cumple cuando ocurre

SSS.

o SAS o SSA.
AAS o ASA o SAA.

ASS

AAA.

As, la probabilidad del evento X = 0 es 81 . Esto se denota: Pr(X = 0) = 81 .


Similarmente
3
1
3
Pr(X = 2) =
y
Pr(X = 3) = .
Pr(X = 1) = ,
8
8
8
La distribucion teorica (o probabilstica) de la variable X se muestra en la
siguiente tabla
frecuencia
relativa te
orica

X
0
1
2
3
Total:

(probabilidad)
1
8
3
8
3
8
1
8
8
8

= 0.125
= 0.375
= 0.375
= 0.125
=1

66

Nociones de probabilidad. Distribuciones Te


oricas.
Esta distribucion se muestra en un histograma a continuacion:
3
8

1
8
0

La media de esta distribucion (seg


un la formula para medias de datos agrupados y frecuencias relativas) se obtiene:
 
 
 
 
3
3
1
3 6 3
12
3
1
=0
+1
+2
+3
= + + =
= = 1.5
X
8
8
8
8
8 8 8
8
2
Esto es, en series de tres lanzamientos se esperan, en promedio, 1.5 aguilas; lo
cual concuerda con la idea de que aguilas y soles tienen la misma oportunidad:
en una serie de tres lanzamientos se esperan 1.5 aguilas y 1.5 soles.
Se puede construir la distribucion de frecuencias acumuladas (teoricas) de la
variable X como sabemos hacerla:
frec. acum.
relativa te
orica

X
0
1
2
3

(prob. acum.)
1
8
4
8
7
8
8
8

= 0.125
= 0.5
= 0.875
=1

En el primer renglon, la entrada 18 corresponde a la frecuencia teorica o probabilidad de que X 0. En el segundo renglon la probabilidad de que X 1.

67

Nociones de probabilidad. Distribuciones Te


oricas.
Simb
olicamente los renglones corresponden a la siguiente informacion:
1
8
4
Pr(X 1) =
8
7
Pr(X 2) =
8
8
Pr(X 3) =
8
Pr(X 0) =

= 0.125
= 0.500
= 0.875
= 1.000

Una variable como la descrita, la cual adquiere sus posibles valores con una
cierta probabilidad para cada uno, se llama variable aleatoria (discreta).
M
as precisamente, una variable, digamos X, la cual tiene valores posibles
X1 , X2 , X3 , . . . , XN , . . . , se dice ser una variable aleatoria discreta, si para cada uno de sus valores existe asignada una cierta probabilidad de adquirirlos. Esto es, existen n
umeros p1 , p2 , p3 , . . . , pN , . . . , que representan
las probabilidades de que X adquiera el valor X1 , X2 , X3 , . . . , XN , . . . ,
respectivamente, i.e.
Pr(X = Xi ) = pi

i = 1, 2, . . . , N, . . .

Como estamos pensando en la probabilidad como frecuencia relativa, debe


satisfacerse que
p1 + p2 + + pN + = 1
Consistentemente con los calculos de la pagina 43 tenemos:
= p1 X1 + p2 X2 + + pN XN +
X
recibe el nombre de valor esperado (o media) de X. Esto es, se espera que
X

a la larga el valor de X resulte ser X.


De hecho, cabe esperar que la probabilidad como frecuencia teoricamente
esperada se cumpla a la larga. As la probabilidad 21 para la ocurrencia de A
en un lanzamiento, se espera se cumpla al efectuar muchos lanzamientos. Es
decir, despues de efectuar muchos lanzamientos y haber anotado las aguilas
y soles obtenidos, se encuentra el cociente del n
umero de aguilas entre el
n
umero total de lanzamientos y se espera que este n
umero tienda a ser 12 .
En resumen, hemos introducido la nocion de variable aleatoria discreta, con
el ejemplo
X = n
umero de aguilas en una serie de 3 lanzamientos
68

Nociones de probabilidad. Distribuciones Te


oricas.
En tal caso, los valores posibles de X son 0, 1, 2, 3 y encontramos que
1
,
8
3
Pr(X = 1) = ,
8
3
Pr(X = 2) = ,
8
1
Pr(X = 3) = ,
8

Pr(X = 0) =

donde

1 3 3 1
+ + + = 1.
8 8 8 8
Lo anterior describe, bajo el punto de vista matematico, a la variable aleatoria X. Esta asignacion de probabilidades constituye una distribucion de
frecuencias relativas teoricas o, como suele decirse, una distribucion de probabilidad, la cual en forma de tabla nos quedo
Pr(X=0) + Pr(X=1) + Pr(X=2) + Pr(X=3)

frecuencia
relativa te
orica

X
0
1
2
3
Total:

(probabilidad)
1
8
3
8
3
8
1
8
8
8

= 0.125
= 0.375
= 0.375
= 0.125
=1

La distribucion anterior constituye un caso particular de una familia de distribuciones de probabilidad englobadas bajo el nombre generico de distribucion
binomial. La palabra binomial que ah aparece no es un adorno; tiene
efectivamente que ver con el teorema del binomio.
Note por el momento que
(a + b)3 = 1 a3 + 3 a2 b + 3 ab2 + 1 b3
siendo los coeficientes (binomiales) 1, 3, 3, 1. Estos coeficientes coinciden
con los numeradores de la probabilidad asignada a X = 0, X = 1, etc., a
1 3 3 1
saber, , , y .
8 8 8 8

69

Nociones de probabilidad. Distribuciones Te


oricas.
Si en vez de poner a y b en abstracto, escogemos a = 21 , b =
1=

1 1
+
2 2

3

1
2

tendremos

 
 
 
 
1
1
1
1
=1
+3
+3
+1
8
8
8
8

puesto que en tal caso a3 = a2 b = ab2 = b3 = 81 .


El elevar al cubo tiene que ver con nuestro problema: 3 es el n
umero de
1
lanzamientos (o intentos). El poner a = 2 tiene que ver con la probabilidad
de que ocurra aguila en un intento. El poner b = 12 es la probabilidad de que
no ocurra aguila en un intento.
Para el caso de 4 lanzamientos de la moneda, si
Y = n
umero de aguilas en 4 lanzamientos
entonces Y = 0, 1, 2, 3, 4; donde
frecuencia
relativa te
orica

Y
0
1
2
3
4
Total:

(probabilidad)
1
16
4
16
6
16
4
16
1
16
16
16

= 0.0625
= 0.25
= 0.375
= 0.25
= 0.0625
=1

como puede verificar facilmente el lector enlistando los posibles resultados


(equiprobables) que son 16 en total:
AAAA

S AAA

A S AA

AA S A

AAA S
A S SA
S SA S

S S AA
AS AS
SA S S

SA SA
AA S S
AS S S

S AA S
S S SA
SSSS

Y tendremos, en el caso del exponente igual a 4:




1 1
1=
+
2 2

4

 4  3  
 2  2   3  4
1
1
1
1
1
1
1
1
=1
+4
+6
+4
+1
2
2
2
2
2
2
2
2

70

Nociones de probabilidad. Distribuciones Te


oricas.
o sea
1=

1 1
+
2 2

4

1
4
6
4
1
+
+
+
+
16 16 16 16 16

Veamos el caso general. Para ello, recordemos el desarrollo del binomio:


N

(a + b)

 
 
 
 
N N 0
N N 1 1
N N 2 2
N 0 N
=
a b +
a
b +
a
b + +
a b
0
1
2
N
N  
X
N N k k
=
a
b
k
k=0

Puesto que los papeles de a y b son intercambiables, i. e. (a + b)N = (b + a)N ,


la f
ormula del binomio tambien puede escribirse
N

(a + b)

N  
X
N

k=0

ak bN k

o sea
N

(a + b)

 
 
 
 
N N 0
N 2 N 2
N 1 N 1
N 0 N
a b
a b
+ +
a b
+
a b +
=
N
2
1
0

Es la u
ltima forma la queen realidad nos conviene. Se recordara que los
coeficientes binomiales, Nk , se definen como sigue:
 
N
N!
=
k
(N k)! k!

donde 0! = 1! = 1 y N ! = 1 N (el producto de los primeros N


enteros positivos).
Ahora bien, supongamos que entre todos los posibles resultados de un experimento de azar, nos interesa uno solo de ellos. Cuando tiene lugar tal evento,
diremos que hemos tenido un exito. As, por ejemplo, en el lanzamiento de
una moneda, exito puede significar la ocurrencia de aguila. Supongase que
se sabe de antemano que en un intento (una sola realizacion del experimento)
la probabilidad de exito es p. En el caso de la moneda justa, p es 21 . Para
un dado justo, p = 16 , cualquiera que sea la cara exito.
De modo semejante a lo hecho con la moneda, definimos la variable aleatoria
X = n
umero de exitos en N intentos
71

Nociones de probabilidad. Distribuciones Te


oricas.
Suponemos, como lo hicimos con la moneda, que la historia de los intentos
del pasado no influye en los presentes o futuros. Esto es, en un intento dado,
la probabilidad de exito es p, no importa si hemos tenido exito o no en
intentos anteriores.
Designemos con q a la probabilidad de no tener exito en un intento. Debemos por fuerza tener que p + q = 1 o sea q = 1 p. Para convencerse de ello,
mantenga en mente que la probabilidad es una frecuencia relativa teorica y
que s
olo pueden ocurrir dos cosas: i) exito, o bien, ii) no exito.
Es claro que los valores posibles de la variable aleatoria X son:
X = 0, 1, 2, . . . , N.
Para que X este descrita matematicamente como variable aleatoria debemos
especificar Pr(X = 0), Pr(X = 1), etc. Para fijar ideas, empecemos con
N = 2. En una serie de 2 intentos tenemos como resultados posibles
EE,

EF,

FE,

FF

donde E denota exito y F lo contrario. Pero cuidado!, tales eventos EE,


EF, etc., ya no tienen por qu
e ser equiprobables. Veamos el evento EE; la
primera E (exito) ocurre (teoricamente) la fraccion p de las veces. La
segunda E ocurrira entonces, la fraccion p de la fraccion p de las veces, o sea,
la fraccion p2 (o p p). As, EE ocurre con probabilidad p2 = p p. De un
modo semejante, EF ocurre con probabilidad pq; FE ocurre con probabilidad
qp; FF ocurre con probabilidad q 2 .
As que, para N = 2, tenemos
= q2
o FE)

Pr(X = 0) = Pr(ocurrencia de
Pr(X = 1) = Pr(ocurrencia de

FF)

= Pr(ocurrencia de

EF)

+ Pr(ocurrencia de

EE)

= p2

EF

FE)

= pq + qp = 2pq
Pr(X = 2) = Pr(ocurrencia de

Note que X = 1 tiene lugar ya sea que ocurra EF o bien FE; pensando en
la probabilidad como frecuencia es claro que la frecuencia con la cual ocurre
cualquiera de los dos, EF o FE, debe ser la suma de las frecuencias individuales
de EF y FE.

72

Nociones de probabilidad. Distribuciones Te


oricas.

Probabilidad

frecuencia
relativa te
orica

q2

2pq

p2

Total: p2 + 2pq + q 2
Note que p2 + 2pq + q 2 = (p + q)2 = 12 = 1. Como debe de ser, la suma de
las frecuencias relativas de todas las posibilidades es igual a 1. Asimismo, se
aprecia la aparicion de la formula del binomio:
1 = (p + q)2 = 1 p0 q 2 + 2 p1 q 1 + 1 p2 q 0
 
 
 
2 0 20
2 1 21
2 2 22
=
p q
+
p q
+
p q
0
1
2
(recuerde que por convencion 0! = 1).
N
otase pues que

 
2 0 20
Pr(X = 0) =
p q
= q2
0
 
2 1 21
Pr(X = 1) =
p q
= 2pq
1
 
2 2 22
Pr(X = 2) =
p q
= p2
2

En el caso general de N intentos se tendra que


 
N 0 N
Pr(X = 0) =
p q
0
 
N 1 N 1
Pr(X = 1) =
p q
1

etc.
En general pues:

 
N k N k
Pr(X = k) =
p q
k

73

Nociones de probabilidad. Distribuciones Te


oricas.
De ah que la distribucion de la variable aleatoria X = n
umero de exitos
en N intentos con Pr(exito en un intento) = p , reciba el nombre de Distribuci
on Binomial.
Hallemos el valor esperado (o media) de la distribucion binomial. De acuerdo
a la definicion de la pag. 66 tendremos
= 0 Pr(X = 0) + 1 Pr(X = 1) + 2 Pr(X = 2) + + N Pr(X = N )
X
 
 
 
 
N 0 N
N 1 N 1
N 2 N 2
N N 0
=0
p q +1
p q
+2
p q
+ +N
p q
0
1
2
N
 
N
X
N k N k
=
k
p q
k
k=1

N
X

N!
pk q N k
(N k)!k!

N (N 1)!
ppk1 q N k
(N k)!k(k 1)!

k=1

N
X

k=1

kN X
(N 1)!
p
pk1 q N k
k
(N k)!(k 1)!
k=1

= Np

N
X

k=1

(N 1)!

pk1 q (N 1)(k1)
(N 1) (k 1) !(k 1)!

Cambiamos k 1 por k y al mismo tiempo la sumatoria de 1 a N por la


sumatoria de 0 a N 1. El lector debe verificar que ello no altera la sumatoria.
As,
N
1
X
(N 1)!
= Np


X
pk q N 1k
(N

1)

(k)
!(k)!
k=0
N
1
X

(N 1)!
pk q N 1k
(N 1 k)!(k)!
k=0

N
1 
X
N 1 k N 1k
= Np
p q
k
= Np

k=0

= Np(p + q)N 1
y como p + q = 1:

= Np
X
74

Nociones de probabilidad. Distribuciones Te


oricas.
As el valor esperado de la variable X que sigue una distribucion binomial es
Np. Esto es, se espera que a la larga en N intentos se logren Np exitos.
En el caso particular de la moneda, se espera que a la larga en N volados se
obtengan N 12 = N2 aguilas. El lector se dara cuenta que lo anterior es muy
razonable.
Daremos ahora una explicacion de estas ideas en el contexto de la evaluacion,
o m
as concretamente, en el de la medicion. Supongamos que se ha elaborado
un test o examen en el cual cada una de las preguntas o reactivos es de
seleccion m
ultiple, habiendo exactamente 5 opciones a elegir y siendo solo
una la respuesta correcta. Pensemos que la prueba consiste de N = 25
preguntas y que un alumno dado no sabiendo nada del tema decide responder
cada pregunta eligiendo entre las 5 opciones, enteramente al azar. Cuantas
preguntas se espera que tal alumno conteste correctamente?
En cada pregunta (cada intento), el tiene una probabilidad de 1 entre 5 de
acertar, esto es, la probabilidad de acertar en un intento es p = 15 . Pero
tiene N = 25 oportunidades (o intentos por hacer). Un acierto es pues
un exito y caemos en el esquema de una distribucion binomial. Si X =
n
umero de aciertos en N = 25 intentos y como p = 51 , se espera que tenga:
= Np = 25 1 = 5 aciertos
X
5
Ciertamente, esto debe ocurrir a la larga, sea porque N es suficientemente
grande o porque existen muchos alumnos que responden al azar, siendo este
u
ltimo el mejor caso pues N esta fija (N = 25). Esto es, si tuviesemos
un grupo de alumnos respondiendo al azar cabe esperar que en promedio
obtengan 5 aciertos de las 25 preguntas.
Conviene tener en mente este hecho cuando se elaboren pruebas de seleccion
m
ultiple. Deducir que, en el ejemplo de prueba anterior, cada vez que un
alumno obtenga 5 aciertos no sabe nada del asunto, sera exagerar y correr
el riesgo de ser injusto. Pero si el grupo consiste de digamos 40 alumnos y
estos obtienen en promedio 5 aciertos, el juicio de que el grupo (no individualmente) ignora el tema, es bastante razonable.
Si uno esta interesado en juzgar el desempe
no del grupo en un examen, existe
un criterio para calificarlo cuando este es de seleccion m
ultiple. Lo veremos
de inmediato:
Supongamos que la prueba consiste de N preguntas o reactivos y en cada
una hay S opciones de respuesta a elegir. Los alumnos han sido instrudos
para responder al azar cuando desconozcan la respuesta. Con ayuda de la
75

Nociones de probabilidad. Distribuciones Te


oricas.
probabilidad trataremos de descubrir, dado un n
umero de aciertos, cuantos
probablemente sean genuinos (no se deban al azar).
Sea C = n
umero de aciertos (aparentes) del alumno y tratemos de descubrir
cu
antos (probablemente) son genuinos. Sea g = n
umero de aciertos autenticos. Si el alumno conoce la respuesta correcta a g preguntas, entonces
responde a N g preguntas al azar. Se espera que (a la larga) tenga
1
aciertos
S

(N g)

en estas u
ltimas preguntas debido al azar (en un intento, la probabilidad
de aciertos al azar es S1 pues se tienen S opciones). As, el alumno tendra
aparentemente
N g
g+
aciertos
S
esto es C = g +

N g
S .

Despejando g:

C =g+

N g
S

SC = Sg + N g

Sg g = SC N

g(S 1) = SC N

por lo tanto:

g=

SC N
S1

Ahora reescribiremos a g en otra forma para facilitar la lectura:


g=

SC N
SC C N + C
(S 1)C (N C)
N C
=
=
=C
S1
S1
S1
S1

es decir
g=C
Ahora traduciremos el resultado:

N C
S1

C = n
umero aparente de aciertos (respuestas correctas)
N C = n
umero aparente de respuestas incorrectas
As probablemente (i.e. a la larga)
n
umero real de aciertos = respuestas correctas
76

respuestas incorrectas
opciones 1

Nociones de probabilidad. Distribuciones Te


oricas.
Esto es, el n
umero real de aciertos es probablemente la diferencia entre las
respuestas correctas y el cociente de dividir el n
umero de respuestas incorrectas entre una menos que el n
umero de opciones.
Este modo de medir el desempe
no en un examen, ademas de ser realizado
con ciertas precauciones, debe ser utilizado para evaluar grupos enteros y no
individuos. De hecho, retomaremos el asunto mas adelante.
Finalmente hacemos un par de anotaciones.
I. El valor esperado o media de una variable aleatoria X suele denotarse
tambien con X (lease media de X) y con E(X) (lease esperanza de
X). Frecuentemente se refiere a E(X) como la esperanza matematica
de X.
II. Si la variable aleatoria adquiere los valores de X1 , . . . , XN con probabilidad de p1 , . . . , pN respectivamente, su media se calcula seg
un
X = p1 X1 + + pN XN
(se entiende siempre que p1 + p2 + + pN = 1).
La formula anterior es la usual cuando pi representa la frecuencia relativa
con la cual ocurre el valor Xi en una distribucion emprica.
Del mismo modo con el cual se define la varianza y la desviacion estandar
de una distribucion emprica de frecuencias relativas, se definen varianza y
desviacion estandar de una variable aleatoria. En terminos de la notacion
anterior:
2
Varianza = X
= p1 (X1 X )2 + + pN (XN X )2

N
X
i=1

pi (Xi X )2

Desviacion Estandar = X =

2
X

v
uN
uX
pi (Xi X )2
=t
i=1

2
La notacion X para la media va acompa
nada de la notacion X
para la
varianza, y X para la desviacion estandar.


Junto con la notacion E(X) para la media se utiliza la notacion E (X X )2
2
para la varianza. Puesto que en estadstica son mas frecuentes X , X
y
X nosotros las preferiremos.

77

Nociones de probabilidad. Distribuciones Te


oricas.
Finalmente,
PN puesto que p1 + p2 + + pN = 1 y la definicion de X es
X = i=1 pi Xi , la formula para la varianza puede reescribirse:
!
N
X
2
pi Xi2 2X = X 2 2X = E(X 2 ) [E(X)]2
5.1
X
=
i=1

esta formula puede en ocasiones simplificar los calculos. Veamos que si


X B(p, N ) (lease X sigue o tiene una distribuci
on binomial de par
ame
2
tros p y N ) se tiene que X = Npq (X = Npq) y X = Np ; luego, de
acuerdo a la formula 5.1
N
N  
X
X
N i N i 2
2
2
2
X =
pi Xi (Np) =
pq
i (Np)2
i
i=0
i=0
=

N
X
i=0

N
X

N !i
pi q N i i (Np)2
(N i)!i!
Np

i=0

= Np

(N 1)!
pi1 q N 1(i1)i (Np)2
[N 1 (i 1)]!(i 1)!

N
X1

i1=0

= Np

N
X1
i=0

N1
X

= Np

i=0

(N 1)!
p(i1) q (N1)(i1) [(i1)+1](Np)2
[N 1(i1)]!(i1)!

(N 1)!
pi q (N 1)i(i+1)(Np)2
[(N 1) i] ! i !
(N 1)!

[(N 1)i]!i!

i (N 1)i

pq

i+ N p

i=0

Ahora bien, si Y (p, N 1) entonces


Y =

N1
X

N
1
X
i=0

(N 1)!

[(N 1)i]!i!

pi q (N1)i (N p)2

(N 1)!
pi q (N 1)ii
[(N 1) i]!i!

y, por otra parte, sabemos que


p + q = 1). As

Y = (N 1)p (ademas, recuerde que

2
X
= Np[(N 1)p] + Np(p + q)N 1 (Np)2

= Np[Np p] + Np (Np)2

= Np[Np p + 1 Np]

= Np(1 p)
= Npq
es decir:

2
X
= Npq

78

X =

Npq

Distribuciones continuas. Distribuci


on normal.
CAPITULO 6:

DISTRIBUCIONES CONTINUAS.
NORMAL.
DISTRIBUCION

En los primeros captulos abordamos el tema de distribuciones de frecuencia.


En ellas, como se recordara, los valores de cierta variable (datos) se agrupaban en categoras o clases para obtener una mejor imagen, o mas de golpe,
de la fluctuacion de tal variable. Esta descripcion consista en contar los datos que caan en cada clase. Esto es, determinabase las frecuencias de clase.
Estas frecuencias podan ser absolutas o relativas. Las clases o categoras se
escogan del mismo tama
no y se poda representar la distribucion por medio
de un histograma, el cual consista en rectangulos (contiguos) cuya base se
asentaba sobre los intervalos de clase (rango de valores de una clase) y cuya
altura corresponda a la frecuencia de clase.
Lo que haremos, en primer termino, es introducir distribuciones de frecuencia
en las cuales los intervalos de clase son de distinto tama
no. Esto como un
paso intermedio en la introduccion de las distribuciones continuas (en un
principio empricas y posteriormente, teoricas).
Supongamos que tenemos los siguientes datos:
11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22
Escojamos para ellos las clases (del mismo tama
no):
11 13,

14 16,

17 19,

20 22

La distribucion de frecuencias se tabula a continuacion:


clase

frecuencia

11 13

14 16

17 19

20 22

3
12

Total:

la cual se puede representar en un histograma:

79

Distribuciones continuas. Distribuci


on normal.
frec.

3......
2......
1......
..
.

10

..
.

11

12

..
.

13 14

..
.

15

18

16 17

..
.

19

20

21

22

figura 6.1
se trata de una distribucion uniforme.
Supongamos ahora que artificialmente tomamos clases de tama
nos diferentes,
digamos las clases:
11 13,

14 16,

17 22

Tendremos ahora la tabla:


clase

frecuencia

11 13

14 16

17 22

6
12

Total:

Si convertimos la u
ltima tabla literalmente en un histograma, obtenemos:
frec.

6 ......
5 ......
4 ......
3 ......
2 ......
1 ......

....

10

....

11

12

....

13 14

15

16 17

....

....

....

....

18

19

20

21

22

figura 6.2
Observando al histograma as obtenido, la figura nos sugiere que los datos
del intervalo 17 22 (de hecho 16.5 22.5) son m
as frecuentes, lo cual es
literalmente cierto. Pero nos sugiere, desafortunadamente, algo mas: que los
datos estan concentrados en ese rango de valores. Mas precisamente, que
la manera en que los datos se distribuyen en el rango total 11 22 no es

80

Distribuciones continuas. Distribuci


on normal.
uniforme a todo lo largo de este segmento, sino que esta favorecido el subrango 17 22 con respecto al sub-rango 11 16; como si fuese mas factible
encontrar datos en el 17 22 que en el 11 16, lo cual ciertamente es falso.
Cuando hacemos un histograma en base a clases del mismo tama
no, solemos
interpretarlo (correctamente) de un modo natural como sigue:
A mayor altura de un rectangulo, mas frecuentemente los valores de la variable se encuentran en la clase correspondiente (dada por la base del rectangulo). O lo que en este caso es lo mismo: A mayor altura de un rectangulo,
mayor sera la densidad de los datos en la clase correspondiente. As que, la
altura mayor designa a una clase mas densamente poblada de datos.
Sin embargo, cuando con este criterio se interpreta el histograma de la figura
6.2, las conclusiones resultan incorrectas. Esto es, la construccion hecha en
la figura 6.2 es incorrecta (o si se desea, inconveniente).
Para evitar impresiones equvocas, los histogramas cuyas clases son desiguales, se construyen utilizando como patron a las a
reas y no a las alturas. Esto
es, en vez de dibujar los rectangulos con altura proporcional a la frecuencia,
se les dan dimensiones tales que sus areas sean proporcionales a la frecuencia.
Para la u
ltima tabla vista, si escogemos para el rectangulo de la primera clase
(11 13) la altura de 3 unidades, entonces el area del segundo rectangulo,
correspondiente a la clase 14 16, debe ser igual que el del primero (por
tener ambas clases la misma frecuencia 3) y puesto que las bases son del
mismo tama
no, las alturas resultan iguales. Pero para el tercer rectangulo,
correspondiente a la clase 17 22, el area debe ser el doble que la de los rect
angulos precedentes (pues su frecuencia 6 es el doble). Pero si bien el area
debe ser el doble, tambien es cierto que su base es el doble, luego la altura
es la misma que la de los rectangulos precedentes. As pues, el histograma
nos queda:
frec.

3......
2......
1......
...

10

...

11

12

...

13 14

15

16 17

...

...

...

...

18

19

20

21

22

figura 6.3
Este u
ltimo histograma s sugiere la misma idea que el de la figura 6.1 (como
debe de ser, pues se trata de los mismos datos.)

81

Distribuciones continuas. Distribuci


on normal.
C
omo es que el criterio del
area funciona tan bien? Esto es, nos sacamos
de la manga el metodo de dibujar los rectangulos atendiendo a que tuviesen
un
area proporcional a las frecuencias, y aunque funciono bien en un (claramente prefabricado y artificial) ejemplo, no se ha explicado por que resulta
adecuado en general para construir histogramas, de modo que puedan ser
correctamente interpretados con el cirterio de que a mayor altura en la grafica, mayor sera la densidad de los valores de la variable que caen en la parte
del eje horizontal directamente abajo. Tratare de explicarlo a continuacion.
Si las alturas de los rectangulos en el histograma representan densidad de
datos, o mas precisamente, densidad de frecuencias de los datos respecto
a la clase dada; esto no significa otra cosa que la razon de la frecuencia
correspondiente al tama
no de la clase. Dicho de otra forma, tal densidad de
frecuencia es el cociente:
densidad de frecuencia =

frecuencia
tama
no de la clase

Despejando la frecuencia, tenemos:


frecuencia = (tama
no de la clase) (densidad de frecuencia)
Ahora bien, los rectangulos del histograma tienen por base al intervalo de
clase que corresponde numericamente (o en magnitud) al tama
no de clase y
si, como hemos dicho, su altura es la densidad de frecuencia, entonces el area
de tal rectangulo es el producto (base x altura):
(tama
no de la clase) (densidad de frecuencia)
As pues, el area debe corresponder a la frecuencia. Para fines comparativos
no es necesaria la igualdad de area con frecuencias. Basta con que sean
proporcionales (con la misma constante de proporcionalidad, claro esta).
Confo en que esta justificacion convenza al lector de que el criterio del area
es el indicado para interpretar a un histograma como un grafico descriptor
de la densidad de los datos a todo lo largo de su rango (deberamos decir, de
la densidad de los valores de la variable).
Uno podra hacerse al menos dos preguntas pertinentes (y por supuesto,
muchas mas impertinentes):
1) Si bien es cierto que el metodo que utiliza el area se adec
ua a la descripcion de las densidades de frecuencia, por que debe ser interpretada
una descripcion grafica de una distribucion de frecuencias en terminos
82

Distribuciones continuas. Distribuci


on normal.
de informarnos acerca de la densidad de los datos en las diferentes porciones del rango de los mismos? Expresada mas espontaneamente: por
que es tan interesante esta sacrosanta densidad de frecuencias?
2) Por que utilizar clases de distinto tama
no en una distribucion de frecuencias?
La primera pregunta bien vale la pena responderla. Tiene que ver con el
proposito mismo de hacer una distribucion de frecuencias.
Hemos dicho que una distribucion de frecuencias se refiere a los valores que
una cierta variable adquiere. Para fijar ideas consideremos un ejemplo. Estamos interesados, supongase, en la duracion de una llanta de una marca XYZ
bajo condiciones de uso normales. La duracion de una llanta de una marca
dada es, sin duda, una variable. Por mas precisas que sean las maquinas
utilizadas en su construccion, las llantas difieren unas de otras. Mas a
un, seguramente no se ha inventado a la fecha un instrumento, el cual, sin destruir
la llanta, realice una o varias mediciones en base a las cuales se determine
su duracion. Esto es, no existe una funcion matematica (determinista) que
exprese la duracion de la llanta en base a esas mediciones, de modo preciso
e inequvoco. Ademas, claro esta, existe el problema de que queremos decir
con condiciones normales de uso. Este u
ltimo asunto siempre puede ser
resuelto, en forma relativamente satisfactoria, dando una definici
on operativa al termino condiciones normales de uso. Por ejemplo, con un aparato
que haga rodar la llanta sobre una superficie semejante al asfalto, el cual
cuente las revoluciones de la llanta (y con ello el equivalente en kilometros
recorridos), etcetera.
Una vez que se haya dotado a este aparato con todos los refinamientos necesarios, o posibles, para que simule las condiciones reales de uso, podremos
definir operativamente las condiciones normales de uso, como las condiciones que tal aparato ofrece. Pero, por supuesto, a
un permanece el otro
problema. Bajo las condiciones del aparato cuanto dura una llanta? en
el equivalente en kilometros, digamos. Esta pregunta no puede responderse
en terminos deterministas. Pero siempre es posible aportar informacion al
respecto. Aunque no se pueda fijar su duracion, en abstracto y de antemano,
podemos averiguar, por ejemplo, que no con la misma facilidad va a durar
alrededor de 40, 000 Km. que alrededor de 80, 000 Km.
Esto es, aunque muchos valores (de la duracion) son posibles, eso no significa
que sean igualmente posibles, o mejor dicho, igualmente probables. De hecho
pues, la variable duracion de una llanta XYZ es una variable aleatoria, y
para tener una idea de como se comporta, se toma una muestra de llantas
y se someten a prueba, arrojandonos esta experiencia ciertos datos (valores
83

Distribuciones continuas. Distribuci


on normal.
de la variable duracion de la llanta XYZ). Estos datos se convierten en
una distribucion de frecuencias, la cual nos informa acerca de la variable
en cuestion. Pero nos informa diciendonos que rangos de duracion son mas
problables que otros (en el sentido de que los rangos de mayor densidad de
frecuencia son mas probables).
En resumen pues, es importante que una distribucion de frecuencias nos informe de la densidad de frecuencia, puesto que esta u
ltima esta ntimamente
ligada a la idea de probabilidad y es precisamente la probabilidad la que
nos interesa encontrar cuando deseamos describir a una variable aleatoria.
Describir a una variable aleatoria (matematicamente) significa asignarle las
diferentes probabilidades a los diferentes posibles valores que puede adquirir.
De este modo, aunque no podemos evitar la presencia del azar, podemos encontrar una ley o patron que lo modera o hace, en todo caso, menos incierto.
En lo referente a la segunda pregunta, la utilizacion de clases de distinto
tama
no obedece a razones de orden practico. Algunas veces, por el modo
particular en el que se distribuyen los datos, resulta inadecuado el empleo de
clases del mismo tama
no. Vease como ilustracion el problema resuelto No.
12 del captulo 2 del libro Estadstica por Spiegel (Serie Schaum); para
este problena se requieren los datos del problema No. 3 del mismo captulo.
En realidad, nuestro interes de considerar distintos tama
nos de clases en
una distribucion de frecuencias es un recurso didactico para introducir las
distribuciones continuas que ahora abordaremos.
Pensando en la duracion de las llantas XYZ de nuevo, supongase que se tiene
la siguiente distribucion para una muestra de 60 llantas (los n
umeros en las
clases se refieren a miles de kilometros):
Intervalo
de clase
37.25
38.75
40.25
41.75
43.25
44.75
46.25
47.75
49.25
50.75

38.75
40.25
41.75
43.25
44.75
46.25
47.75
49.25
50.75
52.25

punto medio
de la clase
38.0
39.5
41.0
42.5
44.0
45.5
47.0
48.5
50.0
51.5

total:

84

Frecuencia
1
2
5
9
13
8
11
6
2
3
60

Distribuciones continuas. Distribuci


on normal.
y construyamos el histograma correspondiente, representando los datos contenidos en esta tabla:
frec.
13
11
9
8
6
5
3
2
1

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

figura 6.4
Observese que, como el tama
no de clase es 1.5 (i.e. las bases de los rectangulos
miden 1.5), en este caso las
areas no son iguales a las frecuencias, sino que
area = 1.5 frecuencia (el area es proporcional a la frecuencia, con constante

de proporcionalidad igual a 1.5).


Ahora bien, esta distribucion describe a la variable duracion de la llanta
XYZ en miles de kil
ometros. Se entiende que tal variable (o mejor dicho,
sus valores) se miden en el eje horizontal. Empero, lo que tenemos es el
comportamiento de la variable para una muestra de 60 llantas que pensamos
es representativa de toda la produccion de llantas. La variable en cuestion
(duracion de las llantas) no es discreta, como lo sugiere el grafico, sino
continua. Esto es, una llanta puede durar (al menos teoricamente) cualquier
valor numerico real y no nada mas los valores promedios (o medios) de las
clases, a saber: 38.0, 39.5, 41.0, etc. Es decir, este grafico solo describe la
densidad de frecuencia (en forma aproximada) para los puntos medios de la
clase. No es razonable suponer que, por ejemplo, la densidad de frecuencia es
constante en todo el intervalo 43.25 44.75 (como lo sugiere la tapa superior
del rectangulo) y que luego esta densidad cae bruscamente en el siguiente
intervalo 44.75 46.25 a otro valor constante, etc.
Puesto que en principio, la variable en cuestion es continua, tambien se espera
que la variacion de la densidad ocurra en forma continua de punto a punto (o
de valor a valor) de la variable. Podemos entonces razonablemente aproximar
la silueta superior del grafico o su perfil con una curva continua, respetando
s
olamente el criterio de las areas, como se muestra en la figura 6.5:
85

Distribuciones continuas. Distribuci


on normal.
......
.........
................................................
... ...... ..
.. ..... ...
.. ...... ...
.........
........ ..
.........
...... ...
..........................................
.
.
.
............ ....
...............
.
.
.
.
.........
....... ...
........
......... ...
..........
....... ...
...................................................
............ ....
...
.........
...........
..
... ... ...
... .. ....
..
.........................................................
.
..
.
.
... ..............
.. ..........
...... ... ...
.... .......................................
..
......
...
...... ...
...
..............................................
...
.
....
.....
.
.

.
..
.... ....
.
.

...
.
.
. .
.. .............. ....
.. ........ ..
................
............................................
.............
.......... ..
....................
.
.
.
.
... ...... ...
.
..
.
......................................................................................................... .....
.. ..............
. ..... .
.............................................................
.. .....................
.
.
.
.
.
.
......... ......

38

figura 6.5

52

La silueta continua se ha trazado en tal forma que el area encerrada por la


clase como base y la curva como tapa, es igual al area del correspondiente
rect
angulo (excepto en las clases extremas, para suavizar a
un mas a la
curva). Algo que s es definitivo, es el hecho de que el area bajo la curva (que
aparece sombreada en la figura 6.5) debe ser igual a la suma de las areas de
los rectangulos (a saber, 60 1.5 = 90u2).
Ahora surge la cuestion de como ha de interpretarse esa curva continua en
terminos de frecuencias. Esto es, nos deshacemos del histograma y nos quedamos con la curva (de densidad de frecuencia) continua. En que sentido
describe la curva a la distribucion de los valores (continuos) de la variable?
Responderemos esta pregunta por etapas. Veamos primero la siguiente grafica:
..........
.... ...
......
.......
.
.
. .
......
...........
.....
.... .......
........
.
...
.
...
....
.
.
...
.
.
.....
..
...
..
.......
...
.
.
. ..
.
.
...
.

.
.
....
.
.
...
.
.
.
.....
.
.
...

.
.
..
.......
...

.
.
...... ....
...
.
. ............
.
...
.

..
...
.
.
...
...
.

...
.

...
...
.
.
...

.
.
..
...
.
.
...
..

.
.

...
..
.
.

...
.
.
.
.

...
.
.
.
.

...
..
.
.
.
...

..
.
.
...
.
.

..
.
...
.
.......................
.
.

.
.
....
.
....
....
.
.
.

.....
...
...
...
.
.
.
.
......
...

..
...
.
.
.
.
.
.
.
.
.
.
.
...
..............

...
.
.
.
.
.
...
..

.
.
.
.
.
.
...
...

.
.
.
.
.
.
.
...
..
.
.

.
.
.
.
.

.
.
...
....
.

.
.
.
.
.
.
.

.
.
.
...

..............
.

42

46

area sombreada = 1.5 (frecuencia con la cual 42 D 46)


figura 6.6
86

Distribuciones continuas. Distribuci


on normal.
Tomemos en cuenta, en primer lugar, que la curva de la figura 6.5 fue construda respetando el criterio del area como representante de las frecuencias.
M
as precisamente, tenamos la relacion:
area = 1.5 (frecuencia).
Es entonces natural esperar que, por ejemplo, la frecuencia con la cual la
variable adquiere un valor comprendido entre 42 y 46 este dada por el area
sombreada de la figura 6.6 dividida ente 1.5; es decir, si la variable duracion
de una llanta ... se designa con D, lo que estamos diciendo es que
frecuencia con la cual 42 D 46 =

area sombreada
1.5

6.1

Esto es enteramente consistente con el modo de interpretar el histograma


previo a la curva continua. Surge, sin embargo, una objecion: Que sentido
tiene hablar de tal frecuencia, si en realidad estamos describiendo a la variable
continua D y no a la muestra de 60 llantas? Es decir, recordemos el objeto de
ajustar al histograma de las frecuencias de la muestra con una curva continua.
El proposito de ello fue el tener una descripcion de la variable continua D,
utilizando los 60 datos como aproximacion.
El modo de vencer esta dificultad consiste en sustituir las frecuencias absolutas, que dejan de tener sentido para la variable continua, por frecuencias
relativas que siempre tienen sentido. En nuestro caso:
frecuencia relativa =

frecuencia
y area total = 1.5 60 ; luego, de 6.1:
60

frecuencia relativa con la cual 42 D 46 =

area sombreada
area total

6.2

As, una distribucion continua de una variable nos informa de la frecuencia


relativa con la cual la variable adquiere un valor entre a y b, a traves de la
proporcion del area bajo la curva, que esta limitada por las abcisas a y b, al
area total (vease fig. 6.7):

..........................
......... ...........
....... .........
...... ............
.
.
.
.
.......
.....
......
...
......
......
....
...
......

.
......
.

.
.
......
.
.

.
......
.

.
.
......

.
.
......
.
.

.
......
.
.
......
.

.
.
......

.
.
.......

.
.......

........
...........

.........

b
figura 6.7
87

Distribuciones continuas. Distribuci


on normal.
Si esta figura describe la distribucion de la variable X, entonces
frecuencia relativa con la cual a X b =

area sombreada
area total

La distribucion de las figuras 6.5 y 6.6 es una distribucion continua emprica, en el sentido de que ha sido obtenida por medio de datos empricos y
s
olo constituye una aproximacion a la verdadera distribucion continua de la
variable.
Una manera de evitar el denominador en la formula anterior consiste en
modificar la escala en el eje vertical (eje de los ordenadas) de tal forma que el
area total resulte igual a 1. De este modo, la frecuencia relativa en cuestion

resulta igual numericamente al area sombreada. Es frecuente, cuando se


habla de una distribucion continua, sobreentender que el area total es la
unidad.
Vale la pena hacer una observacion. Cuando se tiene una distribucion continua, la frecuencia relativa asociada a la adquisicion de la variable de un valor
particular es igual a cero. Esto es, por ejemplo:
(frecuencia relativa con la cual X = a) = 0
Ello es consecuencia de que la porcion bajo la curva, en este caso un segmento
de recta, tiene area igual a cero (figura 6.8):
.................................
..........
.........
.......
.......
.......
......
.
.
.
.
......
...
.
.
......
.
.
.
......
.
.
..
......
.
.
......
..
.
......
.
.
.
......
..
.
......
.
.
......
.
.
.
......
.
.
......
.
.
.
......
.
.
......
.
.
.
.......
.
.......
........
..........
...........

a
figura 6.8
Este hecho puede producir a primera vista desconcierto: C
omo es posible
que la frecuencia relativa con la cual X toma el valor a pueda ser igual a
cero? Quiere esto decir que la igualdad X = a no ocurre nunca? Pero si
esto u
ltimo fuese cierto, eso que se dice del valor a se puede decir de cualquier
otro valor, luego la variable X no asumira valor alguno del todo.
Definitivamente esta frecuencia relativa cero no quiere decir que el valor a
no ocurre nunca, aunque no es tan facil explicarlo. Tratemos de verlo.
88

Distribuciones continuas. Distribuci


on normal.
Pensemos en el ejemplo de las llantas para fijar ideas. Sea, por ejemplo,
a = 38. Recordemos que esto significa, en ese contexto, 38, 000 Km. Cuando
decimos que D (la variable en cuestion, como se recordara) toma el valor a =
38, queremos con esto decir que asume el valor exactamente, considerando
este u
ltimo como n
umero real. El n
umero real (exacto e ideal) 38 significa en
realidad 38.00000 . . ., lo que quiere decir en nuestro caso que se trata de 38
mil kilometros, cero centenas de kilometros, cero decenas de kilometros, cero
kil
ometros, cero centenas de metros, cero decenas de metros, cero metros,
cero decmetros, cero centmetros, etc., etc., hasta el infinito. Significa que
se trata de 38 mil kilometros ni un centmetro mas ni menos, ni un milmetro
m
as ni menos, ni siquiera una micra mas o de menos, etc., etc. Por supuesto,
no existe instrumento sobre la tierra capaz de registrar o medir con tan
perfecta exactitud.
Los n
umeros llamados reales son la idealizacion de las medidas de un instrumento perfecto, capaz de registrar hasta el mas mnimo detalle: en nuestro
ejemplo, capaz de registrar kilometros, metros, centmetros, milmetros, micras, etc., hasta el infinito. El eje horizontal, en el cual se registran los
posibles valores de la variable continua D, es una gran regla en la que los
puntos en ella corresponden a estas medidas idealmente precisas;
.........
........

b
figura 6.9

medidas que especifican unidades (en nuestro ejemplo: miles de kilometros),


decimas de unidad (centenares de kilometros), centesimas de unidad (decenas de kilometros), milesimas de unidad (kilometros), etc.; millonesimas
(metros), etc., billonesimas (micras), etc., etc. De este modo, dados dos
puntos en la recta real (la recta de los n
umeros reales) aunque esten muy
pr
oximos entre s, siempre habra una infinidad de puntos entre ellos, puesto
que siempre se puede (en virtud de la precision infinita de que hablabamos)
subdividir la distancia entre ellos indefinidamente.
Cuando pensamos en la variable D como continua, la suponemos capaz de
adquirir todos los valores reales de un cierto intervalo (i.e. un segmento o
trozo de la recta real). De hecho suponemos que D ha de pasar por todos
estos valores. Se trata de una infinidad de valores, como hemos hecho notar.
Aunque D = a no sea imposible y de hecho, se suponga que D adquiere alguna vez ese valor, la frecuencia con la cual lo adquiere debe ser dividida entre
la frecuencia total, que en este caso es infinita, para obtener la frecuencia
relativa. Esto es, como D pasa por una infinidad de valores, la frecuencia
89

Distribuciones continuas. Distribuci


on normal.
total es infinita y la razon de la frecuencia con la cual D adquiere el valor a,
a una cantidad infinita, es cero (aqu apelamos a la idea de que si una segunda cantidad es infinitamente mayor que una primera, la razon de la primera
a la segunda es cero). Es pues factible que X = a no sea imposible y, sin
embargo, que la frecuencia relativa sea cero en el contexto de lo infinito, en el
cual estamos inevitablemente comprometidos cuando consideramos variables
continuas en matematicas.
Cuando describimos la distribucion de frecuencia relativas de una variable
continua con un grafico como el ilustrado en la figura 6.10, la curva es la
gr
afica de una cierta funcion y = f(x). Se dice que esta funcion es la funcion
densidad, en este caso de frecuencias relativas.
y = f(x)

............................................
........
........
......
.......
......
......
.
.
.
......
..
.
.
......
.
.
.
......
.
.
.
......
.
.
.
.
......
.
.
.
......
..
.
.
......
.
.
......
.
.
.
......
.
.
.
......
.
.
......
.
.
.
......
.
.
.......
...
.......
.......

f(x)

.
.......................
.

figura 6.10

De este modo se especifica, para cada valor de X, genericamente x, la densidad de frecuencia relativa con el n
umero f(x). Aunque la frecuencia relativa
asignada a X sea cero, la densidad tiene el valor f(x), el cual no tiene que
ser cero; esto es semejante a la densidad de masa que en general no es cero
para los puntos de un solido, aunque la masa asignada a cada punto es cero,
por fuerza. Desafortunadamente, no encuentro espacio suficiente para llevar
m
as adelante esta interesante comparacion.
Del mismo modo que se establecio un smil entre las distribuciones de frecuencia empricas y las distribuciones teoricas o probalilsticas discretas, cambiando la frecuencia relativa por probabilidad (como frecuencia relativa teorica
o esperada), se establece en el caso continuo entre las distribuciones empricas de una variable continua y las distribuciones de probabilididad de una
variable continua.
Una variable aleatoria continua, es una variable que asume valores en un
intervalo real (un segmento o la totalidad de la recta real) y la cual tiene
asignada una densidad de probabilidad (i.e. una densidad de frecuencias
relativas teoricas) dada por una funcion y = f(x). En la figura 6.11 se
ilustra una curva dada por y = f(x) [densidad de probabilidad]:

90

Distribuciones continuas. Distribuci


on normal.

y = f(x)

.....
............... ..................
........ .........
...... .............
.
.
.
.
.......
.
......
.....
...
......
......
....
......
...
.
.

......
..

.
.
......

..
.
......

.
.
......
.
.

.
......
.
.
.
......

.
......

..
.

......
.
.
.
.......

..
.......
......

.
.......................
.

figura 6.11
Se entiende que la probabilidad de que la variable X adquiera un valor entre
a y b esta dada por el area sombreada (ver figura 6.11), y que el area total
bajo la curva es la unidad. Con Pr(a X b) se denota la probabilidad de
que X se encuentre entre a y b.
Recordando el significado de la integral definida tenemos

Pr(a X b) =

Zb

f(x)dx

Entre las distribuciones (continuas) de probabilidad est


a la familia llamada Distribucion Normal, la cual tiene especial importancia como veremos
despues. Para la Distribucion Normal Tpica (o Tipificada) la funcion de
densidad de probabilidad, denotada por y = Z(x) esta dada por
x2
1
Z(x) = e 2 ,
2

< x <

Se entiende que la variable aleatoria que describe (denotada con Z) asume


cualquier valor real. No es facil comprobar que
Z

Z(x)dx = 1.

Vale la pena que el lector haga un bosquejo de la grafica de y = Z(x), la cual


tiene forma de campana; es la llamada Campana de Gauss.

91

Distribuci
on normal.
CAPITULO 7:

NORMAL.
DISTRIBUCION

Como se anuncio, la Distribucion Normal Tpica describe a una variable


aleatoria Z que toma cualquier valor numerico real y cuya funcion densidad
es:
x2
1
z(x) = e 2
2
La grafica de y = z(x) tiene forma de campana y se le conoce como la
Campana de Gauss (en honor del celebre matematico Carl Friedrich Gauss
1777-1855):
............................
......
.....
....
...
...
...
.
.
...
..
.
.
....
..
.
.
...
..
.
...
.
.
...
.
.
.
...
.
.
...
.
.
...
..
.
.
.

......
.
.
..
.
.. ...
.
. ..
.
. ....
.
.
.
..
.
. ..
.
... .....
.
.
.
.
...
.
.
.
...
.
.
.
..
...
..
..
....
....
.
.
.
.
....
..
.
.
.
.
.
.
...
.
.
.
.
.
.
....
.
.
.
.
.
.
.....
.
.
.
.
.
..
.
.
.....
.
.
.
.
..
.
......
.
.
.
.
.
.
.
.
.......
..
.
.
.
.
.
.
.
.
.
.
........
...
.
.
.
.
.
...........
.
.
.
...
.
.
.
.
.
.
.
.
...............................
.
.
.
.
.
.
.
.
.
.
.
.
........................
.....
.
.

-1

figura 7.1
Hay una lista de propiedades que conviene conocer de la grafica de y = z(x):
1) y = z(x) es simetrica respecto al eje Y ; esto es claro pues z(x) = z(x).
2) y = z(x) tiene dos puntos de inflexion en x = 1.
Tenemos
x2
x
y 0 = e 2 ;
2

y 00 =

(x2 1) x2

e 2 ;
2

y 000 =

x(x2 3) x2

e 2
2

Luego, y 00 = 0 para x = 1 ; y, ademas, y 000 6= 0 para x = 1 .


Z
3)
z(x)dx = 1. Esto era de esperarse si se trata de una distribucion

de probabilidad. La prueba no es sencilla y tendra que posponerse.

4) La media de Z es cero y su desviacion estandar es 1. Esto sera probado


en breve.
93

Distribuci
on normal.
Se entiende que Pr(a Z b) denota la probabilidad de que la variable Z
tome un valor entre a y b. Tenemos
Z b
x2
1
e 2
Pr(a Z b) =
2
a
Valores de las areas bajo y = z(x) generalmente vienen tabulados en los
textos de estadstica. Sin embargo, casi nunca se encuentran areas entre dos
puntos dados y es necesario efectuar algunas operaciones (a proposito, no
x2

puede integrarse e 2 por los metodos ordinarios; se integra en forma aproximada siempre, pues no hay formula elemental para la integral indefinida
de y = z(x)).
Algunas relaciones que pueden auxiliar el uso de las tablas:
Z 0
Z
1
I. Por simetra:
z(x)dx =
z(x)dx = (haga un dibujo marcando
2

0
las areas correspondientes).
II. Si a > 0, se tienen
Z

1
z(x)dx = +
2

1
z(x)dx =
2

Z
Z

z(x)dx
0
a

z(x)dx
0

Si se requiere Pr(3 Z 1) y la tabla solo calcula areas como


las de la figura 7.2, con a > 0, se procede como sigue: Pr(3 Z 1) es el
area bajo la curva entre -3 y 1. Esta area puede partirse en dos:

EJEMPLO.

Pr(3 Z 1) = Pr(3 Z 0) + Pr(0 Z 1)


Por simetra, el area entre 3 y 0 es la misma que entre 0 y 3, luego
Pr(3 Z 1) = Pr(0 Z 3) + Pr(0 Z 1)
Consultando la tabla dos veces y sumando se obtiene lo requerido.
.............
....... ...........................
....
..............................
.....
.
.
...........................
.
...
............................
...
. . .
.
.
.
.
.............................................
.
.
.
..
........................................
.
.
.
.
.
.
.
.
........ .......... .....
.
.
.
.
...
........................................................... .....
...
.................................... ....
...
. ... .... ... .. ...
.
.
.
.
.
..
....
........................................................
...
....
...................................
....
....
.
.
.
.
.
.
.
.
..........................................
.....
...
.
.
.
.
.
.
.
.
.....
........... ...................
..
.
.
.
.
......
.
.
.
.
.
.
.
.............................
..
.
.
.
.
.
.
.......
.
.
.
.
............ ....................
..
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
...
................
...........................................................
.................
......................................................................................................................................................................................................................................

0
figura 7.2
94

Distribuci
on normal.
Si se requiere calcular la Pr(3 Z 1) y la tabla solo da
areas como las de la figura 7.3, con a > 0, diga como resolvera la situacion.

EJERCICIO.

.......
........ ............
.....
.....
....
....
...
...
.
.
.
...
.
.
...
.
.
.
...
.
.
.
...
.
...
...
.
.
.
.
.........
..
.
... .....
.
.
.
.
.. .. ......
.
.
.
.. .. .. ......
..
.
... . . . .....
.
.
.
.
.
.. .. .. .. .. .......
..
.
.
.
.. .. .. .. .. .. .........
..
.
.
.
... . . . . . . . ......
.
...
.
.
.
.
.. .. .. .. .. .. .. .. .. ..........
..
.
.
.
.
.
.. .. .. .. .. .. .. .. .. .. .. .............
..
.
.
.
.
.
.
.
.
... . . . . . . . . . . . . . ..................
.
..............
.
..............................................................................................................................................................................................................................................................

figura 7.3
Veamos ahora que la media de esta distribucion es cero y su desviacion estandar es la unidad. Para empezar, debemos definir lo que significa la media de
una distribucion continua. Se recordara que si una variable discreta asuma
los valores X1 , . . . , XN con probabilidades p1 , . . . , pN tenamos
X = media de X = p1 X1 + + pN XN =
2
X
= varianza de X =

N
X
i=1

pi Xi X

X = desviacion estandar =

N
X

pi Xi

i=1

2

v
uN
uX
2
2
X = t
pi Xi X
i=1

En el caso continuo los valores de la variable son infinitos, luego consideramos


una integral en vez de una suma y la densidad de probabilidad en vez de la
probabilidad asignada a un valor.
Si la densidad de probabilidad de la variable X es y = f(x) y el rango de la
variable son los valores entre A y B se tiene, para la media de X
X =

xf(x)dx
A

donde Xi ha sido sustitudo por x y pi por f(x); y para la varianza de X se


tiene
Z B
2
2
X =
x X f(x)dx
A

donde x X sustituye a Xi X y f(x) a pi .


95

Distribuci
on normal.
Es posible que A sea o que B sea . Ambas ocurren para la distribucion
normal. Para la distribucion normal tpica tenemos entonces
Z
Z
x2
1
xe 2 dx
Z =
x z(x)dx =
2

2
Z
Z

X

x2
2
Z

Z2 =
X Z z(x)dx =
e 2 dx
2

Debemos probar que Z = 0 y Z2 = 1 (que es lo mismo que Z = 1).


Para ello, necesitamos alg
un conocimiento del comportamiento de y = ex (la
funci
on exponencial); a saber:
a) ex > 0 para todo n
umero real x.
d x
e = ex
dx
Ambas propiedades, en conjunto, caracterizan a la funcion exponencial. En
realidad, el inciso b) puede tomarse como la definicion de la funcion exponencial: es la u
nica funcion cuya derivada es ella misma y que en 0 toma
el valor 1. Inclusive, el inciso a) podra ser probado (utilizando el calculo
diferencial) a partir de b).
b) e0 = 1 y

Veamos primero (como consecuencia de a) y b)) que y = ex es estrictamente


creciente. En efecto,
d x b) x a)
e = e > 0;
y0 =
dx
puesto que la derivada es positiva, y = ex resulta estrictamente creciente.
Esto significa en particular que solo toma cada uno de sus valores una sola
vez; as como e0 = 1, la ecuacion ex = 1 solo admite a x = 0 como solucion
(si x < 0 entonces ex < e0 = 1; y si x > 0 entonces ex > e0 = 1).
Una consecuencia de esto u
ltimo es la relacion: ex 1 + x para todo x.
En efecto, considerese y = ex 1 x. Para x = 0 se tiene y = 0. Ademas,
y 0 = ex 1, y 00 = ex . Luego, para x = 0: y = 0 , y 0 = 0 , y 00 = 1 > 0.

As que x = 0 es un mnimo de y = ex 1 x, en el cual alcanza el valor 0.


Ademas, y 0 = ex 1 solo se anula en x = 0. As que x = 0 es el u
nico punto
x
crtico y resulta que en x = 0 , y = e 1 x alcanza un mnimo absoluto;
luego, ex 1 x 0 para toda x. As pues, la relacion ex 1 + x es valida
2
x2
para toda x. En particular, se tiene e 2 1 + x2 x, relacion que nos sera
u
til. As pues, en resumen tenemos que:
c) y = ex es estrictamente creciente.
d) ex 1 + x se cumple para todo x y en particular, e
96

x2
2

1+

x2
2 .

Distribuci
on normal.
Es necesario saber tambien que ex = e1x lo cual es consecuencia de que
ea+b = ea eb . Esta u
ltima relacion puede probarse como sigue:
Sea g(x) =

ea+x
; as, g(0) = ea ; ademas
ex

d x
d a+x
e
ea+x dx
e
ex dx
ex ea+x ea+xex
g (x) =
=
=0
2
2
ex
ex
0

Como g 0 (x) 0 entonces g(x) cte; pero g(0) = ea ; luego, g(x) ea . Es


a+x
decir, e ex = ea , de donde ea+x = ea ex . Tenemos pues
e) ea+b = ea eb ; en particular ex =

1
ex

Encontremos ahora Z y Z :
Z

1
1 x2
Z =
x e 2 dx =
2
2

Como
Z

xe
xe

x2
2

x2
2

dx =

x
d
2
(e
dx

dx = lm

a
b+

)dx = e

xe

x2
2

x2
2

xe

dx.

, entonces:

dx = lm e

b2
2

x2
2

+ lm

a2
2

Por lo tanto
Z

xe

x2
2

dx = lm e

b2
2

pero
a)

0e

x2
2

e)

x2
2

d)

+ lm

a2
2

1
2
=
x2
2 + x2
1+ 2

empleando las propiedades a), d) y e). Luego



2
0 lm e
lm
=0
x 2 + x2
x


x2 
2
2
0 lm e
lm
=0
x
x 2 + x2
x2
2

b2
2

por lo tanto
lm e

= lm

97

a2
2

=0

7.1

Distribuci
on normal.
y nos queda:
Z

xe

x2
2

(1)

dx = 0 + 0 = 0

entonces

Z = 0

Por otra parte, (y utilizando el hecho Z = 0):


Z
x2
1
x2 e 2 dx
Z =
2

Z 
x2
1
x xe 2
dx
=
2

Z b 
x2
1
= lm
x xe 2
dx
a
2 a
2

b+

Integrando por partes con u = x y dv = xe


y du = dx ):

x2
2

dx (con lo que v = e

x2
2

b Z
b Z


b
b
x2
x2
1
1

e 2 dx
lm uv
vdu = lm xe 2 +
a
a


2
2
a
a
b+

b+

a2 
b2 
1
1
=
lm ae 2
lm be 2 + lm
a
2 a
2 b+

b+

pero
lm

ae

a2
2

= lm

b+

be

b2
2

(lo cual probaremos enseguida) con lo que


2
Z

1
=
2

x e

x2
2

dx =

=0

x2
1
e 2 dx
2

7.2

1 x2
e 2 dx
2

y sabemos, por la tercera propiedad (expuesta al principio de este captulo),


R
x2
que 12 e 2 dx = 1 ; entonces
Z2 = 1

y, por lo tanto

Procederemos ahora a probar las ecuaciones 7.2

98

Z = 1

Distribuci
on normal.
Recordemos que
a) ex > 0 para todo n
umero real x.
d x
0
x
b) e = 1 y dx e = e .
c) f(x) = ex es estrictamente creciente.
d) ex 1 + x se cumple para todo x y en particular, e
e) ea+b = ea eb ; en particular, ex = e1x .
As, para la expresion

ke

k2
2

x2
2

1+

x2
2 .

consideremos los casos:

i) k > 0.
a)
0

ke

e)
=

k2
2

d)

k
e

k2
2

2
k

k
=
2
1 + k2

2
k2

+1

luego, si k
0 lm ke

k2
2

2
k

lm

k 22
k

+1

0
= 0
0+1

es decir
0 lm ke

k2
2

lm ke

k2
2

= 0

ii) k < 0
a)
0

ke

e)
=

k2
2

d)

k
e

k2
2

k
=
2
1 + k2

2
k
2
k2

+1

luego, si k
0

lm ke

k2
2

2
k

lm

k 22
k

+1

0
= 0
0+1

es decir
0

lm ke

k2
2

lm ke

Por lo tanto, de i) e ii)


lm ke

k2
2

lm ke

k2
2

con lo que hemos demostrado las ecuaciones 7.2.


99

= 0

k2
2

= 0

Distribuciones normales en general.


Distribuciones normales en general.
Hemos apuntado antes que con el nombre Distribucion Normal se designa
en realidad a una familia de distribuciones continuas. En este sentido, el
termino NORMAL aplicado a una distribucion es empleado como adjetivo.
Suele decirse, por ejemplo, que una cierta variable aleatoria sigue una distribucion normal; o bien, que tal variable se distribuye normalmente Que
quiere decir esto? Es el proposito de las siguientes paginas el explicar el significado de tales oraciones, as como el de dar un metodo simple y emprico
para verificar que una cierta variable sigue o no (i.e. se rige o no por) una
distribucion normal (al menos aproximadamente). Para empezar, habamos
dicho que la distribucion dada por
x2
1
z(x) = e 2
2

<x<

es la distribucion normal tipificada. Aclaremos ahora el termino tipificada o tipificar; a proposito, el tipificar una variable tiene aplicaciones en
evaluacion del aprendizaje, como veremos.
Sea X una variable aleatoria para la cual se tiene una distribuci
on (emprica
o te
orica) discreta. Digamos que asume los valores X1 , . . . , XN (puede
tratarse de valores exactos o puntos medios de clase, seg
un sea teorica o
emprica la distribucion) con probabilidades (o frecuencia relativas empricas)
p1 , . . . , pN respectivamente. Tenemos entonces que
v
uN
N
uX
X

2
=
pi Xi X
X
pi Xi
y
SX = t
i=1

i=1

(pueden emplearse X y X en el caso teorico).


Tipificar a la variable aleatoria X significa considerar a la variable Z =
como variable aleatoria. La variable Z adquiere los valores

XX
SX

XN X
X1 X
, ... ,
SX
SX
con probabilidades (o frecuencias relativas) p1 , . . . , pN respectivamente.
As, tenemos que
Z =

N
X
i=1

pi Zi =

N
X
i=1

100

pi

Xi X
SX

Distribuciones normales en general.


y SX se mantienen constantes,
y, puesto que X
N
N
X


1 X
= 1

Z =
pi Xi X
pi Xi pi X
SX i=1
SX i=1
"N
#
N
X
1 X

=
pi Xi
pi X
SX
i=1
i=1
"N
#
N
X
1 X

=
pi Xi X
pi
SX
i=1

pero

N
X

N
X

y por fuerza
pi Xi = X

i=1

pi = 1 ; luego

i=1


1
1 =0
X X
Z =
SX
Por otra parte, por definicion

SZ2

N
X
i=1

es decir
N
X
i=1

entonces
SZ2

i=1

pi Zi2

N
X
i=1

pi

Xi X
SX

2

pi Zi Z

= 0.
Z

2

y como Z = 0 ,

N

1 X
2 = 1 S2 = 1
pi Xi X
2
2 X
SX i=1
SX

es decir
SZ2 = 1

SZ = 1.

Vemos pues que al tipificar a la variable X obtenemos otra variable Z, la


cual tiene media cero y desviacion estandar igual a la unidad.
Pero mas a
un, se deja al lector que compruebe a traves de ejemplos que
las distribuciones de X y de Z son exactamente del mismo tipo1 (son de
la misma forma) valiendose para ello de histogramas: si los Xi denotan los
puntos medios, la tipificacion puede hacerse con los datos originales y podra
verse que ambos histogramas tienen exactamente la misma forma aunque se
tomen clases de distinto tama
no, aunque cuidando de tambien convertir las

X
clases de uno al otro de acuerdo a la formula X
de la tipificacion.
SX
1

Los puntajes de Z , i.e.

X i X
SX

, se llaman puntajes tpicos o est


andar. Tambien se habla

de estandarizar como sin


onimo de tipificar.

101

Distribuciones normales en general.


En resumen pues, tipificar una variable aleatoria significa encontrar otra
cuyas media y desviacion estandar sean respectivamente 1 y 0, pero que
tenga una distribucion enteramente de la misma forma que la primera.
Veamos una aplicacion simple en la solucion de un problema: Un alumno
obtuvo un puntaje de 70 en una prueba de Qumica, para la cual el puntaje
medio fue de 76 con una desviacion estandar de 6; y obtuvo un puntaje de
63 en una prueba de Matem
aticas, para la cual el puntaje medio fue de 75
con una desviacion estandar de 15. En cual de las dos materias tuvo una
posicion relativa mas sobresaliente?
Cuando se habla de posicion relativa, se quiere decir la posicion con respecto
al grupo. Calculemos los puntajes estandar en Matematicas y en Qumica,
pues estos puntajes tpicos son una medida de la posicion relativa con respecto
al grupo mismo (lo explicaremos mas adelante):
70 76
= 1.0
6
63 75
=
= 0.8
15

en qumica: ZQ =
en matematicas: ZM

Leamos estos puntajes tpicos correctamente:


ZQ = 1.0 nos dice que en la prueba de Qumica el alumno se encontro
una unidad de desviacion estandar por debajo de la media
(o del promedio).
ZM = 0.8 nos dice que en la prueba de Matematicas el alumno se situo
0.8 unidades de desviacion estandar por debajo de la media
(o del promedio).
Si la media es realmente el centro de los datos, entonces sera el origen adecuado para situar los datos, y si la desviacion estandar es la unidad adecuada
para medir la dispersion (i.e. el distanciamiento de los datos de la media o
centro) entonces sera la unidad adecuada para la escala real de los datos.
Con el criterio anterior en mente, podemos entonces asegurar que puesto
que ZQ < ZM , el alumno tuvo una posicion relativa mas sobresaliente en
Matematicas que en Qumica.
La idea detras de los puntajes estandar es que sit
uan los datos con respecto
a su verdadero origen y la escala propia. Mas precisamente, los puntajes
est
andar no se modifican si los datos originales (no tipificados) se modifican
cambiando el origen y la escala, con tal de que esta u
ltima sea uniforme. El

102

Distribuciones normales en general.


enunciar esta u
ltima propiedad matematicamente y luego probarla, se deja
al lector como ejercicio.
Como otro ejemplo del empleo de puntajes estandar, considerese la comparaci
on de dos estudiantes para los que se conocen los puntajes en 4 examenes
(como se muestra en la tabla).
X

Juan

Pedro

Juan

Pedro

40

63

40

34

0.11

19

23

17

37

45

41

148

155

examen

SX

42

18

34

3
4

sumas:

1.00

1.17
0.00

0.50 0.25
2.00

1.00

3.39

1.92

Un modo de comprobar el aprovechamiento de los alumnos consiste en sumar


los puntajes en cada uno de los examenes, lo que arroja 148 para Juan y 155
para Pedro. Seg
un esto, Pedro aventajara ligeramente a Juan.
Otra manera, consiste en calcular los puntajes tpicos o estandar del alumno
en cada examen y luego sumarlos, arrojando en este caso: 3.39 para Juan
y 1.92 para Pedro, lo que da una clara ventaja a Juan sobre Pedro.
Examinando los datos con cuidado se podra apreciar que, al menos en este
caso, parece mas razonable el segundo metodo que le da la ventaja a Juan.
En el ejemplo examinado, se entiende que todos los examenes tienen el mismo
peso (o la misma importancia). Si no fuese as, bastara multiplicar los pesos
asignados a cada examen por el puntaje correspondiente antes de sumarlos.
Continuemos con las distribuciones normales. Una variable aleatoria continua X se dice tener una distribucion normal si su version tipificada sigue a
la distribucion normal tipificada; esto es, si Z = X
(donde y son

la media y la desviacion estandar de X) tiene por distribucion a la normal


tipificada, lo que significa que
Z b
1
x2
e 2 dx
Pr(a Z b) =
2
a
para cualesquiera a y b. Veamos como debe ser la distribucion de X para
que Z = X
siga la distribucion normal tipificada:

AX B

es equivalente a
103

A
X
B

Distribuciones normales en general.


A
B
Z
; luego



B
A
Pr(A X B) = Pr
Z
.

a su vez equivalente a

Por definicion:
Pr

A
B
Z

haciendo el cambio de variable t =


B

A
t=

t=

t2
1
e 2 dt ;
2

, tenemos que dt =

corresponde a x = B

1
dx ;

ademas

corresponde a x = A ,

con lo que obtenemos que


Z

Pr(A X B) =

(
1
e
2

x 2

dx

para cualesquiera A y B. Esto nos dice que si la variable X sigue una


distribucion normal con media y desviacion estandar , dicha distribucion
esta dada por la funcion densidad
(
1
Z, (x) =
e
2

x 2

dx

7.3

Ejercicios.
1. Muestre, haciendo un cambio de variable, que
Z
Z, (x)dx = 1

(suponga que

Z(x)dx = 1).

2. La media de X es y la desviacion estandar es , donde X tiene por


densidad a y = Z, (x) .
3. La grafica de y = Z, (x) tiene tambien una forma acampanada cuyo
eje de simetra corresponde a la recta x = y cuyos puntos de inflexion
son x = . Haga un bosquejo de la grafica de y = Z, (x) ,
encontrando los puntos de inflexion, etc.
104

Distribuci
on normal acumulada.
La relacion dada en 7.3 y el ejercicio 2 muestran que la familia de distribuciones normales esta dada por dos parametros: y . Es decir, los valores
de la media y la desviacion , determinan a la distribucion normal; equivalentemente, hay una y solo una distribucion normal con media y desviacion
est
andar dadas y su distribucion esta dada por la formula 7.3. Mas a
un, si
X es variable aleatoria Normal con media y desviacion estandar , se tiene
la relacion


B
A
Pr(A X B) = Pr
Z
7.4

(donde Z sigue a la Distribucion Normal tipificada) lo que hace innecesario


fabricar tablas para las diversas distribuciones normales, bastando la tabla
de la Distribucion Normal Tipificada.
Es conveniente leer adecuadamente la relacion 7.4 que nos dice que midiendo
los puntos en una distribucion Normal con la media como origen y con
la desviacion estandar como unidad, todas tales distribuciones normales
se comportan del mismo modo. As, si X sigue a una distribucion normal
con media 30 y desviacion estandar 3, y consideramos los valores X1 = 24 y
X2 = 33, tenemos que X1 se sit
ua dos unidades de desviacion por debajo de
la media, y X2 una unidad de desviacion por encima de la media (esos son
pr
acticamente los puntajes estandar), entonces el area bajo la grafica entre
estos dos puntos es la misma que el area comprendida entre dos puntos; el
primero, dos unidades debajo (en desviaciones estandar) y el segundo, una
unidad encima (en desviaciones estandar) de cualquier distribucion normal.
En particular esto sera cierto de la distribucion Normal Tipificada (cuya
media es cero y su desviacion estandar es 1); luego
Pr(24 X 33) = P r(2 Z 1)
donde Z sigue la distribucion Normal Tipificada. En terminos de una tabla
con areas como las de la figura 7.2, tenemos
Pr(2 Z 1) = Pr(0 Z 2) + Pr(0 Z 1)

0.4772
+
0.3413
=
=

0.8185

Distribuci
on normal acumulada.
Se recordara, cuando se vieron distribuciones de frecuencia, la distribucion
de frecuencias acumuladas. Se define en forma similar una distribucion continua acumulada: Si X es una variable aleatoria continua con densidad de

105

Distribuci
on normal acumulada.
probabilidad y = f(x), entonces su distribucion acumulada esta dada por
y = F (x) donde
Z x
F (x) =
f(t)dt
A

entendiendo que A es el lmite inferior del rango de la variable X; a y = F (x)


se le llama a veces la Funci
on de Distribuci
on2 de la variable X.
En el caso de la distribucion Normal Tipificada, la funcion de distribucion se
denota por P (x) y tenemos que
P (x) =

z(t)dt =

1
t2
e 2 dt
2

7.5

Geometricamente P (x) es el area bajo la grafica de la funcion densidad que


queda a la izquierda del valor x de la abscisa, como se muestra en la siguiente
figura:
....
.......... ............
...... .. .. .. .. .. .......
....... .. .. .. .. .. .. .. ..........
.
.
.
.... . . . . . . . . . ....
.... .. .. .. .. .. .. .. .. .. .. .. .....
... . . . . . . . . . . . . . ...
..... .. .. .. .. .. .. .. .. .. .. .. .. .. ........
.
.
.
.
.
.
.... . . .. .. .. .. .. .. .. .. .. .. .. .. .. .....
.... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ......
..... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .......
.
.
..... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ...
.... . . . . . . . . . . . . . . . . . . . . . ....
... . . . . . . . . . . . . . . . . . . . . . . . ....
.... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .........
.
.
.. . . . . . . . . . . . . . . . . . . . . . . . . . . ....
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . .....
.... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .....
........ .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ............
.
.
.
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ........
......
...... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
......
....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
........
.......... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .....
.
.
.
.
.
.
...........
.
..... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
.
.
.
.
.
.
.
...............
.
.
.
.
.
.
.
........... . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
.
.
.
.....................................................................................................................................................................................................................................................................................................................

y = z(x)

x
area sombreada = P (x)
figura 7.4

Como una aplicacion sencilla del Teorema Fundamental del calculo


x2
1
P 0 (x) = z(x) = e 2
2

En general, para una distribucion continua con densidad y = f(x) se tiene


que F 0 (x) = f(x). En la siguiente figura se hace un bosquejo de la grafica de
y = P (x) y se deja como ejercicio al lector justificar el bosquejo de la figura,
es decir que y = P (x) es estrictamente creciente con 0 < y < 1, que tiene un
u
nico punto de inflexion en x = 0, etc, etc.
2

O Funci
on de Distribuci
on Acumulada.

106

Distribuci
on normal acumulada.
..
...
..
...
.............................................................................
...
................................................
.........................
..
..............
..
...........
.
.
.
.
.
.
.
...
.
.
........
..
....... ..............
..
....... .
...
...... ...
.
.
.
.
..
.
..
.....
..
.....
..
...
......
..
..
......
.
.
.
.
..
x
..
.
.
...
.
...
.
..
.
.
.
..
.
.
1 .. ......
.
. .....
.
.
.
2..........
............. .....................................................
... ..............
..
.. .
x
x
..... ..
..
...
..... ....
.
.
..
..
.
.
..
.
.
.
.
.
.
..
.
..
.....
....
.....
..
..
..
.....
x ..
...
..
......
.
..
.
.
.
.
.
.
.
.
.
..
...
.
.
.
.
....
.. ...........
..
..
..
...........................
...
.
.
.
.
.
.
.
.
.
.
..
..... ..
....
........
.
.
.
.
.
.
...
.
.
.
.
.
....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
...
.
...
.........................
..............................................................................................................................................................................................................................................................................................................................................................................................................................................
..
...
.

y = P (x)

figura 7.5
Una de las ventajas de y = P (x) sobre y = z(x) es que la primera (la version
acumulada) establece una correspondencia biunvoca entre los valores de la
variable y los valores de la funcion, en este caso entre los valores < x <
y los valores 0 < y < 1, de tal forma que a cada valor posible de x le
corresponde uno y solo uno de y dado por y = P (x), y a cada valor posible
de y (entre 0 y 1) le corresponde uno y solo uno de x tal que satisface
y = P (x).
Esto no ocurre para y = z(x) como podemos ver en la figura 7.6: si bien es
cierto que a cada valor de x le corresponde uno y solo uno de y, esto no se
tiene a la inversa, es decir que para cada valor posible de y (entre 0 y 12 ,
con excepcion de y = 12 ), le corresponden dos valores de x porque se tiene
z(x) = z(x) siendo z(x) =

1
2

x2
2

.
....

..
1 .....
.
2
...............
.........

..... ... .........


....
.....
...
....
....
..
....
....
.
..
.
....
..
.
.
.
...
..
..
.
.
...
.
.
.
.
.
...
.
..
.
....
.
.
.
.
.
...
.
.
.
.
.
.
.
... ... ... ... ... ... ... ... ... ..... ... ... ... ... ... ... ... ... .........
.
.
.
. ..
.
.
.
.
.........
.. ..
....
. ....
...
..
.. ....
... ...
.
.
...
..
.
.
.
.
.
...
.
.
.
.
..
....
.
.
.
..
.
.
.
...
.
.
.
.
.
.
.
.
.
....
..
..
.
.
.
.
.
.
.
....
.
.
.
.
.
.
.
.
.....
.
.
...
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
...
.
......
.
.
.
.
.
.
.
..
.......
.
.
.
.
.
.
.
.
.
.
.
..
........
.
.
.
.
.
.
.
.
.
.
.
.
.
...........
...
.
.
.
.
.
.
.
.
.
.
...............
.
.
.
.
.
.
.
.
.
...........
.
.
.
.
..........................................................................................................................................................................................................................................................................................................
..

figura 7.6
107

Distribuci
on normal acumulada.
Hablabamos de que esto es una ventaja porque le sacaremos provecho cuando
veamos ajuste de una distribucion normal a una emprica, en lo que se
refiere a la bondad de tal ajuste.
La propiedad de establecer una correspondencia biunvoca de y = P (x) nos
permite poder hablar de la funci
on inversa de y = P (x). Esa tal funcion
invierte la relacion entre los valores de x e y.
La funcion inversa de P (x) se denota en matematicas con
P 1 (x) y se tiene

por ejemplo: si x = 0, P (0) = 21 ; luego entonces, P 1 21 = 0. No intentamos
dar una expresion analtica para P 1 (x) ya que esta se describe en tablas
que son las que utilizaremos. La relacion abstracta que rige a las funciones
inversas es


P 1 [P (x)] = P P 1 (x) = x
Para hacer uso de la tabla 26.5 que anexamos a este captulo, se requiere el
conocimiento de otra funcion denotada con y = Q(x), definida por:
Q(x) =

z(t)dt =

t2
1
e 2 dt
2

la cual representa el area sombreada bajo la grafica de y = z(x) en la siguiente


gr
afica
.......................
......
.....
.....
.....
.....
....
.
.
....
..
...
...
.
.
...
.
.
.
...
.
..
....
.
.
..
....
.
.
.
...
.
.
....
.
.
.
.
....
.
.
..
...
.
.
....
..
.
.
...
..
.
.
....
.
.
.
.....
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.. .. .......
.
..
.
.
.
.. . . .......
.
..
.
.
.
. . . .....
.
.
.
.....
.... ... ... ... ... .................
.......
.. . . . . . . . ................
..........
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . ..........
.
.
.
.
.
.
..
..................................................................................................................................................................................................................................................................................................................................

y = z(x)

x
area sombreada = Q(x)
figura 7.7

Puesto que el area total bajo la grafica de y = z(x) es la unidad se tiene que
Q(x) = 1 P (x)



Al final de este captulo, se anexa la tabla 26.5 para Q(x) .
108

Ajuste de distribuciones normales a distribuciones empricas.


Ajuste de distribuciones normales a distribuciones empricas.
En general, para ajustar una distribucion normal a una emprica de una
variable X, se suele tomar la distribucion normal cuyas media y desviacion
y a la desviacion SX
est
andar sean iguales, respectivamente, a la media X
de la distribucion de frecuencias. Sin embargo, la distribucion normal as
obtenida puede ser muy mala aproximacion de la distribuci
on de frecuencias
dada, como lo trata de ilustrar la siguiente figura

.
.
.
.
.
.
.
.
...... ..............
.

.
.
.
.
.

.
......
...

.
.
.
.

.
.
......
..

.
.
.

.
.
.....
..

.
.
.
.

.
....
.
....
......
.
.
.
..
...
.
.
...
.....
.....
.....
....
....
....
....
.
...
....
.
...
.
...
.......

.
...
....

.
...
......
....
....
.....
.....
.....
.....
.....
......
......
.......
......
.......
.
...
.
.
.
........
.
.
.
.
.
.
.
.........
.
...

.
.
.
.
........
.

.
...
.

.
.........
.
.
.
.
.

.
...
.
..............

.
.
.
.
.
.
.
.
.
.

..
........................

...........................
....

figura 7.8
La bondad del ajuste de la normal puede juzgarse dibujando el histograma
y la curva normal de ajuste y luego comparando las areas, pero este metodo
es algo largo y no da una vision de golpe o global de tal bondad. Por
esta razon, nos proponemos ver otro metodo mas ventajoso, por ser mas
gr
afico y mas rapido. Para explicarlo, veremos primero el uso del papel
semilogartmico, pues las ideas esenciales son las mismas y esperemos que,
por su relativa simpleza, constituya un recurso didactico.
El papel semilogartmico se emplea cuando se desea averiguar si ciertas variables, x e y , medidas simultaneamente a un mismo fenomeno, se encuentran
ligadas por una ley tipo exponencial, esto es, de la forma y = Kbx , donde K
y b son constantes. Se entiende que se dispone de parejas de datos empricos
(X1 , Y1 ) , . . . , (Xn , Yn ) y se desea saber si existen constantes K y b tales
que Yi
= Kbxi , i = 1 , . . . , n.
Ahora bien, la escala semilogartmica consiste de una pareja de ejes mutuamente perpendiculares, siendo el horizontal provisto de una escala uniforme
(una escala ordinaria) y el vertical con una escala logartmica base 10 (usualmente). La escala logartmica se construye escribiendo los n
umeros en una
posicion que corresponden en realidad a los logaritmos de tales n
umeros.
Vease la siguiente figura que ilustra esto:

109

Ajuste de distribuciones normales a distribuciones empricas.


0

10

100

1,000

10,000

100,000

uniforme
logartmica

figura 7.9
Puesto que3 log(1) = 0, el 1 se pone en la posicion del 0; como log(10) = 1,
el 10 se pone en la posicion del 1; puesto que log(100) = 2, el 100 se marca
en la posicion del 2, etc. Conviene recordar que log(x) es la funcion inversa
de la exponencial 10x , esto es
10log(x) = log(10x ) = x
as pues, log(1) = log(100 ) = 0; log(100) = log(102 ) = 2; etc.
Cuando graficamos los puntos (x, y) en el papel semilogartmico, estamos en
realidad graficando (con respecto a un sistema Cartesiano normal u ordinario)
el punto (x, log y).
3

1,000

100

10

... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
..
..
.
...
.
..
..

1
1

(3,10)

1
10

figura 7.10
El punto (3, 10) se grafica en realidad como el punto (3, 1), esto es, como
el punto (3, log 10). As pues, los datos a ensayar (Xi , Yi ) se grafican en
realidad como (Xi , log Yi ). Si estos u
ltimos quedan alineados, en realidad se
encuentran ligados por una ley de la forma: log(y) = Ax+B. Luego entonces
10log(y) = 10Ax+B , o sea, y = 10Ax+B .
As que, si los puntos (Xi , log Yi ) estan alineados, entonces los datos Xi
est
an relacionados funcionalmente con los Yi por la ley y = 10Ax+B , o sea,
3

Con log, denotamos al logaritmo base 10.

110

Ajuste de distribuciones normales a distribuciones empricas.


x
y = 10B 10A . Llamando K a 10B , y b a 10A nos queda la forma y = Kbx
(con K > 0). Recprocamente, si los datos siguen la ley y = Kbx , entonces
log(y) = log(K) + x log(b) = (log b)x + (log K),
o sea que los puntos (x, log y) estaran alineados.
En resumen pues, los datos (Xi , Yi ) estaran alineados en el papel semilogartmico [o sea que (Xi , log Yi ) estaran alineados en escalas normales] cuando
y s
olo cuando esten relacionados por una ley del tipo y = Kbx . En la practica, para datos empricos uno no puede esperar tal perfeccion y solo cabe
esperar que queden aproximadamente alineados. En la medida en que esten
m
as o menos alineados, en esa medida estaran relacionadas las coordenadas
aproximadamente por una ley tipo exponencial.
Nuestro problema es similar; deseamos averiguar si una distribucion emprica
sigue una ley de distribucion normal (o que tan bien puede ser aproximada
por alguna de las distribuciones normales). Antes de entrar en detalles, note
que la clave del uso del papel semilogartmico para estimar la bondad del
ajuste de una ley exponencial a los datos, consistio en graficar x versus log y,
donde log y es inversa de una exponencial particular (a saber de 10x ).
Pero, como se hizo notar, y = z(x) no admite inversa (al menos globalmente),
aunque y = P (x), la version acumulada, s. As que lo que veremos en realidad es la bondad del ajuste de alguna distribucion normal a la distribucion
acumulada emprica que se tiene.
Para ver la bondad del ajuste, hay que hacer primero con los datos una
distribucion acumulada de frecuencias relativas, del mismo modo con el cual
se construye un polgono de frecuencias relativas acumuladas: se toman los
extremos superiores de los intervalos de clase y se aparean con las frecuencias
relativas acumuladas. Vease el ejemplo a continuacion:
Y : frec.

X : extre-

0.023

2.5

- 1.99539

0.159

4.0

- 0.99858

4.0 5.5

15

22

0.500

5.5

5.5 7.0

15

37

0.841

7.0

0.99858

7.0 8.5

43

0.977

8.5

1.99539

8.5 10.0

44

1.000

10.0

Intervalo
de clase

frecuencia

1.0 2.5

2.5 4.0

i
i
frecuencia
acumulada mo superior
acumulada
relativa
del intervalo

{z

P 1 (Yi )

(Xi , P 1 (Yi )) : parejas a graficar

111

Ajuste de distribuciones normales a distribuciones empricas.


M
as precisamente, una vez que se tiene la distribucion de frecuencias, se
calculan las frecuencias acumuladas como puede verse. Las frecuencias se
dividen entre el n
umero total de datos (en nuestro caso 44) para obtener las
frecuencias acumuladas relativas, como puede comprobarse efectuando las
operaciones. Estas frecuencias acumuladas relativas son nuestras Yi . Despues apuntamos los correspondientes extremos superiores de los intervalos
de clase, que seran nuestros Xi . Si en este punto, graficasemos Xi versus Yi
obtendramos los vertices del polgono de frecuencias acumuladas relativas,
pero lo que deseamos es en realidad ver si este polgono se parece a una
distribucion normal acumulada.
Siguiendo una idea semejante a la
logartmico, consideramos en
 del papel
1
1
realidad las parejas Xi , P (Yi ) donde P (Yi ) es el valor de la funcion
inversa de la funcion distribucion normal tpica acumulada. Estos valores
P 1 (Yi ) se obtienen consultando la tabla 26.5 de valores de x en terminos
de P (x) y Q(x), dada al final de este captulo. Esto es, dado P (x) [o Q(x)]
uno encuentra x. Esto es lo mismo que una tabla de P 1 (Yi ). As, uno entra
en la tabla con el valor Yi como el valor P (x) y busca el x correspondiente
que sera el valor buscado de P 1 (Yi )4 . La tabla presenta valores P (x) de
entrada en la columna mas a la derecha y empezando desde abajo. El valor
m
as peque
no consignado es de 0.500 = 21 para P (x) que corresponde a x = 0 ;
esto significa que P 1 (0.500) = 0.
Hay que buscar el tercer dgito del valor de P (x) en la base (parte inferior)
de las columnas de los valores de x. Practique con los valores de Yi dados
en la tabla comprobando los obtenidos en la columna P 1 (Yi ) para nuestro
ejemplo. Observe que no hay valores consignados de P (x) en la tabla 26.5
que sean inferiores a 0.50. Sin embargo, en nuestra distribucion debemos
calcular P 1 (0.023) y P 1 (0.159). Para ello recuerde que por la simetra
de y = z(x), un valor de P (x1 ) igual a un Q(x2 ) se obtiene solo cuando
x1 = x2 (vease figura a continuacion).
y = z(x)

..............................
......
......
.....
.....
.....
....
.
.
.
...
..
.
.
...
.
.
.
...
..
....
.
.
.
....
.
.
.
.
....
.
.
.
.
....
.

.
..
.
..
.
.
..
......
.
.
.
.
.
.
......
.
.

.
.
......
...
.....
.........
.....
.
.
...
.

.
...
............
......
.
.
.
.

.
.
..............
..
.
.
.
.
.
.

.
.
..............................
.........
........................
....

area = P (x)

area = Q(x)

figura 7.11

Es decir, de Yi =P (x) se deduce P 1 (Yi )=P 1 [P (x)], o sea, x=P 1 (Yi )

112

Ajuste de distribuciones normales a distribuciones empricas.


As que un valor de P (x) inferior a 0.50 se encuentra en la columna de
Q(x) [en la tabla 26.5, a la extrema izquierda], se encuentra el valor de
x correspondiente y se le pone signo negativo. Practique con los valores
dados en la distribucion de nuestra tabla. As, por ejemplo, Q(x) = 0.023
corresponde a x = 1.99539 y, por lo tanto, P (x) = 0.023 correspondera a
x = 1.99539.

Una vez obtenidas las parejas Xi , P 1 (Yi ) , estas son graficadas. En la
medida en que los puntos esten alineados en esa misma distribucion emprica,
se aproxima mejor por una Normal. Veamos esto teoricamente:

Sup
ongase que Xi , P 1 (Yi ) se encuentran alineados, esto es, P 1 (y) =


mx + b, m y b constantes; entonces P P 1 (y) = P (mx + b) ; luego,
Z

y = P (mx + b) =

mx+b

z(t)dt =

mx+b

2
1
et /2 dt
2

Haciendo el cambio de variable: t = mu + b , tenemos dt = mdu ; luego,


(para t = mx + b se tiene u = x)
y=

2
1
e(mu+b) /2 mdu
2

pero
mu + b =
b
luego, tomando = m
y =

y=

1
m

b
u m
1
m

nos queda

e
2

( u
)
2

du

b
As que y es la distribucion acumulada normal con media = m
y des1
viacion estandar = m .

Ejercicio. Utilizando el metodo descrito (y la tabla 26.5) estime la bondad


del ajuste de distribuciones normales a las siguientes distribuciones (construya una grafica adecuada y trace una recta para apreciarlo mejor):
a) Distribucion binomial de parametros N = 15 y p =
b) Distribucion binomial de parametros N = 25 y p =
A continuacion, anexamos la citada tabla 26.5 para Q(x).
113

1
2
1
2

.
.

Una escala de intervalo para reactivos.


CAPITULO 8:

UNA ESCALA DE INTERVALOS


PARA REACTIVOS.

Anteriormente dejamos como ejercicio estimar la bondad del ajuste de una


distribucion normal a unas binomiales dadas (N = 15 , 25 ; p = 21 ). Para un
valor dado de p (p = probabilidad de exito) a medida que N crece (N =
n
um. de intentos) este ajuste mejora. Mas precisamente, la version tipificada
de una variable que sigue una distribucion binomial tiene como lmite, cuando
N , a una variable normal tipificada. Este no es un hecho aislado; la
distribucion normal sirve de modelo a muchas distribuciones, en particular,
a algunas que nos ata
nen.
A nosotros nos interesan variables que se refieran a atributos o caractersticas humanas, como inteligencia, habilidad matematica, aprovechamiento,
etc. Por supuesto, siendo estos atributos tan nebulosos, hay serias dificultades para hacer a estas variables cuantitativas; para ello, se recurre a las
llamadas definiciones operativas. As, por ejemplo, la habilidad matematica
se define operativamente como el puntaje de un cierto test. Haciendo esto,
sin embargo, no se resuelve el problema del todo. Tal cuantificacion puede
resultar de lo mas artificial. La asignacion de tales n
umeros al rasgo o atributo puede ser poco significativa; si un individuo obtiene un puntaje de 30, no
hay a priori garanta de que sea menos habil que otro, que obtuvo un puntaje
de 35. Esta situacion no es insalvable. Se sabe que cuando es posible medir
atributos o caractersticas humanas al nivel
Intervalo de
de una escala de intervalos, estas medidas siclase
frecuencia
guen una distribucion aproximadamente nor- (estatura en cm)
mal. Por ejemplo, las estaturas pueden ser menos de 154
29
medidas en una escala en cm. y se trata de
154 159
155
una autentica medicion al nivel de escala de
1, 631
160 165
intervalos. Se ha encontrado que las estaturas
8, 899
166 171
en los seres humanos tienen una distribucion
20, 773
aproximadamente normal. Lo mismo ocurre,
172 177
como otro ejemplo, con las temperaturas de
20, 492
178 183
los individuos en reposo, etc.
8, 560
184 189
Para ilustrar lo anterior, en la tabla de la de1, 684
190 195
recha se da una distribucion de las estaturas
196 201
138
de 62, 372 jovenes suecos registrados en el serm
as de 201
11
vicio militar obligatorio de 1962.
62, 372
total:

115

Una escala de intervalo para reactivos.


Con la tecnica antes vista, podremos apreciar que tan aproximadamente
normal es esta distribucion. A continuacion se construye la tabla pertinente:
Y : frec.

X : extre-

i
i
frecuencia
acumulada mo superior
acumulada
del intervalo
relativa

Intervalo
de clase

frecuencia

< 154

29

29

0.0005

153.5

154 159

155
1,631

184
1,815

8,899
20,773
20,492

10,714
31,487
51,979

0.0030
0.0291
0.1718

159.5
165.5
171.5

0.5048
0.8334

177.5
183.5

190 195

8,560
1,684

60,539
62,223

196 201

138

> 201

11

62,361
62,372

0.9706
0.9976
0.9998

189.5
195.5
201.5

160 165
166 171
172 177
178 183
184 189

1.0000

P 1 (Yi )
3.31

2.75
1.89
0.95
0.01
0.97

{z

1.89
2.82
3.54

(Xi , P 1 (Yi )) : parejas a graficar

Enseguida mostramos graficados los puntos obtenidos (Xi vs. P 1 (Yi )). Se
ha trazado una recta sobre ellos solo para que, a simple vista, se aprecie
mejor que tan alineados quedan los puntos.
P 1 (Y )

3
2
1
0
1
2
3

.....
......

.
......
......
.......
.
.
.
.
.
...
......
.......
....
.......
.
.
.
.
.
....
.......
......
.......
..
.
.
.
.
.
.
.......
......
......
.......
.
.
.
.
.
.
.
.......
......
.......
......
.
.
.
.
.
.......
.......
......
......
.
.
.
.
.
.
.
.......
......
......
.......
.
.
.
.
.
.
.......
......
.......
......
.
.
.
.
.
.......
.......
......
......
.
.
.
.

.
.
...
......
.......
............
.
.
.
.
....

153.5

159.5

165.5

171.5

177.5

183.5

figura 8.1
116

189.5

195.5

201.5

............
.....

Una escala de intervalo para reactivos.


Hechos como el anterior sugieren una hipotesis: si pudiesemos medir los
atributos humanos al nivel de una escala de intervalos, tendramos una distribucion (de tales medidas) aproximadamente normal.
Haciendo una serie de simplificaciones veremos como puede esta hipotesis
ayudarnos a construir una escala de intervalos para medir atributos como
habilidad matematica u otros, igualmente escurridizos.
La primera cosa que debemos tener en mente es que en una escala de intervalos la posicion del origen es arbitraria y en todo caso irrelevante. Podemos
entonces situar el origen en cualquier punto de la escala; o lo que es lo mismo,
podemos suponer que la distribucion normal del atributo tiene media cero.
Por otra parte, el tama
no de la unidad no modifica en esencia a la escala.
Podemos, igualmente bien, medir las estaturas en metros o en milmetros,
por ejemplo.
As pues, podemos tomar la distribucion normal tipificada como patron. En
la siguiente figura, hemos tomado el eje horizontal para las medidas del atributo en una escala de intervalos.
........................
.......
......
......
.....
.....
.....
.
.
.
.
....
..
.
.
...
.
.
.
.
...
.
.
.
....
.
..
.
....
.
.
.
.
...
.
.
.

....
.
.
.
....
..
.
.
....
..
.
.
....
..
.
.
....
.
.
.
.
....
.
.
....
.
.
..
.
.....
.
.
.
......
...
.
.
.
.
......
..
.
.
.
.
.
......
..
.
.
.
.
........
.
.
...
.
.
.
..........
.
.
.
.
...
.
.
...............
.
.
.
.
.
.
.
.
.
.
.
.
.............. .
.................
.........................................

atributo

figura 8.2
Ahora bien, veamos como podemos aprovechar esto. Supongamos que tenemos en mente como atributo a la habilidad para resolver problemas matem
aticos de cierto tipo, y se disponen de una sucesion de reactivos 1, 2, 3,
etc., donde se entiende que cada uno de ellos ofrece diferente grado de dificultad y pone precisamente en juego y a prueba a tal atributo. As, por ejemplo,
el reactivo i suponese que requiere un mnimo del atributo para su correcta
solucion, de tal modo que si un individuo posee ese atributo en cantidad
no menor que la mnima, lo resolvera y, en caso contrario, si posee el atributo
en menor cantidad que la mnima, no podra resolverlo. Sean
pi = fraccion de individuos que resolvieron el reactivo i;
qi = fraccion de individuos que no resolvieron el reactivo i.
Entonces pi + qi = 1. Para fijar ideas, supongamos que pi = 84.13% (o
pi = 0.8413); luego, qi = 15.87% (o qi = 0.1587). As pues, el 84.13% de los
117

Una escala de intervalo para reactivos.


individuos poseen una habilidad superior o igual a la exactamente necesaria
para resolver el reactivo i, y el 15.87% de ellos una inferior.
Ahora bien, esta habilidad matematica necesaria para resolver el reactivo i
debe tener una medida (o sea una posicion) en la escala de intervalos correspondiente:
.........
.......
......... .......
.....
......
......
..... ..........
.
.
.
.
.. .....
.
.
.
... ......
...
.
... ...
... ....... .....
.
.
.
...........
.. ..
.
.
... .........
...
............ ......
... ......
......
.... ......
... ......
.
.

......
.
.
....
....
...
...
....

....
.
.
....
.
.

.
.
....
.
.
.
.
....


.
..
.
.....
.
.
.
.

......
.
.
.
.
.
..
.
.
.

........
.
.
...
.
.
.
.
.
.............
..
.
.
.
.
.
.
...
.

.............
.
.
.
.
.
.
.
.
..................................
.............
..... .....
.........................
...
...........
............
................
.

area
= 0.8413

figura 8.3
Pero esta magnitud de la habilidad es tal que el 84.13% la poseen en grado
mayor; luego, dada la distribucion normal (para la habilidad), la posicion
requerida por el reactivo i es tal que la probabilidad de encontrarse a su
derecha (poseerla en mayor grado) es 84.13% o 0.8413; as que la posicion es
tal que el area a su derecha y bajo la curva normal es 0.8413.
Consultando una tabla para la distribucion normal tipificada vemos que
Pr(Z 1) = P (1) = 0.8413 aprox.
es decir, el area bajo la curva a la izquierda de la posicion para x = 1 es
0.8413, como se muestra en la siguiente figura
....
............ .............
....... ...........
..
......
..... .........
.
.
.
..
...
... ......
.
.
..
..
... ......
.
.
.. ..... ...........
...
.... .....
.
.
. ............
...
...........
...
... .........
............
....
..
.... .......
..
.
.
.. ......
.
.
.
...
.
.

.
....
.
.
.
....
..
....
....
.
.

.
.....
.
.
.
.
.
......
.
.
..
.
.
......
.
.
..
.
......
.
.
.
.
..
.......
.
.
.
.
.
........
...
.
.
.
.
.
.
.........
...
.
.
.
.
.
.
.............
.
.
.
....
.
.
.
.
.
.
.
.........................
.
.
.
.
.
.
.
.
.
....
...........
. .


...............................................

area
= 0.8413

figura 8.4
luego entonces, por la simetra de la distribucion normal, la posicion de i
corresponde a 1 (fig. 8.5)
118

Una escala de intervalo para reactivos.


...............................
......
.......
.....
......
.....
.....
.
.
.
....
..
.
.
.
....
..
.
.
...
.
.
....
.
.
.
....
.
.
..
.
....
.
.
.
.
...
.
.
.
....
.
.
.
.
. ...
....
.
.
.
....
.. ....
.
.
.
....
.. ....
.
...
.
..
..
...
.
.
.
..
....
..
.
.
.
.
.
....
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
..
.....
.
.
.
.
.
.
.....
.
...
.
.
.
.
.
......
.
.
..
.
.
.
.
.
......
.
.
..
..
.
.......
.
.
.
.
.
.
.
...
........
.
.
.
.
.
.
.
.
.
.........
...
.
.
.
.
.
.
.
.
.
.
.............
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.........................
.
.
.
.
.
.....................
. .
.....
..............................................
.

.
...........
... .
...
.
.
..
....
....

figura 8.5

Haciendo lo anterior para cada uno de los reactivos, podemos colocarlos en


(o asociarlos a) puntos de una escala que, se supone, mide el atributo al
nivel de escala de intervalos. El hecho de que se obtenga un valor negativo
para la magnitud de un atributo implcito en un reactivo, no significa que el
individuo no lo posea (o que posea el inverso del atributo). Recuerde que
la posicion del origen es irrelevante.
Sup
ongase que del modo indicado se han clasificado los reactivos como se
muestra en la siguiente figura
................................
.......
......
.....
.....
.....
.....
.
.
.
.
....
..
.
.
.
...
.
.
.
.
...
..
.
....
.
.
.
.
....
.
...
....
.
.
...
..
.
.
....
.
.
.
.
....
.
.
.
....
..
.
.
.
....
..
.
...
.
..
...
.
.
.
....
.
.
.
.
....
.
.
.
.
.....
.
.
.
.
.....
..
.
.
.
.
.....
..
.
.
.
......
.
..
.
.
.
......
.
.
..
.
.
.......
.
.
.
.
...
........
.
.
.
.
.
.
..
.........
.
.
.
.
.
.
.
.
.
.............
....
.
.
.
.
.
.
.
.
.
.........................
.
.
.
.
.
.
...................
. .
..............................................
.

reactivos:

-0.5

0.5

-2

-1

figura 8.6
Veamos ahora como se utiliza esto. Subrayemos en primer termino que el atributo de que se trate, se refiere a individuos. Lo que deseamos es, por tanto,
medir la magnitud del atributo para diferentes individuos; pero para hacerlo,
nos servimos de los reactivos como paso intermedio. Esto es, solo podemos
conocer el atributo a traves de su respuesta a los reactivos. As, pensando en
la figura 6, si un individuo es capaz de resolver satisfactoriamente el reactivo
3 pero no el 4, lo ubicaremos (su atributo) entre 0 y 1. Podramos precisar
119

Una escala de intervalo para reactivos.


mejor la medida del atributo para el sujeto si dispusieramos de reactivos que
correspondiesen a marcas en la escala entre 0 y 1.
Si tuviesemos a tres sujetos A, B y C en las posiciones indicadas en la fig. 8.6,
podramos decir que el individuo B posee el atributo con un exceso sobre
el de A de la misma magnitud que en la que C lo excede. Esto es una
consecuencia del hecho supuesto de que la escala es de intervalos. Conocemos
para un individuo la medida del atributo solo en relacion con la medida de
otros. Aunque solo medimos el atributo en forma relativa, el tener una escala
de intervalos para realizar la medicion nos permite hacer uso de medias y
desviaciones estandar significativamente.
Para realizar este modelo de construccion de una escala de intervalos para
atributos, se tropieza con varias dificultades que pueden resumirse en que
deben de satisfacerse dos condiciones, a saber
1) Unidimensionalidad; que quiere decir que los reactivos midan el mismo
atributo, aunque con diferentes niveles de intensidad.
2) Diferenciaci
on precisa; que quiere decir que los reactivos puedan diferenciar a los individuos en el continuo (o sea en el eje de la escala) sin
errores.
La primera condicion es difcil de satisfacer en la practica. Las mediciones
de un individuo con los reactivos como instrumentos de medicion pueden
corresponder a uno o a varios continuos (i.e. pueden medir uno o mas de
un atributo con diferente intensidad). Esto tiene que ver con lo que se
denomina validez del instrumento de medicion. Esto es, validez se refiere a
que los reactivos midan en realidad el atributo que se suponen medir.
La segunda condicion, de que midan sin errores, aunque estrictamente imposible de lograr en la practica, debe satisfacerse en el sentido de estimar (y
minimizar) el tama
no del error. Esta segunda condicion tiene que ver con la
llamada confiabilidad del instrumento de medicion.
M
as adelante abordaremos los temas de confiabilidad y validez.
Ejercicios.
1. Cuatro reactivos, que se suponen medir el mismo atributo, tienen las
siguientes proporciones de respuesta correcta:
p1 = 0.135% ;

p2 = 99.38% ;

p3 = 94.52% y p4 = 78.23% .

Encuentre sus posiciones relativas en la escala (utilice una tabla de areas


bajo la distribucion normal tipificada).
Referencia: <<Teora de los Tests>> por D. Magnusson, cap. 1. Ed. Trillas.

120

Independencia y dependencia de variables.


CAPITULO 9:

INDEPENDENCIA Y DEPENDENCIA
LINEAL.
DE VARIABLES. CORRELACION

Cuando estudiamos series de lanzamientos de una moneda no cargada,


dijimos que los lanzamientos eran independientes (o mas precisamente, que
los resultados de lanzamiento a lanzamiento eran independientes). Si en el
primer lanzamiento el resultado era A (aguila), la probabilidad de obtener
A en el segundo segua siendo 21 y la probabilidad de obtener S (sol) en el
segundo tambien 12 . Lo mismo ocurra si el resultado del primer lanzamiento
era S. Como consecuencia de esto, la probabilidad de
AA (aguila en
 obtener

el primer lanzamiento y aguila en el segundo) es 12 21 = 14 .

Si en vez de considerar una serie de dos lanzamientos consideramos el lanzamiento simultaneo de dos monedas decentes, se obtendran probabilidades
similares porque los resultados (de cada moneda) seguiran siendo independientes. En el caso de una serie de dos lanzamientos, decamos que la moneda
no tiene historia (o que en todo caso, la desconoce). En el caso de lanzamiento simultaneo, cada una de las monedas ignora a la otra.
Introduzcamos ahora el lanzamiento de dos dados no cargados. Se entiende entonces que cada uno de los dados no favorece a cara alguna, as que
habiendo seis caras, la probabilidad de obtener una cierta cara como resultado sera 61 . Sean X e Y dos variables de modo que X es el n
umero de puntos
de la cara que queda hacia arriba del primer dado e Y similarmente para el
segundo dado. As entonces, X e Y son variables aleatorias (discretas) con
rangos iguales, a saber, {1, 2, 3, 4, 5, 6} y con
1
6
1
Pr(Y = 1) = = Pr(Y = 6) =
6

Pr(X = 1) = = Pr(X = 6) =

En lanzamientos simultaneos, obtenemos parejas de resultados (Xi , Yj ) , refiriendose el primer dato al valor de X y el segundo al de Y . Los resultados
posibles son 36:
(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)

(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)

(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)

(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)

121

(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)

(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)

Independencia y dependencia de variables.


En virtud de la independencia antes mencionada, se tiene que los 36 resul1
tados son equiprobables: Pr(X = i, Y = j) = 36
, para i, j = 1 , . . . , 6 ;
ademas, se verifica que
Pr(X = i, Y = j) = Pr(X = i) Pr(Y = j) =

1 1
1
=
6 6
36

Puede parecer artificial nuestra insistencia en el hecho de que la probabilidad


de que ocurra una pareja de valores de las variables este dada por el producto
de las probabilidades de ocurrencia por separado de cada valor, debida quiza
esta apariencia al hecho casi autoevidente de que la probabilidad asignada
1
a la ocurrencia de una pareja cualquiera de valores es siempre igual a 36
.
Sin embargo, esta regla se extiende a situaciones no tan triviales, como la
siguiente:
Pr(X 4 , Y 5) = Pr(X 4) Pr(Y 5) =

8
2
4 2
=
=
6 6
36
9

El evento X 4 e Y 5 se refiere a todas las posibles parejas en las cuales


el primer valor no excede a 4 y el segundo excede a 4, a saber
(1, 5)
(2, 5)
(3, 5)
(4, 5)
luego, Pr(X 4 , Y 5) =

8
36

2
9

(1, 6)
(2, 6)
(3, 6)
(4, 6)

y se comprueba la relacion anterior.

Sin embargo, en muchas ocasiones, es mas comodo aplicar la regla, pues para
conocer el efecto simultaneo de dos variables independientes basta conocer
por separado el comportamiento de cada una de ellas.
En este momento podramos definir (o caracterizar) en terminos matematicos
la independencia de variables aleatorias por la siguiente regla: X e Y son
variables independientes si, para cualesquiera a y b, se cumple que:
Pr(X a , Y b) = Pr(X a) Pr(Y b)
Pero de hacerlo as, esta version de la independencia estara algo lejos de
nuestra idea intuitiva que nos dice que una variable es independiente de
otra si los valores de la primera no se ven afectados por los valores de la
segunda; mas precisamente y en particular: dos variables aleatorias se dicen
independientes cuando las probabilidades de que la primera variable adquiera
tales o cuales valores no se vean afectados por el hecho de que la segunda
122

Independencia y dependencia de variables.


haya tomado tales o cuales otros. De aqu a la regla del producto hay cierta
brecha por llenar.
Con el fin de hacer las cosas mas claras, veremos una definicion algo mas
cl
asica (aunque equivalente) que la anterior. Para exponer la definicion clasica, introduciremos previamente el concepto de probabilidad condicional.
Haremos esto utilizando un ejemplo.
Una urna contiene tres bolas rojas y dos negras. Las bolas son identicas
excepto por el color. Estas bolas van a ser extradas, despues de haber sido
bien revuelta la urna, por una mano santa. Bajo estas condiciones, cada
bola tiene la misma oportunidad de ser elegida.
El experimento de azar consiste en extraer dos bolas en sucesion y sin reposici
on previa a la segunda extraccion. Esto es, se extrae (al azar) una primera
bola, se conserva fuera de la urna y de las restantes se extrae otra (al azar),
constituyendo esta pareja de extracciones un resultado del experimento. Estos resultados seran interpretados en el sentido de que solo nos interesa el
color de las bolas extradas. Denotaremos bola de color rojo con R y bola
negra con N. As pues, los resultados posibles pueden representarse con
RR, RN, NR, NN
donde RN, por ejemplo, denota que la primera bola estrada resulto roja y
la segunda negra.
Consideremos los siguientes eventos
A: La segunda bola extrada es negra. En terminos conjuntistas
A = {RN , NN}, es decir, este evento ocurre si del experimento se obtiene
como resultado RN o bien NN.
B: La primera bola extrada es roja. En terminos conjuntistas
B = {RR , RN}, es decir, este evento ocurre si del experimento se obtiene
como resultado RR o bien RN.
Con Pr(A) se denota la probabilidad de ocurrencia del evento A y con Pr(B)
la del B. Esta u
ltima se calcula facilmente, pues la probabilidad de que la
primera bola extrada sea roja es claramente 53 , ya que la urna contiene 5
bolas de las cuales 3 son rojas (y las 5 bolas tienen igual oportunidad de
salir). La probabilidad del evento A es algo mas difcil de calcular, pues
se refiere al hecho de que la segunda bola extrada sea negra (recuerde que
no hay reposicion). Pensemos que al momento de la segunda extraccion,
podemos estar en uno de dos casos:
a) Que la primera bola extrada haya sido roja, lo cual ocurre, teoricamente,
3
an en la urna,
5 partes (60%) del total de las veces, por lo que restar
123

Independencia y dependencia de variables.


para la segunda extracci
on, dos bolas rojas y dos negras; luego, en este
3
caso, la mitad de estos 5 de las veces, la segunda bola sera negra; o sea,
3
de las veces; y
obtenemos la pareja RN en 12 35 = 10
b) que la primera bola haya sido negra, lo cual ocurre, teoricamente, 25
partes (40%) del total de las veces, por lo que quedaran en la urna, para
la segunda extraccion, 3 bolas rojas y una negra; luego, en este caso, la
cuarta parte de estos 52 de las veces, la segunda bola sera negra; o sea,
1
de las veces.
obtenemos la pareja NN en 14 52 = 10

En resumen:

Pr(A) = Pr(RN) + Pr(NN) =

3
1
4
2
+
=
= .
10 10
10
5

Visto de otra forma, en la primera extraccion, de 100 veces ocurren, teoricamente, 60 rojas y 40 negras; en la segunda extraccion, te
oricamente, un
medio de las 60 rojas (o sea 30) y la cuarta parte de las 40 negras (o sea 10)
se aparearan con bolas negras. As pues, de 100 series de dos extracciones, en
30+10 = 40 casos ocurre (teoricamente) bola negra en la segunda extraccion;
luego
2
3
40
=
y, como ya se vio,
Pr(B) =
Pr(A) =
100
5
5
En el razonamiento u
ltimo, para hallar la probabilidad del evento A, hemos
utilizado la probabilidad en un sentido determinista: si la probabilidad de
algo es 53 , de cinco veces1 ocurre 3. Por supuesto, lo anterior es incorrecto
estrictamente hablando, pero como recurso funciona muchas veces.
Existe otra tecnica a la que se recurre con mucha frecuencia para estimar
probabilidades y que resulta u
til para este caso, a saber, el de interpretar
los posibles resultados de forma que resulten equiprobables. Para ello, distinguimos provisionalmente todas las bolas entre s; consideremos a las bolas
como
R1 , R2 , R3 , N1 y N2
(esto es la bola roja 1, la bola roja 2, etc.). Cada uno de estos objetos
tiene igual oportunidad de ser escogido cuando se encuentra en la urna.
Los posibles resultados del experimento son (recuerde que la primera bola
extrada no se regresa antes de la segunda extraccion):
(R1 , R2 ) (R2 , R1 ) (R3 , R1 ) (N1 , R1 ) (N2 , R1 )
(R1 , R3 ) (R2 , R3 ) (R3 , R2 ) (N1 , R2 ) (N2 , R2 )
(R1 , N1 ) (R2 , N1 ) (R3 , N1 ) (N1 , R3 ) (N2 , R3 )
(R1 , N2 ) (R2 , N2 ) (R3 , N2 ) (N1 , N2 ) (N2 , N1 )
1

O intentos

124

Independencia y dependencia de variables.


Como ahora distinguimos a las bolas entre s y no existen preferencias en
la urna, estos 20 resultados deben ser equiprobables; luego, con probabilidad
1
cada uno.
20
Podemos considerar los resultados del experimento original en terminos de
esta segunda version; as pues, el evento A, en terminos conjuntistas, sera:
A = {(R1 , N1 ) , (R2 , N1 ) , (R3 , N1 ) , (R1 , N2 )

(R2 , N2 ) , (R3 , N2 ) , (N1 , N2 ) , (N2 , N1 )}

Recuerde que el evento A ocurre en todos los casos en que la segunda bola
es negra (por definicion); esto es, en el nuevo lenguaje, en los casos en que la
segunda bola sea N1 o N2 . As, claramente tenemos
Pr(A) =

8
2
=
20
5

Por otra parte, recordando que B ocurre (por definicion) cuando la primera
bola es roja, este evento ocurre con cualquiera de las parejas de las primeras
tres columnas y siendo mas facil contar que expresar conjuntistamente a B,
tenemos claramente
12
3
Pr(B) =
=
20
5
Introducimos ahora el concepto de probabilidad condicional. Pr(A | B), lease
probabilidad de A dado B, denota la probabilidad de la ocurrencia del
evento A dado que con certeza ha ocurrido B. Esto es, si se sabe que B ha
tenido lugar, lo que mide Pr(A | B) es que probabilidad existe de que A haya
ocurrido tambien. Veamoslo en nuestro ejemplo.
Sup
ongase que nuestro experimento de azar se realiza y antes de la segunda
extraccion se nos dice: la primera bola fue roja (esto es, que ha ocurrido B),
cu
al sera entonces la probabilidad de que en la segunda extraccion la bola
resulte negra (esto es, que ocurra A)? Nada mas facil: si en la primera
extraccion la bola elegida fue roja, quedan en la urna dos bolas rojas y dos
negras; luego, la probabilidad de que la segunda bola sea negra, en estas
condiciones, es claramente 21 (literalmente, 24 ). As pues, en nuestro ejemplo
Pr(A | B) = 21 y es importante notar que2 Pr(A | B) 6= Pr(A).
De acuerdo con nuestra noci
on intuitiva de independencia, A sera independiente de B si
Pr(A | B) = Pr(A)
2

Recuerde que Pr(A)= 52 .

125

Independencia y dependencia de variables.


Esto es, la probabilidad de A cuando es independiente de B, no se modificara
por el hecho de que B haya tenido o no lugar. La probabilidad condicional
es pues, un concepto que nos permite formular la nocion de independencia
en terminos mas cercanos a nuestra intuicion.
Con la notacion Pr(A | B), hemos calculado la probabilidad condicional de A
dado B a partir de la idea de este concepto para nuestro ejemplo particular. Existe, sin embargo, una formulacion matematica de este concepto de
probabilidad condicional, a saber,
Pr(A | B) =

Pr(A B)
,
Pr(B)

donde Pr(B) 6= 0

En esta expresion, A B denota el evento que tiene lugar cuando ocurren


simultaneamente A y B. Para nuestro ejemplo
A B ={(Ri , Nj ) , (Nj , Nk ) | i = 1, 2, 3; j, k = 1, 2; j 6= k}
{(Ri , Nj ) , (Ri , Rk ) | i, k = 1, 2, 3; i 6= k; j = 1, 2}
={(Ri , Nj ) | i = 1, 2, 3; j = 1, 2}
=R N

donde R = {R1 , R2 , R3 } y N = {N1 , N2 }. Comprobemos que el valor


obtenido, Pr(A | B) = 21 , es el mismo que con la formula anterior.
6
3
=
20
10

Pr(A B) = Pr(R N ) =
y, como ya sabamos, Pr(B) = 35 ; luego
Pr(A B)
=
Pr(B)

3
10
3
5

1
2

Ahora bien, para que el lector se convenza de la validez de la formula para


nuestro ejemplo (y no solo la verifique numericamente, como hemos hecho),
consideremos la segunda version (la de eventos equiprobables) de nuestro
experimento de extraccion de bolas. Viendo la lista de los 20 casos posibles,
notamos que en 12 de ellos (primeras tres columnas) ocurre B (esto es, la
primera bola es roja). Dentro de estos casos (que son 12) en 6 ocurre A
(
ultimos dos renglones de cada una de las tres columnas). As pues, si ha
ocurrido B, la probabilidad de A sera 12 , es decir
Pr(A | B) =
126

6
1
=
12
2

Independencia y dependencia de variables.


Pero, viendolo mas de cerca, ese 6 es la frecuencia (teorica) de ocurrencia
de A dentro de B; o sea, de A B; y ese 12 es la frecuencia (teorica) de
ocurrencia de B (entre los 20 posibles resultados). As pues,
Pr(A | B) =

Frec. teorica de A B
Frec. teorica de B

Pero no hay problema en sustituir las frecuencias teoricas por las frecuencias
relativas teoricas en numerador y denominador (equivale a dividir numerador
y denominador por el mismo n
umero, en nuestro caso, entre 20):
Pr(A | B) =

Frec. relativa teorica de A B


Frec. relativa teorica de B

o sea, finalmente
Pr(A | B) =

Pr(A B)
Pr(B)

Ahora bien, podemos pensar este esquema anterior en abstracto y convencernos de la validez general de la formula. Se deja al lector que medite a este
respecto hasta adquirir una impresion intuitiva de la validez de la formula.
Tambien se recomienda que calcule Pr(B | A) utilizando la formula
Pr(B | A) =

Pr(B A)
Pr(A)

ya que, en este caso, para los eventos de nuestro ejemplo no es facil calcularla
del mismo modo que hicimos sin utilizar la segunda version (puede, eso s,
utilizar esta segunda version y ver de paso la validez del cociente propuesto).
Ahora bien, con el concepto de probabilidad condicional establecido (y esperamos que bien comprendido), podemos definir matematicamente (como se
esperaba) el significado de independencia: Dos eventos A y B se dicen ser
independientes cuando simult
aneamente:
Pr(A | B) = Pr(A)

Pr(B | A) = Pr(B)

Exceptuando casos mas bien triviales (Pr(A) = 0 o Pr(B) = 0), basta una
de las relaciones. Mas precisamente, de una se deduce la otra; por ejemplo:
Supongamos que A es independiente de B, es decir, que
Pr(A | B) = Pr(A)
127

Independencia y dependencia de variables.


entonces
Pr(A | B) =

Pr(A B)
= Pr(A)
Pr(B)

por lo tanto
Pr(A B) = Pr(A) Pr(B)

Pr(A B)
= Pr(B)
Pr(A)

y como A B = B A se tiene que


Pr(B | A) = Pr(B) .
Puede verse, de pasada, que ambas condiciones, Pr(A | B) = Pr(A)
Pr(B | A) = Pr(B) , (dejando de lado casos triviales) son equivalentes a

Pr(A B) = Pr(A) Pr(B)


Esta u
ltima relacion puede tomarse como la definicion matematica de independencia de eventos.
Por supuesto que en una situacion particular las condiciones fsicas, reales
o ideales, sugieren tal independencia y uno simplemente utiliza la relacion
anterior (en vez de demostrarla), si le es u
til. Finalmente, la independencia
de variables aleatorias queda como sigue. De acuerdo a nuestra idea intuitiva, la probabilidad de que la primera variable adquiera tal o tales valores
no debe alterarse por el hecho de que la otra adquiera tales o cuales. Esto
es, en lenguaje mas formal, que los eventos que define la una sean independientes de los que define la otra. As, por ejemplo, el evento X a debe ser
independiente del evento Y b, donde a y b son arbitrarios. De acuerdo a
nuestra definicion de independencia de eventos, esto se traduce en que
Pr(X a , Y b) = Pr(X a) Pr(Y b)
Est
au
ltima relacion puede tomarse como la definicion de independencia de
variables, aunque aparentemente es un caso particular de la independencia,
pues hay mas eventos que las variables X e Y pueden definir, como X > a,
X a, X < a, etc. En realidad, puede verificarse que las siguientes condiciones son equivalentes a (y por tanto consecuencias de) la definicion anterior:
(a, b, c, d, n
umeros arbitrarios)
1) Pr(X > a , Y b) = Pr(X > a) Pr(Y b)
2) Pr(X a , Y > b) = Pr(X a) Pr(Y > b)
128

Independencia y dependencia de variables.


3) Pr(X > a , Y > b) = Pr(X > a) Pr(Y > b)
4) Pr(a X b , c Y d) = Pr(a X b) Pr(c Y d)
Si ademas X e Y son variables discretas:
5) Pr(X = a , Y = b) = Pr(X = a) Pr(Y = b)
Para verificar la equivalencia es necesario echar mano de propiedades generales de la funcion de probabilidad, como por ejemplo:

Pr(no ocurrencia de A) = 1 Pr(A) ;

Si B es un evento que nunca ocurre, Pr(B) = 0 ;

Si C es un evento seguro, es decir, que ocurre siempre que se realiza el


experimento de azar, entonces Pr(C) = 1 .

Todas estas propiedades (no mencionamos todas las esenciales, por cierto)
pueden verificarse intuitivamente pensando en la probabilidad como frecuencia relativa teorica. Como ejemplo, verificaremos 1) a partir de la definicion:
Claramente (piense en terminos de frecuencia)
Pr(Y b) = Pr(X a , Y b) + Pr(X > a , Y b)
y utilizando la definicion:
Pr(Y b) = Pr(X a) Pr(Y b) + Pr(X > a , Y b)
luego
Pr(X > a , Y b) = Pr(Y b) Pr(X a) Pr(Y b)
de donde


Pr(X > a , Y b) = 1 Pr(X a) Pr(Y b)

pero Pr(X > a) = 1 Pr(X a) , as que

Pr(X > a , Y b) = Pr(X > a) Pr(Y b)


As pues, de la definicion se concluye 1). El recproco es tambien valido. Se
deja de ejercicio al lector.

129

Correlaci
on lineal.
Correlaci
on lineal.
Es frecuente, en aplicaciones estadsticas, el tratar de encontrar relaciones
entre variables aleatorias. En nuestro caso, entre variables educativas. Por
ejemplo, suele decirse que el factor economico tiene influencia en el rendimiento escolar, en un sentido positivo; mas precisamente, a mayor ingreso
familiar mejores probabilidades de buen rendimiento escolar. Se dice tambien
que existe una fuerte relacion (positiva) entre las variables INTELIGENCIA y
APROVECHAMIENTO ESCOLAR. M
as precisamente, a mayor inteligencia mayor aprovechamiento escolar. El mas simple modelo de este tipo de relacion
entre dos variables, es el lineal. Si para un mismo sujeto, digamos el i-esimo,
medimos las dos variables obteniendo (Xi , Yi ) y graficamos los resultados
para N sujetos, este modelo sera perfecto si obtuvieramos puntos alineados
(sobre una recta). En vez de hablar de relacion entre variables y modelo
lineal, se utiliza el termino correlaci
on lineal. Puede ocurrir tambien que en
vez de tener una relacion positiva se tenga una negativa. Esto es, a mayor
valor de una variable menor de la otra. Vease la figura 9.1

.....
......

......
......

Y3 .... .... .... .... .... .... .... .... .... .... .... .... .... ........................................

Y1 .... .... .... ...............................

Y2

Y2

Y1

.
......
......
.......
......
.
.
.
.
.
.... .... .... .... .... .... .... .... .... ........
.....
..... ..
....... ...
.......
.
.
.
.
.
...
...
......
...
......
.... .... .... ........
.........
.
.
...
.
.
.
...... ...
...
...
...
...
...
..

X1

X2

...
...
...
...
...
...
...
...
...
...
..

Y3

..
......
.......
...
.......
......
...
.. .
........
.... .... .... .... .... .... .... .... .... ........
...
. ........
.......
..
......
...
.......
.......
...
...
.....
.
........
.... .... .... .... ....... .... .... .... .... .... ...... .... .... .... .... .........
.. .........
.
..
...
...
..
.
.
.
...
.
..
.
..
...
...
..
...
.

X3

X1

Correlaci
on lineal
perfecta (positiva)

X2

X3

Correlaci
on lineal
perfecta (negativa)
figura 9.1

En cualquier caso, el modelo de recta no tiene que pasar por el origen ni tener
pendiente 1. No es de esperarse que las escalas, al medir digamosinteligencia y aprovechamiento, sean las mismas. Ademas los orgenes de las
escalas de medicion de estas variables, son mas o menos arbitrarios (que
puede significar estrictamente inteligencia cero?). Dos variables aleatorias
tienen pues una correlacion maxima o perfecta cuando hay una formula lineal
que expresa una en terminos de la otra. Mas claramente, X e Y estan
perfectamente correlaciondadas si
Y = aX + b
130

9.1

Correlaci
on lineal.
donde la correlacion es positiva cuando a > 0 y negativa cuando a < 0. Debe
entenderse aqu que X e Y se miden en el mismo sujeto. Esto es, la relacion
anterior se entiende como Yi = aXi + b (con a y b fijos) para toda i (Xi , Yi
siendo medidas en el sujeto iesimo).
En la practica es mucho pedir tal correlacion lineal perfecta. Nos contentamos con una buena aproximacion. Pero que significa buena aproximacion?
Veremos mas adelante un coeficiente (llamado coeficiente de correlacion lineal) que mide la bondad con que las parejas (Xi , Yi ) siguen un modelo
lineal, esto es, que tan alineadas estan dichas parejas .
En vez de proceder directamente con los puntajes directos de las variables
X e Y veamos la conveniencia de transformarlos en puntajes estandar ZX y
ZY con objeto de simplificar los calculos.
Para empezar veamos como se traduce la relacion 9.1 en terminos de puntajes
est
andar:
Si

Yi = aXi + b

(a 6= 0)

entonces

+ b.
Y = aX

En efecto
Y =

N
N
N
X
1 X
1 X
1
1
+ b.
Yi =
(aXi + b) = a
Xi + (Nb) = aX
N
N
N
N
i=1

i=1

i=1

2
Y tambien SY2 = a2 SX
(S = desviacion estandar), o sea SY = |a| SX ; en
efecto

SY2

N
N

1 X
1 X
2

+ b) 2
=
(Yi Y ) =
(aXi + b) (aX
N
N
i=1

1
=
N
=

1
N

N
X
i=1

N
X
i=1

i=1

N
2
1 X
2

aXi + b aX b =
(aXi aX)
N
i=1

2
a2 (Xi X)

As entonces
+ b)
Y Y
aX + b (aX
=
SY
|a| SX

a(X X)
a X X
a
=
=

=
ZX = ZX
|a| SX
|a|
SX
|a|

ZY =

131

Correlaci
on lineal.
donde se toma + si a > 0 y si a < 0.
La relacion 9.1 es de hecho equivalente (se deja al lector probar el recproco)
a
ZY = ZX
9.2
a saber, una recta que pasa por el origen con pendiente 1.
Lo anterior sugiere que el modelo lineal se simplifica cuando se utilizan puntajes estandar. Por otra parte, no hay nada que perder al utilizar puntajes
est
andar, pues representan un cambio lineal de coordenadas. Esto es, un
buen modelo lineal para X e Y se traducira en un buen modelo lineal
para ZX y ZY ; y recprocamente.
El desarrollo que sigue para deducir una medida de la bondad de la correlaci
on lineal entre dos variables (coeficiente de correlacion lineal) lo haremos
con los puntajes estandar de las variables. Entremos en materia.
Supongamos que tenemos parejas de valores X e Y como los mostrados en
la figura 9.2. Que queremos decir con la bondad de un modelo lineal que
las relacione?

figura 9.2
M
as precisamente, existen muchas rectas posibles (una infinidad) como candidatos a modelos lineales. A la bondad de cual de ellas nos referimos?
Recordemos que al referirnos a una correlacion lineal perfecta nos bastaba
con que los puntos estuvieran sobre una recta (de hecho que esten a la vez
sobre mas de una, tratandose de N 2 puntos, es absurdo). Esto es, en la
correlacion perfecta haba una recta que era la buena, la conveniente. Si
para el caso de nuestra figura no existe la buena, como podemos hablar
de la bondad? Habra entonces que hablar de bondad para cada modelo
lineal posible; pero hay una infinidad de posibles rectas.
Lo que haremos es inventarnos una recta buena y con respecto a ella mediremos la bondad del ajuste de esa mejor recta a los datos. En realidad
132

Correlaci
on lineal.
tomaremos la mejor recta en el sentido de los cuadrados mnimos. Explcitamente, si tenemos puntos (Xi , Yi ), i = 1, . . . , N, la mejor recta en el
sentido de los cuadrados mnimos es la determinada por los coeficientes a y
b que hacen mnima a la expresion
N
X

i=1

2
Yi (aXi + b)

Una vez determinada la mejor recta, juzgaremos la bondad del ajuste


a los datos en el mismo sentido de los cuadrados de las desviaciones, para
ser consistentes; solo que lo haremos como ya advertimos para los puntajes
est
andar de X e Y . Hagamoslo! Para simplificar la notacion introduzcamos
los puntajes tipificados:

Xi X
Yi Y
y
vi =
9.3
ui =
SX
SY
con i = 1 , . . . , N . En la figura 9.3 podemos ver una recta definida por los
par
ametros a y b
..
.......
......
......
.
.
.
.
.
.
.......
......

......
.......
.
.
.
.
.
.
..
.......
......
.......
......
.
.

.
.
.
.......
.......
..
j ........................................................
......
......
.
.
.
.
..
.
.
....
..
.......
.
.
.
.
.
.
..
.
.
.
.
...
.
.
........................
.
....
...... ...
.
...
.
.
.
.
..
.
.
.
.
.
..
.
.
.....
...
..
......
.
.
.
.
.
.
..
.
.
.
.
...
.
.
.
..
..
.
.
.
.
.
.
..
.
.......
...
..
.......
...
........................
...
i
..
...
..
..
..
..
..
..
...
.

v = au + b

aui + b

desviaci
on

ui

uj

figura 9.3
Dada esta recta, la bondad del ajuste de la recta en el sentido de los
cuadrados esta dada (vease la figura) por la relacion:
N
N
X

2 X
2
D =
vi (aui + b) =
vi aui b
2

i=1

N
X
i=1

N
X
i=1

i=1

vi2 + a2 u2i + b2 2aui vi 2bvi + 2abui


vi2

+a

N
X
i=1

u2i

+ Nb 2a
133

N
X
i=1

ui vi 2b

N
X
i=1

vi + 2ab

N
X
i=1

ui

Correlaci
on lineal.
pero como ui y vi son puntajes estandar
u =

N
1 X
ui = 0
N i=1

1
Su =
N

N
X

u2i

N
X

=1

i=1

N
X

i=1

ui = 0
u2i = N

i=1

(similarmente para v). As que


"

#
N
X
2a
D2 = N + a2 N + Nb2 2a
ui vi = N 1 + a2 + b2
ui vi
N
i=1
i=1

!2
!2
N
N
N

X
X
X
2a
1
1
= N 1+ b2 + a2
ui vi +
ui vi
ui vi

N
N
N
N
X

i=1

i=1

i=1


2  X
2 
N
N
1 X
1
2
=N 1+b + a
ui vi
ui vi
N
N
i=1
i=1

 X
2

2 
N
N
1
1 X
2
=N 1
ui vi + b + a
ui vi
N
N


i=1

i=1

Ahora bien, los valores de a y b (con todo lo demas fijo, por supuesto) que
hacen mnima a D2 corresponden a la mejor recta y son claramente
b=0

a=

N
1 X
ui vi
N
i=1

As pues, con respecto a la mejor recta, la bondad3 esta dada por


2
Dmin

=N 1

2 
N
1 X
ui vi
N
i=1

Puesto que N es el n
umero de datos que suponemos fijo, el tama
no de la
desviacion cuadratica para el mejor modelo (o, si se quiere, la media de la
3

En realidad bondad significa peque


na desviaci
on o D 2 peque
na. D 2 mide lo contrario
de la bondad.

134

Correlaci
on lineal.
1 2
desviacion cuadratica trasponiendo la N y considerando
D ) depende
N min
del termino
2
 X
N
1
1
ui vi
N i=1
2
puesto que Dmin
0, tal termino es no negativo, lo que significa que necesariamente
N
1 X
1
ui vi 1
N i=1
2
Es claro que la bondad sera mayor cuanto menor sea Dmin
(o

Si denotamos con rXY =

1 2
D ).
N min

N
1 X
ui vi tenemos que
N
i=1

1 2
D
= 1 r2XY
N min
As la bondad sera mejor en la medida en que | rXY | se aproxime a 1.
Siendo maxima cuando | rXY | sea maximo, o sea, cuando | rXY | = 1.
En otras palabras, la bondad del modelo lineal (del mejor) esta dada
por | rXY |
rXY

N
N
X
1 X
9.3
ui vi =
=
N i=1
i=1

1
N



Yi Y
Xi X
SX SY

es llamado coeficiente de correlaci


on lineal
Puesto que, como vimos, 1 rXY 1, el coeficiente es una medida normalizada de la bondad del modelo lineal, o sea, del grado de correlacion
lineal entre las variables.
Recuerde que la mejor recta esta dada por b = 0 y a =
por
v = rXY u
Tenemos entonces:

135

N
1 X
ui vi , o sea
N i=1

Correlaci
on lineal.
2
1) Si rXY = 1, entonces Dmin
= 0, o sea que
N
X
i=1

(vi rXY ui ) =

N
X
i=1

(vi ui )2 = 0

y se tiene vi = ui para toda i. Luego, los puntos (ui , vi ) se encuentran


sobre la recta u = v, o sea, ZX = ZY , lo que equivale a Y = aX + b con
a > 0 (correlacion lineal positiva perfecta, como caba esperar).
2
2) Si rXY = 1, entonces Dmin
= 0, o sea que
N
X
i=1

(vi rXY ui ) =

N
X

(vi + ui )2 = 0

i=1

y se tiene que los puntos (ui , vi ) se encuentran sobre la recta v = u, o


sea, ZY = ZX , lo que equivale a Y = aX + b con a < 0 (correlacion
lineal negativa perfecta, como caba esperar).
3) En general, la mejor recta esta dada por
v = rXY u

Y Y
X X
= rXY
SY
SX

Note que la pendiente es positiva (correlacion positiva) si rXY > 0,


y negativa si rXY < 0. As pues rXY es una medida signada de la
correlacion lineal.
La mejor recta4 , a saber

Y Y
X X
= rXY
SY
SX
es llamada la recta de regresi
on para estimar Y a partir de X.
4) En terminos de los puntajes originales, el coeficiente de correlacion nos
queda:
N
N 
X
X
  Yi Y 
Xi X
ui vi =
rXY =
SX
SY
i=1
i=1
rXY =

N
i Y )
1 X (Xi X)(Y
N
SX SY
i=1

Estamos afirmando, sin probar, que la mejor recta para ZX , ZY corresponde a la mejor
recta para X e Y

136

Un punto de vista vectorial.


El numerador de la u
ltima expresion es llamado la covarianza de X e Y :
COV(X, Y

)=

N
1 X
i Y )
(Xi X)(Y
N i=1

As pues
rXY =

COV(X, Y

SX SY

Obtenci
on del coeficiente de correlaci
on. Un punto de vista vectorial.
Que tan bien se puede expresar linealmente Y en funcion de X (es decir,
Y = aX + b)? o que tan bien se puede expresar linealmente X en funcion
de Y (es decir, X = cY + d)? Equivalentemente: que tan bien resulta la
relacion aX + b = cY + d para los mejores a, b, c y d posibles (ac 6= 0)?
Para lo anterior se dispone de la informacion siguiente: se tiene un conjunto
de n puntos
(X1 , Y1 ) , (X2 , Y2 ) , . . . , (Xn , Yn )
y se desea optimizar la coleccion de igualdades5
aXi + b = cY i + d

i = 1, ... , n

Equivalentemente, en forma vectorial, que tan bien resulta la relacion global

o sea:



X1
Y1
b
d
.
.
.
.
a .. + .. = c .. + ..

Xn

Yn




X1
Y1
1
1
.
.
.
.
a .. + b .. = c .. + d ..
1

Xn

Yn

para los mejores a, b, c, y d? Con la notacion


~ = (X1 , . . . , Xn ),
X
5

~ = (Y1 , . . . , Yn )
Y

En realidad, son aproximaciones.

137

y ~e = (1 , . . . , 1)

Un punto de vista vectorial.


la pregunta anterior se replantea como Que tanto se parece el plano deter~ y ~e con el plano generado por Y
~ y ~e? (vease figura 9.4)
minado por X
....
............
........ ....
.........
.
.
.
.
.
.
.
.
.
.
.
...
..
.........
...
.........
..
.........
...
.........
.
.
.
.
...
...
..
..
...
...
...
...
.
.
..
..
...
...
..
...
....................................... . . . . . . . . . . . . .....................................................................................................................
.
.
.
.
.
.
..
....
.....
...... .
...
.....
.....
...... ..
...
......
.....
...............
.....
.
...
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
.....
.....
.
...
......
.....
.....
.
..
... ......... .......
.....
.....
.
................
.....
.....
....................... ..
... ........... ...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
. .. ...
.....
.....
.............
... ..... .......
.....
.....
........... ..
... ............
.....
.....
............
.....
.
............................................
......
.
.
.
.
.
.
.
.
.
.
.
.
.. .
..........................................................................................................................................................................................................
...
..
...
...
.
.
.
.
.
..
...
...
...
..
...
...
.
.
.
.
.
..
.......
..
.......
......
...
.......
.
.
...
.
.
.
.
.
...
.
......
...
.......
...
.......
.. .............
.
. ....
... .........
........

~e

~
X

~
Y

figura 9.4
Para evitar ambig
uedades comparemos la parte positiva de ambos planos;
~ eY
~ (vease figura 9.5)
esto es, tomando positivas a las direcciones de X
.
..........
........ ...
....... ...
....... ......
.
.
.
.
.
.
..
........
....
.......
...
.......
....
........
.
.
.
.
.
.
.
.
.
.
..
........
....
........
....
.......
....
...
.
.
.
.
..
...
....
...
....
....................................................................................................................
...
.......
.
.
.
.
.
.
.....
.
.
.
.......
...........
...
..
.......
...
............... .....................
.......
.
....
.
. ........
.
.
.
.
.
.
.
.
.
.
.. ........
.......
....
.......
...
.............
..
..
.......
.........................................................................
........
... ..............
.
.
.
.
.
.
.
.
...
.............
........
....................................................................................................................

~
X

~e

~
Y

figura 9.5
Un modo plausible de medir la proximidad de los semiplanos, con una medida normalizada, es con el coseno del angulo que forman los semiplanos6 .
Este angulo esta dado por dos vectores ortogonales a ~e en cada uno de los
semiplanos (ver figura 9.6)
6

El angulo para cerrar las dos hojas formadas por los semiplanos.

138

Algunos resultados te
oricos.
.....
.........
....... ....
....... ......
.
.
.
.
.
.
.
.
...
.......
...
.......
...
.......
....
.......
.
.
.
.
.
.
.
.
.
..
...
.......
....
.......
........
....
......
...
.
.
.
.
..
..
....
....
...
...
...
.................................................
.
.
.
.
.
.
.
.
.
.......................
..
......
.......................
... ...........
.......
...
....
.
.......
.......
...... .......................
....
.
.
.......
.
.
.
.
.
.
.
.
.......
..
.
................
.
.
.
.
.
.
.
.
.
.
...
.......
....
....................................
........
.... ........
.......
... ......
.......
.
..............
.
.
.
.
.
.
.
.
..
.......................
.......
.......................
.......................
........
.................................

~u ~e

~v

el angulo de giro (~u, ~v ).

figura 9.6
la media de X y Y la media de Y , se verifica inmediatamente que
Siendo X
los vectores desviacion de la media, a saber,
~ = X1 X
, . . . , Xn X

~ = Y1 Y , . . . , Yn Y
Y

~ =1Y
~ Y ~e
Y

satisfacen lo siguiente
~ = 1X
~ X~
e
X

~ y Y
~ pertenecen a los semiplanos; y ademas
i.e. X
~ ~e =
X

n
X
=0
(Xi X)

i=1

~ ~e =
Y

n
X
i=1

(Yi Y ) = 0

~ eY
~ son ortogonales al eje de giro ~e.
lo que implica que X
As, definimos la correlacion de X y Y , denotada rXY , justamente como el
coseno del angulo que hacen los semiplanos, es decir

rXY

n
X

i Y )
(Xi X)(Y
~
~
i=1
~ Y
~ ) = X Y
v
=v
= cos(X,
uX
uX
~ kY
~k
kXk
u n
u n
2 t (Yi Y )2
t (Xi X)
i=1

i=1

o equivalentemente
1
n

n
X

i Y )
(Xi X)(Y

i=1
v
rXY = v
=
u X
u X
n
u1 n
u
2 t1
t
(Xi X)
(Yi Y )2
n
n
i=1

i=1

139

1
n

n
X
i=1

i Y )
(Xi X)(Y
SX SY

Algunos resultados te
oricos.
Algunos resultados te
oricos.
Es conveniente introducir una serie de formulas y relaciones dentro del contexto de independencia de variables y correlacion lineal para preparar el terreno al siguiente captulo sobre la teora elemental de la confiabilidad bajo
el punto de vista estadstico.
En lo que sigue, las relaciones con asterisco (*) se satisfacen por definicion.
Las otras seran demostradas cuando se crea que lo ameriten. Todas se refieren
a variables aleatorias. Se ejemplifica con variables discretas, aunque todas
ellas se generalizan o extienden al caso continuo.
Vale la pena hacer un comentario acerca de la notacion: las medidas estadsticas cuando se aplican a datos o valores empricos se denotan con letras
(media de X, obtenida empricamente para la variable X), SX
latinas; as, X
(desviacion estandar de la variable X, estimada a partir de valores empricos), etc. Cuando tales medidas se obtienen de un modo teorico o se refieren
a poblaciones (teoricas) y no a muestras de las mismas, son denotadas con
letras griegas; v.gr. X (media de la variable X tomada en toda una poblaci
on teorica, o bien cuando X tiene una distribucion teorica; p.ej., X es
normal o binomial); X (desviacion estandar), etc.
En nuestro caso, las relaciones siguientes son para variables aleatorias (discretas) concebidas matematicamente, por lo tanto con una distribucion teorica
asociada.
Las primeras tres relaciones son en realidad un recordatorio:

1 ) X =

N
X

pi Xi

i=1

v
uN
uX

2 ) X = t
pi (Xi X )2
i=1

3 ) Varianza de X = X =

N
X
i=1

pi (Xi X )2

donde se entiende que el rango de X es {X1 , . . . , XN } ,


pi = Pr(X = Xi ) ,

i = 1, ... , N

N
X

pi = 1

i=1

Las primeras relaciones que siguen son consecuencias casi directas de las
definiciones anteriores (excepto por ciertas consideraciones elementales):
140

Algunos resultados te
oricos.
4.a) X

4.b)

M
X

= 0 , i.e. media de desviaciones = 0.


N
X

Sij = pi ,

j=1

Sij = qj donde

i=1

pi = Pr(X = Xi ) ;

qj = Pr(Y = Yj )

y con Sij se denota la probabilidad conjunta


Sij = Pr(X = Xi , Y = Yj )
4.c) X+Y = X + Y (media de la suma es igual a la suma de medias).
En realidad 4.b es un lema (resultado preparatorio o intermedio) para demostrar 4c. Empecemos a probar 4a.
Prueba de 4.a:
Para comenzar, debemos entender que con X X se denota a una variable
aleatoria. Bien, si esto es as, cual es su rango de valores?, cual la asignacion
de probabilidades a sus valores? Si entendemos a X X como vil expresion
algebraica y puesto que los valores de X son X1 , . . . , XN entonces X X
asume los posibles valores X1 X , X2 X , . . . , XN X . As que ya
tenemos su rango de valores.
Ahora bien, X X toma el valor X1 X (esto es, ocurre el evento X X =
X1 X ) exactamente cuando X toma el valor X1 . En otras palabras:
Ocurre X X = Xi X

si y solo si

ocurre

X = Xi

Es forzoso entonces que


Pr(X X = Xi X ) = Pr(X = Xi )
Observe que al valuar no se ha modificado a X . Simplemente para cada
variable X, su media es un n
umero dado (y los n
umeros no son variables!).
En resumen pues, X X es una variable aleatoria cuyo rango de valores
es {X1 X , X2 X , . . . , XN X } y cuya asignacion de probabilidades
(distribucion) es
Pr(X X = Xi X ) = pi

i = 1, ... , N

donde, de acuerdo a nuestra convencion, pi = Pr(X = Xi ).


141

Algunos resultados te
oricos.
Aplicando 1* (definicion de media de variable aleatoria)
X

N
X
i=1

pi (Xi X ) =

N
X
i=1

pi Xi

N
X

pi X

i=1

pero, puesto que pi = Pr(X = Xi ), tenemos (por 1*)


X

= X

N
X
i=1

N
X

pi X = X X

i=1

siendo el u
ltimo paso valido en virtud de que

pi = X X = 0

N
X

pi = 1.

i=1

Prueba de 4.b:
PN
Justificaremos la validez de
on muy
i=1 Sij = qj , siendo la de la otra relaci
similar. Recordemos que (convencionalmente)
Sij = Pr(X = Xi , Y = Yj );

qj = Pr(Y = Yj )

Ahora bien, las circunstancias pertinentes al caso pueden interpretarse como


sigue: Estamos modelando (matematicamente) un fenomeno o experimento
de azar que cuando es realizado podemos leer los valores de las variables
X e Y , simultaneamente, v. gr. el lanzamiento de dos dados (al azar, sin
ma
na), uno rojo, el otro negro; siendo X el n
umero de puntos de la cara
superior del rojo y Y el n
umero de puntos de la correspondiente del negro,
como se leen despues del lanzamiento simultaneo de los dados.
La cuestion consiste en desentra
nar las probabilidades de la variable Y sola,
a partir de las probabilidades conjuntas de ambas variables. Refiriendonos
de nuevo al ejemplo de los dados, si se tienen las probabilidades de cada
pareja de resultados X = 1, Y = 1; X = 1, Y = 2; etc., se desean hallar las
probabilidades de los eventos Y = 1; Y = 2; etc. Poniendo esto u
ltimo en
terminos novelescos y teniendo en mente que la probabilidad representa algo
as como la prediccion de una cierta frecuencia relativa (de la ocurrencia de
un evento), podemos imaginarnos a un se
nor cuyo oficio es lectura profesional de puntos de dados, el cual con infinita paciencia y dedicacion, ha
determinado las autenticas frecuencias relativas con que ocurre cada posible pareja de valores de puntos para los dos dados, despues de incontables
142

Algunos resultados te
oricos.
lanzamientos. Este se
nor las ha registrado en forma de una tabla, como la
que sigue:
dado
rojo

dado
negro

0.0270

0.0280

0.0272

1
..
.

4
..
.

0.0278
..
.

2
..
.

1
..
.

0.0265
..
.

frecuencia
relativa

Ocurre ahora el siguiente evento: otro lector (usted, por ejemplo) aparece en
escena. Al contemplar la tabla le comenta al autor (de la tabla): Caray!,
no me sirve. Lo que necesito son las frecuencias relativas de la ocurrencia de
Y = 1, Y = 2, etc., solamente; y t
u las tienes para ocurrencias conjuntas. A
lo que nuestro profesional responde: Calma hombre!, no hay problema. Si
he registrado el comportamiento de ambos dados, de pasada he registrado el
del dado negro, que es el que te interesa. Naturalmente, ha quedado implcito
en la tabla pero es facilmente rescatable. Entonces el autor de la tabla le
explica como hay que hacerle:
Si deseas la frecuencia relativa con que ocurre Y = 1, por ejempo, solo
fjate en la columna de Y en todos aquellos casos en los que Y es igual a
1, no te importe el valor de X. Marca los renglones en que esto ocurre y
finalmente suma las frecuencias relativas correspondientes (a todos los casos
en que Y = 1).

De lo que se alcanza a ver de la tabla (marcados con ), seg


un lo anterior,
debe sumar
0.0270 + 0.0265 +
Esta suma corresponde a sumar la frecuencia relativa de la ocurrencia de
X = 1 e Y = 1 con la de la ocurrencia de X = 2 e Y = 1 y lo que resulte a
su vez con la de X = 3 e Y = 1, etc.; hasta finalmente sumar la de X = 6 e
Y = 1. Esto es perfectamente correcto: Y = 1 tiene lugar (ocurre) cuando
ocurre X = 1 e Y = 1 y tambien cuando ocurre X = 2 e Y = 1 y tambien,
143

Algunos resultados te
oricos.
etc., cuando ocurre X = 6 e Y = 1; y, mas a
un, Y = 1 solo tiene lugar
cuando ocurre alguno de esos 6 casos. Dicho de otro modo, el evento Y = 1
es enteramente equivalente al evento
{(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)}
donde la pareja (i, 1) denota X = i e Y = 1. As que
Frec.(Y = 1) = Frec.{(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)}
Hasta aqu todo parece en regla. Pero lo que se haba apuntado antes era la
suma de las frecuencias, esto es,
Frec.(Y = 1) = Frec.{(1, 1)} + Frec.{(2, 1)} + + Frec.{(6, 1)}
Esto u
ltimo es consecuencia de que los eventos elementales {(1, 1)} , {(2, 1)},
etc., son ajenos entre s, as que la frecuencia con que ocurre alguno de ellos
es la suma de las frecuencias individuales.
Regresando a nuestro problema original, vemos que los eventos
Y = Yj

{(X1 , Yj ), . . . , (XN , Yj )}

son enteramente equivalentes, luego


qj = Pr(Y = Yj ) = Pr{(X1 , Yj ), . . . , (XN , Yj )}
donde (Xi , Yj ) denota X = Xi Y = Yj .
Ahora bien, resulta que los eventos elementales {(X1 , Yj ), . . . , (XN , Yj )},
son mutuamente ajenos; luego, por una ley de la probabilidad7 (smil del
caso de las frecuencias): la probabilidad de una union de eventos ajenos es
la suma de las probabilidades de cada uno. En nuestro caso:
qj = Pr(Y = Yj ) = Pr{(X1 , Yj )} + + Pr{(XN , Yj )} =
o bien, regresando a nuestra notacion anterior:
qj =

N
X

Pr(X = Xi e Y = Yj ) =

i=1

N
X
i=1

Se conoce como la ley o propiedad aditiva de la probabilidad.

144

Sij

N
X
i=1

Pr{(Xi , Yj )}

Algunos resultados te
oricos.
Prueba de 4.c:
Antes de pasar a la prueba de que la media de una suma es la suma de las
medias, abusando quiza de la paciencia del lector, creo que es conveniente
el siguiente rollo.
Con X + Y se denota a la suma de las variables (aleatorias) X e Y , la cual,
como se vera, es tambien una variable aleatoria cuyo rango consiste de todos
los valores de la forma Xi + Yj i = 1 , . . . , N j = 1 , . . . , M. Esto es,
un valor posible de X + Y es cualquier valor posible de X sumado con un
posible de Y . El rango de la suma queda denotado entonces como el siguiente
conjunto
{Xi + Yj | i = 1, . . . , N j = 1, . . . , M}.
Hasta ahora X + Y es una variable. Para caracterizarla (matematicamente)
como variable aleatoria, debemos asignarle probabilidades a la ocurrencia de
cada uno de los posibles valores. Aqu empiezan los problemas. Estamos
tentados a escribir
Pr(X + Y = Xi + Yj ) = Pr(X = Xi e Y = Yj ) = Sij
puesto que se ocurre que X + Y = Xi + Yj es equivalente a que se tengan
simultaneamente X = Xi e Y = Yj . Sin embargo, esto u
ltimo (y la relacion
de arriba por consiguiente) es FALSO, en general.
Probablemente lo que sugiere como valida la falacia anterior, sea el hecho
de que cuando se expresa la suma de a y b con a + b, estamos escribiendo
tal operacion en forma INDICADA, pero la estamos pensando REALIZADA.
Despues de todo, el termino suma se refiere al resultado de la adicion.
Concretamente, el evento X + Y = Xi + Yj se refiere a que la variable
(X + Y ) adquiera el valor resultante de sumar Xi con Yj aunque la notacion
pareciera sugerir erroneamente una igualdad de parejas (X con Xi e Y con
Yj ). Para aclarar mejor esto, veamos un ejemplo: el de los dados rojo y
negro. Ah, tendremos que el rango de valores es
{1 + 1 , 1 + 2 , . . . , 2 + 1 , . . . , 2 + 6 , . . . , 6 + 1 , . . . , 6 + 6}
que se reduce a {2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12}.
El conjunto de mas arriba perecera sugerir 6 6 = 36 valores posibles.
Sin embargo, debido a las repeticiones, solo son 11 distintos. Las sumas
expresadas en forma indicada, con su implcita sugerencia de parejas, nos
puede hacer pensar en la primera version del conjunto rango en 6 6 = 36
valores. Pero al realizar las operaciones no hay tales.
145

Algunos resultados te
oricos.
As, el evento X + Y = 1 + 3 no es equivalente a X = 1 e Y = 3 o a {(1, 3)}
sino que X + Y = 1 + 3 equivale al evento {(1, 3), (2, 2), (3, 1)}.
Despues de todo 1 + 3 no es sino otro modo de escribir 4. Esto es,
X + Y = 1 + 3 quiere decir X + Y = 4 y ninguna otra cosa (cualquier otra
cosa que sugiera es sicologica, no matematica).
Una vez aclarado lo anterior, vemos que es posible que ocurra X+Y = Xi +Yj
a
un cuando X 6= Xi e Y 6= Yj . Naturalmente que esto nos causa problemas
en la asignacion de probabilidades a eventos de la forma: X + Y = Xi + Yj .
Esto es debido a que en el manejo teorico en el que estamos involucrados
no podemos saber para que valores de X e Y (i.e., para que parejas) puede
ocurrir tal igualdad, al desconocer los valores efectivos de los Xi y los Yj .
(Al final de esta seccion hay un ejercicio para el lector, el cual consiste en
hacer, teoricamente, la asignacion de probabilidades y justificar lo que se
hace abajo, a continuacion).
Sin embargo, no es necesario hacer la asignacion de probabilidades para estimar la media de X + Y . Despues de todo, la media o valor esperado de una
variable aleatoria, es en realidad una media pesada 8 :
X+Y =

M X
N
X
j=1 i=1

Pr(X = Xi , Y = Yj ) (Xi + Yj )

o sea
X+Y =

M X
N
X
j=1 i=1

Sij (Xi + Yj )

9.4

La anterior es efectivamente una media pesada. Efectivamente se tiene


M X
N
X

Sij = 1

j=1 i=1

y en ese contexto estamos pensando en Xi + Yj efectivamente como resultado


de X = Xi e Y = Yj ; o sea que multiplicamos Xi + Yj (con X = Xi e Y = Yj
implcitamente entendido) por la probabilidad de ocurrencia de (Xi , Yj ) (que
es su peso). De nuevo, la justificacion se encontrara en el mencionado
ejercicio, al final.
Finalmente, aplicando a la relacion 9.4, propiedades de sumatorias y las
relaciones de 4.b, tendremos:
8

Llamada tambien media ponderada.

146

Algunos resultados te
oricos.

X+Y =

M X
N
X
j=1 i=1

M X
N
X

Sij (Xi + Yj ) =

Sij Xi +

j=1 i=1

N
X
i=1

"

N
4.b) X

Xi

M X
N
X

M X
N
X
j=1 i=1

Sij Yj =

j=1 i=1

M
X
j=1

Xi pi +

i=1

Sij +

M
X

M
X
j=1

(Sij Xi + Sij Yj )

"M
N X
X

Sij Xi +

i=1 j=1

"

Yj

N
X

Sij

i=1

"N
M X
X
j=1 i=1

Sij Yj

def.

Yj qj = X + Y

j=1

es decir, X+Y = X + Y (media de la suma = suma de las medias), que es


lo que queramos probar.
#
Enunciamos ahora dos definiciones:
5a*)

COV(X, Y

) = covarianza de X e Y =

N X
M
X
i=1 j=1

5b*) XY = correlacion de X e Y =

COV(X, Y

Sij (Xi X )(Yj Y )

X Y

Comentarios acerca de 5a* y 5b*: Debe observarse que 5b* es una traduccion
literal de la definicion de correlacion para datos en la correspondiente para

variables. Unicamente
la notacion se ha cambiado: en vez de SX y SY
aparecen, correspondientemente, X y Y , consistentemente con la notacion
ya anunciada, de utilizar letras griegas para medidas estadsticas de variables
aleatorias (o poblaciones).
La que merece mas comentarios es 5a*, la cual, a primera vista, no parece
una traduccion de la correspondiente formula para datos. Para empezar,
recordemos la definicion de covarianza para datos, ya antes vista, a saber
N
1 X
i Y )
COV(X, Y ) =
(Xi X)(Y
N i=1

147

Algunos resultados te
oricos.
Tal formula puede verse (interpretarse) como la Media de productos de
desviaciones de X e Y .
es la desviaci
Recuerde que Xi X
on de Xi ; y que el factor N1 lo que
hace es promediar (con la media aritmetica) tales productos de desviaciones.
Quiza lo que mas molesta en la formula 5b* es la aparicion de una doble
sumatoria o, mas concretamente, de productos cruzados: (Xi X )(Yj
Y ). En realidad, es una cuestion de notaci
on y no se trata de que 5b* sea
conceptualmente distinta a la formula correspondiente para datos. Esto lo
veremos de inmediato.
Cuando considerabamos datos, la notacion (Xi , Yi ) indica simplemente el
n
umero de dato (en ese caso, el iesimo). Tome en cuenta aqu que un dato
est
a formado por la lectura simultanea de los valores de X e Y en un mismo sujeto, objeto, o ensayo experimental. Tal notacion no sugiere que, por
ejemplo, los Xi sean distintos entre s. Esto es, la lista X1 , X2 , . . . , XN son
lecturas (experimentales o empricas) del valor ocurrido de X en distintos
sujetos u objetos. As que no tienen que ser distintos entre s y consecuentemente no estan representando todos los distintos valores posibles (o sea el
rango) de la variable X.
Lo mismo puede decirse de Y1 , Y2 , . . . , YM . Sin embargo, cuando consideramos a X y a Y como variables aleatorias, las parejas (Xi , Yj ) representan,
con i = 1, , . . . , N y j = 1 , . . . , M, todos los resultados teoricos posibles
de la pareja de variables, dado que X1 , X2 , . . . , XN s es aqu la lista completa de todos los valores posibles (luego, el rango) de X; lo mismo para
Y 1 , Y 2 , . . . , YM .
Los ndices en (Xi , Yj ) no sugieren de modo alguno alg
un orden. Dicho
de otro modo, (Xi , Yj ) con i = 1 , . . . , N (con i corriendo de 1 a N ) y
j = 1 , . . . , M, nos da la lista de todos los resultados simultaneos posibles.
As que (Xi X )(Yj Y ) con i = 1 , . . . , N y j = 1 , . . . , M genera la lista
completa de productos de desviaciones. Si multiplicamos estos productos por
su peso Sij = Pr(X = Xi , Y = Yj ) y sumamos, obtenemos la media de
tales productos. En resumen, la expresion
M X
N
X
j=1 i=1

Sij (Xi X )(Yj Y )

puede interpretarse como la media de productos de desviaciones, y es por


tanto conceptualmente equivalente (tal formula) a la correspondiente para la
covarianza de datos.
148

Algunos resultados te
oricos.
Enunciamos dos relaciones que nos seran u
tiles.
2
6a) X+Y
= VAR(X) + VAR(Y ) + 2 COV(X, Y )
2
= X
+ Y2 + 2 COV(X, Y )
2
2
6b) X+Y
= X
+ Y2 + 2XY X Y

Prueba de 6a y 6b:
Observese que una vez establecida 6a, en virtud de la definicion 5b*, se tiene
que COV(X, Y ) = XY X Y ; luego, sustituyendo la u
ltima relacion en 6a
conclumos con 6b. Basta probar entonces la validez de 6a.
Por definicion (vease 2*) tenemos que
2
X+Y
=

M X
N
X
j=1 i=1

Sij (Xi + Yj X+Y )2

(en realidad, estamos empleando el hecho de que la media de una variable aleatoria es una media ponderada, en un sentido que se aclara en un
ejercicio al final de esta seccion).
Utilizando 4c:
2

X+Y =

M X
N
X
j=1 i=1

M X
N
X
j=1 i=1

M X
N
X
j=1 i=1

Sij (Xi +Yj X Y ) =

M X
N
X
j=1 i=1


2
Sij (Xi X )+(Yj Y )



Sij (Xi X )2 + 2(Xi X )(Yj Y ) + (Yj Y )2
Sij (Xi X ) +2
2

M X
N
X
j=1 i=1

M X
N
X
Sij (Xi X )(Yj Y ) +
Sij (Yj Y )2
j=1 i=1



N 
M
M 
N
X
X
X
X
2
2
=
(Xi X )
Sij + 2 COV(X, Y ) +
(Yj Y )
Sij
i=1

N
X
i=1
2

j=1

j=1

(Xi X )2 pi + 2 COV(X, Y ) +
2

= X + 2 COV(X, Y ) + Y

149

M
X
j=1

(Yj Y )2 qj

i=1

Algunos resultados te
oricos.
Las siguientes relaciones se prueban facilmente (su prueba se deja al lector):
2
2
7a) aX
= a2 X
(a constante arbitraria).

7b)

COV(aX

, bY ) = ab COV(X , Y ).

7c) aX , bY = XY (a , b constantes positivas).


Finalmente tenemos que:
8a)

COV(X

si X e Y son independientes, entonces

, Y ) = 0,

8b) XY = 0 y
2
2
8c) X+Y
= X
+ Y2 .

Pruebas de 8a, 8b y 8c:


Observe que 8b es consecuencia inmediata de 8a y que 8c se sigue claramente
de 8a y 6a. As que solo basta establecer 8a. Tenemos, en general,
COV(X, Y

)=

M X
N
X
j=1 i=1

Sij (Xi X )(Yj Y ) ;

pero, puesto que por hipotesis X e Y son independientes, entonces


Sij = Pr(X = Xi e Y = Yj ) = Pr(X = Xi ) Pr(Y = Yj ) = pi qj
luego,
cov(X, Y ) =

M X
N
X
j=1 i=1

M
X
j=1

pi qj (Xi X )(Yj Y )

X
 X
N
M


qj (Yj Y )
pi (Xi X ) =
qj (Yj Y ) X )
X

i=1

= X

M
X
j=1

j=1

4.a)

qj (Yj Y ) = (X )(Y ) = 0 0 = 0.
X

#
Ademas de las anteriores relaciones, emplearemos otras en la siguiente secci
on. Estas u
ltimas son consecuencias inmediatas de las probadas o enunciadas hasta ahora; o bien, son generalizaciones de las mismas. En todo caso,
apareceran en los ejercicios a continuacion.
150

Algunos resultados te
oricos.
Ejercicios y problemas.

1. Pruebe las siguientes relaciones


a) aX = aX
b) a2 X = a2 X

(a constante arbitraria)

c) Si XY = 0 entonces

2
2
X+Y
= X
+ Y2 .

2. Sean X e Y variables aleatorias, cuyos rangos y probabilidades se denotan como en el desarrollo anterior, y con Sij la probabilidad conjunta
(de X = Xi e Y = Yj ).
El conjunto = {(Xi , Yj ) | i = 1, . . . , N; j = 1, . . . , M} consiste de
todos los posibles resultados conjuntos de las variables ( es llamado
el evento seguro). Definimos una relacion entre los elementos de :
la pareja (Xi , Yj ) esta relacionada con (X , Y` ) [denotado (Xi , Yj )
(X , Y` )] si se satisface Xi + Yj = X + Y` .
a) Muestre que la relacion es una relacion de equivalencia (i.e. es
reflexiva, simetrica y transitiva).
b) La propiedad del inciso anterior determina una particion de en
clases (ajenas). Muestre que si es un valor posible de X + Y (i.e.
si pertenece al rango de la variable suma), entonces X + Y =
determina un evento (es equivalente a un evento) de la particion, y
recprocamente, cada clase de la particion es un evento equivalente
al evento X + Y = para alg
un valor del rango de X + Y (ese
valor , es u
nico).
c) Una vez establecida una correspondencia biunvoca entre los eventos
que define X + Y (eventos elementales) y las clases de la particion,
enumere a estas u
ltimas (teoricamente) y asgneles probabilidades
a las mismas, luego a los eventos elementales que define X + Y.
d) Ahora que se tiene descrita matematicamente a X+Y como variable
aleatoria, por c, encuentre, utilizando estrictamente la definicion
1*, una expresion adecuada para X+Y y demuestre la validez de la
formula (media ponderada)
X+Y =

M X
N
X
j=1 i=1

151

Sij (Xi + Yj )

Algunos resultados te
oricos.
3. Sean X e Y variables aleatorias con la notacion acostumbrada.
2
a) Pruebe que X
= (X

)2

Observe que (X X )2 = (Xi X )2 no es necesariamente


equivalente a X = Xi .

NOTA:

b) Olvdese de los problemas que ocasionaron los ejercicios 2 y 3a, una


vez que pruebe la siguiente proposicion:
Si un experimento de azar tiene por resultados a R1 , . . . , RN y
conocemos sus probabilidades, digamos pi = Pr(ocurrencia de Ri ).
Estos valores Ri no son necesariamente numericos pero distintos
N
X
entre s (mutuamente exclusivos); luego,
pi = 1. Si una cierta
i=1

variable (aleatoria) ha sido definida en relacion al experimento, digamos X, de tal forma que toma los valores X1 , . . . , XN cuando
ocurren, respectivamente, R1 , . . . , RN . Siendo los Xi necesariamente numericos pero no necesariamente distintos (dos resultados
pueden dar origen al mismo valor de X). Muestre que la media de
X satisface:
X =

N
X

pi Xi

i=1

(Con esto se prueba que la media de una variable aleatoria es efectivamente una media ponderada).
En el inciso b, se entiende que X es una funcion de los
Ri . Mas concretamente, X(Ri ) = Xi As, el rango de valores de la
variable X se identifica con el rango de valores de X como funcion,
etc. , etc.

NOTA:

4. Sean X, Y y Z variables aleatorias. Para ellas, se tienen los rangos:


{X1 , . . . , XN } , {Y1 , . . . , YM } , {Z1 , . . . , ZL } , respectivamente. Rige, ademas, la siguiente asignacion de probabilidades:
Pr(X = Xi ) = pi
Pr(Y = Yj ) = qj
Pr(Z = Zk ) = rk
Pr(X = Xi , Y = Yj , Z = Zk ) = Sijk

152

Confiabilidad en la medici
on.
a) Pruebe que
a.1)

M X
L
X

Sijk = pi ,

N X
L
X

Sijk = qj

N X
M
X

Sijk = rk .

j=1 k=1

a.2)

i=1 k=1

a.3)

i=1 j=1

b) Defina (consistentemente con el concepto): COV(X, Y ),


y COV(Y, Z) en terminos de Sijk , X , Y y Z .

COV(X, Z)

c) Muestre que X+Y +Z = X + Y + Z .


2
2
d) Muestre que X+Y
= X
+Y2 +Z2 +2 COV(X, Y )+2 COV(X, Z)+
+Z
COV(Y, Z).

e) Si X (1), X (2) , . . . , X (n) son n variables aleatorias, encuentre la


expresion para
2 (1)
X

,X (2) , ... ,X (n)

2
= P
n

v=1

X (v)

(sin demostrarla) acorde con el inciso d.


Concepto de confiabilidad.
Cuando medimos valiendonos de una cinta metrica el largo de una mesa, en
milmetros, muy probablemente ocurrira lo siguiente:
i) En repetidas mediciones de la mesa efectuadas en distintas ocasiones por
un mismo sujeto, o bien, realizadas por distintos sujetos, las mediciones
arrojaran resultados que variaran poco entre s.
ii) Los resultados que arrojan las mediciones expresaran seguramente el
largo de la mesa en las unidades propuestas; v.gr., en milmetros (siempre y cuando los espacios entre marca y marca de los milmetros sean
sensiblemente iguales entre s).
153

Confiabilidad en la medici
on.
La idea general es que existe un instrumento de medicion, en este caso una
cinta metrica, que garantice los resultados de i) y ii). La caracterstica en i),
de que en repetidas ocasiones los resultados de la medicion sean consistentes o
repetibles (o precisos) es referida como confiabilidad. Esto es, un instrumento
que se comporte como en i) se dice ser confiable. El aspecto mencionado en
ii), de que el instrumento mida lo que se supone medir (en ese caso el largo de
la mesa en milmetros), es referido como validez del instrumento de medicion.
Esto es, una cinta metrica con la caracterstica descrita en ii) se dice ser un
instrumento de medicion valido.
Estos dos aspectos de la medicion estan diferenciados: un instrumento puede
ser confiable pero no valido. Por ejemplo, si tenemos una cinta metrica con
una escala distorsionada, de tal modo que los espacios entre los supuestos
milmetros sean distintos entre s pero del orden de magnitud (por ejemplo,
algunos miden 1mm y otros 1.5mm en realidad), la medicion seguramente
retendra la caracteristica de i) pero ya no la de ii). En otras palabras, es
confiable pero no valido. Esto quiere decir que las mediciones son sensiblemente consistentes o repetibles, pero sus valores ya no expresaran el largo en
milmetros.
Nuestro interes es abordar en estas notas el primer aspecto de la medicion
mencionado, esto es, el de la confiabilidad. Solo que nuestro interes se refiere al de medir rasgos o caractersticas de seres humanos, como inteligencia,
aprovechamiento escolar, habilidades matematicas de cierto tipo, etc. Tpicamente, nuestros instrumentos de medicion son test o examenes escritos que
arrojan resultados como puntajes o calificaciones. Esto crea un panorama
muy distinto al de medir longitudes de objetos.
Cuando usamos, por ejemplo, una cinta metrica para medir repetidas veces la
longitud de una mesa, el largo de la mesa no variara sensiblemente de ocasion
en ocasion. En cambio, cuando aplicamos el mismo examen en distintas
ocasiones a un mismo sujeto, el sujeto puede variar significativamente en ese
lapso. Por ejemplo, en la primera ocasion estaba desvelado, cansado, tenso;
y en la segunda relajado, descansado, etc. Mas a
un, el sujeto se modifica
al aplicarle el examen mismo.
El individuo reacciona de muy diversas maneras al enfrentarse al examen la
primera vez. Una serie de procesos mentales tienen lugar, propiciados por
su intento de resolverlo, que pueden dar lugar a alg
un cambio potencial en
cuanto a la estrategia con que se enfrenta a cierta clase de problemas. En
otras palabras, el individuo aprende o modifica potenciales o habilidades al
enfrentarse al examen. Despues de todo, no es una maquina. De tal suerte
que, cuando se enfrenta por segunda vez, la situacion ha cambiado: es posible
154

Confiabilidad en la medici
on.
que retenga en la memoria las soluciones a las preguntas que pudo resolver,
de manera que atacara con mas tiempo y menos cansancio las que intento sin
exito la primera vez; ademas, quiza ahora con mas recursos que en aquella
ocasion.
Puede apreciarse pues, que estimar la confiabilidad de un test o examen por
aplicaciones sucesivas del mismo, tiene sus problemas. Una falta de acuerdo
(entre dos aplicaciones) en los puntajes no indica necesariamente una falla
del instrumento (esto es, que sea confiable), puede haber, en efecto, otras
explicaciones: cuando lo aplicamos por segunda vez el individuo ya no era
el mismo o las condiciones externas (ambientales, fsicas o squicas) haban
cambiado, etc. Al respecto, existen ademas otros problemas de orden tecnico.
En test o examen no se dise
na de modo que resulte confiable para un solo
individuo. Un test se dise
na para medir cierta poblacion de individuos (un
grupo o grupos de cierto nivel escolar, por ejemplo). Es relativamente facil
apreciar a ojo el acuerdo (o su ausencia) entre los puntajes obtenidos en
repetidas mediciones para un mismo individuo, pero necesitamos en realidad
tener una medida de la bondad del acuerdo entre grupos de puntajes en
dos aplicaciones. Esto es, el acuerdo entre dos series de puntajes que se
corresponden biunvocamente. Mas precisamente, dos aplicaciones de un
test arrojan parejas de puntajes; cada pareja representando los dos puntajes
obtenidos por un mismo individuo. Necesitamos pues juzgar globalmente el
acuerdo entre puntajes de una misma pareja.
Supongamos que tenemos numerados a los individuos con 1 , 2, , 3 , . . . y
que con (X1 , Y1 ) denotamos los puntajes obtenidos en la primera aplicacion
y la segunda, respectivamente, para el individuo 1. En general, (Xi , Yi )
representa la pareja de puntajes obtenidos por el individuo i. Hemos visto
que la correlacion nos mide, con cierto criterio, el grado de acuerdo entre los
puntajes Xi y los Yi . En realidad mide la bondad con que pueden aproximarse
a una ecuacion del tipo Y = aX + b con a y b fijos. La correlacion sera alta
cuando la recta ajuste bien a la pareja de datos. En particular, si las medidas
X e Y son muy parecidas; esto es, se cumpla aproximadamente X = Y , se
tendra una correlacion (positiva) grande (cercana a 1).
Como veremos mas adelante, se utiliza el coeficiente de correlacion como
una medida de la confiabilidad (en realidad, una medida normalizada de la
confiabilidad). Pero para evitar los efectos negativos (o inconvenientes), citados antes, cuando aplicamos el mismo test repetidamente suele utilizarse
la aplicacion de tests paralelos. En principio, dos tests son paralelos cuando
son equivalentes. Sus reactivos se corresponden en los dos tests biunvocamente, y se supone que reactivos correspondientes tienen el mismo grado de
155

Confiabilidad en la medici
on.
dificultad, se refieren o miden el mismo atributo, etc. Ademas, ambos son
aplicados al mismo tiempo. De hecho, el test que se les aplica consiste de los
dos tests paralelos juntos, con sus reactivos intercalados. Con esto se trata
de evitar que las condiciones externas o internas entre una aplicacion y otra
varen sensiblemente.
Teora Cl
asica de la confiabilidad en la medici
on.
Postulados:
1) El puntaje tj del individuo j, obtenido experimentalmente al medir,
tiene dos componentes aditivas, a saber, Tj que es el puntaje verdadero,
teorico e ideal y ej que es el error en la medicion; as
tj = Tj + ej

ej = tj Tj

2) La media o valor esperado de los errores es cero, en dos sentidos: en una


infinidad de aplicaciones repetidas del test para un mismo individuo, y
tambien al aplicar una s
ola vez a todos los individuos imaginables, i.e.
e = 0
3) La correlacion de los errores en dos aplicaciones del test, a todos los
individuos, es cero, i.e.
ree = 0
4) La correlacion entre puntajes verdaderos y puntajes error es cero (una
aplicacion a todos los individuos), i.e.
reT = 0

En los incisos 2 y 3 los errores de la medicion considerados son errores al


azar y, por tanto, no sistematicos.
Para medir la confiabilidad de un test, se utiliza el coeficiente de correlacion
entre los puntajes del test, llamemoslo original y otro test paralelo. El
paralelo puede concebirse como un test equivalente al original (en realidad
puede ser un modelo a escala del original en virtud de las propiedades del
coeficiente de correlacion). Mas precisamente, Si rtt0 es el coeficiente de
correlaci
on entre los puntajes t y t0 del test original y su paralelo, respectivamente, entonces rtt0 es el coeficiente de confiabilidad.

156

Confiabilidad en la medici
on.
Seg
un el modelo de la teora clasica, t es una variable aleatoria obtenida
con la suma T (una constante9 ) y e (variable aleatoria). Deberamos en
realidad denotar al coeficiente de confiabilidad con tt0 (recuerde el uso de
letras griegas cuando se trata de medidas estadsticas en variables aleatorias
o en mediciones teoricas). Esto es, el coeficiente de confiabilidad se refiere a
la medicion teorica del coeficiente de correlacion. Cuando uno realiza un test
y lo prueba en un grupo dado midiendo rtt0 para los datos obtenidos, obtiene
un valor estimado de tt0 que correspondera a aplicar el test a todos los
posibles alumnos en todas las posibles circunstancias. Sin embargo, siguiendo
la notacion del texto Teora de los Tests10 , emplearemos rtt0 (de hecho,
ah se utiliza rtt ).
De acuerdo a los postulados de la teora clasica y aqu s concibiendo test
paralelo como enteramente equivalente (para facilitar los calculos) y no anticipar consecuencias de los cambios de escala (como se veran), se obtienen
las siguientes relaciones o conclusiones teoricas:
A) rtt0 es un n
umero entre 0 y 1 (nunca es el coeficiente de confiabilidad negativo, aunque en teora un coeficiente de correlacion puede ser negativo
entre 0 y 1).
B) Si un test se alarga n veces agregandole n 1 tests paralelos, se tiene
r(tt0 )n =

nrtt0
1 + (n 1)rtt0

donde rtt0 es el coeficiente de confiabilidad del test original y r(tt0 )n es


el correspondiente del test alargado n veces.
Entiendese, desde luego, que un test es mas confiable a medida que rtt0 se
aproxima a 1 y menos confiable a medida que se aproxima a cero.
En realidad, la conclusion teorica del inciso A es consecuencia de las siguientes
relaciones:
a.1) St2 = ST2 + Se2 ;
a.2) rtt0 =
a.3) r
9
10

tt0

ST2
; y
St2

Se2
=1 2 .
St

Para cada individuo.


De Magnusson.

157

Confiabilidad en la medici
on.
Observe que a.3 se obtiene inmediatamente de a.1 y a.2. Ahora bien, la
relacion a.1 se verifica a partir de los postulados y de la formula
2
SX+Y
= SX2 + SY2 + 2rXY SX SY

9.5

donde rXY SX SY = COV(X, Y ). Veamos: t = T +e (postulado 1); aplicando


la f
ormula 9.5 obtenemos
St2 = ST2 +e = ST2 + Se2 + 2 COV(T, e)
pero

COV(T, e)

= reT Se ST = 0 , ya que reT = 0 (postulado 4), entonces


St2 = ST2 +e = ST2 + Se2

con lo que hemos obtenido la relacion a.1.


Por u
ltimo, la relacion a.2 se obtiene como sigue. Por el postulado 1 tenemos
que
t=T +e
y
t0 = T + e0
2
2
por lo que t t0 = e e0 ; luego, Stt
0 = See0 y como
2
2
2
Stt
0 = St + St0 rtt0 St St0

2
See
0

Se2

Se20

ree0 Se Se0

entonces
St2 + St20 rtt0 St St0 = Se2 + Se20 ree0 Se Se0

9.6

pero ree0 = 0 (postulado 3); ademas, puesto que los tests son equivalentes,
las medidas teoricas St2 y St20 deben ser iguales (y por tanto, St = St0 ). Ahora
bien, por la relacion a.1 tenemos que
St2 = ST2 + Se2

y St0 = ST2 + Se20

y como St2 = St20 entonces


ST2 + Se2 = ST2 + Se20

lo que implica que

As, de 9.6 obtenemos


St2 rtt0 St2 = Se2
sustituyendo que St2 = ST2 + Se2 nos queda
ST2 + Se2 rtt0 St2 = Se2
158

Se2 = Se20

Confiabilidad en la medici
on.
y finalmente, despejando rtt0 obtenemos
rtt0 =

ST2
St2

9.7

Para verificar la formula del inciso B ocupamos las formulas generalizadas de


las ya vistas; v.gr. la formula 9.5 para N sumandos
2
SX
=
1 +X2 + +XN

N
X

2
SX
+
i

i=1

N
1
X
i=1

N
X

j=i+1

2rXi Xj SXi SXj

9.8

Por ejemplo, para N = 3 tenemos


2
2
2
2
+SX
+2rX1 X2 SX1 SX2+2rX1X3 SX1 SX3+2rX2 X3 SX2 SX3
+SX
SX
= SX
1
2
3
1 +X2 +X3

Ademas, ocupamos las siguientes igualdades (cuya prueba es muy sencilla):


b.1) raX,Y = rXY ,

a>0

2
2
b.2) SaX
= a2 SX

Ahora bien, si denotamos con (t)n al test obtenido de t alargado n veces y


con (t0 )n un paralelo y recordando que el puntaje verdadero es constante11 :
(t)n = nT + e1 + + en
donde e1 , . . . , en son los errores en cada una de las n partes del test (t)n .
De acuerdo a la formula 9.7 aplicada a (t)n :
r(tt0 )n

2
SnT
= 2
S(t)n

9.9

2
Pero SnT
= n2 ST2 (por la igualdad b.2); y, por otra parte, por la formula
generalizada 9.8 aplicada a (t)n = nT + e1 + + en tenemos que
2
2
SnT
+e1+ +en = SnT +

11

n
X

Se2i + 2rnT,ei +

i=1

Para cada individuo.

159

n1
X
i=1

n
X

j=i+1

2rei ej Sei Sej

Confiabilidad en la medici
on.
pero rnT,ei = rT,ei = 0 (b.1 y postulado 4) y rei ej = 0 (postulado 3),
entonces
n
n
X
X
2
2 2
2
2 2
S(t)
=
n
S
+
S
=
n
S
+
Se2
T
ei
T
n
i=1

i=1

ya que, al ser Se2i varianzas de error en tests paralelos equivalentes, tenemos


que Se2i = Se2 para i = 1, . . . , n ; entonces
2
S(t)
= n2 ST2 + nSe2
n

Sustituyendo en 9.9:
r(tt0)n =

2
n2 ST2
n2 ST2
SnT
=
=
2
S(t)
n2 ST2 + nSe2
n(ST2 + Se2 ) + (n2 n)ST2
n

Recordemos que t = T + e; luego, St2 = ST2 + Se2. As

r(tt0 )n =

n2 ST2
nST2
=
nSt2 + n(n 1)ST2
St2 + (n 1)ST2

nST2
nST2
St2
St2
= 2
=
ST2
St + (n 1)ST2
1
+
(n

1)
St2
St2
donde, por el postulado 1, sabemos que rtt0 =
r(tt0 )n =

2
ST
St2

y por lo tanto

nrtt0
1 + (n 1)rtt0

ecuacion que corresponde a la formula del inciso B, que es lo que habamos


de probar.
n
Observe que, puesto que 0 rtt0 1 , se tiene 1+(n1)r
1 y que, mas
tt0
n
a
un, si rtt0 < 1 , entonces 1+(n1)r 0 > 1 (para n 2). As que, en general,
tt
r(tt0 )n > rtt0 .

160

Presentaci
on esquem
atica de la experimentaci
on.
CAPITULO 10:

ESQUEMATICA

PRESENTACION
DE

LA EXPERIMENTACION.

Introducci
on.
Presentamos en parte un resumen de los captulos 1 y 4 del libro Conducting
Educational Research 1 sin respetar propiamente el orden de los temas y
con algunas anotaciones propias.
Es conveniente advertir en primer termino que existen varios tipos de Investigaci
on Educativa, siendo la investigacion experimental, que es la que trata el
mencionado texto (y nuestro curso), una entre tantas posibilidades, aunque
muy importante. Posiblemente nadie en nuestros das objete la legitimidad de la investigacion experimental o la confiabilidad de sus conclusiones,
cuando esta se realiza en el contexto de las ciencias fsicas. Sin embargo,
en el terreno educativo la experimentacion ha sido cuestionada severamente
por investigadores en educaci
on de Matematicas de considerable reputacion.
M
as adelante, en su oportunidad, mencionaremos algunas objeciones. Por el
momento iniciaremos con el mencionado resumen.
Qu
e es investigaci
on?
La investigacion es un intento sistematico de dar respuesta a preguntas. De
acuerdo a la mayor o menor generalidad de las preguntas, se puede clasificar
(la investigacion) en: Basica y Aplicada.

Investigacion

Basica: Cuando las preguntas a responder tienen un car


acter general. Tienen que ver
con la elaboraci
on de teoras o modelos
m
as o menos estructurados.

Aplicada: Cuando las preguntas son especficas o

particulares.

En esencia, la metodologa o muchos de los procedimientos de investigacion


son comunes a ambos tipos de investigacion.

De Bruce W. Tuckman, Ed. Harcourt Brace Jovanovich Inc.

161

Presentaci
on esquem
atica de la experimentaci
on.
Qu
e es investigaci
on experimental?
Responder a tal pregunta nos va a tomar cierto tiempo pero podemos ir
adelantando algunas caractersticas.
En la investigacion experimental las preguntas son enunciadas o expresadas
en forma de hipotesis. Tal hipotesis conjetura, con mucha frecuencia, una
relacion de tal o cual tipo entre dos variables o entre dos grupos de variables.
Una de ellas llamada variable independiente y la otra variable dependiente. Mas precisamente, la hipotesis propone una relacion del tipo causa-efecto
entre la(s) variable(s) independiente(s) y la(s) variable(s) dependiente(s) respectivamente (ver figura 10.1)
ca u sa

.................................................
...........
........
........
......
......
.....
.
.
.
...
..
.
.
...
.
.
.
..
...
....
...
...............................................
...
...
.
...
.
.
.
...
.
.
.....
.....
......
.......
......
.........
.......
......................................................

variable(s)
independientes

tipo de
relaci
on

e f e c t o
variable(s)
dependientes

.............................................
...........
........
........
......
......
......
.
.
.
.
....
..
.
.
...
..
.
..
.
..
.
.
.
.
.
.
.
.
.
.
.
................................................ ..
...
...
...
.
...
.
.
...
.
..
.....
.....
......
......
........
........
...........
................................................

figura 10.1
Qu
e es variable?
En el contexto que nos ata
ne, aparte del significado matematico que el nombre variable sugiere, el Profr. James W. Popham, en su libro Educational
Statistics nos da la siguiente version:
Variable Educativa es cualquier caracterstica o rasgo humano por el cual
los individuos se distinguen unos de otros.
Con tan amplia definicion, las estaturas, los pesos, etc. de las personas son
variables educativas. Por triviales que puedan parecer (o irrelevantes al proceso educativo) tales variables, es en realidad difcil descartarlas. En edades
tempranas y en el ambiente escolar, los pesos y las estaturas de los escolares
pueden, sin duda, tener influencia (o cierta influencia) en el desempe
no de
los alumnos. Pueden crear sentimientos de inseguridad, de inferioridad o lo
contrario, e indudablemente tales condiciones psicologicas se reflejaran en su
escolaridad.
Por qu
e son llamadas variables independientes unas y variables
independientes otras?
El adjetivo independiente en este contexto se refiere a que el investigador
tiene posibilidad de manipular tal variable y de hecho verificar sus efectos
162

Presentaci
on esquem
atica de la experimentaci
on.
(seg
un lo estipula o al contrario) sobre la variable dependiente. Veamos un
ejemplo.
Un investigador cree que de dos textos programados, texto A y texto B, el
primero es mas eficiente que el segundo en cuanto a logros de aprendizaje.
Enuncia entonces la siguiente hipotesis:
El texto A consigue mejor aprovechamiento en los alumnos que el texto B.
El texto programado (A o B) corresponde a la variable independiente y el
aprovechamiento escolar corresponde a la variable dependiente. As, la variable independiente solo tiene dos valores posibles: A o B. El investigador
manipula esta variable en el sentido de que a un grupo de alumnos se les
hace seguir el texto A mientras que a otro grupo se les imparte el texto B.
Qu
e otros tipos de variables se consideran en la investigaci
on experimental?
Ademas de las variables independientes y dependientes el experimentador
tiene que dar cuenta de otras variables que pueden influir en la relacion entre
la variable independiente y la dependiente. Si esta influencia no interesa
estudiarla o falsea la posible relacion entre las variables independiente y
dependiente, tal variable es llamada
variable de control
El interes del investigador a este respecto es controlar tal variable en el sentido
de anular su variacion (fijando su valor) o reduciendo sus efectos sobre las
variables independiente o dependiente.
Otro tipo de variables cuya influencia en la relacion entre las variables independiente y dependiente es moderada, o en todo caso, sus efectos en tal
relacion tienen interes para el investigador, son llamadas
variables moderadoras
En tal caso, el experimentador bajo supervision permite variar a tal variable observando el efecto de tal cambio en la mencionada relacion variable
independiente-variable dependiente. Puede ser que su influencia sea simplemente matizar la aludida relacion, acentuandola o debilitandola.
Con respecto al ejemplo de los textos A y B, podemos ilustrar mejor el papel
de las variables de control y moderadoras. Veamos. Dada la hipotesis de
que con el texto programado A se consigue un mejor aprovechamiento en los
alumnos que con el texto programado B, podemos considerar las siguientes
variables
163

Presentaci
on esquem
atica de la experimentaci
on.
a) independiente: texto (A o B),
b) dependiente: aprovechamiento escolar,
c) de control: profesor y
d) moderadora: inteligencia (del alumno).
................................................................
..........
........
.......
......
......
.
...
.
.
...
..
.
.
.
.
..................
.......
.
.. ............ ..
.
............... . .......
.
.......
.
.
.
.
.
.
.
.
.
..
.
.
.......
...... .
......
.. ...............
.........
................................................. .
........
..............
......................................................
.....................
...........
............
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.......
.... .
......
......
......
.....
.
......
.
.
.
.
.
.
.
....
.
...
..
..
.
.
..
.
.
..
..
..
.
.
.
.
....
.
..................................................................................................................
.
...
.
...
.
...
.
....
.
.
....
.
..
.
.
.
.
......
.
.
.
.
.
......
..
....
.......
........
.......
.......
..........
........... .
.....................................
..........
...................
..........
...................
..........
.................................................................
.......................................................
..........
.......
.
.
.
.
.
.
.
.
......
.
.
.
.
......
..
...
.......
....
.......
........ .......
.. ...........
.......... ...
........
..........
.
.
...
...
....
...
......
.....
.......
......
.
.........
.
.
.
.
.
.
.
.................
....
.........................................

(c)
profesor

(a)

texto

causa efecto

(b)
aprovechamiento

(d)
inteligencia

figura 10.2
En la hipotesis, el investigador desea probar que el texto A es superior al B
en cuanto a logros en el aprovechamiento, pero independientemente del profesor. Resultara poco serio un estudio que mostrara que el texto A auxiliado
por un excelente profesor resultara mas eficaz que el texto B auxiliado por
un pesimo profesor. Se trata de mostrar que los textos en s responden por
el mayor o menor aprovechamiento de los alumnos. El investigador debe por
tanto controlar la variable profesor, por ejemplo fijandola (con profesores comparativamente equivalentes para ambos textos) o bien anulandola
(utilizando varios profesores elegidos al azar para cada texto).
Por otra parte, si el investigador desea averiguar como la inteligencia del
alumno puede influir en el aprovechamiento para cada texto, (v. gr. a mayor
inteligencia la ventaja en el aprovechamiento debido al texto A sobre el B
se acent
ua o se debilita), entonces el experimentador ha elegido a la inteligencia como variable moderadora. Se supone entonces que el investigador
experimental tomara en cuenta a la inteligencia de los alumnos en funcion
de la relacion del aprovechamiento con los textos, por ejemplo, comparara la
ventaja del texto A sobre el B para alumnos de inteligencia inferior con la
misma ventaja (si la hay) para alumnos de inteligencia superior.
Conviene hacer notar aqu que en naturaleza las variables de control y las
moderadoras no difieren, es una cuestion de eleccion del investigador si se les
da una funcion o la otra. En el ejemplo precedente pudo haberse elegido que
la inteligencia del alumno fuese una variable de control, de tal forma que se
164

Presentaci
on esquem
atica de la experimentaci
on.
hubiesen tenido dos variables de control. O bien, la variable Profesor pudo
haber sido considerada moderadora, mientras que la inteligencia se trataba
como variable de control, etc.
Finalmente, existe un quinto tipo de variable que recibe el nombre de intermedia. En realidad tal variable es la autentica variable dependiente, la que
en todo caso responde del efecto de la aparente variable dependiente.
efecto

causa
.....................................................
..........
.......
.......
......
.....
....
.
.
...
..
.
..
....
.
...
...
....
...
.
.....
.
.
..
.
.......
.
.
.
.
.........
....
..................
.........
................................

Var.
independiente

.......................
.......
.....
.....
....
...
....
.
.
...
.
.
.
...
..
.
...
.
.
..
.
..
.
...
....
...
..
..
..
..
...
.
.
.
.
.
.. ...........................................................
.
......................................................... ...
..
.
...
...
..
.
.
...
.
.
...
..
...
...
...
..
...
..
.
.
...
..
...
..
....
...
....
.....
.
......
.
.
.
.
..........................

Var.
intermedia

efecto del efecto

.....................................................
..........
.......
.......
......
.....
....
.
.
...
..
.
..
....
.
...
...
....
...
.
.
.....
.
..
.
.......
.
.
.
.
.........
....
..................
.........
................................

Var.
dependiente
(efecto)

(causa)

figura 10.3
En el ejemplo precedente tendremos que la Variable Intermedia es el Aprendizaje (del alumno). Lo que ocurre es que, aunque lo que nos interesa acerca
de los textos, mejor dicho, de su efecto, es el aprendizaje por parte del alumno, no nos es posible averiguar directamente el aprendizaje de un alumno. No
sabemos, simplemente, que ocurre realmente en esa caja negra que tiene
el alumno dentro de su craneo. A lo que podemos aspirar seguramente es a
ver unos palidos reflejos de lo que ha quedado en su interior y que muchas
veces llamamos aprovechamiento escolar. En otras palabras, ponemos a
prueba al alumno de tal forma que queden de manifiesto algunos efectos o
consecuencias de lo que ha aprendido.
De d
onde surgen las hip
otesis?
Seguramente todo profesor se ha enfrentado a una serie de problemas en el
proceso de ense
nanza-aprendizaje. Con un poco de suerte, algunos profesores
incluso se han planteado una lista de preguntas acerca de ciertas dificultades
en la instruccion de ciertos temas o al aprendizaje de los mismos. Muchas
de estas preguntas son en realidad problemas de tipo muy general, como por
ejemplo: C
omo hacerle para que los alumnos dominen el lenguaje algebraico
y operen con el?
Tales cuestiones no admiten facil respuesta. Mas a
un, son planteamientos
casi filosoficos que no dan clara indicacion de la naturaleza del problema y
165

Presentaci
on esquem
atica de la experimentaci
on.
por lo tanto, no sugieren alguna posible estrategia para su solucion. Ni que
decir que no pueden ser formulados directamente en forma de hipotesis y
consecuentemente, que no son sujetos de experimentacion.
Algunos cientficos han expresado que estrictamente hablando no hay problemas irresolubles, sino mal planteados. Sin embargo, hacerse las preguntas
correctas es un arte difcil de dominar y su tecnica (si la hay) es practicamente desconocida. En cierto modo, la situacion puede parecer a
un peor
para las preguntas que pueden ser sujetos de experimentaci
on: no basta hacerse las preguntas correctas, estas tienen que ser formuladas en forma de
hip
otesis. Una pregunta puede estar bien planteada y sin embargo es posible
que no pueda ser expresada (directamente) en forma de hipotesis. Para que
esto u
ltimo ocurra, la pregunta tiene que tener la forma de una conjetura:
debe expresar alguna va de solucion. Un ejemplo de tal tipo de cuestion
relacionada con la pregunta general enunciada antes es la siguiente
Para que los alumnos dominen el lenguaje algebraico y operen con el se
requiere un buen manejo de la aritmetica y en general ciertos conocimientos de las reglas que rigen las operaciones y manipulacines aritmeticas?
En forma asociada podra tenerse la siguiente hipotesis:
Los alumnos que alcanzan buen dominio del lenguaje algebraico y que
operan satisfactoriamente con el, generalmente tambien tienen un buen
manejo de la aritmetica y de las leyes o reglas de manipulaci
on aritmetica.
La hipotesis trata de expresar que la manipulacion aritmetica adecuada es
condicion necesaria para la correspondiente version algebraica.
Llegado a este punto, el lector se preguntara en que contribuye entonces la
experimentacion educativa a la solucion de los problemas educativos si
1) Es necesario formular el problema en un buen planteamiento
2) El problema debe ademas sugerir una alternativa de solucion que permita ser expresado en forma de hipotesis.
En otras palabras, uno debe hacerse buenas preguntas y apuntar a su soluci
on, as que en que contribuye la experimentacion para resolver el problema?
Tratare de responder a la pregunta por etapas. Para empezar, evidentemente
contribuye a verificar si la solucion apuntada (en el nivel del inciso 2 lo es
o no. Por otra parte y yendose a otro extremo, no nos podramos ahorrar
nunca el paso establecido en el inciso 1 (plantear bien el problema), pues sin
166

Presentaci
on esquem
atica de la experimentaci
on.
tal buen planteamiento el problema jamas sera resuelto; as que sera mucho
pedirle a la experimentacion que nos ahorrara tal paso. Para ser justos, en
todo caso, el hacer una experimentacion del problema en cuestion, nos obliga a hacer un analisis previo, incluyendo mas trabajo que el estipulado en
el inciso 1, pero precisamente ah radica parte de su merito. Esta ulterior
precision del problema nos hace mas clara la naturaleza del mismo y de una
toma de conciencia de las variables relevantes en el caso. Recuerdese que
ademas de formular la hipotesis tenemos que elegir las variables de control y
las moderadoras. Puede decirse pues que las exigencias de una experimentaci
on nos obliga a ser mas sistematicos y mas analticos, con el consiguiente
beneficio.
Resumiendo lo dicho hasta ahora, las hipotesis surgen de plantear correctamente los problemas educativos y de hacer un analisis sistematico de los
mismos, identificando las variables mas relevantes y conjeturando relaciones
entre ellas.
Hablando formalmente, podramos hablar de tres fuentes en la deteccion,
correcta formulacion y analisis de los problemas:
i) Teora
ii) Experiencia y
iii) Filosofa.
La Teora puede ser una teora de aprendizaje (Piaget, Skinner, etc.) o una
correspondiente teora de la instruccion. La Experiencia puede ser la propia
u otra que hemos ledo o no han comunicado. La Filosofa puede ser la de
un filosofo o pensador, o bien, nuestra propia capacidad de discernimiento o
especulativa.
Qu
e tan v
alida es la experimentaci
on educativa?
Antes de hablar de la experimentacion educativa, en la investigacion experimental en general, se establecen dos tipos de validez:
a) Interna. Un estudio posee validez interna si los resultados del mismo
estan en funcion del esquema o acercamiento que ha sido programado
en vez de ser consecuencia de otras causas que no han sido consideradas
sistematicamente en el estudio.
b) Externa. Un estudio posee validez externa si los resultados obtenidos se
pueden aplicar a esquemas o acercamientos similares en la realidad.

167

Presentaci
on esquem
atica de la experimentaci
on.
Es de hacer notar que existe un cierto compromiso entre ambos tipos de
validez. Para conseguir buena validez interna es necesario considerar cuidadosamente las variables de control. La omision del control de ciertas variables
que fuesen especialmente relevantes en la cuestion tratada podra explicar los
resultados obtenidos como consecuencia de su variacion en vez de ser consecuencia (los resultados) de las variables (independientes) que ha manipulado
el investigador.
Por otra parte, si el investigador ejerce demasiados controles sobre muchas
variables, el experimento, con gran validez interna, se ha realizado en condiciones ideales que no seran reproducibles en la realidad (en el aula, por
ejemplo), con la consiguiente perdida de validez externa.
Aparte de este compromiso entre ambos tipos de validez, la experimentacion
en educacion ha sido atacada por algunos investigadores esgrimiendo como
argumento que en educacion intervienen tantsimas variables, muchas de ellas
desconocidas, que pretender ejercer alg
un control serio es practicamente ilusorio.
Ciertamente, la experimentacion educativa no es la panacea que nos librara
de todos nuestros problemas, pero indudablemente es un recurso mas, que
por una parte, para los profesionales en la educacion de las matematicas, tan
atiborrados de problemas educativos, sera practicamente un lujo despreciarla
o dejarla fuera de consideracion.
Y, por otra parte, para aquellos docentes que se han visto en la situacion de
decidir sobre un metodo u otro de instruccion (o una cuestion semejante),
eligiendo de acuerdo a los resultados obtenidos, guiandose muchas veces por
su impresion personal, o en todo caso, procediendo de un modo intuitivo,
que mejor que hacerlo de modo mas sistematico, utilizando el esquema de la
investigacion experimental, con la esperanza de tener mejores elementos de
juicio en su decision.
C
omo se decide acerca de la validez de las hip
otesis?
Responder a tal pregunta tiene que ver con el empleo de los metodos estadsticos y en particular de la Estadstica Inferencial que sera objeto de estudio
del siguiente captulo, pero podemos ir adelantando algunas consideraciones
al respecto.
Puesto que la verificacion de las hipotesis esta relacionada con otras partes
de la experimentacion, he considerado conveniente de una vez presentar un
esquema global de una experimentacion en la figura 10.4

168

Presentaci
on esquem
atica de la experimentaci
on.
..........................................
..............................
...........
.......
............
.......
.......
.....
....................................
.......
....
.....
....
........
.....
.
.
.
.
.
...
.
.
....
...
..
.
.
.....
....
...
..
...
.
.
...
.
.
.
.
...
.
.
...
.
.
......
.
.
.
.
.
.
.
.
.
.
.....
......
.
.
..
.
.
.
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............ . ...........
........
.
.......................
..
.......................
.............
........
...
...
.......................................
...
...
...
...
.
.
...
.
.
.....
...
.
...
.
...
...
.......................................
.
.
.
.
...
.
.
.
.
.
.
.
...
........
...
.
.
.
...
.
.
.
.
.....
...
...
.
...
.
.
.
...
.
...
...
....................................................................................................
.................................................................................................. .....
.
. ....
.
...
.
.
.....
.
.
.
.......
...
......
..........
..............................................
...
...
.
.........
....
.
........................................................................................................................
....
...
..
...
.
................
...
...................
...
...
..
...
....
...
...
...
..
...
...
..
...
...
...
..
...
...
..
...
...
...
.
.
.............................................................................................................................................................
...
...
...
...
.......
.....
..........
. ........
.............
..............
.........................................
.
.
.
.
.
.
.
.
.
.
.
.
.
........................................................
.
.
.
.
..........
.....
.
.
...........
........
.
.
.
.
.
.
.
.
.
.
.
.
......
......
....
......
.....
.....
.....
.
.....
.
.
.
.
.
...
.
.
...
.
.
..
.
..
.
.
.
..
..
....
.. .................................................... ...
.
.
.
.
.
...
.
..
.
.
.
...
.
..
...
.
...
...
.
.
.
.
....
.
.
.
.....
.
.
.
.
.
.
......
.
.
.
.
......
....
.......
......
........
.......
..........
...........
........
.....................
..........
.......................................................
................................
...
...
..
..
...
..
........
........
....
....
.
.
.
.
.
.
.
.
.
.
.
.
.........................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.................
..........
................
................
.........
........
.........
.........
.......
.......
.......
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
....
..
.
...
.
.
...
.
.
...
..
..
..
....
.
.. .................................................... ...
..
..
....
. ..
.
.
.
.
...
.
.
.
...
.
...
...
.
.
...
.
.
.
.....
.
.
.
.
.....
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.......
...
...
........
..........
..........
........
........
....
............................................................
...........
.. ..............................................
...
...
...
.
.
...
...
... .
................................................ ........
................
..................................
.
.
.
.
.
.
.
.
.
.......
.
.
.
.
......
......
....
.....
...
....
.
.
...
..
.
..
...
..
...
...
...
..
.
...
.
.....
...
......
.....
........
......
..........
........
.
.
.
.
.
.
.
.
................
.
.
...................................................
...
.
...........................
............
........
.
.
.
.
.
.
.
.......
..
.
.
.
.
.
.
.......
.....
......
......
.
.
........
.
.
.
.........
.
..............
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............
......
.
................
.........
.
.
.
.
.
.
.
.
.
.......
.........
.......
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
.....
.
.
...
.
.
.
.
.
.
...
.
.
...
.
.
.
.
...
.
.
.
..
....
..
..
.....
...
..
...
..
.
...
.
.
...
....
.
.
....
.
.
.
.
.
......
..
..
......
.
.
.
.
.
.
.
.
.
.
.
........
........
.
.
............
........
............
........
..............................................
...............................................

Experiencia

Teora

FUENTES:

Filosofa

Detecci
on de
Problema(s)

An
alisis del problema

ANALISIS:

DISENO:

Formulacion Formulacion
Operativa de
de
hipotesis
hipotesis

Dise
no del
Montaje de la
Experimentaci
on

Dise
no del
An
alisis
Estadstico

Preparaci
on

Preparaci
on de
los Instrumentos
de Medici
on

de los Materiales
y Recursos

Toma de Datos
y
Analisis Estadstico

PROCESAMIENTO:

DECISION:

Hip
otesis
(nuevas)

Conocimientos
(nuevos)

Esquema de una experimentaci


on educativa
figura 10.4
Una vez que el problema ha sido correctamente detectado y planteado, se
procede a hacer un analisis el cual incluye, como ya se ha dicho, replantearlo en forma de hipotesis e identificar las variables relevantes. Ademas
169

Presentaci
on esquem
atica de la experimentaci
on.
tal analisis debe permitir expresar tal hipotesis en forma operativa, esto es,
de una manera tal que las variables en ella explcitas sean susceptibles de
ser observadas y de hecho medidas. En otras palabras, la hipotesis debe ser
reformulada en terminos medibles.
El termino medicion esta referido aqu en la generalidad que se describe en
el captulo 1. Veamos un ejemplo de tal formulacion operativa de hipotesis.
Tenemos la hipotesis original:
El texto programado A consigue mayor (o mejor) aprendizaje del alumno
que el texto B.
la cual puede traducirse en la hipotesis operativa:
El aprovechamiento medio (seg
un el Test X) de los alumnos que siguen el
texto A es superior al aprovechamiento medio de los alumnos que siguen
el texto B.
donde con aprovechamiento medio se refiere a la media aritmetica de una
poblacion hipotetica en los puntajes de cierto Test X (que mide el aprovechamiento) que ha seguido uno de los textos.
M
as precisamente, ante la imposibilidad de medir el aprendizaje2 , se mide
un reflejo de este: el aprovechamiento. Este a su vez (para los efectos de
ser medido) se define operativamente como el puntaje del Test X que viene
a ser el instrumento (o uno de los instrumentos) de medicion que figura en
el diagrama (fig. 10.4). Ahora bien, la hipotesis original predice que este
puntaje es superior con el Texto A como tratamiento que con el B. Pero
que quiere decir esto u
ltimo, si el aprovechamiento es una variable? Esto
es, el aprovechamiento vara de sujeto a sujeto, luego se tienen dos variables
aleatorias XA y XB que son definidas, respectivamente, como el puntaje
obtenido despues de seguir el Texto A y el Texto B.
Falta ahora especificar el rango de las variables, mejor dicho, en cuales sujetos
se mide. Se supone que el texto A es mejor que el texto B para cierta
generalidad de alumnos, digamos los que estan en el nivel medio superior en
tal sistema escolar (o cierta Universidad). Tal conglomerado de alumnos se
llama Poblacion (en el contexto tratado). Sin embargo, nos referimos a ella
con el calificativo de hipotetica. Esto fue as puesto que es imposible que
tal Poblacion reciba por separado e independientemente los dos tratamientos
(si recibe el del texto A, determinamos la distribucion de la variable XA , pero
hemos nulificado la posibilidad de determinar la distribucion de probabilidad
de XB ). As que postulamos la existencia de la poblacion hipotetica que ha
2

Directamente.

170

Presentaci
on esquem
atica de la experimentaci
on.
recibido el texto A y por lo tanto la de la variable aleatoria XA y similarmente
la existencia de la distribucion de XB . Finalmente, queremos de alg
un modo
expresar nuestra prediccion de que XA es mayor que XB . Un modo posible
es decir que A > B .
En resumen, con todas las anotaciones precedentes, la hipotesis puede traducirse en terminos medibles (luego veremos por que s es medible) la hipotesis
operativa es
H1 : A > B
(H1 se lee hipotesis alterna o de investigacion n
umero 1). Por razones
tecnicas, que tendran que ser explicadas posteriormente, se introduce la
negacion de tal hipotesis de investigacion, la cual recibe el nombre de hipotesis
nula:
H0 : A B
En la practica, pocas veces la hipotesis nula es estrictamente la negacion de
H1 . En nuestro caso, la hipotesis nula de trabajo es
H00 : A = B
En realidad esta u
ltima deba expresarse con H0 en vez de H00 , lo cual se hizo
s
olo para fines de distinguirla de la anterior que era la negacion estricta.
Regresemos ahora al punto de la mesurabilidad de A y B , cuando solo
son medias de poblaciones hipoteticas. Precisamente aqu es donde entra la
Estadstica Inferencial, la cual a partir de dos muestras (en este caso, dos
grupos de alumnos), muestras que ahora s son reales, se determinan sus
A y X
B y si ocurre que X
A > X
B y la diferencia
medias X
A X
B
X
es positiva y significativamente grande, como para ser explicada por el azar,
se concluye (con un peque
no riesgo, cuyo valor maximo en terminos probabilsticos se llama nivel de significacion) que A > B y consiguientemente
que la hipotesis de investigacion es valida.
Por supuesto que hemos dejado de lado una gran multitud de detalles en lo
que hemos referido y en lo que no se ha mencionado del esquema de la figura
10.4.

171

S-ar putea să vă placă și