Documente Academic
Documente Profesional
Documente Cultură
ESTADISTICA DESCRIPTIVA
ELABORADO POR:
EULALIA CALVO BUSTAMANTE
Fuente:
FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.
Prentice-Hall
EJEMPLO
Solución
EJEMPLO
Solución
Esta encuesta no llegará a aquellas personas que es más probable usen el producto:
solteros y parejas de casados en las que ambos trabajan.
Los gobiernos han hecho gran uso de los censos para contar personas y
propiedad, y el problema de describir, resumir y analizar los datos de los centros ha
llevado al desarrollo de los métodos que hasta hace poco constituían casi todo el
material disponible de la materia de estadística. Esto métodos, que en un principio
consistía sobre todo en la presentación de datos en forma de tablas y gráficas,
constituyen lo que ahora llamamos estadística descriptiva. Esta comprende cualquier
actividad relacionada con los datos y está diseñada para resumir o describir los mismos
sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá
de los datos, como tales. Por ejemplo, si las pruebas practicadas en seis automóviles
compactos, demostraran que pueden acelerar de 0 a 100 k/h en 18.7, 19.2, 16.2, 12.3,
17.5 y 13.9 segundos y reportáramos que la mitad de éstos aceleró de 0 a 100 k/h en
menos de 17.0 segundos.
4
Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.
2.1.1. LA OBSERVACIÓN
Tipos de Observación
2.1.3. LA ENTREVISTA
2.1.4. EL CUESTIONARIO
Ejemplo 2.1
Ejemplo 2.2
• ¿Sabe leer? SI ( )1 NO ( )2
• Sexo: Masculino ( )1 Femenino ( )2
7
• ¿Trabaja actualmente SI ( )1 NO ( )2
• ¿Está Ud. de acuerdo con el aborto? SI ( )1 NO ( )2
Ejemplo 2.3
• ¿Qué cosa buena para el país quisieras que ocurra en el siguiente año?
1 ( ) Más inversión y trabajo
2 ( ) Menos pobreza
3 ( ) Menos corrupción y delincuencia.
4 ( ) Aumento de salarios.
5 ( ) Mejora de la Educación
Ejemplo 2.4
Ejemplo 2.5
EJEMPLO DE UN FORMULARIO
I. DATOS GENERALES
2.1. SEXO: 2.2. EDAD en años: 2.3. En qué distrito vive o
Hombre ( )1 Fecha de nacimiento: reside actualmente?
Mujer ( )2
2.4. LUGAR DE NACIMIENTO: 2.5. ESTADO CIVIL:
Provincia: Soltero ( ) 1 Casado ( )2
Departamento: Viudo ( )3 Divorciado ( )4
Conviviente ( )5 Separado ( )6
2.5. Qué asignaturas le agradaban o tenían 2.6. Qué asignaturas le desaprobó alguna vez
más éxito en la Secundaria? en la Secundaria?
1. 1.
2. 2.
3. 3.
4. 4.
5. 5.
2.7. Está Ud. siguiendo la PROFESIÓN que pensó estudiar? SI ( )1 NO ( )2
Qué carrera profesional le gustaría seguir? ....................................................................
2.1.6. LA ENCUESTA
c. Por correo, cuando se envían los formularios por correo al domicilio del
empadronado o unidad de análisis.
Fuente:
AVILA, R. (1998) Estadística Elemental. Lima Estudios y
Ediciones R.A.
Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa una
distribución de frecuencia alrededor de un valor de la variable.
En cada uno de los tres casos se advierte que los valores observados se agrupan
alrededor de cierto "valor central" o "valor medio". Estos valores centrales, por su
desplazamiento en el mismo sentido y magnitud, se considera como números que describen la
posición de la distribución de frecuencias, y se definen como estadígrafos de posición o de
tendencia central.
X; M(X) ; ax
n
x + x 2 + x 3 + ... + x n
M(X) = X = 1 entonces M(x) =
∑x
i =1
i
n
n
n
1
También X =
n
∑X
i =1
i o X = ∑ Xihi
X=
∑x i =1
i
58 = 116 o sea X = 12 puntos.
=
5 5
b. La media obtenida a partir de los datos agrupados en tablas de frecuencia se denomina
Media Aritmética Ponderada, definida como:
y 1 n 1 + y 2 n 2 + y 3 n 3 + ... + y m n m
M(Y) = Y =
n
m
Y=
∑yn
i =1
i i
n
Los puntos medios yi de cada intervalo se ponderan por las frecuencias ni.
Aquí n/2 = 60/2 = 30 que comparado con los valores de Ni resulta que coincide con N2
= 30, este valor es entonces Nj-1 = 30. como Nj = 42 resulta que IMe = 180 - 240 cuyo extremo
interior Lj-1 = 180; por tanto Me = Li = 180, es decir que Me = 180 dólares.
El valor de n/2 = 20 no coincide con algún Nj, porque 11 < 20 < 23 o sea:
12
CATEGORÍAS (Y) ni = fi hi Ni = Fi
Pésimo 4 0,100 4
Malo 7 0,175 11 ← Nj-1
Me → Regular 12 0,300 23 ← Nj
Bueno 10 0,250 33
Excelente 7 0,175 40
n = 40 1,000
Nota 1
La mediana no es afectada por los valores extremos como la media aritmética, puesto que la
Me no es calculada con todos los valores.
Nota 2
Existen otras expresiones para calcular la Mediana, la definición no cambia, las diferencias con
la fórmula propuesta en este libro sólo es de notación o simbología, el resultado será el mismo.
Entre las expresiones se tiene:
n
2 - ∑f
Me = L + C
f
Otra expresión:
n
2 - F
Me = L + i
f
Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.
Existen distribuciones que siendo diferentes, tienen valores iguales para algunos de
sus estadígrafos de posición, por ejemplo:
los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a
conclusiones equivocadas cuando se está comparando distribuciones o poblaciones. Para
superar esta limitación se propone construir otros estadígrafos que permitan analizar otras
características, como la dispersión o desviación de los datos respecto a un valor central.
Observando los Gráficos No. 4.4.(a), (b), (c) del Ejemplo 4.24, se nota que las tres
distribuciones que tienen el mismo promedio, pero es evidente que el Gráfico 4.4. (c)
representa una distribución con datos más "concentrados" alrededor del promedio que los otros
dos gráficos. Dicho de otro modo, 4.4. (c) corresponde a una distribución con menos dispersión
que las otras dos; de la misma manera se observa que 4.4. (a) es una distribución menos
concentrada o más dispersa. Esta característica se mide mediante los Estadígrafos de
Dispersión.
Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.
Entre los estadígrafos de asimetría o deformación se tiene, los propuestos por Karl
Perason.
Ejemplo 1
En la distribución de los sueldos de los 80 trabajadores, se conoce:
¿Cuál es la asimetría?
Con fines ilustrativos, vamos calcular todas las fórmulas de asimetría. Como el
resultado será el mismo, entonces trabajar con una sola fórmula será suficiente.
= 0,00015 > 0
en cualquiera de las fórmulas AS es positivo, por tanto tiene Asimetría Positiva, es decir hay un
ligero predominio de sueldos menores. Frecuentemente, la distribución de los salarios tiene
asimetría positiva, porque existen muchos trabajadores que ganan poco y pocos trabajadores
que ganan bien.
m4
Coeficiente de Kurtosis: a4 =
s4
4
Donde: s = (s²)² s² = varianza.
m4 =
∑ (Y
i =1
i - Y) 4 n i
n
que se llama "el cuarto momento respecto a la media".
a = 0.3 Mesokútica (normal)
a > 0.3 Leptokútica (apuntada)
a < 0.3 Platikúrtica (achatada)
Q
K= = Coeficiente Percentil de kurtosis.
P90 - P10
Donde Q es el recorrido semi intercuartil, P10 y P90 son los percentiles 10 y 90. para la curva
resulta K = 0,263.
17
Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.
M(K) = k k = constante
M(K) =
∑ki =1 k + k + k + ... + k n.k
= = =k
n m n
b. "La media del producto de una constante por una variable, es igual al producto de la
constante por la media de la variable".
∑ k.x i kx 1 + kx 2 + ... + kx m
M(k.x) = =
n n
k (x 1 + x 2 + ... + x n ) k ∑ x i
= = = k.M(x)
n n
c. "La media de la suma de dos o más variables, es igual a la suma de las medias de cada
una de dichas variables".
d. "La media de una variable más una constante, es igual a la media de la variable más la
constante".
M(X + k) = M(X) + k
Sea una muestra de tamaño con media Y, consideremos dos sumuestras de tamaño n 1 y
n2, con sus respectivas medias Y1 y Y2, con n = n1 + n2.
Entonces: Y= Y1 n1 + Y2 n 2 ∑Y i =1
i ni
=
n n
Generalizando para r submuestras, se tendría:
Y1 n1 + Y2 n 2 + ... + Yr n r
Y=
n
O sea:
Y=
∑Y
i =1
i ni
; con n = ∑n
r
i
i =1
n
Ejemplo 1
En una empresa la edad promedio de los 17 trabajadoras mujeres es de 31,2 años, y la
edad promedios de los 23 trabajadores hombres es de 38 años. ¿Cuál es la edad
promedio del total de trabajadores? Aquí se tiene:
1404,4
Y= = 35,1 años.
40
Por definición:
s² ≥ 0
esto es evidente, puesto que todas las desviaciones positivas o negativas, al elevarse al
cuadrado se hacen positivas.
b. "Si el valor de las observaciones son todas iguales, entonces la varianza es CERO".
En este caso, las observaciones se confunden en un punto, la media es el mismo punto y
la desviación es cero.
s² = 0/n = 0
19
V(K) = 0 K = constante
V(K) = M {[K - M(K)]²} = M{[K - K]²} M(0) = 0
V(K) = 0 c.q.d.
d. "La varianza del producto de una constante por una variable, es igual al cuadrado de la
constante por la varianza de la variable".
V(K.Y) = K²V(Y)
V(K.Y) = M{[KY - M(KY)]²} = M{[KY - KM(Y)]²}
= M {K² [Y - M(Y)]²} = K² {Y - M(Y)]²}
V(K.Y) = K²V(Y)
e. "La varianza de la suma de una variable más una constante, es igual a la varianza de la
variable".
V(Y + K) = V(Y)
V(Y + K) = M{[(Y + K) - Y(Y + K)]²}
= M{[Y + K - M(Y) - K)]²}
= M{[Y - M(Y)]²} = V(Y)
Ejemplo 1
Supongamos que se duplica los sueldos de los 80 trabajadores. ¿Cuál es ahora la
varianza y el nuevo sueldo promedio?
Ejemplo 2
Si a cada uno de los 80 trabajadores, se incrementa su sueldo en 60 dólares
mensuales. ¿Cuál será la nueva varianza y el sueldo promedio?
Aquí K=60 entonces V(Y + 60) = V(Y) = 1903,40 es decir un incremento constante a
cada elemento no altera la dispersión de la distribución. Por su parte el nuevo sueldo
promedio quedaría incrementado en 60 dólares.
Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.
2.11.1. Generalidades
1 µ σ
N(µ ,σ ) = e-(x- )²/2 ²
σ 2π
Donde: -∞≤ X≤ +∞
P (a ≤ X ≤ b) = Área entre a y b.
1 µ σ
N (µ , σ ) = e-(x- )²/2 ²
σ 2π
X-μ
zi =
σ
en estas condiciones:
X-μ
X z= z
σ
µ ≠ 0 µ =0
σ >0 σ =1
1
N(0,1) = e-1/2 z² , - ∞ ≤ Z ≤ + ∞
2π
en esta curva, las áreas comprendidas entre dos puntos cualesquiera (z1, z2)
también se encuentran tabulados en las Tablas de Áreas bajo la Curva
Normal Tipificada o Estándar de 0 a z (Tabla II). Por ejemplo, considerando
los valores de z (-1,1), (-2,2), (-3,3) se tiene las siguientes áreas:
P(-1 ≤ z ≤ 1) = 0.6827
P(-2 ≤ z ≤ 2) = 0.9545
P(-3 ≤ z ≤ 3) = 0.9973
ESTANDARIZACIÓN DE X:
X = media muestral.
x-X
z= donde
s
s = desviación estándar muestral
Ejemplo 1.
La media de las notas de los alumnos de Estadística es 12,4 puntos y la
desviación estándar es 2,6; ¿Cuál es el valor estándar (z) de los siguientes
puntajes: 10,5; 13; 16; 08; 12,4; 17?
X1 = 10,5 X2 = 13 X3 = 16 X4 = 08 X5 = 12,4 X6 = 17
σ 2,6 2,6
Ejemplo 1
A partir de la Distribución Normal, calcular la probabilidad de un suceso,
cuya variable estandarizada (z) está comprendida entre los siguientes
valores:
PRIMER CASO:
Entre z = 0 y z = 1,3
P (0 ≤ z ≤ 1,3) = 0,4032
SEGUNDO CASO:
Entre z = -0,72 y z = 0
TERCER CASO:
Entre z = -0,48 y z = 2,15
CUARTO CASO:
Entre z = 0,80 y z = 1,94
QUINTO CASO:
Entre z = -2,30 y z = -0,82
SEXTO CASO:
A la izquierda o menores de z = -0,90
SÉTIMO CASO:
A la derecha o mayor de z = 1,72
OCTAVO CASO:
A la derecha de z = -1,25 o mayor de z = -1,25
NOVENO CASO:
Que z sea menor que -1,96 o mayor que 1,96
P(z < -1,96 o z > 1,96) = P(z < -1,96) = 0,5 - P(0 ≤ z ≤ 1,96) = 0,5000 -
0,4750 = 0,0250
P(z < - 1,96) = 0,5 - P(0 < z < 1,96) = 0,5000 - 0,4750 = 0,0250
P(z < -1,96 o z > 1,96) = Pz < -1,96) + P(z > 1,96) = 0,0250 + 0,0250 =
0,050
DÉCIMO CASO:
A la derecha de z = 2,06 y a la izquierda de z = -1,48
P(z > 2,06 o z < -1,48) = P(z > 2,06 o z > 1,48) = 1 - [P(z > 1,48) + P(z >
2,06)] = 1 - (0,4306 + 0,4803) = 1 - 0,9109 = 0,0891
P(z > 2,06 o z < -1,48) = 0,0891
Ejemplo 2
En una muestra de estudiantes de Ingeniería, se encuentra que la nota
promedio en Economía fue 12 puntos, con una desviación estándar igual a
2. ¿Cuál es la probabilidad de que un alumno elegido al azar tenga nota
entre 11 y 14?
Datos:
24
X = 12 s = 12
X1 = 11 X2 = 14
Estandarizando X
z1 = 11 - 12 = -0.5
2
z2 = 14 - 12 = 1.0
2
Ejemplo 3
La media de los sueldos de 600 empleados de una empresa es de 430
dólares y la desviación estándar o típica 40 dólares. Suponiendo que los
sueldos se distribuyen normalmente, hallar cuántos empleados tienen
sueldos:
a. Entre 350 y 450 dólares.
b. De 500 y más dólares.
c. Más de 500 dólares.
Solución
µ = 430 σ = 40
Ejemplo 4
25
P(X > 2,5) = P(z > 2,00) = 0,5000 - P(0 < z < 2,00) = 0,5000 - 0,4772 =
0,0228
Ejemplo 5
Los puntajes en un examen de selección para seguir estudios superiores
están distribuidos normalmente con media 76 y desviación estándar 15. Se
ha establecido que el 15% de los concursantes, que son los mejores
recibirán una beca integral de estudios, en tanto el 10% que se supone que
son los peores, definitivamente no podrán seguir estudios superiores.
Hallar:
a. El puntaje mínimo para ganar la beca.
b. El puntaje mínimo para seguir estudios superiores.
Sean:
µ = 76 σ = 15
26
Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.
Hay varias maneras en que podemos probar si una distribución observada tiene
aproximadamente la forma de una distribución normal. La manera que aquí presentaremos es
cruda y en gran medida subjetiva, pero definitivamente tiene la ventaja de que es muy fácil de
llevarse a cabo.
Para ilustrar esta técnica, refirámonos de nuevo a los datos de la emisión de óxidos de
azufre que se usaron en los primeros capítulos del libro. Primero convertimos las frecuencias
acumulativas de la tabla en porcentajes acumulativos dividiendo cada una entre 80, la
frecuencia total, y multiplicando después por 100. Esto nos da donde presentamos las fronteras
de clase en vez de los límites de la clase, aunque esto en realidad no tiene importancia a
menos que continuemos con el análisis como en el ejercicio 9.27.
Una vez que hemos trazado los porcentajes acumulativos de "menos de" como en la
figura 9.16, usamos el criterio siguiente:
Es evidente que "en gran medida" y "aproximadamente" no son términos muy precisos
pero al principio señalamos que ésta es una técnica cruda y en gran medida subjetiva, aunque
fácil de realizarse. El patrón más común en que la distribución se consideraría como "anormal"
es el patrón en que los puntos de la extrema derecha caen por debajo de la línea recta
determinada por el equilibrio de los puntos. En el ejercicio 13.88 se explica una manera más
rigurosa de verificar la "normalidad" de una distribución de datos observados.
Regresando a la figura 9.16, encontramos que todos los puntos están cerca de la línea
punteada y concluimos que la distribución de los datos de la emisión de óxidos de azufre tiene
aproximadamente la forma de una distribución normal. Nótese que en la figura 9.16 no
trazamos porcentajes acumulativos correspondientes a 4.95 y 32.95. Como lo indicamos,
nunca llegamos en realidad a 0 o 100% del área bajo una curva normal, no importa cuánto nos
retiremos de la media de cualquier dirección.
27
EJERCICIOS
• Use un papel de probabilidad normal para verificar si la distribución del ejercicio 2.25 que
trata sobre los números de clientes a los que un restaurante sirve de almorzar en 120
días laborales, tiene aproximadamente la forma de una distribución normal.
• Use un papel de probabilidad normal para verificar si la distribución del ejercicio 4.33,
que trata sobre la extensión de los períodos de descompostura de cierta máquina,
aproximadamente tiene la forma de una distribución normal.
Tiempo Número de
(minutos) personas
24 o menos 15
25 - 29 50
30 - 34 75
35 - 39 40
40 - 44 15
45 o más 5
Fuente:
FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.
Prentice-Hall
En relación con la pregunta que hicimos al inicio de este capítulo, aquí enfrentamos un
análisis de la varianza. La figura 16.1 ilustra lo que queremos decir. Como se puede apreciar a
partir del diagrama, la desviación de un valor observado de y de la media de todas las y's, y - y,
se puede expresar como una suma de dos partes. La primera parte es la desviación de y (el
valor de la línea correspondiente a un valor observado de x) de la media de todas las y's, y - y;
la segunda parte es la desviación del valor observado de y del valor correspondiente de la
línea, y - y. simbólicamente, expresamos que
y - y = (y - y) + (y - y)
para cualquier valor observado y, y si elevamos al cuadrado las expresiones de ambos lados
de esta igualdad y sumamos el total de n valores de y, encontramos que las simplificaciones
algebraicas llevan a
La cantidad del lado izquierdo mide la variación total de las y's y la conocemos como la
suma total de cuadrados; nótese que ∑ (y - y)² es sólo la varianza de las y's multiplicada por n-
1. La primera de las dos sumas de la derecha, ∑ (y - y)², se conoce como la suma de
cuadrados de regresión y mide la parte de la variación total de las y's que se puede atribuir a la
relación entre la dos variables x e y; de hecho, si todos los puntos caen en la línea de mínimos
cuadrados, entonces y = y y la suma de cuadrados de regresión equivale a la suma de
cuadrados. En la práctica, ésta es difícilmente la situación, si acaso se da, y el hecho de que
todos los puntos no caigan en la línea de mínimos cuadrados es un indicio de que existen otros
factores distintos que las diferencias entre las x's que afectan los valores de y. Se acostumbra
combinar todos estos factores bajo el término general de "probabilidad". Así, la variación de la
probabilidad se mide por medio de las cantidades por las que los puntos se desvían de la línea;
específicamente, ésta se mide mediante ∑ (y - y )², conocida como la suma residual de
cuadrados, que es el segundo de los componentes en que dividimos la suma total de
cuadrados.
Para determinar estas sumas de cuadrados para el ejemplo del examen de dominio del
idioma de ciertos solicitantes de trabajo en el servicio exterior, podríamos sustituir los valores
de y, y, y los valores de y sustituyendo las x's en y = 31.55 + 10.90x, pero existen
simplificaciones. Primero, para ∑ (y - y)² tenemos la fórmula de cálculo
y en la página 437 demostramos que equivale a 1,504.1 para nuestro ejemplo. En segundo
lugar, ∑ (y - y )² es la cantidad que redujimos al mínimo por medio del método de los mínimos
cuadrados y la cual aparece en el numerador de la fórmula para s e. Copiando el numerador de
su fórmula de cálculo de la página 436, obtenemos
(S yy )²
∑ ( y - y)² ]= Syy -
S xx
∑ ( y - y)² = ∑ (y - y)² - ∑ (y - y )²
(S xy )²
= Syy -
S yy -
S xx
(S xy )²
=
S xx
Es interesante observar que todas las cantidades que hemos calculado aquí se podrían
haber obtenido directamente de la impresión por computadora de la figura 15.5 de la página
430. Bajo ANÁLISIS DE LA VARIANZA, en la columna clasificada como suma de cuadrados,
encontramos que la suma total de cuadrados es 1,504.1, la suma residual de cuadrados es
255.5 y la suma de cuadrados de regresión es 1,248.6. Las diferencias entre estos valores y los
anteriores evidentemente son consecuencia del redondeo.
r= 0.83 = 0.91
Dado que parte de la variación de las y's no puede exceder su variación total, ∑ (y - y
)² no puede ser mayor que ∑ (y - y)², y a partir de la fórmula que define r se deriva que los
coeficientes de correlación deben caer en el intervalo de -1 a +1. Si todos los puntos en
realidad caen en una línea recta, la suma residual de cuadrados, ∑ (y - y )², es cero, ∑ ( y -
y)² = ∑ (y - y)², y el valor resultante de r, -1 o +1, es un indicio de un ajuste perfecto. No
obstante, si la dispersión de los puntos es tal que la línea de mínimos cuadrados es una línea
horizontal que coincide con y (es decir, una línea con una pendiente 0 que intersecta el eje de
las y's en a = y), entonces ∑ (y - ŷ )² equivale a ∑ (y - y)² y r = 0. En ese caso, la variación de
las y's no se puede atribuir en lo absoluto a su relación con x, y el ajuste es tan deficiente que
30
Calcule r.
Solución
Calculando primero las sumas necesarias, obtenemos ∑ x = 850, ∑ x² = 65,230 ∑ y =
927, ∑ y² = 74,883 y ∑ xy = 69,453. Entonces, sustituyendo estos valores junto con n = 12 en
las formulas para Sxx, Syy, Sxy y finalmente r, encontramos que
3,790.5
r= = 0.935
(5,021.67) (3,272.25)
2.14. LA INTERPRETACIÓN DE r
S 2xy
r² =
S xx . S yy
S xy
r=
S xx . S yy
y
Sxy = ∑ xy - 1/n (∑ x)(∑ y)
31
EJEMPLO
Las siguientes son las calificaciones que 12 estudiantes obtuvieron en los exámenes
finales de economía y antropología:
Economía Antropología
51 74
68 70
72 88
97 93
55 67
73 73
95 99
74 73
20 33
91 91
75 80
80 86
Por sí misma, ésta es una importante medida de la relación entre dos variables. Por
otro lado, permite comparaciones válidas de las fuerzas de varias relaciones. Por ejemplo si r =
0.80 es un estudio y r = 0.40 en otro estudio, sería incorrecto señalar que la correlación 0.80 es
"dos veces tan buena" o "dos veces tan fuerte" como la correlación 0.40. Cuando r = 0.80,
entonces 100(0.80)² = 64% de la variación de las y se atribuye a la relación con x y cuando r =
0.40, sólo 100(0.40)² = 16% de la variación de las y se atribuye a la relación con x. Por tanto,
en el sentido del "porcentaje de variación que se atribuye a" podemos decir que la correlación
0.80 es cuatro veces tan fuerte como la correlación 0.40. Del mismo modo, decimos que una
relación para la cual r = 0.60 es nueve veces tan fuerte como una relación para la que r = 0.20.
Si se calcular r en forma indiscriminada, por ejemplo, para los tres conjuntos de datos
de la figura 16.3, obtenemos r = 0.75 en cada caso, pero ésta es una medida significativa de la
fuerza de la relación sólo en el primer caso. En el segundo caso hay una relación curvilínea
muy fuerte entre las dos variables y en el tercer caso seis de los siete puntos en realidad caen
en la línea recta, pero el séptimo punto está tan alejado, que sugiere la posibilidad de un grave
error de cálculo o un error en el registro de los datos. Así, antes de calcular r debemos ilustrar
los datos para verificar si hay algún motivo para pensar que la relación es, de hecho, lineal.
Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.
ii) Cuando se tiene datos observados en dos características que se pueden contar o
medir objetivamente, cuyos valores se expresan en números naturales racionales y en
sus propias unidades, pero se advierte o se deduce que entre las dos variables hay
una relación de orden. Entonces, de acuerdo a la magnitud o valor es posible pasar de
los datos originales (números cardinales) a valores ordinales o rangos 1,2,3,...,n. Por
ejemplo, si los datos observados para 5 regiones son el porcentaje de población rural
(X) y el nivel de educativo promedio (Y) que se expresan en números cardinales,
entonces según sus valores es posible ordenarlos, como se indican a continuación:
aquí interesa analizar si existe relación entre la proporción de población rural y el nivel
educativo; por lógica se esperaría una relación inversa, como podría comprobarse
cuando el lector calcule el coeficiente de correlación por rangos, puesto que los niveles
educativos son más bajos en poblaciones rurales.
iii) Para analizar el grado de habilidad de una persona, para determinar la ordenación
correcta de "n" individuos u objetos de acuerdo a la intensidad de una característica.
Por ejemplo, presentar 6 objetos de la misma forma y de pesos ligeramente diferentes,
luego someter a una persona a la prueba de ordenar en dos oportunidades los objetos
según sus pesos, de mayor a menor peso, al final es probable que las dos
ordenaciones tengan alguna variación, que se analiza por el Coeficiente de correlación
por rangos (ρ ), cuyo valor indicará la habilidad de la persona para este trabajo de
ordenación.
33
n
6 ∑ d12
ρ =1- i =1
n (n² - 1)
B. PROPIEDADES DE ρ :
-1 ≤ ρ ≤ + 1
de donde:
Si ρ = +1, entonces ambas ordenaciones o calificaciones son
coincidentes.
Si ρ = -1, entonces ambas ordenaciones o calificaciones son
perfectamente contrarias, discrepantes o de ordenación
inversa.
Si ρ = 0, significa que ambas correlaciones no tienen ninguna relación.
Fuente:
CORTADA, N. & CARRO, M. (1978) Estadística Aplicada. Buenos Aires. EUDEBA
Proporciona una medida de la relación que puede haber entre una variable continua y
una varia dicotomizada que se supone discreta o discontinua. Los datos se ordenan en una
distribución de frecuencia y toman la forman de una tabla de R hileras y 2 columna. Por
ejemplo las variables pueden ser puntajes en un test cualquiera y la variable dicotómica puede
ser hombres, mujeres, estudiantes secundarios universitarios, niños que miren o no televisión,
argentinos - extranjeros, etc. En la práctica la correlación biserial por puntos también se usa
mucho cuando la variable subyacente a la dicotomía es también una variable continua de
alguna aptitud, dicotomizada arbitrariamente. Este es el caso por ejemplo del coeficiente
biserial por puntos usado en el análisis de ítem de un test cuando se interpreta que la aptitud
para resolver un ítem es una variable continua pero se establece la dicotomía convencional de
"acierto" o "desacierto". También así pueden considerarse el éxito o fracaso de una ocupación,
es decir como la dicotomía de una variable continua que se extiende desde un logro acabado
hasta un fracaso rotundo.
La correlación biserial por puntos (o puntual como algunos dicen) es una correlación
por el producto de los momentos para un caso particular en que asignamos a los individuos un
1 en una categoría y un 0 en la otra. También podríamos darle otros valores que no fueran 1 y
0 es decir le podríamos asignar otros pesos a estos valores, pero el coeficiente no depende de
los pesos asignados.
La fórmula es:
rpbi = Xp - Xq pq
st
en donde,
Cuando los datos están agrupados en una distribución de frecuencias, es más útil la
fórmula siguiente:
p
rpbi = Xp - Xt
q
st
en donde,
Xt = media de todos los puntajes de la variable continua. Sea por ejemplo el cuadro 10.16,
en cuyos datos se estudian la correlación entre los puntajes totales de un test y el
"éxito" o "fracaso" en resolver un ítem particular (situación muy común en el análisis de
los ítem).
35
CUADRO 10.16
bc
rcos π = cos π
ad + bc
Como a los fines del cálculo π puede considerarse igual a 180 grados, la
forma de la ecuación es:
180 °bc
rcos π = cos
ad + bc
p = 46/100 . 0,46
q = 54/100 = 0,54
Xt = Z + ftx' i = 54,5 + -103 10 = 44,20
N 100
2
437 - 103
st = 10 - = 18,19
100 100
0,54
rpbi = 55,43 - 44,20 . = 0,667
0,46
18,19
N - 2
t = rpbi 2
1 - rpbi
cos = OQ
OP
Por este método siempre que el ángulo resultante varía entre 90° y 180° la
correlación es negativa. Como los ángulos mayores de 90 grados no suelen
hallarse en las tablas trigonométricas comunes para los ángulos mayores de
37
2.16.2. Significación de la rt
pp' qq'
srt =
yy' N
180 °
rcos = π = cos
ad
1 +
bc
CUADRO 10.17
Pregunta 1
Si No Tot. Prop.
P Sí 374 169 541 .582 (p)
r (a) (b)
e 186 203 389 .418 (q)
g. No (c) (d)
Preguta 2
Fuente:
ALARCON, R. (1991). Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia.
2.17. VALIDEZ
¿Hasta qué punto podemos tener seguridad que hemos medido el atributo que
pretendíamos medir? Si nuestro propósito fue determinar el peso de un objeto y llevado a la
balanza arroja 10 kg., podemos afirmar que el objeto pesa 10 kg. La misma afirmación plena
podemos hacer cuando medimos algún atributo físico de los individuos. No habrá reparos sobre
las medidas tomadas de la talla, el peso y la temperatura de una persona. Los instrumentos de
medición que se utilizan (metro, balanza y termómetro) guardan íntima relación con el atributo
que se mide; es decir, son apropiados para medir aquellas dimensiones.
Empero, si el propósito fue medir alguna variable psicológica, v.g., neuroticismo y para
ello utilizamos el test "N" de neuroticismo, la seguridad respecto del resultado no es tan plena
como en el caso de la medición de las propiedades físicas, no obstante que el test lleva el
nombre del rasgo por medir. La denominación de un test no es una razón suficiente de
seguridad. El problema es de congruencia entre el instrumento de medida y la propiedad
medible, vale decir, que el test mida realmente la conducta que se propone medir. El concepto
de validez conlleva, en efecto, la idea de correspondencia entre el instrumento de medida y la
propiedad que se mide. De manera que, un test será válido si mide el atributo para el cual fue
construido. El test de "neuroticismo", que nos sirve de ejemplo, será válido si mide la conducta
neurótica, y no otra. Obsérvese que la validez es un concepto específico, en el sentido de que
un test que presenta esta cualidad puede ser altamente válido como instrumento de medición
de una determinada conducta y solamente de ella.
40
Fuente:
HERNANDEZ R. (1991) Metodología de la Investigación. México
D.F. McGRAW-HILL
Lectura 13: Qué requisitos debe cubrir un instrumento de medición? (Debate en clase)
pp. 242-263
Toda medición o instrumento de recolección de los datos debe reunir dos requisitos
esenciales: confiabilidad y validez. La confiabilidad de un instrumento de medición se refiere al
grado en que su aplicación repetida al mismo sujeto u objeto, produce iguales resultados. Por
ejemplo, si yo midiera en este momento la temperatura ambiental mediante un termómetro y
me indicara que hay 22°C. Un minuto más tarde consultara otra vez y el termómetro me
indicara que hay 5°C. Tres minutos después observara el termómetro y ahora me indicara que
hay 40°C. Este termómetro no sería confiable (su aplicación repetida produce resultados
distintos). Igualmente, si una prueba de inteligencia la aplico hoy a un grupo de personas y me
proporciona ciertos valores de inteligencia; la aplico un mes después y me proporciona valores
diferentes, al igual que en subsecuentes mediciones. Esa prueba no es confiable (analícense
los valores de la figura 9.1 suponiendo que los coeficientes de inteligencia puedan oscilar entre
95 y 150). Los resultados no son consistentes, no se puede "confiar" en ellos.
Figura 91.
Un instrumento de medición debe contener representados a todos los items del dominio
de contenido de las variables a medir. Este hecho se ilustra en la figura 9.2.
Por ejemplo, supongamos que un investigador desea evaluar la validez del constructo de
una medición particular, digamos una escala de motivación intrínseca "el Cuestionario de
Reacción a Tareas", versión mexicana (Hernández - Sampieri Cortés, 1982). Estos
autores sostienen que el nivel de motivación intrínseca hacia una tarea está relacionado
positivamente con el grado de persistencia adicional en el desarrollo de la tarea (v.g., los
empleados con mayor motivación intrínseca son los que suelen quedarse más tiempo
adicional una vez que concluye su jornada). Consecuentemente, la predicción teórica es
que a mayor motivación intrínseca, mayor persistencia adicional en la tarea. El
investigador administra dicho cuestionario de motivación intrínseca a un grupo de
trabajadores y también determina su persistencia en el trabajo. ambas mediciones son
correlacionadas. Si la correlación o positiva y sustancia, se aporta evidencia para la
validez de constructo del Cuestionario de Reacción a Tareas, versión mexicana (a la
validez para medir la motivación intrínseca).
a. Se establece y específica la relación teórica entre los conceptos (sobre la base del
marco teórico).
b. Se correlacionan ambos conceptos y se analiza cuidadosamente la correlación.
42
Un cuarto factor que puede influir está constituido por las condiciones en las que se
aplica el instrumento de medición. Si hay ruido, hace mucho frío (por ejemplo en una encuesta
de casa en casa), el instrumento es demasiado largo o tedioso, son cuestiones que pueden
afectar negativamente la validez y la confiabilidad. Normalmente en los experimentos se puede
contar con instrumentos de medición más largos y complejos que en los diseños no
experimentales. Por ejemplo, en una encuesta pública sería muy difícil poder aplicar una
prueba largo o compleja.
Por otra parte, aspectos mecánicos tales como que si el instrumento es escrito, no se
lean bien las instrucciones, falten páginas, no haya espacio adecuado par contestar, no se
comprendan las instrucciones, también pueden influir de manera negativa.
Donde "X" representa los valores observados (resultados disponibles), "t" son los
valores verdaderos y "e" es el grado de error en la medición. Si no hay error de medición ("e"
es igual a cero), el valor observado y el verdadero son equivalentes. Esto puede verse
claramente así:
X=t+0
X=t
Esta situación representa el ideal de la medición. Entre mayor sea el error al medir, el
valor que observamos (y que es en el que nos basamos) se aleja más el valor real o verdadero.
Por ejemplo, si medimos la motivación de un individuo y esta medición está contaminada por
un grado de error considerable, la motivación registrada por el instrumento será bastante
diferente de la motivación real que tiene ese individuo. Por ello es importante que el error sea
reducido lo más posible. Pero, ¿cómo sabemos el grado de error que tenemos en una
medición? Calculando la confiabilidad y validez.
CALCULO DE LA CONFIABILIDAD
FIGURA 9.4.
44
CONFIABILIDAD
0
0% de confiabilidad en 100% de
la medición la confiabilidad en
medición (la medición la medición (no
está contaminada de hay error)
error)
4. Coeficiente alfa de Cronbach. Este coeficiente desarrollado por J.L. Cronbach requiere
una sola administración del instrumento de medición y produce valores que oscilan entre
0 y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los items del
instrumento de medición, simplemente se aplica la medición y se calcula el coeficiente.
45
CALCULO DE LA VALIDEZ
Medición
Correlación
Criterio
Fuente:
ALARCON, R. (1991) Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia
2.20. CONFIABILIDAD
PASOS
Validez de contenido
Una prueba posee "validez de contenido" cuando los items que la integran constituyen
una muestra representativa de los indicadores de la propiedad que se mide. Dicho en otros
términos, que el test sea un adecuado muestreo del contenido que se examina. Por ejemplo, la
validez de contenido de un test de rendimiento escolar podrá determinarse analizando la
correspondencia de sus items guardan con los temas que cubre la asignación. La prueba
deberá reflejar el énfasis que el programa escolar otorga a ciertos temas, así como a los
objetivos instrumentales que el currículum persigue. Obviamente, la prueba carecerá de validez
de contenido si excluye algunos puntos programáticos o sus items reflejan un muestreo
inadecuado de los conocimientos y destrezas que se han propuesto como objetivos.
Para asegurar que un test constituye un buen muestreo del universo de asuntos que se
pretende examinar, los constructores de tests educacionales utilizan tablas de especificaciones,
48
en las cuales se indican expresamente el número de items que se tendrá que elaborar para
examinar los "contenidos" de la asignatura y los "objetivos" de aprendizaje que se persiguen.
Estas especificaciones son precedidas por un estudio minucioso del universo del contenido y
de las conductas que el proceso de enseñaza-aprendizaje se ha propuesto desarrollar. Un test
educacional evalúa ambos objetivos.
La "validez relacionada con criterio" se define por la eficacia de un test para predecir
una conducta en situaciones específicas. Para determinar este tipo de validez se requiere
comparar los puntajes obtenidos en el test con un "criterio externo", que evalúe por otros
medios el rasgo que el test pretende medir. El grado de relación entre el test y el criterio se
determina mediante el cálculo de coeficientes de correlación. Una alta correlación anunciará
una elevada correspondencia entre el test y el criterio y, por tanto, una significativa validez del
instrumento; mutatis mutandis, la baja correlación indicará pobre validez del test. Lo que busca
la validez de criterio es probar la eficacia del test confrontando sus resultados con la actuación
del sujeto en la experiencia real. Un tests de aptitud académica posee validez cuando los
postulantes que obtuvieron altos puntajes en el examen de selección, obtienen altas notas en
sus estudios universitarios.
fuentes de información son obtenidas al mismo tiempo. Entre los criterios externos para
determinar la validez concurrente se utilizan los procedimiento que más abajo se indican.
Esta técnica de validación asume que la propiedad medida por el test debe
destacarse en un grupo característico de sujetos, para considerar válida la
prueba. Los grupos que sirven para establecer las comparaciones son
seleccionados en atención a diversos puntos de vista. Para determinar la validez
de un test de aptitud para ingeniería, se administra a un grupo de estudiantes de
esta carrera. Grupos ocupacionales definidos han servido de base para
establecer la validez de pruebas de intereses vocacionales y de aptitudes
específicas. Las pruebas de personalidad son a menudo validadas en
instituciones para enfermos mentales, comparando los resultados obtenidos por
sujetos normales y pacientes. Un test construido para medir rasgos neuróticos,
al aplicarlo a un grupo de sujetos neuróticos, clínicamente diagnosticados, se
espera que obtengan puntajes altos; al administrar el mismo test a sujetos
sindicados normales, se esperará que las puntuaciones sean bajas. En el
desarrollo de pruebas de personalidad el diagnóstico psiquiátrico es usado con
frecuencia de base para la selección de los items del test y como una evidencia
de su validez.
Un alto grado de correlación entre dos o más pruebas indican que el nuevo test
está basado en la misma concepción teórica que su antecesor, la cual es
comprobada por el nuevo instrumento. Pero si se desea mejorar y refinar las
formulaciones teóricas sobre una conducta, la técnica de validación con un test
acreditado, no ayuda en nada y más bien significa una limitación para el
desarrollo de nuevos instrumentos. El procedimiento llevará a la uniformidad y
seguridad del nuevo test, pero no al mejoramiento de los instrumentos de
medida. Debido a estos reparos, cuando se emplea esta técnica de validación,
se espera que la correlación entre el test nuevo y el test-criterio debe ser
moderada. De obtenerse una correlación muy alta el nuevo test puede
considerársele una duplicación del test antiguo.
51
Validez de constructo
Esta técnica de validación fue examinada páginas atrás, con la observación de que una
alta correlación entre el test-criterio y el nuevo test significaba que los dos test medían
lo mismo y que en nada contribuía al desarrollo de nuevos instrumentos para medir un
atributo psicológico. Esta argumentación pierde valor cuando se utiliza dicho
procedimiento para establecer la validez de constructo. En efecto, es altamente
recomendable cuando se busca validar un test que se apoya en la misma formulación
teórica del test-criterio. La validez de construcción del "Test de Dominós" de Anstey, se
verificó correlacionándolo con el "Test de Matrices Progresivas" de Raven. Ambas
pruebas fueron elaboradas para medir el factor "g", según la teoría bifactorial de
Spearman. El test de Raven había logrado una alta saturación de "g" (0.82) y una
mínima contaminación de factores específicos. Entre ambos tests se han encontrado
correlaciones importantes (Baines, r = 0.70; Risso, r = 0.55). Las pruebas convergen
hacia un mismo objetivo, medir el factor "g".
test, hipotetizándose la dirección de la diferencia. Por ejemplo, para validar una prueba
de "conservadurismo" político, podría escogerse un grupo de personas conocidas como
conservadoras y otro grupo conocido como no conservadoras. Los puntajes obtenidos
por los dos grupos deberán presentar diferencias altamente significativas, de acuerdo a
las hipótesis sustentada.
La correlación de cada ítem con el puntaje total del test y los diversos subtests con el
puntaje total de la prueba, es un procedimiento que ofrece información respecto a la
consistencia interna del test, por lo que su contribución es limitada respecto a la teoría
en que se funda la prueba. De obtenerse correlaciones elevadas entre cada ítem y el
puntal total se infiere que los reactivos miden el mismo atributo. En el proceso de
validación se desechan los items que tienen bajas correlaciones con el test íntegro,
puesto que indican que el ítem no mide algún indicador del atributo considerado.
Fiske. La matriz contienen las correlaciones hipotéticas obtenidas de medir tres rasgos
diferentes (A, B y C), con tres métodos distintos (1, 2, 3). El cuadro se puede dividir en
cuatro regiones de la matriz. Los coeficientes de confiabilidad (mismo método-mismo
rasgo), figuran entre paréntesis en la diagonal principal. Los coeficientes de validez
(mismo rasgo-métodos distintos) figuran en cursiva en las diagonales restantes. Los
triángulos en línea continua contienen en su interior los coeficientes de correlación que
corresponden al mismo método y a distintos rasgos. Los triángulos de guiones
contienen los coeficientes de correlación que corresponden a métodos distintos-rasgos
distintos.
54
Fuente:
ALARCON, R. (1991) Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia.
i) El método de mitades
1 1
2 r
2 2
rtt =
1 1
1 +
2 2
1 1
En la fórmula, rtt es la confiabilidad estimada para el test completo y r es la
2 2
correlación entre las dos mitades del test. Si deseáramos determinar el coeficiente de
55
consistencia interna de un test cuyo coeficiente entre las dos mitades es de r = 0.80, el
resultado aplicando la fórmula (12.1), será el siguiente:
2 (0.80)
rtt = = 0.89
1 + 0.80
Para estimar la consistencia interna de los itemas, Kuder & Richardson han elaborado
varias formulas, de ellas la Fórmula 20 (KR 20) es la más utilizada. Su cálculo requiere
de una sola administración del test; se basa en el examen de las respuestas correctas-
fracasos para cada ítem (los items se clasifican con 1 y cero) y de la desviación
estándar de los puntajes.
56
Fuente:
AVILA, R. (1998) Estadística Elemental. Lima. Estudios y
Ediciones R.A.
Y* = a + b X
n
Φ = ∑ (Y
i =1
i - Yi *)²
donde:
Yi : es un valor observado o dato (nube de puntos)
Y*i : es un valor calculado por la ecuación de regresión Y* = a + bX, en este caso.
n: es el número de observaciones (X,Y)
Φ = ∑ (Yi - a - bX)²
minimizar significa derivar M respecto a cada uno de los parámetros "a" y "b"; este es un caso
de derivación parcial. Obtenidas de las derivadas parciales se igual a cero, es decir:
∂Φ =0 y ∂Φ =0
∂a ∂b
significa entonces:
de donde:
(1) ∑ (Y - a - bX) = 0
∑ Y = an + b ∑ X
∑ XY = a ∑ X + b ∑ X²
57
∑ Y = an + b ∑ X
∑ XY = a ∑ X + b ∑ X²
Y = a + bx + e
Ejemplo 1
Supongamos que se quiere estimar la relación entre ingreso y consumo, para el efecto se eligió
una muestra e 6 familias.
Los valores de a y b pueden calcular utilizando cualquiera de los tres siguientes métodos.
∑ Y = an + b ∑ X
∑ XY = a ∑ X + b ∑ X²
Cuadro Nº 7.01
INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS
INGRESO CONSUMO XY X² Y²
X Y
35 30 1 050 1 225 900
40 35 1 400 1 600 1 225
38 30 1 140 1 444 900
55 50 2 750 3 025 2 500
42 35 1 470 1 764 1 225
60 50 3 000 3 600 2 500
270 230 10 810 12 658 9 250
∑X ∑Y ∑XY ∑X² ∑Y²
∑X ∑Y - ∑X ∑XY n ∑XY - ∑X ∑Y
a= b=
n ∑X² - ( ∑X) 2 n ∑X² - ( ∑X)²
reemplazando valores de las sumatorias:
Fuente:
AVILA, R. (1998) Estadística Elemental. Lima. Estudios y
Ediciones R.A.
En general, entre el valor Y y el estimado Y* existe una diferencia o sesgo, que puede
ser menor o mayor en el medida que los "n" puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.
∑ (Y - Y*)²
Syx = (Definición)
n
∑ (X - X*)²
Sxy =
n
Syx ≠ Sxy
Calcular el error estándar Syx a partir de la definición resulta muy laboriosa puesto que
se requiere conocer los valores estimados Y*, estos en la práctica no se calculan. Existe una
fórmula alternativa a partir de la definición, donde se sustituye el valor Y* = a + bX; después de
realizar las operaciones indicadas simplificaciones y factorizaciones, resulta:
∑ Y² - a ∑ Y - b ∑ XY
Syx =
n
∑ Y² - a ∑ Y - b ∑ XY
Syx² =
n
que se denomina la VARIANZA RESIDUAL DE Y SOBRE X.
∑ Y² - a ∑ Y - b ∑ XY
Syx2 =
n
Syx² = 3654 - (-18.363)(216)-(0.876)(8658) = 2.4
15
Con este valor se puede construir intervalos de confianza para Y dado un valor de X.
Por ejemplo el intervalo y* ± Syx = y* ± 1,55 donde los extremos son (Y* - 1,55; Y* + 1.55).
Nota 1. Considerando que las funciones de regresión son modelos que se obtienen a partir de
la muestra representativa, entonces la función de regresión no es única para una determinada
población.
S 2y *
r=
S 2y
donde:
S²y* = varianza explicada, o sea aquella parte de la varianza total de Y explicada por la línea
de regresión.
S²y = varianza total, o sea aquella que corresponde a los valores observados de Y.
definidos como:
luego:
S 2y *
r= como S²y* = S²y - S²yx
S 2y
S 2y - S 2yx S 2yx
reemplazando: r = = 1-
S 2y S 2y
que define la expresión para calcular el "coeficiente de correlación", en la fórmula se sabe que:
∑ Y² - a ∑ Y - b ∑ XY
S²yx =
n
2
∑ Y² ∑Y
S²y = -
n n
que pueden calcularse de forma separada y luego reemplazarse en la fórmula.
62
2.28. PROPIEDADES DE r:
-1 ≤ r ≤ + 1