Sunteți pe pagina 1din 62

1

FACULTAD DE CIENCIAS DE LA COMUNICACIÓN,


TURISMO Y DE PSICOLOGÍA

ESCUELA PROFESIONAL DE PSICOLOGÍA

MANUAL DEL CURSO

ESTADISTICA DESCRIPTIVA

III CICLO SEMESTRE 2005-II

ELABORADO POR:
EULALIA CALVO BUSTAMANTE

Centro de Producción de Material didáctico para uso


Documentos de la Universidad Particular exclusivo en clase
de San Martín de Porres
2

Fuente:
FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.
Prentice-Hall

Lectura 01: Introducción a la Estadística, pp. 2-5

La materia de la estadística puede presentarse en diferentes niveles de la dificultad


matemática y puede estar dirigida hacia aplicaciones en distintos campos de la investigación.
De acuerdo con esto, se han escrito muchos libros de texto sobre estadística empresarial,
estadística educativa, estadística médica, estadística psicológica, e inclusive sobre estadística
para historiadores. Si bien los problemas que surgen en estas distintas disciplinas en ocasiones
requerirán de técnicas estadísticas especiales, ninguno de los métodos básicos que se
analizan en este libro está limitado a un campo de aplicación en particular. De la misma forma
en que 2 + 2 = 4 sin importar si lo que sumamos son dólares, caballos o árboles, los métodos
que presentaremos proporcionan modelos estadísticos que se aplican sin importar si los datos
coeficientes intelectuales, pagos de impuestos, tiempos de reacción, lecturas de la humedad,
evaluación de pruebas.

La recopilación, el proceso, la interpretación y la presentación de los datos numéricos


pertenece al dominio de la estadística. Estas tareas comprenden el cálculo de los promedios de
bateo de béisbol, la recopilación de los datos sobre nacimientos y muertes, la evaluación de la
efectividad de productos comerciales y el pronóstico del tiempo. La información estadística se
nos presenta constantemente en el radio y la televisión. Nuestro entusiasmo por los hechos
estadísticos se ve alentado por diarios nacionales, tales como The Wall Street Journal y USA
Today.

La palabra "estadística" se usa de varias maneras. Se puede referir no sólo a la simple


tabulación de información numérica, como en los informes de las transacciones bursátiles, sino
también al conjunto de técnicas que se utilizan en el procesamiento o el análisis de datos.

También el término "estadística" se usa de varias maneras. El términos se puede aplicar


a quienes simplemente recopilan información, así como a aquellos que elaboran análisis o
interpretaciones y también a los académicos que desarrollan la teoría matemática sobre la cual
se basa la estadística.

En las secciones 1.1 y 1.2 estudiamos el crecimiento reciente de la estadística y su


campo de aplicaciones siempre creciente. En la sección 1.3 explicamos la diferencia entre las
dos ramas principales de la estadística, la estadística descriptiva y la inferencia estadística y en
la sección 1.4, que es opcional, analizamos la naturaleza de las diversas clases de datos y en
relación con esto, advertimos al lector acerca del uso del tratamiento matemático
indiscriminado de los datos estadísticos.

1.1. EL CRECIMIENTO DE LA ESTADÍSTICA MODERNA

Hay varias razones por las que el alcance de la estadística y la necesidad de


estudiar la estadística han crecido de manera considerable en los últimos quince años
o algo así. Una razón es el planteamiento cuantitativo que se usa en forma creciente en
todas las ciencias, así como en los negocios y muchas otras actividades que afectan
nuestras vida de modo directo. Esto incluye el uso de técnicas matemáticas en la
evaluación de sistemas de control de emisión de contaminantes, la planificación de las
existencias, el análisis de los patrones del tránsito, el estudio de los efectos de varias
clases de medicamentos, la evaluación de técnicas de enseñanza, el análisis del
comportamiento competitivo de empresarios y gobiernos, el estudio de la dieta y la
longevidad y demás actividades pertinente. La disponibilidad de computadoras
poderosas ha incrementado en gran medida nuestra capacidad para manejar
información numérica. El costo de muchas computadoras también es accesible, de
modo que pequeñas empresas, estudiantes universitarios y aun bachilleres puedan
efectuar un trabajo estadístico sofisticado.
3

La otra razón es que la cantidad de datos que se recopila, procesa y difunde al


público por algún motivo se ha incrementado casi más allá de la comprensión y cada
quien debe determinar la parte "buena" y la parte "mala" de la estadística. Para actuar
como vigilantes, se requiere que cada vez más personas con cierto conocimiento
estadístico participen en forma activa en la recopilación y el análisis de los datos y lo
que es de igual importancia, en toda la planificación preliminar. Sin haber participado
en esta última actividad, es aterrador pensar en todos los aspectos que pueden
presentar problemas en la recopilación de datos estadísticos. Los resultados de
costosas encuestas pueden se inútiles si las preguntas son ambiguas o se formulan
erróneamente, si se formulan a las personas equivocadas, en el lugar o el momento
equivocado. Como lo ilustran los ejemplos siguientes, gran parte de esto consiste tan
sólo en el sentido común:

EJEMPLO

Para determinar la opinión del público acerca de la continuación de cierto programa


gubernamental, un entrevistador pregunta: "¿Piensa que este programa derrochador se
debería detener?" Explique por qué esta pregunta quizá no obtendrá la información
deseada.

Solución

De hecho, el entrevistador está "rogando por la pregunta" a sugerir que el programa


incurre en el dispendio.

EJEMPLO

Para estudiar la reacción de los consumidores en relación con un nuevo producto


alimenticio, se realiza una encuesta casa por casa todos los días durante las mañanas,
sin repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto
puede generar información equivocada.

Solución

Esta encuesta no llegará a aquellas personas que es más probable usen el producto:
solteros y parejas de casados en las que ambos trabajan.

1.2. ESTADÍSTICA DESCRIPTIVA E INFERENCIA ESTADÍSTICA

El origen de la estadística moderna se puede rastrear en dos áreas de interés


que, superficialmente, tienen muy poco en común: gobierno (ciencia política) y juegos
de azar.

Los gobiernos han hecho gran uso de los censos para contar personas y
propiedad, y el problema de describir, resumir y analizar los datos de los centros ha
llevado al desarrollo de los métodos que hasta hace poco constituían casi todo el
material disponible de la materia de estadística. Esto métodos, que en un principio
consistía sobre todo en la presentación de datos en forma de tablas y gráficas,
constituyen lo que ahora llamamos estadística descriptiva. Esta comprende cualquier
actividad relacionada con los datos y está diseñada para resumir o describir los mismos
sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá
de los datos, como tales. Por ejemplo, si las pruebas practicadas en seis automóviles
compactos, demostraran que pueden acelerar de 0 a 100 k/h en 18.7, 19.2, 16.2, 12.3,
17.5 y 13.9 segundos y reportáramos que la mitad de éstos aceleró de 0 a 100 k/h en
menos de 17.0 segundos.
4

Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.

Lectura 02: Técnicas de recolección de Datos, pp. 43-49

1.3. TÉCNICA DE RECOLECCIÓN DE DATOS

Las técnicas de recolección son diversas y dependen de: la naturaleza del


objeto de estudio, de las posibilidades de acceso o contacto con los elementos
investigados, del tamaño de la población o muestra, de los recursos y de la oportunidad
de obtener los datos. La técnica también está asociada al tipo y naturaleza de la fuente
de datos.

Entre las técnicas mas frecuentes se tiene:

1. La observación. 2. Técnica documental.


3. La entrevista. 4. El cuestionario.
5. La encuesta.

2.1.1. LA OBSERVACIÓN

La observación en el proceso de investigación es la acción de mirar con


rigor, en forma sistemática y profunda, con el interés de descubrir la
importancia de aquello que se observa. La observación es el método básico
que se utiliza para adquirir información acerca del mundo que nos rodea, y
por lo tanto, constituye la técnica primordial de la investigación científica. La
observación puede tener lugar en situaciones auténticas de la vida ordinaria
o también en el laboratorio.

Tipos de Observación

a. Según el lugar o ámbito donde se encuentran los datos, se tienen:

a.1. Observación documental, cuando los datos son recogidos en


manuscritos o impresos.

a.2. Observación de campo, que puede ser observación de


monumentos de campo y observación de conductas.

b. Según como se relaciona el investigador con el objeto de estudio;


como:

b.1. Observación directa, cuando el investigador puede recoger y


observar datos mediante su propia observación, obtener
información del comportamiento tal como ocurre.

b.2. Observación indirecta, cuando el investigador verifica los


datos que ha tomado de otros, aquí el investigador no está
presente en el momento de la ocurrencia del fenómeno.

b.3. Observación no participante, cuando el investigador extrae


sus datos, pero sin una participación en los acontecimientos de
la vida del grupo que estudia.

b.4. Observación participante o activa, cuando el investigador, de


una u otra manera, se introduce y actúa en el grupo observado,
de modo que se le acepta como miembro, y es identificado
como observador.
5

c. Según los medios utilizados, se tienen:

c.1. La observación no estructurada, asistemática y libre; aquí los


hechos se observan al natural, en forma espontánea, en el
momento mismo, que en muchas de las veces puede
sorprender al observador.

c.2. La observación estructurada, sistemática o regulada, aquí se


tiene un plan específico para la realización de las
observaciones, para lo cual se recurre al empleo de
instrumentos o guías para la recopilación de datos.

2.1.2. LA TÉCNICA DOCUMENTAL

La técnica documental es un tipo de observación que recopila o busca sus


datos en documentos, fuentes escritas o gráficas de todo tipo. En los
documentos se tienen:

a. Documentos académicos, constituidos por la bibliografía más


importante para conocer el estado del conocimiento de una ciencia.

b. Actas e informes, donde las actas son documentos que recogen lo


ocurrido en el momento mismo en que está pasando; en tanto que
los informes son documentos escritos después de ocurrido el
acontecimiento.

c. Documentos personales, como las autobiografías, diarios, cartas,


historias de vidas y estudios de casos.

d. Fotografías, planos, vídeos, etc.

2.1.3. LA ENTREVISTA

La entrevista es una situación de interrelación o diálogo entre personas, es


una técnica donde una persona llamada entrevistador, encuestador o
empadronador solicita al entrevistador, le proporciona algunos datos o
información. La entrevista es un diálogo intencionado entre personas. El
éxito de la entrevista como técnica de recolección, depende de la eficiencia
del trabajo del entrevistador.

La entrevista como técnica de recolección, presenta diversas modalidades,


como:

• La entrevista asistemática o libre.


• Entrevista estructurada, en la cual se precisa previamente los
puntos a interrogar, existe un libreto o cuestionario.
• Entrevista focalizada, donde la interrogación se centra
alrededor de un solo tema específico.
• Entrevista simultánea, cuando los entrevistados son varios al
mismo tiempo.
• Entrevista sucesiva, cuando son varias entrevistas, pero en
diversos momentos.

2.1.4. EL CUESTIONARIO

El cuestionario es un instrumento constituido por un conjunto de preguntas


sistemáticamente elaboradas, que se formulan al encuestado o
entrevistado, con el propósito de obtener los datos de las variables
6

consideradas en el estudio. Cuando las preguntas se organizan y se


imprimen, se obtiene en formulario o cédula, que es el instrumento que se
utiliza para registrar las respuestas o datos.

La elaboración del cuestionario requiere de un conocimiento previo del


fenómeno, tener precisado cuáles son las unidades de análisis y qué
aspectos interesa estudiar. El cuestionario debe ser adaptado a las
necesidades de la investigación y a las características del grupo que se
estudia. De aquí que su estructura y su forma deben estar cuidadosamente
elaboradas, la redacción de las preguntas requiere de una experiencia y
para comprobar su comprensión, es recomendable someter a prueba todo
tipo de cuestionario.

2.1.5. PREPARACIÓN DEL CUESTIONARIO Y FORMULARIO

La preparación y presentación del cuestionario suponer elaborar el


formulario, que es el diseño del documento donde se registran los datos
referentes a la unidad de investigación, permite obtener los datos para llenar
los cuadros estadísticos establecidos. Su preparación se efectúa durante la
fase del planeamiento de la encuesta, después de que están definidos
aquellos aspectos que son fundamentales para conseguir información de
buena calidad y fácil de procesar.

A. Criterios para preparar el cuestionario y el formulario


a. Objetivos de la investigación.
b. Sistemas de variables.
c. Características del informante.
d. Tiempo disponible para efectuar la recolección.
e. Técnica de recolección.
f. Procedimiento de elaboración.

B. Características formales del cuestionario y del formulario


a. Forma y tamaño del formulario.
b. Calidad del papel del formulario.
c. Tipo y color de impresión.
d. Tipo y archivo.

C. Formas y clases de preguntas


Vemos algunas clases de preguntas que se utilizan con mayor
frecuencia en la construcción de cuestionarios.
a. Preguntas abiertas, llamadas también ilimitadas, son aquellas
que el investigador responde con su propio vocabulario, sin
que se le ponga alguna alternativa, conjunto de palabras o
frases.

Ejemplo 2.1

• Describa brevemente las tareas que realiza en el cargo que


ocupa.
• Anote la temática de las revistas especializadas que usted
conoce.

b. Preguntas cerradas dicotómicas, aquellas que sólo pueden


responderse por un SI o NO, o simplemente cuando sólo tienen
dos alternativas.

Ejemplo 2.2

• ¿Sabe leer? SI ( )1 NO ( )2
• Sexo: Masculino ( )1 Femenino ( )2
7

• ¿Trabaja actualmente SI ( )1 NO ( )2
• ¿Está Ud. de acuerdo con el aborto? SI ( )1 NO ( )2

c. Preguntas cerradas de elección múltiple, son aquellos que


proponen un conjunto de alternativas en la respuesta.

Ejemplo 2.3

• Categoría Docente: Principal ( )1 Auxiliar ( )3


Asociado ( )2 Jefe de Práctica ( )4

• Edad: Menores de 20 años ( )1 De 40 a 49 años ( )4


De 20 a 29 años ( )2 De 50 años y más ( )5
De 30 a 39 años ( )3

• ¿A que se debe que seamos un país poco desarrollado?


1 ( ) Poco esfuerzo de sus habitantes.
2 ( ) Dominio de los países desarrollados.
3 ( ) Falta de conocimientos y tecnología.
4 ( ) Errores de los gobernantes.
5 ( ) Herencia colonial.
6 ( ) Otros.

• ¿Qué cosa buena para el país quisieras que ocurra en el siguiente año?
1 ( ) Más inversión y trabajo
2 ( ) Menos pobreza
3 ( ) Menos corrupción y delincuencia.
4 ( ) Aumento de salarios.
5 ( ) Mejora de la Educación

d. Preguntas literales, son preguntas abiertas cuyas respuestas


se expresan con una palabra o cantidad.

Ejemplo 2.4

• ¿Cuál es su estado civil?


• ¿Cuál es su ocupación actual?
• ¿Cuál es su ingreso total?
• Lugar de nacimiento.

e. Preguntas con respuesta en grados de intensidad, cuyas


respuestas indican un grado de intensidad dentro de una
escala creciente o decreciente, ascendente o descendente.
Hay un abanico cerrado, donde el encuestado tiene que elegir
una de las posibilidades.

Ejemplo 2.5

• La gestión del Rector de la Universidad, es:


Muy Buena ( ) Buena ( ) Regular ( )
Mala ( ) No Opina ( )

• ¿Está Ud. de acuerdo con la política económica del gobierno?


Muy de acuerdo ( ) De acuerdo ( )
En desacuerdo ( ) No responde ( )

D. Pautas para la redacción y el contenido de las preguntas

a. Incluir preguntas estrictamente necesarias para:


8

- Satisfacer los objetivos.


- Establecer controles de consistencia en las respuestas.
- Individualizar al informante.
b. Incluir preguntas para que el informante recuerde.
c. Evitar las preguntas que obliguen al informante a hacer
cálculos y pueda cometer errores.
d. Evitar palabras que provoquen diferentes interpretaciones.
e. Redactar en forma clara y directa.
f. La pregunta no debe sugerir respuestas.
g. Colocar primer las preguntas más simples y menos
confidenciales.

EJEMPLO DE UN FORMULARIO

Estudio: "PERFIL SOCIO ECONÓMICO Y ACADÉMICO DEL ESTUDIANTE


UNIVERSITARIO"

Esta encuesta es ESTRICTAMENTE CONFIDENCIAL, tiene como finalidad recolectar


datos sobre aspectos socio económicos, familiares y académicos del estudiante a fin de
disponer de un marco de referencia, por tanto, agradecemos responder con la mayor sinceridad
y seriedad, COLOQUE UNA X EN EL PARÉNTESIS DE SU RESPUESTA.

CÓDIGO o MATRICULA: AÑO O CICLO:


Especialidad:

I. DATOS GENERALES
2.1. SEXO: 2.2. EDAD en años: 2.3. En qué distrito vive o
Hombre ( )1 Fecha de nacimiento: reside actualmente?
Mujer ( )2
2.4. LUGAR DE NACIMIENTO: 2.5. ESTADO CIVIL:
Provincia: Soltero ( ) 1 Casado ( )2
Departamento: Viudo ( )3 Divorciado ( )4
Conviviente ( )5 Separado ( )6

II. ANTECEDENTES EDUCATIVOS DE LA SECUNDARIA


2.1. En que colegio terminó la Educación 2.2. Donde está ubicado su Colegio?
Secundaria? Distrito:
Estatal ( )1 No Estatal ( )2 Provincia:
2.3. Cuándo (fecha) terminó la Educación 2.4. Que año repitió alguna vez?
Secundaria? (1) (2) (3) (4) (5)

2.5. Qué asignaturas le agradaban o tenían 2.6. Qué asignaturas le desaprobó alguna vez
más éxito en la Secundaria? en la Secundaria?
1. 1.
2. 2.
3. 3.
4. 4.
5. 5.
2.7. Está Ud. siguiendo la PROFESIÓN que pensó estudiar? SI ( )1 NO ( )2
Qué carrera profesional le gustaría seguir? ....................................................................

III. ANTECEDENTES ECONÓMICOS DEL ESTUDIANTE


3.1. Trabaja actualmente en algo? 3.2. Qué hace o qué cargo desempeña?
SI ( )
Dónde? .................................................. 3.4. SI NO TRABAJA, de quién depende
económicamente?
3.3. SI TRABAJA en algo ¿En cuánto estima
sus ingresos mensuales? (US $)
9

( ) 1 Menos de 50 ( ) 4 de 151 a 200 3.5. Cuándo (año) empezó a trabajar por


( ) 2 de 51 a 100 ( ) 5 de 201 a 300 primera vez?
( ) 3 de 101 a 150 ( ) 6 Más de 300

2.1.6. LA ENCUESTA

La encuesta o investigación estadística es una técnica de recolección de


datos, donde se obtiene la información tal como se necesita, preparada
exprofesamente y con objetivo estadístico. Permite observar y registrar
características en las unidades de análisis de una determinada población o
muestra, delimitada en el tiempo y en el espacio. En toda encuesta se hace
uso de un cuestionario, cuyas respuestas se registran en el formulario o
cédula.

Cuando una encuesta está dirigida a la totalidad de elementos de una


población, se llama Censo; en tanto, cuando está dirigida a una parte
representativa; muestra de una población, se llama Encuesta por muestreo.
La selección de la muestra requiere de técnicas especiales que se analizan
en los cursos de muestreo.

Hay cuatro maneras de obtener los datos y la información con la Técnica de


la Encuesta:

a. Con una entrevista o diálogo con el encuestado basado en un


cuestionario, cuyos datos terminada la entrevista se registran en una
libreta de notas.

b. Por empadronamiento, donde el empadronador pregunta o encuesta al


empadronado y registra los datos en el formulario.

c. Por correo, cuando se envían los formularios por correo al domicilio del
empadronado o unidad de análisis.

d. Por teléfono o fax, cuando las preguntas se formulan telefónicamente.

Nota 1. La redacción de preguntas deben ser claras, sencillas y


comprensibles, diseñadas para obtener el dato o respuesta esperada a las
variables consideradas en la investigación. Sólo debe incluirse preguntas
que están asociadas a los objetivos y propósitos del estudio.

Nota 2. Las variables, el cuestionario y el formulario deben ser evaluados


antes de su aplicación. Por ejemplo trabajar con una Matriz de Formulación
y Evaluación del Cuestionario, así como en la Encuesta Experimental.
10

Fuente:
AVILA, R. (1998) Estadística Elemental. Lima Estudios y
Ediciones R.A.

Lectura 03: Estadígrafos de Posición, pp. 96-98, 118-119

2.2. ESTADÍGRAFOS DE POSICIÓN

Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa una
distribución de frecuencia alrededor de un valor de la variable.

Supongamos que se elige tres conjuntos de estudiantes de primaria, secundaria y


superior, cuya distribución por edades ha permitido obtener los histogramas del Gráfico No. 4.2.
Como se observa en los Gráficos 4.2.(a), 4.2.(b) y 4.2.(c) hay un desplazamiento de las
distribuciones hacia la derecha a medida que avanza el nivel educativo de cada grupo; la
diferencia entre los tres histogramas es sólo el cambio de posición o localización a lo largo del
eje horizontal o valor de la variable (edad).

En cada uno de los tres casos se advierte que los valores observados se agrupan
alrededor de cierto "valor central" o "valor medio". Estos valores centrales, por su
desplazamiento en el mismo sentido y magnitud, se considera como números que describen la
posición de la distribución de frecuencias, y se definen como estadígrafos de posición o de
tendencia central.

Los estadígrafos, son valores que de manera condensada representan en un solo


valor, a una serie de datos y además describen resumidamente al conjunto de observaciones.
Los estadígrafos de posición de uso más frecuente son: la media aritmética, la mediana, las
cuartilas, las decilas, los percentiles y la moda; existen además la media geométrica, la media
armónica, etc.

2.3. LA MEDIA ARITMÉTICA

Es el estadígrafo de posición más importante. La media aritmética se denomina


simplemente MEDIA y comúnmente se le conoce como promedio.

La media aritmética se define y calcula dividiendo la suma de los valores de la variable


entre el número de observaciones o valores.

Media = Suma de valores de la variable


Número de valores

Para una variable Xi la media se puede simbolizar como:

X; M(X) ; ax

a. La media que se obtiene a partir de "n" datos originales X i se denomina Media


Aritmética Simple.

n
x + x 2 + x 3 + ... + x n
M(X) = X = 1 entonces M(x) =
∑x
i =1
i

n
n
n
1
También X =
n
∑X
i =1
i o X = ∑ Xihi

Ejemplo 1. Supongamos que los puntajes obtenidos en 5 exámenes parciales de


Estadística son:
11

x1 = 13; x2 = 10; x3 = 14; x4 = 11; x5 = 10

la nota promedio o media aritmética de las notas es:

x1 + x 2 + x 3 + x 4 + x 5 13 +10 +14 +11 +10


X= =
5 5
5

X=
∑x i =1
i
58 = 116 o sea X = 12 puntos.
=
5 5
b. La media obtenida a partir de los datos agrupados en tablas de frecuencia se denomina
Media Aritmética Ponderada, definida como:

y 1 n 1 + y 2 n 2 + y 3 n 3 + ... + y m n m
M(Y) = Y =
n
m

Y=
∑yn
i =1
i i

n
Los puntos medios yi de cada intervalo se ponderan por las frecuencias ni.

¿Cuál será el ingreso mediano o la mediana?

Aquí n/2 = 60/2 = 30 que comparado con los valores de Ni resulta que coincide con N2
= 30, este valor es entonces Nj-1 = 30. como Nj = 42 resulta que IMe = 180 - 240 cuyo extremo
interior Lj-1 = 180; por tanto Me = Li = 180, es decir que Me = 180 dólares.

Interpretando, significa que 30 trabajadores tienen sueldos iguales o inferiores a 180


dólares, y los 30 trabajadores restantes (el otro 50%) tienen sueldos superiores a 180 dólares.

2.3.1. VENTAJAS DE LA MEDIANA

Como estadígrafo de posición, la mediana es mas recomendable que la


media aritmética, cuando:

a. Existan valores extremos excepcionalmente grandes o muy


pequeños, puesto que la mediana no está afectada por los valores
extremos como sucede con la media.

b. Se trabaja con tablas de frecuencia con intervalos en donde no se


indica el extremo inferior del primer intervalo o no se indica el extremo
superior del último intervalo, o ambos casos. Esto no niega que exista
la media, ella existe y siempre se puede calcular.

c. Se tiene datos cualitativos, susceptibles de ordenarse de acuerdo a


rangos, calificaciones o categorías.

Ejemplo 2.1. En el Cuadro No. 4.8, se presenta un conjunto de estudiantes


clasificados por su rendimiento en cinco categorías. ¿Cuál será la mediana?

El valor de n/2 = 20 no coincide con algún Nj, porque 11 < 20 < 23 o sea:
12

Nj-1 < n/2 = Nj Luego Me = Yj que corresponde a la categoría REGULAR, es


decir que la Mediana corresponde a la categoría Regular, o sea que la mitad
de los estudiantes tienen un rendimiento igual o menor que regular.

Cuadro No. 4.08

CLASIFICACIÓN DE 40 ALUMNOS SEGÚN


RENDIMIENTO ACADÉMICO. 1987

CATEGORÍAS (Y) ni = fi hi Ni = Fi
Pésimo 4 0,100 4
Malo 7 0,175 11 ← Nj-1
Me → Regular 12 0,300 23 ← Nj
Bueno 10 0,250 33
Excelente 7 0,175 40
n = 40 1,000

Nota 1
La mediana no es afectada por los valores extremos como la media aritmética, puesto que la
Me no es calculada con todos los valores.

Nota 2
Existen otras expresiones para calcular la Mediana, la definición no cambia, las diferencias con
la fórmula propuesta en este libro sólo es de notación o simbología, el resultado será el mismo.
Entre las expresiones se tiene:

n 
2 - ∑f 
Me = L + C  
 f 

 

L = Li = Límite inferior del intervalo mediano.


n = número total de observaciones.
∑f = Nj-1 = frecuencia acumulada hasta el intervalo anterior al intervalo mediano.
f = Nj - Nj-1 = frecuencia del intervalo mediano.
c = amplitud del intervalo mediano.

Otra expresión:

n 
2 - F 
Me = L + i  
 f 

 

cuyos elementos tienen el mismo significado de las expresiones anteriores.


13

Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.

Lectura 04: Estadígrafos de Dispersión, pp. 139 - 156.

2.4. ESTADÍGRAFOS DE DISPERSIÓN

El estadígrafo de posición, es un valor que representa un conjunto de valores de una


población o muestra, es un punto de referencia alrededor del cual se distribuyen los valores Xi.
Habrá valores de Xi mayores, iguales o menores de un estadígrafo de posición (media,
mediana, moda), pero ¿cuál es la distancia, diferencia o dispersión de los valores de Xi
respecto a un punto de referencia?. Precisamente ese es el problema que se pretende estudiar,
definiendo un conjunto de indicadores, llamados los Estadígrafos de Dispersión.
En la descripción de un conjunto de datos ordenados no basta conocer sólo sus
estadígrafos de posición, para completar el análisis es necesario tener una idea del grado de
concentración o dispersión de las observaciones alrededor de un valor central o de posición.

Existen distribuciones que siendo diferentes, tienen valores iguales para algunos de
sus estadígrafos de posición, por ejemplo:

A) 3, 7, 46, 67, 81 X = 40,8 ; Me = 46


B) 15, 38, 46, 52, 53 X = 40,8 ; Me = 46

los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a
conclusiones equivocadas cuando se está comparando distribuciones o poblaciones. Para
superar esta limitación se propone construir otros estadígrafos que permitan analizar otras
características, como la dispersión o desviación de los datos respecto a un valor central.

Observando los Gráficos No. 4.4.(a), (b), (c) del Ejemplo 4.24, se nota que las tres
distribuciones que tienen el mismo promedio, pero es evidente que el Gráfico 4.4. (c)
representa una distribución con datos más "concentrados" alrededor del promedio que los otros
dos gráficos. Dicho de otro modo, 4.4. (c) corresponde a una distribución con menos dispersión
que las otras dos; de la misma manera se observa que 4.4. (a) es una distribución menos
concentrada o más dispersa. Esta característica se mide mediante los Estadígrafos de
Dispersión.

Los Estadígrafos de Dispersión de mayor uso son:

a. Recorrido o rango (R)


b. Desviación media (D.M.)
c. Recorrido Semi- Intercuartil (Q)
d. Varianza (s²)
e. Desviación Estándar o Típica (s)
f. Coeficiente de Variación (C.V.)

2.5. APLICACIÓN DE LA DESVIACIÓN ESTÁNDAR

La varianza y la desviación estándar son estadígrafos muy utilizados, sin embargo no


tienen una interpretación muy clara cuando se refiere a una sola distribución; por ejemplo, si la
desviación estándar de los presupuestos familiares es 50 soles mensuales, no se puede
deducir si este valor significa que la desviación es alta o baja. Estos estadígrafos tienen mayor
significación cuando se realiza comparaciones de distribuciones. Pero hay que subrayar, que la
media aritmética y la varianza constituyen los pilares que sustentan todo el edificio estadístico.

Una de las aplicaciones que supera la limitación anotada, es analizar la dispersión a


partir de una distribución teórica, llamada la Curva Normal.
14

Frecuentemente, cuando "n" es grande (n ≥ 30), la distribución de las n observaciones


es aproximadamente simétrica o tiene la forma de una curva normal (Gráfico No. 4.5.). De
acuerdo a las áreas bajo la curva normal, indicados en tablas se puede sostener que:

i) El 68.3% de las observaciones estarán comprendidas dentro del intervalo (Y - s, Y +


s)
ii) El 95.5% de las observaciones estarán comprendidas dentro del intervalo (Y - 2s; Y +
2s)
iii) El 99.7% de las observaciones estarán comprendidas dentro del intervalo (Y - 3s; Y +
3s).
15

Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.

Lectura 05: Estadígrafos de Deformación, 157-159

2.6. ESTADÍGRAFOS DE DEFORMACIÓN

La deformación consiste en analizar la simetría do asimetría (no simetría) de las


distribuciones. Por ejemplo, el Gráfico No. 4.6.(b) representa una distribución SIMÉTRICA, en
tanto que 4.6.(a) y 4.6.(c) corresponde a distribuciones asimétricas o deformes.

El gráfico 4.6.(a) presenta una deformación hacia la izquierda, que corresponde a la


cola o rama más larga de la distribución, es decir tiene asimetría por la izquierda o asimetría
negativa. En tanto que 4.6.(c) corresponde a una distribución como asimetría por la derecha o
de asimetría positiva.

La deformación o asimetría estadística se deduce comparando la distribución con la


forma de la "curva normal" que corresponde a una distribución simétrica.

En general, toda distribución que tiene Y = Me = Mo se dice que es SIMÉTRICA, en


otro caso será asimétrica.

Entre los estadígrafos de asimetría o deformación se tiene, los propuestos por Karl
Perason.

AS1 = Media - Moda = Y - Mo


Desviación estándar s

AS2 = 3(Media - Mediana) = 3(Y - Me)


Desviación estándar s

que constituyen respectivamente, el primer y segundo coeficiente de asimetría de Pearson.

También existe el estadígrafo propuesto por Arthur Boeley:

AS = (Q3 - Q2) - (Q2 - Q1) = Q3 - 2Q3 + Q1


Q3 - Q1 Q3 - Q1

que se le llama el "coeficiente cuartil de deformación".

De acuerdo al valor de AS, se tiene:

a. Si AS > 0. Tiene asimetría positiva. La distribución extiende la cola hacia los


valores grandes de la variable.
b. Si AS < 0. Tiene asimetría negativa. La distribución extiende la cola hacia los
valores pequeños de la variable.

Por otra parte, también se deduce que hay asimetría cuando:

Mo < Me < Y Asimetría Positiva.


Y < Me < Mo Asimetría Negativa.

Ejemplo 1
En la distribución de los sueldos de los 80 trabajadores, se conoce:

Y = 174,40 Me = 174 Mo = 167


Q1 = 140,80 Q3 = 208,20 s = 43,60
16

¿Cuál es la asimetría?
Con fines ilustrativos, vamos calcular todas las fórmulas de asimetría. Como el
resultado será el mismo, entonces trabajar con una sola fórmula será suficiente.

AS1 = Y - Mo = 174,40 - 167 = 0,170 > 0


s 43,60

AS2 = 3(Y - Me) = 3(174,40 - 174) = 0,028 > 0


s 43,60

AS = Q3 - 2Q2 + Q1 = 208,20 - 2(174) + 140,80


Q3 - Q1 280,20 - 140,80

= 0,00015 > 0

en cualquiera de las fórmulas AS es positivo, por tanto tiene Asimetría Positiva, es decir hay un
ligero predominio de sueldos menores. Frecuentemente, la distribución de los salarios tiene
asimetría positiva, porque existen muchos trabajadores que ganan poco y pocos trabajadores
que ganan bien.

2.7. ESTADÍGRAFOS DE APUNTAMIENTO O KURTOSIS

Entendemos como kurtosis al grado de apuntamiento de una distribución. La Kurtosis


se analiza comparando la distribución con forma de una curva normal o simétrica, con igual
media aritmética y desviación estándar que la distribución que se estudia.

Si una distribución tiene relativamente un elevado pico o apuntamiento, se llama


distribución leptokurtica, mientras si es achatada se denomina platikurtica. La distribución
normal constituye una distribución mesokurtica.

Los estadígrafos para analizar el apuntamiento son:

m4
Coeficiente de Kurtosis: a4 =
s4
4
Donde: s = (s²)² s² = varianza.

m4 =
∑ (Y
i =1
i - Y) 4 n i

n
que se llama "el cuarto momento respecto a la media".
a = 0.3 Mesokútica (normal)
a > 0.3 Leptokútica (apuntada)
a < 0.3 Platikúrtica (achatada)

Otro estadígrafo de kurtosis es:

Q
K= = Coeficiente Percentil de kurtosis.
P90 - P10

Donde Q es el recorrido semi intercuartil, P10 y P90 son los percentiles 10 y 90. para la curva
resulta K = 0,263.
17

Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.

Lectura 06: Propiedades de la Media y la Varianza, pp. 103-109 y 149-155.

2.8. PROPIEDADES DE LA MEDIA

a. "La media aritmética de una constante es igual a la misma constante".

M(K) = k k = constante

M(K) =
∑ki =1 k + k + k + ... + k n.k
= = =k
n m n
b. "La media del producto de una constante por una variable, es igual al producto de la
constante por la media de la variable".

M(k.x) = k.M(x) k = constante

∑ k.x i kx 1 + kx 2 + ... + kx m
M(k.x) = =
n n

k (x 1 + x 2 + ... + x n ) k ∑ x i
= = = k.M(x)
n n
c. "La media de la suma de dos o más variables, es igual a la suma de las medias de cada
una de dichas variables".

M(X + Y) = M(X) + M(Y)

M(X + Y) = ∑ (xi + yi) = (x1 + y1)+(x2 + y2) +...+ (xn + yn)


n n

= (x1 + x2 +...+ xn) + (y1 + y2 +...+ yn)


n n

M(X + Y) = ∑xi + ∑yi = M(X) + M(Y)


n n

Para tres variables:

M(X + Y - Z) = M(X) + M(Y) - M(Z)

d. "La media de una variable más una constante, es igual a la media de la variable más la
constante".
M(X + k) = M(X) + k

M(X + k) = ∑(X + k) = ∑xi + ∑k = M(X) + k


n n n

e. "Si una muestra se divide en r submuestras, entonces la media total de la muestra, es


igual a la suma de las medias de las submuestras ponderadas por sus respectivos
tamaños, dividido entre el tamaño de la muestra total".
18

Sea una muestra de tamaño con media Y, consideremos dos sumuestras de tamaño n 1 y
n2, con sus respectivas medias Y1 y Y2, con n = n1 + n2.

Entonces: Y= Y1 n1 + Y2 n 2 ∑Y i =1
i ni
=
n n
Generalizando para r submuestras, se tendría:

Y1 n1 + Y2 n 2 + ... + Yr n r
Y=
n

O sea:

Y=
∑Y
i =1
i ni
; con n = ∑n
r

i
i =1
n
Ejemplo 1
En una empresa la edad promedio de los 17 trabajadoras mujeres es de 31,2 años, y la
edad promedios de los 23 trabajadores hombres es de 38 años. ¿Cuál es la edad
promedio del total de trabajadores? Aquí se tiene:

Nº Trabajadores Edad promedio


Mujeres n1 = 17 Y1 = 31.2 años
Hombres n2 = 23 Y2 = 38.0 años
Total N = 40

De acuerdo a la propiedad (e), la media aritmética total:

31,2 (17) + 38,0 (23) 530,4 + 874,0


Y= =
40 40

1404,4
Y= = 35,1 años.
40

2.9. PROPIEDADES DE LA VARIANZA

Por definición:

s² = V(Y) = M {[Yi - M(Y)]²}

de donde se deduce las siguientes propiedades:

a. "Para cualquier distribución la varianza es siempre una cantidad no negativa".

s² ≥ 0

esto es evidente, puesto que todas las desviaciones positivas o negativas, al elevarse al
cuadrado se hacen positivas.

b. "Si el valor de las observaciones son todas iguales, entonces la varianza es CERO".
En este caso, las observaciones se confunden en un punto, la media es el mismo punto y
la desviación es cero.

s² = 0/n = 0
19

c. "La varianza de una constante es cero".

V(K) = 0 K = constante
V(K) = M {[K - M(K)]²} = M{[K - K]²} M(0) = 0
V(K) = 0 c.q.d.

d. "La varianza del producto de una constante por una variable, es igual al cuadrado de la
constante por la varianza de la variable".

V(K.Y) = K²V(Y)
V(K.Y) = M{[KY - M(KY)]²} = M{[KY - KM(Y)]²}
= M {K² [Y - M(Y)]²} = K² {Y - M(Y)]²}
V(K.Y) = K²V(Y)

e. "La varianza de la suma de una variable más una constante, es igual a la varianza de la
variable".

V(Y + K) = V(Y)
V(Y + K) = M{[(Y + K) - Y(Y + K)]²}
= M{[Y + K - M(Y) - K)]²}
= M{[Y - M(Y)]²} = V(Y)

Ejemplo 1
Supongamos que se duplica los sueldos de los 80 trabajadores. ¿Cuál es ahora la
varianza y el nuevo sueldo promedio?

Sabemos que: M(Y) = 174,40; V(Y) = 1903,40


Al duplicarse los sueldos K = 2
V(2Y) = 2²V(Y) = 4(1903,40) = 7613,60
dólares al cuadrado, que es la nueva varianza después del
reajuste.

El nuevo sueldo promedio, al duplicarse los sueldos es:

M(2Y) = 2 M(Y) = 2(174.40)


M(2Y) = 348.80 dólares.

Ejemplo 2
Si a cada uno de los 80 trabajadores, se incrementa su sueldo en 60 dólares
mensuales. ¿Cuál será la nueva varianza y el sueldo promedio?

Aquí K=60 entonces V(Y + 60) = V(Y) = 1903,40 es decir un incremento constante a
cada elemento no altera la dispersión de la distribución. Por su parte el nuevo sueldo
promedio quedaría incrementado en 60 dólares.

M(Y + 60) = M(Y) + 60


= 174,40 + 60
= 234,40 dólares.

2.10. COMPONENTES DE LA VARIANZA

Si un conjunto de datos se divide en subconjuntos, categorías o estratos, es posible


descomponer la varianza en dos componentes.

Supongamos que un conjunto de datos ha sido dividido en L estratos o subconjuntos,


cada estrato tendrá un tamaño (nr), su respectiva media aritmética (Yr) y varianza (sr²), valores
que expresan la importancia de cada uno de los estratos en el total del conjunto.
20

Fuente:
AVILA, R. (1998) Estadística Elemental Lima. Estudios y
Ediciones R.A.

Lectura 07: La Distribución Normal, pp. 388-398.

2.11. LA DISTRIBUCIÓN NORMAL

2.11.1. Generalidades

La distribución normal es el modelo de la probabilidad de mayor uso, es una


distribución teórica de variable aleatoria continua, que puede expresarse en
la forma general o estandarizada. Tiene simetría perfecta, en forma de una
campana unimodal, la media y la moda son iguales. En la práctica, es
frecuente que la mayoría de las distribuciones, para un número grande de
casos se distribuyen como una "curva normal" o curva de Gauss;
precisamente este comportamiento permitió incorporar esta función a la
Estadística como la Distribución Normal cuya función de densidad o de
distribución esta dada por la expresión:

1 µ σ
N(µ ,σ ) = e-(x- )²/2 ²
σ 2π

Donde: -∞≤ X≤ +∞

Como función de probabilidad, se asume que el área encerrada por la curva


y el eje X, es igual a uno. Además se puede determinar áreas bajo la curva,
comprendida entre dos ordenadas levantadas por ejemplo en los puntos a y
b. esta área estaría definiendo la probabilidad de la variable comprendida
entre los extremos a y b; es decir:

P (a ≤ X ≤ b) = Área entre a y b.

No se requiere hacer ningún esfuerzo extraordinario para calcular estas


áreas en la curva normal, puesto que para valores determinados y con
ayuda del Cálculo Integral se han calculado diversas áreas y construido
Tablas de Áreas bajo la Curva Normal (Tabla II) que vamos a utilizar
permanentemente.

2.11.2. Curva Normal Estandarizada

La forma general de la distribución normal:

1 µ σ
N (µ , σ ) = e-(x- )²/2 ²
σ 2π

se puede simplificar cuando se hace un cambio de variable, es decir,


transformar la variable original X en una nueva variable z, mediante la
relación:

X-μ
zi =
σ
en estas condiciones:

N(µ ,σ ) ----------- N(0,1)


21

X-μ
X z= z
σ
µ ≠ 0 µ =0
σ >0 σ =1

esta transformación constituye la Estandarización de la Curva Normal, por


tanto da origen a lo que se denomina la CURVA NORMAL
ESTANDARIZADA O TIPIFICADA, cuya expresión ahora es:

1
N(0,1) = e-1/2 z² , - ∞ ≤ Z ≤ + ∞

en esta curva, las áreas comprendidas entre dos puntos cualesquiera (z1, z2)
también se encuentran tabulados en las Tablas de Áreas bajo la Curva
Normal Tipificada o Estándar de 0 a z (Tabla II). Por ejemplo, considerando
los valores de z (-1,1), (-2,2), (-3,3) se tiene las siguientes áreas:

P(-1 ≤ z ≤ 1) = 0.6827
P(-2 ≤ z ≤ 2) = 0.9545
P(-3 ≤ z ≤ 3) = 0.9973

ESTANDARIZACIÓN DE X:

Para utilizar las Tablas de la Curva Normal Estandarizada o Tipificada


(Tabla II) se requiere transformar o estandarizar los valores originales de X
en valores de Z donde:
z = puntaje estandarizado
X-μ
z= con: Xi = valor de la variable
σ
µ = media de los valores de
Xi (media poblacional)
σ = desviación estándar de
Xi (desviación estándar)

Nota: Cuando se trabaja con muestras, la relación de estandarización será:

X = media muestral.
x-X
z= donde
s
s = desviación estándar muestral

En el siguiente ejemplo, vamos a ilustrar cómo se estandariza los valores de


X:

Ejemplo 1.
La media de las notas de los alumnos de Estadística es 12,4 puntos y la
desviación estándar es 2,6; ¿Cuál es el valor estándar (z) de los siguientes
puntajes: 10,5; 13; 16; 08; 12,4; 17?

X1 = 10,5 X2 = 13 X3 = 16 X4 = 08 X5 = 12,4 X6 = 17

Además µ = 12,4 σ = 2,6

z1 = X1-µ = 10,5-12,4 = -0,73 z4 = 8-12,4 = -1,6


σ 2,6 2,6

z2 = X2-µ = 13 - 12,4 = 0,23 z5 = 12,4-12,4 =


22

σ 2,6 2,6

z3 = X3-µ = 16 - 12,4 = 1,38 z6 = 1,769


σ 2,6

2.11.3. Uso de la Tabla de Áreas de la Curva Normal Estandarizada

La Tabla II que corresponde a las áreas bajo la curva normal tipificada o


estandarizada, presenta áreas correspondientes de 0 a Z, es decir son
áreas para la mitad positiva de la curva entre 0 y un valor dado de Z. Como
es una curva simétrica, fácilmente se puede obtener áreas o probabilidades
para valores negativos de Z, tomando el valor simétrico positivo de Z, las
áreas como la probabilidad siempre es positiva. La tabla considera para Z
dos decimales y para las probabilidades (áreas) cuatro decimales. En la
primera columna está Z con un decimal, el segundo decimal se indica en la
primera fila, por ejemplo para Z = 2,76 le corresponde 0,4971, para Z = 1,08
le corresponde 0,3599; a Z = -0,85 por simetría será el valor de Z = 0,85 que
es 0,3023. Trate de ubicar estos valores en la Tabla II.

En el trabajo de probabilidades con la curva normal, es recomendable


graficar en la curva el área que interesa determinar. A continuación vamos a
ilustrar los diversos casos que se presentan:

Ejemplo 1
A partir de la Distribución Normal, calcular la probabilidad de un suceso,
cuya variable estandarizada (z) está comprendida entre los siguientes
valores:

(En todos los casos se ha sombreado el área que corresponde a la


probabilidad que se desea determinar).

PRIMER CASO:
Entre z = 0 y z = 1,3
P (0 ≤ z ≤ 1,3) = 0,4032

Este valor se busca en la Tabla II para el valor de Z = 1,3.

SEGUNDO CASO:
Entre z = -0,72 y z = 0

z está a la izquierda de 0 y su área o probabilidad se halla por simetría.

P(-0,72 ≤ z ≤ 0) = P(0 ≤ z ≤ 0,72) = 0,2642

TERCER CASO:
Entre z = -0,48 y z = 2,15

Como se aprecia en la figura, se trata de la suma de dos áreas:

A(0; 0,8) y A(0; 2,15)


P(-0,48 ≤ z ≤ 2,15) = P(-0,48 ≤ z ≤ 0) + P(0 ≤ z ≤ 2,15) = 0,1844 + 0,4842
= 0,6686

CUARTO CASO:
Entre z = 0,80 y z = 1,94

Aquí el área a(0; 1,94) se le resta el área (0; 0,80)

P(0,80 ≤ z ≤ 1,94) = P(0 ≤ z ≤ 1,94) - P(0 ≤ z ≤ 0,80) = 0,4738 + 0,2881 =


0,1857
23

QUINTO CASO:
Entre z = -2,30 y z = -0,82

Es un caso similar al interior, se calcula las áreas por simetría.

P(-2,30 ≤ z ≤ -0,82) = P(0 ≤ z ≤ 2,30) - P(0 ≤ z ≤ 0,82) = 0,4893 - 0,2939


= 0,1954

SEXTO CASO:
A la izquierda o menores de z = -0,90

P(- ∞ ≤ z ≤ -0,90) = P(z ≤ -0,90) = 0,5000 - 0,3159 = 0,1841

SÉTIMO CASO:
A la derecha o mayor de z = 1,72

P(1,72 ≤ z ≤ +∞) = P(z ≥ 1,72) = 0,500 - P(0 ≤ z ≤ 1,72) = 0,500 - 0,4573


= 0,0427

OCTAVO CASO:
A la derecha de z = -1,25 o mayor de z = -1,25

P(z ≥ -1,25) = 0,5000 + P(z > 1,25) = 0,5000 + 0,3044 = 0,8944

NOVENO CASO:
Que z sea menor que -1,96 o mayor que 1,96
P(z < -1,96 o z > 1,96) = P(z < -1,96) = 0,5 - P(0 ≤ z ≤ 1,96) = 0,5000 -
0,4750 = 0,0250
P(z < - 1,96) = 0,5 - P(0 < z < 1,96) = 0,5000 - 0,4750 = 0,0250

P(z < -1,96 o z > 1,96) = Pz < -1,96) + P(z > 1,96) = 0,0250 + 0,0250 =
0,050

También puede resolverse así:


P(z < -1,96 o z > 1,96) = 1 - [P(z > 1,96) + P(z > 1,96)] = 1 - (0,4750 +
0,4750) = 0,05

DÉCIMO CASO:
A la derecha de z = 2,06 y a la izquierda de z = -1,48

También significa que:


z = 2,06 o z < -1,48

P(z > 2,06 o z < -1,48) = P(z > 2,06 o z > 1,48) = 1 - [P(z > 1,48) + P(z >
2,06)] = 1 - (0,4306 + 0,4803) = 1 - 0,9109 = 0,0891
P(z > 2,06 o z < -1,48) = 0,0891

Ejemplo 2
En una muestra de estudiantes de Ingeniería, se encuentra que la nota
promedio en Economía fue 12 puntos, con una desviación estándar igual a
2. ¿Cuál es la probabilidad de que un alumno elegido al azar tenga nota
entre 11 y 14?

Supongamos que las notas se distribuyen como una normal.

Datos:
24

X = 12 s = 12
X1 = 11 X2 = 14

Estandarizando X

z1 = 11 - 12 = -0.5
2

z2 = 14 - 12 = 1.0
2

P(11 ≤ X ≤ 14) = P(-0,5 ≤ z ≤ 1,0) =


P(0 ≤ z ≤ 0,5) = P(0 ≤ z ≤ 1,0) = 0,1915 + 0,3413 = 0,5328
P(11 ≤ X ≤ 14) = 0,5328 = 53,28%

Ejemplo 3
La media de los sueldos de 600 empleados de una empresa es de 430
dólares y la desviación estándar o típica 40 dólares. Suponiendo que los
sueldos se distribuyen normalmente, hallar cuántos empleados tienen
sueldos:
a. Entre 350 y 450 dólares.
b. De 500 y más dólares.
c. Más de 500 dólares.

Solución

µ = 430 σ = 40

a. Luego: z1 = 350 - 430 = -2,0


40

z2 = 450 - 430 = 0,50


40

P(350 ≤ X ≤ 450) = P(-2,00 ≤ z ≤ 0,50) = 0,4772 + 0,1915 = 0,6687

Número de empleados con sueldos entre 350 y 450 dólares es:


Nº empleados = 600 (0,6687) = 401 empleados.

b. P(X ≥ 500) z = 500 - 430 = 1,75


4

P(X ≥ 500) = P(z ≥ 1,75)


= 0,5000 - 0,4599 = 0,0401

Luego el Número de empleados con 500 dólares y más:


Nº empleados = 600 (0,0401) = 24 empleados.

c. Con más de 500 dólares, se puede representar con X = 501 dólares

z = 501 - 430 = 1,77


4

(X > 500) = P(X ≥ 501) = P(z ≥ 1,77) = 0,5000 - P(0 ≥ z ≥ 1,77) =


0,5000 - 0,4616 = 0,0384

Número de empleados con más de 500 dólares


Nº empleados = 600 (0,0384) = 23 empleados.

Ejemplo 4
25

En la fabricación de cierto tipo de navajas se ha encontrado un espesor


medio de 2.20 milímetros y una desviación estándar de 0.15 milímetros. Se
decide que todas las navajas exceden un espesor de 2.5 milímetros sean
rechazados.

¿Qué porcentaje se espera que sean rechazados?

µ = 2,20 σ = 0,15 X = 2,5

z = 2,50 - 2,20 = 2,00


0,15

P(X > 2,5) = P(z > 2,00) = 0,5000 - P(0 < z < 2,00) = 0,5000 - 0,4772 =
0,0228

Entonces, deben ser rechazados, aproximadamente el 2,3% de la


producción.

Ejemplo 5
Los puntajes en un examen de selección para seguir estudios superiores
están distribuidos normalmente con media 76 y desviación estándar 15. Se
ha establecido que el 15% de los concursantes, que son los mejores
recibirán una beca integral de estudios, en tanto el 10% que se supone que
son los peores, definitivamente no podrán seguir estudios superiores.

Hallar:
a. El puntaje mínimo para ganar la beca.
b. El puntaje mínimo para seguir estudios superiores.

Sean:

X1 : puntaje mínimo para ganar la beca.


X2 : puntaje mínimo para seguir estudios.

µ = 76 σ = 15
26

Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.

Lectura 08: Una Comprobación a la Normalidad, pp. 226-227

2.12. UNA COMPROBACIÓN DE LA "NORMALIDAD"

Hay varias maneras en que podemos probar si una distribución observada tiene
aproximadamente la forma de una distribución normal. La manera que aquí presentaremos es
cruda y en gran medida subjetiva, pero definitivamente tiene la ventaja de que es muy fácil de
llevarse a cabo.

Para ilustrar esta técnica, refirámonos de nuevo a los datos de la emisión de óxidos de
azufre que se usaron en los primeros capítulos del libro. Primero convertimos las frecuencias
acumulativas de la tabla en porcentajes acumulativos dividiendo cada una entre 80, la
frecuencia total, y multiplicando después por 100. Esto nos da donde presentamos las fronteras
de clase en vez de los límites de la clase, aunque esto en realidad no tiene importancia a
menos que continuemos con el análisis como en el ejercicio 9.27.

Toneladas de óxidos de Porcentaje acumulativo


azufre
Menos de 4.95 0.00
Menos de 8.95 3.75
Menos de 12.95 16.25
Menos de 16.95 33.75
Menos de 20.95 65.00
Menos de 24.95 86.25
Menos de 28.95 97.50
Menos de 32.95 100.00

Antes de trazar esta distribución porcentual acumulativa en el papel gráfico especial de


la figura 9.16, examinemos brevemente sus escalas. Cuando se compra dicho papel de gráfica
en forma comercial, la escala porcentual acumulativa ya está impresa en la manera especial
que la hace ideal para nuestros propósitos. La otra escala consiste en subdivisiones iguales.
Esta clase de gráfica se conoce como papel de probabilidad normal o papel de probabilidad
aritmética, y se tiene acceso a éste en la mayoría de las librerías de escuelas o universidades.

Una vez que hemos trazado los porcentajes acumulativos de "menos de" como en la
figura 9.16, usamos el criterio siguiente:

Si los puntos siguen en gran medida el patrón de una línea recta,


consideramos que ésta es una evidencia positiva de que la
distribución tiene aproximadamente la forma de una distribución
normal.

Es evidente que "en gran medida" y "aproximadamente" no son términos muy precisos
pero al principio señalamos que ésta es una técnica cruda y en gran medida subjetiva, aunque
fácil de realizarse. El patrón más común en que la distribución se consideraría como "anormal"
es el patrón en que los puntos de la extrema derecha caen por debajo de la línea recta
determinada por el equilibrio de los puntos. En el ejercicio 13.88 se explica una manera más
rigurosa de verificar la "normalidad" de una distribución de datos observados.

Regresando a la figura 9.16, encontramos que todos los puntos están cerca de la línea
punteada y concluimos que la distribución de los datos de la emisión de óxidos de azufre tiene
aproximadamente la forma de una distribución normal. Nótese que en la figura 9.16 no
trazamos porcentajes acumulativos correspondientes a 4.95 y 32.95. Como lo indicamos,
nunca llegamos en realidad a 0 o 100% del área bajo una curva normal, no importa cuánto nos
retiremos de la media de cualquier dirección.
27

EJERCICIOS
• Use un papel de probabilidad normal para verificar si la distribución del ejercicio 2.25 que
trata sobre los números de clientes a los que un restaurante sirve de almorzar en 120
días laborales, tiene aproximadamente la forma de una distribución normal.

• Use un papel de probabilidad normal para verificar si la distribución del ejercicio 4.33,
que trata sobre la extensión de los períodos de descompostura de cierta máquina,
aproximadamente tiene la forma de una distribución normal.

• La siguiente es la distribución de las cantidades de tiempo que 200 personas requirieron


para llenar cierta solicitud de trabajo:

Tiempo Número de
(minutos) personas
24 o menos 15
25 - 29 50
30 - 34 75
35 - 39 40
40 - 44 15
45 o más 5

Use un papel de probabilidad anormal para verificar si esta distribución tiene


aproximadamente la forma de una distribución normal.
28

Fuente:
FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.
Prentice-Hall

Lectura 09: Correlación, pp. 459-465

2.13. EL COEFICIENTE DE CORRELACIÓN

En relación con la pregunta que hicimos al inicio de este capítulo, aquí enfrentamos un
análisis de la varianza. La figura 16.1 ilustra lo que queremos decir. Como se puede apreciar a
partir del diagrama, la desviación de un valor observado de y de la media de todas las y's, y - y,
se puede expresar como una suma de dos partes. La primera parte es la desviación de y (el
valor de la línea correspondiente a un valor observado de x) de la media de todas las y's, y - y;
la segunda parte es la desviación del valor observado de y del valor correspondiente de la
línea, y - y. simbólicamente, expresamos que

y - y = (y - y) + (y - y)

para cualquier valor observado y, y si elevamos al cuadrado las expresiones de ambos lados
de esta igualdad y sumamos el total de n valores de y, encontramos que las simplificaciones
algebraicas llevan a

∑ (y - y)² = ∑ (y - y)² + ∑ (y - y)²

La cantidad del lado izquierdo mide la variación total de las y's y la conocemos como la
suma total de cuadrados; nótese que ∑ (y - y)² es sólo la varianza de las y's multiplicada por n-
1. La primera de las dos sumas de la derecha, ∑ (y - y)², se conoce como la suma de
cuadrados de regresión y mide la parte de la variación total de las y's que se puede atribuir a la
relación entre la dos variables x e y; de hecho, si todos los puntos caen en la línea de mínimos
cuadrados, entonces y = y y la suma de cuadrados de regresión equivale a la suma de
cuadrados. En la práctica, ésta es difícilmente la situación, si acaso se da, y el hecho de que
todos los puntos no caigan en la línea de mínimos cuadrados es un indicio de que existen otros
factores distintos que las diferencias entre las x's que afectan los valores de y. Se acostumbra
combinar todos estos factores bajo el término general de "probabilidad". Así, la variación de la
probabilidad se mide por medio de las cantidades por las que los puntos se desvían de la línea;
específicamente, ésta se mide mediante ∑ (y - y )², conocida como la suma residual de
cuadrados, que es el segundo de los componentes en que dividimos la suma total de
cuadrados.

Para determinar estas sumas de cuadrados para el ejemplo del examen de dominio del
idioma de ciertos solicitantes de trabajo en el servicio exterior, podríamos sustituir los valores
de y, y, y los valores de y sustituyendo las x's en y = 31.55 + 10.90x, pero existen
simplificaciones. Primero, para ∑ (y - y)² tenemos la fórmula de cálculo

Syy = ∑ y² - 1/n (∑ y)²

y en la página 437 demostramos que equivale a 1,504.1 para nuestro ejemplo. En segundo
lugar, ∑ (y - y )² es la cantidad que redujimos al mínimo por medio del método de los mínimos
cuadrados y la cual aparece en el numerador de la fórmula para s e. Copiando el numerador de
su fórmula de cálculo de la página 436, obtenemos

(S yy )²
∑ ( y - y)² ]= Syy -
S xx

y para nuestro ejemplo, 1,504.1 -(114.5)²/10.5 = 255.50. (Los valores de S xx y Sxy se


determinaron en la página 429). Por último, sustrayendo, la suma de cuadrados de regresión se
determina mediante
29

∑ ( y - y)² = ∑ (y - y)² - ∑ (y - y )²

 (S xy )² 
= Syy - 
 S yy - 
 S xx 

(S xy )²
=
S xx

y en nuestro ejemplo obtenemos (114.5)²/10.5 = 1,248.59

Es interesante observar que todas las cantidades que hemos calculado aquí se podrían
haber obtenido directamente de la impresión por computadora de la figura 15.5 de la página
430. Bajo ANÁLISIS DE LA VARIANZA, en la columna clasificada como suma de cuadrados,
encontramos que la suma total de cuadrados es 1,504.1, la suma residual de cuadrados es
255.5 y la suma de cuadrados de regresión es 1,248.6. Las diferencias entre estos valores y los
anteriores evidentemente son consecuencia del redondeo.

Ahora podemos analizar las sumas de cuadrados y comparando la suma de cuadrados


de regresión con la< suma total de cuadrados, encontramos que

∑ ( y - y)² = 1,248.59 = 0.83


∑ (y - y)² 1,504.1

es la proporción de la variación total de las clasificaciones que se puede atribuir a la relación


con x, es decir, a las diferencias del número de años que los solicitantes habían estudiado
alemán en la preparatoria o la universidad. Esta cantidad se conoce como el coeficiente de
determinación y se expresa como r². Nótese que el coeficiente de determinación aparece
también en la impresión de la figura 15.5 de la página 430; cerca de la parte central dice "R
CUADRADA = 83.0 POR CIENTO".

Si sacamos la raíz cuadrada del coeficiente de determinación, obtenemos el


coeficiente de correlación, que se representa por medio de la letra r. Su signo se relaciona de
modo que sea como el del coeficiente de regresión estimada, b, y para nuestro ejemplo, donde
b es positivo, tenemos

r= 0.83 = 0.91

redondeando a dos decimales.

De ahí que el coeficiente de correlación es positivo cuando la línea de mínimos


cuadrados tiene una pendiente hacia arriba, específicamente, cuando la relación entre x e y es
tal que los valores bajos de y tienden a ir con valores bajos de x y los valores altos de y tienden
a ir con valores altos de x. Así mismo, el coeficiente de correlación es negativo cuando la línea
de mínimos cuadrados tiene una pendiente hacia abajo, esto es, cuando los valores altos de y
tienden a ir con los valores bajos de x y los valores bajos de y tienden a ir con los valores altos
de x. En los dos primeros diagramas que presentamos a continuación ilustramos ejemplos de
una correlación positiva y una correlación negativa.

Dado que parte de la variación de las y's no puede exceder su variación total, ∑ (y - y
)² no puede ser mayor que ∑ (y - y)², y a partir de la fórmula que define r se deriva que los
coeficientes de correlación deben caer en el intervalo de -1 a +1. Si todos los puntos en
realidad caen en una línea recta, la suma residual de cuadrados, ∑ (y - y )², es cero, ∑ ( y -
y)² = ∑ (y - y)², y el valor resultante de r, -1 o +1, es un indicio de un ajuste perfecto. No
obstante, si la dispersión de los puntos es tal que la línea de mínimos cuadrados es una línea
horizontal que coincide con y (es decir, una línea con una pendiente 0 que intersecta el eje de
las y's en a = y), entonces ∑ (y - ŷ )² equivale a ∑ (y - y)² y r = 0. En ese caso, la variación de
las y's no se puede atribuir en lo absoluto a su relación con x, y el ajuste es tan deficiente que
30

el conocimiento de x no es útil para pronosticar y. El valor pronosticado de y es y sin considerar


x. Un ejemplo de esto aparece en el tercer diagrama de la figura 16.2.

Calcule r.

Solución
Calculando primero las sumas necesarias, obtenemos ∑ x = 850, ∑ x² = 65,230 ∑ y =
927, ∑ y² = 74,883 y ∑ xy = 69,453. Entonces, sustituyendo estos valores junto con n = 12 en
las formulas para Sxx, Syy, Sxy y finalmente r, encontramos que

Sxx = 65,230 - 1/12 (850)² = 5,021.67


Syy = 74,883 - 1/12 (927)² = 3,272.25
Sxy = 69,453 - 1/12 (850)(927) = 3,790.5
y

3,790.5
r= = 0.935
(5,021.67) (3,272.25)

2.14. LA INTERPRETACIÓN DE r

Cuando r equivale a +1, -1 o 0, no hay ningún problema en cuanto a la interpretación


del coeficiente de correlación. Como ya hemos indicado, es +1 o -1 cundo todos los puntos
caen en realidad en una línea recta y es cero cuando el ajuste de la línea de mínimos
cuadrados es tan deficiente que el conocimiento de x no es útil para el propósito de y. En
general, la definición de r nos indica que 100r² es el porcentaje de la variación total de las y's
que se explica por medio de la relación con x o es consecuencia de ésta.

La fórmula que define r demuestra claramente la naturaleza o la esencia del coeficiente


de correlación, pero en la práctica real rara vez se usa para determinar su valor. Para derivar
una fórmula de cálculo para r, primero sustituimos.

∑ (y - y)² = Syy y ∑ ( ŷ - y)² = (Sxy)²/Sxx

de la página 461 en la fórmula para r², obteniendo

S 2xy
r² =
S xx . S yy

y por tanto que

Fórmula de cálculo para el coeficiente de correlación

S xy
r=
S xx . S yy

Para tener una referencia fácil, recordemos al lector que

Sxx = ∑ x² - 1/n (∑ x)²

Syy = ∑ y² - 1/n (∑ y)²

y
Sxy = ∑ xy - 1/n (∑ x)(∑ y)
31

EJEMPLO

Las siguientes son las calificaciones que 12 estudiantes obtuvieron en los exámenes
finales de economía y antropología:

Economía Antropología
51 74
68 70
72 88
97 93
55 67
73 73
95 99
74 73
20 33
91 91
75 80
80 86

Por sí misma, ésta es una importante medida de la relación entre dos variables. Por
otro lado, permite comparaciones válidas de las fuerzas de varias relaciones. Por ejemplo si r =
0.80 es un estudio y r = 0.40 en otro estudio, sería incorrecto señalar que la correlación 0.80 es
"dos veces tan buena" o "dos veces tan fuerte" como la correlación 0.40. Cuando r = 0.80,
entonces 100(0.80)² = 64% de la variación de las y se atribuye a la relación con x y cuando r =
0.40, sólo 100(0.40)² = 16% de la variación de las y se atribuye a la relación con x. Por tanto,
en el sentido del "porcentaje de variación que se atribuye a" podemos decir que la correlación
0.80 es cuatro veces tan fuerte como la correlación 0.40. Del mismo modo, decimos que una
relación para la cual r = 0.60 es nueve veces tan fuerte como una relación para la que r = 0.20.

La interpretación del coeficiente de correlación presenta varios riesgos. Primero, a


menudo se considera que r mide sólo la fuerza de relaciones lineales; por otro lado, se debe
recordar que una correlación fuerte (un valor de r cercano a +1 o -1) no implica necesariamente
una relación causa-efecto.

Si se calcular r en forma indiscriminada, por ejemplo, para los tres conjuntos de datos
de la figura 16.3, obtenemos r = 0.75 en cada caso, pero ésta es una medida significativa de la
fuerza de la relación sólo en el primer caso. En el segundo caso hay una relación curvilínea
muy fuerte entre las dos variables y en el tercer caso seis de los siete puntos en realidad caen
en la línea recta, pero el séptimo punto está tan alejado, que sugiere la posibilidad de un grave
error de cálculo o un error en el registro de los datos. Así, antes de calcular r debemos ilustrar
los datos para verificar si hay algún motivo para pensar que la relación es, de hecho, lineal.

El error de interpretar un valor alto de r( es decir, un valor cercano a +1 o -1, como un


indicio de una relación causa-efecto, se explica mejor con algunos ejemplos. Un caso que se
utiliza con frecuencia como una ilustración, es la alta correlación positiva entre las ventas
anuales de goma de mascar y el índice de criminalidad en Estados Unidos. Es obvio que no
podemos concluir que se pueden reducir los crímenes prohibiendo la venta de goma de
mascar; ambas variables dependen del tamaño de la población y es esta relación mutua con
una tercera variable (del tamaño de la población) la que genera una correlación positiva.
32

Fuente:
AVILA R. (1998) Estadística Elemental Lima Estudios y
Ediciones RA.

Lectura 10: Correlación de Rangos, pp. 269-277

2.15. CORRELACIÓN DE RANGOS: COEFICIENTE DE CORRELACIÓN POR RANGOS


ρ

La correlación por rangos o de ordenamiento es un caso particular de la correlación


rectilínea simple. El coeficiente de CORRELACIÓN POR RANGOS (ρ ) se aplica para analizar
la relación o afinidad de dos variables cuando sus valores, están expresados en números
ordinales, representados por los números naturales 1,2,3,...,n.

Frecuentemente, se representan por tres tipos de problemas en los cuales es


recomendable aplicar la correlación por rangos:

i) Cuando es imposible establecer una calificación mediante valores numéricos objetivos.


Por ejemplo, en la calificación de una entrevista personal o un examen oral, donde la
calificación varía según quien sea el examinador; si el mismo examinador hace dos
pruebas o existen dos examinadores, es probable observar variaciones en los
resultados. Otros ejemplos serían las calificaciones o puntajes otorgados por los jueces
de un concurso de belleza; los puntajes obtenidos en una demostración de gimnasia, o
de un concurso de baile, etc.

En la comparación de los rangos u ordenamientos establecidos por dos personas o


jueces diferentes, encargados de ordenar o clasificar individuos o objetos según alguna
característica, se trata de establecer en qué medida dos ordenaciones son parecidas,
concordantes o contradictorias.

ii) Cuando se tiene datos observados en dos características que se pueden contar o
medir objetivamente, cuyos valores se expresan en números naturales racionales y en
sus propias unidades, pero se advierte o se deduce que entre las dos variables hay
una relación de orden. Entonces, de acuerdo a la magnitud o valor es posible pasar de
los datos originales (números cardinales) a valores ordinales o rangos 1,2,3,...,n. Por
ejemplo, si los datos observados para 5 regiones son el porcentaje de población rural
(X) y el nivel de educativo promedio (Y) que se expresan en números cardinales,
entonces según sus valores es posible ordenarlos, como se indican a continuación:

Valores Originales Valores Ordinales


Xi Yi ui vi
35.1 5.1 4 2
68.1 3.5 2 4
47.6 4.0 3 3
75.2 2.6 1 5
16.9 6.1 5 1

aquí interesa analizar si existe relación entre la proporción de población rural y el nivel
educativo; por lógica se esperaría una relación inversa, como podría comprobarse
cuando el lector calcule el coeficiente de correlación por rangos, puesto que los niveles
educativos son más bajos en poblaciones rurales.

iii) Para analizar el grado de habilidad de una persona, para determinar la ordenación
correcta de "n" individuos u objetos de acuerdo a la intensidad de una característica.
Por ejemplo, presentar 6 objetos de la misma forma y de pesos ligeramente diferentes,
luego someter a una persona a la prueba de ordenar en dos oportunidades los objetos
según sus pesos, de mayor a menor peso, al final es probable que las dos
ordenaciones tengan alguna variación, que se analiza por el Coeficiente de correlación
por rangos (ρ ), cuyo valor indicará la habilidad de la persona para este trabajo de
ordenación.
33

A. FORMULA PARA CALCULAR ρ :

El análisis de la correlación por rangos determina si dos ordenamientos guardan relación


o son coincidentes, o simplemente son discrepantes. Para determinar la magnitud de
esta relación, se utiliza el COEFICIENTE DE CORRELACIÓN POR RANGOS (ρ )
definido por:

n
6 ∑ d12
ρ =1- i =1

n (n² - 1)

fórmula deducida por C. Spearman (1904), donde:

di = ui - vi; la diferencia entre los rangos u ordenes de las variables X e Y.


ui = orden asignado a la primera variable X.
vi = orden asignado a la segunda variable Y.
n = número de pares de valores ordenados.

El coeficiente por rangos (ρ ) es una medida de la asociación de variables expresadas


en es cala de tipo ordinal, de modo que entre los objetos o individuos estudiados puede
establecerse un orden jerárquico para la series. Por ejemplo podemos ordenar n
individuos según sus prejuicios de clase social (X) y según una escala de ingresos (Y),
en este caso se ordenarían los valores de 1 a n.

B. PROPIEDADES DE ρ :

1. Como los ordenamientos ui, vi son números enteros y positivos (números


naturales), distintos, cuyos valores están comprendidos desde 1 a "n", ordenados
de dos maneras, se tiene que:

M(ui) = M(vi); V(ui) = V(vi)

2. El coeficiente de correlación por rangos, también cumple la condición:

-1 ≤ ρ ≤ + 1

de donde:
Si ρ = +1, entonces ambas ordenaciones o calificaciones son
coincidentes.
Si ρ = -1, entonces ambas ordenaciones o calificaciones son
perfectamente contrarias, discrepantes o de ordenación
inversa.
Si ρ = 0, significa que ambas correlaciones no tienen ninguna relación.

3. La relación o validez de las calificaciones u ordenaciones realizadas por dos


jurados, en dos pruebas, etc., será más significativa en la medida que ρ se acerca
a 1.
34

Fuente:
CORTADA, N. & CARRO, M. (1978) Estadística Aplicada. Buenos Aires. EUDEBA

Lectura 11: Otras Pruebas de Asociación, pp. 262-267

2.16. CORRELACIÓN BISERIAL POR PUNTOS

Proporciona una medida de la relación que puede haber entre una variable continua y
una varia dicotomizada que se supone discreta o discontinua. Los datos se ordenan en una
distribución de frecuencia y toman la forman de una tabla de R hileras y 2 columna. Por
ejemplo las variables pueden ser puntajes en un test cualquiera y la variable dicotómica puede
ser hombres, mujeres, estudiantes secundarios universitarios, niños que miren o no televisión,
argentinos - extranjeros, etc. En la práctica la correlación biserial por puntos también se usa
mucho cuando la variable subyacente a la dicotomía es también una variable continua de
alguna aptitud, dicotomizada arbitrariamente. Este es el caso por ejemplo del coeficiente
biserial por puntos usado en el análisis de ítem de un test cuando se interpreta que la aptitud
para resolver un ítem es una variable continua pero se establece la dicotomía convencional de
"acierto" o "desacierto". También así pueden considerarse el éxito o fracaso de una ocupación,
es decir como la dicotomía de una variable continua que se extiende desde un logro acabado
hasta un fracaso rotundo.

La correlación biserial por puntos (o puntual como algunos dicen) es una correlación
por el producto de los momentos para un caso particular en que asignamos a los individuos un
1 en una categoría y un 0 en la otra. También podríamos darle otros valores que no fueran 1 y
0 es decir le podríamos asignar otros pesos a estos valores, pero el coeficiente no depende de
los pesos asignados.

La fórmula es:

rpbi = Xp - Xq pq
st

en donde,

st = desviación estándar de todos los puntajes de la variable continua.


p y q = proporciones de los individuos en las dos categorías de la variable discontinua o
dicotomizada.

Otras pruebas de asociación

Xp y Xq = medias de los puntajes de la variable continua en las dos categorías.

Cuando los datos están agrupados en una distribución de frecuencias, es más útil la
fórmula siguiente:

p
rpbi = Xp - Xt
q
st

en donde,

Xt = media de todos los puntajes de la variable continua. Sea por ejemplo el cuadro 10.16,
en cuyos datos se estudian la correlación entre los puntajes totales de un test y el
"éxito" o "fracaso" en resolver un ítem particular (situación muy común en el análisis de
los ítem).
35

CUADRO 10.16

Ítem A Cálculo Xp Cálculo st


Puntaje en el test Fracaso Éxito Total ft
fp fp X' fpx' ftx' ft x'²
0-9 2 - - -5 - -10 50
10-19 8 - 8 -4 - -32 128
20-29 9 3 12 -3 -9 -36 108
30-39 17 3 20 -2 -6 -40 80
40-49 3 9 15 -1 -9 -15 15
50-59 1 18 21 0 0 0 0
60-69 17 18 1 17 18 18
70-79 1 1 2 2 2 4
80-89 2 2 3 6 6 18
90- 1 1 4 4 4 16
46 54 100 5 -103 437

Otras pruebas de asociación en que la variable continua discrimina o diferencia entre


las dos categorías de la variable dicotómica. (Ver Guilford, pág. 510 para demostración de que
rpbi es una forma de r de Pearson).

2.16.1. Correlación tetracórica


En esta correlación los datos se ordenan en una tabla de doble entrada de
dos o sea de 4 celdas. Supone que ambas variables dicotomizadas son en
realidad normales en su distribución, de tipo continuo y que están
relacionadas en forma lineal. Es una estimación de correlación de Pearson
por el producto de los momentos. El cálculo directo de la correlación
tetracórica es complejo desde el punto de vista algebraico y trabajoso en
cuanto a sus cómputos aritméticos. La ecuación completa para la r
tetracórica (rt) es una serie que incluye varias potencias de r. Los primeros
términos son:
rt + r²t zz' + r3t (z²-1)(z'²-1) +...+ ab-bc
2 6 y.y'N²

en donde a, b, c, d se refieren a las frecuencias de la tabla de doble entrada


rt = correlación tetracórica.

z y z' son los valores en puntajes z correspondientes a la abscisa para


los puntos correspondientes a p y q; y e y' son los valores
correspondientes a la ordenada de la curva normal (tabla XII, apéndice
B).

Para estimar aproximadamente los valores de rt no puede usar la fórmula


anterior pues es muy complicado; por esto se han buscado diversos
métodos y procedimientos aproximados. Uno de estos métodos es la
fórmula del coseno de π que en su forma matemática es:

 bc 
rcos π = cos π  
 ad + bc 

Como a los fines del cálculo π puede considerarse igual a 180 grados, la
forma de la ecuación es:

 180 °bc 
rcos π = cos 
 
 ad + bc 

Dividiendo el numerador por bc tenemos una fórmula más conveniente a los


fines que es la siguiente:
36

p = 46/100 . 0,46
q = 54/100 = 0,54
Xt = Z + ftx' i = 54,5 + -103 10 = 44,20
N 100

Xp = 54,5 + 5/54 10 = 55,43

2
437 - 103
st = 10 - = 18,19
100 100

0,54
rpbi = 55,43 - 44,20 . = 0,667
0,46
18,19

El coeficiente de correlación biserial por puntos no es independiente de las


proporciones de las dos categorías. Cuando p = q = 0,50 sus valores
máximo y mínimo diferirán de los mismos cuando p = 0,20 y q = 0,80. El
valor máximo de rpbi nunca alcanza +1 ni -1. Al predecir una variable
dicotomizada de una variable continua, la predicción es posible y se da
cuando las dos distribuciones de frecuencia no se superponen. La
predicción perfecta de una variable continua a partir de una variable
dicotomizada en dos categorías es obviamente imposible. Siempre existe
algún error en la predicción de una variable que puede tomar una gran
gama de valores cuando se hace a partir de una variable que solo puede
tener dos valores. La correlación biserial por puntos refleja este fenómeno.
Vale la pena observar que la recta de regresión obtenida se calcula para las
medias de dos columnas, por lo tanto debe forzosamente ser una recta,
pues solo tenemos dos puntos.

La recta de regresión obtenida calculando las medias de las hileras no


puede ser lineal excepto bajo ciertas circunstancias muy especiales. Para
probar la significación de rpbi podemos considerar la situación como si
quisiéramos comparar las dos medias Xp y Xq. El valor de t sería:

N - 2
t = rpbi 2
1 - rpbi

Los grados de libertad son N - 2. Para los valores grandes de N podemos


usar 1/ N como error estándar de rpbi para probar la significación de su
diferencia de 0. El coeficiente de correlación biserial por puntos puede
interpretarse siempre como una medida del grado.

Recordemos que el coseno de un ángulo es la relación entre el catedo


adyacente y la hipotenusa, es decir si el ángulo es POQ (ver figura 10.6) el
coseno es igual a

cos = OQ
OP

Así para un ángulo cuyos catedos miden 4m y 4m y la hipotenusa vale 5,6


m el coseno es igual a 4/5,6 = 0,71 que buscando en las tablas de los
cosenos vemos que corresponde a un ángulo de 45° (ver tablas de un texto
de trigonometría).

Por este método siempre que el ángulo resultante varía entre 90° y 180° la
correlación es negativa. Como los ángulos mayores de 90 grados no suelen
hallarse en las tablas trigonométricas comunes para los ángulos mayores de
37

90° se resta el valor hallado de 180°, se halla el coseno de la diferencia y se


le coloca signo negativo. Existen ábacos muy útiles para hallar los
coeficientes tetracóricos que son los de Thurstone (Chresire, Saffir and
Thurstone, Computing Diagrams for the Tetrachoric Correlation Coefficient,
Chicago University Press 1938).

Un substituto aproximado para éstos es la tabla IX del apéndice B, para la


que solo se necesita conocer la relación ad/bc (o su valor recíproco bc/ad).
Siempre hay que calcular la relación que da un valor mayor que 1, pero si se
ha tenido que buscar bc/ad hay que darle al resultado un signo negativo.

2.16.2. Significación de la rt

La correlación tetracórica es menos segura que la correlación de Pearson,


pues es por lo menos el 50 por ciento menos variable. La correlación
tetracórica es más confiable cuando N es grande como sucede con casi
todos los valores estadísticos y también cuando la división en dos
categorías en cada variable es cercana a las medianas. La fórmula para
estimar el error estándar de la correlación tetracórica es muy complicada
pero cuando la rt = 0 la fórmula es:

pp' qq'
srt =
yy' N

para los datos del cuadro 10.17 sería

0,532 . 0,602 . 0,418 . 0,398


srt = = 0,053
0,390 . 0,385 930

 
 
 180 ° 
rcos = π = cos  
ad
1 + 
 bc 

Por ejemplo supongamos que tenemos que correlacionar los resultados de


dos preguntas de un cuestionario de personalidad. Pregunta 1: ¿Le gusta a
usted estar con mucha gente? Sí, No. Pregunta 2: ¿Le gusta a usted más
trabajar con otras personas que solo? Sí, No. Supongamos que los
resultados son los del cuadro 10.17.

CUADRO 10.17

Pregunta 1
Si No Tot. Prop.
P Sí 374 169 541 .582 (p)
r (a) (b)
e 186 203 389 .418 (q)
g. No (c) (d)
Preguta 2

560 370 930 1.000


Tot.
2 .602 .398 1.000
Prop. (p') (q')

Aplicando la fórmula (10.44) tenemos:


180 °
rcos π = cos 374 x 203 = cos 70,24° = 0,343
1 +
167 x 186
38

En este método es bueno recordar que b y c representan los casos de signo


contrario, y a y d los casos de igual signo. Cuando se substituye por los
números nos hallamos con una expresión que es un valor de un ángulo en
términos de grados de la circunferencia. El coseno de este ángulo es la
estimación de rt. El ángulo variará entre 0 y 180 grados. En el primer caso
(0°) la correlación es de +1; en el segundo caso, cuando el ángulo valga
180°, rt = -1. Cuando el producto bc = ad el ángulo es de 90° cuyo coseno
es 0.
39

Fuente:
ALARCON, R. (1991). Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia.

Lectura 12: Validez, 288-298

2.17. VALIDEZ

¿Hasta qué punto podemos tener seguridad que hemos medido el atributo que
pretendíamos medir? Si nuestro propósito fue determinar el peso de un objeto y llevado a la
balanza arroja 10 kg., podemos afirmar que el objeto pesa 10 kg. La misma afirmación plena
podemos hacer cuando medimos algún atributo físico de los individuos. No habrá reparos sobre
las medidas tomadas de la talla, el peso y la temperatura de una persona. Los instrumentos de
medición que se utilizan (metro, balanza y termómetro) guardan íntima relación con el atributo
que se mide; es decir, son apropiados para medir aquellas dimensiones.

Empero, si el propósito fue medir alguna variable psicológica, v.g., neuroticismo y para
ello utilizamos el test "N" de neuroticismo, la seguridad respecto del resultado no es tan plena
como en el caso de la medición de las propiedades físicas, no obstante que el test lleva el
nombre del rasgo por medir. La denominación de un test no es una razón suficiente de
seguridad. El problema es de congruencia entre el instrumento de medida y la propiedad
medible, vale decir, que el test mida realmente la conducta que se propone medir. El concepto
de validez conlleva, en efecto, la idea de correspondencia entre el instrumento de medida y la
propiedad que se mide. De manera que, un test será válido si mide el atributo para el cual fue
construido. El test de "neuroticismo", que nos sirve de ejemplo, será válido si mide la conducta
neurótica, y no otra. Obsérvese que la validez es un concepto específico, en el sentido de que
un test que presenta esta cualidad puede ser altamente válido como instrumento de medición
de una determinada conducta y solamente de ella.
40

Fuente:
HERNANDEZ R. (1991) Metodología de la Investigación. México
D.F. McGRAW-HILL
Lectura 13: Qué requisitos debe cubrir un instrumento de medición? (Debate en clase)
pp. 242-263

2.18. ¿QUÉ REQUISITOS DEBE CUBRIR UN INSTRUMENTO DE MEDICIÓN?

Toda medición o instrumento de recolección de los datos debe reunir dos requisitos
esenciales: confiabilidad y validez. La confiabilidad de un instrumento de medición se refiere al
grado en que su aplicación repetida al mismo sujeto u objeto, produce iguales resultados. Por
ejemplo, si yo midiera en este momento la temperatura ambiental mediante un termómetro y
me indicara que hay 22°C. Un minuto más tarde consultara otra vez y el termómetro me
indicara que hay 5°C. Tres minutos después observara el termómetro y ahora me indicara que
hay 40°C. Este termómetro no sería confiable (su aplicación repetida produce resultados
distintos). Igualmente, si una prueba de inteligencia la aplico hoy a un grupo de personas y me
proporciona ciertos valores de inteligencia; la aplico un mes después y me proporciona valores
diferentes, al igual que en subsecuentes mediciones. Esa prueba no es confiable (analícense
los valores de la figura 9.1 suponiendo que los coeficientes de inteligencia puedan oscilar entre
95 y 150). Los resultados no son consistentes, no se puede "confiar" en ellos.

Figura 91.

EJEMPLO DE RESULTADOS PROGRAMADOS POR


UN INSTRUMENTO DE MEDICIÓN SIN CONFIABILIDAD

PRIMERA SEGUNDA TERCERA


APLICACIÓN APLICACIÓN APLICACIÓN
Martha 130 Laura 131 Luis 140
Laura 125 Luis 130 Teresa 129
Arturo 118 Marco 127 Martha 124
Luis 112 Arturo 120 Rosa María 120
Marco 110 Chester 118 Laura 109
Rosa María 110 Teresa 118 Chester 108
Chester 108 Martha 115 Arturo 103
Teresa 107 Rosa María 107 Marco 101

La confiabilidad de un instrumento de medición se determina mediante diversas


técnicas, las cuales se comentarán brevemente después de revisar el concepto de validez.

La validez, en términos generales, se refiere al grado en que un instrumento realmente


mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia
válido debe medir la inteligencia y no la memoria. Una prueba sobre conocimientos de Historia
debe medir esto y no conocimientos de Literatura histórica. Aparentemente es sencillo lograr la
validez. Después de todo - como dijo un estudiante - "pensamos en la variable y vemos cómo
hacer preguntas sobre esa variable". Esto sería factible en unos cuantos casos (como lo sería
el "sexo" de una persona). Sin embargo, la situación no es tan simple cuando se trata de
variables como la motivación, la calidad de servicio a los clientes, así como diversas variables
con las que trabajamos en ciencias sociales. La validez es una cuestión más compleja que
debe alcanzarse en todo instrumento de medición que se aplica. Kerlinger (1979, p. 138)
plantea la siguiente pregunta respecto a la validez: ¿Está usted midiendo lo que usted cree que
está midiendo? Si es así, su medida es válida; si no, no lo es.

La validez es un concepto del cual pueden tenerse diferentes tipos de evidencia


(Wiersma, 1986; Gronfund, 1985): 1)evidencia relacionada con el contenido, 2)evidencia
relacionada con el criterio y 3)evidencia relacionada con el constructo. Hablemos de cada una
de ellas.
41

1. Evidencia relacionada con el contenido


La validez de contenido se refiere al grado en que un instrumento refleja un dominio
específico de contenido de lo que se mide. Es el grado en que la medición representa al
concepto medido (Bohrnstedt, 1976). Por ejemplo, una prueba de operaciones
aritméticas no tendrá validez de contenido si incluye solo problemas de resta y excluye
problemas de suma, multiplicación o división (Carmines y Zeklter, 1979). O bien, una
prueba de conocimientos sobre las canciones de "Los Beatles" no deberá basarse
solamente en sus álbumes "Let it Be" y "Abbey Road", sino que debe incluir canciones
de todos sus discos.

Un instrumento de medición debe contener representados a todos los items del dominio
de contenido de las variables a medir. Este hecho se ilustra en la figura 9.2.

2. Evidencia relacionada con el criterio

La validez de criterio establece la validez de un instrumento de medición comparándola


con algún criterio externo. Este criterio es un estándar con el que se juzga la validez del
instrumento (Wiersma, 1986). Entre los resultados del instrumento de medición se
relacionen más el criterio, la validez del criterio será mayor. Por ejemplo, un investigador
valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qué tan bien un grupo de pilotos puede operar un aeroplano.

Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del


instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo).
Por ejemplo, un cuestionario para detectar las preferencias del electorado por los
distintos partidos contendientes, puede validarse aplicando tres o cuatro días antes de la
elección y sus resultados compararlos con los resultados finales de la elección (si no hay
fraude - desde luego).

Si el criterio se fija en el futuro, se habla de validez predictiva. Por ejemplo, un prueba


para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeño de los ejecutivos medidos.

3. Evidencia relacionada con el constructo

La validez de constructo es probablemente la más importante sobre todo desde una


perspectiva científica y se refiere al grado en que una medición se relaciona
consistentemente con otras mediciones de acuerdo con hipótesis derivadas teóricamente
que conciernen a los conceptos (o constructos) que están siendo medidos. Un constructo
es una variable medida y que tiene lugar dentro de una teoría o esquema teórico.

Por ejemplo, supongamos que un investigador desea evaluar la validez del constructo de
una medición particular, digamos una escala de motivación intrínseca "el Cuestionario de
Reacción a Tareas", versión mexicana (Hernández - Sampieri Cortés, 1982). Estos
autores sostienen que el nivel de motivación intrínseca hacia una tarea está relacionado
positivamente con el grado de persistencia adicional en el desarrollo de la tarea (v.g., los
empleados con mayor motivación intrínseca son los que suelen quedarse más tiempo
adicional una vez que concluye su jornada). Consecuentemente, la predicción teórica es
que a mayor motivación intrínseca, mayor persistencia adicional en la tarea. El
investigador administra dicho cuestionario de motivación intrínseca a un grupo de
trabajadores y también determina su persistencia en el trabajo. ambas mediciones son
correlacionadas. Si la correlación o positiva y sustancia, se aporta evidencia para la
validez de constructo del Cuestionario de Reacción a Tareas, versión mexicana (a la
validez para medir la motivación intrínseca).

La validez de constructo incluye tres etapas:

a. Se establece y específica la relación teórica entre los conceptos (sobre la base del
marco teórico).
b. Se correlacionan ambos conceptos y se analiza cuidadosamente la correlación.
42

c. Se interpreta la evidencia empírica de acuerdo a qué tanto clarifica la validez de


constructo de una medición en particular.

El proceso de validación de un constructo está vinculado con la teoría. No es posible


llevar a cabo la validación de constructo, a menos que exista un marco teórico que
soporte a la variable en relación con otras variables. Desde luego, no es necesario una
teoría sumamente desarrollada, pero si investigaciones que hayan demostrado que los
conceptos están relacionados. Entre más elaborado y comprobado se encuentre el
marco teórico que apoya la hipótesis, la validación de constructo puede arrojar mayor luz
sobre la validez de un instrumento de medición. Y mayor confianza tenemos en la validez
de constructo de una medición, cuando sus resultados se correlacionan
significativamente con un mayor número de mediciones de variables que teóricamente y
de acuerdo con estudios antecedentes están relacionadas.

Para analizar las posibles interpretaciones de evidencia negativa en la validez de


constructo, se sugiere consultar a Cronbach y Meehl (1955) y Cronbach (1984).

VALIDEZ TOTAL = VALIDEZ DE CONTENIDO + VALIDEZ DE CRITERIO + VALIDEZ DE


CONSTRUCTO

Así, la validez de un instrumento de medición se evalúa sobre la base de tres tipos de


evidencia. Entre mayor evidencia de validez de contenido, validez de criterio y validez de
constructo tenga un instrumento de medición, éste se acerca más a representar la variable o
variables que pretende medir.

Cabe agregar que un instrumento de medición puede ser confiable pero no


necesariamente válido (un aparato - por ejemplo - puede ser consistente en los resultados que
produce, pero no medir lo que pretende). Por ello es requisito que el instrumento de medición
demuestre ser confiable y válido. De no ser así, los resultados de la investigación no los
podemos tomar en serio.

FACTORES QUE PUEDEN AFECTAR LA CONFIABILIDAD Y VALIDEZ

Hay diversos factores que pueden afectar la confiabilidad y la validez de los


instrumentos de medición.

El primero de ellos es la improvisación. Algunas personas creen que elegir un


instrumento de medición a desarrollar uno es algo que puede tomarse a la ligera. Incluso
algunos profesores piden a los alumnos que construyan instrumentos de medición de un día
para otro, o lo que es casi lo mismo, de una semana a otra. Lo cual habla del poco o nulo
conocimiento del proceso de elaboración de instrumentos de medición. Esta improvisación
genera - casi siempre - instrumentos poco válidos o confiables y no debe existir en la
investigación social (menos aún en ambientes académicos). Aún o los investigadores
experimentados les toma tiempo desarrollar un instrumento de medición. Es por ello que los
construyen con cuidado y frecuentemente están desarrollándolos, para que cuando lo
necesiten con premura se encuentren preparados para aplicarlos, pero no los improvisan.
Además, para poder construir un instrumento de medición se requiere conocer muy bien a la
variable que se pretende medir y la teoría que lo sustenta. Por ejemplo, generar - o
simplemente seleccionar - un instrumento que mida la inteligencia, la personalidad o los usos y
gratificaciones de la televisión para el niño, requiere amplios conocimientos en la materia, estar
actualizados al respecto y revisar cuidadosamente la literatura correspondiente.

El segundo factor es que a veces se utilizan instrumentos desarrollados en el extranjero


que no han sido validados a nuestro contexto cultura y tiempo. Traducir un instrumento - aun
cuando adaptemos los términos a nuestro lenguaje y los contextualicemos - no es de ninguna
manera (ni remotamente) validarlo. Es un primero y necesario paso, pero sólo es el principio.
Por otra parte, hay instrumentos que fueron validados en nuestro contexto pero hace mucho
tiempo. Hay instrumentos que hasta el lenguaje nos suena "arcaico". Las culturas, los grupos y
las personas cambian; y esto debemos tomarlo en cuenta al elegir o desarrollar un instrumento
de medición.
43

Un tercer factor es que en ocasiones el instrumento resulta inadecuado para las


personas a las que se les aplica: no es empático. Utilizar un lenguje muy elevado para el
respondiente, no tomar en cuenta diferencias en cuanto a sexo, edad, conocimientos,
capacidad de respuesta, memoria, nivel ocupacional y educativo, motivación para responder y
otras diferencias en los respondientes, son errores que pueden afectar la validez y confiabilidad
del instrumento de medición.

Un cuarto factor que puede influir está constituido por las condiciones en las que se
aplica el instrumento de medición. Si hay ruido, hace mucho frío (por ejemplo en una encuesta
de casa en casa), el instrumento es demasiado largo o tedioso, son cuestiones que pueden
afectar negativamente la validez y la confiabilidad. Normalmente en los experimentos se puede
contar con instrumentos de medición más largos y complejos que en los diseños no
experimentales. Por ejemplo, en una encuesta pública sería muy difícil poder aplicar una
prueba largo o compleja.

Por otra parte, aspectos mecánicos tales como que si el instrumento es escrito, no se
lean bien las instrucciones, falten páginas, no haya espacio adecuado par contestar, no se
comprendan las instrucciones, también pueden influir de manera negativa.

2.19. ¿CÓMO SE SABE SI UN INSTRUMENTO DE MEDICIÓN ES CONFIABLE Y


VÁLIDO?

En la práctica imposible que una medición sea perfecta. Generalmente se tiene un


grado de error. Desde luego, se trata de que este error sea el número posible. Es por eso que
la medición de cualquier fenómeno se conceptualiza con la siguiente fórmula básica:
X=t+e

Donde "X" representa los valores observados (resultados disponibles), "t" son los
valores verdaderos y "e" es el grado de error en la medición. Si no hay error de medición ("e"
es igual a cero), el valor observado y el verdadero son equivalentes. Esto puede verse
claramente así:

X=t+0
X=t

Esta situación representa el ideal de la medición. Entre mayor sea el error al medir, el
valor que observamos (y que es en el que nos basamos) se aleja más el valor real o verdadero.
Por ejemplo, si medimos la motivación de un individuo y esta medición está contaminada por
un grado de error considerable, la motivación registrada por el instrumento será bastante
diferente de la motivación real que tiene ese individuo. Por ello es importante que el error sea
reducido lo más posible. Pero, ¿cómo sabemos el grado de error que tenemos en una
medición? Calculando la confiabilidad y validez.

CALCULO DE LA CONFIABILIDAD

Existen diversos procedimientos para calcular la confiabilidad de un instrumento de


medición. Todos utilizan fórmulas que producen coeficientes de confiabilidad. Estos
coeficientes pueden oscilar entre 0 y 1. Donde un coeficiente de 0 significa nula confiabilidad y
1 representa un máximo de confiabilidad (confiabilidad total). Entre más se acerque el
coeficiente a cero (0), hay mayor error en la medición. Esto se ilustra en la figura 9.4.

FIGURA 9.4.
44

INTERPRETACIÓN DE UN COEFICIENTE DE CONFIABILIDAD

CONFIABILIDAD

MUY BAJA BAJA REGULAR ACEPTABLE ELEVADA

0
0% de confiabilidad en 100% de
la medición la confiabilidad en
medición (la medición la medición (no
está contaminada de hay error)
error)

Los procedimientos más utilizados para determinar la confiabilidad mediante un


coeficiente son:

1. Medida de estabilidad (confiabilidad por tes-retest). En este procedimiento un mismo


instrumento de medición (o items o indicadores) es aplicado dos o más veces a un
mismo grupo de personas, después de un período de tiempo. Si la correlación entre los
resultados de las diferentes aplicaciones es altamente positiva, el instrumento se
considera confiable. Se trata de una especie de diseño panel. Desde luego, el período de
tiempo entre las mediciones es un factor a considerar. Si el periodo es largo y la variable
susceptible de cambios, ello puede confundir la interpretación del coeficiente de
confiabilidad obtenido por este procedimiento. Y si el periodo es corto las personas
pueden recordar cómo contestaron en la primera aplicación del instrumento, para
aparecer como más consistentes de lo que son en realidad (Bohrnstedt, 1976).

2. Método de formas alternativas o paralelas. En este procedimiento no se administra el


mismo instrumento de medición, sino dos o más versiones equivalentes de éste. Las
versiones son similares en contenido, instrucciones, duración y otras características. Las
versiones - generalmente dos - son administradas a un mismo grupo de personas dentro
de un período de tiempo relativamente corto. El instrumento es confiable si la correlación
entre los resultados de ambas administraciones es significativamente positiva. Los
patrones de respuesta pueden variar poco entre las aplicaciones.

3. Método de mitades partidas (split-halves). Los procedimientos anteriores (medida de


estabilidad y método de formas alternas), requieren cuando menos dos administraciones
de la medición en el mismo grupo de individuos. En cambio, el método de mitades-
partidas requiere sólo una aplicación de la medición.

Específicamente, el conjunto total de items (o componentes) es dividido en dos mitades y


las puntuaciones o resultados de ambas son comparados. Si el instrumento es confiable,
las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un
individuo con baja puntuación es una mitad, tenderá a tener también una baja puntuación
en la otra mitad. El procedimiento se diagrama en la figura 9.5.

La confiabilidad varía de acuerdo al número de items que incluya el instrumento de


medición. Cuantos más items la confiabilidad aumenta (desde luego, que se refieran a la
misma variable). Esto resulta lógico, veámoslo con un ejemplo cotidiano: Si se desea
probar qué tan confiable o consistente es la lealtad de un amigo hacia nuestra persona,
cuantas más pruebas le pongamos, su confiabilidad será mayor. Claro está que
demasiados items provocarán cansancio en el respondiente.

4. Coeficiente alfa de Cronbach. Este coeficiente desarrollado por J.L. Cronbach requiere
una sola administración del instrumento de medición y produce valores que oscilan entre
0 y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los items del
instrumento de medición, simplemente se aplica la medición y se calcula el coeficiente.
45

5. Coeficiente KR-20. Kuder y Richardson (1973) desarrollaron un coeficiente para estimar


la confiabilidad de una medición, su interpretación es la misma que la del coeficiente alfa.

CALCULO DE LA VALIDEZ

La validez de contenido es compleja de obtener. Primero, es necesario revisar cómo ha


sido utilizada la variable por otros investigadores. Y en base a dicha revisión elaborar un
universo de items posibles para medir la variable y sus dimensiones (el universo tiene que ser
lo más exhaustivo que sea factible). Posteriormente, se consulta con investigadores
familiarizados con la variable para ver si el universo es exhaustivo. Se seleccionan los items
bajo una cuidadosa evaluación. Y si la variable tiene diversas dimensiones o facetas que la
componen, se extrae una muestra probabilística de items (ya sea al azar o estratificada - cada
dimensión constituiría un estrato -). Se administran los items, se correlacionan las puntuaciones
de los items entre si (debe haber correlaciones altas, especialmente entre items que miden una
misma dimensión) (Bohrnstedt, 1976), y se hacen estimaciones estadísticas para ver si la
muestra es representativa. Para calcular la validez de contenido son necesarios varios
coeficientes.

La validez de criterio es más sencilla de estimar, lo único que hace el investigador es


correlacionar su medición con el criterio, y este coeficiente es el que se toma como coeficiente
de validez (Bohrnstedt, 1976). Esto podría representarse así:

Medición
Correlación
Criterio

La validez de constructo se suele determinar mediante un procedimiento denominado


"Análisis de Factores". Su aplicación requiere de sólidos conocimientos estadísticos y del uso
de un programa estadístico apropiado en computadora. Para quien desee compenetrarse con
esta técnica recomendamos consultar a Harman (1967), Gorsuch (1974), Nie et al. (1975), On-
Kim y Mueller (178a y 1976b) y Hunter (1980). Asimismo, para aplicarlos se sugiere revisar a
Nie et al. (1975), Cooper y Curtis (1976) y - en español - Padua (1979). Aunque es requisito
conocer el programa estadístico para computadora.
46

Fuente:
ALARCON, R. (1991) Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia

Lectura 14: Confiabilidad, pp. 300-301

2.20. CONFIABILIDAD

El concepto de "confiabilidad de un test hace referencia a la consistencia de los


puntajes obtenidos por un mismo grupo de sujetos en una serie de mediciones tomadas con el
mismo test. Según esta idea, la "confiabilidad" denota estabilidad y constancia de los puntajes,
esperándose que no presenten variaciones significativas en el curso de una serie de
aplicaciones del test. Desde otro punto de vista, la confiabilidad se refiere al grado de varianza
de las mediciones atribuible a fuentes de error. Se puede preguntar, ¿hasta qué punto los
puntajes obtenidos están libres de error de medición? De acuerdo con estos enfoques, la
confiabilidad de un test puede expresarse en términos de "coeficientes de confiabilidad", esto
es, la correlación entre dos mediciones obtenidas de la misma manera, y en términos del "error
estándar de la medición" (Cronbach, 1960; "Standars", 1974). Ambos enfoques serán
examinados en esta exposición.

La confiabilidad definida en términos de la "constancia" temporal de las puntuaciones


de un test, se basa en la idea que algunas características psicológicas, p.e., habilidades y
rasgos de personalidad, son relativamente estables en el tiempo; no experimentan variaciones
significativas en tiempos más o menos breves, requeridos para observar la consistencia de una
serie de mediciones con el mismo test. La constancia de las puntuaciones se puede observar
mediante: (a)el "coeficiente de estabilidad", que conlleva tomar medidas de la misma conducta
con el mismo instrumento; y (b)el "coeficiente de equivalencia", que mide la constancia de los
puntajes utilizando en la segunda aplicación una forma paralela al test original. La estrategia de
las pruebas paralelas o equivalentes, supera los problemas que surgen de la primera
aplicación, como el aprendizaje residual que favorece el rendimiento en la segunda medición.
Un tercer grupo (c) de coeficientes de confiabilidad, denominados "coeficientes de consistencia
interna", están orientados a estimar el grado en que los reactivos de un test están
interrelacionados y miden una misma característica. Suele utilizarse el término "homogeneidad"
para referirse a las estimaciones de consistencia que se ocupan principalmente de la estructura
interna de un test (Brown, 1980). Sumarizando, los coeficientes (a) y (b) enfocan la
confiabilidad por la consistencia de las puntuaciones, en tanto que los índices de
homogeneidad (c) se refieren a la estructura interna del test. En este sentido, una prueba
psicológica será más homogénea cuando la correlación promedio entre los reactivos es alta,
anunciando que los reactivos tienden a medir el mismo rasgo. En tanto que, la confiabilidad de
un reactivo puede expresarse en función de la interrelación promedio entre ese reactivo y todos
los demás del dominio (Brown, 1980, p.104).

2.21. ¿QUÉ PROCEDIMIENTO SE PARA CONSTRUIR UN INSTRUMENTO DE


MEDICIÓN?

Existen diversos tipos de instrumentos de medición, cada uno con características


diferentes. Sin embargo, el procedimiento general para construirlos es semejante. Antes de
comentar este procedimiento, es necesario aclarar que en una investigación hay dos opciones
respecto al instrumento de medición:

1. Elegir un instrumento ya desarrollado y disponible, el cual se adapta a los requerimientos


del estudio en particular.
2. Construir un nuevo instrumento de medición de acuerdo con la técnica apropiada para
ello.

En ambos casos es importante tener evidencia sobre la confiabilidad y validez del


instrumento de medición.
47

El procedimiento que sugerimos para construir un instrumento de medición es el


siguiente, especialmente para quien se inicia en esta materia.

PASOS

a. LISTAR LAS VARIABLES que se pretende medir u observar.


b. REVISAR SU DEFINICIÓN CONCEPTUAL Y COMPRENDER SU SIGNIFICADO. Por
ejemplo, comprender bien qué es la motivación intrínseca y qué dimensiones la integran.
c. REVISAR COMO HAN SIDO DEFINIDAS OPERACIONALMENTE LAS VARIABLES,
esto es, cómo se ha medido cada variable. Ello implica comparar los distintos
instrumentos o maneras utilizadas para medir las variables (comparar su confiabilidad,
validez, sujetos a las cuales se les aplicó, facilidad de administración, veces que las
mediciones han resultado exitosas y posibilidad de uso en el contexto de la
investigación).
d. ELEGIR EL INSTRUMENTO O LOS INSTRUMENTOS (YA DESARROLLADOS) QUE
HAYAN SIDO FAVORECIDOS POR LA COMPARACIÓN Y ADAPTARLOS AL
CONTEXTO DE LA INVESTIGACIÓN. En este caso sólo deben seleccionarse
instrumentos cuya confiabilidad y validez se reporte. No se puede uno fiar de una
manera de medir que carezca de evidencia clara y precisa de confiabilidad y validez.
Cualquier investigación sería reportada la confiabilidad y validez de su instrumento de
medición. Recuérdese que la primera varía de 0 a 1 y para la segunda se debe
mencionar el método utilizado de validación y su interpretación. De no ser así no
podemos asegurar que el instrumento sea el adecuado. Si se selecciona un instrumento
desarrollado en otro país, deben hacerse pruebas piloto más extensas (véase el paso G).
También, no debe olvidarse que traducir no es validar un instrumento, por muy buena
que sea la traducción.

El concepto de validez avanza hacia problemas mayores. El propósito del constructor


del test "N" fue medir neuroticismo y para ello desarrolló un conjunto bien logrado de reactivos
de acuerdo a procedimientos técnicos. Ahora bien, ¿habrá aún reparos que impidan afirmar
que dicho test es válido para medir el atributo propuesto? Naturalmente, resulta lícito preguntar
por la construcción teórica acerca de la conducta neurótica que ha utilizado el constructor,
sobre la que se apoya el test. Esta cuestión nos lleva a examinar el alcance de la propuesta
teórica acerca de la naturaleza del atributo por medir. El problema es de fondo, ya se dijo en
otro lugar, que uno de los problemas de la unidad de la medición psicológica es que existen
diferentes formulaciones teóricas sobre una misma conducta.

En suma: el concepto de validez comprende dos problemas sustantivos: (a)el de la


congruencia entre el instrumento de medida y el atributo por medir; y (b)la postulación de un
concepto teórico, expresado en términos operacionales, que condensen la composición
intrínseca del atributo. Los procedimientos para establecer la validez son numerosos y a
menudo han recibido variadas denominaciones. Según los "Standards for Educational and
Psychological Testing" (1985), se distinguen tres clases de validez: validez de contenido,
validez relacionada con criterios (empírica) y validez de constructo. Cada una de estas clases
de validez serán examinadas en las páginas que siguen.

Validez de contenido

Una prueba posee "validez de contenido" cuando los items que la integran constituyen
una muestra representativa de los indicadores de la propiedad que se mide. Dicho en otros
términos, que el test sea un adecuado muestreo del contenido que se examina. Por ejemplo, la
validez de contenido de un test de rendimiento escolar podrá determinarse analizando la
correspondencia de sus items guardan con los temas que cubre la asignación. La prueba
deberá reflejar el énfasis que el programa escolar otorga a ciertos temas, así como a los
objetivos instrumentales que el currículum persigue. Obviamente, la prueba carecerá de validez
de contenido si excluye algunos puntos programáticos o sus items reflejan un muestreo
inadecuado de los conocimientos y destrezas que se han propuesto como objetivos.

Para asegurar que un test constituye un buen muestreo del universo de asuntos que se
pretende examinar, los constructores de tests educacionales utilizan tablas de especificaciones,
48

en las cuales se indican expresamente el número de items que se tendrá que elaborar para
examinar los "contenidos" de la asignatura y los "objetivos" de aprendizaje que se persiguen.
Estas especificaciones son precedidas por un estudio minucioso del universo del contenido y
de las conductas que el proceso de enseñaza-aprendizaje se ha propuesto desarrollar. Un test
educacional evalúa ambos objetivos.

La verificación de la validez de contenido de una prueba educacional no encierra


dificultades, sobre todo porque se dispone de fuentes empíricas (programa escolar, textos
utilizados en la enseñanza, objetivos de instrucción expresos), que facilitan la validación de
contenido del test. Empero, en pruebas que miden variables psicológicas, la validez de
contenido afronta serios problemas. Anastasi observa que "el contenido de los tests de aptitud
y de personalidad apenas sirve más que para revelar la hipótesis que llevó a elaborador del test
a escoger un determinado contenido para medir un rasgo específico. Hay que confirmar
empíricamente estas hipótesis para establecer la validez del test" (Anastasi, 1974, p.107).
Puesto que la validez de contenido resulta intrínseca a la teoría que sobre el atributo postula el
constructor, es probable, y de hecho se dan casos notorios, que distintos expertos no estén de
acuerdo con la hipótesis en que se basa un test, ni con las posibles características que se
señalan como indicadores relevantes de la conducta por medir. En estas circunstancias, no es
posible afirmar acerca de la validez de contenido de un test psicológico como se hace con los
tests educacionales.

Para establecer la validez de contenido se requiere, en suma, que se defina con


precisión el comportamiento que se trata de medir y que se incluya en el test una muestra
representativa de los indicadores relevantes del comportamiento. En la práctica, anota
Kerlinger (1975), la validación de contenido es básicamente cuestión de "juicio"; efectivamente,
a diferencia de otros tipos de validez que son determinados por coeficientes de correlación, la
validez de contenido es verificada por jueces expertos quienes evalúan la representatividad de
los indicadores de la conducta que se mide, buscando establecer si representan el universo del
contenido de esa conducta y la relevancia de los items para medir tales indicadores. El
constructor del test ofrecerá a los jueces claras especificaciones acerca de lo que juzgarán. No
es, pues, tarea fácil satisfacer el concepto de validez de contenido tratándose de tests
psicológico.

Validez relacionada con criterios

La "validez relacionada con criterio" se define por la eficacia de un test para predecir
una conducta en situaciones específicas. Para determinar este tipo de validez se requiere
comparar los puntajes obtenidos en el test con un "criterio externo", que evalúe por otros
medios el rasgo que el test pretende medir. El grado de relación entre el test y el criterio se
determina mediante el cálculo de coeficientes de correlación. Una alta correlación anunciará
una elevada correspondencia entre el test y el criterio y, por tanto, una significativa validez del
instrumento; mutatis mutandis, la baja correlación indicará pobre validez del test. Lo que busca
la validez de criterio es probar la eficacia del test confrontando sus resultados con la actuación
del sujeto en la experiencia real. Un tests de aptitud académica posee validez cuando los
postulantes que obtuvieron altos puntajes en el examen de selección, obtienen altas notas en
sus estudios universitarios.

a. Validez predictiva. De acuerdo con nuestro ejemplo, la decisión acerca de la validez de


un test se juzga por la calidad del rendimiento obtenido por el sujeto examinando en un
tiempo posterior al que fue aplicado el test. Se asume que si la predicción enunciada por
el test corresponde a lo esperado, el test es válido. El conocimiento de la validez por este
procedimiento requiere de un estudio de seguimiento puesto que el valor del test se
comprueba en el futuro. Los criterios externos usuales para determinar la capacidad
predictiva de los test son los siguientes:

i) Comparación con el rendimiento en un entrenamiento especializado

La validez de los test de aptitudes especiales frecuentemente se basa en el


rendimiento del sujeto en una asignatura o entrenamiento especializado. Un test
de aptitud mecánica suele validarse por el rendimiento alcanzado por los
49

estudiantes en un curso de taller. Muchos tests de aptitudes profesionales han


sido validados por la comparación entre los puntajes obtenidos en el test y el
aprovechamiento en las facultades de ingeniería, educación, odontología. El
éxito o el fracaso en el aprendizaje especializado se toman como índices de la
validez del tes.

ii) Comparación con el rendimiento en el ejercicio de un trabajo

En muchos casos el tipo más satisfactorio de criterio de evaluación se basa en el


rendimiento logrado en el ejercicio del trabajo, puesto que la situación de
aprendizaje no es siempre igual que la ejecución de la función misma. Este
criterio ha sido utilizado en la validación de tests de inteligencia, personalidad y
muy ampliamente en tests de aptitudes profesionales e inventarios vocacionales.
Un amplio número de criterio pueden escogerse como medidas de rendimiento
en el trabajo: cantidad y calidad de la ejecución, accidentes en el trabajo,
ascensos, estabilidad y, en términos generales, éxito o fracaso. Obviamente,
este criterio de validación requiere mucho tiempo para completar la información;
se observa, asimismo, que tanto el éxito como el fracaso ocupacional dependen
de otros factores que rebasan la conducta evaluada y que invalidan el criterio.

iii) Comparación con el aprovechamiento académico

Es un criterio de uso extendido en la validación de tests de inteligencia verbal y


de aptitudes académicas. Estas pruebas ponen en actividad funciones
intelectuales requeridas para el trabajo escolar o académico. Se considera que
un test de este tipo es buen predictor si correlaciona alto con el rendimiento en
los estudios. Suele utilizarse como criterio de rendimiento, las notas de
aprovechamiento y los juicios de los maestros sobre el rendimiento intelectual de
los estudiantes. Tales criterios no son siempre objetivos ni precisos y a menudo
no revelan el rendimiento real. Para atribuir valor a las notas escolares será
preciso conocer el tipo de evaluación que se utiliza para apreciar el rendimiento.
Una buena práctica consiste en utilizar el promedio de rendimiento obtenido
mediante exámenes objetivos.

La validez predictiva provee un modelo adecuado para la validación de tests


utilizados en la selección de personal para puestos de trabajo, selección de
estudiantes o estudios universitarios y para inventarios de intereses
vocacionales. En todos estos casos el uso de tests implica algún grado de
predicción. Regularmente, este tipo de validez lleva implicaciones prácticas. En
efecto, un test con alta capacidad predictiva se utiliza para tomar decisiones,
v.gr.: un postulante a estudios universitarios con bajo puntaje en la prueba de
aptitud académica, no es admitido; lo mismo ocurre en la selección de personal
en la industria. Cuando menos es un juicio importante.

b. Validez concurrente. La validez predictiva necesita un intervalo de tiempo para inferir la


validez de un test. Empero, cuando se hace necesario, con alguna urgencia, disponer de
información empírica sobre una prueba, la "validez concurrente" se presenta como un
buen sustituto. Su determinación conlleva aplicar el test a un grupo de sujetos de
quienes se tiene información relevante. Por ejemplo, la validez de un test de inteligencia
verbal se puede establecer, comparando sus puntajes con las notas escolares
disponibles, del grupo examinado.

La "validez concurrente" no es siempre una solución de compromiso, tiene valor por sí


misma en la validación de tests utilizados en el diagnóstico. A menudo, los tests de
diagnóstico clínico son comparados con los juicios hechos por el psiquiatra que trata al
paciente. En este caso, la validez concurrente no se diferencia de la predictiva en razón
al tiempo, sino por el objetivo que persigue. Según Anastasi la validez concurrente
resulta apropiada en la validación de tests empleados para el diagnóstico de la situación
actual, más que para la predicción de situaciones futuras (Anastasi, 1974, p. 110). Este
tipo de comprobación empírica es denominada validación concurrente porque las dos
50

fuentes de información son obtenidas al mismo tiempo. Entre los criterios externos para
determinar la validez concurrente se utilizan los procedimiento que más abajo se indican.

i) Validación por contrastación con grupos definidos

Esta técnica de validación asume que la propiedad medida por el test debe
destacarse en un grupo característico de sujetos, para considerar válida la
prueba. Los grupos que sirven para establecer las comparaciones son
seleccionados en atención a diversos puntos de vista. Para determinar la validez
de un test de aptitud para ingeniería, se administra a un grupo de estudiantes de
esta carrera. Grupos ocupacionales definidos han servido de base para
establecer la validez de pruebas de intereses vocacionales y de aptitudes
específicas. Las pruebas de personalidad son a menudo validadas en
instituciones para enfermos mentales, comparando los resultados obtenidos por
sujetos normales y pacientes. Un test construido para medir rasgos neuróticos,
al aplicarlo a un grupo de sujetos neuróticos, clínicamente diagnosticados, se
espera que obtengan puntajes altos; al administrar el mismo test a sujetos
sindicados normales, se esperará que las puntuaciones sean bajas. En el
desarrollo de pruebas de personalidad el diagnóstico psiquiátrico es usado con
frecuencia de base para la selección de los items del test y como una evidencia
de su validez.

ii) Correlación con un test acreditado que explora la misma conducta

Este método de validación es utilizado cuando se dispone de un test altamente


acreditado, que se toma como criterio de comparación. Por mucho tiempo la
Escala Stanford-Binet ha servido de criterio para validar nuevos tests de
inteligencia; lo mismo ha ocurrido con las escalas de Wechsler. Desde el punto
de vista práctico, la comprobación de una nueva medida con otra acreditada
ofrece seguridad y respaldo para las decisiones diagnósticas. Sin embargo, la
estrecha relación entre un test de construcción reciente y otro antiguo acreditado
plantea serias interrogantes. En efecto, una alta correlación indica el grado en
que el nuevo test está de acuerdo a las ideas aceptadas sobre la conducta que
se mide. Pero si esta conformidad no es muy alta, es probable que el test
recientemente elaborado no mida los mismos indicadores de la conducta,
considerados en el test que sirve de criterio, existiendo la posibilidad de la
superioridad del nuevo instrumento. Por otra parte, la correlación entre las
pruebas comparadas puede deberse a una fuerte semejanza entre los items que
componen los tests. Ciertamente, cuando se analiza un buen número de
pruebas de inteligencia, personalidad, vocacionales, etc., se puede advertir gran
semejanza entre los items que los integran. Esta semejanza, en cierto modo,
representa el desarrollo de formas paralelas de tests, que desde el punto de
vista práctica es necesario, pero en cada contribuye al desarrollo teórico de
nuevas hipótesis para la medición de una conducta, ni a la construcción de
nuevos tests.

Un alto grado de correlación entre dos o más pruebas indican que el nuevo test
está basado en la misma concepción teórica que su antecesor, la cual es
comprobada por el nuevo instrumento. Pero si se desea mejorar y refinar las
formulaciones teóricas sobre una conducta, la técnica de validación con un test
acreditado, no ayuda en nada y más bien significa una limitación para el
desarrollo de nuevos instrumentos. El procedimiento llevará a la uniformidad y
seguridad del nuevo test, pero no al mejoramiento de los instrumentos de
medida. Debido a estos reparos, cuando se emplea esta técnica de validación,
se espera que la correlación entre el test nuevo y el test-criterio debe ser
moderada. De obtenerse una correlación muy alta el nuevo test puede
considerársele una duplicación del test antiguo.
51

Validez de constructo

La validez de constructo se define como el grado en que un test mide la construcción


teórica elaborada respecto a la conducta que se mide. Todo test psicológico, en efecto, se basa
en una idea que el autor desarrolla para explicar la organización y funcionamiento de un
atributo psicológico. Se afirma que un test posee validez de constructo teórico, si el resultado
obtenido es el esperado de acuerdo a la teoría formulada, esto significa que la validez de
constructo lleva implícita la idea de predicción. Para Magnusson (1969) la validez de constructo
se determina mostrando que las consecuencias que pueden predecirse sobre la base de la
teoría con respecto a los datos del test pueden en lo fundamental confirmarse por una serie de
pruebas. Los estudios de validez de constructo tratan de responder a estas preguntas: ¿qué
construcción psicológica mide la prueba? ¿hasta qué punto mide bien el test esa construcción
(Brown, 1980, p.159).

La comprobación de este tipo de validez no se estima en un solo estudio, como se


hace en la validez predictiva. Requiere, más bien, de un proceso largo, siendo el procedimiento
similar al curso que sigue el método hipotético deductivo, utilizando en la investigación
científica. Se trata ciertamente, de verificar una hipótesis referida a la conducta que se intenta
medir, basándose en un test. Para llevar a cabo el proceso será necesario definir
operacionalmente la construcción teórica, a través de actividades atribuidas al atributo. Luego
se desarrollarán y probarán items que presumiblemente miden las cualidades que presenta el
atributo. Los items (reactivos) deben corresponder a la naturaleza de la función, tal como
teóricamente fue concebida.

En el curso del proceso de validación, el investigador incrementa sus conocimientos


acerca del test proyectado, lo revisa y progresivamente lo mejora para hacerlo un instrumento
de medida del constructo. Pero también, puede introducir modificaciones acerca de la definición
postulada para explicar la conducta. En buena cuenta, puede modificar sus conceptos teóricos
y también el instrumento para medir esos conceptos. Todo ello lo realiza mediante información
adquirida a través de estudios empíricos (véase "Standars", 1974).

La literatura respecto a las técnicas para establecer la validez de constructo muy a


menudo reitera los procedimientos utilizados para determinar la validez de "criterio
relacionado", y no pocas veces han surgido confusiones con la validez de contenido. Claro es
que las técnicas son utilizadas con diferentes propósito. Al respecto, observa Kerlinger (1975)
que, en cierto sentido, cualquier tipo de validación es validación de construcción, siempre que
se prueben hipótesis; siempre que se estudien relaciones empíricamente, interviene la validez
de construcción. He aquí las técnicas más utilizadas.

i) Correlación con tests acreditados que miden la misma conducta

Esta técnica de validación fue examinada páginas atrás, con la observación de que una
alta correlación entre el test-criterio y el nuevo test significaba que los dos test medían
lo mismo y que en nada contribuía al desarrollo de nuevos instrumentos para medir un
atributo psicológico. Esta argumentación pierde valor cuando se utiliza dicho
procedimiento para establecer la validez de constructo. En efecto, es altamente
recomendable cuando se busca validar un test que se apoya en la misma formulación
teórica del test-criterio. La validez de construcción del "Test de Dominós" de Anstey, se
verificó correlacionándolo con el "Test de Matrices Progresivas" de Raven. Ambas
pruebas fueron elaboradas para medir el factor "g", según la teoría bifactorial de
Spearman. El test de Raven había logrado una alta saturación de "g" (0.82) y una
mínima contaminación de factores específicos. Entre ambos tests se han encontrado
correlaciones importantes (Baines, r = 0.70; Risso, r = 0.55). Las pruebas convergen
hacia un mismo objetivo, medir el factor "g".

ii) Validación por grupos opuestos

Evidencias de la validez de construcción teórica se obtienen mediante el procedimiento


de "grupos opuestos", que se utiliza también para establecer la validez concurrente. A
dos grupos de personas, de características opuestas conocidas, se les administra el
52

test, hipotetizándose la dirección de la diferencia. Por ejemplo, para validar una prueba
de "conservadurismo" político, podría escogerse un grupo de personas conocidas como
conservadoras y otro grupo conocido como no conservadoras. Los puntajes obtenidos
por los dos grupos deberán presentar diferencias altamente significativas, de acuerdo a
las hipótesis sustentada.

iii) Correlación ítem-test

La correlación de cada ítem con el puntaje total del test y los diversos subtests con el
puntaje total de la prueba, es un procedimiento que ofrece información respecto a la
consistencia interna del test, por lo que su contribución es limitada respecto a la teoría
en que se funda la prueba. De obtenerse correlaciones elevadas entre cada ítem y el
puntal total se infiere que los reactivos miden el mismo atributo. En el proceso de
validación se desechan los items que tienen bajas correlaciones con el test íntegro,
puesto que indican que el ítem no mide algún indicador del atributo considerado.

Procedimientos más específicos se han desarrollado para la validación de constructo


teórico, además de los arriba descritos. Vamos a revisarlos.

iv) Validación experimental

La validez de constructo puede acreditarse mediante el uso del diseño "antes y


después". Un test construido para medir "ansiedad" puede validarse comparando los
puntajes obtenidos de medidas tomadas "antes" y "después" de someter al grupo a una
variable experimental generadora de ansiedad. Se espera que los puntajes "después"
deban ser más elevados y difieran significativamente de los puntajes "antes" de
introducir la variable experimental. Sach y Diesenhaus, citados por Díaz-Guerrero &
Spielberger (1975) investigaron los efectos de la tensión de un examen, sobre los
puntajes de las escalas del IDARE (Inventario de Ansiedad: rasgo-estado) en
estudiantes universitarios. El IDARE se aplicó durante un periodo regular de clases
(condición de no tensión) y posteriormente fue aplicado inmediatamente antes del
examen final (condición de tensión). El promedio de calificación de "ansiedad-estado"
en la condición de tensión (40.87) fue significativamente más alto, que en la condición
de no tensión (38.98). La validación experimental de ser bien conducida sirve para
demostrar que el instrumento es un buen medidor de una conducta, pero dice poco en
cuanto a la teoría.

v) Validez convergente y validez discriminante. La matriz multirrasgo-multimétodo

El método de la "matriz multirrasgo-multimétodo" propuesta por Campbell y Fiske


(1978), se basa en los conceptos de "validez convergente" y "validez discriminante".
Mediciones de un mismo rasgo obtenidas con métodos independientes deben
converger, indicando el mismo significado de la construcción. Así, un test destinado a
medir un rasgo poseerá validez convergente si presenta coeficientes de correlación
elevados con otros test y con mediciones tomadas por otros instrumentos que miden el
mismo rasgo. Por otro lado, la construcción referente a un rasgo debe distinguirse muy
claramente de otras. Según estas ideas, un test poseerá "validez discriminante" cuando
muestra correlaciones muy bajas con otros test que miden rasgos que se estiman
diferentes al rasgo que mide el test.

Campbell y Fiske proponen una técnica que denominan "matriz multirrasgo-


multimétodo" para la valoración convergente y discriminante. El método requiere de la
medición de dos o más rasgos por dos o más métodos. Sean, por ejemplo, tres
variables de personalidad: A (ansiedad), B (depresión), y C (autoritarismo), y tres
métodos diferentes de medición: 1 (inventario autodescriptivo), 2 (técnica proyectiva) y
3 (escala de valoración). Cada variable de personalidad es medida independientemente
por cada método, obteniéndose para la variable "ansiedad" A1 (puntajes de la variable
A obtenidos con el inventario autodescriptivo), A2 (puntajes de la variable A obtenidos
con la técnica proyectiva), y A3 (puntajes de A obtenidos con la escala de valoración).
La Tabla 12.2 es el ejemplo de una matriz multirrasgo-multimétdo, según Campbell y
53

Fiske. La matriz contienen las correlaciones hipotéticas obtenidas de medir tres rasgos
diferentes (A, B y C), con tres métodos distintos (1, 2, 3). El cuadro se puede dividir en
cuatro regiones de la matriz. Los coeficientes de confiabilidad (mismo método-mismo
rasgo), figuran entre paréntesis en la diagonal principal. Los coeficientes de validez
(mismo rasgo-métodos distintos) figuran en cursiva en las diagonales restantes. Los
triángulos en línea continua contienen en su interior los coeficientes de correlación que
corresponden al mismo método y a distintos rasgos. Los triángulos de guiones
contienen los coeficientes de correlación que corresponden a métodos distintos-rasgos
distintos.
54

Fuente:
ALARCON, R. (1991) Métodos y Diseños de Investigación del
Comportamiento. Lima. Fondo Editorial.
Universidad Peruana Cayetano Heredia.

Lectura 15: Coeficiente de estabilidad, de equivalente, de consistencia interna, pp. 301-


305

2.22. COEFICIENTE DE EQUIVALENCIA

Este coeficiente se determina correlacionando los puntajes de dos formas paralelas de


un mismo test, aplicadas sucesivamente a un mismo grupo de sujetos, siguiendo el mismo
procedimiento de administración. El requisito esencial para determinar este tipo de
confiabilidad, es disponer de dos formas paralelas de un test. La equivalencia significa que la
forma paralela debe tener el mismo grado de dificultad, el mismo muestreo de contenido,
similar número de items, la misma redacción de los reactivos, igual tiempo para resolver el test,
similar formato y otras características presentes en el test original.

La correlación entre las dos formas de un test es el coeficiente de equivalencia; será


elevado si las formas son tácitamente idénticas, que es lo que se busca. El establecimiento de
formas equivalentes requiere que la segunda forma se administre con cierto intervalo (dos o
cuatro semanas) después de aplicar la forma original, para debilitar la influencia de posibles
aprendizajes. Este procedimiento tiene algunas ventajas sobre el "test-retest". Sin embargo, no
podrán evitarse las facilidades adquiridas debido a la práctica previa con materiales similares.

El desarrollo de "formas paralelas" resulta apropiado en tanto se dispone de un test


altamente válido, de lo contrario significaría duplicar los problemas intrínsecos a la primera
forma. Por lo tanto, antes de elaborar un test equivalente, es conveniente preguntar por la
validez del test original. Disponer de formas paralelas de un test ayuda mucho en
investigaciones que utilizan diseños "antes y después" y en aquellas que requieren de medidas
repetidas.

2.23. COEFICIENTES DE CONSISTENCIA INTERNA

Para estimar la consistencia interna de un test se dispone de varios procedimientos.


Aquí se exponen los de uso más generalizado, como son, el método de mitades, el coeficiente
Alpha y Cronbach y el coeficiente de Kuder-Richardson, Fórmula 20.

i) El método de mitades

Mediante este procedimiento el test es arbitrariamente dividido en dos partes


equivalentes, con igual cantidad de items cada una. En una parte se agrupan los items
que llevan números pares y en la otra los items impares. Luego se calcula el coeficiente
de correlación (r) entre los dos conjuntos de puntajes. Si un test tiene 100 items, la
correlación es computada entre las dos partes de 50 items cada una; en buena cuenta,
se han organizado dos pequeños test paralelos y luego, se han correlacionado. El
coeficiente obtenido indica el grado de confiabilidad ente las dos partes del test, pero
no del test íntegro. Por ello, el coeficiente hallado se corrige por medio de la fórmula de
Spearman-Brown, cuya expresión es la siguiente:

 1 1
2 r 
 2 2
rtt =
1 1
1 +
2 2

1 1
En la fórmula, rtt es la confiabilidad estimada para el test completo y r es la
2 2
correlación entre las dos mitades del test. Si deseáramos determinar el coeficiente de
55

consistencia interna de un test cuyo coeficiente entre las dos mitades es de r = 0.80, el
resultado aplicando la fórmula (12.1), será el siguiente:

2 (0.80)
rtt = = 0.89
1 + 0.80

El coeficiente de consistencia interna ofrece una medida de equivalencia de los items


que integran el test, pero no ofrece informes sobre la estabilidad del instrumento. Una
de sus mejores ventajas reside en que el índice de confiabilidad se obtiene en una sola
aplicación, eliminándose los problemas que genera el retest. El método funciona bien
en pruebas cuyos items están ordenados según su dificultad; en otros caso su uso es
objetable.

ii) Coeficiente de Kuder-Richardson

Para estimar la consistencia interna de los itemas, Kuder & Richardson han elaborado
varias formulas, de ellas la Fórmula 20 (KR 20) es la más utilizada. Su cálculo requiere
de una sola administración del test; se basa en el examen de las respuestas correctas-
fracasos para cada ítem (los items se clasifican con 1 y cero) y de la desviación
estándar de los puntajes.
56

Fuente:
AVILA, R. (1998) Estadística Elemental. Lima. Estudios y
Ediciones R.A.

Lectura 16: La Línea Recta de Regresión, pp. 243-252

2.24. LA LÍNEA RECTA DE REGRESIÓN

Consideremos la ecuación de la recta:

Y* = a + b X

que tiene dos parámetros "a" y "b"

aplicar el Método de los Mínimos Cuadrados, que significa minimizar la expresión:

n
Φ = ∑ (Y
i =1
i - Yi *)²

donde:
Yi : es un valor observado o dato (nube de puntos)
Y*i : es un valor calculado por la ecuación de regresión Y* = a + bX, en este caso.
n: es el número de observaciones (X,Y)

Reemplazamos la sumatoria Y* por a + bX se tiene:

Φ = ∑ (Yi - a - bX)²

minimizar significa derivar M respecto a cada uno de los parámetros "a" y "b"; este es un caso
de derivación parcial. Obtenidas de las derivadas parciales se igual a cero, es decir:

Min Φ = ∑ (Yi - a - bX)²

∂Φ =0 y ∂Φ =0
∂a ∂b

significa entonces:

(1) ∂ Φ = 2 ∑ (Y - a - bX) (-1) = 0


∂a

(2) ∂ Φ = 2 ∑ (Y - a - bX) (-X) = 0


∂b

de donde:

(1) ∑ (Y - a - bX) = 0

(2) ∑ (Y - a - bX) (X) = 0

aplicando propiedades de sumatoria y transponiendo términos:

∑ Y = an + b ∑ X

∑ XY = a ∑ X + b ∑ X²
57

CÁLCULO DE LOS PARÁMETROS: a y b

Dada la ecuación de la recta:


Y* = a + bX

los parámetros a y b se calculan a partir de las Ecuaciones Normales

∑ Y = an + b ∑ X
∑ XY = a ∑ X + b ∑ X²

donde las sumatorias se obtienen a partir de los datos (X,Y).

Nota 1. Escribir y* = a + bx significa que y* es un valor estimado de Y. El error e estaría dado


por: e = y - y*, entonces el valor real de Y es:

Y = a + bx + e

Ejemplo 1
Supongamos que se quiere estimar la relación entre ingreso y consumo, para el efecto se eligió
una muestra e 6 familias.

Dados los datos, se define la variable dependiente (Y = Consumo) y la variable independiente


(X = Ingreso), luego se construye el Cuadro Nº 7.01, donde están los valores que participan en
las ecuaciones normales.

Los valores de a y b pueden calcular utilizando cualquiera de los tres siguientes métodos.

1. Resolver las ecuaciones normales como un sistema de ecuaciones simultáneas, por el


método de sumas y restas.

∑ Y = an + b ∑ X
∑ XY = a ∑ X + b ∑ X²

Cuadro Nº 7.01
INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS

INGRESO CONSUMO XY X² Y²
X Y
35 30 1 050 1 225 900
40 35 1 400 1 600 1 225
38 30 1 140 1 444 900
55 50 2 750 3 025 2 500
42 35 1 470 1 764 1 225
60 50 3 000 3 600 2 500
270 230 10 810 12 658 9 250
∑X ∑Y ∑XY ∑X² ∑Y²

Reemplazando el valor de las sumatorias, se tiene:

230 = 6 a + 270 b b = 0,9055


10810 = 270 a + 12658 b a = 2.4142

Entonces, la recta de regresión es: y* = -2.4142 + 0,9055x

2. También la aplicación directa de fórmulas para a y b deducidas de las ecuaciones


normales.
58

∑X ∑Y - ∑X ∑XY n ∑XY - ∑X ∑Y
a= b=
n ∑X² - ( ∑X) 2 n ∑X² - ( ∑X)²
reemplazando valores de las sumatorias:

a = (12658)(230) - (270)(10810) = -7360 = 2.4147


6(12658) - (270)² 3048

b = 6(10810) - (270)(230) = 2760 = 0.9055


6(12658) - (270)² 3048
59

Fuente:
AVILA, R. (1998) Estadística Elemental. Lima. Estudios y
Ediciones R.A.

Lectura 17: Error Estimación y Coef. de Correlación, pp. 253-257

2.25. ERROR Estándar DE ESTIMACIÓN

El error estándar de estimación llamado también desviación estándar de regresión, es


una medida de esparcimiento alrededor de una línea de regresión. Es la desviación estándar
de los valores observado Y con respecto a los valores Y* estimados por la línea de regresión.

En general, entre el valor Y y el estimado Y* existe una diferencia o sesgo, que puede
ser menor o mayor en el medida que los "n" puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.

Para la recta de regresión Y* = a + bX el ERROR ESTÁNDAR de Y sobre X será:

∑ (Y - Y*)²
Syx = (Definición)
n

En tanto, para la recta de regresión X* = p + qX el Error Estándar de X sobre Y es:

∑ (X - X*)²
Sxy =
n

En general, resulta que:

Syx ≠ Sxy

Calcular el error estándar Syx a partir de la definición resulta muy laboriosa puesto que
se requiere conocer los valores estimados Y*, estos en la práctica no se calculan. Existe una
fórmula alternativa a partir de la definición, donde se sustituye el valor Y* = a + bX; después de
realizar las operaciones indicadas simplificaciones y factorizaciones, resulta:

∑ Y² - a ∑ Y - b ∑ XY
Syx =
n

expresión que se utiliza para calcular Syx. Elevando al cuadrado se tiene:

∑ Y² - a ∑ Y - b ∑ XY
Syx² =
n
que se denomina la VARIANZA RESIDUAL DE Y SOBRE X.

El error estándar de estimación o de regresión cumple las mismas propiedades de la


desviación estándar, la diferencia está en que el error estándar de regresión mide la dispersión
de los valores alrededor de la línea de regresión y la desviación estándar alrededor de la media
aritmética. Ahora, suponiendo que Y se distribuye normalmente, al construir rectas paralelas a
ambos lados de la línea de regresión a una distancia proporcional a S yx se definen franjas o
intervalos, como se aprecia en el gráfico.

Según la distribución normal, en los intervalos:

Y* ± Syx, se encuentra el 68.3% de los valores reales Y


Y* ± 2Syx, se encuentra el 95.5% de los valores reales Y
60

Y* ± 3Syx, se encuentra el 99,7% de los valores reales Y


Ejemplo 1
Calcular el error estándar de estimación, en el ejemplo referido a los 15 trabajadores. Aquí ya
se ha construido la recta de regresión, además se conoce los valores de:

∑ Y² = 3654 ; ∑ Y = 216 ; ∑XY = 8658 ; n = 15


a = -18.363 b = 0.876

sustituyendo los valores en:

∑ Y² - a ∑ Y - b ∑ XY
Syx2 =
n
Syx² = 3654 - (-18.363)(216)-(0.876)(8658) = 2.4
15

Syx = 2,4 luego, Syx = 1,55 años

Con este valor se puede construir intervalos de confianza para Y dado un valor de X.
Por ejemplo el intervalo y* ± Syx = y* ± 1,55 donde los extremos son (Y* - 1,55; Y* + 1.55).

De acuerdo a la función Y* = -18,363 + 0,876X significaría, por ejemplo, que en la


población el 68.3% de los trabajadores de 40 años de edad tendría un tiempo de servicios
comprendido entre 15,15 y 18,25 años.

Nota 1. Considerando que las funciones de regresión son modelos que se obtienen a partir de
la muestra representativa, entonces la función de regresión no es única para una determinada
población.

En el caso de Y* = a + bX así como Y* está condicionado a valores X, se advierte


también que los parámetros a y b estarán condicionados a los valores muestrales (X,Y);
entonces como valores estimados, tienen un error estándar de estimación que se puede
calcular por las expresiones:

n S 2yx ∑S 2yx ∑(X)²


S(b) = S(a) =
n ∑ X² - ( ∑ X)² n ∑ X² - ( ∑ X)²

2.26. CORRELACIÓN LINEAL

La correlación expresa el grado de asociación o afinidad entre las variables


consideradas; la correlación también explica el grado de la bondad del ajuste de las líneas de
regresión. En su acepción más general, correlación denota la interdependencia entre datos
cuantitativos o cualitativos. En este sentido incluiría la asociación de atributos clasificados
dicotómicamente y la contingencia de atributos clasificados conforme a múltiples
características.

Cuando se determina que las variables están íntimamente asociados, la ecuación de la


función de regresión se utiliza para estimar o explicar el comportamiento de la variable
dependiente (explicada) en términos de las variaciones que experimentan las variables
independientes (explicativas). La interdependencia, además de los ejemplos anteriores,
también se observa en el comportamiento de las ventas de ingresos, o por variación de los
precios, o por modificaciones técnicas en el artículo, etc.

Recordando, llamaremos CORRELACIÓN SIMPLE cuando se trata de analizar la


relación entre dos variables. Hablaremos de CORRELACIÓN RECTILÍNEA O LINEAL si la
función es una recta, y de CORRELACIÓN NO LINEAL cuando la función es una curva o una
función de grado superior. Por ahora estudiaremos la correlación simple rectilínea.
61

2.27. COEFICIENTE DE CORRELACIÓN RECTILÍNEA

El Coeficiente de correlación, es el estadígrafo que expresa o mide el grado de


asociación o afinidad entre las variables relacionadas, se denota por "r" y se define como:

S 2y *
r=
S 2y
donde:

S²y* = varianza explicada, o sea aquella parte de la varianza total de Y explicada por la línea
de regresión.
S²y = varianza total, o sea aquella que corresponde a los valores observados de Y.

definidos como:

S²y* = ∑ (Y* - Y)² ; S²y = ∑ (Y* - Y)²


n n

luego:

∑(Y * - Y)² ∑ (Y * - Y)²


r= o simplemente r² =
(Y - Y)² ∑ (Y - Y)²

así mismo se sabe que:

Varianza Total = Variación explicada + Variación no explicada

∑ (Y - Y)² = ∑ (Y* - Y)² + ∑ (Y - Y*)²


n n n

S²y = S²y* + S²yx

En términos generales, el coeficiente de correlación mide el grado de afinidad entre dos


o más variables. En tanto que el COEFICIENTE DE CORRELACIÓN RECTILÍNEA (r), es el
estadígrafo que expresa el grado de afinidad o asociación entre dos variables cuando ellas
están relacionadas mediante una línea recta Y* = a + bX.

Considerando la definición de Coeficiente de Correlación:

S 2y *
r= como S²y* = S²y - S²yx
S 2y

S 2y - S 2yx S 2yx
reemplazando: r = = 1-
S 2y S 2y

que define la expresión para calcular el "coeficiente de correlación", en la fórmula se sabe que:

∑ Y² - a ∑ Y - b ∑ XY
S²yx =
n
2
∑ Y²  ∑Y 
S²y = -  
n  n 
que pueden calcularse de forma separada y luego reemplazarse en la fórmula.
62

Hay fórmulas más simples de calcular, como se indica en la página 260.

2.28. PROPIEDADES DE r:

Como r es siempre positivo, resulta que la propiedad fundamental del coeficiente de


correlación es:

-1 ≤ r ≤ + 1

de donde se deduce que:

a) Si r > 0, entonces existe "correlación directa positiva".


b) Si r < 0, se trata de una "correlación inversa negativa".
c) Si r² = 1, los datos forman una línea recta, en el caso de correlación.

S-ar putea să vă placă și