Sunteți pe pagina 1din 25

FIABILIDAD Y VALIDEZ

Introducción

La investigación en educación está entendida como la producción de conocimientos


resultante de la búsqueda de respuestas a preguntas sobre enseñanza, aprendizaje,
currículum y contexto educativo, así como sobre el profesorado y su formación
permanente, dentro de un cuadro epistemológico, teórico, metodológico consistente y
coherente.
La metodología de la investigación en educación ha sido dominada, a lo largo del siglo
XX, por dos paradigmas clásicos: uno inspirado en la metodología de las ciencias
naturales enfatizando observaciones empíricas cuantificables y adecuadas para
tratamientos estadísticos, el otro derivado del área humanística con énfasis en
informaciones holísticas y cualitativas y en enfoques interpretativos.
En este marco de referencia los instrumentos de medidas usados en la investigación
en Educación juegan un importante papel y deben presentar validez y fiabilidad, a
través de ellos se puede obtener resultados confiables para inferir y concluir. Los
instrumentos que se aplican en ésta área del saber pueden ser: Test, cuestionarios e
inventarios de la personalidad, escalas de actitudes, cuestionarios auto administrados,
pruebas objetivas, etc.
Todo instrumento de medida a usar en investigación en educación debe presentar
fiabilidad (exactitud de los datos en el sentido de su estabilidad, repetitividad o
precisión) y validez (mide aquello que pretendemos medir). La fiabilidad y la validez
por si solas de un instrumento de medida son condición necesaria pero no suficiente
para que éste pueda usarse en un procedimiento de investigación.
En este trabajo se revisa la teoría que está detrás de la fiabilidad de medida como las
pruebas de Spearman-Brown, Kuder-Richardson Rúlon, Guttman-Flanagan, Alpha de
Cronbach y de los tipos de validez como Validez de Contenido, Validez Aparente,
Validez de constructo, Validez predictiva y Validez concurrente para finalmente realizar
validaciones a través, de programas estadísticos software SPSS de dos instrumentos
de medidas utilizados en investigación en educación en nuestra universidad y colegios
de la región. Por medio de éste taller se espera desarrollar un programa de
actividades (guía) para que investigadores en el área de la educación (estudiantes de
magíster) y docentes puedan realizar validaciones de sus instrumentos.
A modo de resumen se entrega un esquema de lo anteriormente descrito:
Antecedentes Generales

La investigación en educación empieza alrededor de 1900, bajo el nombre de


"pedagogía experimental", en las tres primeras décadas del siglo pasado la
investigación educativa ha tenido un acentuado énfasis cuantitativo, dirigido hacia el
estudio de la eficacia en la enseñanza (particularmente en Estados Unidos) donde el
objetivo de ello es explicar causas de cambios en hechos sociales, principalmente a
través de medición objetiva. En un enfoque cuantitativo la fiabilidad de las mediciones
y de los instrumentos es un requisito básico, a la vez para realizar cualquier
generalización o predicción se necesita de la validez de los instrumentos.

Para comprender los términos de Fiabilidad y Validez se realiza un análisis de texto


para conocer los distintos significados:
El Diccionario de la Real Academia de la lengua Española define Fiabilidad como la
probabilidad de buen funcionamiento de algo, es decir, que ofrece seguridad o buenos
resultados; en el campo de la psicología, la educación y la investigación social,
diversos autores la definen como “La capacidad de obtener resultados consistentes en
mediciones sucesivas del mismo fenómeno”, lo que quiere decir, cuando se apliquen
varias veces un instrumento los resultados obtenidos sean parecidos, implicando una
alta fiabilidad del instrumento utilizado, cuyo origen se atribuye a los artículos
publicados a inicios del siglo XX por Spearman. La validez en cambio puede ser
pensada como una cualidad de las conclusiones y de los procesos a través de los
cuales son alcanzadas, pero su significado exacto depende del criterio de verdad que
se está utilizando, el mejor significado de validez en ese enfoque parece ser el de
credibilidad. La credibilidad depende del convencimiento de la comunidad de
investigadores y lectores respecto a las evidencias presentadas y a los procesos
utilizados.

Los instrumentos de medida reflejan la realidad apreciada, éstos no son perfectos, el


resultado numérico de una estimación de la realidad de medida incluye un cierto error

de tal forma que una puntuación cualquiera X i , podría considerarse integrada por la

suma de la puntuación verdadera, X v y del error de medida que podemos representar

por ei ; así:

X i  X v  ei

Parece claro que mientras menor sea el error mas fiable es el instrumento dado que
comete errores pequeños. Los errores pueden ser de dos formas:

Error sistemático: se llaman así porque se repiten sistemáticamente en el mismo


valor y sentido en todas las mediciones que se efectúan en iguales condiciones. Las
causas de estos errores están perfectamente determinadas y pueden ser corregidas.

Error aleatorio: es un hecho conocido que al repetir una medición utilizando el


mismo proceso de medición (el mismo instrumento, operador, excitación, método, etc.)
no se logra el mismo resultado. Por ello, una característica general de los errores
aleatorios es que no se repiten siempre en el mismo valor y sentido, por ejemplo
factores personales como salud, emociones o cansancio.
Ejemplos de errores sistemático y aleatorio

En este caso, el experimento consiste en una serie de disparos hechos a un blanco de


tiro. Aquí los errores aleatorios están producidos por cualquier causa que haga que los
proyectiles lleguen aleatoriamente a distintos puntos. Los errores sistemáticos ocurren
cuando existe alguna causa por la cual los proyectiles impactan fuera del centro en
una forma sistemática. Podría ser, por ejemplo, que la mira del arma estuviese
desviada.
Justificación

El tema de la investigación básica en educación es desarrollado bajo una mirada


personal teniendo en cuenta sus orígenes y evolución, sus bases teóricas,
metodológicas y epistemológicas, así como sus debilidades y dificultades presentadas
generalmente al usar métodos estadísticos adecuados para corroborar las hipótesis.
Los instrumentos utilizados en la investigación en educación deben presentar fiabilidad
y validez en forma conjunta, ya que puede haber una fiabilidad alta pero a la vez el
instrumento puede carecer de validez, porque no mide lo que se pretende o lo que se
dice que se está midiendo.

Uno de los paradigmas clásicos de la investigación en la Educación es la investigación


cuantitativa que dice que los instrumentos de medida son una manera de alcanzar
mediciones precisas de objetos y eventos con existencia propia; los instrumentos
válidos son los que producen representaciones exactas de la realidad buscando la
predicción y control de eventos, a los que se llega a través de generalizaciones
estadísticas de muestras para poblaciones por lo que el investigador busca
instrumentos válidos y fidedignos (fiables).

Alcance
El presente taller contempla los aspectos teóricos de la fiabilidad y validación de
Cuestionarios comprendiendo la teoría de la fiabilidad así como los distintos tipos de
validez. Para lograr lo anterior se consultará literatura especializada sobre el tema ya
que es de real importancia para todos los niveles de educación e investigación en
Educación pues un instrumento validado puede ser aplicado en todo el país.

Objetivo General

Aportar a la investigación aplicada al campo de la educación las bases teóricas, reales


y necesarias para medir con instrumentos que presenten confiabilidad y validez.
Objetivos Específicos:

 Adquirir lo conceptos básicos de la estadística relacionados con la Fiabilidad y


Validación de instrumentos de medida en Educación.
 Aplicar técnicas o pruebas estadísticas para determinar la Fiabilidad de
Instrumentos de Medida por medios de ecuaciones y Software.
 Desarrollar un material de consulta para la validación de instrumentos en
Educación.
 Establecer la Confiabilidad y Validez de diversos instrumentos de medida como
el Test de Motivación de Logro aplicado a un grupo de estudiantes de la UBB.
 Establecer la validez y confiabilidad del Cuestionario de Estrategia de
Aprendizaje y Motivación (CEAM) aplicado en algunos Colegios de
Concepción.

METODOLOGIA

Confiabilidad:

Se entiende por fiabilidad a la confianza que se tiene en los datos recolectados, debido
a que hay una repetición constante que arroja una medida estable. La siguiente figura
nos muestra una interpretación del índice de confiabilidad

figura 1

Existen dos tipos de confiabilidad, la confiabilidad relativa y la confiabilidad absoluta.

Fiabilidad relativa
En reiteradas ocasiones hay elementos que pueden ser considerados error en unas
ocasiones y no en otras, corresponde igualmente considerar diferentes tipos o
conceptos de fiabilidad. Si se expresara la fiabilidad como la constancia de las
puntuaciones de los sujetos o como la concordancia entre varias mediciones de una
misma realidad se deberían diferenciar matices que dan lugar a distintos tipos de
fiabilidad.

Fundamentos bajo los que se aplican los distintos tipos de confiabilidad:

 Estabilidad o constancia de las puntuaciones obtenidas por los mismos sujetos


en una misma prueba aplicada en dos ocasiones, dando lugar al procedimiento
Test-retest, cuya correlación estima la fiabilidad y se conoce como coeficiente
de estabilidad.

 La equivalencia de las puntuaciones o resultados obtenidos por los mismos


individuos sobe la base de dos pruebas paralelas o instrumentos considerados
equivalentes o intercambiables para la medida del mismo rasgo. En este caso,
las diferencias que pueden aparecer en las puntuaciones individuales y en la
posición relativa de los sujetos debido al error de medida. En este caso, la
correlación estima la fiabilidad denominada “Coeficiente de equivalencia”
dando lugar al procedimiento de formas paralelas.

 Consistencia interna o coherencia de las puntuaciones obtenidas en el marco


de un mismo procedimiento de medida que parte del supuesto de que todos los
elementos de un procedimiento o los ítems de una prueba conducen a la
medida de un mismo rasgo o porciones coherentes del mismo. Desde este
punto de vista, una prueba puede ser descompuesta aleatoriamente en dos
partes dando lugar al procedimiento de las mitades. Su resolución implica
considerar una fórmula del procedimiento de Spearman-Brown sobre el
coeficiente de correlación de Pearson entre ambas mitades, dada la
homogeneidad de varianzas; o en cualquier caso, los coeficientes de Rulon y
Guttmann. También puede llevarse el planteamiento al extremo y considerarse
cada elemento de la prueba como un subconjunto de la misma, dando lugar al
“Método de inter/correlación de elementos”. Una vertiente de este método es
que se considere el coeficiente medio que se obtendría al dividir las pruebas en
infinitos pares de mitades diferentes, dando lugar a los procedimientos de
Kuder y Richardson (KR-20 y KR-21). Otra vertiente de este método es el
procedimiento alfa de Cronbach que se basa en determinar la varianza
correspondiente a cada uno de los ítems.

Procedimientos que requieren una sola administración del test

 Dos mitades: este procedimiento reúne ventajas como la rapidez y por


consiguiente la ganancia de tiempo. La estimación de la confiabilidad a través
del método de dos mitades, consiste en:
a) Dividir los ítems de la prueba en dos parte iguales las que pueden ser
pares con impares, la primera mitad con los primeros elementos y la
segunda mitad con el resto;
b) Correlacionar las puntuaciones totales de las dos mitades;

Multiplicar el coeficiente obtenido por 2 y dividir por el término 1 más la correlación de


las dos mitades.

Fórmula de Spearman-Brown
donde:

R xx  coeficiente de confiabilidad
2rxx
rxx = coeficiente de correlación entre las dos mitades R xx 
1  rxx

y
n A  B   A   B
rxx 
n  A2    A   n  B 2    B 
2 2

n = número de casos.
ΣA= suma total de preguntas impares.
ΣB= suma total de preguntas pares.

Métodos Basados en la Covarianza de los Ítems


Coeficientes de Kuder-Richarson KR20 y KR21 (1937): es aplicable en las pruebas
de ítems dicotómicos en los cuales existen respuestas correctas e incorrectas. Este
procedimiento permite obtener un coeficiente de consistencia interna, pero además de
homogeneidad entre los elementos. Kuder y Richarson fundamentalmente utilizan dos
ecuaciones, la KR20, para instrumentos calificados en dos categorías (cierto-error; si-
no; 0-1) y la KR21 (más sencilla) solo es aplicable con elementos de dificultad similar.
La ecuación KR20 es la siguiente:

KR20 
ne  S   pq 
t
2

(ne  1  St2

donde;
ne = número de elementos
p = cociente del número de sujetos que aciertan un elemento por el total.
q  1 p

Mientras que la ecuación KR21:

KR21 

ne S t2  X ne  X 
S t2 (ne  1 

Ahora, cuando los elementos no son dicotómicos, la ecuación es más complicada y


pesada en los cálculos, ya que exige una determinación para cada uno de sus
2
elementos de su correspondiente varianza ( S e ) . Por lo que utilizamos la siguiente
ecuación.

ne S   S 
t
2 2
e
KR20 
(ne  1  S t2
ne = número de elementos

S t = representa la varianza total.

Estos métodos son preferibles a los métodos de las dos mitades porque equivalen a la
fiabilidad media que obtendríamos dividiendo un test en sus posibles dos mitades.

Alfa de Cronbach (1951)


Se trata de un índice de consistencia interna que toma valores continuos y que sirve
para comprobar si el instrumento que se está evaluando recopila información
defectuosa y por tanto nos llevaría a conclusiones equivocadas o si se trata de un
instrumento fiable que hace mediciones estables y consistentes, si toma valores entre
0 y 1 se obtendría la misma formula KR20 de Kuder-Richardson. Alfa es por tanto un
coeficiente de correlación al cuadrado que, a grandes rasgos, mide la homogeneidad
de las preguntas promediando todas las correlaciones entre todos los ítems para ver
que, efectivamente, se parecen.
El cálculo del coeficiente de Cronbach puede llevarse a cabo de dos formas:
a) Mediante la varianza de los ítems y la varianza del puntaje total:

 k

k 
S i
2

  1  i !

k 1  S t2 
 

Siendo
S i2 = la suma de varianzas de cada ítem.

S t2 = la varianza del total de filas

k = el número de preguntas o ítems.

b) o bien mediante la matriz de correlación de los ítems:


np

1  p  n  1
Siendo
n = el número de ítems,
p = el promedio de las correlaciones lineales entre cada uno de los ítems.

Otros métodos: El coeficiente Beta y los coeficientes Theta y Omega


Procedimientos que requieren dos administraciones del test:
 Formas paralelas: Este procedimiento requiere que se utilicen dos pruebas o
instrumentos paralelos donde se comparan resultados de la aplicación de
ambos tests, calculando la correlación de Pearson, si la correlación es alta
quiere decir que hay una buena fiabilidad. Al parecer este procedimiento se ve
simple, pero el problema es que dos instrumentos sean realmente “paralelos y
equivalentes” (que midan el mismo rasgo o características con diferentes
preguntas), si se analiza con todas sus exigencia se comprenderá su dificultad.
Las características son:
a) Deben tener el mismo número de elementos, intercambiables uno a
uno.
b) La redacción y la estructura de cada elemento debe ser idéntica en los
elementos paralelos de ambas formas.
c) El contenido y el objeto apreciado, elemento a elemento, debe ser el
mismo.
d) Los índices de dificultad de los elementos deben ser iguales.
e) Medias aritméticas, varianzas y covarianzas, como hemos señalado,
deben ser estadísticamente iguales, esto es, no deben existir entre ellos
diferencias significativas.
f) Las consignas dadas para la realización de la prueba, el tiempo
asignado, las condiciones en que se aplica, han de ser las mismas.
g) Por supuesto, se deben cuidar los aspectos externos: presentación,
formato, etc.

 Test-retest: Se trata de pasar el mismo test dos veces. El intervalo de tiempo


puede ser de días, semanas o meses, pero no tan grande ya que los sujetos
han podido cambiar entre el test y el retest. Después se aplica la correlación de
Pearson. Las diferencias en los resultados se atribuyen al grado de
consistencia interna o muestreo de los ítems de la prueba en el caso de pasar
el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el
caso del intervalo temporal.
a) Este método responde al concepto intuitivo de fiabilidad (un instrumento
es fiable si en veces sucesivas aporta los mismos resultados).
b) No tiene sentido utilizarlo cuando está previsto un cambio en los
sujetos, o cuando entre la primera y segunda vez se puede dar un
aprendizaje.
c) Este coeficiente de correlación podemos entenderlo como un
coeficiente o indicador de estabilidad o de no ambigüedad en la medida
en que ambas ocasiones los resultados son parecidos (los sujetos
entendieron lo mismo de la misma manera y respondieron de manera
idéntica o casi idéntica).

 Ejemplos para medir la confiabilidad relativa


Método KR-20
Se ha aplicado un test compuesto de 24 ítems (I=24) valorados dicotómicamente a
n=28 personas que han obtenido los siguientes resultados, donde x i=1 si acierta o
xi=0 en caso contrario.

Donde la varianza total de las puntuaciones st es:


2
 N 
N
 T 
 n1  (497) 2
 T 2

N
9099 
28  10,27
,y
st2  n 1 
N 1 27
 I

N 
 pq i i 
  24 1  4.121   0.62
KR20  1 i 1

 N  1  s t2  24  1  10,27 
 
 
donde,
N = representa el número de ítems o elementos de la prueba.
p = cuociente entre el número de sujetos que aciertan el ítem y el total.
q = (1-p) es el complemento de p.

De acuerdo a la figura 1, se puede decir, por el valor de KR 20 igual a 0.62 que su


índice de consistencia interna para el test aplicado es aceptable.
Método de Spearman Brown:
sujeto Impares (A) Pares (B) (A2) (B2) Total (T) (T2) (AB)
1 5 5 25 25 10 100 25
2 4 5 16 25 9 81 20
3 5 5 25 25 10 100 25
4 4 4 16 16 8 64 16
5 3 4 9 16 7 49 12
6 3 5 9 25 8 64 15
7 3 5 9 25 8 64 15
8 2 5 4 25 7 49 10
9 2 5 4 25 7 49 10
10 1 3 1 9 4 16 3
11 1 1 1 1 2 4 1
12 0 1 0 1 1 1 0
ΣA=33 ΣB=48 ΣA2=119 ΣB2=218 ΣT=81 ΣT2=641 ΣAB=152

En primer lugar debemos n AB   A B


rxx   0,73796216
n  A  n  B 
1 1

   A   B
encontrar el rxx = coeficiente 2 2 2 2 2 2

de correlación entre las dos


mitades.
Luego se reemplaza este valor en la siguiente expresión 2rxx
R xx 
 0,84922696
para determina el coeficiente de confiabilidad 1  rxx
Donde: R xx  coeficiente de confiabilidad; n = número de casos.
ΣA= suma total de preguntas impares; ΣB= suma total de preguntas pares.
De donde podemos ver que el coeficiente de correlación para el test es bueno
Sin embargo, se debe tomar en cuenta que el procedimiento de Spearman-Brown sólo es
utilizado bajo el supuesto de varianzas homogéneas en ambas mitades, cuando esto no ocurre
es preferible utilizar cualquiera de los otros dos procedimientos, nos referimos a Rulon y
Guttman que no tienen ningún supuesto de igualdad de varianzas

.
Método de Rulon:

sujeto Impares (A) Pares (B) Total (T) (T2) D D2


1 5 5 10 100 0 0
2 4 5 9 81 -1 1
3 5 5 10 100 0 0
4 4 4 8 64 0 0
5 3 4 7 49 -1 1
6 3 5 8 64 -2 4
7 3 5 8 64 -2 4
8 2 5 7 49 -3 9
9 2 5 7 49 -3 9
10 1 3 4 16 -2 4
11 1 1 2 4 0 0
12 0 1 1 1 -1 1
ΣA=33 ΣB=48 ΣT=81 ΣT2=641 ΣD= -15 ΣD2=33

 x
 
2
 D
 
2

x 2

n
D 2

n
S  SD   1,138  S 2 D  1,3
n 1 n 1
T  2

T 2

n
 ST   2,94  S 2T  8,64
n 1
S 2
  1,3 
rxx  1   D
2
  rxx  1     0,85
S T   8,64 
Es decir, la diferencia entre la fiabilidad perfecta (1) y el cociente entre la varianza de

las diferencias entre ambas mitades ( S D2 ) y la varianza de las puntuaciones totales (

S T2 ).

Para el ejercicio anterior el índice de confiabilidad de Rulon es aproximadamente


0,84880637, lo que indica que el test tiene un buen coeficiente de fiabilidad.

Método de Guttman-Flanagan:

rxx  2
1   S 1
2
 S 22    0,84880637
2
S t
donde;
S1 = representa la varianza de la primera mitad.
S 2 = representa la varianza de la segunda mitad.
S t = representa la varianza total.
Fiabilidad Absoluta
Se define en términos del error de medida e i que representa la diferencia entre una

puntuación cualquiera y la puntuación verdadera  ei  xi  x v  , se pueden calcular la(s)


desviación(es) estándar de los errores de medida de todas las puntuaciones, en el
caso de que se desarrollara con infinitas puntuaciones de los mismos sujetos o
infinitos sujetos con las misma puntuación verdadera se obtendría el siguiente Error de

Medida denotado por  med :


1
 med  S x 1  rxx  2 ,
Donde
1 n

2
S x    xi  x  
 n ,i 1 

n= número de sujetos.

xi  Representa la i-ésima observación.

x  Es la media observada.

Esta es la misma para las dos puntuaciones, dado que al ser los errores de carácter
aleatorio, la distribución de las infinitas puntuaciones de su sujeto o de infinitos sujetos
con la misma puntuación verdadera es idéntica y tiene la misma desviación estándar.
Estos errores pueden aplicarse fundamentalmente, para resolver dos tipos de
problemas:
1. determinar los límites entre los que esperamos, con una determinada
probabilidad, que se encuentre la puntuación verdadera de un sujeto.
2. comparar las puntuaciones de varios sujetos en el mismo instrumento o del
mismo sujeto en instrumentos de medición.

Ha modo de ejemplo calcularemos el error de medida  med para el ejemplo utilizado


anteriormente en KR20:

1
 med  S x 1  rxx  2  3.20 1  0.60  2.02
Por lo que la puntuación verdadera es:
 
X v  X i  z 0.95 med  18  1.96  2.02  14.04 ;21.96 
 
Lo que quiere decir que la verdadera puntuación para un nivel de 95% de confianza
para el sujeto estaría entre 14.04 y 21.96.

La siguiente tabla resume los procedimientos para la determinación del coeficiente de


fiabilidad comentados:

Se debe tener presente, que la fiabilidad no es una condición suficiente de la medición;


para que un instrumento presente validación, ya que puede que se mida con gran
precisión un rasgo o característica, pero que no sea el rasgo o característica que se
desea medir. A primera vista se podrá preguntar ¿cómo vamos a medir algo que
no sea lo que se desea?, pero en realidad se debería pensar en ¿Qué se esta
midiendo? o ¿se está midiendo aquello que se desea o se dice medir? Para ello
utilizamos el siguiente concepto:

Concepto y tipos de validez

El concepto de validez es muy importante en instrumentos de medida, especialmente


si es ocupada para una actividad científica que implicará tomar decisiones para la
acción educativa. En el sentido básico y genérico la validez en la medida hace
referencia al grado en que un procedimiento de medida recoge, precisamente, aquello
que pretende medir y no otras cosas.

La validez de un instrumento varía de acuerdo con el propósito con que se use. Por
ejemplo, si una prueba de aptitud académica predice el rendimiento (variable criterio)
de los estudiantes en el primer semestre de la universidad, es de esperarse que la
mayoría de los estudiantes que obtuvieron altas calificaciones en la prueba de aptitud,
también sean los que obtengan más éxito en dicho lapso académico. Sin embargo, el
hecho de que la prueba de aptitud académica haga una predicción razonable del
rendimiento universitario, no garantiza que también pueda predecir la motivación al
logro de dichos estudiantes, o quiénes se graduarán al final de la carrera, ni muchos
menos quiénes tendrán éxito en sus respectivos campos profesionales.

Un enfoque moderno del concepto de validez es su expresión en forma de varianza


(ya que las diferencias individuales se pueden expresar como varianza de los sujetos
bajo este instrumento), ahora si éste instrumento no es válido las variaciones no se
deberán por completo a la característica medida sino también en cierto grado a la
varianza de la parte de las puntuaciones de esta prueba que no se refieren a la
característica medida, además de a la varianza del error.

Cabe hablar de cuatro grandes objetivos o metas a lograr por los instrumentos de
medición que exigen cuatro tipos de validez diferente:

1. Determinar el grado en que cada una de las personas que realizan una prueba
posean el rasgo definido por la misma.
2. Avanzar un pronóstico sobre el comportamiento futuro de cada uno de los
sujetos en un área de conducta determinada en función de su reacción al
instrumento de medición.

3. Situar a cada uno de los sujetos en una determinada posición en un rasgo


exterior a la prueba en función de su reacción a la misma.

4. Determinar el grado en que la prueba construida mide un determinado rasgo,


característica o construcción.

Cada uno de estos objetivos viene a representar la exigencia de un tipo de validez


diferente, con unas diferencias esenciales en cuanto a su construcción a las que
hacemos alusión inmediatamente.

Tipos de validez interna: establecen la validez de una prueba mediante el análisis de


su propio contenido. Algunos de ellos son los siguientes:

Validez de contenido

A diferencia de otros tipos de validez, la de contenido no puede ser expresada


cuantitativamente, a través de un índice o coeficiente; ella es más bien una cuestión
de juicio. Es decir, la validez de contenido, por lo general, se estima de manera
subjetiva. El procedimiento empleado comúnmente para determinar este tipo de
validez, es el que se conoce con el nombre de juicio de expertos, para lo cual se
procede de la siguiente manera:

1. Se seleccionan dos jueces o expertos, por lo menos, con el fin de juzgar, de


manera independiente en términos de la relevancia o congruencia en el
universo de contenido, la claridad en la redacción y la imparcialidad o sesgo en
la formulación de los ítems.
2. Cada experto recibe suficiente información escrita acerca de:
 El propósito de la prueba
 La conceptualización del universo de contenido
 Plan de operacionalización o tabla de especificaciones (en el caso de
pruebas de rendimiento académico).
2. Cada juez recibe un instrumento de validación en el cual se recoge la
información de cada experto. Dicho instrumento normalmente contiene las
siguientes categorías de información por cada ítem: congruencia ítem-dominio,
claridad, tendencias y observaciones.
3. Se recogen y analizan los instrumentos de validación y se toman las decisiones
siguientes:
 Los ítems donde hay un cien por ciento de coincidencia favorable entre
los jueces quedan incluido en el instrumento.
 Los ítems donde hay un cien por ciento de coincidencia desfavorable
entre los jueces, quedan excluidos del instrumento.
 Los ítems donde sólo hay coincidencia parcial entre los jueces deben
ser revisados, reformulados, si es necesario y nuevamente validados.

También en este tipo de validez el test puede ya estar creado por expertos quienes se
preocuparan de la suficiencia y la representabilidad de la muestra de conductas
incluidas en el instrumento respecto de la población que se esta estudiando. La
suficiencia se refiere al tamaño de prueba (número de elementos mínimos que se
debe incluir para abarcar lo esencial), mientras que la representabilidad admite dos
soluciones distintas que son la claridad y precisión (dificultad ortográfica, símbolos,
etc.) .En tal caso un muestreo al azar de la población podría ser la forma mas correcta
para verificar esto. Pero esto no siempre es posible es mas es poco frecuente por las
complicaciones que trae esto (como el conocimiento exhaustivo de la población o la
relación entre las tareas incluidas en la prueba y lo que se desea medir no es tan
directa).
A continuación, se señala un ejemplo de la validez de contenido (juicio a expertos),
donde se seleccionaron seis jueces con el fin de juzgar, de manera independiente la
validez del cuestionario. En la tabla Nº19 se nombran los títulos y grados de los
expertos consultados.
Tabla N°19: Títulos y Grados de Expertos.
Experto Título/Grado(s)
1 Bachiller en Matemática / Magíster en Estadística

2 Estadístico/ Doctorado en Ciencias Exactas, Mención Matemáticas.

3 Sociólogo/Magíster en Política Educativa.

4 Profesor de Biología /Magíster en Educación, Mención Evaluación


Educacional.
5 Sociólogo

6 Profesor de Biología / Magíster en Administración Educacional

Fuente: Elaboración Taller Yohana Jara

Para la evaluación del instrumento, a cada “experto” se le envió un cuestionario, donde


los ítems se enumeraron de 1 a 41 en forma aleatoria.

Los resultados de la evaluación se muestran en la siguiente tabla, donde la primera


columna contiene el ítem, la segunda la dimensión asociada a la pregunta en el
cuestionario y en las siguientes la dimensión propuesta por los seis expertos, de
acuerdo al ítem.
Tabla N°20: Juicio de Expertos (validez de contenido)
Item Dimensión Dimensión propuesta por los expertos
Exp_1 Exp_2 Exp_3 Exp_4 Exp_5 Exp_6
encuesta
1 1 1 5 1 1 1 1
2 2 5 5 5 5 5 5
3 3 3 3 5 3 2 3
4 4 4 4 4 4 3 4
5 6 5 5 1 1 6 6
6 4 6 6 4,6 4 6 4
7 2 5 5 5 2 2 5
8 5 5 5 5 5 5 5
9 6 6 6 6 6 5 6
10 5 5 5 3,5 5 5 5
11 6 6 6 6 6 5 6
12 5 5 5 5 5 5 5
13 3 2 2 1 2 2 1
14 1 1 1 1 1 1 1
15 6 6 1 3 1 1 1
16 6 6 6 6 5 6 6
17 3 5 3 5 4 3 5
18 6 6 6 6 6 6 6
19 6 2 2 1 2 1 1
20 4 4 4 4 4 4,2 4
21 5 1 4 4 4 4,5 5
22 6 6 6 6 6 6 6
23 2 1 2 2 5 2 2
24 5 5 5 5 2 5 5
25 1 1 1 1 1 1 1
26 6 6 6 6 6 6 6
27 4 4 3 3,4 4 4,3 4
28 3 2 3 3 3 2 3
29 4 6 6 4,6 4,6 4,6 6
30 3 5 5 1 1,5 5 5
31 2 1 2 1 1 1 1
32 5 5 5 4,5 1,5 4,5 5
33 1 5 5 1 1 5 5
34 5 4 4 4 1,5 4 4
35 3 3 3 3,6 1 3 3
36 6 5 6 5 5,6 5 5,6
37 3 3 3 3 3 3 3
38 5 5 5 5 5 5 5
39 3 4 5 1,5 1 5 3
40 6 6 6 6 1 1 6
41 4 4 4 2 4 2 2
Fuente: Elaboración Taller Yohana Jara

Además, en la Tabla Nº21 se analiza en forma detallada el porcentaje de expertos que


coinciden con que la dimensión asociada a cada ítem del instrumento es la correcta.
Tabla N°21: Porcentaje de Coincidencias de la Dimensión asociada al
Instrumento
Item Dimensión Item Dimensión
asociada en el asociada en el
instrumento: % instrumento: %
de coincidencia de coincidencia
1 1: 83% 22 6: 100%
2 2: 0% 23 2: 67%
3 3: 67% 24 5: 83%
4 4: 83% 25 1: 100%
5 6: 33% 26 6: 100%
6 4: 50% 27 4: 83%
7 2: 33% 28 3: 67%
8 5: 100% 29 4: 50%
9 6: 100% 30 3: 0%
10 5: 100% 31 2: 17%
11 6: 83% 32 5: 100%
12 5: 100% 33 1: 33%
13 3: 0% 34 5: 17%
14 1: 100% 35 3: 83%
15 6: 17% 36 6: 50%
16 6: 83% 37 3: 100%
17 3: 33% 38 5: 100%
18 6: 100% 39 3: 17%
19 6: 0% 40 6: 67%
20 4: 100% 41 4: 50%
21 5: 33%
Fuente: Elaboración Taller Yohana Jara

Si todos los ítems se consideran con igual ponderación, entonces la evaluación global al
instrumento hecha por los expertos, corresponde a un 63%.

Validez Aparente

Permite establecer la validez de una prueba a partir de la opinión intuitiva de


individuos, incluso no expertos como alumnos o administradores de la prueba sobre
ella. Aunque en ocasiones ha sido considerado un método poco científico, resulta ser
muy importante en evaluación, porque una prueba sólo es tomada en serio por los
usuarios si es percibida como válida.

Tipos de validez externa: establecen la validez de una prueba comparándola con los
resultados obtenidos por los mismos alumnos en otras pruebas. Esa comparación se
realiza mediante instrumentos estadísticos (normalmente, el coeficiente de correlación,
que mide numéricamente el grado en que dos conjuntos de resultados resultan
coincidentes).
Validez Concurrente

Supone comparar los resultados de la prueba con los de otro instrumento (examen,
auto evaluación, notas del profesor, etc.). Ambas pruebas deben evaluar a los mismos
alumnos en un mismo momento y los resultados deben poder expresarse
numéricamente para poder establecer el mencionado coeficiente de correlación.

Validez de Constructo

Este tipo de validez desde el punto científico es la más interesante, pero a la vez la
más compleja de todas ya que requiere los procedimientos más elaborados y técnicas
estadísticas mas elevadas.
La validez de constructo intenta responder la pregunta ¿hasta dónde un instrumento
mide realmente un determinado rasgo y con cuánta eficiencia lo hace? Esta pregunta
tiene sentido, particularmente en los instrumentos que se utilizan en la investigación
psicoeducativa. En consecuencia, es necesario que podamos mostrar evidencia de
que, efectivamente, el instrumento mide el rasgo o constructo que pretende medir. Por
ejemplo, en lugar de hablar de los puntajes que una persona obtuvo en un instrumento
determinado, podemos hablar de: la satisfacción o disfrute con el aprendizaje de la
matemática, la valoración o significado de la matemática. Todas éstas son cualidades
hipotéticas llamadas construcciones, cuya existencia se supone para explicar la
conducta en muchas y diferentes situaciones específicas.
La validez de constructo tratará de demostrar que aquello que mide el instrumento es
una variable consistente. Una validación de este tipo implica según Cronbach:

 identificar los factores.


 construcciones o elementos que se dan en la prueba y que explicarán en una
teoría.
 probar en forma experimental la(s) hipótesis.

Los métodos utilizados son: el de la matriz de multirasgo-multimétodo; que consiste en


una organización de los datos para apreciar si mediciones realizadas
independientemente de un mismo rasgo por métodos diferentes dan lugar a
correlaciones más elevadas que mediciones de rasgos distintos con el mismo método.
Y el método del análisis factorial de las tareas incluidas en la prueba (técnica
estadística de mayor utilidad y complejidad); Se trata en esencia de poder determinar
si ésta incluye un único factor, gracias a éste análisis factorial tendremos un
conocimiento de los factores integrantes de la prueba y mediante su correlación con la
prueba total, las correspondientes cargas factoriales que al ser elevadas al cuadrado,
nos indicarán la proporción que de la varianza total de la prueba es cada uno de los
factores identificados.

Validez Predictiva

Uno de los grandes objetivos de la ciencia que va mas allá de la descripción de la


realidad, es la predicción y si es posible el control de la misma porque los
instrumentos de medición no sólo pueden servir para describir las características
individuales y grupales respecto de un rasgo, característica, conjunto de
conocimientos, etc. Sino que incluso busca avanzar en expectativas hacia el futuro en
torno de lo mismo o sobre aspectos relacionados.

En consecuencia, la validez predictiva, también llamada validez de criterio externo o


validez empírica, se estudia comparando los puntajes de un instrumento (variable
independiente) con una o más variables externas (variables dependientes)
denominadas variables criterio. Se asume que tales criterios, indicadores del
desempeño futuro, están teórica y lógicamente relacionados con el rasgo representado
en el instrumento bajo estudio. Esta comparación entre los puntajes de la variable en
estudio y el de la variable criterio se expresan a través de un coeficiente de
correlación, el cual se interpreta como un índice de validez. Entre más alta sea la
correlación entre una medida o medidas de aptitud académica y el promedio de notas,
tomado como variable criterio, mejor será la validez predictiva de la prueba de aptitud
académica. Es importante destacar que la validez predictiva suele estar asociada con
problemas y resultados prácticos; es decir, el interés no es tanto en lo que está detrás
del desempeño en la prueba, sino más bien en ayudar a resolver problemas prácticos
y tomar decisiones. Muchos de estos problemas y toma de decisiones están
relacionados con la evaluación, selección y asignación de personas para diferentes
actividades (estudio, trabajo, deporte, arte, etc.).

Coeficiente de Validez

La validez se expresa por medio de un valor numérico llamado “Coeficiente de


Validez” , es la correlación entre la prueba o test que validamos (Variable X) y el
criterio (Variable Y), y que se representa por r xy , pero no siempre la correlación
podrá ser la de Pearson, sino que habrá que seleccionar el coeficiente adecuado al
tipo de datos. Naturalmente cuando 0< rxy <1 las afirmaciones que hagamos sobre
Y a partir de X serán unas estimaciones de los verdaderos valores de Y.

N  XY   X  Y
 XY 
N  X 
1
2 2
 
  X  N Y 2   N Y 
2 2

Donde  XY es el coeficiente de validez de la prueba que se denota por X y su criterio


por Y.

A continuación se presenta un esquema que resume los diferentes tipos de validez:

S-ar putea să vă placă și