9402 PDF

Compendio de métodos de evaluación
de aprendizajes
Cedetec
Centro de Desarrollo, Experimentación y Transferencia de

Tecnología Educativa Cedetec (2007). Tabla de especificaciones.
Compendio de métodos de evaluación de aprendizajes. Universidad
de Santiago de Chile
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
3. Características técnicas básicas de la

medición, criterios y tabla de especificaciones
3.1 Características técnicas de la medición
3.1.1 Pertinencia Desde una perspectiva

complementaria, la
La pertinencia de la medición alude al concepto de atingencia o correspondencia que pertinencia destaca la
identificación y selección
existe en ciertos significados de la estructura de los datos observados o inferidos, o
de los indicadores
la información que requieren quienes deben tomar las decisiones. En pocas palabras que sustentarán las
se refiere a la focalización de la información evaluativa, de modo que haga la diferen- distinciones de la
cia para la toma de decisiones; ya que, al contar con la nueva información, el usuario realidad; para que la
cuenta con nuevas evidencias sobre aspectos propios de lo que se desea evaluar. Por información evaluativa
ejemplo, para una foto de pasaporte no sería pertinente una imagen donde solo apa- haga la diferencia en la
reducción del error en
rece el pelo de la persona, o la foto de un pie de ella. En ambos casos, no se contaría
la toma de decisiones.
con información o evidencias cuyos significados hagan una diferencia clave para iden-
tificar las características centrales utilizadas para identificar a la persona.
Desde una perspectiva complementaria, la pertinencia destaca la identificación y se- Página

lección de los indicadores que sustentarán las distinciones de la realidad; para que la 2
información evaluativa haga la diferencia en la reducción del error en la toma de deci-
siones. Un estándar de desempeño permite identificar el tipo de datos, sus contextos y
los significados requeridos para contar con una información focalizada en lo necesario
o central para decidir.
3.1.2 Confiabilidad
La confiabilidad o fiabilidad consiste en que si una técnica particular, se aplica repeti-

damente al mismo objeto, bajo las mismas condiciones exactamente iguales, a lo largo
del tiempo, se obtendrá siempre el mismo resultado. En otras palabras, se relaciona
con la estabilidad de los datos en el tiempo, y con la consistencia interna de las dis-
tinciones proporcionadas por las observaciones. En medición educativa, al igual que
en otras medidas del comportamiento, la confiabilidad depende tanto de la población
como del instrumento de medición. En el ejemplo de la foto de pasaporte, si no cam-
bian las condiciones del contexto, y en un pequeño lapsus de tiempo a la persona se
le toman dos fotos; se espera que ambas presenten imágenes altamente consistentes.
Si hay una asociación o correlación importante entre los rasgos de la persona (compo-
nentes de la imagen) y entre las representaciones totales, se dirá que la confiabilidad
es alta.
Complementariamente, los problemas que se relacionan con la confiabilidad tienen

que ver con la exactitud del procedimiento de medición o del instrumento que se
construyó para llevar a cabo la medición. Existen varias formas para determinar el
valor numérico que estima la confiabilidad de un instrumento:
• Un método es el Test - Reset, el cual, consiste en aplicar el mismo instru-

mento dos veces, en un intervalo de tiempo. Si no hay ninguna razón para
esperar cambio, las respuestas en ambas instancias deben ser altamente vin-
culadas o asociadas; de lo contrario, no hay confiabilidad.
• Un segundo método, corresponde a la aplicación de Test Paralelos, es decir,
construir, al menos, dos test que satisfacen el mismo propósito y condicio-
nes.
• Un tercer método, corresponde a la Comparación por Mitades, en el que
se contrastan las respuestas de dos partes de un test, que pueden conside-
rarse como dos test paralelos. En esta opción ambas mitades del test están
constituidos por distribuciones de preguntas seleccionadas y organizadas en
forma aleatoria.
La confiabilidad de un instrumento es afectada por varios factores, los que deberían

tenerse en cuenta durante su proceso de construcción. Entre los factores que se des-
tacan en la literatura, están:
1. Mientras menor sean los rangos de dificultad del instrumento, mayor será su Página
confiabilidad. 3
2. El número de preguntas o ítemes.
3. La interdependencia entre los ítemes tiende a reducir la confiabilidad del instru-
mento.
4. Mientras más objetivo es la asignación de puntajes, mayor es la confiabilidad
del test.
5. Asignación de puntajes inexactos afectan la confiabilidad de la medición.
6. El azar en la obtención de las respuestas correctas afectan la confiabilidad de
un test.
7. Mientras más homogéneas sean las preguntas o actividades, el test es más con-
fiable.
8. Mientras más común sean las experiencias del test para el grupo de sujetos, más
confiable es el test.
9. El lenguaje contenido en la forma de medición, tales como las contenidas en
las instrucciones, estructuras gramaticales complejas, expresiones; pueden ser
emocionalmente mal interpretadas.
10. El uso de material único, optativo o complementario de un test afecta la con-
fiabilidad de la medición.
11. Preguntas cerradas o de recuerdo general mayor confiabilidad en la medición
que preguntas de inferencias o procesos nuevos.
12. Las instrucciones para contestar el instrumento. Falta de explicitación de las
instrucciones conduce a que las diferentes interpretaciones reduzcan la confia-
bilidad.
13. El incentivo al esfuerzo para responder bien el instrumento. Para algunos tipos
de test, -como los de personalidad- este factor afecta su confiabilidad.
14. La exacitud del tiempo de aplicación del instrumento es un factor que tiende a
estabilizar la confiabilidad de la medición.
15. Distractores de las condiciones de administración del test, tales como inciden-
tes ocasionales o accidentes. Pueden afectar negativamente la confiabilidad de
la medición; y también, otros factores emocionales que afecten el clima de tran-
quilidad para contestar el cuestionario.
16. La copia de las respuestas afecta la confiabilidad del instrumento.
3.1.3 Validez
La validez se refiere, de acuerdo a su significado convencional, hasta dónde una medi-

da empírica refleja adecuadamente el significado real del concepto que se estudia. Es
decir, se refiere a la interpretación o al significado de las observaciones. Centralmente,
ella apunta a que los datos u observaciones deben ser interpretados, de modo que sus
significados correspondan a lo que se pretende medir. Los datos pueden ser organi-
zados de diferentes maneras. Por lo tanto, dependiendo de cómo estos se combinen,
pueden proporcionar diferentes descripciones o interpretaciones de la realidad. La
validez se sustenta en una combinación de los datos u observaciones, de modo que la
estructura de sus significados corresponda a lo que se quiere medir.
Página
En el ejemplo de la foto de pasaporte, la foto es válida en la medida que la interpre- 4
tación de sus puntos den una representación inequívoca, tanto global como de los
rasgos principales de la persona. La imagen global y las imágenes parciales, constitui-
das por las interpretaciones de los datos, deben permitir reconocer con consistencia
las características distintivas de la boca, ojos, nariz, pelo, entre otros. En breve, de
acuerdo a su propósito, en este caso descriptivo, la validez se refiere a los significados
vinculados del conjunto de todos los puntos; como también a las interpretaciones
parciales de subconjuntos de puntos.
En suma, la validez de la medición se centra en la coherencia de la red de significados

basados en la estructuración u ordenamiento de datos. El grado de validez está en fun-
ción de la interpretación de los datos, en que éstos midan lo que se pretende medir.
Dependiendo del propósito de medición, deben seleccionarse las organizaciones de
los datos que den sentido apropiado a la representación descriptiva o interpretativa
de lo que se desea medir.
Al menos, todo procedimiento o instrumento de medición debe tener una validez de

contenido o aparente. Ella se refiere al grado en que la puntuación o escala usada, re-
presenta el concepto acerca del cual se va a hacer generalizaciones. Con ella,se intenta
juzgar el grado, en el cual, una escala entregue significados que estén en concordancia
con el contenido, destrezas, habilidades, disposiciones, situaciones y/o objetos que se
propone medir. Este tipo de validez es considerada como un medio para estimar hasta
qué punto el contenido de la escala muestrea la conducta o el campo de contenido
sobre los que se hacen inferencias.
El procedimiento más usado para determinar la validez de contenido es recurrir al

juicio de expertos acerca de la representatividad e interpretaciones de la muestra de
los ítemes. En el ejemplo de nuestra foto de pasaporte, y en el caso que un policía
tenga dudas sobre la relación entre la imagen proporcionada por la foto de la persona
y la persona misma, un procedimiento que se usa, frecuentemente, para dilucidar la
duda es pedirle la opinión a otras personas (en este caso, a otros policías también
entrenados), sobre si representa o no a la persona, y ¿por qué? A partir de la variedad
de posibles interpretaciones, se determina la validez de la foto mediante los grados de
consenso de las interpretaciones sobre la foto respecto a la persona.
Esta situación es similar a lo que sucede cuando un docente le consulta a otro acerca
de lo que mide cada pregunta, y si un conjunto de preguntas miden lo que se pretende
medir. Como la validez de contenido implica que alguien inspecciona los elementos, y
decide si están o no en concordancia con elcontenido, destrezas, habilidades, dispo-
siciones, situaciones y/o con las conductas del sujeto que se van a medir, se requiere,
obviamente, una gran confianza en la capacidad del juicio humano al utilizar este tipo
de validez.
La existencia de una explícita y clara descripcion del referente evaluativo hace más Página
riguroso el juicio de los expertos. La función que tienen los jueces es identificar la 5
proporción de los elementos congruentes en las preguntas, respecto al propósito de
medición y el criterio evaluativo que orientaron el desarrollo y selección de las pre-
guntas y lo ítemes escogidos. Si los elementos no apuntan al objetivo previsto, o dicha
descripción es poco precisa, deben adoptar una decisión negativa sobre la validez del
procedimiento o instrumento.
Generalmente, la selección y estructura de los datos se realiza mediante categoriza-

ciones, que corresponden a clasificaciones de acuerdo con referentes establecidos
previamente. Sin embargo, existen situaciones en las que no es posible partir con un
consenso sobre los significados de los datos. Cuando hay controversia, se pueden tra-
bajar categorías de significaciones opcionales que respondan a hipótesis alternativas.
Cuando no existen preconcepciones claras, se buscan categorías emergentes presen-
tes a través de las regularidades de los datos y sus interpretaciones; con enfoques me-
todológicos inductivos se obtienen antecedentes claves que permiten establecer las
hipótesis, para luego avanzar con enfoques más analíticos, que permitan generalizar
las relaciones establecidas en las hipótesis.
Adicionalmente, es importante señalar que existen otros tipos de validez: una de cri-
terio externo y otra de constructo. La validez a un criterio externo, establece a priori
“N” posibles asociaciones que, posteriormente, deben ser probadas. Entre las interpre-
taciones de dos o más instrumentos o procedimientos de medición es posible tener
validez concurrente (los puntajes y sus interpretaciones están altamente asociados
o correlacionados) y validez discriminante (los puntajes y sus interpretaciones están

altamente no correlacionados). Por ejemplo, en el caso de nuestra foto, los rasgos de
la cara pueden estar asociados a ciertos rasgos genéticos (como son raciales), y no
correlacionados los rasgos con los intereses musicales
Por su parte, la validez de constructo se refiere a un conjunto de elementos y relacio-

nes teóricas que, en forma autosuficiente, pueden describir, explicar o predecir una
situación, fenómeno o evento. Estas relaciones teóricas constituyen un conjunto de
hipótesis, cuya prueba empírica permite validar el constructo. Consecuentemente, la
validez de un constructo descansa en la acumulación de evidencias; y no es un índice
o número particular.
En el caso de nuestra foto, la validez de constructo podría ser aplicada a una situación
en que hubo un robo y las personas arrancaron. Una de las actividades que hace la
policía es construir un retrato hablado de los ladrones, a partir de los datos e infor-
mación proporcionadas por los testigos. Con ello, se va construyendo y ajustando la
representación de la persona, de modo que contemple características claves y distinti-
vas de la persona que se pretende buscar. Con el retrato hablado se puede seleccionar
personas que cumplan esas características. Sin embargo, todas ellas podrán ser sos-
pechosas; pero no culpables. Una persona sospechosa cambia a culpable cuando se
cuente con una multiplicidad de evidencias sobre las hipótesis, que permitan sustentar
una interpretación en un intervalo de confianza ausente de otras significaciones. Este
procedimiento de construir un constructo teórico y validarlo, es un procedimiento de Página
gran utilidad para evaluar competencias, y que supera el objetivo de este documento. 6
3.2 Criterios de análisis para la medición
Para determinar la calidad de los instrumentos o procedimientos de medición, existen

una serie de criterios claves a utilizar. Estos son:
3.2.1 Criterio 1: Propósito de medición
De acuerdo con el tipo de información que se requiere para tomar decisiones, el pro-
pósito de medición establece: qué va a ser medido, a quien (es) se va a aplicar, como
se van a interpretar los puntajes y cómo se va a usar el o los instrumento (s) o procedi-
miento (s). De acuerdo con lo presentado, en el propósito de medición deben quedar
explícitos los atributos de los diferentes dominios que serán medidos, y el marco de
referencia evaluativo que será utilizado; en caso que sea respecto a la norma o al cri-
terio.
Si es referido a la norma, para analizar un instrumento o procedimiento de medición,

este criterio concierne a determinar si la descripción del test, para la clasificación de
los estudiantes, se ajusta al dominio de aprendizaje que se requiere medir; si la norma
está relacionada con el grupo de referencia de sus estudiantes, y si la interpretación
de los puntajes normalizados son concordantes con los requerimientos de validez,
practicidad y credibilidad para tomar las decisiones en forma adecuada. Página
7
En tanto, para la medición referida a criterio, el próposito debe considerar dos aspectos
centrales. Típicamente, la medición referida a criterio usa como marco interpretativo
de referencia un dominio de contenido o atributos; en vez de una población específica
de personas, como lo ha sido la evaluación referida a la norma. El segundo aspecto,
el foco de la medición, está en los atributos personales que se espera desarrollen con
la enseñanza. Las interpretaciones de los puntajes corresponden a un porcentaje de
logro absoluto de los conocimientos, habilidades, destrezas, actitudes, emociones, va-
lores y disposiciones que se requiere satisfacer para ser exitoso.
Luego, el propósito de medición debe establecer, inequívocamente, el nivel de gene-

ralidad de los criterios evaluativos que van a ser medidos. Para algunos especialistas,
el propósito de medición es descriptivo; a modo de poder cubrir, sólidamente, con las
inferencias de los ítems, el desempeño del estudiante en las variables que componen
el criterio evaluativo y los respectivos estándares de desempeño. También, es impor-
tante considerar en el propósito de medición a quienes se les aplicará el instrumento,
bajo qué condiciones, y quiénes serían los usuarios de la información.
3.2.2 Criterio 2: Número de ítems por dominios o categorías de

aprendizajes
El número de ítems, preguntas u observaciones afectan la confibilidad y validez de la

medición. El puntaje total de un test, que cubre un determinado contenido, es una
combinación de los puntajes de agrupaciones de ítems, que corresponden a subtest
o tipos de aprendizajes. El número de ítems por categorías refleja el peso que se les
asigna a las diferentes categorías en la interpretación de los puntajes globales de la
medición.
En el caso de la evaluación referida a la norma, el número de ítemes totales y por

categorías deben posibilitar una medición pertinente y válida para satisfacer los re-
querimientos del propósito clasificatorio de los sujetos, basados en el modelo de la
distribución normal.
En cambio, en la evaluación referida a criterios o estándares de desempeño, se preten-

de establecer una correspondencia entre el número de lo ítems con los requerimientos
de descripción de un nivel aceptable de actuación. La cantidad de ítems y sus posibles
combinaciones afectan a la estabilidad, consistencia y significatividad de los puntajes
totales y parciales del procedimiento de medición.
3.2.3 Criterio 3: Rango de medición Página

8
El rango de medición interactúa con los dos criterios anteriores. Se refiere a la ampli-
tud de dominios a ser medidos. Puede ser un instrumento que pretende medir “todo
el conocimiento”, o bien, puede ser específico a una unidad temática. Experiencias
pasadas enfatizaron una fran especificidad de los test, haciendo que muchos de los es-
fuerzos midieran aspectos muy triviales o pocos relevantes del proceso de enseñanza.
El rango de medición debe posibilitar una medición sensible respecto al o los dominios
de aprendizajes; respecto a los cuales, se pretende clasificar a las personas. Claramen-
te, el rango de medición está relacionado con el próposito de medición, y una gran
cantidad de conocimiento no puede ser medido, directamente, con una sola situación
de medición.
En la evaluación referida a la norma, el rango de medición debe ser lo suficientemente

amplio para clasificar a los sujetos, respecto a lo que se pretende medir. En cambio,
el rango, en la evaluación referida a criterio, debe ser lo suficientemente amplio para
tener distinciones sobre todos aquellos conocimientos, habilidades, destrezas y dis-
posiciones que sustenten los determinados niveles de desempeño, que distinguen los
grados de maestría, respecto a lo que se pretende medir.
La especificidad de la medición debe ser concordante con la amplitud de los criterios

evaluativos de los objetivos de aprendizaje establecidos en el currículum: no se debe
determinar, entre rangos muy amplios díficiles de enseñar, y otros muy específicos,
que pueden ser irrelevantes o trivializados. El rango de la medición depende de la

fragmentación del proceso de enseñanza, y de la forma en que se especifiquen los
estándares de desempeño de los objetivos de la enseñanza.
3.2.4 Criterio 4: Confiabilidad
La confiabilidad es una condición necesaria para validez de una medición. Como fue
mencionado, tiene que ver con la estabilidad y consistencia interna de las mediciones;
y se destacaron varias precauciones para lograr un buen índice de confiabilidad. Los
datos empíricos de la confiabilidad de la medición y las condiciones de administración
del instrumento son aspectos centrales a ser considerados para velar por el error de
medición asociado a la medición; y, consecuentemente, al margen de seguridad o ries-
go en la toma de decisiones. Estas consideraciones son válidas tanto para un instru-
mento referido a la norma o al criterio.
Sin embargo, en la evaluación referida a criterio, la estabilidad dererminada por un Test

– Reset es de gran importancia. Como ello no es siempre posible, es recomendable
tener un indicador de confiabilidad basado en el coeficiente de confiabilidad, obtenido
mediante dos o más formas equivalentes del test. En general, se recomienda satisfacer
ambos criterios (estabilidad y equivalencia); para lo cual, primero se aplica una forma,
luego se deja pasar un tiempo, y posteriormente, se aplica la otra forma equivalente.
Cuando ello no es posible, se pueden calcular coeficientes de confiabilidad mediante Página
métodos alternativos como es la bipartición. 9
3.2.5 Citerio 5: Validez
Considerando que la validez se refiere a la interpretación de los puntajes del test, y a la

relación que el instrumento mida lo que realmente se quiere medir; en este criterio, es
fundamental analizar la naturaleza de los ítemes, los significados de las observaciones
y los de las combinaciones de los ítemes que sustentan mediciones de ciertas catego-
rías o del total del test.
En la evaluación referida a la norma para analizar la validez de un instrumento o proce-

dimientos de medición, se deben considerar los niveles de dificultad y de discrimina-
ción de los ítems, y sus combinaciones en los puntajes totales. Los niveles de dificultad
de los ítems deben ser de lo simple a lo complejo, de acuerdo a una distribución nor-
mal de puntajes (un ítem es fácil cuando un alto % de estudiantes de la población lo
tienen correcto). La discriminación de ítem debe permitir diferenciar a los estudiantes,
que tienen bajos resultados (aproximadamente 27% inferior), respecto a los que obtie-
nen altos puntajes en el instrumento o procedimiento (aproximadamente 27% de los
puntajes superiores). Un ítem de alta discriminación proporciona una clara distinción
entre los puntajes altos respecto a los bajos.
Por su parte, para la validez de la evaluación referida a criterio, es esencial establecer

cúan exacta es la organización de los puntajes, para describir el dominio de atributos
o el estándar de desempeño que se pretende medir. La validez de un test referido
a criterio enfatiza la homogeneidad de los ítems, para generar redes de significados
compatibles con la descripción de los criterios evaluativos. Desde la perspectiva de
una validación del instrumento mediante las distinciones que permiten establecer la
medición respecto a los dos grupos siguientes: grupo sin enseñanza (que no han teni-
do experiencia en el dominio de aprendizajes), versus los que han recibido la enseñan-
za y que, por juicios de expertos, satisfacen el estándar de desempeño.
3.2.6 Criterio 6: Datos comparativos
La calidad de una evaluación referida a la norma descansa, fuertemente, en la calidad

y cantidad de datos comparativos que sustentan la interpretación de los puntajes de
un instrumento o test. Si Juan obtiene un percentil de 67, significa que Pedro iguala
o excede el desempeño de 67% de los examinados de ese grupo. Si el grupo utilizado
en el proceso de normalización de los puntajes del instrumento fue grande y cuidado-
samente ensamblado, entonces, tenemos un alto grado de seguridad en la interpreta-
ción del percentil 67 de Pedro. En aquellos casos en que el grupo normal sea pequeño
y no bien estructurado, la interpretación del percentil tiene poco sentido.
Por su parte, en la evaluación referida a criterio, las investigaciones de estas últimas Página
décadas han enfatizado la importancia de estudiar el patrón de las respuestas; más 10
que la distribución teórica de la organización de los puntajes del test para sus inferen-
cias, aunque los ítemes en cuestión tengan un puntaje continuo o pseudo continuo.
La Teoría de Respuesta al ítem ha contribuido a diferenciar, de la psicometría clásica
basada en la calidad del instrumento, que se pueda abordar la calidad del ítem me-
diante procesos de calibración. Los niveles de dificultad y discriminación de cada ítem,
proporcionan evidencias sobre niveles de capacidad vinculadas a atributos o moviliza-
ciones de atributos específicos, comprometidos en las expectativas de desempeño. En
suma, los datos comparativos del instrumento o procedimiento evaluativo.
3.3 Tabla de especificaciones de los instrumentos o

procedimientos de medición
El diseño de todo instrumento requiere tomar decisiones coherentes con el propósito

de medición. Entre las principales, se encuentran; qué es lo que va a ser medido, a
quién se le va a aplicar, qué uso se va a hacer de los puntajes obtenidos, y cuáles serán
los criterios que se utilizarán para validar los ítemes y el test completo.
En el diseño de un test deben, al menos, estar presentes los aspectos siguientes:
A. E l contenido del test (la materia que será medida y el tipo de habilidad que
requerirá el test);
B. Peso que se les asignará a las diferentes categorías del test;
C. El largo aproximado del test (una estimación del número de ítemes que se in-
cluirán en la forma final relacionado con la confiabilidad deseada y el tiempo
disponible);
D. Límite de tiempo (relacionado con la velocidad con que se contestará el test);
E. El tipo de ítemes (de selección múltiple, verdadero o falso, respuesta corta, u
otro tipo que será usado. Para ítems de selección múltiple, debe especificarse el
número de distractores que serán usados);
F. Dificultad del ítem (el número de ítemes en cada nivel de dificultad y, este últi-
mo, deberá ser especificado para cada categoría de ítemes); y, Página
G. Puntuación del test (los procedimientos que serán usados para asignar puntajes 11
significativos y precisos a cada estudiante. Preguntas como estas, deberían ser
consideradas: ¿será el puntaje totalmente objetivo?, ¿se aplicará corrección para
el azar?, ¿se usará algún sistema de ponderación?).
Para contar con decisiones coherentes en el diseño del instrumento, se utilizan tablas
de especificaciones. A continuación, se aborda una para la evaluación referida a la
norma y, posteriormente, otra referida a la medición por criterio.
3.3.1 Tabla de especificaciones para una medición referida a la norma
La tabla de especificaciones es una herramienta o medio que permite conciliar los

puntajes el contenido del test con el modelo de distribución normal. En el contenido,
se ha asumido que la medición se ha centrado en una dimensión de desarrollo de la
persona; y, más precisamente, en un aspecto particular del comportamiento humano.
Los diferentes tests confeccionados, tanto para mediciones cognitivas como para las
afectivas, sociales y psicomotoras, han sido elaborados bajo la idea que son medicio-
nes referidas a una característica precisa y, explícitamente, definida como única. Estas
características, han sido referidas a los objetivos de enseñanza o a los resultados de
aprendizajes esperados.
Independiente del o los aspectos de la conducta humana que se desee medir, se debe
estudiar aquellas categorías que colaboran a definir un perfil de conducta para la des-
cripción de un sujeto, o para la comparación entre sujetos. La manera en que se han
de interpretar correctamente los resultados de un test, está en estrecha relación con
la manera real en que se organizan las respuestas de los distintos ítems, definiendo
categorías que sean interpretables.
Luego, la tabla de especificaciones permite determinar el contenido (tanto global o

parcial), aprendizajes, resultados o dominios de atributos en los que se pretenden es-
tablecer las distinciones para las comparaciones con el grupo de referencia.
Por su parte, respecto a los requerimientos de normalidad, la tabla de especificaciones

contribuye a determinar un continuo basado en los aportes de cada ítem. En otras
palabras, el nivel de dificultad de cada ítem contribuye a obtener puntajes que se dis-
tribuyen normalmente.
Página
12

9402 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

9402 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Compendio de métodos de evaluación

Centro de Desarrollo, Experimentación y Transferencia de

3. Características técnicas básicas de la

3.1 Características técnicas de la medición

3.1.1 Pertinencia Desde una perspectiva

Desde una perspectiva complementaria, la pertinencia destaca la identificación y se- Página

La confiabilidad o fiabilidad consiste en que si una técnica particular, se aplica repeti-

Complementariamente, los problemas que se relacionan con la confiabilidad tienen

• Un método es el Test - Reset, el cual, consiste en aplicar el mismo instru-

La confiabilidad de un instrumento es afectada por varios factores, los que deberían

La validez se refiere, de acuerdo a su significado convencional, hasta dónde una medi-

En suma, la validez de la medición se centra en la coherencia de la red de significados

Al menos, todo procedimiento o instrumento de medición debe tener una validez de

El procedimiento más usado para determinar la validez de contenido es recurrir al

Generalmente, la selección y estructura de los datos se realiza mediante categoriza-

o correlacionados) y validez discriminante (los puntajes y sus interpretaciones están

Por su parte, la validez de constructo se refiere a un conjunto de elementos y relacio-

3.2 Criterios de análisis para la medición

Para determinar la calidad de los instrumentos o procedimientos de medición, existen

3.2.1 Criterio 1: Propósito de medición

Si es referido a la norma, para analizar un instrumento o procedimiento de medición,

Luego, el propósito de medición debe establecer, inequívocamente, el nivel de gene-

3.2.2 Criterio 2: Número de ítems por dominios o categorías de

El número de ítems, preguntas u observaciones afectan la confibilidad y validez de la

En el caso de la evaluación referida a la norma, el número de ítemes totales y por

En cambio, en la evaluación referida a criterios o estándares de desempeño, se preten-

3.2.3 Criterio 3: Rango de medición Página

En la evaluación referida a la norma, el rango de medición debe ser lo suficientemente

La especificidad de la medición debe ser concordante con la amplitud de los criterios

que pueden ser irrelevantes o trivializados. El rango de la medición depende de la

3.2.4 Criterio 4: Confiabilidad

Sin embargo, en la evaluación referida a criterio, la estabilidad dererminada por un Test

3.2.5 Citerio 5: Validez

Considerando que la validez se refiere a la interpretación de los puntajes del test, y a la

En la evaluación referida a la norma para analizar la validez de un instrumento o proce-

Por su parte, para la validez de la evaluación referida a criterio, es esencial establecer

3.2.6 Criterio 6: Datos comparativos

La calidad de una evaluación referida a la norma descansa, fuertemente, en la calidad

3.3 Tabla de especificaciones de los instrumentos o

El diseño de todo instrumento requiere tomar decisiones coherentes con el propósito

En el diseño de un test deben, al menos, estar presentes los aspectos siguientes:

3.3.1 Tabla de especificaciones para una medición referida a la norma

La tabla de especificaciones es una herramienta o medio que permite conciliar los

Luego, la tabla de especificaciones permite determinar el contenido (tanto global o

Por su parte, respecto a los requerimientos de normalidad, la tabla de especificaciones

S-ar putea să vă placă și