Sunteți pe pagina 1din 40

Segundo parcial de Psicometría

PRIMER TEMA: VALIDEZ


¿Medimos en realidad lo que nos proponemos medir?

Concepto de validez
 La validez es un tema complejo, controvertido y particularmente importante en la
investigación de la conducta.
 Es posible estudiar la confiabilidad sin investigar el significado de las variables,
pero no podemos examinar la validez sin estudiar la naturaleza y el significado de
nuestras variables.
 No existe una definición simple y única.
 Una definición muy citada es la de Hammersley: un resultado es válido o
verdadero si representa exactamente aquellos rasgos del fenómeno que se
supone describe, explica o teoriza.
 La validez es un aspecto esencial de la medición psicológica y se relaciona con la
investigación del significado teórico de las puntuaciones obtenidas por medio de
un test.
 La situación ideal en lo referente a la validez es que un test represente
adecuadamente y mida la varianza relevante del constructo (representación
abstracta de un conjunto de comportamientos relacionados) (sin sesgo-error
sistemático ni varianza irrelevante).

La importancia de la validez
 Se debe particularmente al problema filosófico de la naturaleza de la realidad.
 En las Ciencias Sociales cobra mayor importancia, porque en ella no se miden
atributos físicos (peso, altura), sino psicológicos.
 En Ciencias Sociales no poseemos medios tan directos para medir.
 Cuando inventamos medios indirectos para medir las propiedades psicológicas, a
menudo son tan indirectos que surgen dudas sobre la validez de la medición, de
sus productos.

1
Historia del concepto de validez
 Primera etapa: operacional, predomina una perspectiva pragmática de las
aplicaciones de los test. Coincide con el operacionalismo dominante en la
epistemología de la primera mitad del siglo pasado y se manifiesta en la noción de
validez como sinónimo de la correlación entre las puntuaciones de un test y algún
criterio que el test intenta predecir. La concepción de validez con un sentido
meramente predictivo dominó el escenario de la psicometría hasta los años
cincuenta.
- Posteriormente, se comprendió que este concepto de validez exclusivamente
ligado a la predicción de criterios externos no era útil para muchos test en los que
ellos mismos constituyen su propio criterio (por ejemplo, las pruebas de
rendimiento). Esto condujo a introducir el concepto de validez de contenido.
- En 1955 Cronbach y Meehl publican un artículo donde se presenta por primera
vez el concepto de validez de constructo, caracterizado a esta como el aspecto
fundamental e inclusivo de las restantes dimensiones de la validez.
 Segunda etapa: a partir del artículo de Cronbach y Meehl se inicia una etapa en la
cual la teoría psicológica asume un papel fundamental. En esta etapa se
diferencian tres tipos de validez.
 Tercera etapa: período actual o contextual, se caracteriza por una extensión de la
concepción anterior a la que se agrega la importancia otorgada al uso propuesto
para el instrumento.
- Esto significa que, en realidad, nunca se valida un test en sí mismo, sino que su
validez se verifica para determinados propósitos.
- En esta nueva perspectiva ya no se habla de distintos tipos de validez sino de un
proceso de recolección de diferentes tipos de evidencia para un concepto unitario.
Siempre referido al grado en que la evidencia empírica apoya las inferencias
realizadas en función de los resultados de un test.

2
Preguntas guía
1. ¿Por qué el autor dice que determinar la validez de un instrumento es más
difícil que establecer su confiabilidad?
La validez de un instrumento es más difícil que establecer su confiabilidad,
debido a que “no es común encontrar pruebas sólidas que sustenten la validez de
la mayor parte de las mediciones de carácter psicológico”.
Esto se debe a que mientras la confiabilidad sería esencialmente una cuestión
empírica; la validez incluye más elementos teóricos, ya que la validación
persigue la explicación, con todas las complicaciones que esto implica.

2. ¿A qué hace referencia la validez de contenido de una prueba?


Al construir un test, elegimos determinados ítems de un conjunto de conductas
que tienen un interés específico, por suponer que remiten al atributo a ser
evaluado por el test. En el instrumento no colocamos todas las conductas
posibles, elegimos algunas de ellas, o sea, que hacemos una muestra de
conductas.
Al analizar la validez de contenido, lo que hacemos es evaluar si los ítems que
hemos usado para construir el test, son relevantes para el uso que se le va a dar
al test, es decir, si todos los ítems están dentro del dominio de interés.
Una vez establecida la relevancia, lo que importa es saber si los ítems
constituyen una muestra representativa del universo de conductas dicho
anteriormente.

3. ¿Qué se pretende estudiar en la validez de criterio? ¿Qué subtipos de


evidencias de validez podría incluir la validez de criterio?
En la validez de criterio se pretende no únicamente establecer que se mida
adecuadamente un constructo, sino fundamentalmente relacionar las
puntuaciones del instrumento con otras variables, a las que llamaremos
criterio.

3
Dentro de la validez de criterio se habla de validez concurrente y validez
predictiva. La diferencia entre ambas formas de validez, radica en la temporalidad
del criterio.
Si las puntuaciones del test se utilizan para predecir alguna medida del criterio
que se va a realizar a futuro, sería validez predictiva.
Si por el contrario relacionamos las puntuaciones del test con alguna medida del
criterio tomada en el mismo momento sería validez concurrente.

4. ¿Qué implicaría la validez de constructo? Menciona diferentes procedimientos


que darían cuenta de ella.
Gran parte de las variables psicológicas, no son observables directamente, o
sea, que constituyen constructos hipotéticos, que forman parte de las diversas
teorías que tratan de explicar la conducta humana.
Estas variables al no poder ser observadas directamente, para toda
investigación, deben ser operacionalizadas, o sea, hacerlas empíricas. Los
instrumentos psicométricos se refieren a constructos hipotéticos, siendo el
instrumento una forma de operacionalizar los mismos.
De esta manera la validez de constructo, consiste en tratar de probar que
las conductas que registra el test, pueden ser consideradas indicadores
válidos del constructo al cual refieren. Lo que se trata es de establecer que las
puntuaciones del test constituyen en forma válida una de las manifestaciones del
constructo. Hay distintos procedimientos para evaluar la validez de constructo:
1. Análisis factorial.
2. Diferenciación entre grupos.
3. Correlaciones con otras medidas del constructo.
4. Las matrices multimétodo − multirasgo: para poder aplicar esta técnica se precisa
que existan como mínimo dos métodos diferentes para medir el constructo que se
va a validar. También se necesitan otros constructos que puedan ser medidos por
los mismos métodos. Se miden en los sujetos de la muestra los distintos

4
constructos con métodos diferentes. Se calculan las correlaciones entre todas las
medidas y se forma con ellas una matriz que contendría los siguientes datos:
- Coeficientes de fiabilidad.
- Coeficientes de validez convergente.
- Coeficientes de validez divergente.
Formas de validez
1. Evidencia basada en el contenido del test
 Este tipo de evidencia se obtiene demostrando que el contenido (ítems) del test es
una muestra representativa del constructo o dominio respecto del cual se desea
hacer alguna inferencia.
 Si los ítems de un test son representativos de un dominio particular, si el
desempeño del sujeto en el mismo puede generalizarse a todo el dominio.
 Los métodos para reunir evidencia de contenido se apoyan mayoritariamente en el
juicio de expertos.
 En este tipo de validación deben realizarse las siguientes operaciones:
1. Definición del dominio a medir.
2. Identificación de expertos en ese dominio.
3. Juicio de los expertos acerca del grado en que el contenido del test es relevante y
representativo del dominio.
4. Procedimiento estadístico para resumir los datos del paso anterior.
 Cuando se entregan a los jueces los ítems preliminares de un test conviene
adjuntar una forma estandarizada de calificación.

Íte Pertinen Releva Aspecto Observaciones


m cia ncia s
formale
s
1 SI NO Adecua El ítem es congruente con el contenido
do de la escala, pero mide aspectos
secundarios del atributo.
2 SI SI Inadecu El ítem es pertinente y relevante, pero
ado inadecuado para el nivel de maduración
de los sujetos.

5
 Los expertos también pueden juzgar la calidad formal de los ítems de un test
(aspectos gramaticales, claridad, educación del contenido a la población meta,
etc.) utilizando una escala numérica. Deberían retenerse aquellos ítems con
promedios más elevados y descartarse aquellos con puntuaciones más bajas.
 Un estudio piloto con una pequeña muestra de características semejantes a la
población meta del test, también puede proporcionar información útil (claridad de
las instrucciones, comprensión de los términos empleados, etc.).
2. Evidencia basada en la estructura interna del test
 Indican si las relaciones entre los ítems y las dimensiones (factores, escalas)
permiten confirmar la existencia de los constructos que el test pretende medir.
 Permite corroborar empíricamente las dimensiones que el marco conceptual
propone de un determinado constructo.
 A través del análisis factorial es posible verificar si estadísticamente los ítems se
agrupan del modo en que la teoría lo predice.

3. Evidencia basada en el proceso de respuesta


 Refleja la relación entre la psicología cognitiva y la psicometría, donde el análisis
de los procesos cognitivos comprometidos en el proceso de respuesta a los test
adquiere particular importancia.
 Por ejemplo, es importante asegurarse que los puntajes de una determinada
escala, no estén fuertemente influidos por una tendencia hacia la conformidad
social.
 Esta evidencia generalmente se obtiene por medio de la utilización de entrevistas
con examinados, o procedimientos que permitan analizar las respuestas
individuales a los ítems del test.
 Los estudios sobre procesos involucrados en las respuestas de los examinadores
deberían ayudar a esclarecer en qué medida estos aspectos pueden influir en sus
respuestas.
 Esta nueva evidencia, recién contemplada en la última versión de los estándares
de la APA, ha sido poco investigada.

6
Fuentes externas de evidencia
 El análisis de las relaciones de las puntuaciones del test con variables externas al
mismo test es otra fuente importante de evidencia.
 Las variables externas pueden ser las medidas de algún criterio que el test intenta
predecir, así como las puntuaciones de otros test.
 Las variables categóricas externas (por ej. esquizofrénico-no esquizofrénico)
también son importantes cuando la teoría sugiere diferencias en las puntuaciones
de grupos contrastados.
4. Evidencia convergente – discriminante
 Convergencia: significa que los datos recabados de distintas fuentes y con
métodos diferentes revelan que las construcciones tienen un significado igual o
similar.
 Los datos que se obtienen al aplicar diversos instrumentos que pretenden evaluar
constructos semejantes, administrados a los mismos sujetos debería dar
resultados que correlacionen de manera positiva y significativa.
 Por ejemplo: una escala de inestabilidad emocional, debería correlacionar
positivamente con neuroticismo.
 Discriminación: significa que empíricamente puede distinguirse la construcción
hipotética a evaluar de otros constructos , permitiendo determinar las diferencias
teóricas entre los distintos constructos.
 Ej. Test de Raven y Test de Dominó.
 ¿Qué tienen en común? ¿Factor g o capacidad espacial?
 Son procedimientos complementarios, implicaría la evaluación de tres elementos.

5. Evidencia de las relaciones entre las puntuaciones del test y criterios


externos
 Este tipo de evidencia es especialmente importante en los contextos aplicados de
la psicología en los que se busca predecir de manera precisa un determinado
comportamiento o desempeño a partir de las puntuaciones de un test.
 Expresa las relaciones del constructo con otros constructos, operacionalizada en
general en términos de correlaciones y regresiones del test con otras medidas.

7
 Se estudia mediante la comparación de los valores de una prueba o escala con
una variable o criterios externos que, según se sabe o se cree se relaciona o
predice el atributo de que se trata.
 La evaluación en el criterio puede ser simultánea (evidencia concurrente) o
posterior (evidencia predictiva) a la administración del test.
 Un estudio predictivo es especialmente pertinente para tests empleados en
contextos educativos y ocupacionales.
 Un estudio concurrente, en cambio, es recomendable para test elaborados con
finalidades de diagnóstico clínico.
Las posturas actuales acerca de la validez:
1. Lo que se valida no es el test sino las puntuaciones del test, y por lo tanto la
pregunta que tratamos de responder es: ¿es válido el uso o la interpretación de las
puntuaciones de este test?
2. La validez no se puede resumir en un solo indicador o índice numérico de
información, si no se asegura mediante la acumulación de evidencia teórica ,
estadística, empírica y conceptual del uso de las puntuaciones.
3. Una puntuación puede ser válida para un uso y no para otro.
4. La validez es un proceso continuo y dinámico.
5. La teoría juega un papel muy importante como guía tanto del desarrollo de un test
como de su proceso de validación.

Evidencia de validez relativa a la estructura interna del test (2ª forma):


Análisis Factorial Exploratorio (AFE)
Los inicios del AF
 Los conceptos del AF fueron desarrollados por Spearman (1904) intentando
probar su teoría de la inteligencia o del factor general.
 Cuando realizamos AF estamos evaluando la validez de un test.
 Esto es porque se estudia la correlación de las variables. Por tanto...
 Su objetivo general es examinar la estructura de la relación entre las variables.
 Y así se evalúa si estoy midiendo lo que quiero medir, y no otra cosa.

8
 Se basa en el principio de parsimonia –busca siempre la estructura más
simple−, y esto se logra a través de una serie de pasos.
 Hay dos formas de análisis exploratorio, que dependen de la estructura del test:
 Exploratorio: se caracteriza porque no se conocen a priori el número de factores
y es en la aplicación empírica donde se determina este número. (Se parte de una
teoría, y hay una hipótesis de cuántos pueden ser los ítems, pero no se sabe
hasta la prueba empírica).
 Confirmatorio: los factores están fijados a priori utilizándose contrastes de
hipótesis para su corroboración. (Es otro objetivo, otra forma de analizarlo. Ve
como ajusta mis datos ese modelo que estoy queriendo confirmar. No es
exploratorio, no voy a ver qué es lo que pasa, sino que ya hay una idea más
concreta y se busca confirmar).

El Análisis Factorial Exploratorio


 El AF es una técnica de reducción de datos cuyo objetivo principal es
agrupar un conjunto de variables en pocas dimensiones (factores).
 Mediante el AF un gran número de ítems puede reducirse a un número pequeño
de factores (neuroticismo, extraversión) que expliquen la mayor cantidad de
variabilidad de respuesta con un significado teórico.
 Cada uno de los factores agrupa los ítems altamente correlacionados entre sí y
que son, al mismo tiempo, relativamente independientemente de los restantes
factores.
 (La necesidad de agrupar es por la parsimonia, la necesidad de simplicidad. No es
que me voy a poner a ver si el sujeto contestó en cada ítem, porque sería muy
largo el análisis y poco práctico para la devolución. Entonces agrupando es más
fácil porque veo, por ejemplo, si el sujeto tiene tanto porcentaje de neuroticismo, o
tiene tanto porcentaje de psiquismo).

El AF se utiliza para:
1. Explorar la relación entre las variables. Un instrumento creado con este método:
bf.

9
2. Informar sobre las evidencias de validez de un instrumento de medida “si las
puntuaciones que proporciona el instrumento parecen medir o no las dimensiones
con constructos pretendidos”. El AF permite poner a prueba la dimensionalidad
pretendida por el constructor del test.
3. Comprobar si la distribución de resultados se puede explicar con un número
menor de construcciones subyacentes, llamadas variables latentes o factoriales,
es decir ayuda a reducir grandes cantidades de variables a un número más
manejable. (En vez de explicar cada uno de los ítems de un test, el análisis
factorial encuentra un componente principal, que explica que por ejemplo 20 de los
50 ítems se encuentran en tal dimensión).
4. Comprobar algunas hipótesis sobre los datos, e incluso colabora en el desarrollo
de teorías sobre determinados constructos (ej. Inteligencia, personalidad).
5. Reducir el número de variables a una cantidad más manejable.

 Un análisis factorial tiene sentido si se cumplen dos condiciones:


1. Parsimonia: poder llegar a una solución simple y clara. Si tengo 10 ítems y 8
factores, no es parsimonioso. Si tengo 240 ítems y tengo 5 dimensiones es un
modelo parsimonioso.
2. Interpretabilidad: no tiene sentido tener un ítem que no se pueda interpretar, que
no tenga sentido teórico. Hay ítems que no pueden explicarse, no cumplen con
esto.

¿Qué son los factores? (si estamos hablando del análisis factorial)
 Son atributos, construcciones hipotéticas, variables latentes.
 Es decir, las partes que componen nuestro constructo. Los componentes
principales/dimensiones casi nunca explican la varianza, pero si gran parte de ella.
Esto es por la complejidad de los constructos que se estudian en psicología.
 Las variables o los elementos en el análisis factorial son los ITEMS. Si dice,
se analizaron 50 variables son ítems, en cambio si digo, se analizaron 3 variables,
son las variables latentes.

10
Resumen
 En Análisis Factorial se busca determinar si varias medidas (tests, características
médicas, etc.) se pueden justifican con un número menor de tales factores.
 El grado de correlación con el factor.
 Su aporte exclusivo.
 Comunalidad: el grado de correlación con el factor.
 Exclusividad: todos los ítems tienen una parte en común (comunalidad), y otra
exclusiva, que nadie más tiene.
 Ambos elementos tienen que ser altos en el ítem.

Cuestiones que hay que tener en cuenta a la hora de hacer AF:


1) Tamaño de la muestra:
 Debe calcularse a partir de muestras grandes (300 sujetos) para obtener
resultados útiles y relativamente estables. (Tabachnick y Fidell, 2001).
 Idealmente: 10 sujetos por ítem y un mínimo de 5 por ítem, nunca menos de 100
aunque el número de variables sean muy pocas.
 Tener en cuenta hipótesis de posibles diferencias de género, edad, nivel
educativo, etc. (porque si yo creo que pueden contestar distintos los niños de 9
que, de 12, tendría que tener una muestra de cada edad para ver los resultados
por separado).

Fases de la AFE: (ya habiendo tomado la muestra). Hay que ver si es factible.
2) Factibilidad del AF; responde a la pregunta ¿ existen factores?:
 Esto se contesta con una matriz de correlaciones.
 ¿Qué es una correlación? Relación entre las variables, asociación del elemento y
dónde pertenece (o donde debería pertenecer) en el caso de los ítems nos damos
cuenta mediante el estudio de las correlaciones, la matriz de correlaciones.

11
 Luego de administrar el test a la muestra de investigación, y antes de realizar el
AF, se debe determinar si los ítems están lo suficientemente interrelacionados
para que este método pueda aplicarse.
 Uno de los requisitos que debe cumplirse para que el AF tenga sentido es que las
variables estén altamente intercorrelacionadas entre sí. Por tanto, si las
correlaciones entre todas las variables son bajas, el análisis factorial tal vez no
sea apropiado.
 Hay dos formas de saber la factibilidad, que determinan si hay factores:

1. Test de Esfericidad de Barlett


 Da lugar a un chi cuadrado estadístico.
 Existe algo que se llama Matriz de Unidad, esta conceptualmente existe, y es una
en la cual no hay factores; es decir, no hay correlación entre los ítems. A Barlett,
entonces, se le ocurrió que, si quiere comprobar la existencia de factores, debe
comparar la matriz de correlaciones de su test, con la de unidad.
 Es una prueba que busca diferencias. Si hay diferencias, hay factores, sino las
hay, no hay factores.
 Cuanto más se aleje mi correlación del valor esperado −bajo la hipótesis de que
no hay relaciones entre las variables−, es mejor.
 Entonces voy a esperar que el chi cuadrado sea significativo, es decir que su
valor sea menor a 0,5.
 El valor 0,5 es un valor consensuado en que se acepta el error. Significa un 5%.
Es decir, se acepta que haya un 5% pero NO MÁS. ¡Por eso debe ser menor!
 Si es mayor, NO HAY DIFERENCIAS: no hay factores.
 Aclaración: (Chi cuadrado: diferencia entre un valor dado y un valor esperado).

2. Medida de adecuación muestral de Kaiser – Meyer – Olkin (KMO)


 Hay correlaciones parciales (ítem con ítem) y correlaciones múltiples (un ítem con
todos los demás).
 El promedio en la medida en que ese ítem se correlaciona con todos los demás,
explica que hay factores.
12
 Entonces, el valor es más robusto porque analiza correlaciones múltiples.
 El KMO es un índice que toma valores entre 0 y 1.
 Es un promedio de correlaciones múltiples.
 Se utiliza para comparar las magnitudes de los coeficientes de correlació n
observados, con las magnitudes de los coeficientes de correlación parciales .
 De forma que, cuanto más pequeño sea su valor, mayor es el valor de los
coeficientes de correlación parciales rjj (p) y, por lo tanto, menos deseable es
realizar un AF.
 Kaiser, Meyer y Olkin aconsejan que, si KMO es mayor o igual a 0,75 la idea de
realizar un análisis factorial es buena, si KMO es mayor o igual a 0,5 la idea es
aceptable y si KMO es menor a 0,5 es inaceptable.
 Entonces el valor de KMO debería ser mayor a 0,60.
 Hace un promedio de las correlaciones entre todos los ítems. Si el promedio es
alto es alta la correlación entre los ítems, y si se aproxima a 0 el promedio es bajo.
Otra cosa que uno debe tener en cuenta a la hora de hacer AF son los supuestos:
Análisis de supuestos:
1. Aproximación a la normalidad:
Si los ítems son politómicos, se considera que la aproximación a la condición ideal
de continuidad es razonablemente adecuada cuando el número de opciones de
respuesta es de 5 o más, y la distribución de los ítems es aproximadamente
normal.
(La exigencia para variables varía según la recomendación de diferentes autores).
2. Relación lineal entre ítems y factores:
El AF clásico se ha desarrollado sobre el supuesto de que los ítems se relacionan
linealmente entre sí y con los factores que miden.

13
Contestación: la Matriz de Correlaciones se diferencia de la Matriz Unidad, según
el análisis de Barlett. Además, el promedio de correlaciones múltiples (KMO) es
superior a 0,60; indicando que existen factores.

Ya evalué la factibilidad, los supuestos, ahora veo con qué método voy a extraer
los factores.
3) Métodos de extracción de factores.
 Existen diferentes métodos para la extracción de los factores.
 Los más utilizados en AFE (en SPSS) son:
- Análisis de Componentes Principales: explica la mayor cantidad de varianza
posible en los datos observados (común, específica y de error).
- Si el análisis pretende identificar el número y composición de los factores comunes
(variables latentes) necesarios para explicar la varianza común del conjunto de
ítems analizado, entonces lo apropiado es aplicar un AFE.
 Debe cumplir con dos criterios:
1) El segundo factor tiene que estar incorrelacionado con el primero.
2) Expresa la mayor parte proporcional de variancia, una vez tomado en
consideración el primer factor.
 Ejes principales: no requiere supuesto de normalidad, lo cual es más probable
según se reduce el número de categorías de respuesta.

14
 Máxima verosimilitud: requiere del cumplimiento de normalidad multivariada (al
menos univariada). Mejor, datos “continuos” con 5 o más categorías.

4) Número de factores a extraer ¿cuántos factores existen?


 Es la parte más subjetiva del AF, porque no hay un único criterio.
 La extracción del número correcto de factores es una de las decisiones más
problemáticas del AF.
 El empleo de un único criterio puede llevar a sobreestimar o subestimar el número
real de factores. Por lo que se recomienda empelar un conjunto de criterios para
identificar el número de factores subyacentes.
Criterios más utilizados:

1. Auto valor 1 de Kaiser.


 Implica la extracción de factores con auto valores superiores a 1.
 Un auto valor se puede tomar como un índice de variancia.
 En el ACP, cada factor tiene un auto valor que es la parte total de la variancia
inducida por el mismo.
 El primer paso: se transforman todas las variables en valores z, por lo que tienen
media 0 y variancia igual a 1.
 Esto significa que el valor total de la variancia coincide con el número de variables:
15 variables, entonces la variancia total interna de la matriz de los datos (z-
transformados) es 15.
 Si añadimos los auto valores de los 15 factores que surgen del ACP (o de
cualquier otro método de extracción de factores) sumará 15. En consecuencia, se
puede pensar que un factor que tiene un auto valor menor que 1.0 induce menos
variancia que la generada por una variable. Así pues, no ganamos nada
guardando factores con autovalores menores que 1.0.
 El punto de corte 1 se fija porque las variables están estandarizadas con una
varianza igual a 1 y sería inadecuado interpretar un factor que explique menos
varianza que la explicada por una variable en particular .

15
 Si dividimos el auto valor de un factor por el número de variables y multiplicándose
ese valor por 100 obtenemos el porcentaje de varianza explicada por ese factor
particular.
 El criterio tiene dos problemas:
- Es bastante arbitrario: un factor con auto valor 1.01 permanece, mientras que otro
con auto valor 0.99 queda descartado.
- Produce a menudo demasiado factores cuando hay más de 50 variables y da
demasiado poco si trabajamos con menos de 20 variables.

2. Criterio Porcentaje de Variancia Explicada.


 Va de la mano con el anterior, el porcentaje de variancia de cada factor debería
ser mayor al 10%.

3. El gráfico de la pendiente de Catell o Scree Test.


 Es un test de gran potencia que se apoya solamente en la intuición .
 Es una representación gráfica del tamaño de los autovalores. En el eje vertical se
representan los autovalores, y en el horizontal, el número de factores.
 En general, aparece un borde afilado en la curva entre el punto descendente y en
el que se estabiliza.
 Es la cantidad de puntos que están por encima de dónde se estabilizó la
pendiente. Entonces debo contar la cantidad y ahí tengo la respuesta.
16
 Por otro lado, es demasiado restrictivo también: porque los números no se
redondean, si un ítem tiene 0,999 y otro 1,000 aunque no tengan casi diferencia,
se toma uno y no el otro.

4. Análisis paralelo o Criterio de Horn.


 Selecciona los componentes o factores comunes que presentan valores
propios mayores que los que se obtendrían por azar.
 No es un procedimiento disponible en SPSS (al menos de forma directa) pero si se
encuentra en otros paquetes estadísticos como el Factor, el R, el Vista, entre
otros.
 Hace una estimación con tus datos, y con una simulación (suponiendo que
tuvieras una muestra de miles de personas), te dice cuáles son los ítems o
factores que debas retener.

5. Criterio teórico o teoría.


 Es el primero, en realidad, porque es la que nos dice cuanta es la cantidad de
ítems que debo retener.

 Lo ideal sería que exista concordancia en al menos dos criterios. Si es entre todos,
mejor.

5) Rotación de factores ¿cuánto explica cada factor ?


 El resultado inicial del AF (antes de la rotación) es una matriz factorial, una matriz
de correlaciones con las variables del factor.

17
 La matriz inicial es difícil de interpretar, por lo cual luego de extraer los
factores iniciales, éstos son sometidos a un procedimiento denominado
rotación (cuando hay más de un factor en la solución).
 Las rotaciones:
- Colocan a las variables más cerca de los factores diseñados para explicarlas.
- Concentran la varianza de las variables en menos factores.
- Facilitan la interpretación de la solución factorial obtenida.
- Ayuda a acomodar los ejes de los valores, y así se puede ajustar la
estructura a los criterios.
 Hay dos tipos de rotación:
- Ortogonal: menor a 0.32.
- Oblicua: mayor a 0.32.

Rotaciones ortogonales y oblicuas


 El tipo de rotación depende de la teoría. Si ésta indica que no hay relación o la
misma es desconocida entre las dimensiones, se utiliza el criterio:
 Ortogonal: suponen independencia entre los factores. En la práctica se interpreta
que una solución es ortogonal cuando las correlaciones entre los factores son
inferiores a .32.
 En cambio, cuando explica que hay relación, se aplica la rotación:
 Oblicua: suponen correlación entre los factores.
 Los tipos de rotación son los dos presentados. Los métodos son muchos, pero los
dos más conocidos son Varimax (ortogonal) y Oblimin (oblicua).

¿Para qué se hace la rotación?: Matriz factorial de estructura simple


 El objetivo de las rotaciones es simplificar la interpretación de los factores
obteniendo una matriz de estructura simple.
Cuatro criterios de Estructura Simple:
1. La variancia debe estar uniformemente distribuida respecto de los factores (no
puede haber un factor que explique el 50% y otro el 5%).

18
2. Cada variable/ítem sólo debe cargar un único factor.
3. Los pesos de los factores deben estar próximos a 1.00 o 0.00 (la carga que tienen
que tener tiene que ser muy alta o muy baja).
4. Los factores deben ser unipolares (todas las variables fuertes han de tener el
mismo signo o al menos un sentido teórico de las variables con sentido contrario).

6) Interpretación de los factores


 El primer paso es determinar qué variables carga cada factor.
- Para esto, debemos calcular qué pesos son significativos y cuáles pueden ser
ignorados sin que causen problemas.
 Hay un par de formas:
 Una consiste en fijar un valor mínimo como, por ejemplo .30 o .40 (que
generalmente es arbitrario).
 El tamaño de la muestra influye en el valor que se debería fijar para
considerar una variable en el factor.
 Cuando el tamaño de la muestra es mayor que 199, una aproximación para usar
sería: Vc= 5.16 sobre raíz cuadrada de N menos 2. (valor crítico).
 ¿De dónde provienen estos números?
 Cuando N > 100, la curva normal es una buena aproximación para la distribución
de la correlación, y 2.58 marca el nivel 1 de significación.
 Según Stevens, debemos doblar (es decir, 2.58*2= 5.16) y multiplicar entonces
por el ET de la correlación, que es [1/N – 2] y ya está.
 Así se desea utilizar el nivel 5% (1.96*2) se debe poner 3.920 en el numerador.
En nuestro ejemplo:
VC= 5.16 sobre raíz cuadrada de 198, igual a 0.368.
Complejidad factorial
 Siempre que una variable carga fuertemente sobre dos o más factores, la
llamamos factorialmente compleja.
 La complejidad factorial hace más difícil la interpretación del papel de la variable :

19
1. Podemos suprimirla: si hay suficientes variables que permanezcan en los factores,
ésta pueda ser una opción. También podemos eliminar las variables que no den
un peso suficiente a ninguno de los factores.
2. Podemos mantener la presencia de las variables en ambos factores (si
teóricamente es correcto).
3. Si la variable es una de las que hemos diseñado, podemos reescribirla . Pero
tendríamos que repetir todo el estudio con un nuevo grupo de individuos para ver
si la variable revisada es mejor que la original.
4. Se dice que cuando la diferencia es menor a 0,150 el ítem es demasiado
complejo, no se sabe en dónde se pesa. Entonces la diferencia entre dos factores
debe ser mayor a 0,150.

SEGUNDO TEMA: CONFIABILIDAD


Análisis discriminativo de los ítems
 Un ítem discrimina cuando existen diferencias en las respuestas de los sujetos al
ítem, en función del nivel del atributo que poseen.
 Además, discrimina, según la Prueba Levene: si la significación bilateral es menor
a 0.050 (porque significa que existen diferencias a la hora de responder) (t de
abajo).
 Lo que indica que los grupos extremos (con niveles diferentes del atributo que
estoy evaluando) responden de forma diferente/significativamente diferente.
- Si en la tabla, el grupo bajo contestó más alto, que el grupo alto, y la T queda
positiva, es porque no se invirtió el ítem.
 Para este análisis se utiliza la prueba de diferencia de medias: “la prueba t”:
1. Se toma al grupo de sujetos que tiene una puntuación muy alta en todo el test, y la
puntuación de los sujetos que tienen puntuación muy baja.
2. Se toman los puntajes extremos porque debido a sus diferencias, tendría que
haber formas distintas de respuesta.
3. Si esto pasa, el ítem discrimina, porque los extremos diferentes contestan
diferente.

20
4. Si esto no pasa, el ítem no discrimina: todos los sujetos contestan lo mismo.

Trabajo áulico:
Identifica los ítems discriminativos a partir de las tablas que aparecen a continuación. ¿Por
qué elegiste esos ítems?
Tabla
Ítem Media Bajo Media Alto T P
(X) (DT) (X) (DT) (bilateral)
34 3,60 1,06 4,77 0,44 -3,918 0,001*
37 3,53 0,83 4,38 0,87 -2,641 0,014*
40 2,13 0,83 3,77 0,83 -5,183 0,000*
43 1,93 0,70 2,85 0,99 -2,846 0,009*
46 3,67 1,35 4,31 0,86 -1,477 0,152
49 2,40 1,06 4,77 0,44 -4,588 0,000*
50 2,60 0,91 4,38 0,65 -5,88 0,000*

1) El ítem 34, 37, 40, 43 y 49 porque su significación bilateral es igual a (x) y es menor a
0,050.

Aporte a la Consistencia Interna o Análisis Discriminativo RBP


(Correlación Biserial Puntual)
 Correlación ítem test (que el ítem correlacione con el test): las puntuaciones
deberían tener la misma dirección, ambas subir o ambas bajar.
- RBP es el rango hasta donde deben subir: mayor o igual a 0,30 o a 0,20.
 Dos preguntas de examen:
1. ¿Cuál es el ítem que más aporta a la consistencia interna?
Hay que buscar en la columna correlación ítem-test el puntaje más alto, y en el
alpha que se elimina el valor más bajo.
2. ¿Cuál es el que menos aporta?
El ítem que tiene valor más bajo en correlación ítem-test (RBP) y más alto en
alpha si se elimina.

Teoría de Respuesta al Ítem


 Es una nueva forma de estudiar y evaluar la confiabilidad.

21
 Antes usamos la Teoría Clásica de los Tests (TCT).
 Lo que antes era el valor verdadero, ahora es el valor de habilidad, de Theta.

Orígenes:
 Inconvenientes TCT:
- La imposibilidad de separar las características del examinado, de las
características del test. Es decir: todas las características del test están situadas
en una distribución normal. Si un sujeto tuvo un puntaje alto en dentro de una
muestra, probablemente tenga uno bajo o normal en otro. Por eso son importantes
los baremos. En este sentido, el nivel de habilidad del sujeto no cambió, sino
cambió la muestra.

Conceptos
- ¿Qué significa habilidad?
Es el valor verdadero.
- ¿Dificultad del ítem?
Proporción de sujetos que lo contestan correctamente.
- El poder discriminativo de los ítems, la validez y la confiabilidad son
definidos en términos de un grupo particular de examinados.
- Definición de confiabilidad (sesgos desconocidos) y el error estándar de medición
(variancia igual para todos los individuos).
- Está orientada al test y no al ítem.
- La TCT no suplía las necesidades para medir la confiabilidad , estaba midiendo la
puntuación total, entonces en vez de medir al nivel del test, se debía medir al nivel
del ítem, y así surgió:

Respuesta al ítem: razones de su surgimiento


1) Características de ítem no dependientes del grupo (los puntajes no tienen que
depender de la muestra como pasaba en TCT).
2) Resultados que describan las capacidades de los examinados no tienen que
depender del test. (Si en el examen hubo una media de nota de 4, si una persona

22
se sacó un 5 tiene un rendimiento mucho más alto, pero en un examen donde
hubo media 6 tiene uno bajo, esto no debería pasar).
3) Un modelo expresado al nivel del ítem y no al nivel del test.
4) Un modelo que no requiera tests estrictamente paralelos para la evaluación de la
confiabilidad.
5) Un modelo que provea una medida de precisión para cada habilidad.

Postulados básicos:
1) El rendimiento de un examinado en un ítem de un test puede predecirse o
explicarse por un grupo de factores llamados rasgos, rasgos latentes o
habilidades.
2) La relación entre el rendimiento de los examinados en el ítem y el conjunto de
rasgos subyacentes al rendimiento en el ítem puede describirse por una función
monotónicamente creciente, llamada función característica del ítem o curva
característica del ítem (CCI).
- Entonces lo primero que se evalúa en la teoría al ítem es su propiedad:

La propiedad de invariancia
 Los parámetros que caracterizan un ítem no dependen de la distribución de
habilidad de los examinados, y los parámetros que caracterizan un examinado no
dependen del conjunto de ítem del test.
 ¿Qué es invariancia entonces? Al momento de clasificar, el valor del sujeto no
debería depender del grupo, del conjunto de ítems clasificados para el test. Tiene
que contestar lo que pide el ítem.

Supuestos TRI
 Unidimensionalidad: (no puedo medir varias dimensiones como en escalas
Likert). Es la presencia de un componente o factor dominante (explica la mayoría
de la varianza) que influya sobre el rendimiento del test.

23
 Independencia local: las respuestas de los examinados a cualquier par de ítems
son estadísticamente independientes entre sí. Ejemplo: la dependencia local (cuando no se
cumple este supuesto) en un examen de psicometría, es cuando él nos pone verdadero o falso, “la
confiabilidad apunta de manera general a que el instrumento está midiendo bien” “la _____ es que el
instrumento mida bien”. Entonces si vos pusiste verdadero en la primera tenías que poner confiabilidad en el
segundo. Aquí hay DEPENDENCIA TOTAL. No puede haber relación entre las dos respuestas.

Modelo de 1 parámetro o Rasch


Primer parámetro: valor de b: DIFICULTAD (-3 a 3)
- La habilidad necesaria para contestar correctamente la mitad de las veces al ítem.
- Se necesita un parámetro de dificultad: es de -3 a 3.

Segundo parámetro: valor de a: DISCRIMINACIÓN (1)


- Es la pendiente calculada en el punto de dificultad.
- El concepto de discriminación de TCT es diferente.
- En TRI es el intervalo en el cual el ítem funciona.
- El ideal es que el parámetro de discriminación, la inclinación, la pendiente sean
igual a 1 y valores próximos.
- A mayor pendiente (mientras más arriba esté), mayor discriminación.

24
- Además, se necesitan ítems que evalúen las diferentes habilidades o cantidad de
atributo que tengan los sujetos.

Tercer parámetro: valor de c: ADIVINACIÓN (0)


- La adivinación es cuando con nada o casi anda de habilidad las personas ya
tienen cierta posibilidad de contestar correctamente.
- ¿Cuál es la probabilidad de responder correctamente al ítem con nada o casi nada
de habilidad? Por adivinación.
- Por ejemplo, un ítem v o f, ¿qué probabilidades tiene de ser contestado
correctamente? Un 50%. Por esto en estos ítems se tiene que aplicar un factor de
corrección.
- El parámetro ideal es 0, que, con nada de habilidad, tenga 0 posibilidades de
contestar bien.
- Si se da esto, es una escala intervalar, sino es ordinal.
- Siempre que mi parámetro c no sea igual a 0, hay que calcular cuál es la mitad.
Formula: 100 – c dividido 2 + c.

Resumiendo:
 Los parámetros que definen la CCI son:
Parámetro de Dificultad (b):
- Es el valor de escala del ítem.
- Definido por el punto del continuo donde la probabilidad de acertar es de 0,5.
- Habitualmente toma valores comprendidos entre -3,5 y +3,5.
- Valores elevados indican alta dificultad (o elevado valor en la variable de medida).

Parámetro de Discriminación (a):


- Proporcional a la inclinación de la CCI en el punto de inflexión (0=b).
- Indica hasta qué punto un ítem permite diferenciar entre sujetos que tienen una
aptitud inferior a la posición del ítem (dificultad) y los que tienen una aptitud
superior.
- Habitualmente toma valores comprendidos entre -2,8 y +2,8.

25
Parámetro de Adivinación (c):
- Refleja el efecto del azar.
- Probabilidad de respuesta correcta para las personas con un nivel de habilidad
muy bajo.
- Útiles en el test de ejecución máxima.

Modelo 1 parámetro Modelo 2 parámetros Modelo 3 parámetros


b: -3 a 3. b: -3 a 3. b: -3 a 3.
a: 1. a: -2 a 2. a: -2 a 2.
c: 0. c: 0. c: 0 a 100.

Modelo 1: c= a 0 porque todos partan de un mismo punto.


Modelo 2: b y a son variables, pero c sigue siendo 0 porque todos parten de un
mismo punto.
Modelo 3: varían los tres, y no parten todos del mismo punto.

26
Ejercitación de Teoría de Respuesta al Ítem
1. En la siguiente tabla se presentan los valores de parámetro de seis ítems:
Item b (dificultad) a (discriminación) c (adivinación)
1 1.0 1.8 0.00
2 1.0 0.7 0.00
3 1.0 1.8 0.25
4 -0.5 1.2 0.20
5 0.5 1.2 0.00
6 0.0 0.5 0.10

a. ¿Cuál es el ítem más fácil?


El ítem más fácil sería el 4, porque tiene un valor de dificultad de -0,5.
b. ¿Cuál es el ítem más difícil?
Los ítems 1, 2 y 3 son los más difíciles, porque los tres tienen el mismo valor: 1.
c. ¿Cuál ítem es el que menos discrimina?
El ítem que menos discrimina sería el 6, porque tiene un valor de 0,5; que es el
más bajo.
d. ¿En cuál ítem un sujeto con habilidad de θ = 0 tiene la probabilidad
más alta de contestar correctamente?
Un sujeto con una habilidad de 0 tiene la probabilidad más alta de contestar el
ítem 4, porque tiene -0,5 (miro b). Porque el sujeto tiene un valor más bajo de lo
que requiere los otros ítems, pero en el ítem 4 tiene un valor de habilidad mayor
que -0,5.
e. ¿Descartarías algún ítem? ¿Por qué?
Podría eliminar alguno de los tres primeros, porque se repite el nivel que miden.
Segundo paso, de esos ítems, ver cuál es el mejor, o cuál no está funcionando. Y
descartaría el 3, porque: primero, hay otros que están midiendo el mismo nivel,

27
segundo porque es muy discriminativo y pocos sujetos estarían en este intervalo, y
finalmente porque tiene un pseudoazar muy elevado.

2. Usa las curvas características del ítem (CCI) de la Figura 1 para contestar
las preguntas que se presentan a continuación:

a. ¿Cuál ítem es el más fácil a θ = -1,0?


El ítem más fácil para un sujeto con una habilidad Theta de -1,0, es el número 4.
b. ¿Cuál es el ítem más difícil a θ = 0,0?
El ítem más difícil para un sujeto con una habilidad Theta de 0,0, es el número 1.
c. ¿Cuáles son los dos ítem equivalentes en cuanto a su dificultad
para una θ = -1,0?
Los dos ítems equivalentes en cuanto a su dificultad para una habilidad Theta de
-1,0; serían 2 y 4.
d. ¿Cuál ítem discrimina más a θ = 2,0?

28
3. Según las siguientes CCI, responde a las siguientes preguntas:

a) ¿Cuál es el ítem más fácil?


El ítem más fácil es el 1.

b) ¿Cuál ítem es el menos discriminante?


El ítem menos discriminante es el 1.

c) Un sujeto con una θ = 0,00, ¿qué ítem tendría menos probabilidades de


contestar correctamente?
Un sujeto con una habilidad Theta de 0,00; tendría menos probabilidades de
contestar correctamente el ítem 3.

d) Aproximadamente ¿Cuál es el índice de dificultad del ítem 1?


El índice de dificultad aproximado del ítem 1 es de -0,25.

29
Repaso antes de abordar Teoría G
 En cualquier medición existe un error ya sea causado por:
- Instrumento que se utilice.
- Forma en cómo se aplica.
- Momento.
- Lugar.
- Otros factores.
 Este error puede producirse por un proceso sistemático o aleatorio.
 Recordemos... si descomponemos la variancia:
Variancia total = variancia secundaria (tendencia de las puntuaciones a ir a un
sentido) + variancia error/aleatorio (debida a cuestiones fortuitas)

Para entender la TG hay que entender la TCT


TCT:
 Enunciada por Spearman (1904).
 Puntuación obtenida = puntuación verdadera + puntuación de error.

Puntuación verdadera
 Es aquella puntuación que obtendría como media si se le pasase infinitas veces el
test.
 Se trata de una definición teórica, pero se considera que si esto se hiciese la
puntuación media que esa persona sacase en el test sería su verdadera
puntuación.

Confiabilidad
 Definida en términos de puntuación verdadera y de error.
 Cuanto mayor sea el error, menor será la confiabilidad.

30
 Coeficiente de fiabilidad = la razón (o división) entre la variancia verdadera y
la variancia de error.

Dimensión de la Método N° de sesiones de Estadístico


confiabilidad administración de la
prueba
Estabilidad Test-retest 2 r de Pearson
Formas 2 r de Pearson
paralelas
Consistencia Formas 1 r de Pearson
Interna paralelas 1 r y fórmula de
Partición en 1 corrección
mitades Spearman Brown,
Coeficiente alfa Alfa, Kuder
Richardson
Confiabilidad entre Acuerdo entre 1 Kappa, w de
examinadores examinadores Kendall,
Coeficiente de
correlación
intraclase

Teoría de la Generalizabilidad
¿Qué plantea?
 Rendimiento afectado por distintos factores además del atributo que queremos
medir. Ejemplo: cansancio, memoria, ruidos, luz ambiental, evaluador. (= TCT).
 Estos factores son fuentes potenciales de error que disminuyen la fiabilidad de la
puntuación. (= TCT).
 Intenta identificar las posibles fuentes de error y minimizar su efecto.
 Trata de descomponer e identificar fuentes de error que la TCT considera
error aleatorio, para lograr una medición más precisa.

Síntesis:
 Identifica las fuentes de error.
 Minimiza el error de medición.
 Maximiza la confiabilidad.

31
¿Qué es la confiabilidad en la TG?
En la TCT estaba definida en términos de error, pero en TG:
 Es el grado de exactitud al generalizar...
 A partir de un valor observado de una persona en un test u otra medida...
 Al valor promedio que la persona podría haber recibido bajo todas las
posibles condiciones (que el investigador quiera tener en cuenta).

Conceptos:
1. Las Facetas: (otro nombre que se le da a las fuentes de variación o de error):
 Cada una de las características de la situación de medida.
 Se consideran facetas a todos los factores o variables presentes en el diseño
de medida.
 Circunstancias particulares en que se realiza la medición.
2. Anova (análisis de variancia)
 En la TCT la confiabilidad se estudiaba a partir de correlaciones.
 En la TG se hace un ANOVA: análisis de variancia. Es un estadístico.
 Se emplea para conocer el efecto de cada faceta o fuente de variabilidad y el
efecto de cada combinación de estas facetas (interacciones).
3. Puntuación de universo (puntuación de dominio)
 Es lo mismo que puntuación verdadera en la TCT.
 Característica que se desea medir al aplicar el test o prueba a un sujeto.
4. Universo
 Conjunto de condiciones de medida sobre las que el investigador generaliza.
 Éste va a cambiar según el propósito de investigación.
 Es importante que el investigador defina claramente el universo especificando las
condiciones de medida sobre las que intenta generalizar.

Universo de una faceta

32
- Está definido por una fuente de error de medición, es decir, por una sola
faceta.
- Ejemplo: supongamos que estamos midiendo inteligencia. Tenemos una muestra
de 50 adultos y los examinamos en cinco ocasiones diferentes. De aquí podemos
identificar:
- Objeto de medición: Inteligencia.
- Población: 50 adultos (A).
- Faceta: Ocasiones (O).
 Lo único que podría ser una fuente de error (que es esa faceta) es la ocasión,
porque son cinco ocasiones diferentes, no es una ocasión. Entonces, en TG
siempre se va a identificar así: objeto de medición, población, faceta; y después de
faceta tenemos las fuentes de variación. Son importantes las letras con que se
identifican.

Universo de dos facetas


 Dos facetas tomadas juntas, por ej. Evaluadores y ocasiones.
 Ejemplo: se está midiendo rendimiento en matemática. La muestra está
compuesta por 10 niños y los examinamos en tres ocasiones diferentes, con 3
evaluadores distintos.
 Objeto de medición: rendimiento en matemática.
 Población: 10 niños.
 Facetas: tres ocasiones diferentes y tres evaluadores distintos.

Universo de tres o más facetas


 Se está investigando la habilidad para resolver conflictos en una muestra formada
por estudiantes de 4 colegios secundarios. Se administrará un instrumento en 2
ocasiones (mañana y tarde) por 4 evaluadores diferentes.
 Faceta: cuatro colegios, evaluadores, ocasiones.
 Lo que hace la TG es identificar cada una de las partes del problema y luego el
análisis de ANOVA lo que hace es además de ver cuánto afecta cada una de las

33
facetas, ve la interacción entre ellas: ver la interacción que tiene un colegio con las
ocasiones, un colegio con los evaluadores, y así.
 Cada faceta es una fuente de error, y las interacciones entre sí es otra fuente de
error.

Fuente de Tipo de variación


variabilidad
Personas (P) Variancia del valor universo (objeto de la medición).
Observadores (R ) Efecto constante para todas las personas debido a la rigurosidad
del observador.
Ocasiones (O) Efecto constante para todas las personas debido a sus
inconsistencias en la conducta de una ocasión a otra.
PxR Inconsistencias de la evaluación de los observadores de la
X: combinación conducta de un persona en particular.
PXO Inconsistencias de una ocasión a otra en la conducta de una
persona en particular.
RXO Efecto constante para todas las personas debido a diferencias en la
rigurosidad de los observadores de una ocasión a otra.
P X R X O, E Residual que consiste en la única combinación de p, r, o; facetas
no medidas que afectan la medición; y/o efectos aleatorios.

Diferencia entre fuente de error y faceta


 La faceta es cada característica que hace que el estudio que pueda generar error
o variación a las puntuaciones, esas facetas también son fuentes de error, junto
con la interacción.

TRC (Criterio) y TRN (Norma)


Diferencias:
 Son totalmente distintos.
 Cada uno tiene su manera de evaluarse.
 Cuando se habla de norma: se habla de sujetos, es comparar el status del sujeto
con el grupo total.

34
 Cuando se habla de criterio: el potencial total que tiene una persona respecto al
constructo que se está evaluando.
 Status absoluto: cuánto domina un sujeto el constructo que estoy midiendo.
¿Hasta cuanto se de matemática?

TRC
 Definición: se construyen para permitir la interpretación de las puntuaciones de los
tests individuales y de grupo, con relación a un conjunto de objetivos, destrezas y
competencias, bien definidos.
 Definición de parcial: Popham (1978): “un test referido al criterio se utiliza para
evaluar el status absoluto del sujeto con respecto a algún dominio de conductas
bien definido” (p. 93).
- Ejemplo: el status es saber cuánto es el máximo potencial que un sujeto puede
dar (por ejemplo) en matemática. Cuánto tiene en total de ese constructo que
quiero evaluar.

Usos y aplicación
a) En la evaluación conductual.
b) En las fuerzas armadas para evaluar la competencia de los sujetos.
c) En la industria, para evaluar las competencias de los sujetos en el puesto de
trabajo.
d) En evaluación de programas, para medir cambios relativos a la aplicación de los
tratamientos.
e) En la evaluación educativa, para distinguir a los sujetos aptos y no aptos para
superar cursos y/o grados y en general, para evaluar las competencias de los
sujetos en diversas áreas.

Características
 Además de dominio (suma, resta, multiplicación, multiplicación) de conductas,
puede hablarse intercambiablemente de objetivos, destrezas y competencias.
 El dominio debe estar bien definido, siendo variables:

35
- La amplitud (en cada uno de los temas, debo definir hasta dónde voy a evaluar
sobre confiablidad, validez y escalamiento).
- Los contenidos de este domino (temas de unidades: confiabilidad, validez,
escalamiento).
 Si se evalúa más de un objetivo, los ítems que cubre cada uno de los objetivos
suelen organizarse subtests de manera que se evalúe el rendimiento en cada uno.
 Crítica: el TRC no incluye (aunque se pueden usar) el establecimiento de
estándares (significa la clasificación de hasta dónde es normal, hasta dónde es
puntaje alto, puntaje bajo), se realiza una interpretación descriptiva del
rendimiento.

Características
1. El número de objetivos medidos en un TRC puede variar entre los diferentes tests.
2. El número de ítems que mide cada objetivo es variable, pudiendo ser diferente el
de distintos objetivos dentro del mismo test.
3. No es necesario que el formato de los ítems sea de elección múltiple opción,
aunque sea éste el formato más frecuente. El formato va a depender de lo que se
evalúe.
4. Una forma habitual para tomar decisiones del tipo “apto” “no apto” o “pasa” vs. “no
pasa”, es comparar la proporción de aciertos del examinado con un criterio
estándar de rendimiento, decidiendo que el sujeto “pasa” si su rendimiento es igual
o mayor que el estándar y “no pasa” en caso contrario.

Requisitos básicos
 Como todo tipo de test tiene que tener sus requisitos.
1. La existencia de un conjunto de objetivos claramente definidos (contenidos y
amplitud/alcance).
2. Una proposición explícita de la finalidad del test (¿para qué se va a utilizar
este test?).

36
Entonces: El test referido a la norma busca clasificar según se sepa en relación a
la norma, es decir, el grupo. Al criterio, es el conocimiento que tengas en SÍ, sin
comparación.

Diferencias y similitudes
 TRC es similar a TRD (al domino): es exactamente lo mismo, solo reemplazaron la
palabra, porque ambas describen el status absoluto que domina una persona.
 TRC es diferente de TRO (al objetivo): en el TRO los ítems no se consideran
referidos al dominio de contenidos, están en función de alcanzar objetivos.
TRC: miden objetivos y los ítems representan el dominio de un contenido.
Ejemplo: un TRO puede tener por objetivo ver si las personas pueden o no sumar.
Pero en un TRD se mide hasta dónde se puede sumar, de qué maneras, en sí,
sumar de distintas formas.
Fases de elaboración del TRC
1. Planteamientos iniciales: plantear lo que se quiere evaluar y el propósito.
2. Revisión de los objetivos: delimitar el alcance, (de todo lo que quiero evaluar,
hasta dónde voy a llegar).
3. Redacción de los ítems.
4. Evaluación de la validez de contenido: si se evaluaron todos los aspectos que
se querían evaluar a través de jueces expertos, gente que sabe del tema y que
digan si ese ítem realmente mide. A través de la coherencia, pertinencia,
importancia.
5. Aplicación del test (Se juntan todas las respuestas de los jueces, se hace una
armonización de las respuestas, y se hace una versión piloto que se aplica a los
sujetos).
6. Revisión del test (antes era una revisión cualitativa, ahora es una revisión
cuantitativa, más formal: poder discriminativo, dificultad, facilidad, aporte a la
consistencia interna, etc.).
7. Preparar la forma definitiva del test.
8. Una vez tenida la forma definitiva, se aplica en otra muestra más heterogénea
(distintas poblaciones) buscando el establecimiento un estándar.

37
9. Aplicación en forma piloto del test definitivo.
10. Preparación del manual.
11. Recolección de datos adicionales para la investigación sobre fiabilidad y
validez.

Análisis estadístico de los ítems


 Selección de grupos criterio.
- Medidas pre-instrucción-post-instrucción.
- Grupos instruidos – no instruidos.
- Grupos de contraste, que en el contexto de la clínica a veces se denominan caso
(sujetos con el trastorno) y control (sujetos apareados a los “casos”, excepto en el
trastorno).
- Pruebas estadísticas: t de student.

 Análisis estadístico de las respuestas a los ítems.


- Índice de dificultad: es la proporción de personas que contestan correctamente al
ítem.
- Índice de discriminación del ítem : diferencia pre-test-post-test, diferencia grupo
instruido-no instruido, ganancia individual, ganancia neta.
- Índices de homogeneidad del ítem (el aporte a la consistencia interna al ítem)
(correlación ítem test): al repetir una prueba o en la misma prueba los ítems
congruentes con un objetivo se comportan de forma similar.
- Chi cuadrado: el índice de dificultad de cada ítem que mide un objetivo se
compara con la dificultad mediana del conjunto de los ítems que mide ese objetivo.
- Correlación ítem – puntuación total del test.
- Índice de discrepancia promedio al cuadrado : se basa en las discrepancias
individuales de las puntuaciones de los ítems a partir de una matriz de
puntuaciones sujeto x ítem.

Confiabilidad en los TRC

38
- Usa el coeficiente de Generalizabilidad de la TG para las Decisiones Absolutas
(del tipo pasa o no pasa, cuando quiero establecer un estándar).
- En las clasificaciones (apto vs no apto):
Interesa confiar en el punto de corte establecido:
Se hace un análisis de funciones de pérdida umbral: estima el grado en que un
examinado es consistentemente clasificado en la misma categoría en una
administración repetida del test.
Y el otro análisis: funciones de pérdida cuadrática: tienen en cuenta los
tamaños del error en la clasificación.
 Así se evalúa la confiabilidad de la TRC: con el coeficiente de Generalizabilidad. Y
lo que interesa evaluar prioritariamente es la clasificación del punto de corte. Este
se evalúa con la función de pérdida de umbral o con la función de pérdida
cuadrática.

La validez de los TRC


- Debe estimarse la validez de las decisiones de la clasificación.
- Existen dos índices que deben estar presentes en todos los tests:
1. Los índices de sensibilidad (proporción de sujetos con el trastorno detectados por
el test) (capacidad del test de identificar sujetos enfermos).
2. La especificidad es la proporción de sujetos “normales” es decir, sin el trastorno,
diagnosticados como tales. (son sujetos normales).
- Estos dos índices le dan validez a la clasificación de los sujetos.

Establecimiento de los puntos de corte


 Glass (1978): cuando se utilizan medidas empíricas, la elección de indicadores de
los criterios de éxito, la selección de los sujetos y la ponderación de errores
también se basan en los juicios humanos. (a pesar de que use un test
estandarizado, al momento de clasificar y dar una conclusión, lo da una persona.
¿por qué eligió esa prueba y no otra? Uno tiene que hacer el mejor diseño,
dependiendo lo que se me pide que evalúe).

39
 La reedificación de 2 categorías de persona puede crear una distorsión mucho
mayor que el error de medida individual.
 “La competencia es una variable continua que no se puede dicotomizar:
Explicación: porque hay mayor distorsión, mayor error. Cuando pongo un punto de
corte o dicotomizo genero un error en la medida: es mejor valorar la competencia
en valor del puntaje: si una persona obtuvo 5,99 y otro 6 voy a cometer menos
errores en la comparación si comparo los valores en sí, en lugar de establecer un
punto de corte.

No olvidar: existen tres tipos de modelos de medición:


1. TCT.
2. TRI.
3. TG.

40

S-ar putea să vă placă și