Profesor: Yerko Molina Alumna: Victoria Silva Prueba N 2 Sesin 6 (23 de abril) 1. Confiabilidad: a. Mtodos para medir confiabilidad: i. Test re-test: 1. Estabilidad. ii. Dos mitades: 1. Consistencia interna. Debe ser alta para tener CI. 2. Toma el test completo y lo divide en dos, suponiendo que ambas mitades son equivalentes. Luego se realiza una correlacin de Pearson entre los puntajes de cada mitad. iii. Formas paralelas: 1. Lo que hace es hacer dos test (FORMA A, FORMA B) que son exactamente iguales y miden lo mismo con reactivos distintos. Pero eso no se puede saber o comprobar cuantitativamente. 2. Evala: a. Consistencia interna: correlaciona los tems entre s. b. Estabilidad: evala con desfase temporal. b. Estadsticos: i. Alpha de Cronbach: 1. Slo se usa con escalas Likert. ii. Kuder-Richardson: 1. Se usa en tems dicotmicos. 2. Cumple la misma funcin que Alpha de Cronbach y se interpreta igual. 2. Validez: a. Estudia el error sistemtico (sesgo). b. Busca saber si el instrumento mide lo que realmente pretende medir. c. Un instrumento puede ser confiable, pero no necesariamente vlido. Pero si un instrumento es vlido, ser siempre confiable. d. Medir validez: i. Tericamente nunca existir un instrumento 100% vlido, sino con evidencia de algn tipo de validez. ii. Validez interna: 1. Una buena validez se dar cuando los cambios de la variable dependiente se deban a la variable independiente. a. Por ejemplo: estando seguro que mi intervencin fue lo que hizo que subieran las notas, y que nada ms produjo el cambio. iii. Validez externa: 1. Corresponde a si se puede extrapolar lo que se encontr en una poblacin de estudio a la poblacin en general. e. Validez en metodologa: 1. Que el instrumento mida lo que realmente pretenda medir. 2. Existen distintos tipos: a. Validez de contenido: i. Los instrumentos miden constructos tericos, complejos y abstractos. Por tanto, debe existir un acuerdo entre cada tem y el constructo que es evaluado, habiendo una coherencia entre la definicin terica del constructo y los reactivos del test. ii. Se evala de manera cualitativa. iii. Mtodos: 1. Juicio de expertos:
a. El mtodo ms utilizado es el de juicio de expertos,
que consulta con distintos expertos sobre qu tanto se condicen los reactivos con la definicin terica del constructo que se busca medir. b. Deben ser expertos en el constructo que se mide, si no lo es se habla de Face Validity (valiedz aparente). c. Criterios que se le piden al juez que mida: i. Adecuacin del tem a la variable medida. ii. Adecuacin. iii. No adecuacin. iv. Claridad del tem: claridad conceptual y gramtica del tem. v. Confuso. vi. Claro. d. Luego se les pide: i. Recomendaciones precisas y claras sobre los tems que se consideran no adecuados o confusos. ii. Opinin global del instrumento. e. Para cada tem se les pone una columna de acuerdo, y una de no acuerdo. f. Coeficientes de validez de contenido: i. Se usan para cuantificar el juicio de los expertos. ii. Se restan las puntuaciones adecuadas para cada tem o para el total del instrumento. iii. El coeficiente flucta entre -1 y 1. iv. 0 es un buen punto de equilibrio. v. Hacia arriba hay una preponderancia de jueces que encuentran bueno el tem. vi. Para abajo hay una preponderancia de jueces que encuentran malo el tem. vii. Esto da un coeficiente de validez de contenido por tem. viii. Si la muestra de expertos es pequea (10 o menos) el mnimo necesario para mantener el tem es un coeficiente de 0,8. ix. Si son 14 o 15 expertos se necesita un ndice de validez de contenido de 0,6. x. Si se evala con 40 o ms expertos basta un coeficiente de validez de 0,3. 2. Mtodo de Lynn: a. Pone el tem y en una escala Likert de 1 a 4 se evala, donde 1 es no adecuado y 4 es adecuado. b. El mtodo dicotmico agrupa las respuestas 1 y 2, y las respuestas 3 y 4 respectivamente. c. El coeficiente de validez de contenido va desde -1 a 1. d. Se obtiene segn: (N buenas cantidad de jueces total/2) / (N/2) e. El tem es vlido cuando: i. 40 o ms evaluadores: 0,3. ii. 15: 0,6. iii. 10: 0,8f. El porcentaje de expertos los sita entre tems 3 y 4. Habitualmente este puntaje se expresa en proporciones: 0,8 (equivalente a un 80%). 3. Kappa (categricas) o Pearson (numricas):
a. Evala acuerdo de los jueces.
b. Hay tems que a pesar de tener un alto nivel de validez, pueden generar controversia. c. Tambin uno puede sacar promedio y desviacin estndar del acuerdo entre los jueces. 2. Adecuacin lingstica del instrumento: a) Luego de pasar por los jueces, se pasa a los individuos que se les aplica al test. b) Tambin es necesario ver si los destinatarios del test lo entienden, pues los expertos provienen de un mundo cultural ms alto y no siempre son capaces de identificar el nivel de dificultad de stos. c) Es el proceso en el que se muestra el instrumento a los destinatarios finales del instrumento para que digan si lo entienden y qu cosas cambiaran. d) La idea es que los sujetos te digan si lo entienden, para poder modificarlo como sea necesario (los sujetos no pueden eliminar tems, ni cambiar el sentido de ellos). Solo sirven las opiniones en la medida que el test se haga ms claro para entender. e) Se puede complementar con un pilotaje: a. Pasar 10 instrumentos en las mismas condiciones que lo haran en la realidad con otros sujetos que pertenecen a la poblacin destinataria. f) Todo lo anterior es cualitativo. Luego de todo este proceso el instrumento est listo para ser utilizado. b. Validez de criterio: i. Compara un test con un criterio externo al test (otro test u otra cosa). ii. El criterio puede ser: 1. Interno/externo: a. Interno: i. Evala el test en funcin de otro test que mide lo mismo que est midiendo el primer test. ii. Se asumen que pueden existir otros modos de evaluar lo mismo. iii. Un test Gold Standard es la mejor manera de medir aquello que estoy midiendo en ese momento. No obstante, son muy caros por lo que generalmente se opta por crear un nuevo instrumento. iv. Tambin se puede usar Kappa. v. Se busca una correlacin de Pearson entre m test y el Gold Standard. Si es mayor a 0,8 los puntajes se correlacionan. Es aceptable de 0,5 para arriba. vi. Kappa tambin puede usarse, en variables categricas. b. Externo: i. Se utiliza como criterio una variable que no es la misma que se est midiendo, pero que se relaciona (Por ejemplo: a mayor inteligencia, mejor notas). 2. Concurrente/predictivo: a. Concurrente: i. En el mismo tiempo y espacio se evalan las dos variables que mide el test, y otra variable con la que se debera correlacionar (Por ejemplo: si mido inteligencia pido que me digan sus notas). b. Predictivas: i. Se toma la medicin y se ve cmo los individuos se comportan en ella.
ii. Importa saber cmo se comportar en el futuro una
variable. iii. Un buen instrumento debe ser capaz de predecir lo que va a pasar con las variables que se le asocian. iv. Se aplica el test en dos momentos diferentes para hacer un seguimiento respecto de la variable con la cual el instrumento se debera correlacionar. v. Estadsticos: Pearson las 2 numricas, Kappa las 2 categricas, T de student para muestras independientes cuando hay numrica y categrica (dicotmica). c. Validez de x: Sesin 7 (30 de abril) Sesin 8 (07 de mayo)