Documente Academic
Documente Profesional
Documente Cultură
AREQUIPA – PERÚ
2011
INTRODUCCIÓN
La intención es contar con materiales que realmente sean de ayuda para el manejo
adecuado de escalas de medición de manera que luego se viabilice, tanto la validación
de los instrumentos de recolección de datos como el establecimiento de la relación
estadística entre variables de un trabajo de investigación.
Sin embargo, esta es una primera versión del trabajo, quedando por revisar, corregir y
culminar el ordenamiento definitivo para su uso por estudiantes y docentes de
Metodología de la Investigación.
Son una sucesión de medidas que permiten organizar datos en orden jerárquico. Las
escalas de medición, pueden ser clasificadas de acuerdo a una degradación de las
características de las variables. Estas escalas son: nominales, ordinales, intervalares o
racionales. Según pasa de una escala a otra, el atributo o la cualidad aumenta. Las
escalas de medición ofrecen información sobre la clasificación de variables discretas o
continuas. Toda vez que dicha clasificación determina la selección de la gráfica
adecuada.
NIVELES DE MEDICIÓN
La medición de las variables puede realizarse por medio de cuatro escalas de medición.
Dos de las escalas miden variables categóricas y las otras dos miden variables
numéricas (Therese L. Baker, 1997). Los niveles de medición son las escalas nominal,
ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las
variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de
análisis estadístico apropiado para el tratamiento de los datos.
También podrían alinearse a los sujetos y ordenarlos según su altura, el primero sería el
más alto y el último el más bajo, el resto se organizaría de forma que cada persona
tuviese delante a uno más alto y detrás a uno más bajo. El nivel de medición en este
caso es ordinal. Hasta el momento no es posible decir cuánto es una persona más alta
que otra.
A través del número de personas que hay entre dos sujetos, por ejemplo, Andrea y Juan
en la fila ordenada anteriormente. En este caso, además del orden se conoce la magnitud
de la altura. Si en lugar de utilizar el número de personas se recurre a una regla se puede
ofrecer otra medida de la altura. Esta forma de medir es propia del nivel de intervalos,
que permite saber la magnitud de los elementos comparando unos con otros.
La cuarta posibilidad es utilizar un metro que sitúa el cero en el mismo suelo y, por lo
tanto, la altura se define en función de la distancia desde la cabeza al suelo (valor cero
absoluto donde se sitúa la ausencia de altura). En ciencias sociales es poco frecuente
encontrar variables en niveles de razón, normalmente son nominales, ordinales y en
ocasiones de intervalos, rara vez de razón. Una característica de esta clasificación es que
las propiedades de una escala se cumplen en el nivel superior.
ordinal
1) Medición Nominal.
Así, si se asignan números a estos niveles solo sirven para identificación y puede ser
indistinto: 1=M, 2=F o bien, se pueden invertir los números sin que afecte la medición:
1=F y 2=M. En resumen en la escala nominal se asignan números a eventos con el
propósito de identificarlos. No existe ningún referente cuantitativo. Sirve para nombrar
las unidades de análisis en una investigación y es utilizada en cárceles, escuelas, deportes,
etc. La B (A es diferente de B) relación lógica que se expresa es: A
Por ejemplo, los sujetos que son del curso de A de 2º de ESO y los de B generan dos
grupos. Cada sujeto se asigna a un grupo, y las variables son de tipo cualitativo (de
calidad) y no cuantitativo puesto que indica donde está cada sujeto y no "cuanto es de
un curso y no de otro". En este ejemplo los números 2 y 3 pueden sustituir las letras A y
B, de forma que 2 y 3 son simples etiquetas que no ofrecen una valoración numérica
sino que actúan como nominativos.
Los números no tienen valor más que como nombres o etiquetas de los grupos.
Para el procesamiento de datos, los nombres pueden ser remplazados por números, pero
en ese caso el valor numérico de los números dados es irrelevante. El único tipo de
comparaciones que se pueden hacer con este tipo de variables es el de igualdad o
diferencia. Las comparaciones “mayor que” o “menor que” no existen entre nombres,
así como tampoco operaciones tales como la adición, la substracción, etc.
Ejemplos de medidas nominales son algunas de estas variables: estado marital, género,
raza, credo religioso, afiliación política, lugar de nacimiento, el número de seguro
social, el sexo, los números de teléfono, entre otros.
Se establecen categorías con dos o más niveles que implican un orden inherente entre sí.
La escala de medición ordinal es cuantitativa porque permite ordenar a los eventos en
función de la mayor o menor posesión de un atributo o característica. Por ejemplo, en
las instituciones escolares de nivel básico suelen formar por estatura a los estudiantes, se
desarrolla un orden cuantitativo pero no suministra medidas de los sujetos. La relación
lógica que B (A es mayor que B). Clasificar a un grupo de expresa esta escala es A
personas por la clase social a la que pertenecen implica un orden prescrito que va de lo
más alto a lo más bajo. Estas escalas admiten la asignación de números en función de un
orden prescrito.
Las formas más comunes de variables ordinales son ítems (reactivos) actitudinales
estableciendo una serie de niveles que expresan una actitud de acuerdo o desacuerdo
con respecto a algún referente. Por ejemplo, ante el ítem: La economía mexicana debe
dolarizarse, el respondiente puede marcar su respuesta de acuerdo a las siguientes
alternativas:
___ De acuerdo
___ Indiferente
___ En desacuerdo
Las anteriores alternativas de respuesta, pueden codificarse con números que van del
uno al cinco, que sugieren un orden preestablecido pero no implican una distancia entre
un número y otro. Las escalas de actitudes son ordinales pero son tratadas como
variables continuas (Therese L. Baker, 1997).
El nivel ordinal describe las variables a lo largo de un continuo sobre el que se pueden
ordenar los valores. En este caso las variables no sólo se asignan a grupos sino que
además pueden establecerse relaciones de mayor que, menor que o igual que, entre los
elementos.
Por ejemplo, se puede ordenar al conjunto de alumnos del módulo de diversificación
curricular en función de la calificación obtenida en el último examen.
Las variables de este tipo además de nombrar se consideran el asignar un orden a los
datos. Esto implica que un número de mayor cantidad tiene un más alto grado de
atributo medido en comparación con un número menor, pero las diferencias entre
rangos pueden no ser iguales.
En esta clasificación, los números asignados a los objetos representan el orden o rango
de las entidades medidas. Los números se denominan ordinales, las variables se
denominan ordinales o variables de rango. Se pueden hacer comparaciones como
“mayor que”, “menor que”, además de las comparaciones de igualdad o diferencia. Las
operaciones aritméticas como la sustracción a la adición no tienen sentido en este tipo
de variables.
Ejemplos de variables ordinales son: la dureza de los minerales, los resultados de una
carrera de caballos, actitudes como preferencias, conservadurismo o prejuicio, el nivel
socioeconómico, orden de llegada de los corredores, entre otros. Las medidas de
tendencia central de una variable ordinal pueden representarse por su moda o su
mediana. La mediana proporciona más información.
3) Medición de Intervalo.
Una persona que en un examen de matemáticas que obtiene una puntuación de cero no
significa que carezca de conocimientos, el punto cero es arbitrario por que sigue
existiendo la característica medida.
El nivel de intervalo procede del latín interval lun (espacio entre dos paredes). Este
nivel integra las variables que pueden establecer intervalos iguales entre sus valores.
Las variables del nivel de intervalos permiten determinar la diferencia entre puntos a lo
largo del mismo continuo. Las operaciones posibles son todas las de escalas anteriores,
más la suma y la resta.
En este tipo de medida, los números asignados a los objetos tienen todas las
características de las medidas ordinales, y además las diferencias entre medidas
representan intervalos equivalentes. Esto es, las diferencias entre un par arbitrario de
medidas puede compararse de manera significativa. Estas variables nombran, ordenan y
presentan igualdad de magnitud. Por lo tanto, operaciones tales como la adición, la
sustracción tienen significado. En estas variables el punto cero de la escala es arbitrario
y se pueden usar valores negativos, no significa ausencia de valor y existe una unidad de
igualdad entre los valores. Las diferencias se pueden expresar como razones. Las
medidas de tendencia central pueden representarse mediante la moda, la mediana al
promedio aritmético. El promedio proporciona más información.
Ejemplos de este tipo de variables son la fecha, la temperatura, las puntuaciones de una
prueba, la escala de actitudes, las puntuaciones de IQ, conjuntos de años, entre otros.
4) Medición de Razón.
Una escala de medición de razón incluye las características de los tres anteriores niveles
de medición anteriores (nominal, ordinal e intervalo). Determina la distancia exacta entre
los intervalos de una categoría. Adicionalmente tiene un punto cero absoluto, es decir,
en el punto cero no existe la característica o atributo que se mide. Las variables de ingreso,
edad, número de hijos, etc. son ejemplos de este tipo de escala. El nivel de medición de
razón se aplica tanto a variables continuas como discretas.
El nivel de razón, cuya denominación procede del latín ratio (cálculo), integra aquellas
variables con intervalos iguales pueden situar un cero absoluto. Estas variables nombran
orden, presentan intervalos iguales y el cero significa ausencia de la característica. El
cero absoluto supone identificar una posición de ausencia total del rasgo o fenómeno.
Tiene características importantes:
Los números asignados a los objetos tienen todas las características de las medidas de
intervalo y además tienen razones significativas entre pares arbitrarios de números.
Operaciones tales como la multiplicación y la división tienen significado.
La posición del cero no es arbitraria para este tipo de medida. Las variables para este
nivel de medida se llaman variables racionales. La mayoría de las cantidades físicas,
tales como la masa, longitud, energía, se miden en la escala racional, así como también
la temperatura (en Kelvins) relativa al cero absoluto. Las medidas de tendencia central
de una variable medida a nivel racional pueden representarse por la moda, la mediana,
el promedio aritmético o su promedio geométrico. Lo mismo que con la escala de
intervalos, el promedio aritmético proporciona la mayor información.
Las Escalas o cuestionarios de actitudes pueden ser de diverso tipo. Las diferencias
entre un tipo y otro se refieren tanto a la presentación de las cuestiones como al tipo de
respuesta que se demanda. Entre los tipos principales de Escalas podemos citar:
4) Hacer posible que la investigación social se extienda a los aspectos subjetivos de los
miembros de la sociedad y, por tanto, de los hechos y fenómenos sociales.
Todas estas notas, especialmente la amplitud de sujetos y aspectos que puede abarcar,
así como la posibilidad de diseñarlo y modelarlo de la manera que se crea más adecuada
a los fines pretendidos, hacen de la observación por encuesta el procedimiento
sociológico de investigación fundamental y el más empleado de hecho en la realidad.
Hay que advertir que, aunque el cuestionario sea la forma más corriente de las entrevistas
y escalas, las primeras se pueden verificar sin sujeción a un cuestionario predeterminado
y las segundas también pueden ser independientes de un cuestionario y estar ligadas,
como en las escalas de Chapín, Sevell y otros para medir el status socioeconómico, a la
observación simple.
Sistematizando la enumeración anterior, se puede decir con C. Javeau (1971, p. 1), que
los objetos ordinarios de las encuestas sociológicas K refieren a tres grandes categorías
de datos: 1ª. Hechos (datos actuales) relativos: a) al dominio personal de los individuos
que forman el pupo social estudiado: por ejemplo, edad, grado de instrucción, b) al
dominio del ambiente que les rodea: por ejemplo, vivienda, relaciones familiares, de
vecindad, de trabajo, etc.; c) al dominio de su comportamiento. No podrá tratarse aquí
más que, evidentemente, del comportamiento reconocido o aparente. 2a . Opiniones, a
las cuales se juntan los niveles de información, de espera, etc., todo lo que uno podría
llamar datos subjetivos. 3a . Actitudes y motivaciones y sentimientos, lodo lo que
empuja a la acción, al comportamiento, y está a la base de las opiniones. 4a
Cogniciones, es decir, índices de nivel de conocimiento le los diversos temas
estudiados en la encuesta. Revela el grado de confianza a conceder a las opiniones sobre
juicios subjetivos.
Reviste, pues, especial interés en relación al cuestionario analizar los tipos de preguntas
existentes y las reglas para su formulación.
Del mismo modo que las variables tienen que comprender, necesariamente para ser
tales, diversos elementos de variación o categorías, igualmente las preguntas de un
cuestionario comprenden diversas respuestas, por lo menos dos, que son los elementos
de variación o las categorías de la variable verbalizada por la pregunta.
Las preguntas del cuestionario pues, se subdividen en respuestas, que son los elementos
de variación o categorías de la variable a que se refiere la pregunta. Entre ellas el
encuestado debe elegir o indicar la que a él le corresponde, la que se ajuste a su caso.
Es fundamental en el cuestionario que las respuestas o categorías que se ofrezcan con las
preguntas reúnan dos condiciones esenciales: las de ser exhaustivas y excluyentes.
Serán exhaustivas si las categorías o respuestas de las preguntas abarcan todos los casos
que pueden darse, de modo que ningún encuestado pueda dejar de responder por no
encontrar su categoría.
Serán excluyentes, cuando no pueda darse el caso que un encuestado pueda elegir
válidamente dos respuestas distintas de la misma pregunta.
Los tipos de preguntas son múltiples y diversas sus formas de clasificación. Entre otras
formas se puede agrupar las preguntas según la contestación que admitan del encuestado,
según la naturaleza del contenido de las preguntas, según su función en el cuestionario y
según su finalidad.
Según la contestación que admiten del encuestado se distinguen las preguntas cerradas,
categorizadas y abiertas.
Las preguntas cerradas son las que solo dan opción a dos respuestas, la afirmativa o la
negativa, generalmente sí y no, y, en su caso, no sé y sin opinión.
Las categorizadas, también llamadas preguntas Cafetería, presentan como respuestas una
serie de categorías entre las que el encuestado debe elegir.
En general se puede decir que son recomendables las preguntas categorizadas, sobre
todo si se consigna en ellas una categoría genérica, por ejemplo, otros ¿cuáles? .
Suministran más información que el simple sí y no de las cerradas y evitan el coste y
trabajo que supone la categorización posterior de las abiertas.
En concreto, las preguntas cerradas son apropiadas cuando se trata de preguntas muy
precisas sobre cuestiones de hecho, o cuando sólo interese a los fines de la investigación
conocer el sí o el no, sin más especificación.
Como señalan Schuman y Presser (1981) la controversia entre las preguntas abiertas y
cerradas o categorizadas se ha resuelto en la práctica con la victoria de estas últimas, a
causa de su eficacia a efectos de la recogida de datos, la clasificación y el análisis.
Sin embargo, dichos autores estiman que las preguntas abiertas son esenciales para
conocer el marco de referencia del encuestado y para redactar después las alternativas a
ofrecer en las preguntas categorizadas. Por ello, su empleo se estima oportuno sobre
todo en el caso de estudios exploratorios o de preencuestas, y cuando no se puede presu-
mir con antelación las posibles opiniones y reacciones de la población a encuestar, ni se
conoce bien su vocabulario.
Si - No.
Por el contrario, las equilibradas recogen de modo expreso las dos alternativas. En el
caso anterior:
— A favor
— En contra
Este tipo de equilibrio se llama formal para distinguirlo de aquél en el que la alternativa
ofrecida implica un contraargumento.
Por ejemplo:
¿Piensa que se debería poder abortar si lo desea una mujer embarazada o estima que no
se le debería permitir poner fin a la vida de un niño aún no nacido?
— Debería poder
— No se debería permitir
En síntesis, los autores en cuestión estiman que se debe preferir la forma equilibrada a la
no equilibrada, pero teniendo en cuenta que si se ofrecen
Contra argumentos, éstos pueden contribuir a definir las preguntas y afectar de este
modo a las respuestas.
Por último, se ha de señalar que las preguntas categorizadas con muchas alternativas
pueden hacer muy difícil el juicio que supone la elección entre ellas, por lo que se
recomienda dividirlas en dos preguntas distintas.
Las preguntas de identificación, son las que se refieren a las características básicas de
las unidades de observación. Por ejemplo, en el caso de las personas, edad, sexo, estado
civil, región de nacimiento y de residencia, profesión, estudios, ingresos, religión,
filiación política, número de hijos, nacionalidad, raza, etc.
Las preguntas filtro son las que se realizan previamente a otra pregunta, a fin de
eliminar a los que no les afecte ésta. Por ejemplo, si preguntamos sin más ¿piensa Vd.
comprarse TV. en color? muchos o algunos que contesten que no, puede ser porque ya
la tengan. Por lo tanto, antes se debe hacer una pregunta filtro del tenor siguiente:
¿Tiene Ud. TV en color? Si — No.
Las preguntas de control tienen por finalidad asegurarse del interés y buena fe del
encuestado y de la veracidad y fiabilidad de sus respuestas al cuestionario. Incluyen
respuestas con trampa o falsas, para ver si el encuestado cae en ellas.
Similares a las preguntas de control son las que tienen por objeto comprobar la
consistencia de las respuestas del entrevistado. Se trata de preguntas similares, pero
redactadas de distinta forma, que se sitúan espaciadas entre sí para ver si sus respuestas
a ambas preguntas son congruentes,
Preguntas muelle, colchón o amortiguadoras, son preguntas que abordan temas difíciles
o escabrosos, formuladas de tal forma que reduzcan su brusquedad y rudeza.
Las preguntas batería son un conjunto de preguntas sobre la misma cuestión, que se
complementan y completan unas a otras, enfocando diversos aspectos de ella.
Según su finalidad se puede hablar de las preguntas directas y las indirectas. Las
primeras son las que no buscan descubrir otra cosa que lo que expresan. Las segundas,
al contrario, pretenden averiguar algo distinto de los que se desprende de las palabras
usadas.
Por último, sabe recordar que se pueden utilizar en las preguntas de los cuestionarios,
técnicas proyectivas, cuando se quiere lograr una mayor profundidad.
Este tipo de preguntas es útil para captar las ideas, sentimientos, opiniones y actitudes
más profundas, a veces, incluso inconscientes para el individuo, que normalmente no se
pueden detectar mediante otro tipo de preguntas.
6) Presentación de historietas, para que el encuestado elija entre los tipos o conductas
que se contienen en ellas.
En fin, también se pueden llamar proyectivas las chek-list, rating, inventarios y rejillas a
que se refiere Oppenheim (1966, 80 y ss.).
En general una pregunta bien formulada, como señala Magdalena Grawitz (1975, p.
246), es aquella que a) no ejerce influencia en el sentido de la respuesta, b) no incita a
una respuesta inexacta, que no corresponde a la información buscada.
Como todas las reglas de este tipo no tienen un valor absoluto, sino indicativo. En
último término, es el equipo investigador el que debe decidir en cada caso las preguntas
a formular según las circunstancias de la investigación, entre las que cabe destacar su
objetivo, la información que interese recoger y el público que se va a encuestar.
Entre las reglas para la formulación de las preguntas del cuestionario son muy
conocidas las siguientes, formuladas por Bowley:
2) Las preguntas han de estar hechas de tal forma que requieran siempre una respuesta
numérica o simplemente una afirmación o negación, o bien la elección de una
categoría propuesta.
3) Las preguntas han de ser sencillas y redactadas de tal forma que puedan
comprenderse con facilidad por las personas a las que van destinadas.
No presentar las preguntas en forma negativa, pues dan lugar a duda sobre el sentido de
la respuesta, ni tampoco en forma afirmativa, pues sugieren el contestar
afirmativamente. Es conveniente formularlas en forma neutral, ni afirmativa ni negativa.
No utilizar sin precisión palabras abstractas, por ejemplo, clase, especie, tipo, etc., ni
tampoco de tipo valorativo: mucho, escaso, bueno, malo, etc., pues se pueden tomar en
diferentes sentidos y cada uno les concede diverso alcance.
Formular las preguntas del modo más concreto y preciso posible, sobre todo en el caso
de que se refiera a unidades de medida o períodos de tiempo.
Procurar que las preguntas, si son abiertas no presentan una opción alternativa, ni
impliquen en realidad dos preguntas y que ni siquiera contengan aclaraciones de su
sentido, porque en estos casos se puede dar lugar a confusión en el encuestado y se
oscurece el sentido de las respuestas.
Es muy importante que las preguntas sean cortas en lo posible, para evitar que sean
ambiguas y oscuras.
En fin, tener en cuenta al formular las preguntas el marco de referencia del encuestado,
es decir, la situación social en que se halla que ha de constituir el punto de vista de su
respuesta.
Por último, tan meticuloso debe ser la preparación del cuestionario que no se debe
olvidar que las palabras que se empleen en las preguntas han de ser elegidas
cuidadosamente.
Payne (The art of asquing quaestions. Princeton Univ. Press) aconseja preguntarse en
relación con las palabras:
La investigación por encuesta debe traducir las variables empíricas sobre las que desee
obtener información en preguntas concretas sobre la realidad social a investigar, capaces
de suscitar respuestas sinceras y claras.
Supuesto lo anterior, las etapas que se pueden distinguir en la preparación del
cuestionario son las siguientes:
1) Formulación de hipótesis.
Como etapa previa a éstas, hay que mencionar la preencuesta que consiste
específicamente, en la realización de un primer contacto, por entrevistas no directivas y
de grupo, con la población que se va a 'estudiar para conocer su situación, mentalidad,
problemas, etc.
Que las preguntas del cuestionario impliquen hipótesis en este sentido es la condición
para que estas tengan un sentido preciso, respondan | una necesidad en relación a los
objetivos de la encuesta y sean, en último término, útiles y beneficiosas para los fines
perseguidos en el cuestionario.
Incluso las categorías de cada pregunta deben ser establecidas inteligentemente. Esto
quiere decir que deben obedecer a una intención determinada, o de igual forma, que
deben fundarse también en hipótesis.
1.5.2. Determinación de las variables
Todo trabajo de investigación que se nos propone es en su tema o título una variable
general. A fin de que pueda ser observada en la realidad es preciso operativizarla o
hacerla operativa, especificando sus dimensiones e indicadores.
Todos estos puntos de información pueden constituir la base de lo que se llama guía del
cuestionario, que se suele utilizar como orientación para la redacción del mismo, y en la
que es lógico se comprendan también las decisiones a que lleguemos sobre la
planificación del cuestionario.
2) Las categorías, en su caso, que más convengan a cada pregunta y a los objetivos que
se persiguen con ellas.
a) Las hipótesis concretas previstas, es decir, lo que se busca con cada pregunta y sus
categorías, o sea, lo que se pretende saber o conocer con ella.
El destino de los datos derivados de cada una de las categorías de las preguntas es su
agrupación y sistematización en tablas.
En una tabla, a cada respuesta debe corresponder una columna. Por ello, hay que tener
en cuenta en la planificación del cuestionario que un número excesivo de respuestas da
lugar a tablas de muchas columnas y por tanto difíciles de leer y analizar.
En cuanto al tercer paso, número y orden de las preguntas se pueden recomendar las
siguientes reglas:
1) El cuestionario debe contener todas las preguntas necesarias, pero ninguna más. Un
cuestionario largo, salvo caso de absoluta necesidad, es penoso tanto para el
entrevistador como para el encuestado.
3) Se debe evitar a toda costa colocar juntas preguntas en las que la respuesta a una de
ellas pueda influir en el sentido de la respuesta a la otra.
4) Se debe procurar que todas las preguntas sobre un aspecto figuren juntas en el
cuestionario, dispuestas así como los mismos temas, guardando un orden temporal,
lógico y psicológico.
Por esta razón, las instituciones de investigaciones de mercado suelen comenzar las
entrevistas con preguntas interesantes para el entrevistado, que exigen una motivación
menor y terminan con las preguntas de identificación que requieren menos esfuerzo.
La tendencia es, pues, a incluir las preguntas más importantes en el tercio medio de la
entrevista, y a no hacer preguntas que puedan comprometer al encuestado, sino después
que se haya establecido una cierta relación de confianza con él.
La redacción de las preguntas, según la tesis central del libro de Sudman y Badburn
(1982) es el elemento esencial para maximizar la validez de los datos obtenidos en la
investigación por encuesta. Ya desde los primeros tiempos de la encuesta, se conoce el
hecho de que cambios aparentemente pequeños en la redacción de las preguntas pueden
causar grandes diferencias en los diversos porcentajes de respuestas a la misma.
Reglas básicas en esta redacción son que no se pierda nunca de vista los objetivos de la
investigación y que, previamente a la formulación de cada pregunta, nos preguntemos
sobre la necesidad y oportunidad de la misma, y sobre el grado en que nos servirá para
lograr los objetivos propuestos.
Finalidad de los aspectos formales es que el cuestionario sea atractivo y adecuado a las
características de la encuesta. Su objeto es la programación de sus condiciones formales,
tales como papel a emplear, clase, color, tipo de impresión; espacios destinados a las
respuestas y a la codificación; márgenes a dejar a derecha e izquierda y en medio de las
preguntas y datos de identificación que deba contener el cuestionario.
Las instrucciones, que según Zarkowich (1970), son tan importantes como el
cuestionario, son el medio de obtener la normalización de las respuestas recogidas y de
evitar la introducción de elementos subjetivos en las mismas.
Las instrucciones se deben redactar con gran claridad y esmero. Se debe procurar que
sean completas y resuelvan todas las dudas que puedan plantearse. Sobre todo ha de
tenerse cuidado especial en no induc i r a confusión. En este caso podrían ser causa de
sesgo.
Este juicio se puede dividir en dos partes, una sintética y otra específica.
Respecto a ambas se suelen destacar los siguientes puntos: Sintética. En ella se
examinará:
Otro procedimiento también válido es el llamado de Hanseñ que consiste en formar una
submuestra con parte de los que no han contestado el cuestionario, en representación de
todos éstos. Luego hacer todo lo posible cueste lo que cueste, hasta conseguir su
respuesta. Esta, se considera representativa de todo el grupo y que por tanto se extiende
a él.
1.5.7. La no respuesta
Otro problema de los cuestionarios está constituido por la falta de respuestas a las
preguntas. Esta falta de respuesta o no respuesta puede adoptar dos modalidades:
Existe tendencia a pasar por alto las no respuestas y a concederlas poca importancia. Sin
embargo, sobre todo en el caso de los no sé, implican una modalidad de respuesta, que
merece la atención de los investigadores.
El NO CONTESTA demuestra una actitud que hace que el encuestado, por neutralidad
o indiferencia, o por la razón que sea, se reserve su opinión y se niegue a manifestarla y
a colaborar en la encuesta respondiendo a la pregunta.
En cambio, los NO SÉ pueden tener distinta significación según los casos, que depende
de los tipos diversos (Zeisel, 1974) de no sé. En primer lugar, se puede distinguir los
que Zeisel llama "no sé" auténticos, que indican una falta de conocimiento de lo
preguntado y, por tanto, una incapacidad de dar una respuesta a la pregunta. Por
ejemplo, ¿quién es el director de tal película? En este caso, la respuesta no sé, forma
parte de la información que se desea obtener mediante la pregunta.
El no sé, en fin, puede significar una evasiva intencional, cuando se trate de preguntas
en la que los encuestados suponen que las respuestas que den pueden ir en detrimento
suyo.
Para interpretar los no sé, se puede suponer, cuando falta toda otra información, que se
reparten al azar respecto a las demás categorías de la pregunta y, por tanto, se pueden
distribuir proporcionalmente entre ellas.
1) La que recomienda evitar dicha inclusión como una categoría expresa de respuesta a
las preguntas, y que se consigne únicamente si el entrevistado la formula
espontáneamente.
2) La de los que ven en el no sé una categoría de respuesta tan legítima como las demás e
incluso sostienen que se debe alentar.
En todo caso, es un hecho comprobado que la inclusión expresa de la categoría no sé
aumenta significativamente el % de los que dan esta respuesta a las preguntas.
Toda investigación es, en sí, por ser tal, una inquisición, que cuando se trata de encuesta
ha de versar necesariamente sobre personas, e implica una intromisión en la intimidad
de sus condiciones de vida, conducta, opiniones y actitudes. Por ello plantea el
problema de los límites de su licitud, es decir, de su ética.
Con relación a esta ética, hay que partir del principio de que el investigador social no
tiene derecho a inmiscuirse en la vida de las personas, sin su conocimiento y aceptación
totalmente consciente y libre. Tampoco el investigador social tiene derecho a hacer uso
de las informaciones que obtenga de la encuesta, salvo estrictamente para los fines
conocidos y autorizados por los encuestados.
1. Que se informe a los encuestados del origen, razón de ser, entidad que promueve la
encuesta, su objeto y finalidad, utilización de los datos y, en general, de todos los aspectos
que pueden influir en su participación.
2. ENTREVISTA
Por otra parte, la entrevista representa un procedimiento cómodo y barato para obtener
datos objetivos de dichos miembros. Se podrían comprobar directamente pero con
mucho más esfuerzo, trabajo y coste.
Las relaciones sociales no son algo que se produce "ex-novo" sin ningún precedente.
Antes al contrario, cada uno en nuestras relaciones sociales, al entrar en contacto con los
demás, se forma una imagen personal y social de individuo con quien se relaciona. Se
hace así de acuerdo con su presencia y apariencia y la experiencia que tenemos de
contactos con personas del mismo tipo y grupo social.
Esta imagen que cada uno se forma, nos induce a hacernos determinadas expectativas y
a esperar por tanto un determinado comportamiento de nuestro interlocutor, y nos lleva
a adoptar por nuestra parte una actitud consecuente con la imagen formada y las
expectativas creadas.
Además, como ocupa en la entrevista una cierta posición preeminente, es posible que en
algún modo imponga al encuestado sus propias opiniones y actitudes.
Estos diversos tipos de entrevista se pueden combinar entre sí. En este sentido
Lazarsfeld y Merton en la obra "Continuities in Social Research" recomiendan esta
técnica:
Ante esta situación, existe hoy, especialmente en los Estados Unidos, una tendencia a
sustituir la entrevista personal por la telefónica. De este modo, se logra una sensible
reducción de los costes e, incluso, a veces, tasas de respuestas más altas.
Entre los factores que están contribuyendo al uso creciente de las encuestas por teléfono
se encuentran los siguientes (Frey, 1983):
1) La extensión masiva del servicio telefónico. Hoy, en Estados Unidos, el 98 % de las
casas tienen teléfono.
La encuesta por cuestionario simple presenta con relación a la efectuada por medio de
entrevista las ventajas principales siguientes:
1) Su menor coste y exigencia de personal.
2) Evita la diversa influencia que ejercen los entrevistadores en las respuestas de los
entrevistados.
3) Es más seguro en ella obtener la cooperación del encuestado, lo que hace que sea
mucho más elevado, por lo general, el porcentaje de cuestionarios simples no devueltos
o no cumplimentados que el de entrevistas fallidas.
5) La entrevista permite obtener una información más completa, profunda y rica, sobre
todo en cuestiones comprometidas.
Una vez elegida la muestra y seleccionadas las personas que han de ser entrevistadas,
conviene presentar al encuestador mediante una nota que anuncie su visita y explique
los motivos de la entrevista.
Los entrevistadores deben tener un conocimiento previo del campo social en que van a
actuar. De este modo se facilitará el ajuste entre entrevistador y entrevistado.
Un contacto previo con líderes del grupo social a encuestar para darles a conocer los
motivos y objetivos de las entrevistas, puede facilitar el éxito de las mismas, si el líder
consiente en apoyarlas.
En el contacto inicial, el entrevistador debe causar una primera impresión a ser posible
agradable. Para ello deberá ser y mostrarse educado, simpático y atractivo.
Si bien el encuestador debe tener en la mano el cuestionario y echarle una ojeada antes
de hacer cada pregunta, ésta ha de ser formulada en tono de voz natural y de
conversación, evitando el tono de lectura y centrando su atención en el encuestado y no
en el cuestionario.
Todas las personas deben ser interrogadas sin que se introduzcan cambios en el
enunciado de las preguntas, para evitar la influencia de las opiniones personales del
encuestador y la posible variación de significaciones debida al cambio de palabras o
giros.
Las preguntas deben ser formuladas en el mismo orden en que figuran en el
cuestionario, pues éste se halla dispuesto de modo que se evite el contagio o influencia
de unas preguntas sobre otras.
Con el fin de hacer las preguntas lo más espontáneas posible, es preciso que las
preguntas se sucedan con cierta rapidez, no dejando descanso entre pregunta y pregunta.
Los métodos de recolección de datos se clasifican de acuerdo a qué tan directos son. Si
se desea saber algo sobre las personas, se les puede preguntar directamente. Ellos
ofrecen o no una respuesta. Por otro lado, es posible preguntar de forma indirecta. Se
puede utilizar un estímulo ambiguo como una fotografía borrosa, una mancha de tinta o
una pregunta vaga, y después preguntar respecto a las impresiones de los estímulos,
bajo el supuesto de que los entrevistados darán la información requerida sin saber que lo
están haciendo. Esta técnica es bastante indirecta. La mayor parte de los métodos de
recolección de datos utilizados en la investigación psicológica y sociológica son
relativamente directos o moderadamente indirectos. En pocas ocasiones se utilizan
medios muy indirectos.
Las entrevistas y los inventarios (cuestionarios) por lo general son bastante directos, lo
cual representa tanto una fortaleza como una debilidad. Tienen fortaleza porque gran
cantidad de la información requerida en la investigación social científica se obtiene de
los entrevistados por medio de preguntas directas. Aunque las preguntas deben
manejarse con sumo cuidado, los entrevistados pueden, y generalmente lo hacen, dar
mucha información de forma directa. No obstante, existe información de naturaleza más
difícil que los entrevistados quizá no estén dispuestos a dar fácil y directamente —por
ejemplo, información sobre sus ingresos, relaciones sexuales y algunas actitudes hacia
la religión o hacia los grupos minoritarios—. En tales casos, las preguntas directas
llegan a generar datos que no son válidos. Sin embargo, si se manejan en forma
apropiada, aun el material personal o polémico puede obtenerse exitosamente por medio
de entrevistas e inventarios.
La entrevista es probablemente uno de los métodos más antiguos y más utilizados para
conseguir información. Posee importantes cualidades que las pruebas y escalas objetivas
y las observaciones del comportamiento no tienen. Una entrevista puede proporcionar
una gran cantidad de información si se utiliza con un inventario bien realizado. Es
flexible y se adapta a situaciones individuales, y puede usarse con frecuencia cuando
ningún otro método es posible o adecuado. Estas cualidades la hacen especialmente
adecuada para la investigación con niños. Los métodos y consideraciones sobre las
entrevistas con niños pueden encontrarse en Aldridge y Wood (1998) y en Poole y
Lamb (1998). Minkes, Robinson y Weston (1994) ofrecen explicaciones sobre la forma
de entrevistar a niños con discapacidades. Ellis (1989) describe cómo conducir una
entrevista con niños superdotados canadienses. Si un entrevistador sabe que el
entrevistado, especialmente un niño, no entiende una pregunta, puede, dentro de ciertos
límites, repetir o replantear la pregunta. Las preguntas sobre deseos, aspiraciones y
ansiedades pueden plantearse de tal manera que produzcan información precisa. De
mayor importancia, quizás, es el hecho de que la entrevista permite explorar el contexto
y las razones de las respuestas a las preguntas. McReynolds (1989) sintetiza el estado de
los instrumentos de medición clínica, de los cuales uno es el inventario de entrevista.
Las entrevistas e inventarios han sido utilizados, en su mayor parte, simplemente para
reunir los llamados hechos. El uso más importante de la entrevista debe ser el estudio de
relaciones y la prueba de hipótesis. En otras palabras, la entrevista es un instrumento de
medición psicológica y sociológica. Quizás más preciso, los productos de entrevistas
—las respuestas de los entrevistados a preguntas cuidadosamente elaboradas— pueden
traducirse en medidas de variables. Por lo tanto, las entrevistas y los inventarios de
entrevista están sujetos a los mismos criterios de confiabilidad, validez y objetividad
que otros instrumentos de medición.
3.3. La entrevista
La entrevista es una situación interpersonal cara a cara donde una persona (el
entrevistador) le plantea a otra persona (el entrevistado) preguntas diseñadas para
obtener respuestas pertinentes al problema de investigación. Existen dos tipos generales
de entrevista: la estructurada y la no estructurada, o estandarizada y no estandarizada
(véase Cannell y Kahn, 1968). En la entrevista estandarizada las preguntas, su secuencia
y su redacción son fijas. Se permite cierta libertad al entrevistador al plantear las
preguntas, pero ésta es relativamente poca. El Manual del Entrevistador (1976)
producido por el Instituto de Investigación Social (Institutefor Social Research) de la
Universidad de Michigan establece que la perspectiva de la entrevista está
evolucionando de la perspectiva tradicional. La entrevista se considera como una
interacción, una relación de roles activos entre entrevistador y entrevistado, donde el
entrevistador es incluso un maestro. Cannell y Kahn (1968) y Dohrenwendy Richardson
(1963) ofrecen información adicional sobre este tema. El nivel de libertad se especifica
de antemano. Las entrevistas estandarizadas utilizan inventarios de entrevista que se han
preparado cuidadosamente para obtener información concerniente al problema de
investigación.
Las entrevistas no estandarizadas son más flexibles y abiertas. A pesar de que los pro-
pósitos de investigación determinan las preguntas planteadas, su contenido, secuencia y
redacción están en manos del entrevistador. Por lo común no utilizan ningún inventario.
En otras palabras, la entrevista no estandarizada y no estructurada constituye una situa-
ción abierta, en contraste con la entrevista estandarizada y estructurada, que es una si-
tuación cerrada. Ello no significa que una entrevista no estandarizada sea casual; debe
ser planeada tan cuidadosamente como la estandarizada. Green y Tull (1988) afirman
que las entrevistas no estructuradas obtienen información que las entrevistas
estructuradas no ofrecen. Con el modelo informal de la entrevista no estructurada el
investigador obtiene ideas respecto a las motivaciones del entrevistado. Las entrevistas
no estructuradas algunas veces se denominan entrevistas profundas. Son especialmente
útiles para realizar estudios exploratorios. El interés central aquí lo representa la
entrevista estandarizada. Sin embargo, se reconoce que muchos problemas de
investigación pueden requerir, y muchas veces es así, un tipo de entrevista en que el
entrevistador tenga permitido utilizar preguntas alternativas que se ajusten a
entrevistados particulares y a cuestiones particulares. El procedimiento real de la
conducción de una entrevista no se analiza en este libro.
Como su nombre lo indica, los reactivos de alternativa fija ofrecen al entrevistado una
opción entre dos o más alternativas. A estos reactivos también se les llama preguntas
cerradas o de encuesta. El tipo más común de reactivo de alternativa fija es dicotómico:
plantea preguntas que pueden responderse como sí o no, de acuerdo o en desacuerdo y
otro tipo de respuestas de dos opciones. Con frecuencia se añade una tercera
posibilidad: no sé o indeciso. Un ejemplo de un reactivo de alternativa fija sería:
¿Considera usted que el gobierno de Estados Unidos ya encontró una cura para el SIDA,
pero que la está ocultando?
Sí.....................................[ ]
No...................................[ ]
No sé.............................[ ]
A pesar de que los reactivos de alternativa fija poseen las claras ventajas de lograr una
mayor uniformidad de la medición y, por lo tanto, mayor confiabilidad, de forzar al
entrevistado a responder en una forma que se ajuste a las categorías previamente
establecidas y de ser fáciles de codificar, también tienen ciertas desventajas. La mayor
de ellas es su superficialidad: sin sondeo, generalmente no van más allá de la superficie
de la respuesta. También pueden irritar al entrevistado que no encuentre ninguna
alternativa adecuada para él. Peor aún, es posible que fuercen respuestas. Un
entrevistado puede elegir una alternativa para ocultar ignorancia o elegir alternativas
que no representan con precisión los hechos u opiniones. Tales dificultades no implican
que los reactivos de alternativa fija sean malos o inútiles. Por el contrario, se utilizan
con buenos resultados si se redactan de manera juiciosa, si se utilizan con un sondeo y si
se mezclan con reactivos abiertos. Un sondeo es un dispositivo utilizado para encontrar
información de los entrevistados sobre un tema, sus marcos de referencia o, más común,
para aclarar y establecer las razones de las respuestas dadas. El sondeo incrementa el
poder de "obtención de respuesta" de las preguntas, sin cambiar su contenido. Ejemplos
de sondeo son: "Dígame más sobre esto." "¿Cómo es eso?" "¿Puede explicarlo?" (véase
Warwick y Lininger, 1975, pp. 210-215).
2) Reactivos abiertos
Las preguntas abiertas tienen importantes ventajas, aunque también tienen desventajas.
Sin embargo, si se redactan y utilizan apropiadamente se minimizan las desventajas. Las
preguntas abiertas son flexibles; tienen la posibilidad de profundizar; le permiten al
entrevistador aclarar malos entendidos (a través del sondeo), establecer la falta de
conocimiento de un entrevistado, detectar ambigüedades, promover la cooperación y
lograr rapporty mejores estimados de las verdaderas intenciones, creencias y actitudes
de los entrevistados. Su empleo tiene también otra ventaja: en ocasiones las respuestas a
preguntas abiertas sugieren posibilidades de relaciones e hipótesis. Los entrevistados
algunas veces darán respuestas inesperadas que tal vez indiquen la existencia de
relaciones no anticipadas originalmente.
Para obtener información sobre prácticas de crianza de niños, Sears, Maccoby y Levin
(1957) utilizaron varias buenas preguntas abiertas y de embudo. Una de ellas, con
comentarios del autor entre corchetes, es:
Ejemplo
Por supuesto que todos los bebés lloran. [Note que el entrevistador tranquiliza al padre
respecto al llanto de su hijo.) Algunas madres consideran que si se levanta a un bebé
cada vez que llora, se le malcría. Otros piensan que no se debe dejar llorar demasiado
tiempo a un bebé. [El marco de referencia se ha expresado claramente. También se ha
tranquilizado a la madre pues no importa cómo maneje el llanto de su bebé.] ¿Qué
piensa usted respecto a esto?
Este conjunto de preguntas de embudo no sólo evalúa actitudes, sino que también
sondea prácticas específicas.
3) Reactivos de escala
2) ¿Es apropiado el tipo de pregunta? Alguna información puede obtenerse mejor con
preguntas abiertas —razones para comportamientos, intenciones y actitudes—. Por
otro lado, otro tipo de información puede obtenerse de forma más expedita por
medio de preguntas cerradas. Si todo lo que se requiere de un entrevistado es la
opción preferida de dos o más alternativas, y estas alternativas pueden especificarse
con claridad, sería inútil utilizar una pregunta abierta (véase Dohrenwend y
Richardson, 1963; Schuman y Presser, 1979; Warwick y Lininger, 1975).
7) ¿La pregunta está cargada de deseo de aceptación social? La gente tiende a dar
respuestas que son socialmente deseables, respuestas que indican o implican la
aprobación de actos o cosas que son generalmente consideradas como "buenas". Se
le puede preguntar a una persona sobre sus sentimientos hacia los niños. Se supone
que todos deben amar a los niños. A menos que se sea cuidadoso, se obtendrá una
respuesta estereotipada sobre los niños y el amor. También, si se le pregunta a una
persona si vota, hay que tener cuidado, ya que se supone que todos deben votar. Si
se le pregunta a un entrevistado sobre sus reacciones ante los grupos minoritarios,
de nuevo se corre el riesgo de obtener respuestas inválidas. La mayor parte de las
personas educadas, sin importar cuáles sean sus "verdaderas" actitudes, están
conscientes de la desaprobación de los prejuicios. Entonces, una buena pregunta es
aquella donde los entrevistados no son conducidos a expresar meros sentimientos
socialmente deseables. Al mismo tiempo, tampoco se debe preguntar a los
entrevistados de forma que se enfrenten con la necesidad de dar respuestas
socialmente indeseables.
3.3.2. Valor de las entrevistas y de los inventarios de entrevistas
Quizás este tema pertenezca a un capítulo previo cuando se expusieron los métodos
cualitativos. Algunos investigadores equiparan al método del grupo focal con la
investigación cualitativa (Calder, 1977). Algunos se han referido a este método como
entrevistas de grupo (Wells, 1974). Basch (1987) reporta que este método fue expuesto
por Bogardus en 1926, pero que sólo se utilizó ocasionalmente a partir de entonces
hasta los años ochenta. Quienes utilizaban primordialmente el método del grupo focal,
hasta hace poco, eran los investigadores de mercado y de negocios. Basch (1987)
considera que el método del grupo focal es prometedor en áreas diferentes de la
mercadotecnia. Él considera que podría ser una técnica de investigación para mejorar la
investigación, práctica y teoría de la educación para la salud. El método proporciona
una visión profunda de la gente. Sudman, Bradburn y Schvvarz (1996) creen que la
metodología del grupo focal sirve para determinar la manera en que los entrevistados
producen y procesan información.
La técnica del grupo focal implica entrevistar a dos o más personas al mismo tiempo. El
tamaño del grupo focal debe ser lo suficientemente grande para generar diversos puntos
de vista, pero lo suficientemente pequeño para ser manejable. Krueger (1994) reco-
mienda de siete a diez personas por grupo focal, lo cual permitirá a cada persona tener
la oportunidad de participar en la discusión. Existe un moderador que conduce la
discusión de forma abierta y libre. Este moderador o facilitador requiere estar bien
entrenado. Es función del moderador hacer que la discusión no se aleje demasiado del
tema de interés. El tema puede ser cualquiera. Las respuestas de los entrevistados no son
solicitadas de forma activa. No se dan sugerencias directas. En investigación de
mercado o de consumo el tema se referiría a un producto o servicio. En psicología el
interés sería, por ejemplo, el lenguaje utilizado por hombres homosexuales
afroamericanos (Mays, Cochran, Bellinger, Smith, Henleyet al., 1992). En el área de
salud, un grupo focal se utilizaría para determinar los temores acerca de los cinturones
de seguridad o las bolsas de aire. Una de las metas consiste en examinar las actitudes y
el comportamiento de la gente. La otra meta es descubrir lo que cada participante piensa
sobre el tema que se discute. Las opiniones y descripciones surgen de los entrevistados.
El investigador espera ser capaz de descubrir, a través de las discusiones, los
discernimientos importantes que después sirvan para resolver problemas. Calder (1977)
afirma que el método del grupo focal es útil para descubrir información que se utilice
para diseñar un estudio cuantitativo de investigación. Algunos han utilizado el grupo
focal como un medio para desarrollar cuestionarios. La investigación de grupo focal
también ayuda a los investigadores a desarrollar constructos que empleen en estudios
futuros. Calder lo llama "conocimiento precientífico".
Una de las ventajas de los grupos focales es su costo, pues cuesta muy poco
organizarIos. Los mayores costos residirían en conseguir y pagar al moderador.
Además, los participantes podrían recibir un pago simbólico por su tiempo. El grupo
focal también se realiza de forma rápida. Se dispone de las ideas de los entrevistados
rápidamente y se realiza una videofilmación de las sesiones para analizarlas después con
mayor profundidad. Es muy bueno para generar hipótesis para posteriores
investigaciones. En la investigación de mercado, el grupo focal permite al cliente
(fabricante) que encargó el estudio, ser un participante activo en la participación grupal.
Así, dicha persona es capaz de obtener la información de primera mano. Lo anterior es
posible debido a que los grupos se organizan de un tamaño que sea manejable. La
interacción entre los entrevistados puede generar intercambios estimulantes que resulten
en información útil, que no se obtiene con otros métodos de investigación. Además,
como se mencionó antes, los grupos focales son muy flexibles. Un moderador experto
va dirigiendo, y aun permitiendo que ideas prometedoras fluyan.
Sin embargo, el grupo focal no es muy recomendable para producir información con-
creta. Una decisión no debe basarse únicamente en la información reunida con dicho
método. Además, ha sido criticado por los investigadores cuantitativos como "no
científico" e indigno de confianza. Las preguntas no son estandarizadas y pueden variar
de un grupo a otro. Con el uso de grupos muy pequeños, los datos de los grupos focales
sufren en su posibilidad de generalización. A diferencia de la investigación de encuesta
estructurada, el grupo focal no implica mucho esfuerzo por asegurarse de que el grupo
sea representativo. Como sucede en la dinámica de cualquier grupo, siempre habrá unos
cuantos individuos que dominen la conversación. Entonces, el moderador necesita
contar con suficiente experiencia para minimizar la situación sin cortar el flujo de
comunicación. La entrevista de grupo focal requiere de mucha paciencia y habilidad.
Berger (1991) ofrece algunas sugerencias útiles para el moderador. También bosqueja lo
que debe contener un reporte sobre un grupo focal. Algunos participantes ven al grupo
focal como una oportunidad para ventilar sus emociones. Por lo tanto, los temas
sensibles no deben explorarse por medio de grupos focales. En la sección de sugerencias
de estudio se presentan algunas muy buenas referencias sobre los grupos focales. Estos
constituyen un método cualitativo de investigación, y como tales son capaces de ofrecer
información rica que no pueden explotar los métodos cuantitativos. Son muy adecuados
para conocer lo que desean los clientes o lo que la gente piensa acerca de ciertas
políticas y reglas. Los grupos enfocados han probado su eficacia en el estudio de
organizaciones.
Mayset al. (1992) utilizó un grupo focal que incluía hombres homosexuales afroa-
mericanos. El tema de discusión era la conducta sexual y el VIH. Con este método,
Mayset al. fueron capaces de recopilar el argot que emplean los varones afroamericanos
homosexuales. Estos resultados son útiles para comparar a los hombres homosexuales
afroamericanos con homosexuales americanos blancos, y también para construir
cuestionarios diseñados para descubrir la conducta sexual de varones homosexuales
afroamericanos. El conocimiento obtenido a partir de dicho estudio también serviría
para educar a consejeros y profesionales de la salud que tratan con homosexuales
afroamericanos. Mays y sus colaboradores (1992, p. 432) afirman lo siguiente:
Sussman, Burton, Dent, Stacy y Flay (1991) publicaron que se debe tener precaución
con el uso de los grupos focales, pues consideran que tales grupos pueden inducir
ciertos efectosgrupalesque sesguen las respuestas. Su estudio exploró el extenso
procedimiento de los grupos focales, que incluye un cuestionario previo de grupo. El
cuestionario tiene material que se cubrirá durante la sesión del grupo y puede afectar a
los miembros del grupo al comprometerlos con una posición antes de que comience la
discusión grupal. Estos investigadores consideran que la gente depende de las respuestas
de otras personas, y de esta manera convergen en una norma colectiva. Es decir, algunos
entrevistados tendrán juicios más extremos después de las discusiones grupales.
Uno de los efectos de las normas colectivas es el efecto de polarización del grupo. El
involucrarse en un grupo puede sesgar a los participantes a responder de maneras más
extremas. Específicamente Sussman et al. (1991) buscaron una polarización de actitudes
(un efecto de sesgo por influencia del grupo). La discusión en el grupo focal se dirigió
hacia cómo reclutar adolescentes que consuman tabaco para una clínica contra el taba-
quismo. Se utilizaron 31 grupos focales; a cada uno se les administraron cuestionarios
de pretest y de postest. Los datos obtenidos apoyaron la existencia de un efecto de
polarización del grupo. Después de participar en un grupo focal, los entrevistados
manifestaron una evaluación más alta de las estrategias de reclutamiento autogeneradas.
También reportaron que si fuesen fumadores, dichas estrategias los inducirían a unirse
al programa. El estudio demostró que los grupos focales podrían no generan nuevas
estrategias. Sin embargo, sí parecen ser efectivos en inducir en los participantes una
actitud más favorable hacia las soluciones autogeneradas de problemas.
4. LA OBSERVACIÓN
Debe reconocerse que todos los métodos de observación poseen cierta objetividad. No
existe una clara dicotomía, en otras palabras, entre los llamados métodos objetivos y
otros métodos de observación. Más bien existe una diferencia en el grado de
objetividad. Nuevamente, si se piensa en los grados de objetividad como grados de
acuerdo entre observadores, desaparece la ambigüedad y confusión que con frecuencia
se asocia con el problema.
Entonces existe el acuerdo de que lo que aquí se llama métodos objetivos de observa-
ción y medición no poseen el monopolio de objetividad ni de inferencia, sino que son
más objetivos y no menos inferenciales que cualquier otro método de observación y
medición. Los métodos que se expondrán en el presente capítulo por ningún motivo
abarcan todos los métodos posibles, pues el tema es grande y muy variado. Se
consideran únicamente como medidas de variables, vistas y evaluadas de la misma
forma que todas las demás medidas de variables.
La mayor parte de los cientos, quizás miles, de pruebas y escalas pueden dividirse en las
siguientes clases: pruebas de inteligencia y aptitud, pruebas de rendimiento, medidas de
personalidad, escalas de actitud y valores, y medidas objetivas diversas. A continuación
se discutirá cada uno de estos tipos de medida, desde un punto de vista de investigación.
Una aptitud es la habilidad potencial para el logro. Las pruebas de aptitud se utilizan
principalmente para orientación y consejería. También se emplean en investigación,
particularmente como variables control. Una variable control es aquella cuyo efecto
sobre una variable dependiente quizá requiera anularse. Por ejemplo, al estudiar el
efecto de un programa correctivo de lectura sobre el rendimiento en lectura, puede ser
necesario atribuir la aptitud verbal a las posibles diferencias de grupo en habilidad
verbal. De forma similar, tal vez sea necesario controlar otras variables de influencia
potencial: habilidades numéricas y espaciales, por ejemplo. Las pruebas de aptitud
resultan útiles en tales casos.
Las pruebas de rendimiento a menudo se clasifican de varias formas. Para los propósitos
de este libro, se dividen, primero, en pruebas estandarizadas y en pruebas de cons-
trucción especial. Las pruebas estandarizadas son grupos de pruebas ya publicadas, que
se basan en un contenido educativo general común a un gran número de sistemas
educativos. Son los productos de un alto grado de competencia y habilidad profesional
en la redacción de pruebas y, como tales, por lo general son bastante confiables y casi
siempre válidas. Están dotadas con minuciosas tablas de normas (promedios) que
pueden utilizarse con propósitos comparativos. Las pruebas de construcción especial
son generalmente pruebas realizadas ex profeso por maestros para medir logros más
específicos y limitados. Por supuesto, también pueden ser elaboradas por investigadores
educativos para medir áreas limitadas de rendimiento.
En segundo lugar, las pruebas estandarizadas de rendimiento pueden, a su vez, clasifi-
carse en pruebas generales y especiales. Las pruebas generales son baterías de pruebas
que miden las áreas más importantes del rendimiento académico: uso del lenguaje,
vocabulario, lectura, aritmética y estudios sociales. Las pruebas de rendimiento especial,
como su nombre lo indica, son pruebas de materias individuales tales como historia,
ciencia e inglés.
Los investigadores rara vez eligen las pruebas de rendimiento debido a que los sistemas
escolares son quienes las seleccionan. Sin embargo, cuando a los investigadores se les
da la oportunidad de elegir, deben evaluar cuidadosamente el tipo de prueba de rendi-
miento que requiere su problema de investigación. Suponga que la variable de
investigación en un estudio es "el rendimiento en la comprensión de conceptos".
Muchas, quizás la mayoría de las pruebas utilizadas en las escuelas, no son adecuadas
para medir dicha variable. En tales casos, los investigadores pueden elegir una prueba
especialmente diseñada para medir la comprensión de conceptos, o ellos mismos diseñar
la prueba. La construcción de una prueba de rendimiento es un trabajo enorme, aunque
no es posible comentar aquí los detalles. Se refiere al estudiante a pruebas
especializadas. Por desgracia, existen pocos libros sobre la construcción de pruebas y
escalas para propósitos de investigación. La mayoría de los libros y otros textos sobre
medición se enfocan, casi siempre, en la construcción y el uso de instrumentos con
propósitos de aplicación. Sin embargo, los investigadores que necesiten construir
medidas de rendimiento de cualquier tipo encontrarán una excelente guía en los trabajos
de Adkins (1974); Cangelosi (1990); Gronlund (1988); Haladyna (1997); Hopkins
(1989), y Osterlind (1989). Los investigadores que necesiten construir escalas de actitud
encontrarán en el libro de Edwards (1957) un documento invaluable. Dawes (1972)
cubre algunos métodos que Edwards no cubrió.
Las actitudes, aunque se tratan de forma separada aquí y en la mayor parte de los
análisis de libros de texto, en realidad son parte integral de la personalidad. Los teóricos
modernos también consideran la inteligencia y la aptitud como partes de la
personalidad. Sin embargo, la medición de la personalidad trata principalmente de
rasgos. Un rasgo, como se mencionó en la sección anterior, es una característica
relativamente perdurable del individuo, a responder de cierta manera en todas las
situaciones. Si alguien es dominante, exhibirá comportamiento dominante en la mayoría
de las situaciones. Si alguien es ansioso, presentará una conducta ansiosa en la mayor
parte de sus actividades. Por otro lado, una actitud es una predisposición organizada a
pensar, sentir, percibir y comportarse hacia un referente u objeto cognitivo. Se trata de
una estructura perdurable de creencias que predispone al individuo a comportarse de
manera selectiva hacia los referentes de actitud.
Es importante hacer notar dos o tres características de las escalas de puntuación sumada,
pues muchas escalas comparten estas características. Primero, U, el universo de
reactivos, se considera un conjunto de reactivos con igual "valor de actitud", como se
indicó en la definición anterior. Ello significa que no existe una escala de reactivos
como tal; un reactivo es igual a cualquier otro reactivo respecto a su valor de actitud. Se
"clasifica" a los individuos que responden los reactivos. La clasificación surge de las
sumas (o promedios) de las respuestas de los individuos. Cualquier subconjunto de U es
teóricamente igual que cualquier otro subconjunto de U: se ordenaría a un conjunto de
individuos por rango de la misma manera si se utiliza U2o U1.
Hay algo malo con la mujer que no desea casarse y formar una familia. Una mujer debe
ser virgen cuando se casa.
Las escalas de intervalos aparentemente iguales de Thurstone se construyen a partir de
principios diferentes. Mientras que el producto final, un conjunto de reactivos de
actitud, puede utilizarse para el mismo propósito de asignación de puntuaciones
individuales de actitud, las escalas de intervalos aparentemente iguales también logran
el importante propósito de escalar los reactivos de actitud. A cada reactivo se le asigna
un valor de escala que indica la fortaleza de actitud de una respuesta de acuerdo para el
reactivo. El universo de reactivos se considera un conjunto ordenado; es decir, los
reactivos difieren en su valor de escala. El procedimiento de clasificación encuentra
estos valores de escala. Además, los reactivos de la escala final a utilizarse son tan
selectos que los intervalos entre ellos son iguales, lo cual representa una importante y
deseable característica psicométrica.
Los siguientes reactivos de intervalos aparentemente iguales, con los valores de escala
de los reactivos, provienen de la escala de Actitud hacia la Iglesia, de Thurstone y
Chave (1929, pp. 61-63,78):
Creo en la religión, pero en raras ocasiones voy a la iglesia. (Valor de escala: 5.4)
Pienso que la Iglesia es un obstáculo para la religión, ya que aun depende de lu
sobrenatural, la superstición y el mito. (Valor de escala: 9.6)
En la escala de Thurstone y Chave, a menor valor de escala del reactivo, más positiva
sería la actitud hacia la Iglesia. El primer y tercer reactivos son respectivamente el más
bajo y el más alto en la escala. El segundo reactivo, por supuesto, tiene un valor
intermedio. La escala total contenía 45 reactivos con valores de escala a través de todo
el continuo. Sin embargo, por lo general, las escalas de intervalos aparentemente iguales
contienen bastante menos reactivos.
Niño 1 1 1 1 3
Niño 2 0 1 1 2
Niño 3 0 0 1 1
Niño 4 0 0 0 0
(1 « Correcto; 0 = Incorrecto)
Note la relación entre el patrón de respuestas a los reactivos y las puntuaciones totales.
Si se conoce la puntuación total de un niño, se puede predecir su patrón, si la escala es
acumulativa, solamente si el conocimiento de las respuestas correctas de los reactivos
más difíciles predice las respuestas de los reactivos más fáciles. Observe también que se
escalan ambos reactivos y las personas.
De los tres tipos de escalas, la de puntuaciones sumadas parece ser el más útil para la
investigación del comportamiento, pues es más fácil de desarrollar y, como se indicó
antes, produce casi los mismos resultados que la escala de intervalos aparentemente
iguales, de construcción más laboriosa. Utilizadas con cuidado y con el conocimiento de
sus debilidades, las escalas de puntuaciones sumadas se adaptan a muchas de las
necesidades de los investigadores del comportamiento. Las escalas acumulativas
parecen ser de menor utilidad y menos aplicables de manera general. Si se utiliza un
objeto cognitivo de corte claro, una escala acumulativa breve y bien construida genera
medidas confiables de un número de variables psicológicas: tolerancia, conformismo,
identificación grupal, aceptación de la autoridad, permisividad, etcétera. También debe
señalarse que el método puede mejorarse y alterarse de varias formas. Dawe (1972) y
Edwards (1957) describen la forma de construir y evaluar escalas acumulativas, así
como escalas de puntuación sumada y escalas de intervalos aparentemente iguales.
Los valores son preferencias de tipo cultural hacia objetos, ideas, gente, instituciones y
comportamientos (Kluckhohn, 1951, pp. 388-433). Mientras que las actitudes son
organizaciones de creencias sobre cosas "de afuera", es decir, predisposiciones a
comportarse hacia los objetos o referentes de actitudes, los valores expresan
preferencias por formas de conducta y estados de existencia (Rokeach, 196S). Términos
como igualdad, religión, libre empresa, derechos chiles y obediencia expresan valores.
Dicho de manera sencilla, los valores expresan lo "bueno", lo "malo", los "debería" y
los "debiera" del comportamiento humano. Los valores colocan las ideas, las cosas y los
comportamientos en un continuo de aprobación-desaprobación. Implican opciones entre
cursos de acción y de pensamiento.
Con el propósito de brindar al lector una idea de los valores, se presentan tres reactivos.
Se puede pedir a los individuos que expresen su aprobación o desaprobación sobre el
primero y segundo reactivos, quizás en forma de puntuación sumada, y que elijan una
de las tres alternativas del tercer reactivo.
Por el propio bien y por el bien de la sociedad, una persona debe ser controlada por la
tradición y la autoridad.
Por desgracia, los valores han recibido escasa atención científica, aun cuando éstos y las
actitudes conforman gran parte de la producción verbal de las personas y son, proba-
blemente, influyentes determinantes del comportamiento. Por lo tanto, la medición de
valores padece desatención. Sin embargo, los valores sociales y educativos tal vez se
conviertan en el centro de mucho más trabajo teórico y empírico en el futuro, ya que los
científicos sociales se han vuelto cada vez más conscientes de que los valores
constituyen influencias importantes en el comportamiento individual y de grupo (véase
Dulces, 1955; Haddock y Zanna, 1998; Hendrick, Hendrick y Dicke, 1998: Hogan,
1973; Lubinski, Schmidt y Benbow, 1996; Pitrel y Mendelsohn, 1966; Robinson, 1996).
Una fuente de escalas de valores es Levitin (1969). Un ensayo muy sugestivo y valioso
que apareció hace 45 años es el trabajo realizado por Kluckhohn (1951). Otro ensayo
sobre la medición de valores que aún es importante es el de Thurstone (1959).
Dos tipos generales de reactivos que se usan con frecuencia son aquellos en que las
respuestas son independientes y aquellos en que no son independientes. Independencia
aquí significa que la respuesta de una persona a un reactivo no está relacionada con su
respuesta a otro reactivo. Todos los reactivos de verdadero-falso, sí-no, de acuerdo-en
desacuerdo y de tipo Likert pertenecen al tipo independiente. El sujeto responde cada
reactivo libremente, con un rango de dos o más respuestas posibles, de las cuales puede
elegir sólo una. Por otro lado, los reactivos no independientes obligan al sujeto a elegir
un reactivo o alternativa que excluye la elección de otros reactivos o alternativas. Tales
formas de escalas y reactivos se denominan de elección forzada. El sujeto se enfrenta
con dos o más reactivos o subreactivos y se le pide que elija uno o más de ellos de
acuerdo con algún criterio, e incluso criterios.
Ejemplos
Indique junto a cada una de las siguientes afirmaciones qué tanto las aprueba, utilizando
una escala del 1 al 5, donde el 1 significa "No lo apruebo en lo absoluto" y el 5 significa
"Lo apruebo muchísimo".
A continuación se dan 40 pares de afirmaciones. De cada par escoja la que apruebe más.
Márquela con una palomita (/).
El tipo de escala de elección forzada evita, por lo menos en cierto grado, el sesgo de
respuesta. Sin embargo, al mismo tiempo, sufre por la falta de independencia, y por su
costo excesivo y alta complejidad. No obstante, existen algunos investigadores, como
Comrey (1970), que han construido una escala del sesgo de respuesta dentro de la
prueba de personalidad. Las escalas de elección forzada en ocasiones también agotan la
tolerancia y la paciencia del sujeto, lo cual se traduce en menor cooperación. Aun así,
muchos expertos consideran que los instrumentos de elección forzada son prometedores
para la medición educativa y psicológica. Mientras que otros expertos se muestran
escépticos.
Entonces, las escalas y los reactivos se dividen en tres tipos: de acuerdo-en desacuerdo
(o aprobación-desaprobación o verdadero-falso, y similares), de orden de rango y de
elección forzada. Cada uno de ellos se analiza brevemente. En la literatura pueden
encontrarse explicaciones más detalladas (véase Edwards, 1957; Guilford, 1954).
3) Aquellos que permiten más de una elección de tres o más respuestas posibles.
1 = En desacuerdo
2 = En ligero desacuerdo
3 = Neutral
4 = En ligero acuerdo
5 = De acuerdo
El tercer tipo de escala de este tipo presenta un número de reactivos: se dan instruccio-
nes a los participantes para indicar aquellos reactivos que los describen, reactivos con
los que están de acuerdo o simplemente reactivos que ellos eligen. El listado de
adjetivos es un buen ejemplo. Se le presenta al sujeto una lista de adjetivos, donde
algunos indican rasgos deseables como analítico, generoso y considerado; y donde otros
indican rasgos indeseables como cruel, egoísta y vulgar. Se les pide que marquen
aquellos adjetivos que los caracterizan. (Por supuesto, este tipo de instrumento también
sirve para caracterizar a otras personas.) Quizás una forma mejor sería una lista con
todos los adjetivos positivos de escalas de valores conocidas, donde se les pide a los
participantes que seleccionen un número específico de sus propias características
personales. La escala de intervalos aparentemente iguales y su sistema de respuesta
donde se marcan los reactivos de actitud con los que se está de acuerdo es, por supuesto,
la misma idea. La idea es útil, especialmente con el desarrollo de escalas factoriales, de
métodos de escalación y el creciente uso de los métodos de elección.
El principal aspecto que los investigadores deben tener en mente es que el sistema de
puntuación debe producir datos interpretables, congruentes con el sistema de
puntuación. Si se utilizan puntuaciones de 1, 0, -1, los datos deben ser capaces de
proveer una interpretación escalada; es decir, 1 es "alto" o "mucho", -1 es "bajo" o
"poco" y 0 está en medio. Un sistema de 1, 0 puede significar alto y bajo o simplemente
presencia o ausencia de un atributo. Tal sistema puede ser útil y poderoso, como se vio
anteriormente cuando se estudiaron variables como sexo, raza, clase social, etcétera. En
síntesis, los datos producidos por sistemas de puntuación deben tener significados
claramente interpretables en cierto sentido cuantitativo. Se refiere al lector al análisis de
Ghiselli (1964, pp. 44-49) sobre el significado de las puntuaciones. No obstante,
algunos expertos han criticado el uso de 0-1 o de los sistemas binarios de puntuación.
Durante el desarrollo de sus escalas de personalidad, Comrey descubrió que los
reactivos que utilizan un esquema de respuesta binaria están sujetos a problemas y
distorsiones que no necesariamente se obtendrían si la escala tuviera 3 puntos o más.
Los resultados del estudio de Comrey sobre las escalas se resumen en Comrey (1978) y
Comrey y Lee (1992).
Se han desarrollado varios sistemas para ponderar reactivos; aunque la evidencia indica
que las puntuaciones ponderadas y no ponderadas dan en gran parte los mismos resul-
tados. Los estudiantes parecen encontrar esto difícil de creer. (Note que se habla acerca
de la ponderación de las respuestas a los reactivos.) Aunque el asunto no está
completamente establecido, existe fuerte evidencia de que en pruebas y medidas con el
suficiente número de reactivos —como 20 o más— la ponderación diferencial de
reactivos no genera mucha diferencia en los resultados finales. Tampoco la ponderación
diferencial de respuestas produce mucha diferencia (véase Guilford, 1954; Nunnally,
1978). Tampoco se produce ninguna diferencia, en términos de varianza, si se
transforma las ponderaciones de las puntuaciones de manera lineal. Se puede hacer que
los participantes utilicen un sistema, +1,0, -1 y, por supuesto, utilizar las puntuaciones
en un análisis. Sin embargo, se puede añadir una constante de 1 a cada puntuación,
produciendo 2,1,0. Las puntuaciones transformadas son más fáciles de trabajar, ya que
no tienen signos negativos.
Los reactivos de elección forzada con más de dos partes pueden asumir un número de
formas con tres, cuatro o cinco partes, las cuales son homogéneas o heterogéneas
respecto a lo favorable y a lo no favorable. Se analiza e ilustra sólo uno de estos tipos
para demostrar los principios que subyacen a dichos reactivos. Por medio de un análisis
factorial, un procedimiento conocido como la técnica de los incidentes añicos o algún
otro método, se reúnen y seleccionan los reactivos. Por lo común se descubre que
algunos reactivos discriminan entre grupos de criterio y que otros no lo hacen. Ambos
tipos de reactivos —llámense discriminantes e irrelevantes— se incluyen en cada
conjunto de reactivos. Además, se determinan los valores de preferencia para cada
reactivo.
Un reactivo típico de elección forzada es una tetrada. Una forma útil de tetrada consiste
en dos pares de reactivos, un par con un alto valor de preferencia y el otro par con un
bajo valor de preferencia, donde un miembro de cada par es discriminativo (válido) y el
otro miembro del pares irrelevante (no válido). Un esquema de dicho reactivo de
elección forzada es:
a) Alta preferencia-discriminante
b) Alta preferencia-irrelevante
c) Baja preferencia-discriminante
d) Baja preferencia-irrelevante
Se dirige al sujeto para que elija el reactivo de la tétrada que más prefiera, o que
constituya la mejor descripción de sí mismo (o de alguien más), etcétera. También se
dirige a esta persona para que seleccione el reactivo menos preferido o menos
descriptivo de sí mismo.
La idea básica detrás de este reactivo más bien complejo es, como se indicó antes, que
se controla la fijeza de respuesta y el deseo de aceptación social. El sujeto no puede
decir, al menos teóricamente, cuáles son los reactivos discriminantes y cuáles los
irrelevantes; tampoco se pueden elegir los reactivos con base en los valores de
preferencia. Así, se contrarresta la tendencia a evaluarse a sí mismo (o a otros)
demasiado alto o demasiado bajo y, por lo tanto, la validez presuntamente se incrementa
(Guilford, 1954).
Un reactivo de elección forzada de un tipo hasta cierto punto diferente, construido por el
primer autor de este libro con fines ilustrativos del uso de reactivos de investigación
real, es:
A. Consciente
B. Agradable
C. Respondiente
D. Sensible
1 2 2 3
2 2 1 2
Objetos 3 4 5 3
4 3 5 3
5 5 4 2
Sumas: 15 16 17 13
Note que las sumas y las medias (y las desviaciones estándar también) son diferentes.
Éstas son medidas normativas. Teóricamente con las medidas normativas no existen res-
tricciones en el valor que el individuo/) le puede asignar al objeto C—con excepción,
por supuesto, de los números del 1 al 5—.
No obstante, con las medidas ipsativas, el procedimiento —en este caso de orden de
rangos— ha creado restricciones sistemáticas. Cada individuo debe utilizar 1, 2, 3, 4 y 5
tan sólo una vez, y todos deben ser utilizados, lo cual indica que cuando cinco objetos
están siendo ordenados por rango y se asigna uno, por ejemplo, rango 1, sólo quedan
cuatro rangos por asignar. Después de que se asigna el 2 al siguiente objeto, sólo quedan
tres, etcétera, hasta el último objeto, al que debe asignársele el 5. Un razonamiento
similar se aplica a otro tipo de procedimientos y medidas ipsativos: comparaciones de
pares, tetradas y pernadas de elección forzada o metodología Q.
Una de las tareas más difíciles para el investigador del comportamiento, cuando se
enfrenta con la necesidad de medir variables, es encontrar el camino a través de un gran
número de medidas ya existentes. Si existe una buena medida para una variable en
particular, parece
tener poco sentido construir una medida nueva. De cualquier manera, la pregunta es:
¿existe una buena medida? La respuesta a esta pregunta quizá requiera de una gran
búsqueda y estudio. El investigador debe saber, primero, qué tipo de variable se va a
medir. Se ha tratado de ofrecer una guía dentro de la estructura recién proporcionada. Se
debe saber claramente si la variable es una aptitud, rendimiento, personalidad, actitud o
algún otro tipo de variable. E! segundo paso es consultar uno o dos libros de texto que
analicen medidas y pruebas psicológicas. Después, se deben consultar las bien
conocidas guías de Buros. Aunque Buros ofrece una excelente guía sobre pruebas
publicadas, muchas buenas medidas no se han publicado comercialmente. Por lo tanto,
debe buscarse en la literatura de aparición periódica. A pesar de que muchas escalas no
están disponibles de manera comercial, se pueden reproducir (con permiso) y utilizarse
con propósitos de investigación. Otras Fuentes valiosas son Andrulis (1977); Comrey,
Backer y Glaser (1973); Fischer y Corcoran (1994); Goldman, Saundersy Busch (1996);
Kevsery S\veedand(1987) y Taulbee (1983).
Fuentes valiosas de información sobre pruebas y escalas son las revistas Psychological
Bulletin, Journal of Psychoeducational Assessrnent, Applied Psychological^
leasurement, Educational and Psychological Measurement, Journal of Educational
Meamrement, Psychological Assessment y Journal of Experimental Education.
Tal vez un investigador encuentre que no existe una medida que mida el atributo
deseado. O, si existe una medida, quizá sea insatisfactoria para los propósitos. Por
consiguiente, el investigador debe construir una nueva medida o instrumento, o
abandonar la variable. La construcción de pruebas y escalas objetivas constituye una
tarea larga y ardua. No existen atajos. Un instrumento pobremente construido llega a
ocasionar más daño que beneficio, ya que puede conducir al investigador a conclusiones
erróneas. Entonces, el investigador que debe construir un nuevo instrumento tiene que
seguir ciertos procedimientos conocidos y guiarse por criterios psicométricos aceptados.
Dos o tres desarrollos recientes son muy alentadores. Uno es la creciente comprensión
de la complejidad que implica la medición de cualquier variable de personalidad y de
actitud. El segundo lo constituyen los avances técnicos para llevarla a cabo. Otro
desarrollo muy relacionado consiste en el empleo del análisis factorial como ayuda en la
identificación de variables y como guía en la construcción de medidas. Un tercer
desarrollo (que se estudió en un capítulo anterior) es el creciente conocimiento,
comprensión y maestría del problema de validez en sí mismo, y en especial la
comprensión de que la validez y la teoría psicológica están interrelacionados.
Sujeto →
Estímulo →
Objeto →Respuesta →Percepción →
Registro
En todos los eslabones de esta cadena pueden intervenir factores ajenos y alterar la
pureza de la observación y la validez de sus resultados. Además, frecuentemente el
objeto está latente, oculto, y es observado por medio de expresiones externas que se cree
lo representan. En estas circunstancias se basan las dificultades y problemas que plantea
la observación, estudiadas en el capítulo 7 y la necesidad de su control.
Observación documental
Por cuestionario
A primera vista puede parecer que la observación y la medida son términos distintos que
no guardan una estrecha relación entre sí. Sin embargo, si se tiene en cuenta que los
datos, como indicamos en el capítulo segundo de esta obra, se refieren a una dimensión
de una variable en una unidad de observación determinada (por ejemplo, un dato es: el
encuestado X declara que pesa entre 65 y 70 Kg) y que, por tanto, los datos son la
expresión verbal o escrita de medidas realizadas, se revela entonces la íntima
vinculación entre la observación y la medida.
Hasta no hace mucho, predominaba en las ciencias sociales una noción restringida tanto
de la observación como de la medida. Por ejemplo, en el término dedicado a la medida
en el Diccionario de Ciencias Sociales (1976, p. 187, v.2) se recoge una noción de
medida estricta, según la cual "medir una cantidad es compararla con otra de igual
naturaleza con objeto de averiguar cuantas veces la primera contiene a la segunda".
Conforme a esta definición no sólo medimos cuando comparamos algo con una unidad
de medida y vemos las veces que la contiene, sino también cuando distinguimos y
clasificamos cosas distintas, y cuando ordenamos según más y menos las características
o variables de las cosas, asignando números a las distintas cosas y variables clasificadas
y ordenadas.
De ello se concluye que, científicamente, hay que admitir que existen no solo uno sino
diversos niveles de medida, como veremos después, y, por tanto, diversos niveles de
observación, según que en la toma de datos nos limitemos a distinguir y clasificar los
seres reales, según que, además, ordenemos sus características de más a menos, o, en
fin, según que no solo distingamos y midamos sino que obtengamos dimensiones
mediante su comparación con una unidad de medida.
Por otra parte, lingüísticamente (Baird) la medida es una afirmación resultado de una
observación y, por tanto, tiene carácter humano y falible. Por ello, no se debe decir la
longitud de esta mesa es de 1,6 m., sino se ha medido esta mesa y se ha obtenido un
resultado de 1,6 m. A este respecto, hay que distinguir entre contar, que permite una ex-
presión exacta y la medida que es falible.
— Por último, el hecho de que el observador forma parte de aquello que es observado,
la sociedad, y por ello, nunca puede ser totalmente neutral.
Las formas de control que se suelen utilizar son: la realización de la observación por dos
investigadores distintos a la vez y la discusión de los datos obtenidos con expertos y
miembros del grupo. Asimismo, se recomienda tener en cuenta las reacciones,
sentimientos y estado de ánimo de los observadores en el momento de la observación.
4) Que se realice con fines sociológicos, y con arreglo a los requisitos exigidos por la
investigación sociológica científica, según su naturaleza descriptiva o explicativa.
Esta condición distingue la observación sociológica de la realizada con otros fines,
incluso científicos, no sociológicos.
Si bien esta obra se refiere más específicamente a los llamados métodos cuantitativos de
la investigación social y aunque nada impide que gran parte de su contenido pueda ser
aplicado también, con las acomodaciones necesarias en las investigaciones sociales
cualitativas, a continuación se enumeran, de acuerdo con S. J. Taylor y R. Bogdan
(1986, 159 y ss.), los pasos básicos a seguir en el tratamiento de los datos de dichas
investigaciones cualitativas.
5.7.1. Análisis
5.7.2. Codificación
3) Clasificar cada uno de dichos resultados en las categorías en las que encajen mejor.
4) Discutir más detenidamente a qué categorías se pueden asignar los datos sobrantes
del primer intento de clasificación.
5.8. CLASES
La observación presenta distintos grados y modalidades, aunque todos ellos son de gran
interés para el sociólogo.
Existe, con relación a grupos sociales, además de la llamada no intrusiva que se realiza
examinando por ejemplo, restos, basuras, graffiti, y en general, vestigios de las
actuaciones sociales, una observación participante que se realiza enrolándose en el
grupo observado y una observación distante que tiene lugar manteniéndose al margen de
éste, aunque no tan alejado que se impida la observación pretendida. Además, según su
grado de nivel científico, se pueden distinguir los tipos de observación siguientes:
Precientífica, global, descriptiva y explicativa.
En este sentido, se contrapone a la encuesta, que se suele considerar como forma típica
de la investigación cuantitativa.
La observación precientífica, más bien que una técnica concreta, es una disposición de
ánimo, una actitud ante la realidad social. Se puede decir que constituye el elemento
fundamental del espíritu sociológico, es decir, de la aptitud para ver en todos los hechos
de la vida los aspectos de interés social, de la capacidad para calificarlos y juzgarlos
según categorías sociológicas y de la penetración para intuir los problemas de interés
que presentan para su investigación científica.
Este tipo de observación debe constituir una cualidad permanente del sociólogo, básica
no sólo porque toda investigación requiere un conocimiento lo más extenso y profundo
posible de la realidad social, sino también como fuente de hallazgo de cuestiones
científicas a investigar y de sugerencia de hipótesis significativas. Para adquirirlo se
puede re-, comendar la lucha por conseguir una atención permanente a los hechos
ofrecidos por la realidad, y el esfuerzo constante por aplicar a ellos y contrastarlos con
categorías y principios sociológicos.
En el primer caso esto comporta por ejemplo la elección del grupo investigado, el
señalamiento de las actividades que tienen que realizar y el establecimiento de las
condiciones ambientales donde van a actuar, según criterios científicos.
5.8.6.1. Noción
Sin embargo, no es una observación simple, en sentido estricto. Primero porque consiste
en el estudio de grupos y fenómenos, y ésta es sin duda su nota distintiva, preparados o
manipulados, es decir, controlados de alguna forma por el investigador. Segundo porque
el experimento es ti instrumento de investigación causal por excelencia, a diferencia de
la observación que, generalmente, es simplemente descriptiva. Y tercero porque implica
la contraposición bien de dos grupos o fenómenos similares, salvo en un influjo
producido o en una situación que se da por sí misma, bien del mismo grupo o fenómeno
esta vez en dos tiempos distintos después de haber sufrido un impacto determinado.
Precisamente la técnica del experimento se basa en la producción o preparación de esta
contraposición o contraste, de tal modo que en ella consiste principalmente la
manipulación del objeto de la investigación que supone el experimento.
El control de los grupos con los que se realiza el experimento tiene lugar,
principalmente, por medió de la igualación de los grupos experimental y de control, de
la que se trata después, respecto sobre todo a las características básicas en orden a los
objetivos del experimento.
Por último, el control del estímulo o variable independiente es la mitad del investigador
de hacer incidir tal estímulo sobre el grupo que parezca conveniente y en el grado y
momento que le parezca oportuno
Este control del estímulo es, sin duda, como se ha indicado, lo mal típico del experimento.
Esto explica que D. Campbell y J.S. Stanley (1973, p. 9) entiendan por experimento
"aquella parte de la investigación en la cual se manipulan ciertas variables y se observan
sus efecto sobre otras".
En el experimento las variables independientes son las que el investigador hace variar y
las dependientes son las que observa para ver si varían a causa de la variación
provocada por el investigador en las variables independientes.
Las irrelevantes son las que se puede hacer caso omiso de ellas, bien porque se estima que
su influencia es despreciable, o bien porque esta influencia es aleatoria y se anula en
conjunto.
Por ello, los experimentos bien hechos sirven para descubrir si una variable es
independiente respecto de otra, en el sentido indicado de que influye o es causa de la
variación observada en la variable dependiente.
Los experimentos de campo o sobre el terreno son los que no tienen lugar en un
laboratorio. Los experimentos de este tipo si fueran rigurosos no deberían diferir de los
experimentos de laboratorio. También en ellos es necesario el control perfecto de la
situación social de origen. Pero, como esto es muy difícil de conseguir, la realidad es
que los experimentos sociales sobre el terreno son generalmente experimentos im-
perfectos. Un ejemplo de experimentos de esta clase es el realizado con personas
alojadas en barracas. Se les dio solo a algunos de ellos viviendas nuevas para ver qué
diferencias sociales se producían.
Por el contrario, experimentos propiamente dichos son aquéllos en los que no falta
ningún elemento básico y el control del investigador alcanza tanto a los grupos
experimentados como al estímulo o variable independiente.
Sin embargo, han adquirido gran importancia últimamente los llamados experimentos
simulados, que cada día tienen más aplicación en todas las ciencias, debido a la
dificultad y coste de los experimentos reales.
Estos experimentos tienen aplicación sobre todo en estudios prospectivos que intentan
prever el futuro. Son muy útiles en política social y económica, para prever las
modificaciones que se producirán en la sociedad y en la economía si se actúa sobre
determinadas variables.
Se producen cuando falta la situación inicial y el control del estímulo, ya que actúa el
investigador después de haber actuado la causa o variable independiente y de haberse
producido los efectos consiguientes.
Se puede decir que de experimentos tienen muy poco, salvo un cierto control imperfecto
que es posible en ellos de la elección de los miembros del grupo que ha sufrido el
impacto de la variable independiente y de los del grupo de control. Como señala el
Profesor González Seara (1971) estos experimentos se deben utilizar con mucha cautela,
pues las explicaciones ex-post-facto pueden utilizar los datos como mejor convenga.
El procedimiento de azar se puede utilizar para igualar aleatoriamente los dos grupos.
Para ello se eligen dos muestras de igual número de sujetos de la misma población,
según se ha indicado ya. También se puede emplear para realizar la asignación de los
individuos a los grupos de control o experimental. En este caso, este procedimiento se
puede combinar con cualquiera de los dos primeros.
Como es obvio, cuando en el experimento solo hay un grupo, dos cuadros estarán
vacíos, así como cuando no hay medidas antes y sí o lo después. Esto se indica por una
línea de trazos discontinuos.
La diferencia de las diferencias entre las medidas después y antes 0 entre las del grupo
experimental y el de control, si no hay momentos antes, es el resultado del experimento,
el posible efecto del estímulo o variable experimental X.
Su significación es simple. Si esta diferencia es elevada quiere decir que el experimento
no revoca la hipótesis y lo contrario si es baja. Para ver si estas diferencias observadas
son significativas estadísticamente, se puede emplear la prueba t o el análisis de
varianza.
Los hombres no sólo tienen sentidos que les permiten observar los fenómenos sociales
en el momento mismo en que se producen, sino que con la escritura expresan por medio
de signos estas observaciones con lo Me logran, hasta cierto punto, que se materialicen
y trasciendan su esencial fugacidad. En realidad, en las sociedades con escritura, donde
cada vez tiene menos importancia y fiabilidad la transmisión oral, para que perdure toda
observación es preciso que se recojan sus resultados por medio de la escritura o de otra
forma documental.
Por otra parte, en las sociedades actuales, se lleva por organismos públicos y privados,
cuenta ordenada y regular de los hechos más importantes de la vida social:
demográficos, económicos, laborales, sanitarios, educativos, financieros, etc. Esta
cuenta ordenada constituye la base de las estadísticas en las que se refleja y presenta de
manera sistemática y regular la extensión cuantitativa de los fenómenos y procesos
sociales más importantes.
Por si esto fuera poco, hoy las modernas técnicas capacitan al hombre para registrar y
conservar los sonidos e imágenes de toda clase de sucesos incluido el contenido de
cualquier documento, y permiten, mediante las técnicas informáticas y sobre todo la red
mundial de información, documentación y comunicación INTERNET, verlos y
obtenerlos en el momento en que se desee y cualquiera que sea el lugar donde se
encuentren.
Por último, incluso los objetos de toda clase, desde el más grandioso monumento hasta
el más simple utensilio, tiene un valor documental en cuanto son restos productos de
una sociedad determinada, cuya naturaleza, organización y nivel de desarrollo reflejan.
a) En documentos escritos entre los que cabría distinguir como categorías principales: la
prensa; los llamados documentos personales: cartas, diarios, memorias, autobiografías;
las obras de creación literaria: novelas, obras de teatro, cuentos, ensayos, y todas las
demás publicaciones impresas.
a) Su autenticidad.
También hasta cierto punto, aunque en menor grado, sobre todo en algunos aspectos,
estas circunstancias son aplicables a los documentos estadísticos.
No obstante lo anterior, los documentos constituyen por si hechos sociales. Como tales
pueden ser objeto, como un todo global, de diversos tipos de análisis sobre sus
características, con intención de deducir de ellas consecuencias de interés social.
Entre estos tipos de análisis Duverger (1962, p. 152 y ss.), destaca y expone en relación
a los documentos, los tipos de análisis interno, externo, psicológico y sociológico.
Se puede señalar como objetivo del análisis interno la determinación del mensaje de la
obra y de los principios y valores en que se funda.
Por el contrario, parece objetivo más propio del análisis externo, además del examen de
los aspectos formales, estilo, lenguaje, etc., la puesta en relación del documento con el
contexto histórico y cultural en que tiene lugar su aparición.
El análisis de contenido es la técnica, sin duda más elaborada y que loza de mayor
prestigio científico en el campo de la observación documental.
Desde 1970, la evolución del análisis de contenido (Bardin, 1973) | distingue por tres
rasgos: 1. El recurso al ordenador. 2. El interés por las comunicaciones no verbales y la
semiología. 3. Su confluencia con el gran desarrollo actual de la lingüística.
Según esta definición, las notas que caracterizan al análisis de contenido son éstas: ser
objetivo, sistemático, cuantitativo, sobre el contenido manifiesto y con el fin de
interpretarlas.
La primer nota, objetivo, supone el empleo de procedimientos d< análisis que puedan ser
reproducidos por otros investigadores, de modo i que los resultados obtenidos sean
siempre susceptibles de verificación.
La segunda nota, sistemático, exige la sujeción del análisis a una pauta objetiva
determinada, que abarque todo el contenido a observar.
La tercera nota, cuantitativo, pide que se puedan cifrar numérica mente los resultados del
análisis. En relación a esta nota hay que tener 1 en cuenta que, como describe D.P.
Forcese (1973, p. 186), el análisis de contenido es una técnica para cuantificar datos
secundarios: consiste básicamente en el aislamiento y recuento de unidades e indicadores
de los fenómenos en que estamos interesados.
Por ello, el análisis de contenido es, como afirma Bailey (1978, p 276), equivalente en el
estudio de documentos a la investigación por i encuesta y sus resultados se condensan,
como en ésta, en tablas numéricas.
La cuarta nota, manifiesto, indica que el objeto de éste análisis son los contenidos
expresos de la comunicación, en el texto de que se trate. Objeto inmediato de
observación, sólo pueden ser los contenidos manifiestos. De hecho, sólo éstos se pueden
observar directamente. Pero esto no impide que se pretenda también investigar
contenidos latentes, utilizando para ello indicadores manifiestos que sean reflejo o
expresión de los mismos.
Esta conclusión resulta implicada en la quinta nota: con el fin de interpretarlas. Lo que el
análisis de contenido pretende no es quedarse con el contenido manifiesto, sino inferir de
él consecuencias relevantes de naturaleza psicológica, sociológica, política, histórica, etc.
sobre el origen, destino y aspectos de los mensajes.
En estos medios se recogen y reflejan la vida de las sociedades modernas y los valores,
patrones culturales y actitudes ante los problemas del hombre y la sociedad, vigentes en
cada momento.
Por ello su contenido constituye un material indispensable para el conocimiento de estas
sociedades.
El análisis de contenido no es otra cosa que una modalidad especial de la aplicación del
método científico en las ciencias sociales. Sus operaciones son por tanto,
fundamentalmente, las mismas indicadas al hablar de la investigación social en general.
Por ello me limitaré a ocuparme de las que por el objeto de análisis de contenido,
presentan particularidades más destacadas: el muestreo, la determinación de unidades de
análisis, la elección de categorías y la confección del cuadro de recogida de datos.
LOS tipos principales de muestreo en este caso son tres que no se excluyen entre sí: de
fuentes, por ejemplo, elección entre los distintos títulos, de periódicos y revistas; de
fechas, muestreo entre los números de cada fuente; y de espacios: dentro de un mismo
documento, se pueden distinguir espacios iguales, numerarlos y sortear entre ellos.
Uno de los análisis de contenido más simple y empleado, es el que versa sobre los temas
o asuntos. Por ejemplo, es frecuente analizar los contenidos de la prensa, emisiones de
radio y TV, clasificando este contenido según la importancia concedida y la extensión
que ocupan en estos medios informativos, cada clase de asuntos tratados: políticos, reli-
giosos, educativos, artísticos, musicales, deportivos, etc. En este caso las unidades de
análisis suelen ser el artículo, la noticia, el comentario, etc., completos.
También es corriente establecer una lista de palabras clave en una ideología, y sus
contrarias como base de referencia y comparación, y luego contar las frecuencias con
que se encuentran en los documentos estudiados. Aquí las unidades de análisis son las
palabras.
Las categorías representan unos elementos más concretos, definidos y singulares que las
variables empíricas o indicadores. Constituyen cada uno de los elementos singulares que
vamos a buscar en la investigación, referentes a determinadas variables.
De acuerdo con esta noción, en el análisis de contenido se llaman categorías a cada uno
de los elementos o dimensiones últimos y más imples de las variables investigadas, que
nos van a servir para clasificar o agrupar según ellas las unidades de análisis del texto.
Las categorías de valores, o de lo que la gente desea, quiere o busca. Son categorías de
este tipo, por ejemplo, el dinero, la salud, el amor, el éxito, etc.
Categorías sobre formas de acción posible. Entre ellas se encuentran, el análisis de los
hechos, la propaganda, la negociación, la organización, la utilización de medios
económicos, la violencia, etc.
Categorías referentes a los actores. Aquí se engloban todas las categorías referentes a las
variables básicas de identificación de los sujetos humanos. Son las referentes al sexo:
hombre y mujer; al estado civil: casado, viudo, soltero, etc.
Categorías que indican una toma de posición del autor, tales como la aprobación,
desaprobación, pesimismo, optimismo, afirmación, negación.
Las categorías como los indicadores, constituyen la red utilizada en la investigación. Por
ello de la perfección o imperfección del conjunto que se forme depende el éxito o
fracaso del trabajo emprendido.
En todo caso se debe probar con ensayos previos la validez y seguridad de las categorías
elegidas.
El cuadro
El cuadro deberá comprender todas las categorías sobre las que se va a recoger
información en los documentos.
Cada categoría ha de tener los espacios necesarios para anotar en ellos la intensidad,
frecuencia y las características que se quieten registrar sobre cada una de ellas.
Se recomienda anotar en cada contenido clasificado la categoría en que lo fue, para que
se pueda contrastar la exactitud y precisión de la clasificación.
2) Que el nuevo análisis no sea una repetición de los análisis conocidos ya realizados con
los datos, sino que, por abarcar más datos que éstos, basarse en tratamientos diferentes de
los datos, emplear tipos de análisis diversos, ofrezca interpretaciones y conclusiones
adicionales o en forma diferente a las ofrecidas en el primer análisis.
Las fuentes principales de los datos que se emplean en el análisis de datos secundarios
numéricos son:
Dentro de las estadísticas, merecen mención especial las realizadas por los Institutos
Nacionales de Estadística. Estos organismos, encargados primero de realizar los censos
de población, suelen tener a su cargo en la actualidad la realización periódica de grandes
encuestas nacionales, por ejemplo, en España, sobre el empleo y los presupuestos
familiares.
EL análisis de datos secundarios puede tener múltiples aplicaciones, entre las que se
pueden destacar las siguientes:
Entre sus ventajas, señaladas por los autores (Hackim, 1982), se pueden destacar las
siguientes:
2) Los investigadores, que buscan evidencia empírica para teorías, pueden evitar la
nueva colección de datos valiéndose del análisis secundario.
Por último, cabe subrayar por Boudon (1975), la necesidad para el desarrollo de la
investigación social y de las ciencias sociales de la formación de una contabilidad social
y el establecimiento de bancos do datos sociales.
Con relación a la palabra escalas se utilizan en las ciencias sociales tres términos: uno
genérico, escalas sin más, y dos específicos, escalas sociométricas y escalas de
actitudes.
El primer término es genérico porque es común a todas las ciencias y no solo a las
sociales.
Es el estudiado en el primer capítulo de esta misma sección, dedicado a la observación,
a la medida y a las escalas.
Una escala en sentido genérico se define, según vimos, como la disposición conjunta de
cosas distintas pero comunes en algún aspecto.
El nivel más bajo, el menos exacto, corresponde a las escalas nomina les, y el más
elevado y más exacto a las escalas de intervalo y de razón.
Aunque se utilizan escalas sociométricas para medir características diversas, las más
conocidas, numerosas y utilizadas son las escalas de actitudes, es decir aquellas que se
emplean para medir el grado en que se da una actitud o disposición de ánimo
permanente, respecto a cuestiones específicas en un sujeto determinado.
Las escalas de actitud tienen en la actualidad una gran aplicación en las investigaciones
sociales, bien de manera independiente, bien formando parte de cuestionarios simples o
de entrevistas. Dada su esencial condición numérica, como instrumentos de medida,
proporcionan al cuantificar los resultados de las observaciones, una precisión más
elevada y una mayor posibilidad de aplicación de las matemáticas a su análisis y
estudio, así como hacen más viable el contrastar y comprobar en nuevas investigaciones
los resultados anteriores obtenidos.
Desarrollando la noción que poco ha he apuntado, las actitudes se pueden definir como
disposiciones permanentes de ánimo formadas por Un conjunto de convicciones y
sentimientos que llevan al sujeto que las llene a actuar y expresarse según ellas en sus
actos y opiniones.
3) Un factor reactivo que impulsa a pensar y obrar en las distintas situaciones sociales
en consonancia con las convicciones y sentimientos profesados.
Las actitudes pues se concretan y expresan en ideas, sentimientos hacia cosas y personas
y reacciones o modos de actuación diversos.
Por ello, sus manifestaciones en la vida social son múltiples y se puede decir que tiñen
todos los campos de la vida social.
Por ejemplo, supuesto un sujeto que sea progresista esta actitud, se reflejará en sus ideas
y actos en todos los campos de la vida social: familiar, educativo, político, económico,
religioso, cultural, recreativo, etc.
Los elementos pues de las escalas de actitudes son las proposiciones, se les suele llamar
items, que consisten en expresiones que se refieren a ideas, sentimientos y actos en que
se concreta o manifiesta la actitud.
Los items o proposiciones de las escalas, hacen las veces de estímulos ante los cuales
los encuestados deben reaccionar de una u otra forma.
Las proposiciones o items de las escalas de actitudes, igualmente que éstas tienen de por
sí, carácter cualitativo. Para transformarlas en instrumentos de medida cuantitativa, hay
que cuantificarlas.
Para que las escalas de actitudes sean útiles como instrumentos de medida deben reunir
ciertas características, difíciles de reunir, entre las que destacan la graduación, la
discriminatividad, la validez, la seguridad, la unidimensionalidad, y el estar formadas
por intervalos iguales.
La graduación supone que las escalas deben comprender todos los grados
fundamentales de la actitud de que se trate, desde los elevados a los medios y bajos y no
sólo parte de ellos.
La discriminatividad implica que sus items deben tener poder discriminante, deben
constituir estímulos capaces de distinguir y dividir, incluso en extremos opuestos, a las
personas en relación a la actitud de que se trate.
La validez y seguridad son condiciones que, como hemos visto ya se exigen a todo
instrumento de observación. Sin embargo, en las escalas revisten importancia especial,
dado su carácter de instrumentos de medida cuantitativa.
La validez es la aptitud real de la escala para medir lo que pretende medir. Exige que los
resultados obtenidos con la escala reflejen verdaderamente la extensión real en los
sujetos de la actividad investigada.
Por su parte, la seguridad pide que la escala en sucesivas aplicaciones a los mismos
grupos y en situaciones similares proporcione resultados iguales o similares.
La sexta y última condición indicada, estar formada por intervalos IGUALES, en rigor no
la cumplen las escalas conocidas hasta ahora. No obstante pretenden reuniría y se
consideran en la práctica como tales, LAS escalas experimentales del tipo Thurstone.
5.9.1.3. Tipos de escalas de actitudes
Existen diversos criterios de clasificación de las escalas de actitudes; Sin embargo, hay
dos que parecen tener mayor interés.
Escalas arbitrarias son todas aquellas en las cuales el procedimiento DE valoración tiene
su origen en el convenio o arbitrio de los constructores de escalas. Por el contrario, en
las escalas experimentales, dicho procedimiento de valoración no es subjetivo, sino
resultado de un experimento.
En el tercer caso, se trata de escalar tanto los estímulos como los sujetos. Ejemplo: los
métodos derivados de los escalogramas de Louis Guttman. En el primer tipo la
variabilidad de respuestas o de reacciones al estímulo de los items se atribuye a los
sujetos, en el segundo, a las diferencias de los mismos estímulos y en el tercero, "la
variabilidad de la reacción ha de explicarse ahora en base de las diferencias tanto entre
los sujetos, como en los estímulos".
También existe la distinción entre las escalas o tests de tipo A y los de tipo B. En los
primeros, los sujetos a través de sus respuestas se sitúan a lo largo del continuo de la
actitud variable. En los segundos, los sujetos sitúan un objeto a lo largo de dicho
continuo.
Entre las escalas de actitudes de esta clase se encuentran las siguientes: escalas de
puntos, escalas de clasificación, escalas de intensidad y escalas de proposiciones.
Para puntuar estas escalas se pueden seguir diversos procedimientos. Uno de ellos
podría ser asignar a cada individuo en principio un número ESCALAS EN LAS CIENCIAS
SOCIALES.
La puntuación en este caso se puede realizar sumando los números de los lugares que
ocupan en la clasificación, las proposiciones referentes a la actitud que se quiere medir.
Se trata en ellas de elegir respecto a una pregunta o proposición entre varias respuestas
que expresan el grado de aceptación o rechazo de la pregunta en cuestión.
Normalmente las categorías de las preguntas en estas escalas suelen ser cinco o siete,
del tipo siguiente:
En este tipo de escalas hay que tener en cuenta que la valoración dada a los items o
preguntas de la escala que representen la actitud opuesta a la que se mide se computa
inversamente. Es decir, que en ella el absoluto desacuerdo vale 1 punto, en lugar de 7, y
en absoluto acuerdo 7 en lugar de 1.
A esta clase de escalas de actitudes pertenecen las del tipo Likert, bastante conocidas y
empleadas.
Una objeción importante que se hace a las escalas de Likert es que en ellas se valoran
igual todos los items, a pesar de que unos pueden denotar una actitud más intensa que
otros.
Los items o categorías de esta escala de actitudes, que se pueden utilizar en relación a
cualquier grupo étnico o racial, son:
4) Como vecinos.
5) Como conocidos.
3) Prefiero considerarlas como personas a las que se conoce de vista, y con las que
se cambian algunas palabras al azar si se las encuentra.
La puntuación en este caso se determina simplemente por el número de orden del item
elegido. Así por ejemplo, si alguien respecto a los obreros eligiera el item 1, se le
asignaría un 1 de distancia social respecto a ellos.
Presentan diferentes reacciones actitudinales solicitando al sujeto que señale con cuál de
ellas se identifica más.
Le viene el nombre de su autor puesto que fue L. Thurstone (1929) quien construyó un
prototipo y teorizó sobre sus características. Lo que hizo Thurstone fue redactar un gran
número de reacciones actitudinales posibles. Esas posibles reacciones se sometieron
después al juicio de expertos para que las clasificaran en 11 grados distintos (de A a K)
según entendieran que se trataba de reacciones más favorables o menos favorables. El
punto medio o neutral se estableció en la F. Del listado inicial de ítems se eliminaron
aquellos que merecieron valoraciones más divergentes entre los jueces.
Las reacciones posibles que aparecen en este tipo de Escalas representan un punto
en el contínuum entre la actitud más favorable y la más desfavorable. Las diversas
frases tratan de reflejar sentimientos a intervalos aproximadamente iguales entre los dos
polos de la actitud.
Así, según van los sujetos identificándose con unas u otras de las afirmaciones de
la Escala podemos situarlos en una determinada posición con respecto a cada una de las
actitudes recogidas. En cada una de las actitudes los sujetos recibirán como puntuación
el valor medio de las reacciones con las que se identificaron.
Por su sencillez y fácil elaboración, este tipo de Escalas son las más frecuentes en la
evaluación de actitudes.
El problema principal que plantea es la selección de las frases que reflejen contenidos
claramente acumulativos en relación a cada actitud. Guttman defendió que la selección
de las frases debe ser el producto de la intuición y experiencia del evaluador.
e) Diferencial Semántico
Interesante....................................................... Aburrida
Segura .............................................................. Peligrosa
Para evaluar actitudes y valores podemos utilizar Escalas ya elaboradas que estén
disponibles en la literatura especializada o en el mercado de tests y pruebas. Pero
también podemos decidirnos por construir nosotros mismos escalas que se adapten
mejor a las características de nuestra situación y a los propósitos de nuestra evaluación.
En tal caso, hemos de tomar en consideración las condiciones técnicas que deben regir
la elaboración de escalas de actitudes.
La mayor parte de los autores que describen los distintos tipos de escalas indican a
renglón seguido cómo debe actuarse para elaborar buenas escalas. Quizá el repertorio
más conocido y citado de consejos sea el de Edwards (1957) que ha señalado 14
«criterios informales» para elaborar los enunciados de las escalas de actitudes:
2) Evitar enunciados que sean propósitos o que puedan ser interpretados como tales.
5) Evitar enunciados que puedan ser aceptados por casi todo el mundo o por casi
nadie.
6) Seleccionar los enunciados que se piense que cubren la gama completa de la escala
afectiva de intereses.
10) Los enunciados que contengan universales tales como todo, siempre, ninguno o
nunca a menudo introducen ambigüedad y deben ser evitados.
11) Palabras tales como sólo, justo, meramente y otras de naturaleza similar, deben ser
utilizadas con cautela y moderación al escribir los enunciados.
12) Siempre que sea posible, los enunciados deben presentarse en forma de frases
simples y no de frases compuestas o complejas.
13) Evitar la utilización de palabras que puedan no ser comprendidas por los sujetos a
los que se aplica la escala.
14) Evitar la utilización de negaciones dobles.
- Por supuesto, las escalas, como cualquier otro instrumento de evaluación han de
responder a los criterios metodológicos clásicos: consistencia interna y validez,
representatividad, Habilidad, etc.).
Hay que prestar una especial atención a que la escala resulte válidamente
discriminativa, es decir, que las diferencias detectadas en la escala respondan realmente
a diferencias en la actitud que se posee y, de la misma manera, que iguales resultados en
las escalas se correspondan con posturas actitudinales similares.
Son, como he indicado, aquellas en que cada item tiene un valor o puntuación
establecido experimentalmente.
Las más extendidas de estas escalas son las de Thurstone. Formalmente son similares a
las de intensidad, en cuanto consisten en un conjunto de proposiciones referentes a la
actitud de que se trata. Sin embargo se diferencian de las escalas de intensidad en que
cada item o pregunta tiene asignado un valor, el valor escalar, obtenido experimental-
mente. Los valores escalares de los items o preguntas deben cubrir toda la extensión o
continuo de estas escalas.
Estos valores escalares son causa de que exista una diferencia o distancia entre los
valores escalares de cada pregunta, por lo que se dice que estas escalas tienen distancia
y por ello se les llama de intervalo.
Para la aplicación de estas escalas únicamente se pide a los encuesta-dos que indiquen si
aceptan o rechazan cada item. La puntuación se determina sumando los valores
escalares de las proposiciones que aceptan y hallando su media.
Una de las críticas principales que se hacen a las escalas tipo Thurstone es que la
valoración hecha por los jueces puede no ser adecuada para el grupo a que se aplique.
Además, estas escalas de actitudes no discriminan a los sujetos que alcanzan un misma
puntuación, cuando los items que aceptan son distintos si bien suman lo mismo.
El primero está formado por una serie de preguntas a las que se contesta simplemente si
o no, pero formuladas de tal manera y en tal orden que el contestar sí a una de ellas
supone normal y lógicamente contestar sí a todas las siguientes.
En estas escalas están valoradas tanto las preguntas por su orden jerárquico, como los
sujetos, porque su aceptación o rechazo de las proposiciones permite conocer su puesto
en la escala.
La puntuación total de los encuestados se determina por el número de items o preguntas
a las que han respondido sí. También en esta puntuación se deben tener en cuenta el
número de fallos o de veces que los síes o noes rompen el orden jerárquico de la escala.
Una de las funciones de este tipo de escalas es proporcionar una medida indirecta de los
sentimientos subyacentes, incluso inconscientes, hacia un término o palabra.
Se puede aplicar este tipo de escalas a diversos objetos o personas y permite captar la
impresión que causan en el encuestado, o sea su imagen. Se deben aplicar
comparativamente.
Como señala J. Padua (1980, 224), Osgood ha propuesto la escala universal siguiente,
que como tal puede ser usada para medir la actitud hacia cualquier ser: Bueno-malo;
débil-fuerte; exaltado-moderado; absurdo-significativo; blando-duro: pasivo-activo;
positivo-negativo; poderoso-impotente; frío-cálido. En estas escalas están valoradas
tanto las preguntas por su orden jerárquico, como los sujetos, porque su aceptación o
rechazo de las proposiciones permite conocer su puesto en la escala.
Una de las funciones de este tipo de escalas es proporcionar una medida indirecta de los
sentimientos subyacentes, incluso inconscientes, hacia un término o palabra.
Se puede aplicar este tipo de escalas a diversos objetos o personas y permite captar la
impresión que causan en el encuestado, o sea su imagen. Se deben aplicar
comparativamente.
El análisis factorial de una gran cantidad de diferenciales semánticos lia descubierto que
con ellos se miden tres dimensiones básicas:
Como señala J. Padua (1980, 224), Osgood ha propuesto la escala universal siguiente,
que como tal puede ser usada para medir la actitud hacia cualquier ser: Bueno-malo;
débil-fuerte; exaltado-moderado; absurdo-significativo; blando-duro: pasivo-activo;
positivo-negativo; poderoso-impotente; frío-cálido.
Los items o proposiciones en los cuales las diferencias entre los dos grupos no sean
significativas se eliminan y sólo se dejan en la escala aquellos en lo que dicha diferencia
haya resultado significativa.
Estas proposiciones se someten a un grupo que hace de jueces y se les pide que señalen
la valoración que a su juicio objetivo, no personal, tiene el item o proposición respecto a
la actitud en cuestión.
Como existe la posibilidad de que los jueces cumplan mal su tarea, por ello se deben
analizar las evaluaciones de cada uno, y eliminarlas en el caso de que su trabajo sea
deficiente. Por ejemplo, se pueden eliminar los jueces que den el mismo valor a un
número elevado de ítems.
Valorados los items de este modo por los jueces, se halla, para cada uno, la media y la
desviación típica de las valoraciones que han dado los jueces.
Los items eliminados son, por tanto, aquellos en los que la dispersión de las
valoraciones de los jueces es mayor, y por tanto es menor su acuerdo respecto a la
significación del item en cuestión respecto a la actitud medida.
Suelen quedar unas treinta proposiciones. Se debe procurar que se distribuyan a lo largo
de la escala de modo más uniforme posible y cubriendo todos sus valores, sin huecos,
del 1 al 11.
5.10.3. Construcción de las escalas de Guttman
Este conjunto de preguntas se somete para su prueba a un grupo que debe contestar a
todas ellas sí o no.
Con las respuestas dadas a todas las preguntas, se forma una tabla, que se llama
escalograma.
En este cuadro consignamos la forma de respuesta de cada sujeto, designamos con una
X su aceptación de los items y con O su desacuerdo con ellos.
Seguidamente se computa la puntuación total de cada sujeto del grupo. Después estas
puntuaciones se ordenan de la más alta a la más baja. A continuación, con las respuestas
dadas a todas las preguntas se forma un cuadro que se llama escalograma. La finalidad
de esta operación se dirige a jerarquizar rigurosamente los items. En este escalograma
los items se disponen en sentido horizontal y los sujetos en sentido vertical, 0 sea, se
atribuyen a los primeros las columnas y a los segundos las filas de la tabla.
Después por aproximaciones sucesivas se forman las nuevas tablas que sean necesarias,
hasta que se consiga ordenar por orden jerárquico las proposiciones y las respuestas. A
la vez se van eliminando las preguntas que presentan respuestas muy desviadas que
infringen la jerarquización debida a las preguntas.
R= 1-
Sin embargo, la técnica anterior no nos dice nada sobre el grado de jeraquización de las
respuestas dadas por el grupo, respecto a cada item por separado.
Para remediar este defecto el mismo Guttmann ideó otra técnica de construcción de esta
escala, que recibe el nombre de Cornell, por la Universidad donde fue ensayada.
De acuerdo con ella, en la aplicación de la escala al grupo de prueba, cada sujeto debe
contestar a cada item como si fuera una escala de Likert, es decir, según diversos grados
de acuerdo, normalmente 5.
A continuación se halla la puntuación total de cada sujeto y se ordenan éstos por orden
de puntuación de mayor a menor.
Si hubiera una jerarquización perfecta dentro de cada item, entonces los que tienen una
puntuación más elevada en la escala completa, deberían tener en cada item una
puntuación no inferior a la que ostentan en el mismo items otros sujetos de puntuación
global inferior.
Como escribe el profesor Bugeda (1974, 208), imaginemos, por ejemplo, que una
encuesta o escala de opinión sobre los esquimales se aplica a un grupo de universitarios
españoles.
Lo más normal es que muy pocos de ellos, si algunos, manifiesten una máxima
aceptación de los esquimales. También será lo más probable que muy pocos les odien
de tal forma que expresen en la encuesta su rechazo total hacia ellos.
Los grados de aceptación se acumularán más bien en las categorías intermedias. Girarán
en torno a la indiferencia y una moderada simpatía o antipatía hacia los esquimales.
Pero imaginemos, por el contrario, que a ese mismo grupo de jóvenes españoles le
planteamos, en vez del indiferente tema de los esquimales, una cuestión que les
apasione, como el feminismo, el divorcio, el aborto, la selectividad universitaria, etc.
Esta partición polémica de un grupo social en torno a una cuestión que considera
fundamental, es precisamente la señal de que estamos ante la opinión pública.
De ello se deduce que la opinión privada y la opinión pública dan lugar a distintas clases
de curvas.
A este efecto, se pueden formar las curvas del grupo para la escala en su conjunto o
respecto a un item determinado, así como las curvas de frecuencias acumulativas.
Para ello se puede utilizar uno de los tests estadísticos más conocidos y utilizados en las
ciencias sociales: el ji cuadrado.
5.12.1. El observador
La debilidad básica del observador consiste en que se pueden realizar inferencias in-
correctas a partir de las observaciones. Considere dos casos extremos. Suponga, por un
lado, que un observador, que se muestra muy hostil ante la educación escolar religiosa,
observa las clases en una escuela religiosa. Queda claro que los prejuicios de esta
persona pueden invalidar las observaciones. El observador tal vez califique a un maestro
adaptable como inflexible debido a la existencia de un prejuicio o a la percepción de
que la enseñanza en escuelas religiosas es inflexible. O tal vez ese mismo observador
juzgue el comportamiento realmente estimulante de un maestro de una escuela religiosa
como insulso. Por otro lado, suponga que un observador pueda ser completamente
objetivo y no sabe nada sobre la educación pública o religiosa. En cierto sentido
cualquier observación que realice no estará sesgada; pero será inadecuada. La
observación del comportamiento humano requiere de un conocimiento competente
sobre dicho comportamiento y aun del significado del comportamiento.
Sin embargo, existe otro problema: el observador puede afectar los objetos de obser-
vación en tanto que forma parte de la situación de observación. Sin embargo, en
realidad y por fortuna, éste no constituye un problema severo. De hecho, representa un
problema para el novato, quien parece creer que la gente actúa de forma diferente,
inclusive artificial, cuando se le observa. Parece ser que los observadores ejercen muy
poco efecto en las situaciones que observan. Se percibe que los individuos y los grupos
se adaptan más bien rápidamente a la presencia de un observador y que actúan como
normalmente lo harían. Esto no quiere decir que el observador no pueda ejercer un
efecto. Quiere decir que si el observador es cuidadoso para no interferir y para evitar
que las personas observadas sientan que se están haciendo juicios, entonces el
observador, como estímulo influyente, es prácticamente anulado. Babbie (1995) afirma
que no existe una protección completa para el efecto del observador. Sin embargo, el
conocimiento y la sensibilidad ante este problema ofrecen una protección parcial.
5.12.3. Categorías
Por otra parte, pueden utilizarse amplias definiciones "naturales" y quizás lograr un alto
grado de validez. Se podría instruir a los observadores para que observen la
cooperatividady definir el comportamiento de cooperación como "aceptar los métodos,
sugerencias e ideas de otras personas; trabajar armónicamente con otros para lograr
metas" o alguna definición más bien general. Si los observadores han tenido experiencia
de grupo y comprenden los procesos grupales, entonces podría esperarse que pudieran
evaluar de manera válida el comportamiento como cooperativo o no cooperativo, al
utilizar dicha definición. Una definición tan general e incluso tan vaga como ésta le
permite al observador capturar, si le es posible, toda la gama del comportamiento
cooperativo. No obstante, su gran ambigüedad permite que se hagan diferentes
interpretaciones, disminuyendo probablemente su confiabilidad.
Algunos investigadores que siguen un modelo fuertemente operacional insisten en que
se realicen definiciones sumamente específicas de las variables observadas. Ellos
enlistarán diversos comportamientos específicos que el observador debe anotar; ningún
otro se observa ni se registra. Modelos extremos como éste pueden producir una
confiabilidad alta, pero también pueden perder parte del aspecto esencial de las
variables observadas. Suponga que se hace una lista de 10 tipos específicos de
comportamientos para cooperatividad y que el universo de posibles comportamientos
consta de 40 o 50 tipos. En efecto, se perderán aspectos importantes de la
cooperatividad. Aunque aquello que se mide puede medirse de forma confiable, quizá
resulte bastante trivial o irrelevante, en parte, para la variable.
5.12.5. Cooperatividad
Son escasos los sistemas de observadores con un nivel tan bajo de inferencia por parte
del observador. La mayor parte de los sistemas requieren de cierto nivel de inferencia.
Un investigador puede estar realizando investigación sobre el comportamiento del
consejo de educación, y decide que un análisis con poca inferencia se ajusta al
problema, y utiliza reactivos de observación como "sugiere un curso de acción",
"interrumpe a otro miembro del consejo", "plantea una pregunta", "da una orden a!
superintendente", y otras similares. Puesto que dichos reactivos son ambiguos
comparativamente, la confiabilidad de la observación necesita ser alta.
Los sistemas que requieren que el observador utilice altos niveles de inferencia son más
comunes y probablemente más útiles en la mayor parte de la investigación. Los sistemas
de observación de alta inferencia proveen al observador categorías denominadas, las
cuales requieren de mayor o menor interpretación del comportamiento observado. Por
ejemplo, suponga que se mide la dominancia, que se define como los intentos realizados
por un individuo para mostrar superioridad intelectual (o de otro tipo) sobre otros
individuos, con poco reconocimiento de las metas de grupo y de las contribuciones de
otros. Esto, por supuesto, requerirá de un mayor nivel de inferencia del observador, y
los observadores tendrán que entrenarse para que exista acuerdo sobre lo que
constituyen comportamientos dominantes. Sin dicho entrenamiento y acuerdo —y
probablemente sin experiencia en procesos grupales— la confiabilidad puede verse
amenazada. Weick (1968) presenta una sofisticada exposición sobre la inferencia en la
observación, y también analiza los sesgos en la observación y sugiere soluciones
metodológicas para minimizar los efectos del sesgo. Señalamientos similares son
pertinentes cuando se intentan medir muchas variables psicológicas y sociológicas:
cooperación, competencia, agresividad, democracia, aptitud verbal, rendimiento y clase
social, por ejemplo. Para revisar discusiones más recientes sobre observación e
inferencia en estas áreas se recomienda leer Alexander, Newell, Robbinsy Turner
(1995); Borich y Klinzing (1984); Chavez (1984); Ilartmann y Wood (1990); Jaffe
(1997); Nurius y Gibson (1990), y Timberlake y Silva (1994). Los artículos de Borich y
Klinzing y de Chavez se aplican a las observaciones en salón de clases. Martmann y
Wood tratan los sistemas de observación del comportamiento utilizados en modificación
conductual. Nurius y Gibson tratan la observación e inferencia clínica encontrada en el
trabajo social. En estrecha relación están los artículos de Jaffe y el de Alexander et al,
que tratan las observaciones clínicas. Timberlake y Silva tratan la observación e
inferencia obtenida al observar la conducta de animales.
Resulta necesario enfatizar que los "pequeños" sistemas de observación sirven para
medir variables específicas. Suponga, por ejemplo, que la atención de los alumnos de
escuela primaria sea una variable clave en una teoría sobre el rendimiento escolar. La
atención (como rasgo o hábito), por sí mismo, ejerce poco efecto sobre el rendimiento:
considere que la correlación es cero. Es una variable clave debido a que interactúa con
cierto método de enseñanza y tiene un efecto pronunciado indirecto sobre el
rendimiento. Asumiendo que esto es así, se debe medir la atención. Parece claro que se
tendrá que observar el comportamiento del alumno, mientras se esté utilizando el
método en cuestión y un método de "control". En tal caso, se necesita encontrar o
diseñar un sistema de observación que se enfoque en la atención. Para evaluar la
influencia del ambiente del salón de clases, por ejemplo, Keeves (1972) concluyó que
era necesario medir la atención al observar a los estudiantes a quienes les pedía que
pusieran atención a una tarea asignada por el maestro. Se asignaron puntuaciones que
indicaban atención o la falta de ella. Este "pequeño" sistema de observación era
confiable y aparentemente válido. Es probable que sistemas con objetivos específicos
como éste incrementen su empleo en la investigación del comportamiento,
especialmente en educación.
El muestreo de eventos posee tres virtudes: 1) Los eventos son situaciones naturales de
la vida y, por lo tanto, tienen una validez inherente que las muestras de tiempo por lo
común no poseen. 2) Un evento integral posee una continuidad de comportamiento que
los actos de comportamiento fragmentados de las muestras de tiempo no poseen. Si se
observa una situación de solución de problemas desde el inicio hasta el final, entonces
se está contemplando una unidad completa y natural de comportamiento individual y
grupal. Al hacerlo, se logra una unidad completa y realista más grande del
comportamiento individual y social. Como se estudió en un capítulo anterior, cuando se
expusieron los experimentos de campo y los estudios de campo, las situaciones
naturales impactan y se acercan a la realidad psicológica y social de una manera que los
experimentadores normalmente no logran. 3) La tercera virtud del muestreo de eventos
implica una característica importante de muchos eventos de comportamiento: en algunas
ocasiones son inusuales y poco frecuentes. Por ejemplo, se puede estar interesado en las
decisiones tomadas en reuniones administrativas y legislativas; o tal vez interesarse en
el último paso de la solución de problemas. Los métodos disciplinarios de los maestros
constituyen una variable. Dichos eventos y muchos otros son relativamente poco
frecuentes. Como tales, pueden perderse fácilmente por el muestreo de tiempo; por lo
tanto, requieren de un muestreo de eventos. Sin embargo, si se toma el punto de vista
más activo de observación promulgado por Weick (1968), es posible arreglar las
situaciones para asegurarse de la ocurrencia más frecuente de eventos que suceden en
pocas ocasiones.
El muestreo de tiempo es la selección de unidades de comportamiento para observación
en diferentes momentos del tiempo. Pueden seleccionarse de formas sistemáticas o
aleatorias para obtener muestras del comportamiento. Un buen ejemplo es el
comportamiento del maestro. Suponga que se estudian las relaciones entre ciertas
variables como el estado de alerta, la justicia y la iniciativa del maestro, por una parte; y
la iniciativa y cooperación del alumno, por la otra. Se pueden seleccionar muestras
aleatorias de maestros y después tomar muestras de tiempo de sus actos de
comportamiento. Tales muestras de tiempo pueden ser sistemáticas: tres observaciones
de 5 minutos en momentos específicos durante cada una de, por ejemplo, cinco horas de
clase, siendo las horas de clase el primero, tercero y quinto periodos de un día, y el
segundo y cuarto periodos del día siguiente. O pueden ser al azar: cinco periodos de 5
minutos de observación seleccionados aleatoriamente de un universo especificado de
periodos de 5 minutos. De hecho existen muchas maneras de establecer y seleccionar
muestras de tiempo. Como siempre, la forma en que se eligen dichas muestras, su
duración y su número debe estar determinada por el problema de investigación. En un
fascinante estudio sobre el liderazgo y el poder de la influencia grupal en niños
pequeños, Merei (1949) señala que el muestreo de tiempo sólo mostraría líderes dando
órdenes y al grupo obedeciendo; mientras que observaciones prolongadas mostrarían los
mecanismos internos del hecho de dar órdenes y obedecer.
Sin embargo, existe otra clase de observación del comportamiento que necesita
mencionarse. Este tipo de observación se denominará comportamiento recordado o
comportamiento percibido. Está clasificado convenientemente bajo el tema de las
escalas de calificación. Para medir el comportamiento recordado o percibido, por lo
común se les presenta a los observadores un sistema de observación en forma de escala
de algún tipo, y se les pide que evalúen una o más características de un objeto, cuando
el objeto no esté presente. Para hacerlo, ellos deben evaluar basándose en observaciones
pasadas o en percepciones sobre cómo es el objeto observado y sobre cómo se
comportará. Una forma conveniente para medir tanto el comportamiento real como el
comportamiento percibido o recordado son las escalas de calificación.
Una escala de calificación es un instrumento de medición que requiere que un califica-
dor u observador asigne al objeto calificado categorías o continuos que poseen valores
numéricos asignados a ellos. Las escalas de calificación son quizás los instrumentos de
medición más comunes, probablemente debido a que en apariencia son fáciles de cons-
truir y, lo más importante, son fáciles y rápidas de utilizar. Por desgracia, su aparente
facilidad de construcción es engañosa, y la facilidad de uso conlleva un precio alto: la
falta de validez debida a un número de fuentes de sesgo que entran en las medidas de
calificación. No obstante, con conocimiento, habilidad y cuidado, las calificaciones
resultan valiosas.
Para revisar un excelente estudio de las escalas de calificación, véase Guilford (1954),
Nunnally (1978), Nunnally y Bernstcin (1993) y Torgeson (1958). Si se desea revisar
una presentación relativamente poco técnica sobre las escalas de calificación se
recomienda leer a Selltiz, Jahoda, Deutsch y Cook (1961). Aunque las escalas de
calificación ya se mencionaron con anterioridad en este libro, no se analizaron de
manera sistemática. Al leer lo que sigue, el estudiante debe tener en mente que las
escalas de calificación son en realidad escalas objetivas y, como tales, deberían haberse
incluido en el capítulo 30. Su exposición se reservó para este capítulo a causa de que la
exposición del capítulo 30 está enfocada principalmente en medidas donde responde el
sujeto a quien se está midiendo. Las escalas de calificación, por otro lado, son medidas
de individuos y sus reacciones, características y comportamientos, realizadas por
observadores. Entonces, el contraste está en la forma en que el sujeto se observa a sí
mismo y cómo lo perciben los demás. Las escalas de calificación también sirven para
medir objetos, productos y estímulos psicológicos, tales como la escritura manual, los
conceptos, los ensayos, los protocolos de entrevista y los materiales de pruebas
proyectivas.
Existen cuatro o cinco tipos de escalas de calificación, dos de los cuales se analizaron en
el capítulo 30. Se trata de los listados y los instrumentos de elección forzada. Ahora se
consideran sólo tres tipos y sus características: la escala de calificación de categorías, la
escala de calificación numérica y la escala de calificación gráfica. Son bastante
similares y difieren sólo en algunos detalles.
La escala de calificación de categorías presenta a los observadores o jueces varias
categorías, de donde ellos eligen la que mejor caracteriza el comportamiento o
características del objeto que se califica. Suponga que se califica el comportamiento de
una maestra en el salón de clases. Una de las características que se califica es, por
ejemplo, el estado de alerta. Un reactivo de categoría podría ser similar al que se mostró
en el primer ejemplo. Una forma diferente utiliza descripciones condensadas; un
reactivo de este tipo sería como el que se presenta en el segundo ejemplo
Ejemplos
a) Muy alerta
b) Alerta
c) Poco alerta
d) Nada aletta
Las escalas de calificación numérica son, quizás, las más fáciles de construir y de
utilizar. Además, también producen números que pueden usarse directamente en análisis
estadísticos. Por otro lado, como los números representan intervalos iguales en la mente
del observador, pueden alcanzar la medición intervalar (véase Guilford, 1954, p. 264).
Cualquiera de las anteriores escalas de categorías puede convertirse fácil y rápidamente
en escalas de calificación numérica, simplemente añadiendo números antes de cada una
de las categorías. Los números 3, 2,1,0 o 4, 3, 2, 1 pueden agregarse al reactivo del
estado de alerta mencionado anteriormente. Un método de calificación numérica
conveniente consiste en el empleo del mismo sistema numérico, por ejemplo, 4, 3, 2, 1,0
con cada reactivo. Éste es, por supuesto, el sistema utilizado en las escalas de actitud de
puntuación sumada. Sin embargo, en las escalas de calificación, probablemente sea
mejor dar tanto la descripción verbal como los valores numéricos.
_______________________________________________________________
Tales escalas incluyen muchas variedades: líneas verticales segmentadas, líneas conti-
nuas, líneas sin marcas, líneas divididas en intervalos iguales marcados (como la
anterior) y otras. Probablemente se trata de las mejores formas de las escalas de
calificación y las más utilizadas. Fijan un continuo en la mente del observador; sugieren
intervalos iguales, y son claras y fáciles de comprender y de usar. Guilford (1954, p.
268) las sobrestima un poco cuando afirma: "son muchas las virtudes de las escalas de
calificación gráfica, y sus fallas son pocas", pero su señalamiento se toma a bien.
Las escalas de calificaciones tienen dos serias debilidades, una es extrínseca y la otra
intrínseca. El defecto extrínseco consiste en que son aparentemente tan fáciles de
construir y de usar, que se utilizan de forma indiscriminada, a menudo sin conocimiento
de sus defectos intrínsecos. No se hará una pausa para mencionar los errores que pueden
escabullirse en la construcción y empleo inadecuados de las escalas de calificación. En
lugar de eso, se alerta al lector en contra de su uso para cualquiera y todas las
necesidades de medición. Primero debe plantearse la pregunta: ¿existe una mejor forma
para medir mis variables? Si es así, es necesario utilizarla; si no, entonces se deben
estudiar las características de las buenas escalas de calificación, trabajar con esmerado
cuidado y poner los resultados de las calificaciones bajo prueba empírica y análisis
estadístico adecuado.
El defecto intrínseco de las escalas de calificación es su tendencia al error constante o
por sesgo, lo cual no es nuevo para el lector, por supuesto, pues dicho problema se
abordó cuando se consideró la fijeza de respuesta. Sin embargo, con las calificaciones
es especialmente amenazante para la validez. El error constante de calificación toma
varias formas, de las cuales la más penetrante es el famoso efecto de halo. Se trata de la
tendencia a valorar un objeto en la dirección constante de una impresión general del
objeto. Casos diarios de halo son, por ejemplo, creer que un hombre es virtuoso porque
nos agrada, y/o manifestar grandes elogios a los presidentes republicanos y condenar a
los demócratas.
Dos fuentes importantes de error constante son el error por severidad y el error por
flexibilidad. El error por severidad es la tendencia general de calificar demasiado bajo a
todos los individuos, en todas las características. Es el del duro crítico: "nadie obtiene
un 10 en mis cursos". El error por flexibilidad es la tendencia general opuesta de
calificar demasiado alto. Éste es el caso del buen amigo que estima a todos, y la
estimación se refleja en las calificaciones.