El Análisis de Datos y Su Relación Con Otras Materias

PRELIMINARES
(El presente trabajo es un documento de autor realizado por:

Dra. C. San Luis; Dr. A. López de la Llave ; Dra. a. Maciá y Dra. M. C. Pérez -LLantada
EL ANÁLISIS DE DATOS Y SU RELACIÓN CON OTRAS MATERIAS

METODOLÓGICAS.
El objetivo de este tema es presentar una panorámica general sobre el Análisis de

Datos, su necesidad y utilidad en el marco de la investigación científica de
aquellas situaciones donde lo empírico constituye la base del proceso de
investigación, en otros términos pretendemos aclarar cómo un problema de
investigación en el ámbito de las Ciencias Sociales en general y, de las del
Comportamiento y de la Salud en particular, se estudia, se comprende y se aportan
soluciones basadas en datos provenientes de la observación sistemática de la
realidad y cómo este proceso de investigación que requiere y emplea datos
(observaciones sistemáticas) debe guiarse mediante una planificación (Diseño de
Investigación) que incluye todas y cada una de una serie de etapas normalizadas
que aportan las garantías necesarias al proceso de investigación para que ésta
pueda ser considerada como tal.
1.- Introducción
La necesidad y el uso del Análisis de Datos en la investigación en Ciencias

Sociales está enraizada en el método de investigación que, aunque no de forma
exclusiva sí muy generalizada, se emplea en el estudio de las cuestiones relativas
a estas disciplinas; este método lo conocemos como MÉTODO CIENTÍFICO, y
sus objetivos y características básicas se presentan en le cuadro 1.
CUADRO 1: Objetivos, características y ventajas del Método Científico
Objetivos del Método - Comprender las dimensiones de un fenómeno con la mayor

Científico precisión posible y mediante el registro de regularidades
- Explicar el fenómeno en cuestión, determinando las causas y/o
las consecuencias de su aparición
- Construir teorías y modelos que posibiliten generar hipótesis que
permitan falsear esas teorías
Algunas características del - Replicabilidad
Método Científico - Inexactitud; aunque las leyes en la realidad sean exactas, no lo es
el conocimiento que la ciencia nos facilita de ellas
- Falibilidad; sólo se mantiene mientras no haya pruebas empíricas
de su inexactitud
- Acumulativo; interés en los hallazgos obtenidos con pruebas
empíricas en el cuerpo de conocimientos ya existente
Ventajas que ofrece frente a - Flexible
otros - Objetivo
- Control
- Contrastación empírica
Atendiendo a estas características, y por lo que al Análisis de Datos

interesa en este momento de presentación general, la flexibilidad es la ventaja que
más nos gustaría reseñar aquí, y ello porque en general el objeto de estudio en el
ámbito de la Ciencias Sociales (las manifestaciones en el más amplio sentido de
las acciones del ser humano) es difuso y diverso.
Precisamente es este carácter difuso y diverso del objeto lo que implica la
necesidad de utilizar herramientas metodológicas que permitan el estudio de unos
datos cuya estabilidad es poca, o si se prefiere que contienen importantes
variaciones. En otras palabras, una característica básica de los datos en Ciencias
Sociales es la variabilidad de error, entendida como la diferencia entre el
producto de la observación sistemática, y los valores reales que tendrían de no
presentarse alteraciones o cambios. Esta diferencia que se produce por azar y no
es contrastable puede deberse a varias cuestiones, veamos unos ejemplos.
• Puede ocurrir que una persona tenga fiebre o le duela la
cabeza (variaciones de la homeostasis interna) el día en que
participa en un experimento sobre estrés por lo cual su
situación y por ende sus respuestas son diferentes a las que
obtendríamos un día en el que esto no ocurriera.
• Puede ocurrir que estemos empleando un instrumento de
medida que se ve afectado por condiciones medioambientales
dando lugar a resultados de medida diferentes (por ejemplo
por efecto del calor).
2
Precisamente las herramientas metodológicas, que pueden trabajar sobre
datos “con un cierto error”, son las que constituyen el cuerpo de conocimientos de
la Estadística.
La inestabilidad, en el sentido que estamos empleando aquí, se conoce
habitualmente como fenómeno aleatorio o de azar, en contraposición a los
fenómenos causales o deterministas. Escuder (1987) define un fenómeno causal
o determinista como aquel que se produce siempre como consecuencia de unas
causas determinadas, el resultado es siempre el mismo y, por tanto, se puede
anticipar el efecto. Un fenómeno aleatorio es, por otro lado, aquel en el que con
unos mismos antecedentes no se puede pronosticar fehacientemente el resultado
final; es decir, existen varios efectos posibles. Ante fenómenos de este tipo, o
más correctamente como afirman Pardo y San Martín (1994), en situaciones
aleatorias . . . es necesario recurrir al Análisis de Datos (procedimientos
proporcionados por la Estadística) para poder extraer conclusiones fiables.
A fín de dar una definición de qué es el Análisis de Datos es necesario dejar

claro que podemos encontrar indistintamente el uso de las denominaciones
Estadística Aplicada y Análisis de Datos en múltiples manuales. Desde nuestra
perspectiva aceptamos la equiparación de los términos en el sentido en que la
establece Millán (1983) definiendo ambas como el resultado de las evaluaciones,
limitaciones y peculiaridades de la aplicación de la metodología estadística a
diferentes campos como la inv estigación industrial, económica, psicológica,
sociológica, médica, etc. Aclarado que equiparamos Estadística Aplicada y
Análisis de Datos, asumiremos como definición de esta materia la propuesta por
Medhi (1992), quien afirma que la Estadística, es un conjunto de conceptos y
métodos utilizados para recoger, analizar e interpretar masas de datos numéricos
que se refieren a cierta área de investigación, así como para esbozar
conclusiones válidas en situaciones de incertidumbre y variabilidad.
Por tanto, la Estadística Aplicada, y en consecuencia el Análisis de Datos,

proporciona un conjunto de técnicas que permiten analizar las regularidades
contenidas en datos, que en sí mismos, presentan ciertas irregularidades o
contienen una carga de incertidumbre. La determinación y el estudio de estas
regularidades nos posibilita dar explicaciones de fenómenos, observados en la
realidad, definir las relaciones que se establecen entre ellos y derivar las
consecuencias de su aparición. El Análisis de Datos es la tecnología que posibilita
la aplicación del Método Hipotético-Deductivo a las Ciencias Sociales, en otros
términos, el Análisis de Datos permite describir situaciones, determinar la
existencia de relaciones entre ellos, dar explicaciones relativas al “por qué” y si
es posible al “qué pasará”.
3
Dedicaremos los siguientes apartados a revisar y, en su caso, presentar,
diferentes materias metodológicas que se encadenan a lo largo del proceso de
investigación que llevamos a cabo cuando nos enfrentamos a este tipo de
problemas (situaciones marcadas por un cierto azar) , resaltanto aquellos aspectos
de las mismas que inciden en el Análisis de Datos.
2.- El proceso metodológico
El conocimiento científico es el resultado de un proceso que se inicia con

la observación de la realidad (en nuestro caso la realidad social, psicológica y
médica); de esta observación casual, asistemática, surgen preguntas y respuestas
tentativas, basadas, ya en la experiencia anterior, ya en la creatividad del
investigador. Es en este momento cuando, en la construcción del conocimiento
científico, hace su aparición la metodología, o dicho de otra manera, cuando los
aspectos formales del procedimiento de investigación cobran relevancia. Esas
preguntas y respuestas tentativas, se reelaboran dentro del contexto teórico
correspondiente al fenómeno que nos interesa constituyendo lo que denominamos
hipótesis teóricas. El razonamiento deductivo que sobre estas hipótesis teóricas
realizamos y su concreción y expresión mediante lenguaje específico empleando
un modo lógico de presentación (modo tollens) en el que se explicitan los
antecedentes y consecuentes, aventurando la relación entre ellos, da lugar a lo que
denominamos hipótesis de investigación (también llamadas empíricas). En el
momento en que estas hipótesis se expresan en términos matemáticos relacionales
obtenemos una hipótesis estadística, que basada en un determinado modelo
probabilístico, determinará el camino a seguir por el investigador para derivar
conclusiones útiles y cuya validez posee cierto grado de certeza que no certeza
absoluta.
Con el fin de ir aclarando ciertas cuestiones que serán fundamentales en el
Análisis de Datos, vamos a presentar ahora una consideración sobre cómo estudiar
la realidad mediante aproximaciones.
Para comprender correctamente cómo opera el Análisis de Datos hay que
tener muy clara la diferencia entre teoría y realidad. Las teorías son conceptos
interrelacionados que se proponen para explicar fenómenos que se presentan en la
vida real, pero es evidente que dado que esta realidad está en cambio continuo,
que los fenómenos reales no son siempre exactamente iguales y que cada día
aparecen nuevos conceptos que hay que incluir en la explicación que damos de los
fenómenos, parece claro que las teorías son aproximaciones a la realidad, o más
bien “modelos de la realidad” (algo que se asemeja a lo representado pero no es
exactamente igual).
4
La Estadística y el Análisis de Datos se basan en modelos provenientes del
campo de las matemáticas en general pero, como hemos dicho, son modelos que
pueden recoger el concepto de inexactitud o aleatoriedad (desconocimiento de una
parte), tales modelos, que se denominan “modelos estocásticos”, son los que
presentan la característica de ofrecer una representación “no exacta” de la
realidad, pero que permite comprender y valorar las explicaciones que damos de
esa realidad cambiante de forma idónea, útil y acompañada de un grado de
certeza.
Cuando una hipótesis científica se puede transformar en una expresión
matemática-relacional (modelo matemático) y toda vez que sabemos cual de los
muchos modelos existentes es el que más se “ajusta” (se parece) a los datos
(observaciones) de los que disponemos, nuestro proceso de investigación estará ya
claramente guiado hacia su objetivo último de aportar explicaciones y
predicciones del fenómeno en estudio. Ver ejemplo 1.1
5
En la tabla se presentan los resultados de un estudio en que se medía el incremento de resistencia
de la piel (en ohmios) como respuesta a un determinado estímulo relajante.
Intervalo Frecuencia
0-40 1
41-80 6
121-160 15
161-200 23
201-240 33
241-280 25
281-320 17
321-360 4
361-400 1
Estamos interesados en conocer qué modelo de probabilidad utilizar para estudiar este fenómeno.
Recordemos algunos de estos modelos de probabilidad más habituales en las Ciencias Sociales
Realizamos la representación
NORMAL gráfica de
CHInustros datos
CUADRADO F DE SNEDECOR
35
30
25
20
15
10
0
1
Cuando superponemos los gráficos de las diferentes distribuciones de probabilidad al gráfico en

ecorrespondiente a los datos obetidos en nuestra investiagción, podemos ver cómo la distribución
nnormal es la que mejor se aproxima y por tanto representa a nuestros datos es decir, es la que
presenta un “mejor ajusten entre los posibles módelos teóricos de probabilidad y los datos reales.
NORMAL
de unos datosCHI CUADRADO
a un modelo deF DE SNEDECOR
Ejemplo1.1: Ajuste empíricos probabilidad teórico
6
A la vista del ejemplo anterior podemos plantearnos preguntas relativas a
cómo hemos llegado hasta este momento de buscar el modelo de probabilidad que
mejor representa a nuestros datos y, cuya finalidad es explicar el fenómeno que
estamos estudiando, indicándonos con qué restricciones podemos analizar los
datos que tenemos para delimitar la validez de nuestra suposición o hipótesis (no
debemos olvidar que todo procedimiento matemático exige el cumplimiento de
ciertas restricciones).
Pensemos que nuestro investigador hipotético está interesado en conocer
si escuchar la novena sinfonía de Beethoven releja a las personas. Para estudiar
esta cuestión ha tenido que tomar un conjunto de decisiones tales como ¿Cuántas
personas deben participar en esta experiencia para poder decidir si la novena
sinfonía de Beethoven relaja o no?; ¿Cómo vamos a medir la relajación?; ¿Qué
características presentan los números que obtenemos al evaluar la relajación?;
¿Hay otras variables que pueden hacer variar la relajación de las personas, además
de la música que están escuchando en ese momento determinado cuando les
valoramos si están relajados?
Para responder a todas estas cuestiones de forma lógica y replicable (es
decir que él mismo u otro investigador puedan repetir la experiencia) nuestro
investigador debe diseñar un plan sistemático, en el que lo primero es explicitar
de forma muy clara la pregunta que intenta responder ya que ésta será
determinante de todo el proceso que está iniciando. Una vez formulada la
pregunta (hipótesis inicial y visto, en su caso, lo que otros investigadores han
hecho ante una pregunta similar) deberá seleccionar las variables de interés
(además de la novena sinfonía de Beethoven deberá decidir cuánto tiempo se
escucha, cómo vamos a medir la relajación, con qué compararemos si ha
aumentado o no la relajación, entre los mismos o entre diferentes personas del
experimento); además deberá determinar cuantas personas son necesarias en la
experiencia para que su conclusión sea válida para todos aquellos que son
similares a los que participan en la experiencia (por ejemplo pueden ser adultos o
niños); y mediante qué procedimientos controlará aquellas otras variables, que
siendo parte de la situación, no desea considerar en su trabajo (sea porque no son
objeto de interés o porque podría n “contaminar” los resultados).
Todas estas cuestiones (y algunas más) son las que se deben prever y sus
respuestas constituyen el Plan o Diseño de la Investigación. Dado que el diseño es
el conductor del proceso de investigación y el Análisis de Datos es la herramienta
que va a permitir dar las respuestas, en las páginas siguientes vamos a intentar ir
delimitando cómo cada respuesta a las necesidades del diseño se responden desde
el Análisis de Datos.
En la figura 1 hemos intentado esquematizar todo este proceso que hemos
descrito, destacándose mediante el sombreado de sus cuadros, aquella parte de la
7
metodología cuyo estudio es el objetivo fundamental del Análisis de Datos.
Además, la figura pretende mostrar, también, la íntima relación que se establece
entre los conocimientos que, aunque se estudian en otras materias, conforman la
metodología de investigación en el ámbito que nos ocupa.
8
3.- El Diseño y el Análisis de Datos
Dado que la decisión relativa al tema de investigación o de trabajo es una
cuestión que depende o bien de la creatividad e intereses del investigador o del
cliente, no entraremos en tales cuestiones centrándonos en exponer aquí aquellas
fases del Diseño en las que, los diferentes procedimientos que aportan las distintas
técnicas que se engloban bajo el rotulo de Análisis de Datos intervienen.
En primer lugar y toda vez que sabemos sobre qué tema vamos a trabajar y
hemos analizado el “estado de la cuestión” y establecido el modelo relacional
derivado de las hipótesis de trabajo, comienza el trabajo en el que ya están
implicadas cuestiones cuya resolución no sólo va a ser decisiva y determinante a
la hora de ejecutar los análisis de datos que necesitemos para asignar grados de
certeza a nuestras conclusiones, sino que incluso están intrínsecamente unidas a él
constituyendo, para una gran mayoría de autores, parte de la materia constitutiva
del Análisis de Datos (nos referimos al muestreo y a algunos aspectos implicados
en la construcción de instrumentos de recogida de los datos empíricos, los tipos de
variables implicadas y los problemas de control, todas ellas cuestiones que
agruparemos como Plan de recogida de Datos).
El plan de recogida de datos:
Ya hemos dicho que los datos constituyen la materia prima con que
hemos de trabajar en las “ciencias empíricas”, también hemos dicho que esos
datos no son “exactos” sino que, por muy diferentes razones, se ven afectado por
un grado de “error”, todo ello supone que, para lograr que los datos estén lo
menos posible afectados de error, debemos ser especialmente cuidadosos a la hora
de determinar, dónde, cuántos y cómo deben obtenerse.
Las condiciones del cómo de va a llevar a cabo la observación y la

recogida de los datos es una cuestión que viene delimitada por el diseño y es de
vital importancia ya que de ello dependerá en gran parte la validez de las
conclusiones de los resultados obtenidos. Desde esta perspectiva el diseño se
entiende en términos de validez, en el sentido de que se garantice que las
variables estudiadas presentan entre sí la relación hipotetizada, la generalización
de los resultados, la adecuación de las medidas y la detección de efectos.
Recuérdense los diferentes tipos de validez (cuadro 2).
9
Cuadro 2
Tipos de validez
Validez interna : posibilidad de establecer relaciones causales

Validez externa : posibilidad de generalizar los resultados a otros sujetos
Validez de constructo: adecuación de las variables y medidas
Validez de conclusión estadística: posibilidad de detectar efectos y grado
de exactitud en esa detección (potencia y robustez)
Validez ecológica: grado de confianza para generalizar los resultados de
una investigación al medio natural donde se desarrolla el comportamiento
de los sujetos
A.- La situación: Dónde
En términos de validez lo que hemos denominado “situación” es

determinante de la validez interna (el tipo de relación que establecemos). Desde
esta perspectiva es el grado de naturalidad-artificialidad de la situación en la que
se recogerán los datos lo que determinará la ausencia (situación natural) o
presencia de control (situación artificial). En el polo naturalidad se situarían los
estudios cuyo diseño es observacional mientras que, en el polo opuesto, están los
diseños experimentales en los que las situaciones son artificiales o afectadas de
un alto grado de artificialidad.
La relación entre el grado de control y la validez interna hace referencia a
la posibilidad de establecer o no causalidad en el problema estudiado. Así, los
diseños experimentales, que maximizan la validez interna, son considerados los
únicos capaces de producir resultados en términos de relaciones causales; la base
del control se fundamenta en la característica fundamental de este tipo de
situaciones y que es la “aleatorización” (sujetos y tratamientos). La
aleatorización, tal y como se entiende en este contexto, no es más que confiar al
azar la distribución equivalente entre influencias de otros fenómenos o variables
no deseadas que pudieran alterar la relació n causal, en este mismo sentido, y por
10
tratarse de una situación artificial la definición y la direccionalidad de
antecedentes y consecuentes (asimetría de la relación que se establece entre
antecedentes y consecuentes) 1 está garantizada por llevarla a cabo el propio
investigador que “domina la situación a través de su intervención”. En el polo
opuesto, naturalidad, las investigaciones producen resultados de escasa validez
interna, no pudiéndose establecer causalidad ante la inexistencia de control que
imposibilita el establecimiento de antecedente y consecuentes, por lo que tan
sólo se puede hablar en términos de grados de covariación (relación simétrica) en
el sentido de variación conjunta. En compensación estas situaciones aportan a la
investigación un alta grado de validez ecológica.
En la figura 2 se presentan diferentes diseños de investigación en función
del grado de control ejercido sobre las variables implicadas en el estudio.
Investigación experimental Investigación no experimental
Artificialidad Naturalidad
mayor control menor control

Experimento Cuasiexperimento Encuesta Observación
Figura 2: Tipos de diseños de investigación (en función de la dimensión

natural-artificial)
B.- Cuántos: Muestreo

La finalidad al obtener una muestra de elementos de una población, no es
otra que observar y registrar (medir) en ellos la característica, o características,
señalada en las hipótesis. Por muchas razones (donde las económicas son
determinantes), es prácticamente imposible (y en la mayoría de las situaciones
1 Es importante tener siempre presente que la “causalidad” en el contexto de la investigación en las
Ciencias Sociales y de la Salud, debe entenderse en el sentido del papel que juegan las variables: Así una
relación se define como Simétrica o Asimétrica..
Relación Simétrica: A ? B indica que ambos fenómenos comparten algo en común y uno influye
sobre el otro y viceversa.
Relación Asimétrica: A? B indica que uno de los dos fenómenos tiene un papel explicativo sobre el
otro (A influye en B) y NO HAY INFORMACIÓN DE QUE ESTO OCURRE AL REVÉS.
11
innecesario) trabajar con el total de sujetos a los que puede referirse nuestra
investigación o trabajo. Dentro del Análisis de Datos se suele estudiar las
cuestiones más relevantes del muestreo y ello motivado por la gran importancia
que la determinación del tamaño muestral, así como el proceso de selección de los
elementos que la componen (extracción de los sujetos de la población para
constituir la muestra) tiene desde la perspectiva de la Validez.
Desde esta consideración el tamaño de la muestra y la forma de selección
afectan directamente a la Validez externa (posibilidad de generalizar los
resultados a otros sujetos, lo cual hace referencia a la representatividad entendida
ésta en el sentido de garantizar que la muestra reproduzca fehacientemente a la
población a la que representa y a la Validez de conclusión estadística (en el
sentido de precisión de las estimaciones y Valoración de la relevancia de los
resultados, o en otros términos potencia y robustez).
C.- Cómo obtener los datos:
En general cuando hablamos de datos nos referimos a “números” que
representan magnitudes o cantidades de las manifestaciones externas del
fenómeno que estamos estudiando. En primer lugar aclarar que cuando hablamos
de obtener “números” que representen características de “algo”, estamos hablando
de un proceso de medición. Es obvio que las características que queremos medir
se presentan en distintas modalidades o cantidades en los sujetos, de ahí que
empleemos el término variables. Por otra parte es importante recordar también
que tales magnitudes pueden ser características de pertenencia a una determinada
clase (ser rubio o moreno, ser europeo o americano, ser español, francés, ingles,
ruso, alemán etc.) o incluso pueden ser cantidades numéricas (pesar 50; 56; 89
Kg.; tener 12; 13,6; 14 milímetros de mercurio por centímetro cuadrado de
presión sanguínea).
El proceso de medición consiste en asignar números a estas características
de tal forma y modo que, los números asignados representen de forma biunívoca a
las características y sus variaciones.
En términos de validez, el proceso de selección de variables y las medidas
adecuadas corresponde a la Validez de constructo.
Las variables pueden clasificarse atendiendo a diferentes criterios,
clasificaciones que vamos a comentar a continuación.
Atendiendo al papel que juegan en el contexto del Diseño de
Investigación, llamamos variable independientes o predictoras a aquellas de las
que vamos a observar el efecto de sus variaciones sobre otras que denominamos
variables dependientes o criterio, existen además otras cuyo interés por ellas se
centra en evitar posibles confusiones, debidas a su participación indeseada en los
resultados (variables extrañas). Así, desde la perspectiva del diseño las variables
se clasifican en:
12
Explicativas Independiente o Predictora
Dependiente o Criterio
Extrañas Controladas
No controladas (aleatorizadas o perturbadoras)
Figura 3: Clasificación de variables desde el punto de vista

metodológico (adaptado de Ato, 1991)
La clasificación de las variables atendiendo al proceso de medida es un

poco más compleja. En primer término es un proceso que debe garantizar que los
valores que atribuyen reflejen las relaciones realmente presentes entre las
diferentes formas en que se dan las características, esta cuestión da lugar a las
escalas de medida, especialmente determinantes en el análisis de datos.
Una escala de medida es un conjunto de modalidades distintas y de
números distintos relacionados biunívocamente (Amón, 1996); así, los
instrumentos de medida más usuales, y que todos utilizamos con cierta frecuencia,
son escalas; por ejemplo, una regla no es más que un conjunto de rayas
equidistantes sobre algún tipo de material (no elástico) y un conjunto de números
en correspondencia biunívoca.
La taxonomía propuesta por Stevens (1946) en relación a las escalas de
medición de las variables es aún hoy la más ampliamente aceptada y es en la que
se basan la mayoría de los autores que abordan este tema. La clasificación se basa
en el grado de complejidad de las relaciones que se puedan verificar
empíricamente entre las diferentes modalidades; se distinguen cuatro tipos de
escalas de medida: nominal, ordinal, de intervalo y de razón (cuadro 3).
13
Cuadro 3
Escala de Tipo de comparaciones Transformaciones Ejemplos

medida admisibles
Nominal “igual/desigual” Cualquiera que conserva la Sexo, Raza, Estado
“distinto que” relación civil
igualdad/desigualdad
Ordinal “mayor que” “menor Cualquiera que conserva el Orden de llegada en

que” “igual que” orden o el grado de una carrera, prestigio
magnitud de los objetos social de una
profesión,
De intervalo Igualdad/desigualdad a+b*n (o 1 ) (b>0) Temperatura,
de diferencias inteligencia
De razón Igualdad/desigualdad b*n (o 1 ) (b>0) Peso, volumen,
de razones Longitud, Tiempo
Escalas de medida, tipo de comparaciones y transformaciones admisibles

(Tomado de Merino, Moreno, Padilla, Rodríguez-Miñón y Villarino, 2001)
Según que las variables hayan sido medidas con una u otra escala se dice
que son: a) nominales o categóricas; b) ordinales; o c) cuantitativas. Se consideran
variables cualitativas las medidas mediante escalas nominales o mediante escalas
ordinales, mientras que las medidas en escalas de intervalo o en escalas de razón
se consideran variables cuantitativas (ver figura 4).
14
Categóricas/nominales Dicotómicas
Cualitativas Politómicas
Ordinales Ordinales
Cuantitativas Continuas
Discretas
Figura 4: Clasificación de variables desde el punto de vista del análisis de

datos (adaptado de Ato, 1991)
Es importante recordar aquí que el tipo de operación matemática que

admite la escala, y en consecuencia el tipo de variable a que corresponde, es
determinante del modelo probabilístico que sigue la variable y por lo tanto del
tipo de análisis que podemos realizar.
El control.
En general se puede decir que el objetivo del control es maximizar la
validez de la investigación. Aunque ya he mos mencionado, al hablar del “dónde”
se realiza la investigación cómo el control por antonomasia es aquel que se ejerce
en una situación “artificial” en la que es el investigador el que dirige e intervine el
proceso de recogida de datos, existen situaciones en las que, independientemente
del tipo de relación (causal o no) que se busque en el estudio, no siempre es
posible elaborar diseños que consigan aislar, de entre todas las variables que
puedan intervenir, aquellas que son objeto de su interés.
Dos son las formas de control de las variables extrañas (es decir aquellas
que son conocidas pero que el investigador desea dejar fuera de su modelo
explicativo): Control experimental y el Control Estadístico.
El control experimental es tratado ampliamente en la materia de Diseños
de Investigación Avanzados, por lo que no nos detendremos en él aquí y valga
como idea central el que cuanto menor sea el control experimental ejercido en un
estudio más importante será buscar procedimientos que permitan maximizar la
validez.
Presentaremos el concepto de control estadístico ya que, este tipo de
control se lleva a cabo mediante técnicas estadística que estudiaremos en esta
materia, y es particularmente importante cuando se establecen relaciones
asimétricas entre dos fenómenos A? B y el fenómeno B engloba, a su vez,
variables (que todas ellas afectan a A) y que a su vez están también relacionadas
entre sí (Simétrica o asimétricamente).
15
Control Estadístico
Existen algunas situaciones en las que no es posible el control de alguna/s

variable/s que intervienen en un proceso mediante los procedimientos de diseño;
por ejemplo porque esa/s variable/s, aunque identificables y medibles no se
pueden manipular adecuadamente para ser controladas y eliminar su influjo en los
resultados. Para tales situaciones existen técnicas de análisis estadístico que
permiten eliminar la acción de esas variables.
Imaginemos que estuviésemos interesados en comparar el nivel de acuerdo
en la legalización de las drogas de las personas con ingresos bajos, medios y altos.
Intuitivamente podríamos tomar la decisión de seleccionar una muestra de la
población implicada y lo hacemos mediante un procedimiento (muestreo aleatorio
simple) que garantiza la representatividad. Para responde a nuestra pregunta
parece que los más lógico es dividir la muestra en tres grupos (suponemos que
habíamos regis trado el nivel de ingresos de los sujetos de la muestra) con
ingresos: bajos, medios y altos, parece lógico pensar que lo siguiente que
deberíamos hacer sería comparar las respuestas a la cuestión de nuestro interés
entre los grupos definidos por ingresos. Sin embargo, sabemos que la edad es una
variable que influye en el grado de acuerdo sobre la legalización de las drogas.
¿Cómo obtener resultados válidos para nuestra pregunta que no estén
influenciados por la variable edad?
Una solución es el control estadístico de la variable interfiriente (en este
ejemplo la edad). Los procedimientos detallados de cómo se realiza este control se
expondrán en los temas correspondientes, ahora sólo diremos que se trata de un
procedimiento matemático que elimina de una relación entre dos variables el
efecto debido a otra distinta que se relaciona con ambas. Como el lector habrá
deducido estamos hablando de correlaciones, que como ya se sabe son los índices
que nos informan de la intensidad de la relación entre variables. Mediante el
cálculo de la correlación parcial se puede determinar la intensidad de la relación
entre dos variables eliminando el influjo de una tercera que correlaciona con
ambas. En otros términos eliminado el influjo de la edad (que es una forma de
controlar la edad), podremos dar respuesta a la pregunta planteada.
La figura 5 muestra este proceso de control. (Para entender correctamente
estos gráficos el lector debe recordar conceptos fundamentales de estadística).
Así, si lo que el investigador quiere saber es lo que la variable X1 , en
solitario, puede explicar de la variable Y deberá intentar determinar al área A del
gráfico 1, eliminando las áreas B y C.
Si calculamos el cuadrado de la correlación ryx1 , para interpretarlo en
términos de porcentaje de varianza, estaríamos obteniendo la “suma de las
16
porciones representadas como A+B”, donde la porción B del gráfico 2 representa
el espacio común (varianza común) entre X1 y X2 .
Tal como vemos en el gráfico 2 y su tabla, y recordando el concepto de
correlación y varianza explicada, cada índice de correlación al cuadrado
representa el área (varianza común) que comparten las variables.
El gráfico 3 y su tabla muestran el efecto de X1 sobre Y, que es el efecto
que queríamos estudiar y cuyo valor lo hemos determinado mediante el cálculo de
Sr2 yx1, que es un estadístico, es decir hemos controlado (eliminado) por medio de
un procedimiento estadístico todo lo que X2 contamina la relación pura ente Y y
X1 .
El gráfico 4 y su tabla muestra lo mismo para conocer la contribución de
X2 hacia Y, libre del efecto de X1 de forma similar a la anterior.
Y X2
E C Porción: A+B+C
GRAFICO 1 B Representa la varianza de

A D Y explicada por X1 y X2
de forma conjunta
X1
Y X2 Coeficiente Porción Varianza

E C r2 y1 A+B Varianza conjunta
de Y y X1
B r2 y2 B+C Varianza conjunta
GRAFICO 2
A D de Y y X2
r2 12 B+D Varianza conjunta
X1 de X1 y X2

E C sr2y1 A Varianza Y
explicada por X1
B
(después de eliminar
GRAFICO 3 A D
de X1 , pero no de Y,
el efecto de X2 )
X1

E C sr2y2 C Varianza Y
GRAFICO 4 explicada por X2
B (después de eliminar
A D de X1 , pero no de Y,
el efecto de X1 )
X1
Figura 5: Esquema gráfico de la correlación parcial
17
Hasta aquí hemos visto cómo para la obtención de unos buenos datos
debemos guiarnos por un plan (diseño) cuyo objeto es conducirnos hacia una
correcta selección de la técnica de Análisis de Datos, la cual, basandose
precisamente en al garantía que ofrece el diseño, nos permita concluir con
objetividad y validez sobre nuestras hipótesis científicas, siempre con un gardo de
certeza, que no certeza absoluta.
Obtenida la materia prima (los datos obtenidos siguiendo el plan de
diseño) procederemos ahora a analizarla.
El análisis de los datos
La primera cuestión es que los datos deben “orga nizarse”, procesarse, de

forma que resulten manejable y útiles. Esta tarea, que constituye el análisis
descriptivo corresponde ya al Análisis de Datos (Estadística Descriptiva). En este
proceso los resultados en bruto son reducidos, organizados, y representados por
índices tanto de tendencia central como de variabilidad y forma, y su utilidad
radica en que nos informan de manera resumida sobre el conjunto total de los
datos.
Junto a la estadística descriptiva y en la fase previa al análisis es también
especialmente útil estudiar las características especificas que presentan los datos
obtenidos, así como, las posibles relaciones que presentan. Esta tarea, se lleva a
cabo a través del llamado Análisis Exploratorio (Tukey, 1977) que emplea análisis
de tipo gráfico así como, índices de los ya obtenidos previamente en el análisis
descriptivo y otros específicos. Su introducción dentro del proceso general de
Análisis de Datos viene motivada por el hecho de que facilita mucho la labor del
investigador ya que permite: estudiar la calidad de los datos y su consistencia;
detectar datos atípicos (outliers); determinar la posible existencia de patrones sin
necesidad de hipótesis previas; conocer los datos, sus relaciones y el modelo que
inicialmente mejor se ajusta con lo que ello supone en aras a una mayor eficiencia
en el uso de la estadística inferencial.
18
Cuadro 4
Algunos conceptos estadísticos básicos omnipresentes
• Los datos de las investigaciones pueden ser registrados de diversas formas, pero al
final se ordenan en tablas donde las filas representan los sujetos, las columnas las
variables y las celdas los valores concretos obtenidos por los sujetos en las
variables.
• Las variables cuantitativas pueden representarse, de forma gráfica, mediante
Diagrama de barras, Histograma, Polígono de frecuencias, Diagrama de tallo y
hojas y Diagrama de caja
• Las variables categóricas pueden representarse, de forma gráfica, mediante
Diagrama de rectángulos y Diagrama de sectores
• La función principal de estas representaciones es ofrecer una información global y
resumida de los datos registrados.
Índices de tendencia central:

o La media
o La mediana
o La varianza
o Media truncada
o M-estimadores
Índices de Dispersión
o La desviación típica
o La amplitud
o La amplitud intercuartil
Índices de Forma
Coeficiente de asimetría de Fisher
Coeficiente de curtosis
Índices que informan de la relación entre variables:
o Correlación
o Covariación
Probabilidad
o Función de probabilidad
o Función de distribución
o Modelos de distribución de probabilidad
§ Distribución normal
§ Distribución Chi cuadrado
§ Distribución T de Student
§ Distribución F de Snedecor
§ Distribución de Bernuilli
§ Distribución Binomial
§ Distribución de Poisson
19
Tras todo lo anterior, el investigador debe asegurarse que los datos de los
que dispone, son coherentes, se ajustan al modelo matemático probabilístico
que va a servirle de patrón sobre el que basar las conclusiones generales que
pretende lograr; además debe validar, comprobar cómo se comporta el modelo
propuesto cuando se le “viste” con los datos obtenidos mediante el proceso
seguido hasta ahora. Algunas de las técnicas de Análisis de Datos (las más
habituales) que llevan a cabo esta tarea son precisamente la materia del curso
Análisis de Datos y Modelos Estadísticos.
Finalmente conviene aclarar que, siguiendo el hilo de esta presentación del
Análisis de Datos, nuestro investigador, casi ha concluido su trabajo, falta sólo
darle al producto obtenido la apariencia adecuada y exprimir al máximo el
resultado de este largo proceso, se trata de formular conclusiones, en relación a
las variables estudiadas, que describan, expliquen y predigan (en la medida de
lo posible) el comportamiento de los fenómenos que despertaron su curiosidad al
comienzo de su investigación.
Y por último el estudio debe ser comunicado a través de un informe a la
comunidad científica, o al cliente que lo haya solicitado; este informe debe ser lo
suficientemente claro e incluir la información necesaria para permitir, a
investigadores que trabajan en esa área, el estudio, la crítica y la posible
replicación de la investigación, o en su caso si es un trabajo para un cliente,
responder a la pregunta que le hayan hecho.
20

El Análisis de Datos y Su Relación Con Otras Materias

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

El Análisis de Datos y Su Relación Con Otras Materias

Încărcat de

Drepturi de autor:

Formate disponibile

PRELIMINARES

(El presente trabajo es un documento de autor realizado por:

EL ANÁLISIS DE DATOS Y SU RELACIÓN CON OTRAS MATERIAS

El objetivo de este tema es presentar una panorámica general sobre el Análisis de

La necesidad y el uso del Análisis de Datos en la investigación en Ciencias

Objetivos del Método - Comprender las dimensiones de un fenómeno con la mayor

Atendiendo a estas características, y por lo que al Análisis de Datos

A fín de dar una definición de qué es el Análisis de Datos es necesario dejar

Por tanto, la Estadística Aplicada, y en consecuencia el Análisis de Datos,

2.- El proceso metodológico

El conocimiento científico es el resultado de un proceso que se inicia con

Cuando superponemos los gráficos de las diferentes distribuciones de probabilidad al gráfico en

El plan de recogida de datos:

Las condiciones del cómo de va a llevar a cabo la observación y la

Validez interna : posibilidad de establecer relaciones causales

A.- La situación: Dónde

En términos de validez lo que hemos denominado “situación” es

Investigación experimental Investigación no experimental

mayor control menor control

Figura 2: Tipos de diseños de investigación (en función de la dimensión

B.- Cuántos: Muestreo

1 Es importante tener siempre presente que la “causalidad” en el contexto de la investigación en las

Figura 3: Clasificación de variables desde el punto de vista

La clasificación de las variables atendiendo al proceso de medida es un

Escala de Tipo de comparaciones Transformaciones Ejemplos

Ordinal “mayor que” “menor Cualquiera que conserva el Orden de llegada en

Escalas de medida, tipo de comparaciones y transformaciones admisibles

Figura 4: Clasificación de variables desde el punto de vista del análisis de

Es importante recordar aquí que el tipo de operación matemática que

Existen algunas situaciones en las que no es posible el control de alguna/s

GRAFICO 1 B Representa la varianza de

Y X2 Coeficiente Porción Varianza

Y X2 Coeficiente Porción Varianza

Y X2 Coeficiente Porción Varianza

Figura 5: Esquema gráfico de la correlación parcial

El análisis de los datos

La primera cuestión es que los datos deben “orga nizarse”, procesarse, de

Índices de tendencia central:

S-ar putea să vă placă și