Sunteți pe pagina 1din 11

Estructura tripartita del dato

El dato es una información, resultado de un procedimiento de medición.


Una unidad de análisis, es el objeto acerca del cual se buscan informaciones en una
investigación, que en una variable específica presentara un determinado valor
La variable: es algo que varía, es un vector de signos que representa en la matriz la
propiedad estudiada del objeto que interesa​.
El valor es la propiedad de la variable, el estado de la unidad de análisis en la propiedad
estudiada.
● Reconstruir el sistema de categorías de una variable: en qué niveles se mide,
valores que puede asumir la variable.
● Niveles de medición: determina la técnica estadística apropiada, las posibilidades
de tratamiento estadístico que tengo para cada una de ellas.
Ordinal: tienen un orden explícito, y este nivel nos permite ver la mediana.
Nominal:nombres que no tienen orden explícito
Razón:cuando puedo establecer el 0 absoluto qué significa la ausencia de la propiedad
Intervalo: cuando los valores de la variable tienen la misma distancia entre sí (ejemplo:
temperatura)
Análisis Univariado

● Medida de tendencia central,​ qué buscan valores centrales:

Moda: Es el valor de la variable que más veces aparece en el conjunto de datos. Se aplica
a variables de cualquiera nivel de medición. La utilizamos más que nada en medidas de
variables cualitativas (ordinales y nominales) cual es la categoría modal de una variable.
Media: Es el promedio, es la sumatoria de los valores de la variable dividida el número de
casos. Solo se puede aplicar a un nivel de medición de razón o de intervalo. Considera a
todos los valores de la variable.
Mediana: ​Es la medida más estable que la media, es el valor de la variable que deja por
encima y por debajo al 50% de los casos. También es de posición porque tiene valores
ordenados de mayor a menor. La fórmula nos indica el lugar que ocupa:
Número de casos o ​N+1 / 2 (es sobre dos porque divide a la mitad la medición)​= (la
mediana va a estar en el lugar 8)

● Medidas de posición:
❖ Cuartiles: divide en porciones de 4 partes iguales. Cada cuartil va a tener 25% de los
casos. Se ordena de mayor a menor y se divide en porciones.
❖ Deciles: lo divido en 10 partes iguales, van a tener los 10% de los casos.
❖ Quintiles: lo hago en 5 partes iguales, 20% de los casos.
❖ Percentil:
Pregunta de parcial: ​¿Cuáles son los 5 números que resumen la distribución?
= El mínimo ; el cuartil uno ; la mediana ; el cuartil 3 ; el máximo
Esto se representa con los diagramas de caja.

Regla: Si la distribución es simétrica el valor de la moda, la media y la mediana


coinciden.
● Medidas de variabilidad o dispersión: ​Nos dicen cuán concentrados o dispersos
están los valores de una variable. Cuando busca describir busca el centro y la
dispersón
Amplitud TOTAL , recorrido o rango de la variable: entre qué valores fluctúa la variable, es
la resta entre el valor máximo y el valor mínimo de una variable.
El rango es muy sensible a los valores extremos. Para evitar los efectos de esta medida se
utiliza el recorrido intercuartílico.
Recorrido intercuartílico: Entre qué valores fluctúan el 50% de los valores (75%-25% o
cuartil 1 y cuartil 3) centrales de la distribución.
La varianza que sirve para calcular la desviación típica o estándar: cuánto se distancia
en promedio los valores respecto a la media. Mide en promedio las distancias de los valores
respecto a la media. Suma de los cuadrados de las desviaciones de las observaciones
respecto a su media dividido por n-1.
Primero se calcula la variancia (es un paso del promedio de los cuadrados de los desvíos a
la media aritmética. Es un paso para calcular la desviación)
La medida que nos interesa es la de la desviación estándar.
Yo tengo 11 personas a las cuales se les aplicó un test, el resultado del test es el de los
valores listados. Primero calculo la media y después descomponer la fórmula. Una vez que
obtengo la sumatoria de los valores es el numerador de la fórmula de la varianza y con eso
obtengo la varianza, le saco la raíz cuadrada y obtengo la desviación.
Coeficiente de variación: Si se nos pide que identifiquemos una homogeneidad o
heterogeneidad de dos distribuciones cuyas medidas son diferentes o que están en distintas
unidades usamos el Coeficiente de variación.
1.Variancia:
S 2 = E(Xi − X (con la rayita arriba)2 : n − 1

2.Desviación estándar:
S √E(xi − x(con la rayita arriba)2 : n − 1

3.Coeficiente de variación= Desviación estándar / la media X100


.
Distribución de frecuencias univariadas, tablas de frecuencias.
Tabla de frecuencias​: es una herramienta estadística que sirve para aplicar las técnicas de
análisis de datos. Proporciona el número de veces que se repite cada valor de una variable
en el estudio del conjunto de todos los casos. La frecuencia absoluta es la cantidad de
individuos que presentan un mismo valor de la variable (una misma categoría si se trata de
variables categóricas, un mismo número si la variable es numérica). Cuando se maneja un
número amplio de datos, resulta conveniente distribuirlos en clases o categorías y
determinar el número de casos que pertenecen a cada uno.
El número total de los casos es entonces, igual a la suma de la columna de las frecuencias,
se simboliza con la letra N.
Para tomar distribuciones de frecuencias y minimizar el error de agrupamiento, se deben
seguir 2 reglas:
● Encontrar el rango (diferencia entre el mayor y el menor de los datos).
● Dividir el rango en un número conveniente de intervalos de clase de diferente
tamaño. Si eso no fuera posible, será preciso utilizar intervalos de clase de diferente
tamaño, o intervalos abiertos
1) Se clasifican las variables en categorías
2) Se calcula cuantas veces se repite cada categoría (​frecuencia absoluta​)
3) Frecuencia acumulada​: se puede expresar de manera absoluta (suma acumulada de
los casos) o de manera relativa (suma porcentual acumulada de los casos).
4) Frecuencia relativa o porcentaje: coeficiente entre frecuencia absoluta y total de
casos, multiplicado por 100.
EJEMPLO:

Gráficos: cuál es más apropiado?


Cualitativas: torta y barras.
Cuantitativas: histograma
Resumen de datos: Tasas, razones y proporciones.
Tasa​: es una medida relativa que da cuenta de la velocidad de cambio en la población y se
expresa en porcentaje. En el denominador por lo general, se da el número de casos,
personas, etc que puede llegar a tener el atributo estudiado.
Razón o relación entre dos números: ​coeficiente entre ambos. Se expresa generalmente
en término de tantos de una categoría por cada tantos de otra. Se expresa a través de un
cociente, se relacionan dos magnitudes de una misma variable, o dos variables distintas.
Por ejemplo el índice de feminidad y masculinidad, se expresa como un cociente entre
estas: varones/mujeres (porcentual)
Proporción o porcentaje: tipo especial de relación, donde se busca crear un subconjunto
de un conjunto más grande. El denominador es el número total de casos y el numerador
una fracción dada de dicho número (lo que da una proporción), que luego puede ser
multiplicado por 100 (para tener el porcentaje). Por ejemplo número de hombres sobre un
total de población.
Análisis bivariado

● Para variables cualitativas


La tabla de contingencia sirve para analizar dos variables en relación. Para hacer una
lectura simétrica tengo que calcular el porcentaje sobre el total de los casos. Si es
asimétrica,hay que calcular el porcentaje en el sentido de fila de variable independiente y se
compara en el sentido de variable dependiente. Es más sencillo poner la variable
dependiente en las columnas. ​Cuando el modelo bivariado tiene una sola variable
independiente el valor de significación del es igual a todo el modelo.
Si yo pongo otra variado, es decir paso de bivariado a multivariado lo complejizo
Va preguntar las distintas formas de calcular el porcentaje
si calculo el porcentaje sobre total es simétrica.
si calculo el porcentaje en base al subtotal de filas 2/8*100 asimétrica.

Nivel educativo Varón Mujer Total

Incompleto o menos 2 2 4

Completo o más 6 10 16

Total 8 12 20
Esto me permite confirmar o rechazar mi hipótesis, si mi variable independiente influenciará
sobre mi otra variable.
Los porcentajes se calculan en el sentido de la variable independiente y se comparan en el
sentido de la variable dependiente. La diferencia entre los dos valores porcentuales tiene
que tener un valor negativo y otro positivo. Cuando hay diferencia porcentual, hay relación
por lo tanto es una lectura asimétrica, si no hubiese diferencia sería simetrica. Existen
coeficientes que miden la fuerza en la relación, el coeficiente que voy a elegir depende del
nivel de medición de las variables y el número de categorías, como por ejemplo el CHI2
(mide si esa la diferencia porcentual que veo es estadísticamente significativa o no, es decir,
que esa relación qué vemos, se debe a que hay relación entre variables)frecuencias
observadas.
Cuando veo relación entre variables utilizo dependiendo del nivel de medición: en las
cualitativas uso la asociación y en las cuantitativas, la correlación.
Partimos de una tabla, y hay tres formas de lectura​:
● Hacer la diferencia porcentual que se calcula en el sentido de la variable
independiente y se comparan en el sentido de la variable dependiente y esto me va
a decir si son o no relaciones​.

Luego el ​CHI2 ​mide si esa la diferencia porcentual que veo es estadísticamente


(​significativo 0.05 o menor) o no, es decir, que esa relación qué vemos, se debe a que hay
relación entre variables frecuencias observadas (los n° casos) . Compara las frecuencias
observadas con las frecuencias si no hubiera relación entre variables. Compara frecuencias
observadas con frecuencias esperadas, para mostrar que no hay relación, cuanto más
distancia hay entre las diferencias es significativa o no.

Q​ué es la asociación, qué es la correlación y qué es la regresión? Pregunta de parcial.


La ​asociación​ analiza la relación entre las variables nominales y/o ordinales.
1. Parto del análisis de tablas de contingencia
2. Identifico la variable dependiente y la independiente
3. Calcular los porcentajes y analizó la diferencia porcentual
4. Aplico coeficientes para cuantificar la fuerza de la relación y veo si la relación es
significativa.
Cuando uno trabaja con esto, suele utilizar la expresión “95% de confianza”, si una
afirmaciòn no es del 95% de confianza no es válido. si es de 60% es inválida. El nivel de
significación es de 0.05 o menor.
Si interpretamos un porcentaje sobre una base que no fue calculada qué tipo de error estoy
cometiendo?
Error lógico:​ interpretar un porcentaje sobre una base que no es la que corresponde
Errores pragmáticos:​ cuando le pones una connotación valorativa en los datos

Para variables cuantitativas


Coeficiente de correlación: es positiva o negativa, es descriptiva.
Coeficiente de determinación: es más importante porque explica qué porcentaje de la
variación de la variable es con otra.
Asociación no implica causalidad aun cuando la relación sea muy alta no implica la noción
de causalidad (esta noción es teórica) .

Antes de calcular el coeficiente de correlación “r” examinamos el diagrama de dispersión.


La ​correlación​ se utiliza para ver la relación entre variables numéricas.
Podemos ver si la relación es lineal positiva (a niveles bajos con valores bajos, o niveles
altos con altos); y/o la relación lineal negativa. En otras palabras, la correlación me permitirá
ver el sentido de la relación si es positiva o negativa. También podemos ver la fuerza de
relación, con el coeficiente de Pearsons ,qué mide la fuerza de la relación entre dos
variables numéricas, puede asumir valores entre 0 y -1 (fuerte relación y negativa, si el
coeficiente es negativo la relación es negativa.) y 0 y 1, cuanto más cerca de estos valores
es más fuerte es la relación. Si el coeficiente da 0, no hay relación lineal. valores entre 0 y
0,3: relación débil (negativa o positiva); valores entre 0,3 a 0,7: relación mediana (negativa o
positiva); valores entre 0,7 y 1: relación fuerte (negativa o positiva).
1. Realizó un gráfico o diagrama de dispersión y sitúa los puntos en el diagrama.
2. Analizo el tipo de relación (si es lineal o no), su sentido (si es positivo o negativo) y
estimar su fuerza (fuerte o débil)
3. Aplico coeficientemente con el coeficiente de Pearson, para cuantificar la fuerza de
la relación. Para esto tengo que tener el desvío (dispersión de los valores de una
variable tomada individualmente) y la media.
x− xcon la rayita arriba y−ycon la rayita arriba
r de P earsons = E ( Sx ) x( Sy )
__________________________________
n-1
Sin embargo la profe dijo qué vamos a tener en el parcial qué usar esta fórmula que da el
mismo resultado del r de Pearsons:
C ov (x, y )
__________
S x . Sy
La covarianza va a ser un dato dado en el parcial, y el Sx y Sy también qué es la
desviación.

Cómo hacemos una lectura?


Hay una relación muy fuerte entre la variable independiente y la dependiente.
Tenemos que decir si una correlación lineal o no, si es positiva o negativa y cuán fuerte o
débil es.

4. Realizo estimaciones de valores de la variable dependiente de la variable


independiente.
Estadística inferencial: se utiliza con muestras que se basan en la teoría de las
probabilidades, qué es una rama de las matemáticas que estudia el comportamiento del
azar.
El censo: es el recuento de todos los elementos de la población (que son un conjunto de
ejemplares de la unidad de análisis). La muestra es un subconjunto de la población, es decir
qué tiene unidades de análisis que se los llama casos.
La inferencia estadística es estimar los valores de una población a partir de los
conocimientos de los valores de una muestra.
Tipos de diseño muestral:
● Probabilística o aleatoria: utilizamos para la selección de la muestra la teoría de
probabilidades de cada individuo de la población una posibilidad conocida y mayor
que cero de ser seleccionado.
● No probabilístico: Hay que distinguir parámetros, se refiere a un valor poblacional, en
cambio estadístico es un valor que se refiere a datos muestrales, se utiliza para
estimar al parámetro.

Regresión, ​es un procedimiento de estadistica inferencial, que nos permite afirmar o


rechazar nuestra hipótesis sobre la relación entre variables, es decir probar la relación entre
las variables estimar valores de la variable dependiente de la variable independiente. Para
esto, tengo que tener una correlación alta. El coeficiente de determinación me permite
cuánto de la variabilidad de la variable dependiente se explican por el modelo que las
relaciona con la variable independiente, que es r2. ​La regresión a través de la ecuación
d​el coeficiente de determinación qué es r2, ​es dice cuanto de las variaciones de la
variable dependiente se explican en su relación de la variable independiente.
El coeficiente b, osea la pendiente nos dice cuánto aumenta Y, cuando X aumenta una
unidad. ¿Que es la constante en el análisis de regresiòn? La ordenada del origen es el
punto que corta el eje y-.
CLASE TALLER ANÁLISIS 19/06/2
Para análisis bivariado:
● numérica y categórica: diferencia de medias.
● dos categóricas: tabla de contingencia
● dos numéricas: correlación y regresión

Vamos a hacer análisis bivariado numérico.

Fórmulas:
Los errores estarán en Y (eje vertical) A más correlación menos error.

Observación atípica:​ casos más desviados de la recta

La media es:
__ __
x y

Desviaciones típicas de las variables​: (Sx; Sy)

Correlación​: R

1. γ (con rayita arriba) = a + b.X . Esto me da el valor predicho.

Sy
2. b = r Sx Esto me da el coeficiente de regresión. Cuánto cambia Y cuando X cambia
1.
3. a = y(con la rayita arriba) − b.x(con la rayita arriba) . Esto me permite saber la
ordenada al origen.

SPSS
Ver qué tipo de archivo genera el spss: .sav - cuando hacemos un procesamiento automático el spss
abre una ventana (llamada output, o resultados) es una interface distinta al .sav. Y se guarda
distinto: .spo . Osea cuando abris un archivo .spo, tenemos que saber qué abrimos resultados de
análisis de una matriz de datos.
Pero hay otro tipo de archivo que tiene este software que se llama archivo de sintaxis y se genera
así: vamos a analizar, estadísticos descriptivos, frecuencia y en vez de poner aceptar clickeamos en
pegar, se abre otro tipo de ventana: sintaxis; qué esa ventana está escrita en un lenguaje de
computación (Beisik) y se guarda con .sps. Es decir qué cuando veamos un archivo de .sps, es un
archivo de sintaxis.
Rótulo es lo mismo qué etiqueta.

Clase 2 - 27/03/2019
importar datos
En el punto, vamos a archivo, abrir datos. todos los archivos, leer todas la variable de datos y
aceptar.
Utilizó la variable número, que corresponde al número de formulario.
El TIPO, es lo que corresponde a la celda, si va a ser número es númerica.
Anchura: cantidad de caracteres.
Para hacer un punto así:Hacer la distribución de frecuencia de 5 variables. Vamos a analizar,
estadísticos descriptivos: frecuencias. Seleccionar variables y hago click y tengo mi tabla de
frecuencia. El primer cuadro es de resumen, la de abajo me da la tabla de frecuencias de variables,
en donde tenemos listada las categorías de variables. Si voy nuevamente a análisis, estadísticos
descriptivos frecuencias y pegar me da la ventana de sintaxis con lenguaje de programación. Para
resolver el ejercicio pego la sintaxis abajo de la pregunta y luego la tabla generada.

Cómo calcular las medidas de tendencia central y de dispersión apropiadas para x (3) variables:
Vamos a analizar, estadisticos descriptivos, frecuencias, estadistico. Marcamos media, mediana,
moda (medidas de tendencia central) y desviación típica. Continuar y sacamos lo de mostrar graficos,
ponemos pegar. Nos aparece la ventana de sintaxis y ponemos ejecutar comando (play)
Cómo calcular cuartiles y percentiles para 3 variables:
Vamos a analizar, estadisticos descriptivos, frecuencias, estadistico. Marcamos cuartiles, percentiles
(ponemos números al azar: 25, 30. 35, 40, 45…). continuar, pegar. Ejecutar comando y listo. ¿Cómo
interpreto los datos que me tira la máquina?
El valor del percentil 75 es 3800, es decir que el 75% de los padres gana ese monto o menos
3.d. Realizar gráficos de sectores, barras e histogramas apropiados para 3 variables.

Tp2 Creacion y transformación de variables.


La EPh la genera Indec. estadísticas públicas.
Buscar las variables que analiza la EPH, es una encuesta por muestreo.
En la tarea esta la data predica sobre personas y hogares.
Hoy vamos a generar y transformar variables.

EJERCICIO Nº 1
Utilice la base de datos de EPH de personas. Recodifique la variable edad, teniendo en cuenta los
siguientes tramos:

· Menores de 15 años.

· De 15 años a 30 años

· De 31 años a 45 años.

· De 46 años a 60 años

· Más de 60 años

Cuando quiero comparar dos variables (edad) y ocupacion, en una ph nos va a dar
muchos datos imposible de analizar entonces voy a recategorizarlo. Vamos a pasar
de miles de varables a cinco. como hacemos esto? vamos a transormar y recodiicar
en distintas variables siempre conviene crear una variable nueva, eso se llama
recodificar en distinta variable. Nos damos cuenta qué es de escala porque tiene
una regla, y los circulos son nominales, y las ordinales tienen barras.
1.2 Etiquetar -usando el lenguaje de comandos- la nueva variable y sus
valores.
Primer paso etiquetar la nueva variable, vamos a tranformar, recodificar en distinta
variable y se nos abre un cuadro de comando en la cual vamos a elegir una
variable, en este caso es la edad. Ahí le cambiamos el nombre, por “edad_rec”,
hacemos click en cambiar y ponemos pegar, qué nos va a dar el lenguaje de
sintaxis. El segundo paso, para sus valores vamos a sintaxis y escribimos lo
siguiente:
*Etiquetado de la variable
variable labels edad_rec "Edad recodificada".
*Etiquetado de los valores o categorias de la variable.
value labels edad_rec
1 "menores de 15"
2 "de 15 a 30"
3 "de 31 a 45"
4 "de 46 a 60"
5 "más de 60".
Ponemos ejecutar y nos va a aparecer en el SPSS las etiquetas de los valores.

¿Cómo la interpretamos? Sirve para pasar de una variable de escala a una ordinal
que nos permita interpretar las variables.
Hacemos la tabla de frecuencias, que nos va a permitir ver estos valores de manera
más gráfica entonces ahí pasamos a interpretar. (reveer la carpeta)

Ejercicio 2 ​Mediante el comando IF, cree una variable SEXINGRE y codifíquela según un
cuadro. consiste en crear una tipología de unidad de análisis del data set. Consiste en hacer
una segmentación. Crear cinco tipologias de ingresos dependiendo del sexo. Para eso es
necesario crear una nueva variable, para cada caso un valor.
Vamos a usar el comando IF qué es otro tipo de comando: si pasa qué el hombre gana menos
de 8000 es 1”
Vamos a ir a transformar y luego en calcular variable, y se abre un cuadro de diálogo. El
ejercicio dice que la variable se va a llamar Sexingre asique en variable de destino pongo ese
nombre y lo primero que hago es poner 0 en expresión numérica y pegar. Seleccione el
lenguaje de comando y ejecutar.
El siguiente paso es encontrar a todos los varones qué ganen menos de 8000
entonces vengo a transformar calcular variables, apretamos IF o si… y colocamos:
ch04 = 1 & p47t < 8000 /// ch04 significa sexo, = a 1 qué es el tipo (HOMBRE 1
MUJER 2) & p47t qué son sus ingresos < qué significa menor a 8000. y así con
todos los casos.

¿Cómo ponderar? vas a datos pones, ponderar casos, y listo


Obtenga una frencuencia simple de la variable ESTADO. ¿Cuál sería el valor de la
tasa de actividad? Envíe los inactivos y menores de 10 años a missing (valor
perdido), y calcule la tasa de desocupación con el comando frecuencias.

Primero una tabla de frecuencia, osea voy a sintaxis y pongo fre estado. ejecutar y
en resultados te aparece una tabla de frecuencia.
Luego utilizo esto: PEA: ocupados + desocupados.
Tasa de empleo: población ocupada/ población total
Tasa de actividad: PEA/ población total
Tasa de desocupación: población desocupada/ PEA
Tasa de subocupación: población subocupada/ PEA.

Clase 17/04
Seguimos en el tp2.
Vamos a trabajar sobre el punto 4 y 5. creación y transformación de variables.
Elabore las condiciones lógicas, que permitan identificar los siguientes
universos:
4.1 Personas mayores de 65 años.
4.2 Mujeres mayores de 65 años.
4.3 Mujeres y Hombres desocupados, en edad de trabajar (14 a 60 años).
4.4 Mujeres jefes de hogar, mayores de 35 años que no trabajan o son inactivas.
4.5 Hombres y Mujeres jefes de hogar, mayores de 18 años que trabajan
actualmente.
4.6 Hombres jefes de hogar desocupados, niños de 0 a 5 años y adultos mayores
de 65 años.
4.7 Personas de entre 20 y 24 años con educación superior universitaria
incompleta.

Vamos al SPSS. transormar, calcular variable hacemos una nueva variable : v4.1
expresion numerica 0.
Operadores relacionales

Funcion Palabra Signo alternativo


Igual a EQ =

LT

GT

NE

LE

GE

Operaciones lógicos

Y &

Clase 8/5 Terminamos el tp2 y continuamos con el tp3, en el cual vamos a aprender:
● Como crear un nivel de índice socioeconómico
● Darle distinta ponderación a las variables
● Utilizar técnica de análisis bivariado diferencia de medias para una ​numérica
y una categórica.
● dos categóricas: tabla de contingencia
● dos numéricas: correlacion y regresion.

Para medir variables complejas (porque tiene varias dimensiones) como el nivel de
xenofobia, o nivel socioeconómico podemos utilizar medidas como índice o escalas.
Vamos a aprender acerca el índice.
Para el primer punto vamos al data baset, tranformar y calcular variable
Recodificar en distintas variables: valores nuevos y antiguosv

Clase 5/06/19
¿Qué porcentaje de los varones son cónyuges? 12,1%
¿Que porcentaje de las jefas son mujeres? 43.3%
¿Que porcentaje de los casos son cónyuges y mujeres? 31.3%

S-ar putea să vă placă și