Sunteți pe pagina 1din 35

Investigación Cuantitativa

Praxis investigativa

Análisis de datos:
exploratorio y descriptivo
María Inés Barbosa Camargo
Docente
Distribuciones de frecuencias
• Muestra el número de observaciones en cada categoría mutuamente
excluyente en las que se han agrupados los datos
• Frecuencia absoluta: número de observaciones en cada intervalo.
• Frecuencia relativa: Proporción de observaciones dentro de un intervalo
dado. Las frecuencias relativas se pueden considerar como valores
empíricos de probabilidad.
• Intervalo de clase: Es cada uno de los intervalos en que se ha decidido
agrupar los datos. El número de intervalos que se aconseja es el dado
por la fórmula de Sturges: k=1+3.322*log(n).
• Histograma de frecuencias: es una representación gráfica de los datos
en donde se evidencia su forma, acumulación o tendencia posicional y
la dispersión o variabilidad.
Medidas de tendencia central

También conocidas como medidas de posición, las medidas de tendencia


central, se toman como orientación para referirnos a un conjunto de datos.

Algunas medidas de tendencia central son:


• Media aritmética: suma de todos los valores divido entre el numero de
observaciones.
• Media ponderada: Toma en cuenta la importancia de cada valor
respecto al total, asignando diferentes pesos a las observaciones.
• Media geométrica: cuando se trabaja con cantidades que cambian en
cierto periodo, necesitamos conocer una tasa promedio de cambio.
• Mediana: valor central de un conjunto de datos ordenados.
• Moda: el dato que más se repite.
La media aritmética

Propiedades Desventajas
• Todo conjunto de datos al nivel • Se ve afectada por datos muy
de intervalo o tasa tienen una grandes o pequeños
media • No puede ser determinada si se
• Todos los valores son incluidos cuenta con categorías de
en su cálculo intervalos abiertos. Ej. 3% o más
• Hay sólo una media para el
conjunto de datos dado 𝑛
𝑖=1 𝑋𝑖
𝑥=
• La suma de desviaciones de cada 𝑛
valor de la media es cero
Media geométrica
• La media geométrica es más apropiada cuando se evalúan retornos
históricos
• Si las tasa de retorno anuales son las mismas para todos los años,
entonces la media geométrica es igual a la media aritmética
• Si las tasas de retorno varían, la media geométrica siempre será menor
que la media aritmética
• A mayor la volatilidad mayor diferencia entre ellas.
Media ponderada
• Ej: Cálculo de los retornos de un portafolio
n
X    i xi
i 1

Retorno esperado Ponderación


Acciones 8% 60%
Bonos 4% 30%
Reservas de dinero 2% 10%
La mediana

Ventajas Desventajas
• Hay sólo una mediana para • Se requiere tener los datos
un conjunto de datos dado ordenados
• La mediana no se afecta por • En caso de tener datos
valores extremos agrupados, los intervalos o clases
• Puede ser determinada en deben tener la misma longitud
datos con intervalos
abiertos, si no se encuentra
en el intervalo abierto
• Puede ser determinada para
datos ordinales, de intervalo
o de tasa
La moda

Ventajas Desventajas
• Es utilizada tanto en datos • No se usa de manera frecuente.
cualitativos como cuantitativos. • En ocasiones no existen modas.
• Los valores extremos no afectan
• Cuando existen mas de dos
indebidamente a la moda.
modas es difícil interpretar y
• No importa la amplitud o que tan comparar la medida de tendencia
pequeños sean los valores del central.
conjunto de datos e
independientemente de cual sea
su dispersión.
Otras medidas de posición
• Cuartiles: De una sucesión de datos ordenados son aquellos números
que dividen la sucesión en cuatro partes porcentualmente iguales.
• Quintiles: Son aquellos números que dividen la sucesión de datos
ordenados en cinco partes porcentualmente iguales.
• Deciles: Dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales.
• Percentiles: Son las medidas más utilizadas para propósitos de
ubicación o clasificación. Dividen la sucesión de datos ordenados en
cien partes porcentualmente iguales.
Diagrama de caja y datos atípicos
• La base del diagrama de caja es el cálculo de la mediana (Q2) y los
cuartiles (Q1 y Q3).
• Los límites se ubican a partir del rango intercuartil (RI=Q3-Q1):
• Lim inf = Q1 – 1.5*RI
• Lim sup = Q3 + 1.5*RI
• Los bigotes de la caja se trazan sobre los extremos de ésta hasta los
valores mínimo y máximo dentro de los límites.
• Se considera que los datos fuera de estos límites son valores atípicos.
Medidas de variabilidad o dispersión

La dispersión se refiere a la separación de los datos en una distribución,


teniendo como criterio una medida de tendencia central.

Algunas medidas de variabilidad son:


• Rango: Diferencia entre el máximo y el mínimo valor del conjunto
de datos dados
• Desviación media absoluta: valor absoluto de la diferencia
promedio entre la observación individual y la observación media
• Varianza: media aritmética de las desviaciones cuadradas de la
media
• Desviación estándar: raíz cuadrada positiva de la varianza.
• Coeficiente de variación: cociente entre la desviación estándar y la
media.
Desviación estándar
• Una gran desviación estándar sugiere una gran dispersión de los datos
de la media y una pequeña indica poca dispersión.
• Se usa principalmente para comparar la dispersión en dos o más
conjuntos de datos.
• Regla empírica: Distribución de probabilidad de variable aleatoria
continua cuya forma es simétrica y acampanada y sus parámetros son
una media y una desviación estándar.

1. Alrededor del 68% de las observaciones se encuentran en el


intervalo 𝜇 ± 𝜎.
2. Alrededor del 95% de las observaciones se encuentran en el
intervalo 𝜇 ± 2𝜎.
3. Alrededor del 99% de las observaciones se encuentran en el
intervalo 𝜇 ± 3𝜎.
Coeficiente de variación
• Es una medida relativa de variabilidad, medida en términos
porcentuales.
• Muestra la dispersión relativa de la media en la distribución comparada.
• Es utilizada para comparar la variabilidad entre dos grupos de datos con
distintas unidades de medida o con diferente media.
• También es útil para determinar si determinada media es consistente
con cierta varianza.
• En general:
 CV de 0% a 11% Muy homogéneo
 11.1% y 20% Homogéneo
 20% y 40% Heterogéneo
 Mayor que 40% Muy heterogéneo.
Otras medidas descriptivas

Además de las medidas de posición y variabilidad, en el análisis


descriptivo se hace un estudio de la forma como se distribuyen los datos.

Las medidas que se emplean con este propósito son:


• Coeficiente de asimetría: Permite determinar si los datos (la curva)
tiene distribución simétrica o sesgada.
• Coeficiente de curtosis: su magnitud indica que tan puntiaguda es
la distribución de los datos.
Coeficiente de asimetría
• Las curvas sesgadas, son sesgadas porque los valores de su distribución
de frecuencias se concentran en el extremo inferior o en el superior de
la escala de medida del eje horizontal.
• En general:
 As = 0. Los datos (la curva) se distribuye de manera simétrica.
 As < 0. Los datos (la curva) son sesgados a la izquierda (Hay
mayor concentración de datos a la derecha).
 As > 0. Los datos (la curva) son sesgados a la derecha (Hay
mayor concentración de datos a la izquierda).
Coeficiente de curtosis
• Cuando se mide la curtosis de una distribución, se esta midiendo que
tan puntiaguda es, nos indica si los datos se distribuyen simétricamente
de forma normal.
• En general:
 ku = 3. Mesocúrtica: Los datos (la curva) presentan forma de
una distribución normal estándar.
 ku < 3. Platicúrtica: Los datos (la curva) se presentan más
aplanados que una distribución normal estándar.
 ku > 3. Leptocúrtica: Los datos (la curva) se presentan más
empinados que una distribución normal estándar.
Medidas de asociación lineal

Indican si existe relación lineal entre dos variables.

Las medidas más utilizadas son:


• Covarianza: es una medida de relación lineal entre dos variables.
Un valor positivo indica una relación lineal directa o creciente y un
valor negativo indica una relación lineal decreciente
• Coeficiente de correlación: medida mas útil, ya que indica tanto el
sentido como el grado de relación.
Coeficiente de correlación
• Toma un valor entre −1 ≤ 𝑟𝑥𝑦 ≤ 1 (rango delimitado).
• A diferencia de la covarianza, no depende de las unidades de medida.
• No hay relación de causa y efecto.
• Asume una relación simétrica.
• Mide tanto la dirección como el grado de asociación lineal.
• En general:
 𝑟𝑥𝑦 ~ 1 Relación lineal fuerte y directa.
 𝑟𝑥𝑦 ~ 0. No hay relación lineal.
 𝑟𝑥𝑦 ~ -1 Relación lineal fuerte e inversa.
Correlaciones
Conceptos básicos de probabilidad

• Experimento aleatorio: cualquier acción o proceso que no se tiene


certeza de su resultado final
• Evento o suceso: es uno o mas de los posibles resultados de hacer algo.
Un suceso “E”, es cualquier subconjunto de resultados básicos del
espacio muestral.
• Espacio muestral: es el conjunto de todos los resultados posibles de un
experimento aleatorio, “S”.
• Punto muestral: cada resultado del espacio muestral. Cada punto
muestral crea una ponderación de ocurrencia, una probabilidad de
punto muestral, “Pi”.
Tipos de probabilidad
¿Cómo se asignan las probabilidades?
 Empírica: La probabilidad de que un evento ocurra en el largo plazo
está determinada por la ocurrencia de los eventos en el pasado. se
basa en el número de veces que ocurre el evento como proporción
del número de intentos conocidos (frecuencia relativa).
 Subjetiva: Se hace una estimación basada en la percepción
subjetiva si se cuenta con poca o ninguna experiencia o información
con la cual sustentar la probabilidad.
 A priori: Se asigna la probabilidad basado en la razón o lógica.
También conocida como probabilidad clásica, parte del supuesto de
que los resultados de un experimento son igualmente posibles.
Propiedades de las Probabilidades
• Si A es un evento, entonces P(A) representa un número entre 0 y 1
incluidos.
0  PA  1
• Si S es el espacio muestral o evento seguro asociado a un
experimento entonces, P(S) es igual a 1

PS   1
• Si el evento es vacío entonces su probabilidad es cero.

P  0
Algunas definiciones y reglas
• Eventos Mutuamente • No condicional P(A):
Excluyentes: si un evento se Probabilidad de que el precio del
presenta ninguno de los otros dólar se incremente en más de
puede ocurrir al mismo tiempo. 5% el día de mañana
• Eventos Colectivamente • Condicional P(A/B): Probabilidad
Exhaustivos: Por lo menos uno de que el precio del dólar se
de los eventos debe ocurrir incremente en más de 5% el día
cuando se lleva a cabo un de mañana, dado que el Banco
experimento de la República incrementó la
tasa de interés el día de hoy
• Independencia: Si un evento
ocurre, no tiene ningún efecto • Conjunta P(AB): Probabilidad de
sobre la probabilidad de que otro que se incremente el precio de la
evento ocurra. acción de Ecopetrol y de
Bancolombia
Reglas básicas de probabilidad
Hay algunos resultados relacionados con las definiciones de eventos
mutuamente excluyentes, de independencia y probabilidad condicional
que adquieren gran importancia en la solución de ciertos problemas:
• Ley de la adición
• Ley de la multiplicación
• Probabilidad total: indica como calcular la probabilidad de un
evento cuando se conocen las probabilidades condicionales
• Teorema de Bayes: permite obtener la probabilidad condicional de
un evento (causa) a partir de su efecto
Ley Especial de la Adición

• Si A y B son eventos mutuamente excluyentes entonces la probabilidad


de A o B, P[A o B] es igual a la suma de las probabilidades individuales.

P[ A  B]  P[ A]  P[ B]
Ejemplo: Un estudio de 500 empresas de calzado revelo las siguientes
utilidades:
Ley Especial de la Adición (2)
¿Cuál es la probabilidad de que una empresa de calzado seleccionada al
azar tenga una utilidad de menos de 1 millón o más de 10 millones?

P(A)=Menos de 1 millón = 280/500 = 0.56


P(B)=Más de 10 millones = 64/500 = 0.128

P[ A  B]  P[ A]  P[ B]
P[ A  B]  0.56  0.128  0.688

Rta: La probabilidad es de 0.688.


Ley General de la Adición

P[ A  B]  P[ A]  P[ B]  P[ A  B]
Ejemplo: ¿Cuál es la probabilidad de que una carta, escogida al azar, de
una baraja convencional sea rey o corazón?

Rta: La probabilidad es de 0.3077


Regla Especial de la Multiplicación
Eventos independientes: Supongamos que el precio de la acción de
Ecopetrol es independiente del precio de la acción de Bancolombia, si la
probabilidad de que el precio de la acción de Ecopetrol suba el próximo
año es de 0,6 y la probabilidad de que se incremente el precio de
Bancolombia el próximo año es de 0,4, la probabilidad de que el precio
de ambas acciones se incremente es de:

P[ A  B]  P[ A]P[ B]
P[ A  B]  0.6 * 0.4  0.24
Regla General de la Multiplicación
Evento Condicionado: Suponga que se tiene 30 acciones, pero se sabe que
posiblemente 6 de ellas realicen fraude y se consideran “malas”. ¿Cuál es la
probabilidad de seleccionar una acción mala seguida de haber elegido otra
acción mala?
P[ A  B ]  P[ A]P[ B | A]
P[ A  B ]  (6 / 30) * (5 / 29)  0.0345

Para tres eventos:

P[ A  B  C ]  P[ A]P[ B | A]P[C | A  B ]
Probabilidad Total
• Si A es un evento de S:

PA  P[ A | B1 ]PB1   P[ A | B2 ]PB2     P[ A | Bn ]PBn 


n
PA   P[ A | Bi ]PBi 
i 1
Bi son eventos mutuamente excluyentes y colectivamente exhaustivos
Ej: Supongamos que tenemos un portafolio a un año, que varia teniendo
en cuenta los cambios en el último mes de la tasa de interés, que puede
incrementarse, disminuir o permanecer igual. ¿Cuál es la probabilidad
de que el portafolio incremente su valor en 1 año?
Probabilidad Total (2)
A: Portafolio incrementa el valor en 1 año
B1: Tasa de interés disminuye en el último mes. P(B1) = 0.2
B2: La tasa de interés no cambia en el último mes. P(B2) = 0.3
B3: La tasa de interés aumenta en el último mes. P(B3) = 0.5
• P(A|B1) = 0.02
• P(A|B2) = 0.03
• P(A|B3) = 0.05

PA  (0.02 * 0.2)  (0.03 * 0.3)  (0.05 * 0.5)  0.038


Teorema de Bayes
Si los eventos B1 y B2 son mutuamente excluyentes y colectivamente
exhaustivos, se tiene que B1 y B2 son complementos.

P[ A | B1 ]PB1 
PB1 | A 
P[ A | B1 ]PB1   P[ A | B2 ]PB2 

De manera general,

P[ A | Bk ]PBk 
PBk | A 
P[ A | B1 ]PB1   P[ A | B2 ]PB2     P[ A | Bn ]PBn 
Ej: Retomando el ejemplo del portafolio

¿Cuál es la probabilidad de que el incremento del portafolio ocurra dado


que la tasa de interés no cambio el último mes?

• Eventos:
B1: Portafolio aumenta, tasa de interés disminuye. P(B1) = 0.2
B2: Portafolio aumenta, tasa de interés no varía. P(B2) = 0.3
B3: Portafolio aumenta, tasa de interés aumenta. P(B3) = 0.5
A1: Incrementa
A2: No incrementa

• Probabilidad Condicional
P(A1|B1) = 0.02 – Port incrementa, tasa de interés disminuye
P(A1|B2) = 0.03 - Port incrementa, tasa de interés no varía
P(A1|B3) = 0.05 - Port incrementa, tasa de interés aumenta
Diagrama de Árbol
Probabilidad Probabilidad Probabilidad
a priori condicional conjunta

P(A1|B1)=0.02 A1=Port incrementa


P(B1 y A1)=0.004
Interés reduce
A2= Port no incrementa
P(B1)=0.2 P(A2|B1)=0.98 P(B1 y A2)=0.196
P(A1|B2)=0.03 A1=Port incrementa
P(B2 y A1)=0.009
Interés no varía
P(B2)=0.3 A2= Port no incrementa
P(A2|B2)=0.97 P(B2 y A2)=0.291
P(A1|B3)=0.05 A1=Port incrementa P(B3
Interés aumenta y A1)=0.025
P(B3)=0.5
A2= Port no incrementa
P(A2|B3)=0.95 P(B3 y A2)=0.475
Aplicando el teorema de Bayes
Prob. A Prob. Prob.
Prob. A posteriori
Evento priori Condicional Conjunta
P(Bi|A1)
P(Bi) P(A1|Bi) P(Bi y A1)
Interés 0.2 0.02 0.004 0.004/0.038=0.1053
Interés 0.3 0.03 0.009 0.009/0.038=0.2368
Interés 0.5 0.05 0.025 0.025/0.038=0.6579
P(B1)=0.038 1

PB2 | A1  
0.03 * 0.3
 0.2368
(0.03 * 0.3)  (0.02 * 0.2)  (0.05 * 0.5)

Rta: La probabilidad de que el portafolio se incremente dado que la tasa


de interés no cambió es de 23,68%.

S-ar putea să vă placă și