Documente Academic
Documente Profesional
Documente Cultură
Praxis investigativa
Análisis de datos:
exploratorio y descriptivo
María Inés Barbosa Camargo
Docente
Distribuciones de frecuencias
• Muestra el número de observaciones en cada categoría mutuamente
excluyente en las que se han agrupados los datos
• Frecuencia absoluta: número de observaciones en cada intervalo.
• Frecuencia relativa: Proporción de observaciones dentro de un intervalo
dado. Las frecuencias relativas se pueden considerar como valores
empíricos de probabilidad.
• Intervalo de clase: Es cada uno de los intervalos en que se ha decidido
agrupar los datos. El número de intervalos que se aconseja es el dado
por la fórmula de Sturges: k=1+3.322*log(n).
• Histograma de frecuencias: es una representación gráfica de los datos
en donde se evidencia su forma, acumulación o tendencia posicional y
la dispersión o variabilidad.
Medidas de tendencia central
Propiedades Desventajas
• Todo conjunto de datos al nivel • Se ve afectada por datos muy
de intervalo o tasa tienen una grandes o pequeños
media • No puede ser determinada si se
• Todos los valores son incluidos cuenta con categorías de
en su cálculo intervalos abiertos. Ej. 3% o más
• Hay sólo una media para el
conjunto de datos dado 𝑛
𝑖=1 𝑋𝑖
𝑥=
• La suma de desviaciones de cada 𝑛
valor de la media es cero
Media geométrica
• La media geométrica es más apropiada cuando se evalúan retornos
históricos
• Si las tasa de retorno anuales son las mismas para todos los años,
entonces la media geométrica es igual a la media aritmética
• Si las tasas de retorno varían, la media geométrica siempre será menor
que la media aritmética
• A mayor la volatilidad mayor diferencia entre ellas.
Media ponderada
• Ej: Cálculo de los retornos de un portafolio
n
X i xi
i 1
Ventajas Desventajas
• Hay sólo una mediana para • Se requiere tener los datos
un conjunto de datos dado ordenados
• La mediana no se afecta por • En caso de tener datos
valores extremos agrupados, los intervalos o clases
• Puede ser determinada en deben tener la misma longitud
datos con intervalos
abiertos, si no se encuentra
en el intervalo abierto
• Puede ser determinada para
datos ordinales, de intervalo
o de tasa
La moda
Ventajas Desventajas
• Es utilizada tanto en datos • No se usa de manera frecuente.
cualitativos como cuantitativos. • En ocasiones no existen modas.
• Los valores extremos no afectan
• Cuando existen mas de dos
indebidamente a la moda.
modas es difícil interpretar y
• No importa la amplitud o que tan comparar la medida de tendencia
pequeños sean los valores del central.
conjunto de datos e
independientemente de cual sea
su dispersión.
Otras medidas de posición
• Cuartiles: De una sucesión de datos ordenados son aquellos números
que dividen la sucesión en cuatro partes porcentualmente iguales.
• Quintiles: Son aquellos números que dividen la sucesión de datos
ordenados en cinco partes porcentualmente iguales.
• Deciles: Dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales.
• Percentiles: Son las medidas más utilizadas para propósitos de
ubicación o clasificación. Dividen la sucesión de datos ordenados en
cien partes porcentualmente iguales.
Diagrama de caja y datos atípicos
• La base del diagrama de caja es el cálculo de la mediana (Q2) y los
cuartiles (Q1 y Q3).
• Los límites se ubican a partir del rango intercuartil (RI=Q3-Q1):
• Lim inf = Q1 – 1.5*RI
• Lim sup = Q3 + 1.5*RI
• Los bigotes de la caja se trazan sobre los extremos de ésta hasta los
valores mínimo y máximo dentro de los límites.
• Se considera que los datos fuera de estos límites son valores atípicos.
Medidas de variabilidad o dispersión
PS 1
• Si el evento es vacío entonces su probabilidad es cero.
P 0
Algunas definiciones y reglas
• Eventos Mutuamente • No condicional P(A):
Excluyentes: si un evento se Probabilidad de que el precio del
presenta ninguno de los otros dólar se incremente en más de
puede ocurrir al mismo tiempo. 5% el día de mañana
• Eventos Colectivamente • Condicional P(A/B): Probabilidad
Exhaustivos: Por lo menos uno de que el precio del dólar se
de los eventos debe ocurrir incremente en más de 5% el día
cuando se lleva a cabo un de mañana, dado que el Banco
experimento de la República incrementó la
tasa de interés el día de hoy
• Independencia: Si un evento
ocurre, no tiene ningún efecto • Conjunta P(AB): Probabilidad de
sobre la probabilidad de que otro que se incremente el precio de la
evento ocurra. acción de Ecopetrol y de
Bancolombia
Reglas básicas de probabilidad
Hay algunos resultados relacionados con las definiciones de eventos
mutuamente excluyentes, de independencia y probabilidad condicional
que adquieren gran importancia en la solución de ciertos problemas:
• Ley de la adición
• Ley de la multiplicación
• Probabilidad total: indica como calcular la probabilidad de un
evento cuando se conocen las probabilidades condicionales
• Teorema de Bayes: permite obtener la probabilidad condicional de
un evento (causa) a partir de su efecto
Ley Especial de la Adición
P[ A B] P[ A] P[ B]
Ejemplo: Un estudio de 500 empresas de calzado revelo las siguientes
utilidades:
Ley Especial de la Adición (2)
¿Cuál es la probabilidad de que una empresa de calzado seleccionada al
azar tenga una utilidad de menos de 1 millón o más de 10 millones?
P[ A B] P[ A] P[ B]
P[ A B] 0.56 0.128 0.688
P[ A B] P[ A] P[ B] P[ A B]
Ejemplo: ¿Cuál es la probabilidad de que una carta, escogida al azar, de
una baraja convencional sea rey o corazón?
P[ A B] P[ A]P[ B]
P[ A B] 0.6 * 0.4 0.24
Regla General de la Multiplicación
Evento Condicionado: Suponga que se tiene 30 acciones, pero se sabe que
posiblemente 6 de ellas realicen fraude y se consideran “malas”. ¿Cuál es la
probabilidad de seleccionar una acción mala seguida de haber elegido otra
acción mala?
P[ A B ] P[ A]P[ B | A]
P[ A B ] (6 / 30) * (5 / 29) 0.0345
P[ A B C ] P[ A]P[ B | A]P[C | A B ]
Probabilidad Total
• Si A es un evento de S:
P[ A | B1 ]PB1
PB1 | A
P[ A | B1 ]PB1 P[ A | B2 ]PB2
De manera general,
P[ A | Bk ]PBk
PBk | A
P[ A | B1 ]PB1 P[ A | B2 ]PB2 P[ A | Bn ]PBn
Ej: Retomando el ejemplo del portafolio
• Eventos:
B1: Portafolio aumenta, tasa de interés disminuye. P(B1) = 0.2
B2: Portafolio aumenta, tasa de interés no varía. P(B2) = 0.3
B3: Portafolio aumenta, tasa de interés aumenta. P(B3) = 0.5
A1: Incrementa
A2: No incrementa
• Probabilidad Condicional
P(A1|B1) = 0.02 – Port incrementa, tasa de interés disminuye
P(A1|B2) = 0.03 - Port incrementa, tasa de interés no varía
P(A1|B3) = 0.05 - Port incrementa, tasa de interés aumenta
Diagrama de Árbol
Probabilidad Probabilidad Probabilidad
a priori condicional conjunta
PB2 | A1
0.03 * 0.3
0.2368
(0.03 * 0.3) (0.02 * 0.2) (0.05 * 0.5)