Documente Academic
Documente Profesional
Documente Cultură
DATOS
Conceptos básicos
Estadística
o Ciencia que se ocupa tanto de la obtención, organización e interpretación de
conjuntos de datos (Estadística Descriptiva), como la generación de inferencias y
predicciones a partir de dichos datos (Estadística Inferencial)
Normalmente para la recolección se recurre a encuestas, con las cuales surgen los siguientes
términos
Población
o Conjunto de individuos o elementos que poseen alguna variable (dato) común que
se quiere estudiar
o Puede ser finita o bien infinitas
Normalmente son de gran tamaño, por lo cual se suele realizar una
Muestra para la recolección de Datos
Muestra
o Subconjunto de la población
o Debe ser representativa
Son al azar y de un tamaño considerable
o Si no es representativa, cabe la posibilidad de encontrarse con un error muestral
Variable Estadística
o Puede ser de dos tipos
Cuantitativa Aquellos datos que se pueden expresar en números
Discreta
o Solo puede tomar algunos valores enteros
o Posee un conjunto finito de valores
o Ej: Cantidad de personas viajando en auto
Continua
o Puede tomar cualquier valor dentro de un intervalo de
valores
o Ej: Estaturas de un grupo de personas
Cualitativa Aquellos datos que no se pueden representar como números
Ordinal
o Se puede ordenar por niveles, por jerarquía
o EJ: Niveles de Satisfacción
Nominal
o No se puede ordenar
Color favorito
Frecuencia (f)
o Número de veces que se repite un dato
o Se denomina normalmente Frecuencia Absoluta
. = ,
o Puede tomar valores decimales, o bien porcentuales (para lo cual, luego de dividir
el resultado lo multiplicas por 100)
= ← ( )
Intervalo
o Forma de agrupar datos para variables continuas
o Cada intervalo valores continuos entre dos parámetros (el límite inferior y el
limite superior)
o Se denotan como
[ a, b[
A = límite inferior ; B = límite superior
[ => Incluye al valor “a”
[ => No incluye el valor de “b”
o El ultimo intervalo es el único que tiene sus dos limites contenidos en él, esto es,
es el único intervalo con ambos corchetes hacia dentro
=
°
6
4
2
0
Datos
Frecuencia Acumulada
A B C D
Histograma
*** Lo recomendable para trabajar con gráficos es realizar una tabla con los datos que le
entregan estos ***
Medidas de Tendencia Central
Moda (Mo)
Es el dato que se repite más en la muestra, esto es, el dato con mayor frecuencia en un
estudio. La moda existe tanto para variables cualitativas como cuantitativas
En el caso que un estudio tenga datos con iguales frecuencias entre ellos, esto significa que la
muestra es amodal, Por ejemplo la muestra {1, 2, 3, 8, 5, 4, 6, 9, 0} , posee datos con
frecuencia 1, todos y cada uno, por lo cual la muestra es amodal.
Por otro lado, si existe una muestra que posee solo un dato que tiene la mayor frecuencia de
aparición, esta muestra se denomina unimodal. Ejemplo: {1, 2, 2, 2, 2, 8, 9, 10, 68, 43} , Mo = 2
Hay algunas muestras que poseen más de un dato que tiene la mayor frecuencia, estas
muestras se pueden denominar en vista de la cantidad de modas (Bimodal, trimodal,
tetramodal, etc.) pero se suele denominar simplemente como Muestra Polimodal
En muestras con intervalos, se debe ubicar el Intervalo modal, ósea aquel que posea mayor
frecuencia absoluta. (****Cabe destacar, que la Moda no necesariamente se encuentra en el
Intervalo Modal****)
Calculo de la moda
o Sin intervalos
Equivale al dato que posee la mayor frecuencia absoluta
Ejemplo:
X f
Mo = 5
1 15
(Ojo que la moda equivale al dato en sí, no
5 19
confundir la frecuencia que más se repita como
69 2
moda, ya que estaría incorrecto)
o Con intervalos (solo es una estimación)
∆1
= + ∗
∆1 + ∆2
Ejemplo: X f
Media Aritmética ( )
Ejemplo: X f
o Con intervalos
Se calcula la Marca de clase de cada intervalo, y se multiplica por sus
respectivas frecuencias
Se suman los productos, y el resultado de esto se divide por el total de
datos
Ejemplo:
X Mc f Mc * f
La sumatoria de los productos es
[120, 150[ 135 8 135*8 = 1080
3660, y el total de datos es
[150, 180[ 165 7 165*7 = 1155
(8+7+5+2=22), Por lo que el promedio
[180, 210[ 195 5 195*5 = 975
se calcula mediante la división entre
[210, 240] 225 2 225*2 = 450
estos dos:
Total 3660
= 3660/22 = 166,36…
Mediana (Me)
Corresponde al valor bajo el cual está el 50% de los datos y sobre él, el otro 50% de estos.
Solo es aplicable a datos cuantitativos. Para calcularla los datos deben estar ordenados de
mayor a menor, o bien de menor a mayor
Ejemplo:
X f F Interpretación de F
Total de datos = 21
2 8 8 Datos del 1 al 8
n es impar
5 4 12 Datos del 9 al 12
Me ocupa la posición 12 5 17 Datos del 13 al 17
(21+1)/2 = 11 34 4 21 Datos del 18 al 21
Me= 5
Ejemplo 2:
Me = (15+19)/2 = 17
−
= +2 ∗
Ejemplo:
X f F
Total de datos = 18 n/2 = 9
[12, 16[ 7 7
Intervalo de la mediana = [16,20[ [16, 20[ 4 11
Me = 16 + (9-7)/4 * 4 = 18
Medidas de Posición
Cuantiles
Los Cuantiles son valores bajo los cuales se encuentra un cierto porcentaje de datos. Existen
diversas formas, sin embargo las más conocidas son:
- Déciles (Dx)
o Son aquellos datos que dividen el total de datos en 10 partes iguales
o Bajo el decil X se encuentra el X*10% de los datos
- Quintiles (Tx)
o Dividen al total de datos en 5 partes iguales
o Bajo el Quintil X se encuentra el X*20% de los datos
- Cuartiles (Qx)
o Dividen al total de datos en 4 partes iguales
o Bajo el Cuartil X se encuentra el X*25% de los datos
- Percentiles (P40)
o Son los 99 valores que dividen al total de datos en 100 partes iguales
o El percentil X corresponde el dato bajo el cual está el X%
o Todos los Cuantiles tienen su respectivo percentil homologo:
Ejemplo: Q3 = 75%= P75 ; T3= 60% = P60 ; D4 = 40% = P40
o Para calcular cualquier tipo de cuantil, basta con calcular su percentil
correspondiente
Calculo de Percentiles
-Buscar los percentiles P40, P50 y P25 en A= {1, 4, 6, 7, 8, 9, 10, 11, 12, 13, 15, 18}
n = 12
P50 = Promedio entre los datos que ocupan la posición 6 y 7 = (9+10)/2 = 9,5
P25 = Promedio entre los datos que ocupan la posición 3 y 4 = (6+7)/2= 6,5
Ejemplo:
n = 25; X f F
- P30 30*25/100=7,5~8 5 4 4
7 8 12
P30 ocupa la posición 8 P30 = 7
13 3 15
- P15 15*25/100 = 3,25 ~ 4
16 4 19
P15 ocupa la posición 4 P15 = 5
19 6 25
- P45 45*25/100 = 11,25 ~ 12
∗
−
= + 100 ∗
X f F
N=20
[2, 4[ 7 7
K*n/100 62*20/100 = 12,4 ~ 13
[4, 6[ 4 11
El intervalo que contiene al dato que ocupa la [6, 8[ 6 17
posición 13, es [6,8[ [8, 10[ 3 20
Li = 6; Fant = 11; f= 6; A= 2
Se utilizan para detectar si la muestra está más o menos dispersa, sin embargo son sensibles
a datos extremos, de modo que no son muy representativas si hay muchos datos de este
tipo. (Solo son aplicables para datos cuantitativos)
- Varianza ( )
o Es el promedio de los cuadrados de las diferencias entre los datos y las medias
Cómo se calcula mediante cuadrados de las diferencias, no se pueden
comparar los datos mediante la varianza, ya que está equivale a otra
unidad de medida
Para solucionar ese problema surge la Desviación estándar
o Para datos sin agrupar, agrupados sin intervalos y agrupados en intervalos,
respectivamente:
∑ ( − ) ∑ ( − ) ∗ ∑ ( − ) ∗
= ; = ; =
= −( )
= ; =
o Propiedades
La varianza siempre es un valor positivo o cero
Si la varianza vale cero, significa que la muestra es un número fijo, o bien
se compone de únicamente datos iguales
Si a todos los datos se les suma un número, la varianza no cambia
Si a todos los datos se les multiplica por K, entonces la varianza queda
multiplicada por K2 (K*x) = (x) * K2
- Desviación Estándar ( )
∑ ( − ) ∑ ( − ) ∗ ∑ ( − ) ∗
= ; = ; =
o Propiedades
El valor de la desviación estándar siempre será un valor positivo o cero
Si a todos los datos se les suma un número, la desviación no cambia
Cuando la desviación estándar es cercana a cero, los datos están más
concentrados
Si está muy alejada de cero, la media no es representativa y los
datos están muy dispersos
Si = 0, significa que la muestra es un número fijo, o bien todos los datos
son iguales
Si todos los datos son multiplicados por K, entonces la desviación queda
multiplicada por K ( )= ( )∗
o Es una representación gráfica basado en los cuartiles que ayuda a ilustrar una
muestra de datos. Para elaborar este gráfico, sólo se necesitan cinco datos, el
valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo de
la muestra. El largo de la caja equivale a Q3 - Q2
o Tipos de muestras
Simétrica: Los valores intercuartilicos están igualmente de dispersos
Asimétrica
Positiva: Los valores intercuartilicos más grandes están más
dispersos que los pequeños
Negativa: Los valores intercuartilicos más pequeños están más
dispersos que los grandes