Guía Datos y Azar I (@biomath - 19)

@biomath_19
DATOS
Conceptos básicos
 Estadística
o Ciencia que se ocupa tanto de la obtención, organización e interpretación de
conjuntos de datos (Estadística Descriptiva), como la generación de inferencias y
predicciones a partir de dichos datos (Estadística Inferencial)
Normalmente para la recolección se recurre a encuestas, con las cuales surgen los siguientes
términos
 Población
o Conjunto de individuos o elementos que poseen alguna variable (dato) común que
se quiere estudiar
o Puede ser finita o bien infinitas
 Normalmente son de gran tamaño, por lo cual se suele realizar una
Muestra para la recolección de Datos
 Muestra
o Subconjunto de la población
o Debe ser representativa
 Son al azar y de un tamaño considerable
o Si no es representativa, cabe la posibilidad de encontrarse con un error muestral
 Variable Estadística
o Puede ser de dos tipos
 Cuantitativa  Aquellos datos que se pueden expresar en números
 Discreta
o Solo puede tomar algunos valores enteros
o Posee un conjunto finito de valores
o Ej: Cantidad de personas viajando en auto
 Continua
o Puede tomar cualquier valor dentro de un intervalo de
valores
o Ej: Estaturas de un grupo de personas
 Cualitativa  Aquellos datos que no se pueden representar como números
 Ordinal
o Se puede ordenar por niveles, por jerarquía
o EJ: Niveles de Satisfacción
 Nominal
o No se puede ordenar
 Color favorito
 Frecuencia (f)
o Número de veces que se repite un dato
o Se denomina normalmente Frecuencia Absoluta
 Frecuencia total (fT ) o Tamaño de la Muestra

o Suma de las frecuencias absolutas de cada dato
 Frecuencia Absoluta Acumulada (F)

o Representa la cantidad de datos debajo de un dato
o Se obtiene sumando las frecuencias absolutas de todos los datos/intervalos
menores o iguales, al dato/intervalo en estudio:
. = ,
 Frecuencia Relativa (fr)

o Corresponde a la porción del total
o Puede tomar valores decimales, o bien porcentuales (para lo cual, luego de dividir
el resultado lo multiplicas por 100)
 Frecuencia Relativa Acumulada (Fr)

o Es la porción del total que es menor o igual a un dato/intervalo
o Equivale a la suma de todas las frecuencias relativas antes de un determinado
dato/intervalo
= ← ( )
o La ultima Fr equivale a 1 ( o a 100%, si se está midiendo en porcentaje)

 Rango
o Diferencia entre el valor máximo y el valor mínimo, en datos dispersos o
tabulados (sin intervalos)
o Diferencia entre el límite superior del intervalo más grande y el límite inferior del
intervalo más pequeños
 Intervalo
o Forma de agrupar datos para variables continuas
o Cada intervalo valores continuos entre dos parámetros (el límite inferior y el
limite superior)
o Se denotan como
 [ a, b[
 A = límite inferior ; B = límite superior
 [ => Incluye al valor “a”
 [ => No incluye el valor de “b”
o El ultimo intervalo es el único que tiene sus dos limites contenidos en él, esto es,
es el único intervalo con ambos corchetes hacia dentro
 Amplitud del Intervalo (A)

o Equivale a la resta entre el límite superior y el inferior de un intervalo
o Se puede calcular mediante
=
°
 Marca de Clase (Mc)

o Debido a que no se pueden determinar los valores de los datos que fueron
introducidos en los intervalos, se utiliza una medida representativa del intervalo,
que equivale al promedio entre los límites de este
o Por ejemplo, teniendo el intervalo de la forma [a, b[
 Límite superior => b ; Límite inferior =>a
+
=
2
Representación gráfica
Gráficos de líneas (f) .
Gráfico de barras (f)

10
8
Frecuencia
6
4
2
0
Datos
Frecuencia Acumulada
Grafico Circular (fr)
A B C D
Histograma
- Se utilizan para grupos en intervalos

- Las barras contienen el límite inferior
pero no el superior, a excepción del último
que contiene ambos
- Se suele ocupar con Frecuencia Absoluta
*** Lo recomendable para trabajar con gráficos es realizar una tabla con los datos que le
entregan estos ***
Medidas de Tendencia Central
Moda (Mo)
Es el dato que se repite más en la muestra, esto es, el dato con mayor frecuencia en un
estudio. La moda existe tanto para variables cualitativas como cuantitativas
En el caso que un estudio tenga datos con iguales frecuencias entre ellos, esto significa que la
muestra es amodal, Por ejemplo la muestra {1, 2, 3, 8, 5, 4, 6, 9, 0} , posee datos con
frecuencia 1, todos y cada uno, por lo cual la muestra es amodal.
Por otro lado, si existe una muestra que posee solo un dato que tiene la mayor frecuencia de
aparición, esta muestra se denomina unimodal. Ejemplo: {1, 2, 2, 2, 2, 8, 9, 10, 68, 43} , Mo = 2
Hay algunas muestras que poseen más de un dato que tiene la mayor frecuencia, estas
muestras se pueden denominar en vista de la cantidad de modas (Bimodal, trimodal,
tetramodal, etc.) pero se suele denominar simplemente como Muestra Polimodal
En muestras con intervalos, se debe ubicar el Intervalo modal, ósea aquel que posea mayor
frecuencia absoluta. (****Cabe destacar, que la Moda no necesariamente se encuentra en el
Intervalo Modal****)
Calculo de la moda
- Para datos sin agrupar

o Simplemente cuente las veces que se repiten los datos, y defina cuál (en el caso
que haya) se repite con mayor frecuencia, y ese será la moda
o Ejemplo: Muestra A = { 1, 2, 4, 5, 8, 8, 8, 32, 32, 24, 1, 1, 1, 1,}  Mo = 1
- Para datos agrupados
o Sin intervalos
 Equivale al dato que posee la mayor frecuencia absoluta
Ejemplo:
X f
Mo = 5
1 15
(Ojo que la moda equivale al dato en sí, no
5 19
confundir la frecuencia que más se repita como
69 2
moda, ya que estaría incorrecto)
o Con intervalos (solo es una estimación)
∆1
= + ∗
∆1 + ∆2
 Li = Límite inferior del intervalo modal

 ∆1 = Frecuencia del intervalo modal – Frecuencia del intervalo anterior al
modal
 ∆2 = Frecuencia del intervalo modal – Frecuencia del intervalo posterior al
modal
 A = Amplitud del intervalo modal
Ejemplo: X f
Intervalo modal  [14, 18[ [10, 14[ 4
Li = 14 ; ∆1 = 10-4 = 6 ; ∆2 = 10 – 5 = 5 ; A = 4 [14, 18[ 10
Mo = 14 + (6 / (6+5) ) * 4  Mo = 16,18 [18, 22] 6
Media Aritmética ( )
El promedio de una muestra recibe bastantes nombres: Media Aritmética, Esperanza

Matemática, o Valor esperado. Todos se refieren a un mismo valor, el cual representa a la
muestra en su totalidad en la mayoría de los casos (hay veces que la dispersión es tan
grande, que el promedio no te indica nada en realidad).
Es aplicable solo a variables cuantitativas, es imposible calcular un promedio entre variables

cualitativas. Posee 2 propiedades de relevancia:
- Es sensible a datos extremos

- Si todos los datos se aumentan, disminuyen, multiplican o dividen por K, el promedio
resultante equivale al inicial aumentado, disminuido, multiplicado o dividido por K,
respectivamente
Calculo del Promedio
- Para datos sin tabular

o Se suman todos los datos y el resultado se divide por la cantidad total de datos
o Ejemplo:
 { 11, 14, 15, 18, 20, 12}  = (11+14+15+18+20+12)/6 = 15
- Para datos tabulados
o Sin intervalos
 Se multiplica cada dato por su respectiva frecuencia
 Se suman los productos, y se divide el resultado de esto por el total de
datos
Ejemplo: X f
Sumatoria  8* 2 + 5*3 + 2*4 + 1*5 + 0*14=44 8 2
= Sumatoria/ total de datos = 44/28 = 1,57 5 3

2 4
1 5
0 14
o Con intervalos
 Se calcula la Marca de clase de cada intervalo, y se multiplica por sus
respectivas frecuencias
 Se suman los productos, y el resultado de esto se divide por el total de
datos
Ejemplo:
X Mc f Mc * f
La sumatoria de los productos es
[120, 150[ 135 8 135*8 = 1080
3660, y el total de datos es
[150, 180[ 165 7 165*7 = 1155
(8+7+5+2=22), Por lo que el promedio
[180, 210[ 195 5 195*5 = 975
se calcula mediante la división entre
[210, 240] 225 2 225*2 = 450
estos dos:
Total 3660
= 3660/22 = 166,36…
Mediana (Me)
Corresponde al valor bajo el cual está el 50% de los datos y sobre él, el otro 50% de estos.
Solo es aplicable a datos cuantitativos. Para calcularla los datos deben estar ordenados de
mayor a menor, o bien de menor a mayor
Calculo de la Mediana (n = total de datos)
- Para datos no tabulados

o Se ordenan los datos
 Si n es impar, la mediana ocupa la posición (n+1)/2
 Si n es par, la mediana es el promedio entre los datos que ocupan la
posición {n/2} y {n/2 + 1}, respectivamente.
o Ejemplo:
o A= { 1, 2, 3, 4, 6, 7, 8, 9, 10}
  n =9, es impar Me ocupa la posición (9+1)/2 = 5
 ¿Cuál dato ocupa la posición 5? Contamos desde cualquier extremo hasta
el quinto (ya que están ordenados)  Me = 6
o B = {12, 15, 16, 17, 20, 25, 29, 30, 34, 40}
 n =10, es par Me ocupa las posiciones 10/2=5 y 10/2 +1 = 5+1=6
 Dato que ocupa la posición 5 20
 Dato que ocupa la posición 6  25
 Me= Promedio entre 20 y 25 = (20+25)/2 = 22,5
- Para datos tabulados

o Sin intervalos
 Se realiza el mismo proceso que utilizamos para datos no tabulados, solo
que en este caso se trabaja con la Frecuencia Acumulada (F)
Ejemplo:
X f F Interpretación de F
Total de datos = 21
2 8 8 Datos del 1 al 8
 n es impar
5 4 12 Datos del 9 al 12
Me ocupa la posición 12 5 17 Datos del 13 al 17
(21+1)/2 = 11 34 4 21 Datos del 18 al 21
Me= 5
Ejemplo 2:
Total de datos = 20 X f F Interpretación

n es par 13 6 6 Datos del 1 al 6
Me es el promedio entre 15 4 10 Datos del 7 al 10
los datos que ocupan las 19 7 17 Datos del 11 al 17
posiciones 20/2 = 10 y 21 3 20 Datos del 18 al 20

10+1=11
Me = (15+19)/2 = 17
o Con intervalos (solo es una estimación)

 Se busca el intervalo que contiene la posición n/2 (si n/2 resulta un
decimal, se aproxima al entero mayor más cercano) y se ocupa la
siguiente formula:
−
= +2 ∗
- Li = Límite inferior del intervalo de la mediana

- Fant = F. acumulada del intervalo anterior al intervalo que contiene la mediana
- f= f. absoluta del intervalo de la mediana
- A= amplitud del intervalo de la mediana
Ejemplo:
X f F
Total de datos = 18 n/2 = 9
[12, 16[ 7 7
Intervalo de la mediana = [16,20[ [16, 20[ 4 11
Li = 16 ; Fant= 7 ; f = 4 [20, 24[ 2 13
A= 20 -16 = 4 [24, 28] 5 18
Me = 16 + (9-7)/4 * 4 = 18
Medidas de Posición
Cuantiles
Los Cuantiles son valores bajo los cuales se encuentra un cierto porcentaje de datos. Existen
diversas formas, sin embargo las más conocidas son:
- Déciles (Dx)
o Son aquellos datos que dividen el total de datos en 10 partes iguales
o Bajo el decil X se encuentra el X*10% de los datos
- Quintiles (Tx)
o Dividen al total de datos en 5 partes iguales
o Bajo el Quintil X se encuentra el X*20% de los datos
- Cuartiles (Qx)
o Dividen al total de datos en 4 partes iguales
o Bajo el Cuartil X se encuentra el X*25% de los datos
- Percentiles (P40)
o Son los 99 valores que dividen al total de datos en 100 partes iguales
o El percentil X corresponde el dato bajo el cual está el X%
o Todos los Cuantiles tienen su respectivo percentil homologo:
 Ejemplo: Q3 = 75%= P75 ; T3= 60% = P60 ; D4 = 40% = P40
o Para calcular cualquier tipo de cuantil, basta con calcular su percentil
correspondiente
Calculo de Percentiles
- Para datos sin agrupar

o Se ordenan los datos de menor a mayor
o Se calcula la posición que ocupa el Pk
∗
 ó =
 Si resulta un decimal se aproxima al entero mayor más cercano, y
el dato que ocupa esa posición es Pk
 Si resulta un entero se promedia el dato que ocupa esa posición
junto con el dato que ocupa la posición siguiente
Ejemplo:
-Buscar los percentiles P40, P50 y P25 en A= {1, 4, 6, 7, 8, 9, 10, 11, 12, 13, 15, 18}
n = 12
- P40  40*12/100 =480/100 = 4,8 ~ 5
 P40 = Dato que ocupa la posición 5 = 8
- P50  50*12/100 = 600/100 = 6
 P50 = Promedio entre los datos que ocupan la posición 6 y 7 = (9+10)/2 = 9,5
- P25  25*12/100 = 300/100 = 3
P25 = Promedio entre los datos que ocupan la posición 3 y 4 = (6+7)/2= 6,5
- Para datos agrupados sin intervalos

o Se calcula de la misma forma, pero para ubicar la posición se utiliza la Frecuencia
acumulada
 K*n/100
 Par Promedio entre el dato que ocupa la posición k*n/100 y el de
la posición siguiente
 Impar El decimal de k*n/100 se aproxima al entero mayor más
cercano
Ejemplo:
- Buscar P30, P15, P46
n = 25; X f F
- P30 30*25/100=7,5~8 5 4 4
7 8 12
P30 ocupa la posición 8  P30 = 7
13 3 15
- P15 15*25/100 = 3,25 ~ 4
16 4 19
P15 ocupa la posición 4  P15 = 5
19 6 25
- P45  45*25/100 = 11,25 ~ 12
P45 ocupa la posición 12 P45 = 7

- Para datos agrupados en intervalos:
o Se debe ubicar el intervalo que contiene al dato que ocupa la posición k*n/100
(mediante la frecuencia acumulada), y aplicar la fórmula:
∗
−
= + 100 ∗
- Li = límite inferior del intervalo que contiene k*n/100

- Fant = Frecuencia acumulada del intervalo anterior al que contiene a k*n/100
- f = frecuencia absoluta del intervalo que contiene a k*n/100
- A= amplitud del intervalo que contiene a k*n/100
Ejemplo: Calcular P62
X f F
N=20
[2, 4[ 7 7
K*n/100 62*20/100 = 12,4 ~ 13
[4, 6[ 4 11
El intervalo que contiene al dato que ocupa la [6, 8[ 6 17
posición 13, es [6,8[ [8, 10[ 3 20
Li = 6; Fant = 11; f= 6; A= 2
P62= 6 + (13-11)/6 *”2 = 6 + 0,66 = 6,66

Medidas de Dispersión
Se utilizan para detectar si la muestra está más o menos dispersa, sin embargo son sensibles
a datos extremos, de modo que no son muy representativas si hay muchos datos de este
tipo. (Solo son aplicables para datos cuantitativos)
- Desviación media (Dx)

o Es el promedio de las distancias que hay entre los datos y la media, en otras
palabras, equivale al promedio de lo dispersa que es la muestra con respecto al
promedio de esta
| − |+| − |+| − | +⋯+| + | ∑ | − |
= =
- Varianza ( )
o Es el promedio de los cuadrados de las diferencias entre los datos y las medias
 Cómo se calcula mediante cuadrados de las diferencias, no se pueden
comparar los datos mediante la varianza, ya que está equivale a otra
unidad de medida
 Para solucionar ese problema surge la  Desviación estándar
o Para datos sin agrupar, agrupados sin intervalos y agrupados en intervalos,
respectivamente:
∑ ( − ) ∑ ( − ) ∗ ∑ ( − ) ∗
= ; = ; =
o También, la varianza se puede calcular a partir del promedio
= −( )
= ; =
o Propiedades
 La varianza siempre es un valor positivo o cero
 Si la varianza vale cero, significa que la muestra es un número fijo, o bien
se compone de únicamente datos iguales
 Si a todos los datos se les suma un número, la varianza no cambia
 Si a todos los datos se les multiplica por K, entonces la varianza queda
multiplicada por K2  (K*x) = (x) * K2
- Desviación Estándar ( )
o Es la raíz cuadrada de la varianza
∑ ( − ) ∑ ( − ) ∗ ∑ ( − ) ∗
= ; = ; =
o Equivale al promedio de las desviaciones con respecto a la media de la muestra
o Propiedades
 El valor de la desviación estándar siempre será un valor positivo o cero
 Si a todos los datos se les suma un número, la desviación no cambia
 Cuando la desviación estándar es cercana a cero, los datos están más
concentrados
 Si está muy alejada de cero, la media no es representativa y los
datos están muy dispersos
 Si = 0, significa que la muestra es un número fijo, o bien todos los datos
son iguales
 Si todos los datos son multiplicados por K, entonces la desviación queda
multiplicada por K  ( )= ( )∗
- Relaciones entre la Varianza y la desviación

o = ↔ =0 ó =1
o < ↔ 0< <1
o > ↔ >1
- Gráfico de Caja y Bigote
o Es una representación gráfica basado en los cuartiles que ayuda a ilustrar una
muestra de datos. Para elaborar este gráfico, sólo se necesitan cinco datos, el
valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo de
la muestra. El largo de la caja equivale a Q3 - Q2
o Tipos de muestras
 Simétrica: Los valores intercuartilicos están igualmente de dispersos
 Asimétrica
 Positiva: Los valores intercuartilicos más grandes están más
dispersos que los pequeños
 Negativa: Los valores intercuartilicos más pequeños están más
dispersos que los grandes

Muestra Asimétrica Negativa Muestra Simétrica Muestra Asimétrica positiva

Guía Datos y Azar I (@biomath - 19)

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Guía Datos y Azar I (@biomath - 19)

Încărcat de

Drepturi de autor:

Formate disponibile

@biomath_19

 Frecuencia total (fT ) o Tamaño de la Muestra

 Frecuencia Absoluta Acumulada (F)

 Frecuencia Relativa (fr)

 Frecuencia Relativa Acumulada (Fr)

o La ultima Fr equivale a 1 ( o a 100%, si se está midiendo en porcentaje)

 Amplitud del Intervalo (A)

 Marca de Clase (Mc)

Gráficos de líneas (f) .

Gráfico de barras (f)

Grafico Circular (fr)

- Se utilizan para grupos en intervalos

- Para datos sin agrupar

 Li = Límite inferior del intervalo modal

Intervalo modal  [14, 18[ [10, 14[ 4

Li = 14 ; ∆1 = 10-4 = 6 ; ∆2 = 10 – 5 = 5 ; A = 4 [14, 18[ 10

Mo = 14 + (6 / (6+5) ) * 4  Mo = 16,18 [18, 22] 6

El promedio de una muestra recibe bastantes nombres: Media Aritmética, Esperanza

Es aplicable solo a variables cuantitativas, es imposible calcular un promedio entre variables

- Es sensible a datos extremos

Calculo del Promedio

- Para datos sin tabular

Sumatoria  8* 2 + 5*3 + 2*4 + 1*5 + 0*14=44 8 2

= Sumatoria/ total de datos = 44/28 = 1,57 5 3

Calculo de la Mediana (n = total de datos)

- Para datos no tabulados

- Para datos tabulados

Total de datos = 20 X f F Interpretación

Me es el promedio entre 15 4 10 Datos del 7 al 10

los datos que ocupan las 19 7 17 Datos del 11 al 17

posiciones 20/2 = 10 y 21 3 20 Datos del 18 al 20

o Con intervalos (solo es una estimación)

- Li = Límite inferior del intervalo de la mediana

Li = 16 ; Fant= 7 ; f = 4 [20, 24[ 2 13

A= 20 -16 = 4 [24, 28] 5 18

- Para datos sin agrupar

- P40  40*12/100 =480/100 = 4,8 ~ 5

 P40 = Dato que ocupa la posición 5 = 8

- P50  50*12/100 = 600/100 = 6

- P25  25*12/100 = 300/100 = 3

- Para datos agrupados sin intervalos

- Buscar P30, P15, P46

P45 ocupa la posición 12 P45 = 7

- Li = límite inferior del intervalo que contiene k*n/100

Ejemplo: Calcular P62

P62= 6 + (13-11)/6 *”2 = 6 + 0,66 = 6,66

- Desviación media (Dx)

o También, la varianza se puede calcular a partir del promedio

o Es la raíz cuadrada de la varianza

o Equivale al promedio de las desviaciones con respecto a la media de la muestra

- Relaciones entre la Varianza y la desviación

Muestra Asimétrica Negativa Muestra Simétrica Muestra Asimétrica positiva

S-ar putea să vă placă și

Sumatoria  8* 2 + 53 + 24 + 15 + 014=44 8 2