Sunteți pe pagina 1din 25

Prof. V.

Contreras T ESTADISTICA FIME

ESTADÍSTICA
La recopilación y el análisis de datos son fundamentales en la ciencia e ingeniería. Al
analizar los datos recopilados en experimentos, los científicos descubren los principios que
gobiernan el mundo físico y los ingenieros aprenden cómo diseñar nuevos productos y
procesos importantes. Una dificultad muy importante que se presenta con los datos
científicos es que éstos se encuentran sujetos a variaciones aleatorias o incertidumbre. Es
decir, cuando se repiten las mediciones científicas cada vez salen un poco diferentes. Lo
anterior plantea un problema: ¿cómo se pueden obtener conclusiones de los resultados
de un experimento cuando éstos pueden ser diferentes? Para analizar esta pregunta, es
esencial contar con cierto conocimiento estadístico.
La estadística descriptiva está formada por procedimientos empleados para resumir y
describir las características importantes de un conjunto de mediciones. La estadística
inferencial está formada por procedimientos empleados para hacer inferencias acerca de
características poblacionales, a partir de información contenida en una muestra sacada de
esta población.
Iniciaremos este curso con el desarrollo de la estadística descriptiva haciendo uso del
software SPSS.

ESTADÍSTICA DESCRIPTIVA
La Estadística descriptiva es una rama de la estadística que se ocupa de describir
conjuntos de mediciones, tanto muestras como poblaciones. Una vez que se haya
recolectado un conjunto de mediciones, ¿cómo puede mostrar este conjunto en una
forma clara, entendible y fácil de leer?

En esta parte aprenderemos a trabajar con los datos y a resumirlos, de manera gráfica y
numérica, para convertirlos en información útil para el problema en estudio.
La estadística descriptiva trata dos aspectos: el obtener información de los datos ta mbién
conocido como “análisis exploratorio de datos” y por otro lado se preocupa de la
"presentación de resultados".
Primero definamos algunos términos del lenguaje estadístico.

Variable
Definición: Una variable es una característica que cambia o varía con el tiempo y/o
para diferentes personas u objetos bajo ciertas consideraciones.

Por ejemplo, la temperatura del aceite que se encuentra en un motor es una variable que
cambia con el tiempo; también varía de un motor en otro.

1
Prof. V. Contreras T ESTADISTICA FIME

Unidad experimental

Una unidad experimental es el individuo u objeto en el que se mide una variable. Resulta
una sola medición o datos cuando una variable se mide en realidad en una unidad
experimental.
Si se genera una medición para toda unidad experimental en toda la colección, el conjunto
de datos resultante constituye la población de interés. Cualquier conjunto más pequeño
de mediciones es una muestra.

Población
Una población es el conjunto de mediciones de interés para el investigador.

Muestra
Una muestra es un subconjunto de mediciones seleccionado de la población de interés.

Por ejemplo si entre todos los alumnos de la FIME se selecciona un conjunto de cinco
Estudiantes y las mediciones se introducen en una hoja de cálculo, podemos identificar
diversas variables La unidad experimental en la que se miden las variables es un alumno
de la FIME en particular. Se miden cinco variables para cada estudiante: promedio de
calificaciones (PC), género, ciclo de estudios, número de curso en la que está matriculado
y denominación de los cursos. Cada una de estas características varía de un estudiante a
otro. Si consideramos los PC de todos los estudiantes de la FIME como la población de
interés, las cinco PC representan una muestra de esta población.
Si se hubiera medido la PC de cada estudiante de la FIME, hubiéramos generado toda la
población de mediciones para esta variable.

Tipos de Variables

Variables cualitativas son aquellas que clasifican las unidades en categorías. Las
categorías pueden tener un orden natural (ordinales) o no (nominales). Las variables
cualitativas también se llaman variables categóricas. Con estas variables podemos contar
número de casos, comparar entre categorías, pero no podemos realizar operaciones
numéricas.

Ejemplo
Nominal: está asociada a nombres.
Ejemplo: Marca de auto, Sexo, Religión.

Ordinal: tiene asociado un orden.


Ejemplo: Nivel educacional, Estado nutricional, Nivel Socioeconómico.

Variables cuantitativas tienen valores numéricos que representan medidas (largo, peso,
etc.) o frecuencias (número de). Tiene sentido realizar operaciones numéricas con estas variables.

Además distinguimos dentro de las variables cuantitativas las discretas y las continuas.

2
Prof. V. Contreras T ESTADISTICA FIME

Una variable discreta es aquella en la cual se puede contar el número posible de valores.

Ejemplo: El número de respuestas correctas en una prueba de 5 preguntas de V o F.

Una variable continua puede tomar cualquier valor en un intervalo dado.

Ejemplo: Cantidad de agua en un vaso de 50 ml.

Métodos gráficos y numéricos para describir variables cualitativas


- Tablas de distribución de frecuencias.
- Gráficos para variables cualitativas: Sectorial y de Barras.

Métodos gráficos para describir variables cuantitativas


- Gráfico de Puntos.
- Diagrama de Tallo y Hojas.
- Histograma.

Métodos numéricos para describir variables cuantitativas


- Medidas de Tendencia Central: Promedio, Mediana, Moda.
- Medidas de Dispersión: Rango, Desviación Estándar, Rango entre Cuarteles.
- Medidas de Posición Relativa.
Transformaciones lineales y estandarización

TABLAS DE FRECUENCIAS Y GRAFICOS USADOS EN LA ORGANIZACIÓN DE


DATOS

Para determinar las tablas de frecuencias y gráficos, consideremos la siguiente encuesta

Ejemplo:

Como parte de un estudio para conocer la aceptación de la nueva mega tienda “Vendo”
ubicada en la ciudad de Mayaguez, se eligió una muestra de 35 clientes para conocer sus
impresiones. Los resultados son los siguientes:

3
Prof. V. Contreras T ESTADISTICA FIME

GASTO INGRESO NÚMERO FORMA


CLIENTE RAZÓN DE VISITA SEMANAL MENSUAL DE HIJOS DE PAGO
1 oferta permanente 66 1200 2 Efectivo
2 guardería 72.5 1500 1 Credito
3 tarjeta de crédito 79.1 2100 3 Credito
4 oferta permanente 82.7 2000 3 Efectivo
5 guardería 55.3 1500 1 Efectivo
6 parking amplio 100.1 2200 2 Credito
7 Aire acondicionado 35.3 1450 3 Efectivo
8 tarjeta de crédito 60.4 1310 1 Credito
9 Aire acondicionado 57.2 1150 2 Efectivo
10 parking amplio 140 2320 0 Credito
11 tarjeta de crédito 69.1 1350 2 Efectivo
12 parking amplio 73.1 1640 1 Credito
13 guardería 75.3 1680 3 Credito
14 Aire acondicionado 30 1100 0 Efectivo
15 parking amplio 95.2 1850 2 Efectivo
16 guardería 65.3 1410 1 Efectivo
17 tarjeta de crédito 68 1580 3 Credito
18 parking amplio 115.3 2110 0 Efectivo
19 parking amplio 130.2 2180 2 Credito
20 Aire acondicionado 48.4 1640 3 Credito
21 guardería 86 1840 2 Credito
22 parking amplio 102.2 1950 3 Efectivo
23 oferta permanente 50.1 1230 2 Efectivo
24 tarjeta de crédito 101.2 2000 2 Credito
25 parking amplio 102.2 2810 3 Credito
26 oferta permanente 58.1 1530 4 Efectivo
27 tarjeta de crédito 90.3 1980 2 Credito
28 parking amplio 119.1 2900 4 Credito
29 oferta permanente 125.1 2680 3 Efectivo
30 tarjeta de crédito 70.2 1970 2 Credito
31 parking amplio 118.4 2560 3 Credito
32 oferta permanente 110.1 2180 4 Credito
33 tarjeta de crédito 84.3 1980 3 Efectivo
34 oferta permanente 77.2 2050 2 Credito
35 oferta permanente 104.2 2500 4 Credito

4
Prof. V. Contreras T ESTADISTICA FIME

DISTRIBUCION DE FRECUENCIAS

Lo primero que hacemos al querer describir variables cualitativas es contar cuántas


unidades caen en cada categoría de la variable. Esto lo presentamos en una tabla de
distribución de frecuencias, por ejemplo de la variable cualitativa: “Razón de visita”:

Gráficos para variables cualitativas.

Una vez que conocemos la distribución de la variable, nos interesa presentarla de alguna
manera gráfica, uno de los gráficos o diagramas más usados en variables cualitativas son
los diagramas sectoriales o de torta y los gráficos de barra.

Un gráfico sectorial (o de torta) muestra la distribución de una variable cualitativa


dividiendo un círculo en partes que corresponden a las categorías de la variable, tal que el
tamaño (ángulo) de cada pedazo es proporcional al porcentaje de ítems en cada categoría.

5
Prof. V. Contreras T ESTADISTICA FIME

Un gráfico de barras muestra la distribución de una variable cualitativa listando las


categorías o valores de la variable en el eje X y dibujando una barra sobre cada categoría.
La altura de la barra es igual al porcentaje de ítems en esa categoría. Las barras deben
tener el mismo ancho.

DISTRIBUCION DE FRECUENCIAS, de la variable cuantitativa discreta “Número de


hijos”

6
Prof. V. Contreras T ESTADISTICA FIME

7
Prof. V. Contreras T ESTADISTICA FIME

Métodos gráficos para describir variables cuantitativas

8
Prof. V. Contreras T ESTADISTICA FIME

Formas de distribuciones
Los términos usados para describir la forma de una distribución son:
 Simétrica: La distribución puede ser dividida en dos partes alrededor de un valor
central y cada parte es el reflejo de la otra.
 Sesgada: Un lado de la distribución se alarga más que el otro. La dirección del
sesgo es la dirección del lado más largo.
 Unimodal: La distribución tiene un único máximo que muestra el o los valores más
comunes en los datos.
 Bimodal: La distribución tiene dos máximos. Esto resulta a menudo cuando la
muestra proviene de dos poblaciones.
 Uniforme: Los valores posibles tienen la misma frecuencia

9
Prof. V. Contreras T ESTADISTICA FIME

Diagrama de Tallo y Hojas (Stem and Leaf).


Los gráficos o diagramas de tallo y hoja son una manera muy fácil de ordenar y mirar la
distribución de los datos. Proporciona información respecto al rango del conjunto de
datos, muestra la ubicación de la mayor concentración de mediciones y revela la presencia
o ausencia de distribución de los datos.
Pasos para hacer un Tallo y Hoja:
1. Separar cada medida en un tallo y una hoja.
Generalmente la hoja consiste en exactamente un dígito (el último) y el tallo consiste
en uno o más dígitos.
Ejemplo: 734 => tallo=73, hoja=4 2,345 => tallo=2,34, hoja=5.
A veces se deja fuera el decimal pero se agrega una nota de cómo leer el valor.
Para 2,345 por ejemplo podremos decir que 234 | 5 se debe leer como 2,345.
2. Escribir los tallos en orden creciente de arriba abajo y dibujar una línea a la derecha de
los tallos.
Ejemplo.
Separamos los números en un tallo y una hoja:
45 41 51 46 47 42 43 50 39 32
41 44 47 49 45 42 41 40 45 37
Solución
3 |2
3 |7 9
4 |0 1 11 22 34
4 |5 5 56 77 9
5 |0 1
Así podemos visualizar mejor que la distribución.

10
Prof. V. Contreras T ESTADISTICA FIME

Usando el SPSS se tiene el diagrama de Tallos y Hojas para los datos de gastos
semanales de la tienda VENDO
Gastos semanales Stem-and-Leaf Plot

Frequency Stem & Leaf

2.00 0 . 33
5.00 0 . 45555
11.00 0 . 66666777777
5.00 0 . 88899
9.00 1 . 000001111
2.00 1 . 23
1.00 1 . 4

Stem width: 100.0


Each leaf: 1 case(s)

Diagrama de dispersión

También llamado “Scatterplot”, muestra la dispersión de datos bivariados, los cuales


consisten de observaciones pareadas obtenidas desde dos variables numéricas. Es usado
para detectar la posible relación entre las dos variables.

Tablas de contingencia: Muestra en forma simultánea la frecuencia de dos variables


categóricas.
Tabla de contingencia Forma de pago * Razon de visita

Recuento

Razón de visita
oferta permanente guardería tarjeta de crédito parking amplio Aire acondicionado Total
Forma de pago Efectivo 5 2 2 3 3 15

Crédito 3 3 6 7 1 20
Total 8 5 8 10 4 35

11
Prof. V. Contreras T ESTADISTICA FIME

Diagrama de Cajas: También llamado “Boxplot”, muestra la dispersión de la variable en


estudio. Es usando para comparar la variabilidad de dos o más conjuntos de datos.

MEDIDAS DE TENDENCIA CENTRAL


1. LA MEDIA ARITMETICA

Para Datos No Agrupados.


El promedio aritmético de un conjunto de valores x1 , x2 , x3 ...xn es:
n

x i
X i 1

n
Para Datos Agrupados
k

f i Xi
X i 1

n
donde
f i : frecuencia de la clase k-ésima.
X i : Marca de clase en el k-ésimo intervalo.
EJEMPLO
Durante los últimos 32 días el valor de las compras en periódicos fue:
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 6.6 7.8 6.8
7.1 8.4 9.6 8.5 5.7 6.4 10.1 8.2 9.0 7.8 8.2 5.3 6.2
9.1 8.6 7.0 7.7 8.3 7.5
Halle el gasto promedio en periódicos.

Solución

12
Prof. V. Contreras T ESTADISTICA FIME

2. LA MEDIANA
Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El
50% de las observaciones son mayores que este valor y el otro 50% son menores.

Para Datos No agrupados.

Para Datos agrupados.

𝑛
𝑖 = El menor intervalo 𝑖 tal que se cumpla 𝐹𝑖 ≥ 2

13
Prof. V. Contreras T ESTADISTICA FIME

3. LA MODA

Es el valor, clase o categoría que ocurre con mayor frecuencia y sus características son:
- Puede no existir o existir más de una moda
- Su valor no se ve afectado por los valores extremos en los datos
- Se utiliza para analizar tanto la información cualitativa como la cuantitativa
- Es una medida “inestable” cuando en número de datos es reducido.

Para Datos No Agrupados.

Por ejemplo, durante los últimos 32 días el valor de las compras en periódicos fue:
{ 5.2, 10.2, 7.0, 7.1, 10.2, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1,
8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }
Moda = Mo = 7.1; Es el valor más frecuente, ocurre 3 veces.

Para Datos Agrupados.

14
Prof. V. Contreras T ESTADISTICA FIME

4. MEDIA GEOMÉTRICA
Corresponde al valor representativo central de observaciones secuenciales y
estrechamente relacionadas entre sí tales como tasas de: interés, inflación, devaluación,
variación, crecimiento, disminución. El promedio geométrico de los valores
es:

15
Prof. V. Contreras T ESTADISTICA FIME

5. PROMEDIO PONDERADO

Cuando se desea encontrar el promedio de valores X1 , X 2 , X 3 ... X K que ocurren con


frecuencias ( f1 , f 2 , f3 ... f K ) diferentes se deberán ponderar los valores observados con
pesos diferentes:
K
X  Wi X i
i 1

fi
Donde los valores Wi  se denominan “Ponderaciones o pesos”
n

6. PROMEDIO TOTAL

Corresponde al valor promedio representativo de grupos de observaciones separadas o


diferentes y que podrían estar consolidadas en tablas de frecuencia independientes, por
tanto:

16
Prof. V. Contreras T ESTADISTICA FIME

7. MEDIA ARMÓNICA5
El promedio armónico de los valores: (X1 X2 ..... Xn ) donde ninguno toma el valor “cero”
es:

Este promedio se utiliza para que los valores “extremos” no afecten al valor del promedio.
Los valores extremos sí afectan cuando se usa el promedio aritmético o el promedio
geométrico.

17
Prof. V. Contreras T ESTADISTICA FIME

PERCENTILES, CUARTILES Y DECILES

Para Datos Agrupados


Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales .

Cuartiles: Son 3 valores Q1; Q2 y Q3 que dividen a los datos en 4 partes iguales

El Cuartil 3 (Percentil 75%) se ubicará en el cuarto intervalo

Deciles: Son 9 valores D1, D2; D3; D4; D5; D6; D7; D8 y D9 que dividen a un conjunto de
datos en 10 partes iguales.
El Decil 7(Percentil 70%) se ubicará en el cuarto inte

18
Prof. V. Contreras T ESTADISTICA FIME

Para Datos No Agrupados

El lugar o posición donde se encuentran los cuartiles para n datos ordenados es:

19
Prof. V. Contreras T ESTADISTICA FIME

B. MEDIDAS DE VARIABILIDAD

1. AMPLITUD O RANGO
Sean los valores: (x1 x2 x3 ... xn ). La amplitud o rango de estos dato es A=(Xmax-Xmin)

2. VARIANCIA
Para Datos No Agrupados

Para Datos Agrupados


La variancia de los valores: (x1 x2 ... xk ) que ocurren con las frecuencias (f1 f2 ... fk ) es:

20
Prof. V. Contreras T ESTADISTICA FIME

3. DESVIACIÓN ESTÁNDAR
Es una medida de variabilidad que corresponde a la raíz cuadrada de la variancia. Este
indicador tiene la misma unidad de medida en la que se expresa el promedio.

4. COEFICIENTE DE VARIABILIDAD
Es una medida de variabilidad de los datos que se expresa en porcentaje en la cual se
compara la desviación estándar con el respectivo valor del promedio de los datos:

C. MEDIDA DE FORMA: ASIMETRIA O SESGO

Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto
a su valor promedio tomado como centro de gravedad. El coeficiente de asimetría de
Pearson es:

21
Prof. V. Contreras T ESTADISTICA FIME

D. MEDIDA DE FORMA: CURTOSIS


Evalúa el grado de apuntamiento de la distribución, el coeficiente es:

GRAFICA DE CAJAS

El diagrama de caja se construye de la siguiente manera:


 Dibujar la caja que empieza en el primer cuartil y termina en el tercer cuartil.
 Dibujar la mediana con una línea dentro de la caja
 Localizar los dos valores adyacentes por medio de la escala a lo largo del eje
horizontal, y unamos a la caja con líneas horizontales llamados Bigotes.
 Cualquier valor atípico sospechoso se marca en el gráfico con un (*) y está entre
los bordes internos y externos los valores atípicos extremos se marcan con un
círculo (°) y est.an fuera del borde externo
NOTAS
 Los valores adyacentes son las últimas observaciones en el conjunto ordenado
antes del borde interno.
 Los bordes internos también son llamados límite inferior y límite superior, y
están dadas por 𝑸𝟏 − 𝟏. 𝟓 (𝑰𝑸𝑹) y 𝑸𝟑 + 𝟏. 𝟓 (𝑰𝑸𝑹). Respectivamente.
 los bordes externos están dadas por 𝑸𝟏 − 𝟑 (𝑰𝑸𝑹) y 𝑸𝟑 + 𝟑 (𝑰𝑸𝑹).

22
Prof. V. Contreras T ESTADISTICA FIME

 Si la distancia entre la mediana y los cuartiles es aproximadamente la misma


podemos deducir que la distribución de los datos es más o menos simétrica como
como se ve en el histograma y en el diagrama de tallo y hoja.

Del ejemplo, valores de compras en periódicos en los últimos 32 días del Hotel AAA
{ 5.2, 10.2, 7.0, 7.1, 10.6, 8.3, 9.4, 9.2, 6.5, 7.1, 6.6, 7.8, 6.8, 7.1, 8.4, 9.6, 8.5, 5.7, 6.4, 10.1,
8.2, 9.0, 7.8, 8.2, 5.3, 6.2, 9.1, 8.6, 7.0, 7.7, 8.3, 7.5 }
Se tiene la grafica de cajas:

23
Prof. V. Contreras T ESTADISTICA FIME

24
Prof. V. Contreras T ESTADISTICA FIME

25