Sunteți pe pagina 1din 64

¿Qué es la estadística?

1. Estadística, en su acepción más común, no es


más que una colección de datos numéricos
ordenados y clasificados según un determinado
criterio. Nos referimos a este significado cuando
hablamos de estadísticas de producción, estadísticas
de cotizaciones bursátiles, estadísticas demográficas,
etc.
2. Estadística, en una segunda acepción, es la ciencia
que, utilizando como instrumento a las matemáticas y
al cálculo de probabilidades, estudia las leyes de
comportamiento de aquellos fenómenos que, no
estando sometidos a las leyes físicas y basándose en
ellas predice e infiere resultados. El término
estadística matemática viene a ser el nombre propio
de esta acepción.
3. Estadística, significa en su última acepción, la
técnica o método científico usado para recolectar,
organizar, resumir, presentar, analizar, interpretar,
generalizar y contrastar los resultados de las
observaciones de los fenómenos reales.
¿Por qué usted necesita conocer estadística?

1. Presentar y describir la información en forma


adecuada.

2. Inferir conclusiones sobre poblaciones grandes


basándose solamente en la información obtenida
de subconjuntos de ellas.

3. Utilizar modelos para obtener pronósticos confiables.


Términos comúnmente usados en estadística

1- Una población es el conjunto total de objetos que son de


interés para un problema dado. Los objetos pueden ser
personas, animales, producto fabricados, etc. Cada uno de
ellos recibe el nombre de elemento o individuo de la
población

Ejemplo 1 - Todos los niños nacidos en determinado año pueden


constituir una población.

Si el director de una gran empresa manufacturera desea estudiar la


producción de todas las plantas de propiedad de la firma, entonces,
la producción de todas estas plantas es la población.
2 - Una muestra es un subconjunto de la población.

Ejemplo 2- Si todos los niños nacidos en determinado año


constituyen una población, entonces, los niños nacidos en el mes
de febrero pueden constituir una muestra.

3 - Un parámetro es cualquier característica medible de una


población.

Ejemplo 3 -El ingreso promedio de todos los trabajadores de


una determinada empresa es un ejemplo de parámetro, si todos
los trabajadores se consideran como una población.
4 -Un estadístico es cualquier característica medible de una
muestra.

Ejemplo 4 - El ingreso promedio de todos los asalariados de una


determinada sección de la empresa (viendo a los trabajadores de
esta como una muestra de todos los trabajadores de esta
empresa) es un ejemplo de estadístico.

5 - Un censo (palabra derivada del latín “ censere” que significa


valuar o tasar) es una enumeración completa de la población.
Los computadores, la calculadora y la estadística

El computador se ha convertido en una herramienta importante


en la presentación y el análisis de datos. Si bien muchas técnicas
estadísticas sólo necesitan una calculadora de mano, cuyo empleo
consume mucho tiempo y esfuerzo, el computador realiza las
tareas con mucha eficiencia.
La mayor parte del análisis estadístico se realiza utilizando una
biblioteca de programas
estadísticos. El usuario introduce los datos y luego selecciona los
tipos de análisis
y la presentación de los resultados que le interesan. Los paquetes
estadísticos están disponibles para grandes sistemas de cómputo y
para computadores personales. Entre los paquetes más utilizados
est´an SAS (Statistical Analysis System), SPSS (Statistical Package
for Social Sciencies), Statgraphics e, inclusive Excel.
Estadísticas descriptiva e inferencial
La estadística descriptiva comprende aquellos métodos que incluyen
técnicas para recolectar, presentar, analizar e interpretar datos.

Ejemplo 5 Una entidad quiere calcular la proporción de colombianos


encuestados que están a favor de determinado candidato político.

La estadística inferencial abarca aquellos métodos y conjuntos de técnicas


que se utilizan para obtener conclusiones sobre las leyes de
comportamiento de una población basándose en los datos de muestras
tomadas de esa población.

Ejemplo 6 Con base en una muestra de estudiantes, cierta universidad


desea determinar el porcentaje de estudiantes que fuman.
Organización de datos
Estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de
dato, de acuerdo a escalas de medidas, mediante tablas y mediante
representaciones gráficas.
1. Organización de datos de acuerdo al tipo

Como se ilustra en la figura existen dos tipos de datos: categóricos


(o cualitativos) y numéricos (cuantitativos).
1. Los datos categóricos o cualitativos representan categorías o
atributos (como, por ejemplo, sí o no) que pueden clasificarse
como un criterio o cualidad.

2. Los datos numéricos o cuantitativos producen respuestas


numéricas como el peso en kilogramos o el número de
universidades que hay en la Costa Atlántica.

3. Los datos discretos producen respuestas numéricas que


surgen de un conteo.

Ejemplos: La cantidad de universidades que hay en la Costa


Atlántica, el número de estudiantes en la Universidad, la
cantidad de hermanos que tiene un determinado estudiante de
administración, el número de personas en una fila, etc.
Los datos continuos producen respuestas numéricas que surgen de un
proceso de medición, donde la característica de que se mide puede tomar
cualquier valor numérico en un intervalo.
Ejemplos: El peso (en kilogramos) de una persona, su estatura (en metros),
el tiempo que usted tarda en llegar a la Universidad.
2. Organización de datos de acuerdo a escalas de medidas
Los datos también se pueden clasificar según la escala de medición o el
procedimiento que los generó. Cuatro tipos de escalas de medición usados
en estadística son las escalas nominal, ordinal, de intervalo y de razón.
Datos de nivel nominal
Un dato nominal se crea cuando se utilizan nombres para establecer categorías
con la condición de que cada dato pertenezca única y exclusivamente a una de
estas categorías.
Existen escalas nominales tanto para los datos numéricos como categóricos. Una
escala nominal para datos numéricos asigna números a las categorías.
Una escala nominal para datos categóricos es un agrupamiento no ordenado de
los datos en categorías discretas, donde cada dato puede incluirse solamente en
uno de los grupos.
Datos de nivel ordinal
Los datos medidos en una escala nominal ordenada de alguna manera se
denominan datos ordinales. Una escala ordinal coloca las medidas en categorías,
cada una de las cuales indica un nivel distinto respecto a un atributo que se está
midiendo. La lista de datos ordinales comprende:
1. Clasificaciones por letra: A, B, C y D; estos grados indican categorías de
perfeccionamiento,
así como los niveles alcanzados.
2. Rangos académicos: Doctor, magister, especialista y licenciado.
3. La evaluación de un maestro: insuficiente, aceptable, bueno y excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
Datos de nivel de intervalo
Los datos medidos en una escala ordinal para los cuales pueden clasificarse
las distancias entre valores, se llaman datos de intervalos. La distancia entre
dos valores es importante y los datos de intervalo son numéricos por
necesidad; una escala de intervalo no siempre tiene un punto cero (es decir,
un punto que indique la ausencia de lo que se quiere medir). La lista de datos
de intervalo comprenden:
1. Puntajes en las pruebas de inteligencia.
2. Temperaturas Celsius.
3. Fechas.
3. Organización de datos mediante tablas

En esta forma de organización de datos es importante el


concepto de frecuencia de un dato.

La frecuencia (absoluta) de un dato, simbolizado con la letra


f, es el número de veces que aparece ese dato en una colección
de datos.

Ejemplo -En el conjunto de datos 4 5 5 3 2 6 7 7 7 2,

el cuatro sólo aparece una vez (por lo tanto, tiene frecuencia f = 1),

El cinco aparece dos veces (o sea, frecuencia f = 2),

El 7 tiene frecuencia f = 3, etc.


Tabla de frecuencias no agrupadas
Son aquellas en donde cada dato tiene la frecuencia
correspondiente.

La tabla de frecuencias (no agrupada) para el conjunto de


datos 3 5 7 6 4 3 7 6 6 7 5 7 es
Tabla de frecuencias agrupadas
Otra posibilidad de organizar datos es agruparlos en intervalos
(llamados intervalos de clase o, simplemente, clases)
Las clases de frecuencias agrupadas poseen límites de clase.

En la clase 10-14, a 10 se le llama límite inferior de clase y


a 14, límite superior de clase.

La distancia entre cualquiera de dos límites superiores


consecutivos o entre cualquiera de dos límites inferiores
consecutivos es llamada amplitud de clase. La amplitud de
cada clase en la tabla anterior es 5.
Límites reales de clase o frontera de clase

Frontera superior de clase (o límite real superior de clase)


Frontera inferior de clase (o límite real inferior de clase)

límite inf. de la clase dada + límite sup. de la clase anterior


Frontera inferior =
2
Sugerencias para construir una tabla de frecuencias agrupadas

1. En la realidad, se acostumbra siempre a agrupar los datos en clases en


donde los extremos de la clase son las respectivas fronteras, en vez de los
límites de clase.
2. Para mayor comodidad en el proceso de construcción de las clases,
acordaremos que la primera clase debe contener por lo menos el dato
menor (en la realidad, esto no siempre es así).
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe
quedar exactamente en una sola clase, no en dos al mismo tiempo.
4. Para mayor comodidad en el proceso de construcción de las clases,
acordaremos que todas las clases deben tener la misma amplitud (en la
realidad, esto no siempre es así).

Determinación de la amplitud de clase. Réstense dos límites superiores de


clases consecutivos o dos límites inferiores de clases consecutivos, o dos
fronteras inferiores consecutivas, o dos fronteras superiores consecutivas, o
réstese la frontera inferior de una clase de la frontera inferior superior de dicha
clase.
5. Regla de Sturges.
La regla de Sturges establece como número de clases necesario,
aproximadamente 𝒄 = 𝟏 + 𝟑, 𝟑𝒍𝒐𝒈 𝒏 , donde n es el número de medidas y
log n es el logaritmo de n en base 10. El valor de c es común redondearlo al
entero más cercano.

Otra regla razonable para el número de clases es 𝑐 = 𝑛

6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y


menor.
7. Posteriormente la amplitud de clase w se encuentra como se muestra en el
siguiente recuadro.

Amplitud de clase. La amplitud de clase w se determina calculando


el cociente entre el rango R y el número de clases c. Es decir,
𝑅
Amplitud de clase 𝑤 =
𝑐
El valor de w es común redondearlo al entero siguiente
8. El dato menor debe caer en la primera clase. Por esta razón, el límite
inferior de la primera clase debe estar en, o un poco antes de, el dato
menor. Así que podemos establecer un acuerdo general sobre las clases de
nuestras tablas de frecuencias

Ejercicio 10
Los datos anotados representan los totales, en miles de pesos, gastados en
fotocopias por una muestra de 25 estudiantes durante un semestre.
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72
Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

Solución
Rango: R = Dato mayor – Dato menor = 89 – 28 = 61

Clases: 𝑐 = 1 + 3,3 log 𝑛 = 1 + 3,3 log 25 = 5,61 ≈ 6


𝑅 61
Amplitud: 𝑤 = = = 10,1 ≈ 11 (Aproximamos al entero más cercano)
𝑐 6
Construcción de la tabla de frecuencia
• Nuestra primera clase tendrá como límite inferior el dato menor y
luego los demás límites inferiores le sumaremos la amplitud.

• El primer límite superior lo obtenemos de la siguiente manera:


Dato menor + la amplitud - 1

Límites Frecuencia
Clases
reales absoluta (fi)
28 – 38 27,5-38,5 4
39 – 49 38,5-49,5 6
50 – 60 49,5-60,5 3
61- 71 60,5-71,5 4
72 – 82 71,5-82,5 4
83 – 93 82,5-93,5 4
• La marca de clase (Xi) es el punto medio de cada intervalo de clase
frontera inferior de clase + frontera superior de clase
𝑋𝑖 =
2

• La frecuencia relativa (fri) de un dato o de una clase se encuentra


dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos.
𝑓𝑖
𝑓𝑟𝑖 =
𝑛
• La frecuencia acumulada (Fi) de cualquier dato o clase, es la suma de la
frecuencia de ese mismo dato o clase con las frecuencias de todos los
demás datos o clases anteriores
𝐹𝑖 = 𝐹𝑖−1 + 𝑓𝑖

• La frecuencia relativa acumulada (Fri) de un dato o de una clase se


obtiene dividiendo la frecuencia acumulada del dato o de la clase por el
número total de datos.
𝐹𝑖
𝐹𝑟𝑖 =
𝑛
Clases Límites reales Xi fi
28 – 38 27,5-38,5 33 4
39 – 49 38,5-49,5 44 6
50 – 60 49,5-60,5 55 3
61- 71 60,5-71,5 66 4
72 – 82 71,5-82,5 77 4
83 – 93 82,5-93,5 88 4
Clases Gastos Xi fi Fi
28 – 38 27,5-38,5 33 4 4
39 – 49 38,5-49,5 44 6 10
50 – 60 49,5-60,5 55 3 13
61- 71 60,5-71,5 66 4 17
72 – 82 71,5-82,5 77 4 21
83 – 93 82,5-93,5 88 4 25
11. Los datos adjuntos representan una muestra del aumento de precios
(en pesos) de la gasolina extra en una cierta ciudad a lo largo de un año
en particular.
123,9 127,9 130,9 121,9 132,9
121,9 126,9 122,8 126,9 137,9
126,9 119,9 118,9 119,8 116,9
120,8 115,9 117,9 131,9 115,9
115,9 121,9 129,9 122,8 119,9
Mediante cinco clases construya una tabla de frecuencias relativas
acumuladas agrupadas.
Solución

Rango: R = Dato mayor – Dato menor = 137,9 – 115,9 = 22

Clases: 𝑐 = 5

𝑅 22
Amplitud: 𝑤 = = = 4,4
𝑐 5
Construcción de la tabla de frecuencia
• Nuestra primera clase tendrá como límite inferior el dato menor y
luego los demás límites inferiores le sumaremos la amplitud.

• El primer límite superior lo obtenemos de la siguiente manera:


Dato menor + la amplitud

Límites reales
Frecuencia Frec. acum
de clases
115,9-120,3 9 9
120,3-124,7 7 9+7=16
124,7-129,1 4 16+4=20
129,1-133,5 4 20+4=24
133,5-137,9 1 24+1=25
Solución utilizando la regla de Sturges

Rango: R = Dato mayor – Dato menor = 137,9 – 115,9 = 22


Clases: 𝑐 = 1 + 3,3 log 𝑛 = 1 + 3,3 log 25 = 5,61 ≈ 6
𝑅 22
Amplitud: 𝑤 = = = 3,66 ≈ 3,7
𝑐 6

Construcción de la tabla de frecuencia


• Nuestra primera clase tendrá como límite inferior el dato menor y
luego los demás límites inferiores le sumaremos la amplitud.
• El primer límite superior lo obtenemos de la siguiente manera:
Dato menor + la amplitud – 0,1

Clases Limites reales Frecuencia Frec. Acum.


115,9-119,5 115,85-119,55 6 6
119,6-123,2 119,55-123,25 9 15
123,3-126,9 123,25-126,95 4 19
127,0-130,6 126,95-130,65 2 21
130,7-134,3 130,65-134,35 3 24
134,4-138,0 134,35-138,05 1 25
15. Los datos que se muestran a continuación representan el costo
(en miles de pesos) de la energía eléctrica durante un determinado
mes del año 2006 para una muestra aleatoria de 50
apartamentos en cierta ciudad importante

128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130

a) Obtenga una tabla de frecuencias con 7 intervalos de clase.


b) Grafique el correspondiente histograma de frecuencias, el polígono de
frecuencias relativas y la ojiva con frecuencias acumuladas relativas.
c) ¿Alrededor de qué cantidad parece concentrarse el costo mensual de
energía eléctrica?
d) Según su opinión, ¿cuál de las gráficas representa mejor la distribución
de los costos de energía eléctrica?
128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130

82-100 4 91 8% 4 8%
101-119 7 110 14% 11 22%
120-138 8 129 16% 19 38%
139-157 13 148 26% 32 64%
158-176 9 167 18% 41 82%
177-195 5 186 10% 46 92%
196-214 4 205 8% 50 100%
82-100 4 91 8% 4 8%
101-119 7 110 14% 11 22%
120-138 8 129 16% 19 38%
139-157 13 148 26% 32 64%
158-176 9 167 18% 41 82%
177-195 5 186 10% 46 92%
196-214 4 205 8% 50 100%
Debido a un grave accidente, el gerente de una compañía consultora perdió información
de un estudio de mercado que realizó a una importante compañía a nivel nacional de
gaseosas. Solo se conoce algunos datos parciales sobre una entrevista que se elaboró a
200 personas.
Clase fi Fi fri Fri
0 - 2,1 24
2,1 - 4,1 0,20
4,1 - 6,1 0,545
6,1 - 8,1 125
8,1 - 10,1 36
10,1 - 12,1 0,11
12,1 - 14,1 1
A. Reconstruya la tabla de frecuencia.
B. ¿Cuantas personas toman menos de 4 gaseosas por semana?
C. ¿Cuantas personas toman al menos 3 gaseosas por semana?
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 0,20
4,1 - 6,1 0,545
6,1 - 8,1 125
8,1 - 10,1 36
10,1 - 12,1 0,11
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 0,545
6,1 - 8,1 125
8,1 - 10,1 36
10,1 - 12,1 0,11
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 125
8,1 - 10,1 36
10,1 - 12,1 0,11
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 16 125 0,08 0,625
8,1 - 10,1 36
10,1 - 12,1 0,11
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 16 125 0,08 0,625
8,1 - 10,1 36 161 0,18 0,805
10,1 - 12,1 0,11
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 16 125 0,08 0,625
8,1 - 10,1 36 161 0,18 0,805
10,1 - 12,1 22 183 0,11 0,915
12,1 - 14,1 200 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información de un estudio de
mercado que realizó a una importante compañía a nivel nacional de gaseosas. Solo se conoce algunos
datos parciales sobre una entrevista que se elaboró a 200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 16 125 0,08 0,625
8,1 - 10,1 36 161 0,18 0,805
10,1 - 12,1 22 183 0,11 0,915
12,1 - 14,1 17 200 0,085 1
Debido a un grave accidente, el gerente de una compañía consultora perdió información
de un estudio de mercado que realizó a una importante compañía a nivel nacional de
gaseosas. Solo se conoce algunos datos parciales sobre una entrevista que se elaboró a
200 personas.

Clase fi Fi fri Fri


0 - 2,1 24 24 0,12 0,12
2,1 - 4,1 40 64 0,20 0,32
4,1 - 6,1 45 109 0,225 0,545
6,1 - 8,1 16 125 0,08 0,625
8,1 - 10,1 36 161 0,18 0,805
10,1 - 12,1 22 183 0,11 0,915
12,1 - 14,1 17 200 0,085 1
A. Reconstruya la tabla de frecuencia.
B. ¿Cuántas personas toman menos de 4 gaseosas por semana?
C. ¿Cuántas personas toman al menos 3 gaseosas por semana?
16/04/2019
1.3 Análisis de datos en tablas de frecuencias no agrupadas
Medidas de tendencia central o de centralización

La estadística busca entre otras cosas, describir las características típicas de


conjuntos de datos. Las medidas de tendencia central corresponden a valores
que generalmente se ubican en la parte central de un conjunto de datos que nos
ayudan a resumir la información en un sólo número.

Media de la población Media de la muestra

σ𝑵
𝒊=𝟏 𝒙𝒊
σ𝒏𝒊=𝟏 𝒙𝒊
𝝁= ഥ=
𝒙
𝑵 𝒏

σ𝑵 σ𝒏
𝒊=𝟏 𝒇𝒊 𝒙𝒊
𝒊=𝟏 𝒇𝒊 𝒙𝒊 ഥ=
𝒙
𝝁= 𝒏
𝑵
Mediana
Para datos medidos en al menos una escala de intervalo, la mediana es el
puntaje medio ordenado.

𝑥 𝑛+1 /2 , 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
𝑥෤ = ൞1
𝑥 + 𝑥𝑛 + 1 , 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
2 𝑛/2 2

Moda
La moda, si se da, es el dato con mayor frecuencia.

Medidas de colocación o de posición relativa

Una medida de colocación o de posición relativa para una distribución de


frecuencias es aquel valor para el cual una porción específica de la distribución
queda en o debajo de él.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de
posición relativa.
Medidas de colocación o de posición relativa

Cuartiles.

Deciles.

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Min D1 D2 D3 D4 D5 D6 D7 D8 D9 Max

Percentiles.

Índice  Si el índice i no es entero, se redondea al entero siguiente. Este valor


aproximado de i indica la posición del p-ésimo percentil.
𝑝𝑛  Si i es entero, el p-ésimo percentil es el promedio de los valores de los
𝑖=
100 datos ubicados en las posiciones i e i + 1.
Medidas de dispersión o de variabilidad
Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de
la distribución.

Una medida de centralización, casi nunca es suficiente por sí sola, para analizar
adecuadamente las características de un conjunto de datos. Por lo general,
necesitaremos, además, una medida de la dispersión o variación de los datos, entre las
que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la desviación,
la varianza y la desviación estándar.
Varianza muestral
Rango Varianza poblacional 𝑛 2
𝑁 2 σ 𝑖=1 𝑥 𝑖 − 𝑥ҧ
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 2
σ𝑖=1 𝑥𝑖 − 𝜇 𝑠2 =
𝜎 = 𝑛−1
𝑁 𝑛
σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
Rango intercuartil: 𝑁
σ𝑖=1 𝑓𝑖 𝑥𝑖 − 𝜇 2 2
2 𝑠 =
𝑅. 𝐼 = 𝑄3 − 𝑄1 𝜎 = 𝑛−1
𝑁
σ𝑁
𝑖=1 𝑥𝑖
2
𝑛 2
Desviación 2
𝜎 = − 𝜇2 σ 𝑖=1 𝑓𝑖 𝑥 𝑖 − 𝑥ҧ
𝑁 𝑠2 =
𝐷𝑖 = 𝑥𝑖 − 𝑥ҧ 𝑁 2 𝑛−1
σ 𝑓 𝑥 𝑛 2
𝜎2 =
𝑖=1 𝑖 𝑖
− 𝜇2 2
σ 𝑖=1 𝑓𝑖 𝑥 𝑖 − 𝑛𝑥ҧ 2
𝑁 𝑠 =
Desviación media 𝑛−1
𝑛
σ𝑖=1 |𝑥𝑖 − 𝑥|ҧ Desviación estándar
𝐷𝑀 = Desviación estándar
𝑛 𝜎= 𝜎 2
𝑠 = 𝑠2
EJERCICIOS
45.La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.

Salario anual 550 600 700 800 3.000


Frecuencia 8 6 7 5 4

(a)Determine la moda, la media, la mediana y el rango medio


(b)¿Cuál medida de tendencia usaría para determinar el valor central? Explique.
(c) ¿Cuál es el primer cuartil, el tercer cuartil y el sexto decil?
(d) Encuentre el rango, la desviación estándar y el rango intercuartil.
Media de la muestra Mediana Índice

σ𝒏𝒊=𝟏 𝒙𝒊 𝑝𝑛
ഥ=
𝒙 𝑥 𝑛+1 /2 , 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑖=
𝒏 100
𝑥෤ = ൞1
𝑥 + 𝑥𝑛/2 + 1 , 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
σ𝒏
𝒊=𝟏 𝒇𝒊 𝒙𝒊
2 𝑛/2
ഥ=
𝒙 𝒏
Varianza muestral
σ 𝑛 2
Rango 𝑖=1 𝑓𝑖 𝑥𝑖 − 𝑥ҧ Rango intercuartil:
𝑠2 =
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 𝑛−1 𝑅. 𝐼 = 𝑄3 − 𝑄1
Desviación estándar
𝑠= 𝑠2
PROCEDIMIENTOS UTILIZANDO LA CALCULADORA

1. MODE 2 1. SHIFT MODE ↓ STAT ON


2. MODE STAT 1-VAR
2. SHIFT MODE 1 AC
INTRODUCIR DATOS:
INTRODUCIR DATOS:
3. PRIMERO LOS DATOS Y
3. DATO SHIFT ,
LUEGO LAS FRECUENCIAS
FRECUENCIA M+
4. AC
(TANTOS DATOS HALLAN)
RESULTADO DE 𝑿ഥ:
RESULTADO DE 𝑿ഥ:
4. SHIFT 21 = 5. SHIFT 1 VAR 𝑥=
ҧ
RESULTADO DE LA
RESULTADO DE LA
DESVIACIÓN
DESVIACIÓN
5. SHIFT23= 6. SHIFT 1 VAR sx=
PARA LA VARIANZA
PARA LA VARIANZA
7. SHIFT VAR sx x2=
6. SHIFT23x2=
Regla de Tchebychev

Para cualquier población con media μ y desviación estándar s, por lo menos el


100(1−1/ k 2)% de los valores de la población se encuentran a una distancia de la media
menor que k veces la desviación estándar, para cualquier número k > 1. En otras palabras,
dentro del intervalo que va desde μ − k s hasta μ + k s se encuentra por lo menos el
100(1 − 1/ k 2)% de los valores de la población.

𝑘 1,5 2 3 3,5 4
100 1 − 1/𝑘 2 55,6% 75% 84% 91,18% 93,7%

Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valores de la


población se encuentran a una distancia de la media menor que 1,5 veces de la desviación
típica. O, dicho de otra forma, dentro del intervalo que va desde μ − 1, 5s hasta μ+1, 5s se
encuentra por lo menos el 55, 6% de los valores de la población. Esta situación se ilustra en
la figura
Regla empírica

Para las poblaciones que tengan forma acampanada, aproximadamente el 68% de los
valores de la población se encuentran a una distancia de la media menor que una
desviación estándar, y aproximadamente el 95% están a una distancia de la media menor
que dos veces la desviación típica

Regla empírica Regla de Tchebychev


EL COEFICIENTE DE VARIACIÓN DE PEARSON de un conjunto de datos, simbolizado por
CV, es igual a la desviación estándar dividida entre la media, multiplicada por 100 por
ciento. Es decir,

𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠


𝐶𝑉 = ∙ 100%
𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

Medidas de formas

Las medidas de forma se clasifican en medidas de asimetría (o coeficiente de sesgo) y


medidas de curtosis (o de apuntamiento).

Simetría
Decimos que una distribución de frecuencias es simétrica cuando lo es su representación
gráfica, es decir, los datos equidistantes a una medida central de la misma tienen
frecuencias iguales. Esta medida central coincide con la mediana y la media.

Asimetría
Una distribución de frecuencias que no es simétrica, se denomina asimétrica. La asimetría se
puede presentar a la derecha ( asimetría positiva) o a la izquierda ( asimetría negativa) si la
representación grafica está más “estirada” hacia la derecha o hacia la izquierda,
respectivamente.
Distribución simétrica

Media=Mediana=Moda

Distribución asimétrica a la Distribución asimétrica a la


derecha izquierda

Moda < Mediana < Media Media < Mediana < Moda
Medidas de asimetría

El coeficiente de asimetría de Pearson

𝐴𝑝 < 0distribución sesgada negativamente o a la derecha


𝑥ҧ − 𝑀𝑜𝑑𝑎
𝐴𝑝 = ൞ 𝐴𝑝 = 0 distribución simetrica
𝑠
𝐴𝑝 > 0 distribución sesgada positivamente o la izquierda

Los coeficientes de asimetría de Fisher (simbolizado por 𝒈𝟏 ) y de Fisher


estandarizado (simbolizado por 𝒈𝒔 )

𝑔1 < 0 𝑠𝑒𝑠𝑔𝑎𝑑𝑎 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎𝑚𝑒𝑛𝑡𝑒


𝑔1 = ൞ 𝑔1 = 0 𝑠𝑖𝑚é𝑡𝑟𝑖𝑐𝑎
𝑔1 > 0 𝑠𝑒𝑠𝑔𝑎𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎𝑚𝑒𝑛𝑡𝑒
Curtosis

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores


alrededor de la zona central de la distribución.

Se definen 3 tipos de distribuciones según su grado de curtosis:

• Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los


valores centrales de la variable (el mismo que presenta una distribución normal). 𝑔2 = 0

• Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los


valores centrales de la variable. 𝑔2 > 0

• Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los


valores centrales de la variable. 𝑔2 < 0
EJERCICIOS
37. Los puntajes finales de 20 alumnos en un curso de Estadística son:

50 55 61 60 71 73 53 54 67 67
54 77 72 76 81 83 87 44 48 67

¿Qué proporción de estos puntajes cae


(a) dentro de ±1 desviación estándar de la media?
(b) dentro de ±2 desviaciones estándar de la media?
(c) dentro de ±3 desviaciones estándar de la media?
EJERCICIOS

47. Suponga que una muestra tiene media 26 y desviación estándar 3,1.

(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.

(b) ¿Cuál es el mínimo porcentaje de la muestra que está contenido en el intervalo 18 - 34?
EJERCICIOS

49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.

Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros,
respectivamente.
(c) ¿Qué auto tuvo un desempeño más consistente, si la consistencia se mide con la varianza?
(d) Encuentre el coeficiente de variación para cada carro y comente al respecto.
1.4 Análisis de datos en tablas de frecuencias agrupadas

Es posible calcular las medidas de tendencia central y dispersión para datos


exhibidos en una tabla de frecuencia agrupada, pero sus valores no son exactos
sino únicamente aproximados. Eso se debe al desconocimiento de las medidas
en grupo, las cuales se han colocado en intervalos de clase. En esta sección,
describiremos procedimientos para calcular medidas numéricas que resuman
la información cuando sólo disponemos de datos agrupados.

σ𝑛
𝑖=1 𝑓𝑖 𝑥𝑖 Varianza muestral
Media: 𝑥ҧ =
𝑛
𝑛 2
𝑛 2
σ𝑖=1 𝑓𝑖 𝑥𝑖 − 𝑥ҧ
−𝐹 𝑠 =
Mediana: 𝑥෤ = 𝐿𝑚𝑒𝑑 + 2
𝑤 𝑛−1
𝑓𝑚𝑒𝑑 𝑛 2 2
σ𝑖=1 𝑓𝑖 𝑥𝑖 − 𝑛 𝑥ҧ
𝑠2 =
𝑛−1
𝐷𝑎
Moda: 𝑀𝑜 = 𝐿𝑚𝑜𝑑 + 𝑤
𝐷𝑎 +𝐷𝑏
Desviación estándar
𝑝%∙𝑛−𝐹 𝑠= 𝑠2
p-ésimo punto percentil= 𝐿𝑝 + 𝑤
𝑓𝑝
DATOS AGRUPADOS
52.Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas) 0–3 3–6 6–9 9 – 12 12 - 15
Número de estudiantes 2 6 7 4 1
(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.
(b) Estimar la media, la mediana, la moda y la desviación típica del tiempo de estudio.

σ𝑛
𝑖=1 𝑓𝑖 𝑥𝑖 Varianza muestral
Media: 𝑥ҧ =
𝑛
σ𝑛 2
𝑖=1 𝑓𝑖 𝑥 𝑖 − 𝑥ҧ
𝑛 𝑠2 =
2
−𝐹 𝑛−1
Mediana: 𝑥෤ = 𝐿𝑚𝑒𝑑 + 𝑤 σ𝑛
𝑓 𝑥 2
− 𝑛 𝑥ҧ 2
𝑓𝑚𝑒𝑑 𝑖=1 𝑖 𝑖
𝑠2 =
𝑛−1
𝐷𝑎
Moda: 𝑀𝑜 = 𝐿𝑚𝑜𝑑 + 𝑤
𝐷𝑎 +𝐷𝑏 Desviación estándar
𝑠= 𝑠2
𝑝%∙𝑛−𝐹
p-ésimo punto percentil= 𝐿𝑝 + 𝑤
𝑓𝑝
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud
fueron más largos de lo habitual. La siguiente tabla resume la distribución de los
tiempos de espera para una muestra de 24 pacientes que visitaron el centro de
salud durante este período.

Tiempo de espera (horas) 0–1 1–2 2–3 3–4


Número de pacientes 7 10 5 2

(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.


(b) Dibujar el histograma, un polígono y una ojiva.
(c) Estimar la media, la mediana, la moda, la varianza y la desviación típica del
tiempo de espera.
Análisis exploratorio de datos
Resumen de cinco números
Un resumen de cinco números consiste en cinco cantidades que se emplean
para resumir los datos: valor mínimo, primer cuartil (Q1), Mediana (Q2), tercer
cuartil (Q3) y valor máximo.
Situaciones para reconocer la simetría de los datos.
Si la distribución es simétrica:
• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.
• La distancia del valor mínimo a Q1 es igual a la distancia de Q3 al valor máximo.
• La mediana y el rango medio son iguales. (Estas medidas son iguales a la media
de los datos.)
Situaciones para reconocer a los datos no simétricos
Si la distribución no es simétrica:
• En las distribuciones sesgadas a la derecha, la distancia de Q3 al valor máximo
excede la distancia del valor mínimo a Q1. Además, la mediana es menor que el
rango medio.
• En las distribuciones sesgadas a la izquierda, la distancia del valor mínimo a Q1
excede la distancia de Q3 al valor máximo. Además, el rango medio es menor que la
mediana.
Diagrama de caja y bigotes

El diagrama de caja y bigotes, como el que se muestra en la figura, proporciona


una representación gráfica de los datos mediante el resumen de cinco números.
Esta herramienta de análisis exploratorio de datos va a permitir estudiar la
simetría de los datos, detectar los valores atípicos y vislumbrar un ajuste de los
datos a una distribución de frecuencias determinada.

Figura. Diagrama de caja y bigotes


Los siguientes datos que representan los salarios (en millones de pesos) de 12
empleados en una empresa:
2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.
Utilice el resumen de cinco números para estudiar la forma de la distribución de
los datos

S-ar putea să vă placă și