Sunteți pe pagina 1din 20

ESTADÍSTICA BÁSICA I

Profesor:

John Harvey Vargas Cano

Matemático, UdeA
INTRODUCCIÓN

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar,


resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias
a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso
formular predicciones.

La estadística podemos clasificarla como en estadística descriptiva y estadística


inferencial. La estadística descriptiva se dedica al ordenamiento y al tratamiento de la
información para su presentación por medio de tablas y representaciones gráficas, así
como a la obtención de algunos parámetros útiles para explicar y resumir la
información. La estadística inferencial se apoya en el cálculo de probabilidades y a
partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras
generalizaciones sobre un conjunto mayor de datos.

En este módulo se pretende aplicar la estadística descriptiva a los factores que


intervienen en los procesos de formación, en áreas específicas como las académicas,
las tecnológicas, las infraestructurales, de bienestar estudiantil y de proyección social.
Las variables estarán relacionadas con los alumnos, las instalaciones, los equipos, el
medio o lugar de trabajo, los métodos de enseñanza, entre otras.

Este módulo comenzará con el estudio de los diferentes tipos de datos y sus escalas
de medición, y continuará con las distintas medidas y representaciones gráficas que
ayudan a describir, resumir e interpretar la información.
DEFINICIONES Y CONCEPTOS BÁSICOS.

Individuos o elementos: Personas u objetos que contienen cierta información que se


desea estudiar.

Población: Conjunto de individuos o elementos que cumplen ciertas propiedades


comunes.

Muestra: Subconjunto representativo de una población.

Muestreo: Métodos para la recolección de la muestra.

Variable: Característica que toma diferentes valores en diferentes personas, lugares o


cosas.

Variables cualitativas.
Variables cuantitativas.

Datos: Conjunto de valores de una variable para cada uno de los elementos de la
muestra.

Parámetro: Medición numérica que describe algunas características de una población.

Estadístico: Medición numérica que describe algunas características de la muestra.


¿Qué incluye un problema estadístico?

1. Definición clara del objetivo del experimento y de la población pertinente.


2. Diseño del experimento o procedimiento del muestreo.
3. Recolección y análisis de los datos.
4. El procedimiento para hacer inferencias acerca de la población, basado en la
información muestral.
5. La provisión de una medida de bondad (confiabilidad) para la inferencia.

CLASIFICACIÓN DE LAS VARIABLES.

Las variables se clasifican según la escala de medición como:

Variables cualitativas:

Son las variables que expresan distintas cualidades, características o modalidad. Cada
modalidad que se presenta se denomina atributo o categoría y la medición consiste en
una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y
nominales.

Variable cualitativa ordinal: La variable puede tomar distintos valores


ordenados siguiendo una escala establecida, aunque no es necesario que el
intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave.

Variable cualitativa nominal: En esta variable los valores no pueden ser


sometidos a un criterio de orden como por ejemplo los colores o el lugar de
residencia.
Variables cuantitativas:

Son las variables que se expresan mediante cantidades numéricas. Las variables
cuantitativas además pueden ser (según los valores que pueda tomar la variable):

Variable discreta: Es la variable que presenta separaciones o interrupciones en


la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la
variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).

Variable continua: Es la variable que puede adquirir cualquier valor dentro de


un intervalo especificado de valores. Ejemplo: el peso (2,3 kg, 2,4 kg, 2,5 kg,...)
o la altura (1,64 m, 1,65 m, 1,66 m,...), que solamente está limitado por la
precisión del aparato medidor, en teoría permiten que siempre exista un valor
entre dos cualesquiera.

Las variables cuantitativas se clasifican además como de intervalo ó de razón, así:

Variables de intervalo: Los datos medidos en una escala ordinal para los
cuales pueden calcularse las distancias entre valores, se llaman datos de
intervalo. La distancia entre dos valores es importante y los datos de intervalo
son cuantitativos por necesidad; una escala de intervalo no siempre tiene un
punto cero, uno que indique la ausencia de lo que se quiere medir. Ejemplo: la
temperatura (10°C, 8°C, 35°C,…).

Variables de razón: Los datos medidos en una escala de intervalo con un punto
cero que significa ninguno, se llama datos de razón. Ejemplo: el peso (23 kg,
24 kg, 30 kg,...)
MUESTREO

Cuando se desea conocer o hacer inferencias acerca de alguna característica de una


población, surgen preguntas de cómo seleccionar la información y que tan grande debe
ser el tamaño de la muestra para que las conclusiones extraídas de ella sean
representativas de la población.

Si la población es pequeña, es razonable observarla toda y esto se llama censo. Pero


examinar una población entera no es siempre viable; en la mayoría de los casos hay
escasez de tiempo y de recursos (humanos o financieros) o el censo es impracticable,
por tal motivo, se selecciona solo una parte de la población (muestra) cuyo tamaño es
escogido de acuerdo a la precisión deseada a las estimaciones e inferencias que se
deseen realizar.

El muestreo puede hacerse con o sin reposición; en una muestra sin reposición,
comúnmente empleada en los trabajos estadísticos, las unidades se seleccionan
apenas una vez; en el muestreo con reposición se seleccionan las unidades por lo
menos una vez.
Ejemplo de muestreo sin reposición: En una encuesta electoral, poco antes
de una elección de voto de las personas entrevistadas, éstas deben ser
escuchadas apenas una sola vez, pues, en una elección, el voto es individual.
Ejemplo de muestreo con reposición: Cuando se desea saber cuánto tiempo
gasta una persona haciendo cola en un banco, ésta puede ser observada una o
más veces, cada vez que vuelve al banco.

Algunos métodos de muestreo:

Muestreo Aleatorio Simple: Es la forma más común de obtener una muestra es la


selección al azar, es decir, cada uno de los individuos de una población tiene la misma
posibilidad de ser elegido. Este procedimiento, atractivo por su simpleza, tiene poca o
nula utilidad práctica cuando la población que estamos manejando es muy grande.

Ejemplo: Supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes
en un grupo de estadística de 20 alumnos. Un procedimiento simple para elegir una
muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de
papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al
mismo tiempo.

Muestreo Aleatorio Sistemático: Es una técnica de muestreo que requiere de una


selección aleatoria inicial de observaciones seguida de otra selección de observaciones
obtenida usando algún sistema o regla.

Ejemplo: Para obtener una muestra de suscriptores telefónicos en una ciudad grande,
puede obtenerse primero una muestra aleatoria de los números de las páginas del
directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un
muestreo sistemático, también podemos escoger un nombre de la primera página del
directorio y después seleccionar cada nombre del lugar número cien a partir del ya
seleccionado. Por ejemplo, podríamos seleccionar un número al azar entre los primeros
100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del
directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente.

Muestreo Aleatorio Estratificado: Una muestra es estratificada cuando los elementos


de la muestra son proporcionales a su presencia en la población. La presencia de un
elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se
divide a la población en varios grupos o estratos con el fin de dar representatividad a
los distintos factores que integran el universo de estudio. Para la selección de los
elementos o unidades representantes, se utiliza el método de muestreo aleatorio.

En síntesis, requiere de separar a la población según grupos llamados estratos, y de


elegir después una muestra aleatoria simple en cada estrato. La información de las
muestras aleatorias simples de cada estrato constituiría entonces una muestra global.
Ejemplo: Supongamos que nos interesa obtener una muestra de las opiniones de los
profesores de una gran universidad. Puede ser difícil obtener una muestra con todos
los profesores, así que supongamos que elegimos una muestra aleatoria de cada
facultad, o departamento académico; los estratos vendrían a ser los facultades, o
departamentos académicos.

Muestreo Aleatorio por Área o Conglomerado: Requiere de elegir una muestra


aleatoria simple de unidades heterogéneas entre sí de la población llamadas
conglomerados. Cada elemento de la población pertenece exactamente a un
conglomerado, y los elementos dentro de cada conglomerado son usualmente
heterogéneos o disímiles.

Ejemplo: Supongamos que una compañía de servicio de televisión por cable está
pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un
estudio para determinar el porcentaje de familias que utilizarían sus servicios, como no
es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la
ciudad al azar, la cual forma un conglomerado.

En el muestreo por conglomerados, éstos se forman para representar, tan fielmente


como sea posible, a toda la población; entonces se usa una muestra aleatoria simple
de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias,
hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo
por conglomerados.
ESTADISTICA DESCRIPTIVA

ANÁLISIS DE DATOS CUALITATIVOS:

La siguiente es la información del nivel académico de 120 empleados de una empresa.

Empleado Nivel Acad. Empleado Nivel Acad. Empleado Nivel Acad. Empleado Nivel Acad.
1 Profesional 31 Profesional 61 Técnico 91 Tecnólogo
2 Técnico 32 Bachiller 62 Tecnólogo 92 Bachiller
3 Técnico 33 Técnico 63 Tecnólogo 93 Bachiller
4 Tecnólogo 34 Bachiller 64 Técnico 94 Tecnólogo
5 Profesional 35 Posgrado 65 Técnico 95 Posgrado
6 Tecnólogo 36 Técnico 66 Bachiller 96 Bachiller
7 Profesional 37 Bachiller 67 Técnico 97 Técnico
8 Tecnólogo 38 Profesional 68 Profesional 98 Técnico
9 Profesional 39 Bachiller 69 Posgrado 99 Bachiller
10 Posgrado 40 Técnico 70 Técnico 100 Profesional
11 Técnico 41 Bachiller 71 Tecnólogo 101 Profesional
12 Bachiller 42 Tecnólogo 72 Bachiller 102 Tecnólogo
13 Tecnólogo 43 Profesional 73 Tecnólogo 103 Bachiller
14 Bachiller 44 Técnico 74 Técnico 104 Técnico
15 Profesional 45 Bachiller 75 Profesional 105 Técnico
16 Técnico 46 Bachiller 76 Tecnólogo 106 Bachiller
17 Bachiller 47 Tecnólogo 77 Bachiller 107 Posgrado
18 Bachiller 48 Profesional 78 Tecnólogo 108 Tecnólogo
19 Profesional 49 Tecnólogo 79 Bachiller 109 Tecnólogo
20 Tecnólogo 50 Tecnólogo 80 Profesional 110 Técnico
21 Bachiller 51 Técnico 81 Bachiller 111 Técnico
22 Técnico 52 Bachiller 82 Tecnólogo 112 Técnico
23 Técnico 53 Bachiller 83 Tecnólogo 113 Bachiller
24 Profesional 54 Bachiller 84 Bachiller 114 Tecnólogo
25 Bachiller 55 Bachiller 85 Profesional 115 Tecnólogo
26 Bachiller 56 Técnico 86 Bachiller 116 Bachiller
27 Bachiller 57 Bachiller 87 Tecnólogo 117 Profesional
28 Profesional 58 Posgrado 88 Técnico 118 Técnico
29 Bachiller 59 Tecnólogo 89 Tecnólogo 119 Bachiller
30 Bachiller 60 Bachiller 90 Profesional 120 Bachiller
Representación Tabular:

Frecuencia Frecuencia relativa


Clase Frecuencia Frecuencia Relativa
Acumulada acumulada

Bachiller 40 0,33 40 0,33


Técnico 27 0,23 67 0,56
Tecnólogo 27 0,23 94 0,78
Profesional 20 0,17 114 0,95
Posgrado 6 0,05 120 1,00

En un conjunto de datos, se define moda como el valor de mayor frecuencia. En


nuestro ejemplo, Bachiller es la clase modal.

Diagrama de Barras:

45

40

35

30

25

20

15

10

0
Bachiller Técnico Tecnólogo Profesional Posgrado
Diagrama de sectores:

Frecuencias:

20
40 Bachiller
Técnico
Tecnólogo
Profesional
27 Posgrado

27

Frecuencias relativas:

0.05

0.17
0.33 Bachiller
Técnico
Tecnólogo
Profesional
0.23 Posgrado

0.23
TABLAS DE CONTINGENCIA:

La empresa del ejemplo anterior consta de tres plantas y sus empleados están
distribuidos de la siguiente forma:

Bachiller Técnico Tecnólogo Profesional Posgrado

Planta A 5 7 6 10 4

Planta B 18 11 9 6 1

Planta C 17 9 12 4 1

Diagrama de Barras:

18
16
14
12 Bachiller

10 Técnico

8 Tecnólogo

6 Profesional

4 Posgrado

2
0
Planta A Planta B Planta C
45
40
35
Posgrado
30
Profesional
25
Tecnólogo
20
Técnico
15
10 Bachiller

5
0
Planta A Planta B Planta C

ANÁLISIS DE DATOS CUANTITATIVOS:

Estadísticos Descriptivos:

1. Medidas de tendencia Central:

Media Aritmética: Es la más importante de todas las medidas numéricas


para describir datos. Se conoce también como promedio.

Ejemplo: La media aritmética de los datos: 2, 3, 5, 0, 11, 2, 4, 7, 2.

Mediana: Es el valor que divide los datos en dos partes iguales cuando
estos se presentan en orden de magnitud creciente o decreciente.
Ejemplo: Organizando los datos anteriores: 0, 2, 2, 2, 3, 4, 5, 7, 11.
Vemos que el dato que está en el centro es 3, por tanto, la mediana es 3.

Moda: Valor que ocurre con mayor frecuencia (Puede no existir la moda o
haber varios valores modales).
Ejemplo: Del ejemplo anterior, el dato que más se repite es 2, por tanto, la
moda de este conjunto de datos es 2.

2. Medidas de colocación:
Percentiles: El n-ésimo percentil, denotado con , es el valor para el
cual al menos de la distribución de los datos cae en o por debajo de
él y al menos cae en o por arriba de dicho percentil.
Ejemplo: Para los datos del ejemplo anterior, el percentil 30 es

Cuartiles: Los cuartiles son números que dividen en cuatro partes a en


conjunto ordenado de medidas, extendiéndose desde la mínima hasta la
máxima medida, por lo que cada parte cuenta con aproximadamente 25%
de las medidas. Hay tres puntos cuartiles, denotados con , ,

Ejemplo: Para nuestros datos, , , .

3. Estadísticos de dispersión:
La dispersión o variación de los datos mide cuán esparcidos se encuentran
éstos o qué tan heterogéneos son. Hay varias medidas de dispersión, siendo las
más comunes las siguientes:

Rango: Es la diferencia entre el valor máximo y el valor mínimo del


conjunto de datos.

Ejemplo: Para nuestros datos,

Varianza: Medida de variación de los valores con respecto a la media.

Ejemplo: Para nuestros datos, la varianza es:


Desviación Estándar: Medida de variación igual a la raíz cuadrada de la
varianza.

Ejemplo: Para nuestros datos, la desviación estándar es:

Rango semiintercuartil: También conocido como desviación cuartil,


denotado por , se define como:

Ejemplo: Para nuestros datos, , , por tanto,

Coeficiente de Variación: Proporciona una medida de variabilidad que


es independiente de la unidad de medida; por ello, puede usarse para
comparar la variabilidad de dos grupos de datos expresados en dos
distintas unidades de medida. En otras palabras, el coeficiente de
variación expresa la desviación estándar como un porcentaje de la media
y se define como:

Ejemplo: Para nuestros datos, el coeficiente de variación es:


Tabulación de datos cuantitativos:

A continuación se presentan las notas correspondientes a los cursos de matemáticas y


español, de un grupo de 50 estudiantes.

# Español Matemáticas # Español Matemáticas


1 3,0 3,0 26 3,5 2,4
2 2,7 2,8 27 2,4 3,8
3 4,2 3,6 28 3,5 2,7
4 3,5 2,4 29 4,2 4,0
5 3,2 3,3 30 4,9 2,5
6 4,8 3,2 31 1,6 2,8
7 4,8 2,3 32 4,4 2,5
8 3,2 3,6 33 3,5 3,5
9 3,7 3,1 34 2,0 2,5
10 3,5 3,0 35 4,7 2,9
11 4,9 2,6 36 3,6 3,5
12 3,0 3,6 37 5,0 2,4
13 3,0 4,1 38 4,4 1,9
14 4,4 3,0 39 3,8 2,3
15 2,4 2,9 40 3,9 2,7
16 4,0 3,2 41 4,7 2,8
17 1,4 3,0 42 4,1 3,1
18 3,1 3,4 43 3,3 3,3
19 2,7 3,6 44 4,0 3,5
20 4,0 4,6 45 5,0 3,7
21 4,6 3,1 46 3,4 3,1
22 4,9 2,9 47 4,2 1,4
23 4,0 2,7 48 3,4 2,8
24 1,9 2,1 49 3,4 2,8
25 3,9 2,4 50 4,6 2,3
Tabla de Frecuencias.
Al resumir grandes cantidades de datos, es útil distribuir los datos en clases o
categorías y determinar el número de individuos que pertenecen a cada clase,
llamado frecuencia de clase. Una disposición tabular de los datos por clases
junto con las correspondientes frecuencias de clase, se llama distribución de
frecuencias. Los datos así organizados en clases como en la anterior
distribución de frecuencias se llaman datos agrupados.

Existen algunas reglas generales para formar distribuciones de frecuencia:


a. Si k es el número de clases y n el tamaño de la muestra, entonces se
recomienda que: ó . (Excel utiliza )
b. Si R es el rango de los datos y k es el número de clases, entonces como

tamaño o extensión de un intervalo de clase se toma el valor , de tal

manera que
c. Las fronteras de clase son cerradas por el lado izquierdo.

Para nuestro ejemplo, la tabla de frecuencias correspondiente a matemáticas es:

Clase Frecuencia
1,41 1,86 1
1,86 2,31 1
2,31 2,76 3
2,76 3,21 12
3,21 3,66 17
3,66 4,11 11
4,11 4,56 4
4,56 mayor 1
Gráficos:

Histograma.

Histograma - Matemáticas
18
16
14
Frecuencia

12
10
8
6
4 Frecuencia
2
0
1,41 1,86 2,31 2,76 3,21 3,66 4,11 y
mayor...
Clase

Boxplot:
El boxplot proporciona información sobre el centro, la dispersión y la simetría de
un conjunto de observaciones. En él se pueden ubicar valores como los
cuartiles, la media, la mediana y los valores máximo y mínimo de los datos.
Además se pueden identificar puntos extremos, los cuales aparecen antes del
primer cuartil o después del tercer cuartil indicando que en la distribución de
datos existen valores muy altos o muy bajos que no están incluidos en el rango
intercuartílico.

S-ar putea să vă placă și