Sunteți pe pagina 1din 53

Tema 1.

Muestreo
Panorama General
Conceptos importantes Estadísticos: medidas
obtenidas de la
muestra.

Población: Conjunto o agrupación de


todos los elementos o individuos que se
estudian Muestra: Subconjunto de una población

Censo: Cuando la información deseada


Parámetros: medidas está disponible para todos los objetos de
obtenidas de la la población.
población.
Muestreo estadístico
Es un enfoque sistemático para seleccionar unos cuantos elementos
(una muestra) de un grupo de datos (población) a fin de hacer algunas
inferencias sobre el grupo total.

Este puede ser con o sin reemplazo.

● Con reemplazo: cuando un elemento de la población puede ser


escogido varias veces para formar parte de la muestra .
● Sin reemplazo: cuando un elemento de la población solo puede
ser seleccionado una sola vez para formar parte de la muestra.
Requisitos de una buena muestra
La importancia de una buena muestra radica en que a partir de ella se puedan hacer
inferencias sobre características de toda la población, es decir, que se puedan obtener
conclusiones que sean válidas para el conjunto poblacional, por lo que la muestra debe
ser:

1. Representativa

Los elementos de la muestra no deben tener atributos especiales que los


diferencien del resto de la población. Ej. suavizante para ropa.

2. Aleatoriedad.

Dentro del total de los elementos que serán objeto de estudio, los elementos que

forman la muestra deben ser seleccionados al azar.


¿Porqué usar una muestra?

1. Toma menos tiempo


2. Menos costoso
3. Es más práctico
4. Ahorro de dinero
La teoría General del muestreo
Se refiere al estudio de las relaciones que existen entre un colectivo o
población y las muestras que se extraen de las mismas.

El estudio de las muestra permite hacer estimaciones de


características desconocidas de la población.

El proceso de muestreo se inicia definiendo el marco, es decir, una


lista de elementos que conforman la población.

El uso de marcos diferentes conduce a conclusiones distintas.


Tipos de muestras

MUESTRA DE JUICIO

NO PROBABILÍSTICOS

TIPOS DE MUESTRAS MUESTRA DE


CONVENIENCIA

ALEATORIO SIMPLE

PROBABILÍSTICOS SISTEMÁTICO

ESTRATIFICADA

RACIMOS O
CONGLOMERADO
Muestras No probabilísticas: Muestras probabilísticas:

Se basa en el conocimiento de la Todos los elementos tienen la


población por parte de alguien, misma probabilidad de pertenecer a
quien hace a la muestra la muestra.
representativa.
Permite hacer inferencias a través
No es precisa, debido al sesgo en la de los resultados obtenidos.
selección lo que hace que no pueda
ser utilizada para inferir las Varían en cuanto a costo, exactitud
estadísticas. y complejidad.
Algunos usos del muestreo en diversos campos:

1. Política. Las muestras de las opiniones de los votantes se usan para que los
candidatos midan la opinión pública y el apoyo en las elecciones.
2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes
se usan para determinar la eficiencia de una técnica o programa de enseñanza.
3. Industria. Muestras de los productos de una línea de ensamble sirve para
controlar la calidad.
4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos
prueban la eficacia de una técnica o de un fármaco nuevo.
5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la
producción los efectos de un fertilizante nuevo.
6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar
los criterios del público sobre cuestiones relacionadas con el bienestar y la
seguridad nacional.
Errores del muestreo

ERROR NO MUESTRAL:

ERROR MUESTRAL: Error que no depende del diseño muestral, sino del desarrollo
de la operación de campo, entre otros factores.
Se refiere a la variación natural existente
entre las muestras tomadas de la misma Es un error en las estimaciones de muestra que no pueden
atribuirse a las fluctuaciones del muestreo. [INEGI. 2012.
población.
Planeación y control administrativo en proyectos estadísticos.]

El sesgo de las muestras es un tipo de error no muestral. El


sesgo muestral se refiere a una tendencia sistemática
inherente a un método de muestreo que da estimaciones de un
parámetro que son, en promedio, menores (sesgo negativo), o
mayores (sesgo positivo) que el parámetro real. El sesgo
muestral puede suprimirse, o minimizarse, usando la
aleatorización.
¿Cómo determinar el tamaño de la
1.
muestra?
Tamaño de la población. Hablamos de dos tipos: población objetivo, que suele tiene
diversas características y también es conocida como la población teórica. La población
accesible es la población sobre la que los investigadores aplicarán sus conclusiones.
2. Margen de error (intervalo de confianza). El margen de error es una estadística que
expresa la cantidad de error de muestreo aleatorio en los resultados de una encuesta, es
decir, es la medida estadística del número de veces de cada 100 que se espera que los
resultados se encuentren dentro de un rango específico.
3. Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con una
determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95% significa
que los resultados de una acción probablemente cubrirán las expectativas el 95% de las
veces.
4. La desviación estándar. Es un índice numérico de la dispersión de un conjunto de datos (o
población). Mientras mayor es la desviación estándar, mayor es la dispersión de la
población.
Cálculo del tamaño de la muestra
desconociendo el tamaño de la población o
para poblaciones infinitas
En donde

Z = nivel de confianza,

P = probabilidad de éxito, o proporción

esperada

Q = probabilidad de fracaso

D = precisión (error máximo admisible en términos de proporción)


Cálculo del tamaño de la muestra
conociendo el tamaño de la población o
población finita.

En donde,

N = tamaño de la población Z = nivel de confianza

P = probabilidad de éxito o proporción esperada

Q = probabilidad de fracaso

D = precisión (Error máximo admisible en términos de proporción).


Variables de las que depende el tamaño de
la muestra.

1. El nivel de confianza o riesgo que aceptamos de equivocarnos al presentar


nuestros resultados: lo que deseamos es que en otras muestras semejantes los resultados sean los
mismos o muy parecidos. También podemos denominarlo grado o nivel de seguridad.

El nivel de confianza habitual es de .05 (α = .05). El nivel de confianza va a entrar en la fórmula para
determinar el número de sujetos con un valor de zeta, que en la distribución normal está asociado
a una determinada probabilidad de ocurrencia.
2. La varianza (o diversidad de opiniones…) estimada en la población. Esta
diversidad en la población es la diversidad estimada; si la conociéramos (cuántos van a decir que
sí y cuántos van a decir que no) en primer lugar no necesitaríamos hacer la encuesta.

La varianza mayor (la mayor diversidad de respuestas) se da cuando p = q = .50 (la mitad de los
sujetos responde sí y la otra mitad responde no) por lo que en esta fórmula [1] pq es siempre
igual a (.50)(.50) = .25 (es una constante).

3. El margen de error que estamos dispuestos a aceptar.

Si por ejemplo el 20% de la muestra está de acuerdo con una proposición (o dice que va votar a
un determinado candidato o que prefiere un determinado producto) eso no significa que el 20%
exacto de la población vaya a responder lo mismo, puede ser el 22% o el 18%… necesitaremos
muestras mayores si queremos que el margen de error o de oscilación de muestra a muestra de
los resultados sea muy pequeño (el resultado exacto lo tendríamos si respondiera el 100% y la
muestra coincidiera con la población).
¿Cómo conozco el nivel de confianza?
Ejemplos:

¿Qué muestra necesitaremos con un


nivel de confianza del 95%, admitiendo
un margen de error del 5% o del 2%.
Calcule la muestra para una
población de 3455 personas con
un nivel de confianza del 95% y un
margen de error del 6%
Resumiendo...

El tamaño de la muestra (valor de N) aumentará:

1. Si aumenta nuestro nivel de confianza (de seguridad) que requiere un


valor mayor de z,

2. Si disminuye el error muestral (e).

Es decir, si queremos mucha seguridad y poco margen de error hará


falta un N mayor.
Ejercicios 1.

1. Calcula el tamaño de la muestra de una población de 500


elementos con un nivel de confianza del 95%, con un error del
3%.
2. Calcula el tamaño de la muestra de una población de 1200
elementos con un nivel de confianza del 99%, con un error del
2%
3. Encuentra el tamaño de la muestra con un nivel de confianza del
90% y un error del 5%.
Intervalo de confianza de una muestra

Un intervalo de confianza es un rango de valores, derivado de los


estadísticos de la muestra, que posiblemente incluya el valor de un
parámetro de población desconocido. Debido a su naturaleza
aleatoria, es poco probable que dos muestras de una población en
particular produzcan intervalos de confianza idénticos.

Un intervalo de confianza es una técnica de estimación utilizada


en estadística inferencial que permite acotar un par o varios pares
de valores, dentro de los cuales se encontrará la estimación
puntual buscada (con una determinada probabilidad).
El objetivo de la estimación por intervalos de confianza es obtener
un intervalo, en el cual se encuentra el verdadero valor del
parámetro con una determinada probabilidad. Dicha probabilidad
se denomina nivel de confianza (1- α), donde α es el nivel de
significación.
Intervalo de confianza

nN
Ejemplos:
1. Para una muestra de 30 alumnos se obtuvo una nota media en el
último exámen de matemáticas de 5.83 con una desviación típica
de 1.92. Determina el intervalo de confianza al 80%.

2. El peso medio de una muestra de 100 recién nacidos es de


3200g. Sabiendo que la desviación típica de los pesos de la
población de recién nacidos es 150g, halla el intervalo de
confianza para la media poblacional con una significación de
0.05.
Error máximo.
Si despejamos n de la fórmula anterior:
Se desea realizar una investigación para estimar el
peso medio de los recién nacidos de madres
fumadoras. Se admite un error máximo de 50g. con
una confianza del 95%. Si por estudios anteriores se
sabe que la desviación típica del peso medio de tales
recién nacidos es de 400 gr. ¿Qué tamaño mínimo de
muestra se necesita para la investigación?
La desviación típica de la altura de los
habitantes de un país es de 8 cm. Calcular el
tamaño mínimo de la muestra de habitantes
de dicho país, para que el error cometido al
estimar la altura media sea inferior a 1 cm.
con un nivel de confianza del 90%
Se desea estimar con un nivel de confianza del 95% la talla
media de los hombres de 18 años o más años de un país.
Suponiendo que la desviación típica de las tallas en la
población vale 4, obtenga el intervalo de confianza con una
muestra de n= 15 hombres seleccionados al azar, cuyas
alturas son:

167, 167,168, 168, 168, 169, 171, 172, 173, 175, 175, 175,
177, 182, 195
Del ejercicio anterior,

a) Encuentra el intervalo de confianza para la media a un


nivel de confianza del 80%
b) Con un nivel de confianza del 99%, deseamos estimar
la talla media poblacional, de modo que el error
máximo no sea mayor a 0.5 cm. Determine de qué
tamaño debe ser la muestra seleccionada de hombres.
Aleatoriedad e Indeterminismo de
una muestra
Una muestra aleatoria es un subconjunto de una población seleccionado
mediante un proceso según el cual todas las muestras de un tamaño
determinado tienen las mismas probabilidades de ocurrir. En estadística, una
muestra aleatoria se utiliza para hacer generalizaciones, o inferencias, sobre
una población.

Sin embargo, una muestra debe recogerse de forma aleatoria para que
represente fielmente a toda la población de la que proviene. Usted debe
planificar cuidadosamente su proceso de recolección de datos para asegurarse
de que la muestra sea aleatoria. Además, el proceso o la población de donde se
toman los datos debe ser estable.
Las muestras deben ser aleatorias para eliminar el sesgo de
selección. Sesgo de selección significa que algunos sujetos tienen
más probabilidades que otros de estar en la muestra. Si la muestra
es sesgada, usted solo podrá hacer inferencias acerca de los
sujetos de la muestra, no acerca de toda la población.

La aleatoriedad evita la repetición o formación de patrones.


Supongamos que usted desea iniciar una nueva campaña publicitaria, pero
no está seguro de si la prensa, la radio o la televisión es la mejor manera de
llegar a sus clientes. Aunque no resulta práctico ni económico encuestar a
todos sus clientes, es posible encuestar a una muestra aleatoria. En principio,
usted se inclina por encuestar sólo a los clientes que han respondido a una
oferta de reembolso por correo, porque es más probable que estos clientes
respondan a una encuesta. Sin embargo, esta muestra no representa a toda
la población, porque cada cliente no tiene la misma posibilidad de ser
seleccionado. Esto podría conducir a decisiones de negocio poco acertadas.
En lugar de ello, usted decide seleccionar de manera aleatoria a los clientes
que encuestará usando una lista alfabética de todos los clientes. A partir de
estos datos, puede hacer inferencias acerca de su clientela para determinar
la mejor manera de invertir su presupuesto de publicidad.
El indeterminismo es la actitud filosófica contradictoria al determinismo, es decir
que los acontecimientos no dependen de un proceso causal "lineal", esto es por
necesidad, sino de un proceso "no lineal", esto es por azar; y por azar no es sin
causas, más por un sistema de causas no coordinadas (no lineales).
En oposición al determinismo (procesos necesitados por causas lineales), el
indeterminismo niega la fuerza de la necesidad "absoluta" de todos procesos
físicos y biológicos. Como el determinismo, el indeterminismo es un concepto
ontológico, concerniente al ser.
Ya que el determinismo, que es siempre absoluto y global, niega libertad en las
acciones humanas, el indeterminismo se extiende en el concepto antropológico de
"libre albedrío". En el indeterminismo los conceptos de sistema, proceso y evento
juegan un rol fundamental porque el azar es el resultado de una serie de causas
no lineales (que no están relacionadas).
Desviación estándar y varianza...
La desviación estándar es la medida de dispersión más común,
que indica qué tan dispersos están los datos con respecto a la
media. Mientras mayor sea la desviación estándar, mayor será la
dispersión de los datos.

El símbolo σ (sigma) se utiliza frecuentemente para representar la


desviación estándar de una población, mientras que s se utiliza
para representar la desviación estándar de una muestra. La
variación que es aleatoria o natural de un proceso se conoce
comúnmente como ruido.
Considere el ejemplo siguiente. Los administradores dan seguimiento al
tiempo de egreso de los pacientes tratados en las áreas de urgencia de
dos hospitales. Aunque los tiempos de egreso promedio son
aproximadamente iguales (35 minutos), las desviaciones estándar son
significativamente diferentes. La desviación estándar del hospital 1 es de
aproximadamente 6. En promedio, el tiempo para dar de alta a un paciente
se desvía de la media (línea discontinua) aproximadamente 6 minutos. La
desviación estándar del hospital 2 es de aproximadamente 20. En
promedio, el tiempo para dar de alta a un paciente se desvía de la media
(línea discontinua) aproximadamente 20 minutos.

Hospital 1 Hospital 2
Varianza
La varianza mide qué tan dispersos están los datos alrededor de la
media. La varianza es igual a la desviación estándar elevada al
cuadrado.
La ley de los grandes números
Te hago una pregunta personal: Si estás jugando a la ruleta
apostando en cada turno por negro o rojo y ves que sale 6
veces seguidas el negro,
¿Cuál es tu siguiente apuesta? ¿Negro o rojo?
Born Joseph Hobson Jagger

2 September 1830

Bradford, Yorkshire

Died 25 April 1892 (aged 61)

Nationalit British
y

Occupatio Textile businessman


n

Known for "Breaking the bank at Monte Carlo"


La ley fue mencionada por primera vez por el matemático Gerolamo Cardamo aunque sin
contar con ninguna prueba rigurosa. Posteriormente, Jacob Bernoulli logró hacer una
demostración completa en su obra “Ars Conjectandi” en el año 1713. En los años 1830´s
el matemático Siméon Denis Poisson descubrió con detalle la Ley de los Grandes
Números lo que vino a perfeccionar la teoría.

La ley de los grandes números es un teorema fundamental de la teoría de la probabilidad


que indica que si repetimos muchas veces (tendiendo al infinito) un mismo experimento,
la frecuencia de que suceda en cierto evento tiende a ser constante.

Esta ley señala que si se lleva a cabo repetidas veces un mismo experimento (lanzar una
moneda, tirar una ruleta, etc), la frecuencia con la que se repetirá un determinado suceso
se acercará a una constante. Dicha constante será a su vez la probabilidad de que ocurra
este evento.
Ejemplo:
Supongamos el siguiente experimento: lanzar un dado común.
Ahora consideremos el evento de que nos salga el número 1. Como
sabemos, la probabilidad de que salga el número 1 es de 1/6 (el
dado tiene 6 caras, una de ellas es el uno).

¿Qué nos dice la Ley de los Grandes Números?, nos dice que a
medida que vamos aumentando el número de repeticiones de
nuestro experimento (hacemos más lanzamientos del dado), la
frecuencia con la que se repetirá el evento (nos sale 1) se acercará
cada más a una constante, que tendrá un valor igual a su
probabilidad (1/6 o 16,66%).
Tal como indica la Ley de los
grandes números, en los primeros
lanzamientos la frecuencia es
inestable pero a medida que
aumentamos el número de
lanzamientos, la frecuencia tiende
a estabilizarse a un cierto número
que es la probabilidad de que
ocurra el suceso (en este caso
números del 1 al 6 ya que se trata
del lanzamiento de un dado).
Teorema del Límite
central
El teorema del límite central es un teorema fundamental de probabilidad y estadística. El
teorema describe la distribución de la media de una muestra aleatoria proveniente de una
población con varianza finita. Cuando el tamaño de la muestra es lo suficientemente grande,
la distribución de las medias sigue aproximadamente una distribución normal.

El teorema se aplica independientemente de la forma de la distribución de la población.


Muchos procedimientos estadísticos comunes requieren que los datos sean
aproximadamente normales.

El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que
son considerablemente no normales.

El tamaño que debe tener la muestra depende de la forma de la distribución original. Si la


distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una
aproximación adecuada. Si la distribución de la población es considerablemente asimétrica,
es necesario un tamaño de muestra más grande.
Distribución Uniforme Medias de las muestras

Muestra de una población Uniforme:


Una población que sigue una distribución uniforme es simétrica, pero marcadamente no
normal, como lo demuestra el primer histograma. Sin embargo, la distribución de las
medias de 1000 muestras de tamaño 5 de esta población es aproximadamente normal
debido al teorema del límite central, como lo demuestra el segundo histograma. Este
histograma de las medias de las muestras incluye una curva normal superpuesta para
ilustrar esta normalidad.
Distribución exponencial Medias de las muestra

Muestras de una población exponencial

Una población que sigue una distribución exponencial es asimétrica y no normal, como lo
demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras
de tamaño 50 de esta población es aproximadamente normal debido al teorema del límite
central, como lo demuestra el segundo histograma. Este histograma de las medias de las
muestras incluye una curva normal superpuesta para ilustrar esta normalidad.
Asimetría:
Es el grado en que los datos no son simétricos. El hecho de que el valor de la
asimetría sea 0, positivo o negativo, revela información sobre la forma de los datos.

Distribuciones simétricas o no asimétricas


Figura A
A medida que los datos se vuelven más simétricos, el valor de
su asimetría se acerca a cero. La figura A muestra datos
distribuidos normalmente, que por definición exhiben
relativamente poca asimetría. Al dibujar una línea por el medio
de este histograma de datos normales, se puede ver
fácilmente que un lado es el reflejo del otro. Pero la falta de
asimetría por sí sola no implica normalidad.

La figura B muestra una distribución en la que ambos lados


siguen siendo un reflejo el uno del otro, a pesar de que la
distribución de los datos dista mucho de ser normal. Figura B
Distribuciones asimétricas positivas o hacia la derecha

Los datos con asimetría positiva o asimétricos


hacia la derecha se llaman así porque la "cola"
de la distribución apunta hacia la derecha y
porque el valor de asimetría es mayor que 0 (es
decir, positivo).

Los datos sobre salarios suelen ser asimétricos


de esta manera: muchos empleados de una
empresa ganan relativamente poco, mientras
que cada vez menos personas ganan salarios
muy elevados.
Distribuciones asimétricas negativas o hacia la izquierda

Los datos asimétricos hacia la izquierda o con


asimetría negativa se llaman así porque la "cola"
de la distribución apunta hacia la izquierda y
porque producen un valor de asimetría negativo.
Los datos de tasas de fallas suelen ser
asimétricos a la izquierda. Consideremos el
caso de los focos: muy pocos se quemarán
inmediatamente, la gran mayoría dura un tiempo
considerablemente largo.
Curtosis
La curtosis indica la manera en que las colas de
una distribución difieren de la distribución
normal. Utilice la curtosis como ayuda para
lograr entender inicialmente las características
generales de la distribución de los datos.

Los datos que siguen una distribución normal


perfectamente tienen un valor de curtosis de 0.
Los datos distribuidos normalmente establecen
la línea de base para la curtosis. Una curtosis de
la muestra que se desvía significativamente de 0
puede indicar que los datos no están
distribuidos normalmente.
Linea de base: Valor de Curtosis 0
Una distribución con un valor positivo de curtosis Una distribución con un valor negativo de
indica que la distribución tiene colas más curtosis indica que la distribución tiene colas
pesadas que la distribución normal. más livianas que la distribución normal.

Curtosis Positiva Curtosis Negativa

S-ar putea să vă placă și