Sunteți pe pagina 1din 81

1.

TEORÍA DEL MUESTREO

1.1 POBLACIÓN Y MUESTRA

POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas


características comunes observables en un lugar y en un momento determinado. Cuando se vaya
a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales
al seleccionarse la población bajo estudio.

Entre éstas tenemos:

1. Homogeneidad - que todos los miembros de la población tengan las mismas


características según las variables que se vayan a considerar en el estudio o investigación.
2. Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés.
Determinar si el estudio es del momento presente o si se va a estudiar a una población de
cinco años atrás o si se van a entrevistar personas de diferentes generaciones.
3. Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede
ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o
comunidad en específico.
4. Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente
importante porque ello determina o afecta al tamaño de la muestra que se vaya a
seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de
la población que se vaya a investigar.

MUESTRA - la muestra es un subconjunto fielmente representativo de la población.


Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y
cuán representativo se quiera sea el estudio de la población.

1. ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de


ser incluido.
2. ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o
características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.
3. SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra.
Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los


miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar
una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la
misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con
seguridad de ellas a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su
estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo
a los recursos que haya disponibles. Entre más grande la muestra mayor posibilidad de ser más
representativa de la población.
En la investigación experimental, por su naturaleza y por la necesidad de tener control sobre
las variables, se recomienda muestras pequeñas que suelen ser de por lo menos 30 sujetos.
En la investigación descriptiva se emplean muestras grandes y algunas veces se recomienda
seleccionar de un 10 a un 20 por ciento de la población accesible.

1.2 MUESTREO CON O SIN REEMPLAZO

Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez
en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la
población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun
siendo esta finita.

Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se
hallan extraídos todos los elementos de la población que conforman la muestra.
EJERCICIOS

1. Dada una población finita que tiene cinco elementos A, B, C, D y E seleccione


10 muestras aleatorias simples de tamaño 2.
a) Enumere las 10 muestras empezando con AB, AC y así en lo sucesivo.
AB, AC, AD, AE, BC, BD, BE, CD, CE, DE.
b) Usando el muestreo aleatorio simple, ¿Cuál es la probabilidad que tiene
cada muestra de tamaño 2 de ser seleccionada? 1/10
c) Si el número aleatorio 1 corresponde a A, el número 2 corresponde a B
y así en lo sucesivo. Enliste la muestra aleatoria de tamaño 2 que será
seleccionada al usar los números aleatorios 8 0 5 7 5 3 2.

8 No hay muestra
0 No hay muestra
5 Es la “E”
7 No hay muestra
5 Es la “E” pero ya no se puede usar de nuevo
3 Es la “C”
63271 59986 71744 51102 Es la 80714
15141 “B” pero58683
ya está93108
la muestra,
13554y solo se
79945
2
88547 09896 95436 79115 08303
piden 201041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263
69393 92785 49902 58447 42048 30378 87618 26933 40640 16281
13186 29431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337
84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
La muestra es:
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
EyC
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927
41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332
32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289

TABLA 7.1.

EJERCICIOS

3. Fortune publicó datos sobre ventas, valor del activo, valor del mercado y
ganancias por acción de las 500 corporaciones industriales más grandes de
Estados Unidos (Fortune 500, 2003). Suponga que usted desea seleccionar una
muestra aleatoria simple de 10 corporaciones de la lista Fortune 500. Use los tres
últimos dígitos de la columna 9 de la tabla 7.1 empezando con 554. Leyendo
hacia abajo por esa columna, identifique los números de las 10 corporaciones
que se tomarán para la muestra.
13554 40640 36401 74972
08459 40113 56827 75906
60147 27340 25653 29002
13385 23756 88215 80033
68689 64953 18873 25348
Las muestras son:
459, 147, 385, 113, 340, 401, 215, 2, 33 y 348

5. Una organización de estudiantes desean estimar la proporción de estudiantes que


están a favor de una disposición de la escuela. Se cuenta con una lista con los
nombres y direcciones de los 645 estudiantes inscritos el presente trimestre.
Tomando números aleatorios de tres dígitos del renglón 10 de la tabla 7.1 y
avanzando por ese renglón de izquierda a derecha, determine los 10 primeros
estudiantes que serán seleccionados usando un muestreo aleatorio simple. Los
números aleatorios de tres dígitos empiezan con 816, 283 y 610.
Las muestras son: 283, 610, 39, 254, 568,
81628 36100 39254 56835 37636
353, 602, 421, 638 y 164
02421 98063 89641 64953 99337

7. Suponga que se va a tomar una muestra aleatoria simple de 12 de los 372


médicos de una determinada ciudad. Una organización médica le proporciona
los nombres de los médicos. De la tabla 7.1 use la columna ocho de los números
aleatorios de cinco dígitos para determinar cuáles serán los 12 médicos para la
muestra. Ignore los primeros dos dígitos de cada grupo de cinco dígitos de
números aleatorios. Este proceso empieza con el número aleatorio108 y continúa
93108 26933 49292 69468 61374 descendiendo por la columna de
63754 70290 64531 29380 09226 números aleatorios.
26646 55201 91322 96244 06125 Las muestras son: 108, 290, 201,
16999 72602 02494 95508 00815 292,322, 9, 244, 249, 226, 125, 147 y
113. 21861 89641 52009 84249 63839

(Las últimas dos muestras las tomé de la columna 9 en orden descendiente ya que no
eran suficientes las de la columna 8).
EJERCICIOS

9. The Wall Street Journal proporciona el valor activo neto, el rendimiento


porcentual en lo que va del año y el rendimiento porcentual en tres años de
555 fondos mutualistas (The Wall Street Journal, 25 de abril del 2003).
Suponga que se va a usar una muestra aleatoria simple de 12 de estos 555
fondos mutualistas para un estudio acerca de su tamaño y desempeño. Use la
cuarta columna de los números aleatorios en la tabla 7.1 empezando con el
número 51102, para seleccionar la muestra aleatoria simple de 12 fondos
mutualistas. Empiece con el fondo 102 y use los últimos tres dígitos de cada
renglón de la cuarta columna para el proceso de selección. ¿Cuáles son los
números de los 12 fondos mutualistas en esta muestra aleatoria simple?

51102 58447 75498 25860 Las muestras son:


79115 04588 75055 26678 102, 115, 122, 290, 447, 351, 157, 498, 55,
09911 78351 05915 10528 165, 528 y 25.
67122 30157 49801 46962
15290 56835 70165 16025

1.3 MÉTODOS DE MUESTREO

MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.


<

Los métodos de muestreo probabilísticos son aquellos en donde todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser elegidas. Los métodos de muestreo probabilístico son:
MUESTREO ALEATORIO SIMPLE

Es el método donde la muestra es seleccionada de manera que cada elemento o


individuo de la población tiene las mismas posibilidades de que se le incluya.
Es la técnica de muestreo aleatorio más básica y conforma la base de todas las demás
técnicas de muestreo. En el muestreo aleatorio simple, la n se utiliza para representar el
tamaño de la muestra y la N para representar el tamaño de la población. El proceso de
muestreo dependerá si la población es finita (con un número fijo de la población) o
infinita (no es posible determinar un número).

Las muestras se seleccionan con reemplazo o sin reemplazo. El muestreo con reemplazo
se da cuando tras seleccionar una muestra, se devuelve a la población, donde tiene la
misma probabilidad de resultar seleccionado de nuevo. El muestreo sin reemplazo es
cuando una vez seleccionada una muestra esta no se podrá seleccionar de nuevo. Aunque
el muestreo con reemplazo es una forma válida de identificar una muestra aleatoria
simple, el muestreo sin reemplazo es el procedimiento más usado.

Procedimiento:
1) Definir la población de estudio.
2) Asignar un número a cada individuo de la población
3) Determinar el tamaño de muestra óptimo o para el estudio.
4) Seleccionar la(s) muestra(s) de manera sistemática por medio de algún medio
mecánico (Tablas de números aleatorios, bolas dentro de una bolsa, números
aleatorios generados con una calculadora, etc.)
5) Y se eligen tantos individuos como sea necesario para completar el tamaño de
muestra que necesitamos.
Ejemplo:
Para obtener una muestra de alumnos de una escuela para aplicarles una encuesta, lo
primero que se hace es enumerar a todo el alumnado. Se obtiene una lista de los alumnos
matriculados y se le asigna un número a cada uno en orden alfabético y ascendente.
Suponiendo que el total de alumnos es de 700 se utilizan los números 001, 002,
003,...,700. Se determina el tamaño de muestra, en este caso es de tamaño 75. Enseguida
se utiliza una tabla de números aleatorios formando números de tres dígitos aceptando
como unidad de análisis muestra a todos aquellos que estén comprendidos entre el 001 y
el 700.
MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.

MUESTREO ALEATORIO ESTRATIFICADO.

Es el método donde una población se divide en subgrupos denominados estratos


y se selecciona al azar una muestra de cada estrato.

Un estrato se define mediante algunas características comunes como son el sexo, la


población, la edad, la profesión entre otras que puede decidir la persona que hace la
muestra. Este método es más eficiente que el muestreo aleatorio simple y sistemático,
porque garantiza el hecho de que cada grupo se encuentre representado en la muestra. El
valor del muestreo aleatorio estratificado depende de qué tan homogéneos sean los
elementos dentro de cada estrato, es decir que entre más parecidos sean entre sí, es mejor.

La distribución de la muestra en función de los diferentes estratos se denomina afijación,


y puede ser de diferentes tipos:
1) Afijación Simple: A cada estrato le corresponde igual número de elementos
muéstrales.
2) Afijación Proporcional: Cada estrato se encuentra representado en la muestra en
proporción exacta al tamaño de la población total.
3) Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de
modo que se considera la proporción y la desviación típica. Tiene poca aplicación
ya que no se suele conocer la desviación.

Procedimiento:
Los pasos para seleccionar una muestra proporcionalmente estratificada son:

1) Definir la población de estudio.


2) Determinar el tamaño de muestra requerido.
3) Establecer los estratos o subgrupos.
4) Determinar la frecuencia relativa del muestreo de cada estrato, dividiendo el
tamaño del estrato entre el tamaño de la población de estudio.
5) Multiplicar la frecuencia relativa del muestreo de cada estrato por el tamaño de la
muestra total, para obtener de cada estrato la cantidad de individuos que se
integrarán a dicha muestra.
6) Seleccionar y extraer de cada estrato la cantidad de individuos que formaran parte
de la muestra total aplicando el procedimiento de muestreo aleatorio simple.

MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.

Ejemplo:
Si se tiene que seleccionar una muestra de 20 personas, de una comunidad de 500
habitantes, con el fin de hacerles una encuesta sobre los servicios de salud que reciben.
Los habitantes están repartidos en 5 colonias, en donde el tamaño de cada estrato es:

Frecuencia No. de muestras


Estrato Colonia Tamaño
Relativa por estrato
1 San Miguel 100 0.20 8
2 San Rafael 150 0.30 12
3 San Vicente ÷
050 0.10 4
4 San Marcos 125 0.25 10
5 San Pedro 075 0.15 6
TOTAL 500 1.00 ×
40

Los habitantes de cada colonia están registrados y se les asignará un número, por
ejemplo, en el estrato 1 hay 100 habitantes entonces se numerará de 001 a 100, en el
estrato 2 hay 150 y se numerará de 001 a 150 y así sucesivamente se hará con los demás
estratos. Y del tamaño de cada estrato se sacaran el número de muestras que se
obtuvieron, por medio del método de muestreo aleatorio simple con la tabla de números
aleatorios siguiente.

Del estrato 1 (1 a 100) se tomarán las 8 muestras de la fila 1 de izquierda a derecha


Las muestras son: 58, 94, 40, 26, 9, 2, 16 y 42

Del estrato 2 (1 a 150) se tomarán las 12 muestras de la fila 2 de izquierda a derecha


Las muestras son: 114, 116, 79,50, 146, 104, 87, 33, 83, 126, 71 y 68

Del estrato 3 (1 a 50) se tomarán las 4 muestras de la fila 3 de izquierda a derecha


Las muestras son: 5, 36, 43 y 39

Del estrato 4 (1 a 125) se tomarán las 10 muestras de la fila 4 de izquierda a derecha


Las muestras son: 52, 118, 110, 33, 15, 25, 58, 76, 29 y 49

Del estrato 5 (1 a 75) se tomarán las 6 muestras de la fila 5 de izquierda a derecha


L58 144 147 94 40 26 135 9 2 16 129 42 5 150 22 126 149 69 109 19 51 3 4 39 11
114 116 79 50 146 104 87 33 83 126 71 68 53 41 122 62 6 144 8 149 111 98 31 146 2
a
70 5 36 55 148 141 81 144 112 99 36 107 104 145 95 43 95 73 39 52 30 131 140 88 60
s52 118 110 33 144 15 25 58 76 29 49 108 67 34 88 38 129 4 101 72 105 144 59 132 51
137 106 41 113 39 139 128 55 17 16 105 116 96 45 86 71 96 129 94 118 40 68 9 9 16
131 35 68 69 61 42 35 9 116 108 2 145 80 27 121 13 116 94 49 121 11 47 62 64 103
m
uestras son: 41, 39, 55, 17, 16 y 45

MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.

MUESTREO ALEATORIO SISTEMÁTICO.

Es el método donde se selecciona un punto aleatorio de inicio y posteriormente


se elige cada k-ésimo miembro de la población.
Para realizar muestreos en poblaciones muy grandes, el método de muestreo aleatorio
simple resulta complicado y difícil para aplicar, en estos casos se utiliza el muestreo
sistemático. En una muestra sistemática, los N elementos de la población se dividen en n
grupos de k elementos. Un k-ésimo caso representa el intervalo de selección de unidades
N
de análisis que serán integradas a la muestra, se obtiene mediante la expresión: k= n

El resultado de k se redondea al entero más cercano. Este procedimiento se hace más


sencillo porque en lugar de extraer n números aleatorios sólo se extrae uno. Y porque es
fácil si al igual que el muestreo aleatorio simple, se tienen enumerados todos los
elementos de la población, o si de lo contrario no se tienen enumerados de todos modos
se puede realizar pero se debe observar el orden físico de los elementos de la población.
Cuando el orden físico de la población se relaciona con la característica de la población
no se debe aplicar el muestreo aleatorio sistemático. El riesgo de este tipo de muestreo
está en los casos en que se dan periodicidades en la población ya que al elegir a los
miembros de la muestra con una periodicidad constante podemos introducir una
homogeneidad que no se da en la población.

Procedimiento:
1) Definir la población de estudio.
2) Determinar el tamaño de muestra requerido.
3) Se calcula la muestra sistemática dividiendo la población entre el tamaño de la
muestra.
4) El valor de k es el intervalo de selección que indica cada k de veces que un
elemento de la población se integrará a la muestra (en el caso de no estar
enumerados los elementos). Y también es el intervalo de selección del cual se
escogerá un número aleatoriamente dentro de este intervalo (en caso de que los
elementos estén enumerados), y de ahí se parte para seleccionar las muestras en
los demás grupos o intervalos de selección.

Ejemplo:
Cuando los elementos no están enumerados. Si se va a probar una muestra de 50 de una
500
población de 500 pelotas, k = , k=10. Ya que ninguna pelota tiene un número
50
específico, este intervalo de selección indica que cada 10 decima pelota que contemos se
integrará a la muestra. La primera muestra es la décima pelota que

MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.

Saquemos de una bolsa, la segunda muestra es la vigésima, la tercera la trigésima y así de


diez en diez hasta completar las 50 muestras que se piden.

Cuando los elementos están numerados. Si la población se compone de una lista de


cheques pre numerados N=800 y se quiere extraer una muestra sistemática de n=40, se
N 800
aplica la formula k = n , k = , k =20. De este intervalo selecciona un número
40

aleatorio entre 1 y 20, y se incluye cada vigésimo elemento tras la primera selección de la
muestra. Supongamos que el primer número seleccionado es 8, sus selecciones
subsiguientes son 28, 48, 68, 88, 108, 128, 148, 168, 188, 208, 228, 248, 268, 288, 308,
328, 348, 368, 388, 408, 428, 448, 468, 488, 508, 528, 548, 568, 588, 608, 628, 648, 668,
688, 708, 728, 748, 768 y 788.

MUESTREO POR CONGLOMERADOS.


Es el método donde una población se divide en conglomerados partir de los
límites naturales geográficos o de otra clase. A continuación se seleccionan los
conglomerados al azar y se toma una muestra de forma aleatoria de uno de los
elementos de cada grupo.

En una muestra de conglomerados, se divide N elementos de la población en varios


grupos de tal manera que cada uno sea representativo de toda la población. Este
procedimiento tiende a proporcionar mejores resultados cuando los elementos dentro de
los conglomerados no son semejantes. Lo ideal es que cada conglomerado sea una
representación, a pequeña escala, de la población. Se aplica en el muestreo de áreas, en la
que los conglomerados son manzanas, ciudades, distritos electorales, países, etc. En este
tipo de muestreo es imprescindible diferenciar entre unidad de análisis entendida como
quiénes va a ser medidos y unidad muestra que se refiere al conglomerado a través del
cual se logra el acceso a la unidad de análisis.

Procedimiento:
1) Dividir la población en conglomerados.
2) Seleccionar al azar el número de conglomerados que desee.
3) Tomar una muestra aleatoria simple de uno de los elementos de cada
conglomerado.
Ejemplo:
Si se va a realizar una encuesta sobre las políticas y leyes del municipio, se podría dividir
el municipio en distritos, por ejemplo en 13 distritos, de esos tres se toma al azar el 4, 5, 9
y 11, y solo concentrándonos en estos distritos, tomamos una muestra aleatoria de
habitantes de cada uno de esos distritos, para entrevistarlos.
MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.

MUESTREO DE CONVENIENCIA.

Es el método no probalístico en el que la selección de los elementos para la


muestra es de acuerdo con la conveniencia.

Los elementos se incluyen en la muestra sin que haya una probabilidad previamente
especificada o conocida de que sean incluidos en la muestra.

Ejemplo:

Un profesor que realiza una investigación en una universidad puede usar estudiantes
voluntarios para que constituyan la muestra, ¿existe alguna razón? Sí, los tiene al
alcance y participarán como sujetos a un costo bajo o sin ningún costo. De manera
similar, un inspector puede muestrear un cargamento de naranjas seleccionando al azar
naranjas de varias de las cajas. Marcar una naranja y usar un método pro balístico de
muestreo puede no resultar práctico.
Tiene la ventaja de ser relativamente fáciles, pero es imposible evaluar la “bondad” de
la muestra en términos de su representatividad de la población. Y puede dar o no buenos
resultados. Pero no tiene un fundamento.

MUESTREO SUBJETIVO.

Este método suele ser una manera fácil de seleccionar una muestra. Sin embargo la
calidad de los resultados muéstrales depende de la persona que selecciona la muestra. Se
debe tener mucho cuidado al hacer inferencias acerca de las poblaciones a partir de
muestreos subjetivos.

Ejemplo:
Un reportero puede seleccionar dos o tres senadores considerando que estos senadores
reflejan la opinión general de todos los senadores.

Es el método no probalístico en el que la selección de los elementos para la


muestra es de acuerdo con la opinión de la persona que hace el estudio.
1.4 DISTRIBUCIÓN MUÉSTRALES

Una distribución muestral es una distribución de Probabilidad de una estadística muestral


calculada a partir de todas las muestras posibles de tamaño "n" elegidas al azar de una población
determinada. Generalmente nos interesa conocer una o más de las siguientes características de la
distribución muestral. 1.- Su forma funcional (como aparece en su representación gráfica). 2.- Su
media. 3.- Su desviación estándar (error estándar)
1.4.1 DISTRIBUCIONES MUESTRALES DE UNA POBLACIÓN MEDIA, VARIANZA Y
PROPORCIÓN: MEDIA, VARIANZA Y POPORCION

Algunas distribuciones muestrales son de interés particular, como la de la Media. En este punto
se introduce las distribuciones muestrales de la Media, Varianza y proporción. Más adelante se
introducirá otras distribuciones.

a) Media

La distribución muestral de la Media depende de varios circunstancias como la distribución de la


población de la que se extrae las muestras:

1) La población se distribuye según el modelo Normal. La distribución de Medias muestrales


sigue el modelo Normal, con parámetros mu y sigma
donde sigma al cuadrado y n son la Varianza de la distribución poblacional y el tamaño de la
muestra respectivamente.

2) La población no sigue la distribución Normal. En este caso la distribución de Medias


muestrales se acerca al modelo Normal (con los mismos parámetros que hemos visto al apartado
a) cuanto mayor sea el tamaño de la muestra.

Algunas características de la distribución muestral de la Media

1) La variación de la distribución muestral es menor cuanto mayor sea n (tamaño de la muestra)


siempre que la Varianza de la población sea la misma.

Explicación: La fórmula de la Varianza de la distribución muestral de la Media es:

cuanto mayor es el denominador (n), más pequeño es el valor del término a la izquierda del
"igual".

Ejemplo

A continuación se presenta las Varianzas y los Histogramas de tres distribuciones muestrales de


la Media (número de muestras=100) en que los tamaños de las muestras son n=25, n= 100 y
n=1000.

n=25

Varianza= 0.43
n=100

Varianza= 0.11

n= 1000

Varianza= 0.01

Los valores de la Varianza de la distribución de Medias muestrales son inferiores y la dispersión


observada en los Histogramas (ver en el eje horizontal que la amplitud de la variable disminuye)
cuanto mayor es n.
2) Cuando la distribución de Medias muestrales aproxima la distribución Normal, podemos
obtener probabilidades de las Medias muestrales.

Ejemplo

Si obtenemos una Media muestral igual a 6, y sabemos que la distribución muestral es


Normal(5,2) -el 5 es la media y el 2 la Desviación Típica de la distribución muestral- la
probabilidad de obtener puntuaciones iguales o inferiores a 6 es

La probabilidad de obtener valores iguales o inferiores a 0.5 en una distribución Normal es 0.69
(consultar tablas o funciones de probabilidad de la distribución Normal).

b) Varianza

La distribución muestral del estimador de la Varianza, (la Cuasivarianza) es:

Donde n es el número de grados de libertad.

c) Proporción

La distribución de p aproxima la distribución Normal con parámetros

si el producto np es mayor que 5.


Ejemplo

La distribución muestral de la proporción de "suspenso" en un muestreo aleatorio en que el


número de muestras es igual a 10000, el tamaño de la muestra es igual a 20 y la probabilidad de
obtener "suspenso" es igual 0.3 es

A recordar

Muestra: Subconjunto de la población.

Distribución muestral: Distribución del estadístico obtenido en las muestras.

Parámetro: Característica de la población.

N: Tamaño de la población.

n: Tamaño de la muestra.

Diferenciación de los símbolos de la muestra, población y distribución muestral:


Muestreo: Proceso de selección de las muestras

Las distribuciones muestrales aparecen de forma completa (un número muy grande de muestras)
en los textos para mostrar con mayor claridad sus características, pero hay que tener en cuenta
que cuando se trabaja con datos reales, generalmente se dispone de UNA suela muestra.

El muestreo tiene como finalidad obtener muestras lo más representativas posibles de la


población.

El conocimiento de la distribución muestral del estadístico permite cuantificar la probabilidad de


obtener valores particulares del estadístico.

2. TEORÍA DE ESTIMACIÓN

2.1 ESTIMACION PUNTUAL

La estimación de parámetros tiene por finalidad asignar valores a los parámetros poblacionales a
partir de los estadísticos obtenidos en las muestras. Dicho de otra manera, la finalidad de la
estimación de parámetros es caracterizar las poblaciones a partir de la información de las
muestras (por ejemplo, inferir el valor de la Media de la población a partir de los datos de la
muestra).

2.2 PROPIEDADES DEL ESTIMADOR PUNTUAL

Un estimator as un estadítico (esto es, una función de la muestra) usado para estimar
un parámetro desconocido de la población . La media de la muestra (x) puede ser un
estimador de la media de la población µ, y la proporción de la muestra se puede utilizar
como un estimador de la proporción de la población .
Una estimación es un valor específico observado de un estadístico (estimador).
Podemos hacer dos tipos de estimaciones concernientes a una población: una
estimación de in tervalo y una estimación puntual.

ESTIMACIÓN PUNTUAL.

Es un solo valor o número que se utiliza para estimar un parámetro de población


desconocido. A menudo una estimación puntual es insuficiente debido a que solo se
tienen dos opciones: es correcta o está equivocada . Se estaría haciendo un estimación
puntal si por ejemplo, un je de departamento de una universidad afirmara N uestros datos
actuales indican que en la materia de matemáticas tendremos 350 estudiantes el
siguiente semestre.

Propiedades.

Antes de utilizar un estadístico muestra como estimador puntual, se verifica si el


estimador puntual tiene ciertas propiedades que corresponden a un buen estimador
puntual .
Como hay distintos estadísticos mués trales que se usan como estimadores puntuales
de sus correspondientes parámetros poblaciona les, se usará la notación general
siguiente:

8 = Es el parámetro poblacional de interés.


8= Es el estadís tico muestra! o estimador puntual de 8

En esta notación les la letra griega theta y la notación 8se lee "theta sombrero". En
general llrepresenta cualquier parámetro poblacional como, por ejemplo, la media
poblacional, la desviación estándar poblacional, etc.; Brepresenta el correspondiente
estadístico muestra, por ejemplo la media muestra!, la desviación estándar muestra y
la proporción muestra.
Las propiedades son:

lnsesgadez: Si el valor del estadístico muestra es igual al parámetro poblacional que se


estudia, se dice que el estudio muestra es una estimador insesgado del parámetro
poblacional .

El estadístico muestra! B es un estimado insesgado del parámetro poblacional OsiE( B)


= O, donde E( B) = valor esperado del estadístico muestra! B.

Por lo tanto, el valor esperado, o media, de todos los posibles valores de un


estad!stico muestra! insesgado es igual al parámetro poblacional que se estudia.

Eftciencia: Se dice que el estimador puntual con menor error estándar tiene mayor
eficiencia relativa que los otros.

Cuando se muestrean poblaciones normales, el error estándar de la media muestra! es


menor que el error estándar de la mediana muestra. Por tanto, la media muestra! es más
eficiente que la mediana muestra.

Consistencia: U n estimador puntual es consistente si el valer del estimador puntual tiende a


estar más cerca del parámetro poblacional a medida que el tamaño de la mues tra
aumenta . En otras palabras, una muestra grande tiende a proporcionar mejor estimación
puntual que una pequeña .

2.3 ESTIMACION POR INTERVALO

La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable
se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muestrales.

b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de


que el estimador se halle dentro de los intervalos de la distribución muestral.

c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se


establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y
definimos un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa
dentro de cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado
"intervalo de confianza".

Ejemplo

Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución
Normal, y resulta:

La distribución de las Medias muestrales aproxima al modelo Normal:


En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es

(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son
los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden
obtener en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones
informáticas como Excel). Seguidamente generamos una muestra de la población y obtenemos
su Media, que es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el
parámetro poblacional (5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la
distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que el
95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra
dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El
porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza es
del 95%, y es denominado nivel de confianza.

Si queremos establecer un intervalo de confianza en que el % de veces que m se halle d

entro del intervalo sea igual al 99%, la expresión anterior es:

(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral en


las tablas de la distribución Normal estandarizada o de funciones en aplicaciones informáticas
como Excel), y son los valores cuya función de probabilidad es igual a 0.995 y 0.005
respectivamente).

Ejemplo

La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de 100000


muestras aleatorias y los intervalos alrededor de cada una de las Medias obtenidas de diez de las
muestras:

donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7)
incluyen el valor del parámetro dentro sus límites.

2.3.1 INTERVALO DE CONFIANZA PARA UNA POBLACION

La estadística inferencial es el proceso de uso de los resultados derivados de las muestras para
obtener conclusiones acerca de las características de una población. La estadística inferencial nos
permite estimar características desconocidas como la media de la población o la proporción de la
población. Existen dos tipos de estimaciones usadas para estimar los parámetros de la población:
la estimación puntual y la estimación de intervalo. Una estimación puntual es el valor de un solo
estadístico de muestra. Una estimación del intervalo de confianza es un rango de números,
llamado intervalo, construido alrededor de la estimación puntual. El intervalo de confianza se
construye de manera que la probabilidad del parámetro de la población se localice en algún lugar
dentro del intervalo conocido.

Suponga que quiere estimar la media de todos los alumnos en su universidad.

Sin embargo, la media de la muestra puede variar de una muestra a otra porque depende de los
elementos seleccionados en la muestra. Tomando en cuenta la variabilidad de muestra a muestra,
se aprenderá a desarrollar la estimación del intervalo para la media poblacional.
Se emplea la siguiente fórmula:

Donde:

Z = valor crítico de la distribución normal estandarizada

Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para la
distribución. El 95% de confianza corresponde a un valor ( de 0,05. El valor crítico Z
correspondiente al área acumulativa de 0,975 es 1,96 porque hay 0,025 en la cola superior de la
distribución y el área acumulativa menor a Z = 1,96 es 0,975.

Un nivel de confianza del 95% lleva a un valor Z de 1,96.

El valor de Z es aproximadamente 2,58 porque el área de la cola alta es 0,005 y el área


acumulativa menor a Z = 2,58 es 0,995

Ejemplo ilustrativo
Solución:

Realizando un gráfico ilustrativo en Winstats y Paint se obtiene:

Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por
simetría se encuentra el otro valor Z = 1,96Remplazando valores y realizando lo cálculos se
obtiene:

Los cálculos en Excel se muestran en la siguiente figura:


Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre
23,02 y 24,98

ESTIMACIÓN DE INTERVALO DE CONFIANZA PARA LA MEDIA


Antes de seguir continuando es necesario estudiar la distribución t de Student, por lo que a
continuación se presenta una breve explicación de esta distribución.

Al comenzar el siglo XX, un especialista en Estadística de la Guinness Breweries en Irlanda

llamado William S. Gosset deseaba hacer inferencias acerca de la media cuando la fuera
desconocida. Como a los empleados de Guinness no se les permitía publicar el trabajo de
investigación bajo sus propios nombres, Gosset adoptó el seudónimo de "Student". La
distribución que desarrolló se conoce como la distribución t de Student.

Si la variable aleatoria X se distribuye normalmente, entonces el siguiente estadístico tiene una


distribución t con n - 1 grados de libertad.
Esta expresión tiene la misma forma que el estadístico Z en la ecuación para la distribución

muestral de la media con la excepción de que S se usa para estimar la desconocida.

Entre las principales propiedades de la distribución t se tiene:

En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas


distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los
extremos y menor en el centro, a diferencia de la distribución normal.

Los grados de libertad de esta distribución se calculan con la siguiente fórmula

Donde n = tamaño de la muestra

Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están
vacíos. Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y
así el número irá disminuyendo hasta que llegue el último alumno. En este punto no hay otra
elección (grado de libertad) y aquel último estudiante simplemente se sentará en la silla que
queda. De este modo, los 40 alumnos tienen 39 o n-1 grados de libertad.

Para leer en la tabla de la distribución t se procede de la siguiente manera:

Usted encontrará los valores críticos de t para los grados de libertad adecuados en la tabla para la
distribución t. Las columnas de la tabla representan el área de la cola superior de la distribución
t. Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo,
con 10 grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t
apropiado como se muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los
valores (un área de 0,05) se encuentran en cada extremo de la distribución. Buscando en la
columna para un área de la cola superior y en la fila correspondiente a 10 grados de libertad, se
obtiene un valor crítico para t de 1.812. Puesto que t es una distribución simétrica con una media
0, si el valor de la cola superior es +1.812, el valor para el área de la cola inferior (0,05 inferior)
sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea menor a -1.812, es
0,05, o 5% (vea la figura).

Ejemplos ilustrativos:

Solución:

Con lectura en la tabla


En la tabla con 12 grados de libertad y 0,025 de área se obtiene un valor de t =2,1788, y por
simetría es igual también a t = -2,1788

Los cálculos en Excel se muestran en la siguiente figura:


El gráfico en Winstats se muestra en la siguiente figura:

2) Un fabricante de papel para computadora tiene un proceso de producción que opera


continuamente a lo largo del turno. Se espera que el papel tenga una media de longitud de 11
pulgadas. De 500 hojas se selecciona una muestra de 29 hojas con una media de longitud del
papel de 10,998 pulgadas y una desviación estándar de 0,02 pulgadas. Calcular la estimación del
intervalo de confianza del 99%

Solución:
Los datos del problema son:

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra
es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza
valores en la siguiente fórmula:

Por lo tanto se debe utilizar la fórmula con el factor finito de corrección.

Calculando la proporción de la cola superior e inferior de la distribución se obtiene:


Los cálculos en Excel se muestran en la siguiente figura:
Interpretación: Existe un 99% de confianza de que la media poblacional se encuentra entre
10,998 y 11,008

El gráfico elaborado en Winstats y Paint se muestra en la siguiente figura:

Estimación del intervalo de confianza para una proporción


Sirve para calcular la estimación de la proporción de elementos en una población que tiene
ciertas características de interés. ´

Ejemplo ilustrativo

En un almacén se está haciendo una auditoria para las facturas defectuosas. De 500 facturas de
venta se escoge una muestra de 30, de las cuales 5 contienen errores. Construir una estimación
del intervalo de confianza del 95%.

Solución:
Los datos del problema son:

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra
es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza
valores en la siguiente fórmula:

Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96, y por
simetría Z =1,96

Calculando la proporción de la muestra se obtiene:


Los cálculos en Excel se muestran en la siguiente figura:

El gráfico elaborado en Winstats y Paint se muestra en la siguiente figura:


2.3.1.1 INTERVALO PARA MEDIA CON MUESTRA GRANDE

Bajo ciertas condiciones de regularidad, es posible construir intervalos de confianza asintóticos


de una manera bastante general.

Si suponemos que un parámetro θ tiene una estimación máximo verosímil θ*, la distribución
asintótica del estimador, bajo condiciones generales de regularidad, es Normal, de media el
valor verdadero del parámetro θ y varianza igual a la cota de Cramér-Rao σ2(θ*).

Bajo las suposiciones anteriores, es posible construir un intervalo de confianza asintótico y con
nivel de confianza (1 − α) · 100 % a partir de
donde los valores de zα/2 se calculan a partir de la distribución N(0, 1) de forma que P(|Z| > zα/2)
= α.

Es decir, se utiliza como estadístico pivote

El intervalo de confianza aproximado que resulta es:

2.3.1.2 INTERVALO PARA MEDIA CON MUESTRA PEQUEÑA

Cuando tratamos con muestras pequeñas, no podemos invocar el teorema del límite central. Por
lo tanto, no podemos utilizar la fórmula para los intervalos de confianza a menos que sean
muestras desde una variable aleatoria normalmente distribuida.

Sin embargo, hay una cuestión más: Si conocemos la desviación estándar poblacional
σ, entonces todo está bien, y podemos seguir adelante y utilizar la fórmula anterior para el
intervalo de confianza para muestras pequeñas (suponiendo que estamos tomando muestras de
una variable distribuida normalmente). Pero si, como suele ser el caso, no sabemos
σ, entonces si seguimos adelante y utilizamos en su lugar la desviación estándar muestrales,
es probable que obtengamos intervalos de confianza que son demasiado pequeños. La razón es
que, mientras que la distribución muestral de (x¯−μ)/σ,es normal (siempre que xes normal) la
distribución muestral de (x¯−μ)/s no es normal (a menos que se trate de muestras grandes, en
cuyo caso es aproximadamente normal). P ¿Por qué hay que preocuparse de la distribución
muestral de (x¯−μ)/s?

La razón que nos debemos preocupar es que, cuando utilizamos s en lugar de σ,entonces el
cálculo del intervalo de confianza se basa en la probabilidad de que x¯ está dentro de un cierto
número de desviaciones estándar de la media μ. Este número de desviaciones estándar es
(x¯−μ)/σ. Entonces establecemos que equivale a valor−z deseado y resolverlo para x¯ para
obtener el intervalo de confianza (después de dividir la desviación estándar por n). Cuando
utilizamos s en vez de σ,no podemos utilizar un valor−z,ya que la distribución de (x¯−μ)/sno es
normal, pero se distribuye de acuerdo con la "distribución−t".

Resulta que, en lugar de utilizar zα/2 en la fórmula, tenemos que utilizar tα/2.
Además, obtenemos diferentes distribuciones t para diferentes tamaños muéstrales, y utilizamos
el valor de tα/2correspondiente a "n−1grados de libertad", que podemos obtener de una tabla.
2.3.1.3 INTERVALO PARA PROPORCIÓN

Intervalo de confianza para una proporción

Dada una variable aleatoria con distribución Binomial B(n, p), el objetivo es la construcción de
un intervalo de confianza para el parámetro p, basada en una observación de la variable que ha
dado como valor x. El mismo caso se aplica si estudiamos una Binomial B(1, p) y consideramos
el número de veces que ocurre el suceso que define la variable al repetir el experimento n veces
en condiciones de independencia.

Existen dos alternativas a la hora de construir un intervalo de confianza para p:

 Considerar la aproximación asintótica de la distribución Binomial en la distribución


Normal.

 Utilizar un método exacto.

Aproximación asintótica

Tiene la ventaja de la simplicidad en la expresión y en los cálculos, y es la más referenciada en la


mayoría de textos de estadística. Se basa en la aproximación

que, trasladada a la frecuencia relativa, resulta

Tomando como estadístico pivote

que sigue una distribución N(0, 1), y añadiendo una corrección por continuidad al pasar de una
variable discreta a una continua, se obtiene el intervalo de conf

anza asintótico:

donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha una probabilidad
de α/2 para un intervalo de confianza de (1 − α) · 100 %. Las condiciones generalmente
aceptadas para considerar válida la aproximación asintótica anterior son:

El intervalo obtenido es un intervalo asintótico y por tanto condicionado a la validez de la


aproximación utilizada. Una información más general sobre los intervalos de confianza
asintóticos puede encontrase aquí.

Intervalo exacto

Aun cuando las condiciones anteriores no se verifiquen, es posible la construcción de un


intervalo exacto, válido siempre pero algo más complicado en los cálculos. Es posible demostrar
que un intervalo exacto para el parámetro p viene dado por los valores siguientes:

donde Fα/2,a,b es el valor de una distribución F de Fisher-Snedecor con a y b grados de libertad


que deja a su derecha una probabilidad de α/2 para un intervalo de confianza de (1 − α) · 100 %.

Una justificación de los intervalos de confianza exactos para distribuciones discretas puede
encontrarse aquí.

En el programa siguiente se pueden calcular los intervalos de confianza asintótico y, si n es


menor de 100, también el exacto para una proporción.
1) Introducir el valor de X (número de
veces que se presenta un suceso) y el valor
de n (número total de intentos).

2) Seleccionar el nivel de confianza que se


desee para el intervalo.

3) El programa presenta la estimación


puntual del parámetro p y los intervalos de
confianza exacto (si n < 100) y asintótico.

4) Repetir el cálculo varias veces


comparando los resultados exacto y
asintótico al variar las condiciones del
experimento.

2.3.1.4 INTERVALO PARA VARIANZA

Intervalo de confianza para la varianza de una distribución Normal

Dada una variable aleatoria con distribución Normal N(μ; σ), el objetivo es la construcción de un
intervalo de confianza para el parámetro σ, basado en una muestra de tamaño n de la variable.

A partir del estadístico

la fórmula para el intervalo de confianza, con nivel de confianza 1 − α es la siguiente


Donde χ2α/2 es el valor de una distribución ji-cuadrado con n − 1 grados de libertad que deja a su
derecha una probabilidad de α/2.

Por ejemplo, dados los datos siguientes:

 Distribución poblacional: Normal

 Tamaño de muestra: 10

 Confianza deseada para el intervalo: 95 %

 Varianza muestral corregida: 38,5

Un intervalo de confianza al 95 % para la varianza de la distribución viene dado por:

que resulta, finalmente

3. ENSAYOS DE HIPÓTESIS

3.1 HIPOTESIS NULA

Una hipótesis nula es una suposición que se utiliza para negar o afirmar un suceso en relación a
algún o algunos parámetros de una población o muestra.
Siempre que se llega a una conclusión acerca un experimento, el investigador debe establecer
dos hipótesis, la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) se refiere a la
afirmación contraria a la que ha llegado el investigador. Es la hipótesis que el investigador
pretender rechazar. Si tiene la evidencia suficiente para ello, podrá probar que lo contrario es
cierto. Por lo tanto, la hipótesis alternativa (H1) es la conclusión a la que el investigador ha
llegado a través de su investigación.

La afirmación de la hipótesis nula no se puede rechazar a no ser que los datos de la muestra
parezcan demostrar que ésta es falsa. Por lo general la hipótesis nula incluye un no (o un desigual
a) en su enunciado.

Ejemplo de formulación de hipótesis nula

Supongamos que un investigador ha realizado una investigación acerca del salario medio
mensual por habitante en un determinado barrio de una ciudad. Imaginemos que el investigador
ha encuestado a 1.000 personas, llegando a la conclusión de que el salario medio mensual por
habitante es de 1.500 u.m.

Por tanto el investigador quiere contrastar, si ese salario medio mensual por habitante es igual a
1.500 u.m. (conclusión del estudio y por ende hipótesis alternativa) o si por el contrario el salario
medio mensual por habitante es distinto a 1.500 u.m. (conclusión contraria a la del estudio que se
pretende negar y por ende hipótesis nula)

3.2 HIPOTESIS ALTERNATIVA

Se entiende por hipótesis alternativa a la suposición alternativa a la hipótesis nula formulada en


un experimento y/o investigación. Esta surge como resultado de una determinada investigación
realizada sobre una población o muestra.

Entendida de manera sencilla, la hipótesis alternativa representa la conclusión que el


investigador quiere demostrar o afirmar tras su estudio. Esta se expresa con la expresión “H1” y
va a representar, por lo general, lo contrario a la hipótesis nula.
El método científico, al contrario de lo que podría pensarse, no trata de demostrar la hipótesis
alternativa (conclusión alcanzada a través de la investigación). Lo que pretende el método
científico, es demostrar que lo contrario a la hipótesis alternativa (hipótesis nula), no es cierto.
De esta manera, quedaría demostrada la hipótesis alternativa.

Ejemplo del contraste de hipótesis

Supongamos que un investigador ha realizado una investigación acerca del salario medio
mensual en un determinado barrio de una ciudad. Imaginemos que de la población de ese barrio,
el investigador ha encuestado a 1.000 personas llegando a la conclusión de que el salario medio
mensual por habitante es de 1.500 u.m.

Por tanto el investigador quiere contrastar, si ese salario medio mensual es igual a 1.500 u.m.
(conclusión del estudio y por ende hipótesis alternativa) o si por el contrario el salario medio
mensual es distinto a 1.500 u.m. (conclusión contraria a la del estudio que se pretende negar y
por ende hipótesis nula)

El contraste a realizar sería el siguiente:

H0: El salario medio mensual es distinto a 1.500 u.m.

H1: El salario mensual es igual a 1.500 u.m.

Como vemos, la hipótesis alternativa (H1), es la conclusión alcanzada por el investigador. Para
demostrarla el investigador va a tratar de probar que lo contrario a su hipótesis alternativa
(hipótesis nula, H0), no es cierto. Como conclusión, podemos deducir que la formulación de la
hipótesis alternativa, es la que nos va a conducir a la formulación de la hipótesis nula.

Conclusiones del contraste de hipótesis del ejemplo


Tras el contraste realizado el investigador podrá rechazar o no, la hipótesis nula (probando así
que la hipótesis alternativa es cierta). Lo correcto para comentar el resultado de un contraste de
hipótesis, es siempre hablar en términos de la hipótesis nula.

En caso de haber rechazado la hipótesis se puede utilizar la siguiente afirmación, “a la luz de los
datos y tras el resultado obtenido a través del contraste de hipótesis realizado, se dispone de
evidencia suficiente para poder rechazar la hipótesis nula”. Por tanto, la conclusión sería que el
salario medio mensual es igual a 1.500 u.m. Por el contrario, si no hemos podido rechazar la
hipótesis del contraste realizado, se podría utilizar la siguiente afirmación, “a la luz de los datos y
tras el resultado obtenido a través del contraste de hipótesis realizado, no se dispone de evidencia
suficiente para poder rechazar hipótesis nula”. De ser así, la conclusión sería que el salario medio
mensual no es igual a 1.500 u.m

3.3 NIVEL DE SIGNIFICANCIA

Cuando se toma la decisión de rechazar o no la Hipótesis Nula podemos acertar o cometer


errores. En el trabajo real no sabemos qué ocurre porque no sabemos si la Hipótesis Nula es
verdadera o no. Sin embargo, dados ciertos supuestos podemos obtener las probabilidades de
cometer errores de tipo I y de tipo II.

La probabilidad de cometer errores de tipo I, que se simboliza alfa, es la probabilidad de


ocurrencia de los valores del estadístico en la región de rechazo cuando la Hipótesis Nula es
verdadera. El valor de alfa, también denominado nivel de significación, es definido por el
investigador antes de recoger los datos, y la costumbre es hacer alfa=0.05 o alfa=0.01 (en el
ejemplo alfa es igual a 0.05). La probabilidad de cometer errores de tipo II se simboliza beta y
depende de varias circunstancias como la distancia que separa el valor asignado al parámetro en
la Hipótesis Nula de su valor real, el tamaño muestral y el valor asignado a alfa.

3.4 ERROR TIPO I Y TIPO II


Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La probabilidad
de cometer un error de tipo I es α, que es el nivel de significancia que usted establece para su
prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de
5% de estar equivocado al rechazar la hipótesis nula. Para reducir este riesgo, debe utilizar un
valor menor para α. Sin embargo, usar un valor menor para alfa significa que usted tendrá menos
probabilidad de detectar una diferencia
si esta realmente existe.

Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba. Puede
reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande
como para detectar una diferencia práctica cuando esta realmente exista.

La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la
potencia de la prueba.

Verdad acerca de la población

Decisión basada H0 es verdadera H0 es falsa


en la muestra

No rechazar H0 Decisión correcta (probabilidad = 1 - Error tipo II - no rechazar H0


α) cuando es falsa (probabilidad = β)

Rechazar H0 Error tipo I - rechazar H0 cuando es Decisión correcta (probabilidad = 1 -


verdadera (probabilidad = α) β)

Ejemplo de error de tipo I y tipo II


Para entender la interrelación entre los errores de tipo I y tipo II, y para determinar cuál error
tiene consecuencias más graves para su situación, considere el siguiente ejemplo.

Un investigador médico desea comparar la efectividad de dos medicamentos. Las hipótesis nula
y alternativa son:

 Hipótesis nula (H0): μ1= μ2

Los dos medicamentos tienen la misma eficacia.

 Hipótesis alternativa (H1): μ1≠ μ2

Los dos medicamentos no tienen la misma eficacia.

Un error de tipo I se produce si el investigador rechaza la hipótesis nula y concluye que los dos
medicamentos son diferentes cuando, en realidad, no lo son. Si los medicamentos tienen la
misma eficacia, el investigador podría considerar que este error no es muy grave, porque de
todos modos los pacientes se beneficiarían con el mismo nivel de eficacia independientemente
del medicamento que tomen. Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el investigador concluye que los
medicamentos son iguales cuando en realidad son diferentes. Este error puede poner en riesgo la
vida de los pacientes si se pone en venta el medicamento menos efectivo en lugar del
medicamento más efectivo.

Cuando realice las pruebas de hipótesis, considere los riesgos de cometer errores de tipo I y tipo
II. Si las consecuencias de cometer un tipo de error son más graves o costosas que cometer el
otro tipo de error, entonces elija un nivel de significancia y una potencia para la prueba que
reflejen la gravedad relativa de esas consecuencias.

3.5 ENSAYOS DE HIPOTESIS PARA UNA POBLACION

Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para
verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría


de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la


hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de
estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de
prueba más allá de una duda razonable. Analizaremos cada paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico


(muestral), sino hacer

un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro.

3.- Procedimiento sistemático para una prueba de hipótesis de una muestra

.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.


Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las
poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no
a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia.
Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos
rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al
valor especificado del parámetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le


denota mediante la letra griega α, tambiιn es denominada como nivel de riesgo, este termino es
mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es
verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará


la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de
confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en
la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de
rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística
de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba


que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa
la región de no rechazo de la de rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la
Ho o de la Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada
cuando de hecho es falsa y debía ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así
se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de
reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser
posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la
diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente
parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente
sea pequeña.

El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado
exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos
dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribución normal

Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo
ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se
incrementa el número de observaciones en la muestra, pues así se acortan los limites de
confianza respecto a la hipótesis planteada .La meta de las pruebas estadísticas es rechazar la
hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea,
incrementar lo que se llama poder de la prueba (1- β) La aceptación de la hipótesis planteada
debe interpretarse como que la información aleatoria de la muestra disponible no permite
detectar la falsedad de esta hipótesis.

Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se


rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos
los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se
toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso
contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)
poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba
es z y se determina a partir de:

El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se


determina por la ecuación:

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional
desconocida se utiliza el valor estadístico t.
Paso 4: Formular la regla de decisión

SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones
en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los
valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la
suposición de que la hipótesis nula es verdadera, es muy remota

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.

En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con
el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en
una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la
hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula
cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la
hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
4.- Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis

Ejemplo

El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la


UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no
este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se
considera el nivel de significancia de 0.05

Datos:

Día Usuarios Día Usuarios Día Usuario

1 356 11 305 21 429

2 427 12 413 22 376

3 387 13 391 23 328

4 510 14 380 24 411

5 288 15 382 25 397

6 290 16 389 26 365

7 320 17 405 27 405

8 350 18 293 28 369

9 403 19 276 29 429

10 329 20 417 30 364

Solución: Se trata de un problema con una media poblacional: muestra grande y desviación
estándar poblacional desconocida.

Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa

Ho: μ═350

Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%

α═0.05

Paso 03: Calculamos o determinamos el valor estadístico de prueba

De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras
es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en
la formula reemplazando a la desviación estándar de la población.

Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se


muestra en el cuadro que sigue.

Columna1

Media 372.8

Error típico 9.56951578

Mediana 381

Moda 405

Desviación estándar 52.4143965

Varianza de la muestra 2747.26897

Curtosis 0.36687081

Coeficiente de asimetría 0.04706877

Rango 234

Mínimo 276

Máximo 510
Suma 11184

Cuenta 30

Nivel de confianza (95.0%) 19.571868

Paso 04: Formulación de la regla de decisión.

La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la
mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las
dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.

Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis


alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En
caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.

Paso 05: Toma de decisión.

En este ultimo paso comparamos el estadístico de prueba calculado mediante el Software


Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el
estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto
no se confirma el supuesto del Jefe de la Biblioteca.

3.5.1 MEDIA CON MUESTRA GRANDE

En este caso (n>30) se asume distribución normal


Para pruebas de hipótesis acerca de la media de una población se emplea el estadígrafo z
Se determina si la desviación del valor numérico en estudio es lo suficiente para justificar el
rechazo de la hipótesis nula
.
La probabilidades 0.05 y 0.01 de cometer error tipo I están relacionadas con un valor de z de –
1.645 y –2.33 respectivamente

Luego se debe rechazar H0 si el valor de z es menor a –1.645 o –2.33 dependiendo del nivel de
significancia

El valor z establece el límite de la región de rechazo denominada valor crítico

• Resumen de pruebas unilaterales sobre media de una población. Si n30


• Valor p
– Es el valor de probabilidad de obtener un resultado de la muestra que sea al
menos tan improbable como lo que se observa
– Este valor corresponde al valor de la probabilidad asignada al z calculado a partir
del valor numérico sometido a la prueba de hipótesis
– Si p es menor al nivel de significancia predefinido se debe rechazar H
0

3.5.2 MEDIA CON MUESTRA PEQUEÑA

En este caso (n < 30) se asume que la población tiene una distribución normal

Con distribución t se pueden hacer inferencias acerca de la media de la población

Para este estadígrafo se debe considerar los grados de libertad asociados al tamaño de la muestra
(n-1) para definir el valor crítico que llevará al rechazo de H0. Por las características de la tabla
resulta complicado calcular el valor de p por lo que se expresa en intervalos

4. MODELOS DE REGRESION Y CORRELACION LINEAL SIMPLE Y MULTIPLE.

Regresión lineal simple

Si deseamos estudiar la relación entre dos variables cuantitativas y además una de ellas puede
considerarse como variable dependiente o "respuesta" podemos considerar el uso de la regresión
lineal simple. Con la regresión, aparte de medir el grado de asociación entre las dos variables,
podremos realizar predicciones de la variable dependiente.

Veamos un ejemplo de regresión lineal simple y cómo se interpretarían sus resultados.


Dependiendo del programa estadístico utilizado, pueden variar la cantidad de información y el
formato de las salidas, aunque los resultados van a ser los mismos así como su interpretación.

Supongamos que deseemos estudiar la asociación entre el volumen máximo expirado en el


primer segundo de una expiración forzada (FEV1) y la talla medida en centímetros de un grupo
de 170 adolescentes de edades comprendidas entre los 14 y los 18 años (Tabla I).

Tabla I. Ejemplo en 170 adolescentes.

Nº FEV1 (litros) Altura (cm.)

1 3,46 171

2 4,55 172

3 4,53 182

4 4,59 179

5 3,67 173

6 4,71 180

… … …

… … …

168 4,38 177

169 5,06 184

170 3,06 152

FEV1: Volumen espiratorio forzado en el primer segundo

En primer lugar debemos realizar un gráfico de dispersión como el de la Figura 2A y estudiar


visualmente si la relación entre nuestra variable dependiente (FEV1) y nuestra variable
independiente (talla) puede considerarse lineal 4. Por convenio, se coloca la variable dependiente
en el eje Y de las ordenadas y la variable independiente en el eje X de las abscisas. Si no
observamos un comportamiento lineal, debemos transformar la variable dependiente o incluso
replantearnos el tipo de análisis, ya que es posible que la relación entre ambas variables en caso
de existir, pueda no ser lineal.

En nuestro ejemplo, si parece cumplirse una relación lineal entre FEV1 y la talla. Si
calculásemos el coeficiente de correlación de pearson nos daría un resultado de 0,86 (IC95%:
0,82; 0,90), indicando que la asociación es positiva y por tanto valores altos de FEV1 se
corresponden a su vez con valores altos de talla. Sin embargo sólo con la correlación no
tendríamos la suficiente información si quisiéramos hacer predicciones de los valores de
FEV1 en función de la talla.

El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste de entre todas las
posibles dentro de la nube de puntos de la Figura 2A. La mejor recta de ajuste será aquella que
minimice las distancias verticales entre cada punto y la recta, calculándose normalmente por el
método de "mínimos cuadrados" (Figura 2B) 1, 5. De este modo conseguiremos una ecuación
para la recta de regresión de Y (variable dependiente) en función de X (variable independiente)
de la forma Y=a+bX. En nuestro ejemplo, el problema radica en estimar a (constante de la recta)
y b (pendiente de la recta) de modo que podamos construir la ecuación o recta de regresión:
FEV1=a+bTalla que minimice esas distancias.

Figura 2. Gráfico de dispersión.

A
B

Cualquier programa estadístico nos debe dar al menos tres informaciones básicas:

Valor de "R cuadrado": En la regresión lineal simple, se trata del coeficiente de correlación de
Pearson elevado al cuadrado. Se le conoce por coeficiente de determinación y siempre será un
valor positivo entre 0 y 1. En nuestro ejemplo (Tabla I) la "R cuadrado" es de 0,75 lo cual
significa que nuestra variable independiente (talla en cm) es capaz de explicar hasta un 75% de la
variabilidad observada en nuestra variable dependiente (FEV1).

ANOVA de la regresión: Se descompone por un lado, en la suma de cuadrados explicada por la


recta de regresión y por otro, en la suma de cuadrados no explicada por la regresión, denominada
residual. La suma de ambas es lo que se llama suma de cuadrados totales. Por tanto, cuanto
mayor sea la suma de cuadrados de la regresión respecto a la residual, mayor porcentaje de
variabilidad observada podemos explicar con nuestra recta de regresión. Si la tabla presenta un
resultado significativo (p<0,05) rechazaríamos la hipótesis nula que afirma que la pendiente de la
recta de regresión es 0.

Coeficientes de la regresión: Los coeficientes estimados a (constante de la recta) y b (pendiente


de la recta) que en nuestro ejemplo sería FEV1 (litros)= -8,387 + 0,073*TALLA (cm.) (Tabla II).
En nuestra tabla, no solo aparecen los coeficientes, sino sus intervalos de confianza, y además el
valor de "beta" que no es mas que el coeficiente b estandarizado y que en la regresión lineal
simple coincide con el coeficiente de correlación de Pearson. El valor positivo de b (0,073) nos
indica el incremento de FEV1 por cada centímetro en la talla. Para un adolescente de 170 cm. de
altura podríamos esperar un valor de FEV1 de 0,073*170-8,387 que daría como resultado 4,03.
Tabla II. Coeficientes estimados de la recta de regresión.

B Error típ. Beta p IC 95%

Constante (a) -8,387 0,552 - <0,001 (-9,476; -7,298)

TALLA (b) 0,073 0,003 0,864 <0,001 (0,066; 0,079)

IC95%: Intervalo de confianza del 95%

Después de realizar el análisis hay que asegurarse de que no se violan las hipótesis en las que se
sustenta la regresión lineal: normalidad de la variable dependiente para cada valor de la variable
explicativa, independencia de las observaciones muestrales, y la misma variabilidad de Y para
cada valor de nuestra variable independiente5.

Toda esta información se puede extraer estudiando el comportamiento de los residuos, es decir,
la diferencia entre los valores observados y los pronosticados por nuestra recta de regresión. La
Figura 3A es un histograma de frecuencias en el que se han normalizado o tipificado los residuos
de modo que su media es 0 y su varianza 1. Como podemos observar su distribución es similar a
una distribución normal. Otro gráfico muy interesante es el de la Figura 3B, en el que se han
colocado en el eje X los valores pronosticados por la regresión ya tipificados y en el eje Y, los
residuos también tipificados. Los puntos han de situarse de forma aleatoria sin ningún patrón de
comportamiento, porque en caso contrario, es muy posible que estemos violando alguno de los
supuestos de la regresión lineal simple 1, 5.

Figura 3. Gráfico de residuos.


A

Regresión lineal múltiple

La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables
independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede
intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la
variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad,
frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.

Métodos de selección de variables en el análisis de regresión lineal

La selección del método permite especificar cómo se introducen las variables independientes en
el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a
partir del mismo conjunto de variables.
Para introducir las variables del bloque en un sólo paso seleccione Introducir. Para eliminar las
variables del bloque en un solo paso, seleccione Eliminar. La selección de variables Hacia
adelante introduce las variables del bloque una a una basándose en los criterios de entrada . La
eliminación de variables Hacia atrás introduce todas las variables del bloque en un único paso y
después las elimina una a una basándose en los criterios de salida . La entrada y salida de
variables mediante Pasos sucesivos examina las variables del bloque en cada paso para
introducirlas o excluirlas . Se trata de un procedimiento hacia adelante por pasos.

Los valores de significación de los resultados se basan en el ajuste de un único modelo. Por ello,
estos valores no suele ser válidos cuando se emplea un método por pasos (Pasos sucesivos, Hacia
adelante o Hacia atrás).

Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la
ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por
defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya
presente en el modelo se sitúe por debajo del criterio de tolerancia.

Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin
embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de
variables. Por ejemplo, puede introducir en el modelo de regresión un bloque de variables que
utilice la selección por pasos sucesivos, y un segundo bloque que emplee la selección hacia
adelante

4.1 RECTA DE REGRESION DE MINIMOS CUADRADOS

La dependencia entre dos (o más) variables puede ser tal que se base en una relación funcional
(matemática) exacta, como la existente entre la velocidad y la distancia recorrida por un móvil; o
puede ser estadística. La dependencia estadística es un tipo de relación entre variables tal que
conocidos los valores de la (las) variable (variables) independiente(s) no puede determinarse con
exactitud el valor de la variable dependiente, aunque si se puede llegar a determinar un cierto
comportamiento (global) de la misma. (Ej. la relación existente entre el peso y la estatura de los
individuos de una población es una relación estadística) .

Pues bien, el análisis de la dependencia estadística admite dos planteamientos (aunque


íntimamente relacionados):

El estudio del grado de dependencia existente entre las variables que queda recogido en la teoría
de la correlación.

La determinación de la estructura de dependencia que mejor exprese la relación, lo que es


analizado a través de la regresión.

Una vez determinada la estructura de esta dependencia la finalidad última de la regresión es


llegar a poder asignar el valor que toma la variable Y en un individuo del que conocemos que
toma un determinado valor para la variable X (para las variablesX1, X2,..., Xn ).

En el caso bidimensional, dadas dos variables X e Y con una distribución conjunta de


frecuencias ( xi, yj ,nij ), llamaremos regresión de Y sobre X ( Y/X) a una función que explique
la variable Y para cada valor de X, y llamaremos regresión de X sobre Y (X/Y) a una función
que nos explique la variable X para cada valor de Y.(Hay que llamar la atención, como se verá
más adelante, que estas dos funciones, en general, no tienen por qué coincidir).

MÉTODO DE CUADRADOS MÍNIMOS – REGRESIÓN LINEAL.

Hemos enfatizado sobre la importancia de las representaciones gráficas y hemos visto la utilidad
de las versiones linealizadas de los gráficos (X, Y) junto a las distintas maneras de llevar a cabo
la linealización. A menudo nos confrontamos con situaciones en las que existe o suponemos que
existe una relación lineal entre las variables X e Y.

Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se ajusta a nuestros
datos? El método de cuadrados mínimos es un procedimiento general que nos permite responder
esta pregunta. Cuando la relación entre las variables X e Y es lineal, el método de ajuste por
cuadrados mínimos se denomina también método de regresión lineal.

Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cuál
es lamejor recta:

y(x) = a x + b

Que representa este caso de interés. Es útil definir la función:

Que es una medida de la desviación total de los valores observados yi respecto de los predichos
por el modelo lineal a x + b. Los mejores valores de la pendiente a y la ordenada al origen b son
aquellos que minimizan esta desviación total, o sea, son los valores que remplazados en la Ec.(1)
minimizan la funciónc2. Ec.(2). Los parámetros a y b pueden obtenerse usando técnicas
matemáticas que hacen uso del cálculo diferencial. Aplicando estas técnicas, el problema de
minimización se reduce al de resolver el par de ecuaciones:
Actualmente, la mayoría de los programas de análisis de datos y planillas de cálculo, realizan el
proceso de minimización en forma automática y dan los resultados de los mejores valores
de a y b, o sea los valores indicados por las ecuaciones.

Gráfico de datos asociados a un modelo lineal. La cantidad yi - y(xi)


representa la desviación de cada observación de yi respecto del valor predicho por
el modelo y(x).

El criterio de mínimos cuadrados reemplaza el juicio personal de quien mire los gráficos y defina
cuál es la mejor recta. En los programas como Excel, se realiza usando la herramienta “regresión
lineal” o “ajuste lineal”. Los resultados se aplican en el caso lineal cuando todos los datos de la
variable dependiente tienen la misma incertidumbre absoluta y la incertidumbre de la variable
independiente se considera despreciable.

REGRESIÓN MÍNIMO-CUADRÁTICA

Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de
función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene
ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados
(M.C.O.).

Elegido el tipo de función ¦ ( ) la función de regresión concreta se obtendrá minimizando la


expresión:
(yj - ¦ (xi ) ) 2. nij en el caso de la regresión de Y/X

(xi - ¦ (yj ) ) 2. nij en el caso de la regresión de X/Y


Puede probarse que es equivalente ajustar por mínimos cuadrados la totalidad de las
observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la
regresión de la media; de forma que la regresión mínimo-cuadrática viene ser, en cierto modo, la
consecución de una expresión analítica operativa para la regresión en sentido estricto.

Coeficientes de regresión.

Se llama coeficiente de regresión a la pendiente de la recta de regresión:

en la regresión Y/X : b = Sxy / Sx2

en la regresión X/Y b' = Sxy / Sy2

El signo de ambos coincidirá con el de la covarianza, indicándonos la tendencia (directa o


inversa a la covariación).Es interesante hacer notar que b.b'= r2

BONDAD DEL AJUSTE (Varianza residual, varianza de la regresión y coeficiente de


determinación)

Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos
originales y los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el
ajuste, más útil será la regresión a la pretensión de obtener los valores de la variable.

Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión
de un determinado tipo u otro.

Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no
puede ser el error medio) será el error cuadrático medio, o varianza del residuo, o varianza
residual :
Considerando la regresión Y/X:

Que será una cantidad mayor o igual que cero.De forma que cuanto más baja sea mejor será el
grado de ajuste.Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún
error ).

Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresión y supone la varianza de la variable


regresión:

Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresión( la varianza de la regresión) y
otra parte no explicada (la varianza residual).

Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo
como que la dispersión total inicial queda, en parte explicada por la regresión y en parte
no.Cuanto mayor sea la proporción de varianza explicada (y menor la no explicada) tanto mejor
será el ajuste y tanto más útil la regresión.

A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación (


en nuestro caso lineal):
que evidentemente estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del
tanto por uno explicado por la regresión.

Una consecuencia importante en la práctica es que la varianza residual será obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide
con el cuadrado del coeficiente de correlación:

R2 = r2

Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del
coeficiente de correlación:

4.4 COEFICIENTE DE CORRELACION

La correlación es la medida de asociación entre variables. En probabilidad y estadística, la


correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas cuando los valores de una de
ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos
variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y
viceversa.”

El coeficiente de correlación sirve para medir la correlación entre 2 variables. La ventaja que
tiene este coeficiente sobre otras herramientas para medir la correlación, como puede ser la
covarianza, es que los resultados del coeficiente de correlación están acotados entre -1 y +1. Esta
característica nos permite comparar diferentes correlaciones de una manera más estandarizada.
El coeficiente de correlación se puede calcular con Excel mediante el comando
“COEF.DE.CORREL”. También se puede calcular mediante la fórmula:

Siendo Cov (X,Y) la covarianza entre las series temporales X e Y, y σX e σY las desviaciones
estándar de X e Y.

4.5 INTERVALO DE CONFIANZA PARA LOS COEFICIENTES DE COEFICIENTES


DE REGRESION

Los coeficientes son los números por los cuales se multiplican las variables de una ecuación. Por
ejemplo, en la ecuación y = -3.6 + 5.0X1 - 1.8X2, las variables X1 y X2 se multiplican por 5.0 y -
1.8, respectivamente, de modo que los coeficientes son 5.0 y -1.8.

El tamaño y el signo de un coeficiente en una ecuación afecta su gráfica. En una ecuación lineal
simple (contiene solamente una variable X), el coeficiente es la pendiente de la línea.

El coeficiente (y la pendiente) es 5 positivo.


Los coeficientes son 2 y -3.

Al calcular una ecuación de regresión para modelar datos, Minitab estima los coeficientes para
cada variable predictora basándose en la muestra y presenta estas estimaciones en una tabla de
coeficientes. Por ejemplo, la siguiente tabla de coeficientes se muestra en la salida para una
ecuación de regresión:

Ecuación de regresión FlujoCalor = 325.4 + 2.55 Este + 3.80 Sur - 22.95 Norte
+ 0.0675 Insolación + 2.42 Hora del día

S-ar putea să vă placă și