Sunteți pe pagina 1din 82

CAMPUS ALVARADO

TURNO VESPERTINO
INGENIERA INDUSTRIAL

MATERIA:
ESTADISTICA INFERENCIAL I

SEMESTRE Y GRUPO:
TERCER SEM.B

PRODUCTO ACADMICO:
UNIDAD 4: PRUEBAS DE BONDAD DE AJUSTE Y
PRUEBAS NO PARAMTRICAS

UNIDAD 5: REGRESIN LINEAL SIMPLE Y


MLTIPLE

PRESENTA:
KENIA HERNANDEZ MAYO 146z0152

DOCENTE:
ING. IND. ERICK IVAN MOLINA CRUZ

FECHA DE ENTREGA:
30-NOVIEMBRE-2015

H. Y G. ALVARADO, VERACRUZ.
ESTADISTICA INFERENCIAL I 30-11-2015

INDICE GENERAL

UNIDAD 4 Pruebas de bondad de ajuste y pruebas no paramtricas

Introduccin 5
Objetivo general 6
Objetivo especfico (Unidad 4) 7
Objetivo especfico (Unidad 5) 8
Justificacin 9
4.1 Bondad de ajuste 11
4.1.1 Anlisis Ji-Cuadrada 12
4.1.2 Prueba de independencia 17
4.1.3 Prueba de la bondad del ajuste 20
4.1.4 Tablas de contingencia 25
4.1.5 Uso de software estadstico 27
4.2 Pruebas no paramtricas 31
4.2.1 Escala de medicin 33
4.2.2 Mtodos estadsticos contra no paramtricos 34
4.2.3 Prueba de Kolmogorov-Smirnov 38
4.2.4 Prueba de Anderson-Darling 42
4.2.5 Prueba de Ryan-Joiner 44
4.2.6 Prueba de Shappiro-Wilk 46
4.2.7 Aplicaciones del paquete computacional 48

2
ESTADISTICA INFERENCIAL I 30-11-2015

INDICE GENERAL

UNIDAD 5 Regresin lineal simple y mltiple

5.1 Regresin lineal simple 54


5.1.1 Prueba de hiptesis en la regresin lineal simple 57
5.1.2 Calidad del ajuste en regresin lineal simple 59
5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple 60
5.1.4 Uso de software estadstico 61
5.2 Regresin lineal mltiple 63
5.2.2 Pruebas de hiptesis en regresin lineal mltiple 64
5.2.3 Intervalos de confianza y prediccin en regresin mltiple 64
5.2.4 Uso de software estadstico 65
5.3 Regresin no lineal 67

Conclusin 68
Fuentes de informacin 69
Formulario 70
Glosario 71
Anexos (Problemas propuestos) 79

3
ESTADISTICA INFERENCIAL I 30-11-2015

INDICE DE TABLAS Y FIGURAS


4.1 Bondad de ajuste 11
4.1.1 Anlisis Ji-Cuadrada 14
4.1.2 Prueba de independencia 19
4.1.3 Prueba de la bondad del ajuste 20-24
4.1.4 Tablas de contingencia 25-26
4.1.5 Uso de software estadstico 27-30
4.2 Pruebas no paramtricas 32-33
4.2.1 Escala de medicin 33-34
4.2.2 Mtodos estadsticos contra no paramtricos 36-37
4.2.3 Prueba de Kolmogorov-Smirnov 39-41
4.2.4 Prueba de Anderson-Darling 43
4.2.5 Prueba de Ryan-Joiner 45
4.2.6 Prueba de Shappiro-Wilk 47
4.2.7 Aplicaciones del paquete computacional 51-52
5.1 Regresin lineal simple 55-56
5.1.4 Uso de software estadstico 61-62
5.2.3 Intervalos de confianza y prediccin en regresin mltiple 65
5.2.4 Uso de software estadstico 66

4
ESTADISTICA INFERENCIAL I 30-11-2015

INTRODUCCIN

Generalmente en cada uno de los problemas de estimacin y pruebas de hiptesis


se supone que las observaciones disponibles para el estadstico provienen de
distribuciones cuya forma es conocida. En otras palabras, se ha supuesto que las
observaciones provienen de cierta familia paramtrica de distribuciones y que se
debe hacer una inferencia estadstica acerca de los valores de los parmetros que
definen dicha familia.

5
ESTADISTICA INFERENCIAL I 30-11-2015

OBJETIVO GENERAL

Reforzar en el alumno los conocimientos previos de unidades anteriores, haciendo as


un mejor entendimiento de la materia.

6
ESTADISTICA INFERENCIAL I 30-11-2015

OBJETIVO ESPECFICO (UNIDAD 4)

Aprender las medidas de bondad y de ajuste de bondad, ya que estas se pueden


emplear en el contraste de hiptesis, e.g. el test de normalidad de los residuos,
comprobar si dos muestras se obtienen a partir de dos distribuciones idnticas o si
las frecuencias siguen una distribucin especfica.

7
ESTADISTICA INFERENCIAL I 30-11-2015

OBJETIVO ESPECFICO (UNIDAD 5)

El alumno desarrollar soluciones a problemas estadsticos que se pueda usar para


predecir los valores de una variable dependiente o de respuesta basados en los
valores de al menos una variable independiente o explicativa.

8
ESTADISTICA INFERENCIAL I 30-11-2015

JUSTIFICACIN

En el presente trabajo de investigacin de la unidad 4 y 5 de Estadstica Inferencial


I, se llev a cabo porque era necesario conocer y analizar las diversas formas en
que se pueden resolver problemas matemticos, ya sea porque las distribuciones
no son de forma exacta o no es conocida, entonces se necesitan tcnicas
estadsticas las cuales sean aplicables sin tener en cuenta la forma de la densidad.
Estas tcnicas se les conocen como tcnicas no paramtricas. Como ejemplo se
podra suponer simplemente que las observaciones constituyen una muestra
aleatoria de una distribucin continua, sin especificar la forma de esta distribucin
con mayor detalle y entonces investigar la posibilidad de que se trate de una
distribucin dada F( x) .

9
ESTADISTICA INFERENCIAL I 30-11-2015

10
ESTADISTICA INFERENCIAL I 30-11-2015

4.1 BONDAD DE AJUSTE


La bondad de ajuste de un modelo estadstico describe lo bien que se ajusta un
conjunto de observaciones. Las medidas de bondad en general resumen la
discrepancia entre los valores observados y los k valores esperados en el modelo
de estudio. Tales medidas se pueden emplear en el contraste de hiptesis, e.g.
el test de normalidad de los residuos, comprobar si dos muestras se obtienen a
partir de dos distribuciones idnticas o si las frecuencias siguen una distribucin
especfica.

Ejemplo de Aplicacin
Supongamos que tenemos un nmero k de clases en las cuales se han ido
registrado un total de n observaciones (n ser pues el tamao muestral).
Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k (Oi es
el nmero de valores en la clase Ai ).
Se cumplir:
O1 + O2 + ... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias
esperadas (tericas), a las que denotaremos por E1, E2, ..., E k .
Se cumplir:
E1 + E2 + ... + E k = n

Se tratar ahora de decidir si las frecuencias observadas estn o no en


concordancia con las frecuencias esperadas (es decir, si el nmero de resultados
observados en cada clase corresponde Estadstica no Paramtrica Proyecto e-Math
5 Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
aproximadamente al nmero esperado). Para comprobarlo, haremos uso de un

11
ESTADISTICA INFERENCIAL I 30-11-2015

contraste de hiptesis usando la distribucin Chi-cuadrado: El estadstico de


contraste ser ( ) = = k i 1 i 2 2 i i E O E Observar que este valor ser la suma
de k nmeros no negativos. El numerador de cada trmino es la diferencia entre la
frecuencia observada y la frecuencia esperada. Por tanto, cuanto ms cerca estn
entre s ambos valores ms pequeo ser el numerador, y viceversa. El
denominador permite relativizar el tamao del numerador. Las ideas anteriores
sugieren que, cuanto menor sean el valor del estadstico 2 , ms coherentes
sern las observaciones obtenidas con los valores esperados. Por el contrario,
valores grandes de este estadstico indicarn falta de concordancia entre las
observaciones y lo esperado. En este tipo de contraste se suele rechazar la
hiptesis nula (los valores observados son coherentes con los esperados) cuando
el estadstico es mayor que un determinado valor crtico. Notas: (1) El valor del
estadstico 2 se podr aproximar por una distribucin Chi-cuadrado cuando el
tamao muestral n sea grande (n > 30), y todas las frecuencias esperadas sean
iguales o mayores a 5 (en ocasiones deberemos agrupar varias categoras a fin de
que se cumpla este requisito). (2) Las observaciones son obtenidas mediante
muestreo aleatorio a partir de una poblacin particionada en categoras.

4.1.1 ANLISIS Ji-CUADRADA


La prueba Ji cuadrada hace uso de la distribucin del mismo nombre para probar la
bondad del ajuste al comparar el estadstico de prueba Xo2 con el valor en tablas
de la mencionada distribucin Ji cuadrada con v grados de libertad y un nivel de
significancia alfa. En la siguiente seccin aplicaremos esta prueba para probar la
hiptesis nula de que los nmeros aleatorios (provenientes de un generador) se
ajustan a la distribucin terica uniforme continua.

Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la
hiptesis nula H0, de que la distribucin de donde proviene la muestra se comporta
segn un modelo terico especfico tal como la uniforme, la exponencial, la normal,
etc. Entonces FOi, representa el nmero de veces que ocurre el valor xi mientras
que FEi, es la frecuencia esperada proporcionada por el modelo terico propuesto.

12
ESTADISTICA INFERENCIAL I 30-11-2015

A menudo ocurre que muchas de las frecuencias FEi, (y tambin las FOi) son muy
pequeas, entonces, como regla prctica adoptamos el criterio de agrupar los
valores consecutivos de estas frecuencias esperadas hasta que su suma sea de al
menos cinco. La medida estadstica de prueba para la hiptesis nula es:

Para n grande este estadstico de prueba tiene una distribucin X2 aproximada


con V grados de libertad dados por

V = (k 1) (nmero de parmetros estimados)

As, si se estiman dos parmetros como la media y la varianza, la medida estadstica


tendr (k 3) grados de libertad.

Se puede aplicar esta prueba a variables continuas agrupando adecuadamente los


valores en un nmero adecuado de subintervalos o clases k. Una regla emprica
para seleccionar el nmero de clases es:

13
ESTADISTICA INFERENCIAL I 30-11-2015

Ejemplo de Aplicacin
La siguiente muestra de tamao 50 ha sido obtenida de una poblacin que registra
la vida til (en unidades de tiempo) de bateras alcalinas tipo AAA. Prubese la
hiptesis nula de que la variable aleatoria vida til de las bateras sigue una
distribucin exponencial negativa. Considrese un nivel de significancia alpha de
5%.

8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426

2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214

2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514

0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334

1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849

SOLUCIN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el
rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuacin ordenamos
los valores de manera ascendente y construimos el histograma de frecuencias
relativas con seis clases cada una de longitud 1.5. (Esto es debido a que 8.2 / 6 =
1.3)

k Clase FO absoluta FO relativa

1 0.0 - 1.15 21 0.42

2 1.15 - 3.0 15 0.30

3 3.0 - 4.5 8 0.16

4 4.5 - 6.0 3 0.06

14
ESTADISTICA INFERENCIAL I 30-11-2015

5 6.0 - 7.5 1 0.02

6 7.5 - 9.0 2 0.04

Re agrupamos las clases de modo que la FO sea de al menos 5

k Clase FO absoluta FO relativa

1 0.0 - 1.15 21 0.42

2 1.15 - 3.0 15 0.30

3 3.0 - 4.5 8 0.16

4 4.5 - 9.0 6 0.12

Como nuestra hiptesis nula es que los datos se ajustan a la funcin de probabilidad
exponencial negativa, emplearemos tal funcin para calcular mediante integracin
el porcentaje de probabilidad esperado para cada subintervalo. Ya vimos que el
valor promedio es de 2.3, sin embargo para fines prcticos lo consideraremos como
2.0. El clculo de la integral para la primera clase es:

15
ESTADISTICA INFERENCIAL I 30-11-2015

k Clase FO relativa FE terica (FO-FE)2FE

1 0.0 - 1.5 0.42 0.528 0.022

2 1.5 - 3.0 0.30 0.249 0.010

3 3.0 - 4.5 0.16 0.118 0.015

4 4.5 - 9.0 0.12 0.105 0.002

Entonces se tiene el valor

Ahora compararemos este valor calculado contra el valor tabulado de la distribucin


Ji cuadrada con un nivel de significancia alpha de 5% y el nmero de grados de
libertad
V = (k 1) 1 = (4 1) 1 = 2. (Obsrvese que se estim el parmetro promedio).

Entonces

Como vemos el valor calculado es menor que el valor tabulado, por tanto la
conclusin es que no se puede rechazar la hiptesis nula de que la muestra
proviene de una distribucin exponencial con media 2.0.

16
ESTADISTICA INFERENCIAL I 30-11-2015

4.1.2 PRUEBA DE INDEPENDENCIA

El objetivo es verificar si existe una dependencia entre las variables cualitativas que
definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se verifica
que la probabilidad del resultado correspondiente a la combinacin Ai Bj es
el producto de las probabilidades marginales correspondientes. P(Ai) es la
probabilidad del resultado i para la variable fila y P(Bj) la del resultado j para la
variable columna.

P(Ai Bj) = P(Ai) P(Bj)

Utilizaremos generalmente la notacin ms simplificada:

P(Ai Bj) = pij

P(Ai) = pi

P(Bj) = pj

Los valores de pi y pj se estimarn, a partir de los valores observados en la tabla


de contingencia, por ni/N y nj/N respectivamente.

Hiptesis nula de independencia: para toda combinacin de resultados de las


variables fila y columna (i, j).

H0: pij = pi pj para todo i = 1, ..., k j = 1, .., m

La hiptesis alternativa, que implica dependencia, se puede formular diciendo que


alguna de las igualdades de la hiptesis nula es falsa.

Los valores observados son nij. Los valores esperados bajo la hiptesis nula de
independencia se calculan de la manera siguiente:

eij = N pij = N pi pj = N (ni/N ) (nj/N ) = (ni nj )/N

17
ESTADISTICA INFERENCIAL I 30-11-2015

El estadstico de contraste se calcula de la manera habitual:

La distribucin asinttica bajo la hiptesis nula es una 2 con (k 1) (m 1) grados


de libertad. Los grados de libertad pueden entenderse, de manera intuitiva,
entendiendo que el nmero de parmetros que se estiman son (k 1) y (m 1), ya
que queda fijada la probabilidad de la ltima clase de cada caracterstica una vez
estimadas las restantes. Por tanto, aplicando la frmula para los grados de libertad
se obtiene:

Grados de libertad = nmero de clases nmero de parmetros estimados 1

Grados de libertad = k m (k 1) (m 1) 1 = (k 1) (m 1)

El criterio de decisin es el mismo que en el caso general:

Rechazamos la hiptesis nula si

Donde el ltimo trmino es el valor crtico asociado con una distribucin 2,


con (k 1) (m 1) grados de libertad, tal que deja a su derecha una probabilidad
igual a .

La condicin de validez es que las frecuencias esperadas eij sean mayores que 5.

18
ESTADISTICA INFERENCIAL I 30-11-2015

Ejemplo de Aplicacin

Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se


seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes
resultados:

Sin depresin Con depresin

Deportista 38 9 47

No deportista 31 22 53

69 31 100

L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22


16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi


Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hiptesis de independencia de caracteres con un nivel de significacin
del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de
depresin.

19
ESTADISTICA INFERENCIAL I 30-11-2015

4.1.3 PRUEBA DE LA BONDAD DE AJUSTE

Una extensin de la prueba sobre la proporcin binomial ocurre cuando una


realizacin puede clasificarse en k posibles categoras en vez de dos (xito y
fracaso). Esto puede ocurrir en la eleccin de un individuo de un partido poltico
(tricolor, amarillo, azul, otro), en el tipo de delito por el cual un individuo es recluido
(un delito de violencia, un delito de cuello blanco, otro), por mencionar algunos
ejemplos.

Supngase que en una muestra en particular se observa que ocurre un conjunto de


eventos posibles E1, E2, E3, , Ek (vase la tabla), con frecuencias o1, o2, o3, , ok,
denominadas frecuencias observadas, y que de acuerdo con las reglas de
probabilidad, se espera que ocurran con frecuencias e 1, e2, e3, , ek, llamdas
frecuencias esperadas. En un escenario como el descrito arriba se desea saber si
las frecuencias observadas difieren significativamente de las frecuencias
esperadas.

Evento E1 E2 E3 Ek

Frecuencia observada o1 o2 o3 ok

Frecuencias esperadas e1 e2 e3 ek

El estadstico 2 proporciona una medida de la discrepancia existente entre la


frecuencia observada y la frecuencia esperada, que est dada por

k (o e )
(o1 e1 )2 (o2 e2 )2 (o e ) 2
2

2 ... k k
j j
(1)
e1 e2 ek j 1 ej

Donde, se la frecuencia total es n,

o e
j j n. (2)

20
ESTADISTICA INFERENCIAL I 30-11-2015

La hiptesis nula que se desea probar es

H0: p1=p10,pk = pk0

Contra

Ha: al menos una pj pj0 para j=1,,k,

Donde pj0 es la proporcin correspondiente a la j-sima categora.

Ntese que bajo H0 ej = n pj0.

Bajo la hiptesis nula, el estadstico 2 (ji-cuadrado) se distribuye aproximadamente


2 (k-1) y entonces se rechaza H0 al nivel de significancia si 2 excede el valor
critico 2 1 .

Ejemplo de Aplicacin

Se distribuy el nmero de clientes que visitaron la oficina de un joven abogado


durante sus primeros 102 das de prctica, de la siguiente manera:

No. DE CLIENTES 0 1 2 3 4 5

No. DE DIAS 40 36 16 7 2 1

Pruebe si el nmero de clientes por da sigue una distribucin Poisson.


Solucin
H0 : El nmero de clientes por da tiene distribucin Poisson

H1 : El nmero de clientes por da no tiene distribucin Poisson

Para calcular la frecuencia esperada en cada clase, se necesita conocer la


probabilidad en cada una de dichas clases, para esto se utiliza la funcin de
probabilidad de la distribucin Poisson que es:

21
ESTADISTICA INFERENCIAL I 30-11-2015

Dnde: es el promedio de clientes por da.

Con la informacin disponible se obtiene un promedio aritmtico de 1, por lo


tanto =1. Conocido el promedio se puede calcular la probabilidad en cada clase:

Para el clculo de la estadstica de trabajo se debe tener en cuenta que cada una
de las frecuencias esperadas debe ser mayor o igual a 5; para cumplir esta
condicin se deben unir las tres ltimas clases obtenindose as una frecuencia
esperada de 8,16 y una frecuencia observada de 10.

22
ESTADISTICA INFERENCIAL I 30-11-2015

Tabla 3.2 Clculo de las frecuencias esperadas

No. DE CLIENTES No. DE DIAS pj ej

0 40 0,368 37,536

1 36 0,368 37,536

2 16 0,184 18,768

3 7 0,061 6,222

4 2 0,015 1,53

5 1 0,004 0,408

TOTAL N=102 1,000

Por lo tanto la estadstica de trabajo es:

23
ESTADISTICA INFERENCIAL I 30-11-2015

Asumiendo una confiabilidad del 99 por ciento, en una tabla de la distribucin chi-
cuadrado y dos grados de libertad (nmero de clases: m=4, nmero de estimadores
obtenidos a partir de la muestra, la media, k=1. Entonces m-k-1 = 2) se obtiene un
valor para Z de 9,21. El valor de la estadstica de trabajo est en la zona de no
rechazo de la hiptesis nula (Figura 3.22), por lo tanto con una confiabilidad del 99
por ciento, se concluye que el nmero de clientes que visitan al abogado tiene una
distribucin Poisson.

Figura 3.22 Regla de decisin: prueba bondad de ajuste

24
ESTADISTICA INFERENCIAL I 30-11-2015

4.1.4 TABLAS DE CONTINGENCIA

Es un medio particular de representar simultneamente dos caracteres observados


en una misma poblacin, si son discretos o continuos reagrupados en clases. Los

dos caracteres son e , el tamao de la muestra es . Las modalidades o

clases de se escribirn , las de , . Se denota

el efectivo conjunto de y : es el nmero de individuos para los

cuales toma el valor e el valor ,

el efectivo marginal de : es el nmero de individuos para los cuales toma el

valor ,

el efectivo marginal de : es el nmero de individuos para los cuales toma el

valor .

Se representan estos valores en una tabla de doble entrada, llamada tabla de


contingencia:

25
ESTADISTICA INFERENCIAL I 30-11-2015

Cada fila y cada columna corresponden a una submuestra particular. La fila de

ndice es la distribucin en , de los individuos para los cuales el

carcter toma el valor . La columna de ndice es la distribucin

sobre , de los individuos para los cuales el carcter toma el valor


. Dividiendo las filas y las columnas por sus sumas, obtenemos en cada
una, distribuciones empricas formadas por frecuencias condicionales.

Para y , las denotaremos:

Ejemplo de Aplicacin

Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de
automviles. De ellos, 65 son mujeres, 80 estn casados y 45 son mujeres casadas.
Se pide:

1. Cul ser la probabilidad de que le toque el viaje a un hombre soltero?

2. Si del afortunado se sabe que es casado, cul ser la probabilidad de que sea
una mujer?

26
ESTADISTICA INFERENCIAL I 30-11-2015

4.1.5 USO DE SOFTWARE


En la hoja de clculo de Excel se incluye la regresin lineal simple y mltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:

Datos Anlisis de datos Regresin

Generalmente Excel no trae instalado la herramienta de anlisis de datos esta debe


instalarse con la siguiente secuencia:
1.- En la hoja de clculo de Excel (pantalla principal) hacer clic con el puntero en el
smbolo del sistema localizado en el extremo superior izquierdo

2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)

27
ESTADISTICA INFERENCIAL I 30-11-2015

3.- De la ventana desplegada hacer clic en complementos

4.- De la ventana desplegada hacer clic en ir


5.- De esta ventana activar la casilla de herramientas para anlisis (palomearla) y
dar clic en aceptar. De esta manera hemos activado la opcin de anlisis de datos.

Para capturar la tabla de datos para el anlisis de regresin lineal simple o mltiple,
primeramente capturamos los datos en la hoja de clculo, posteriormente activamos
Datos seguido de Anlisis de datos y seleccionamos Regresin

Datos Anlisis de datos Regresin

28
ESTADISTICA INFERENCIAL I 30-11-2015

En la ventana de captura se solicitar el rango de celdas donde se encuentran los


datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada

Activamos la casilla de rtulos, por default est indicado en una hoja nueva,
seleccionamos adems cualquiera de las opciones de residuos, grafica de
residuales, y curva de regresin ajustada y aceptar.

En Minitab

En Minitab la secuencia de captura para la regresin lineal simple o mltiple en la


hoja de clculo una vez capturada las columnas de datos seleccionamos
Estadsticas luego Regresin seguida de Regresin nuevamente.

29
ESTADISTICA INFERENCIAL I 30-11-2015

De la ventana desplegada en respuesta indicamos la variable de respuesta, en este


caso es resistencia y en predictor indicamos porcentaje de fibra activando tambin
cualquiera de las opciones posibles, terminando en aceptar.

Nota: De la ventana de captura aparecen automticamente en el cuadro de la


izquierda la informacin de la tabla, en respuesta, se indica con un clic del ratn en
resistencia y este automticamente se manifiesta en el recuadro, en predictores de
igual manera se da un clic en porcentaje de fibra y igualmente se manifiestan en el
recuadro.

30
ESTADISTICA INFERENCIAL I 30-11-2015

4.2 PRUEBAS NO PARAMTRICAS

La mayor parte de los procedimientos de prueba de hiptesis que se presentan en


las unidades anteriores se basan en la suposicin de que las muestras aleatorias
se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas
pruebas an son confiables cuando experimentamos ligeras desviaciones de la
normalidad, en particular cuando el tamao de la muestra es grande.
Tradicionalmente, estos procedimientos de prueba se denominan mtodos
paramtricos. En esta seccin se consideran varios procedimientos de prueba
alternativos, llamados no paramtricos mtodos de distribucin libre, que a
menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de
las poblaciones fundamentales, excepto que stas son continuas.

Los procedimientos no paramtricos o de distribucin libre se usan con mayor


frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y
la ingeniera donde los datos se reportan no como valores de un continuo sino ms
bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.

Un ejemplo donde se aplica una prueba no paramtrica es el siguiente, dos jueces


deben clasificar cinco marcas de cerveza de mucha demanda mediante la
asignacin de un grado de 1 a la marca que se considera que tiene la mejor calidad
global, un grado 2 a la segunda mejor, etctera. Se puede utilizar entonces una
prueba no paramtrica para determinar donde existe algn acuerdo entre los dos
jueces.

Se debe sealar que hay varias desventajas asociadas con las pruebas no
paramtricas. En primer lugar, no utilizan la informacin que proporciona la muestra,
y por ello una prueba no paramtrica ser menos eficiente que el procedimiento
paramtrico correspondiente, cuando se pueden aplicar ambos mtodos. En
consecuencia, para lograr la misma potencia, una prueba no paramtrica requerir
la correspondiente prueba no paramtrica.

31
ESTADISTICA INFERENCIAL I 30-11-2015

Como se indic antes, ligeras divergencias de la normalidad tienen como resultado


desviaciones menores del ideal para las pruebas paramtricas estndar. Esto es
cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la
prueba F, el valor P citado puede ser ligeramente errneo si existe una violacin
moderada de la suposicin de normalidad.
En resumen, si se puede aplicar una prueba paramtrica y una no paramtrica al
mismo conjunto de datos, debemos aplicar la tcnica paramtrica ms eficiente. Sin
embargo, se debe reconocer que las suposiciones de normalidad a menudo no se
pueden justificar, y que no siempre se tienen mediciones cuantitativas.

Ejemplo de Aplicacin
Un investigador piensa que los individuos de diversas profesiones tendrn distintos
grados de susceptibilidad a ser hipnotizados. Pare el experimento se eligen al azar
a 6 abogados, 6 mdicos, y 6 bailarines profesionales. A cada uno se le aplica un
examen de susceptibilidad hipntica. Los resultados aparecen aqu. Mientras mayor
sea la calificacin, mayor ser la susceptibilidad a ser hipnotizados. Suponga que
los datos violan los supuestos necesarios para el uso de la prueba F, pero al menos
presentan una escala ordinal.

i) Cul es la hiptesis alternativa? Utilice una hiptesis no direccional.


j) Cul es la hiptesis nula?
k) Calcule la suma de rangos.
l) Calcule el estadstico H.
m) Verifique los resultados para el test aproximado.
n) Cul es la conclusin? Utilice la salida del SPSS adjunta.
o) Compare con los resultados de un test paramtrico.

32
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.1 ESCALA DE MEDICIN

Las variables de las escalas nominal y ordinal se denominan tambin categricas,


por otra parte las variables de escala de intervalo o de razn se denominan variables
numricas. Con los valores de las variables categricas no tiene sentido o no se
puede efectuar operaciones aritmticas. Con las variables numricas s.

La escala nominal slo permite asignar un nombre al elemento medido. Esto la


convierte en la menos informativa de las escalas de medicin.

La escala ordinal, adems de las propiedades de la escala nominal, permite


establecer un orden entre los elementos medidos.

33
ESTADISTICA INFERENCIAL I 30-11-2015

La escala de intervalo, adems de todas las propiedades de la escala ordinal, hace


que tenga sentido calcular diferencias entre las mediciones.

Finalmente, la escala de razn permite, adems de lo de las otras escalas,


comparar mediciones mediante un cociente.

4.2 MTODOS ESTADSTICOS CONTRA NO PARAMTRICOS


Las tcnicas estadsticas de estimacin de parmetros, intervalos de confianza y
prueba de hiptesis son, en conjunto, denominadas estadstica paramtrica y son
aplicadas bsicamente a variables continuas. Estas tcnicas se basan en
especificar una forma de distribucin de la variable aleatoria y de los estadsticos
derivados de los datos. En estadstica paramtrica se asume que la poblacin de la
cual la muestra es extrada es normal o aproximadamente normal. Esta propiedad
es necesaria para que la prueba de hiptesis sea vlida. Sin embargo, en un gran
nmero de casos no se puede determinar la distribucin original ni la distribucin de
los estadsticos por lo que en realidad no tenemos parmetros a estimar. Tenemos
solo distribuciones que comparar. Esto se llama estadstica no-paramtrica. Las
hiptesis de una prueba no paramtrica se refiere a algo distinto del valor de un
parmetro de la poblacin.

34
ESTADISTICA INFERENCIAL I 30-11-2015

Las principales pruebas no paramtricas son las siguientes:

Prueba de Pearson
Prueba binomial
Prueba de Anderson-Darling
Prueba de Cochran
Prueba de Cohen kappa
Prueba de Fisher Estadstica Administrativa II 35
Prueba de Friedman
Prueba de Kendall
Prueba de Kolmogrov-Smirnov
Prueba de Kruskal-Wallis
Prueba de Kuiper
Prueba de Mann-Whitney o prueba de Wilcoxon
Prueba de McNemar
Prueba de la mediana
Prueba de Siegel-Tukey
Coeficiente de correlacin de Spearman
Tablas de contingencia
Prueba de Wald-Wolfowitz
Prueba de los signos de Wilcoxon

Caractersticas de algunas pruebas no paramtricas.

1. Prueba de signo para datos pares: los signos positivo o negativo sustituyen
a valores cuantitativos.
2. Prueba de suma de rangos: tambin llamada prueba U de MannWhitney, que
puede usarse para determinar si dos muestras independientes de sacaron
de la misma poblacin.

35
ESTADISTICA INFERENCIAL I 30-11-2015

3. Prueba de suma de rangos Kruskal Wallis: generaliza el anlisis de


varianza para poder prescindir de la suposicin de que las poblaciones tienen
distribucin normal.
4. Prueba de corridas de una sola muestra: es un mtodo para determinar la
aleatoriedad con la que se han seleccionado los elementos muestreados.
5. Correlacin de rango: mtodo para hacer el anlisis de correlacin cuando
no se dispone de los datos para usar la forma numrica, pero cuando la
informacin es suficiente para clasificar los datos como primero, segundo,
tercero, etc.
6. Prueba de Kolmogorov: mtodo para determinar la bondad de ajuste entre
una muestra observada y una distribucin de probabilidad terica.

Las pruebas no paramtricas, no requieren asumir normalidad de la poblacin y


la mayora se basan en el ordenamiento de los datos. El parmetro que se usa
para hacer las pruebas estadsticas es la Mediana y Media.

36
ESTADISTICA INFERENCIAL I 30-11-2015

Ejemplo de Aplicacin
Se midi el TIEMPO (seg.) que tarda la concentracin de un compuesto reducirse
a la mitad durante una reaccin. Se realizaron 28 repeticiones de la reaccin en
condiciones independientes e idnticas.

Resultados obtenidos, ordenados por columna de menor a mayor.

Box-plot y el grfico de probabilidad Normal de los valores de la tabla anterior.

El box-plot y el grfico de probabilidad Normal muestran que la distribucin de los


datos correspondientes a la variable TIEMPO es fuertemente asimtrica a derecha.
Mediante el test de Shapiro Wilk se rechaza la hiptesis de que la distribucin de la
variable es normal. Si se desea resumir la distribucin de esta variable mediante un
parmetro de la posicin de su centro, es preferible utilizar la mediana, en vez de la
media, ya que la interpretacin de esta medida no depende de la forma de la
distribucin.
Estimaremos la mediana poblacional , con la mediana muestral, med = 617.80

37
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.3 PRUEBA DE KOLMOGOROV-SMIRNOV


La prueba de Kolmogorov-Smirnov para una muestra se considera un
procedimiento de "bondad de ajuste", es decir, permite medir el grado de
concordancia existente entre la distribucin de un conjunto de datos y una
distribucin terica especfica. Su objetivo es sealar si los datos provienen de una
poblacin que tiene la distribucin terica especificada.
Mediante la prueba se compara la distribucin acumulada de las frecuencias
tericas (ft) con la distribucin acumulada de las frecuencias observadas (f obs), se
encuentra el punto de divergencia mxima y se determina qu probabilidad existe
de que una diferencia de esa magnitud se deba al azar.
En las tareas de investigacin se pudo obtener un conjunto de observaciones, en
las cuales se supone que tienen una distribucin normal, binomial, de Poisson, etc.
Para el caso, las frecuencias de las distribuciones tericas deben contrastar con las
frecuencias observadas, a fin de conocer cul distribucin se adecua mejor al
modelo.

Pasos:
1. Calcular las frecuencias esperadas de la distribucin terica especfica por
considerar para determinado nmero de clases, en un arreglo de rangos de
menor a mayor.
2. Arreglar estos valores tericos en frecuencias acumuladas.
3. Arreglar acumulativamente las frecuencias observadas.
4. Aplicar la ecuacin D = ft - f obs, donde D es la mxima discrepancia de
ambas.
5. Comparar el valor estadstico D de Kolmogorov-Smirnov en la tabla de
valores crticos de D.
6. Decidir si se acepta o rechaza la hiptesis.

Ecuacin:
D = ft - fobs

38
ESTADISTICA INFERENCIAL I 30-11-2015

En esta ecuacin se aprecia que el procedimiento es muy simple y quiz lo que


parezca ms complicado corresponde al clculo de la frecuencia esperada de cada
tipo de distribucin terica. Por lo tanto, en la marcha de los ejercicios se presentar
cada uno de ellos y la manera de aplicar la prueba estadstica.

Ejemplo de Aplicacin
En una investigacin, consistente en medir la talla de 100 nios de 5 aos de edad,
se desea saber si las observaciones provienen de una poblacin normal.

Eleccin de la prueba estadstica.


El modelo experimental tiene una muestra y es factible un arreglo en el carcter
ordinal o en los rangos de las series de clases.

Planteamiento de la hiptesis.
Hiptesis alterna (Ha). Los valores observados de las frecuencias para cada clase
son diferentes de las frecuencias tericas de una distribucin normal.
Hiptesis nula (Ho). Las diferencias entre los valores observados y los tericos de
la distribucin normal se deben al azar.

Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza
Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tabla de 100 nios. Los valores X + s son 99.2 2.85.

39
ESTADISTICA INFERENCIAL I 30-11-2015

Aplicacin de la prueba estadstica.


Primero se elaboran los clculos de los valores tericos esperados para la
distribucin normal.

Inicialmente se determina el valor Z de los lmites de cada clase en la serie, por


ejemplo: en la primera clase se determinan el lmite inferior y el superior (90 y 93),
y en las subsecuentes slo los lmites superiores (97, 101, 105 y 109). Para cada
valor de Z, se localiza el rea bajo la curva norma tipificada.

Los clculos de valores Z, son de la forma siguiente:

Y as sucesivamente.
Para cada valor Z, se localiza el rea de la curva tipificada de la tabla de nmeros
aleatorios. A partir de estos valores, se obtiene la diferencia entre los lmites de
clases entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 -
0.2357 = 0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854
- (-0.4994) = 0.014.
Estos resultados de diferencias se multiplican por el tamao de la muestra (100
nios), luego se obtienen las frecuencias tericas y despus se arreglan en
frecuencias acumuladas.
Clculos de los valores tericos.

40
ESTADISTICA INFERENCIAL I 30-11-2015

Las frecuencias acumuladas tericas y las observadas se arreglan en los rangos


correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica
la frmula de Kolmogorov-Smirnov.

Clculo estadstico D de Kolmogorov-Smirnov.

D = ft - fobs = - 0.036
La diferencia mxima D es igual a -0.049, valor que se compara con los valores
crticos de D en la prueba muestral de Kolmogorov-Smirnov y se obtiene la
probabilidad de la existencia de esa magnitud de acuerdo con la prueba de
Kolmogorov-Smirnov. El valor N es 100 y el mayor nmero de N en la tabla es 35,
por lo cual se aplica la frmula al pie de la tabla:

Para la probabilidad de
Lo anterior quiere decir que para todo valor menor que el crtico para una
probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo
valor mayor que D al calculado tinen una probabilidad menor que 0.05, o sea, es
inversamente proporcional al crtico determinado o localizado en la tabla.
Decisin.
En virtud de lo anterior, el estadstico de Kolmogorov-Smirnov obtendo es menor
que el crtico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se
rechaza Ha.
Interpretacin.
Las frecuencias observadas y las tericas calculadas no difieren significativamente.
Por lo tanto, las observaciones tienen una distribucin normal.

41
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.4 PRUEBA DE ANDERSON-DARLING

La prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de


una muestra provienen de una distribucin especfica. La frmula para el

estadstico A determina si los datos (observar que los datos se


deben ordenar) vienen de una distribucin con funcin acumulativa

Donde

El estadstico de la prueba se puede entonces comparar contra las distribuciones


del estadstico de prueba (dependiendo que se utiliza) para determinar el P-valor.

La prueba de Anderson-Darling es una prueba estadstica que permite determinar


si una muestra de datos se extrae de una distribucin de probabilidad. En su forma
bsica, la prueba asume que no existen parmetros a estimar en la distribucin que
se est probando, en cuyo caso la prueba y su conjunto de valores crticos siguen
una distribucin libre. Sin embargo, la prueba se utiliza con mayor frecuencia en
contextos en los que se est probando una familia de distribuciones, en cuyo caso
deben ser estimados los parmetros de esa familia y debe tenerse estos en cuenta
a la hora de ajustar la prueba estadstica y sus valores crticos. Cuando se aplica
para probar si una distribucin normal describe adecuadamente un conjunto de
datos, es una de las herramientas estadsticas ms potentes para la deteccin de
la mayora de las desviaciones de la normalidad.

Ejemplo de Aplicacin
En el mtodo de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la
prueba es mayor a 0.05, se considera que los datos son normales. Seguir los
siguientes pasos:

42
ESTADISTICA INFERENCIAL I 30-11-2015

1. Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviacin


estndar S = 32.02 con: Calc > Random data > Normal2.
2. Generate 100 Store in columns C1 Mean
264.06 Estandar deviation 32.02OK.

Nos aseguramos que los datos se distribuyan normalmente con la prueba de


Anderson Darling o Ryan joiner como sigue.

1. Stat > Basic statistics > Normality Test


2. Variable C1 Seleccionar Ryan Joiner test OK.
El P value debe ser mayor a 0.05 para que los datos se distribuyan normalmente.

Grfica de probabilidad de un proceso normal

43
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.5 PRUEBA DE RYAN-JOINER


Esta prueba es una modificacin de la prueba de Kolmogorov-Smirnov donde se le
da ms peso a las colas de la distribucin que la prueba de Kolmogorov-Smirnov.

En estadstica, la prueba de Ryan -Joiner es una prueba no paramtrica sobre si,


los datos de una muestra provienen de una distribucin especfica. La frmula para
el estadstico determina si los datos (observar que los datos se deben ordenar)
vienen de una distribucin con funcin acumulativa F.

Esta prueba evala la normalidad calculando la correlacin entre sus datos y las
puntuaciones normales de sus datos. Si el coeficiente de correlacin se encuentra
cerca de 1, es probable que la poblacin sea normal. La estadstica de Ryan-Joiner
evala la solidez de esta correlacin; si se encuentra por debajo del valor crtico
apropiado, usted rechazar la hiptesis nula de normalidad en la poblacin.

Ecuacin:

Usos: La prueba de Ryan - Joiner es usada para probar si una muestra viene de
una distribucin especfica.
Ejemplo: En la prctica, se tienen valores reales de promedio diferentes de cero y
con desviacin estndar diferente de uno, para determinar la probabilidad o rea
bajo la curva, se determina el nmero de desviaciones estndar

Z entre algn valor X y la media de la poblacin O de la muestra X

Como sigue:

44
ESTADISTICA INFERENCIAL I 30-11-2015

Ejemplo de Aplicacin

En el mtodo de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la


prueba es mayor a 0.05, se considera que los datos son normales. Seguir los
siguientes pasos:

1. Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviacin


estndar S = 32.02 con: Calc > Random data > Normal2.
2. Generate 100 Store in columns C1 Mean
264.06 Estandar deviation 32.02OK.

Nos aseguramos que los datos se distribuyan normalmente con la prueba de


Anderson Darling o Ryan joiner como sigue.
1. Stat > Basic statistics > Normality Test
2. Variable C1 Seleccionar Ryan Joiner test OK.
El P value debe ser mayor a 0.05 para que los datos se distribuyan normalmente.

Grfica de probabilidad de un proceso normal

45
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.6 PRUEBA DE SHAPPIRO-WILK


Cuando la muestra es como mximo de tamao 50 se puede contrastar la
normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la
media y la varianza muestral, S2, y se ordenan las observaciones de menor a mayor.
A continuacin se calculan las diferencias entre: el primero y el ltimo; el segundo y
el penltimo; el tercero y el antepenltimo, etc. y se corrigen con unos coeficientes
tabulados por Shapiro y Wilk. El estadstico de prueba es:

Donde D es la suma de las diferencias corregidas.


Se rechazar la hiptesis nula de normalidad si el estadstico W es menor que el
valor crtico proporcionado por la tabla elaborada por los autores para el tamao
muestral y el nivel de significacin dado.
La secuencia para realizar los contrastes de normalidad es:

Analiza
Estadsticos Descriptivos
Explorar

En el cuadro de dilogo que aparece al activar el botn Grficos se activa la


opcin Grficos con pruebas de normalidad.

Ejemplo de Aplicacin
Con los datos correspondientes a la variable Trans de la encuesta Enctrans.sav y
con referencia a los encuestados que viven en Barcelona, se quiere comprobar si
su distribucin en cuanto al tipo de transporte utilizado se adapta a los resultados
de un estudio realizado por el Ayuntamiento de Barcelona, que son los siguientes:
el 40% de los desplazamientos al trabajo se realizan en metro; el 30% en autobs;
el 20% en transporte privado y 10% otros medios.
La distribucin de frecuencias de la variable Trans es:

46
ESTADISTICA INFERENCIAL I 30-11-2015

En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro
categoras contempladas en la hiptesis nula. Para ello, se crea una nueva variable,
Trans2, a partir de Trans con las siguientes categoras: Metro, Bus, Privado (que
resultar de agregar Coche y Moto) y Otros (que agrupar Tren y Otros).Una vez
creada la nueva variable, con la secuencia Analizar > Pruebas no paramtricas >
Chi-cuadrado se llega al cuadro de dilogo en donde se selecciona la variable
Trans2 y se introduce en Valores esperados las frecuencias relativas de cada
categora segn la hiptesis nula correctamente ordenadas: 0,4 para la categora 1;
0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se obtienen los siguientes
resultados:

Como todas las categoras presentan frecuencia esperada mayor que 5 se puede
aplicar el contraste Chi-cuadrado sin modificar el nmero de categoras. El valor del
estadstico Chi-cuadrado permite rechazar la hiptesis nula para niveles de
significacin superiores al 2,7%. As pues, al 5% de significacin se llega a la
conclusin de que la distribucin del tipo de transporte que utilizan los alumnos no
se adapta a la publicada por el ayuntamiento.

47
ESTADISTICA INFERENCIAL I 30-11-2015

4.2.6 APLICACIONES DEL PAQUETE COMPUTACIONAL


Conceptualmente, un paquete estadstico es un conjunto de programas informticos
especficamente diseados para el anlisis estadstico de datos con el objetivo de
resolver problemas de estadstica descriptiva, inferencial o ambos.

Es un conjunto de programas y subprogramas conectados de manera que funcionan


de manera conjunta; es decir, para pasar de uno a otro no se necesita salir del
programa y volver a l. Un paquete estadstico permite aplicar a un mismo fichero
de datos un conjunto ilimitado de procedimientos estadsticos de manera
sincronizada, sin salir del programa. De esta forma, la utilidad del conjunto integrado
es mayor que la suma de las partes. En cierto modo, un paquete estadstico es
similar a un paquete ofimtico (por ejemplo, Office 97 de Microsoft).

Hay paquetes que fueron escritos originalmente para ordenadores tipo mainframe:
SPSS , BMDP , SAS , Minitab , Genstat y GLIM. Los tres primeros se volvieron muy
populares en ese entorno. Actualmente pueden usarse en PC todos ellos. Otros
paquetes se han desarrollado especficamente para PC, sin haber pasado por la
etapa de los mainframes.

Algunas de las variables que es necesario tener en cuenta para comparar


adecuadamente unos paquetes estadsticos de otros son, esencialmente, las seis
que se mencionan a continuacin:

1.- Coste: Este es uno de los puntos ms importantes que hay que tocar al momento
de elegir un Paquete Estadstico, desafortunadamente, el coste de sus licencias
est fuera del alcance de la mayor parte de los usuarios y la obtencin de copias
subrepticias no es posible para muchos ni fcil en absoluto para ninguno.

2.- Nivel de sofisticacin del usuario: Idealmente, ste debera ser un entendido en
estadstica y tener ciertos conocimientos de programacin. En la medida que
carezca de los segundos, tendr que renunciar a realizar por su cuenta cierto tipo
48
ESTADISTICA INFERENCIAL I 30-11-2015

de anlisis que vayan ms all de los ms comunes; y en tanto que carezca de los
primeros, ser ms dependiente de aquellos paquetes con un interfaz ms
informativo.

3.- Tamao del conjunto de datos: En la mayor parte de los problemas -al menos,
en lo que respecta a su nmero, no a su dificultad ni importancia- esta variable no
supone ninguna restriccin significativa. De hecho, la mayora de los paquetes
puede manejar sin mayores problemas conjuntos de datos no excesivamente
grandes. Slo cuando se rebasa cierto umbral es preciso considerar paquetes
especficamente diseados para hacer frente a este tipo de condicionantes. Los
distribuidores de muchos paquetes estadsticos comerciales suelen hacer hincapi
en la probada capacidad de sus productos para manipular grandes conjuntos de
datos. Desafortunadamente para ellos, el rango de problemas en que estas virtudes
son crticas se estrecha aceleradamente: por una parte, las ampliaciones de
memoria son cada vez ms econmicas, elevando hasta niveles muy cmodos el
umbral a partir del cual seran necesarios productos ms sofisticados; por la otra,
para los problemas en que los conjuntos de datos son verdaderamente grandes -
bases de datos de corporaciones, informacin censal, etc.- pueden emplearse
herramientas especficas como, por ejemplo, programas escritos en C que
interacten con el gestor de la base de datos.

4.- Grado de intensidad computacional: El incremento en la potencia computacional


de los ordenadores permite hoy en da aplicar ciertas tcnicas estadsticas
impensables hace unos aos y ampliar su campo de aplicacin a mbitos
inasequibles para las tradicionales. Las tcnicas de remuestreo o de validacin
cruzada, ciertos tests exactos y gran parte de las tcnicas bayesianas exigen una
enorme capacidad de clculo.
No todos los paquetes estadsticos estn igualmente adaptados para este tipo de
problemas. Con muchos de ellos -por ejemplo, Minitab, Stata y gran parte de los
paquetes gratuitos- resulta simplemente imposible porque fueron diseados

49
ESTADISTICA INFERENCIAL I 30-11-2015

nicamente para implementar tcnicas tradicionales y carecen de un verdadero


lenguaje de programacin asociado que resulte eficiente.
5.- Ergonoma: Curiosamente, el aspecto que tal vez ms encarezca determinados
paquetes estadsticos es el ergonmico: la posibilidad de contar con ayudas
interactivas o tutoriales, de representar grficamente datos con un golpe de ratn,
de exportar automticamente los resultados a formato .html o .pdf, etc. Bajo cierto
punto de vista, el coste de las licencias es, de hecho, el coste de la impericia o la
pereza. A la primera, en mercadotecnia, se la suele denominar productivity; a la
segunda, learning curve. Es ms productivo y exige menor esfuerzo mental un
paquete estadstico en que para imprimir no haya sino que pulsar el icono de la
impresora, en que para visualizar unos datos baste con visitar el men Grficos o
el Importar para leer datos de un fichero con el formato de cierta hoja de clculo.
Este tipo de habilidades son realmente redundantes si se cuenta con un mnimo de
habilidad y no se pretende escatimar un adarme de esfuerzo: utilizando ficheros de
texto como intermediarios, se pueden intercambiar datos con cualquier hoja de
clculo o con otros programas que permiten manipular datos o grficos, gran parte
de los cuales son de distribucin gratuita.

6.- Facilidad de programacin: Si bien contar con lenguajes de programacin


complejos no es lo deseable, si lo es disponer de la capacidad de generar
programas sencillos tipo "batch files" que permitan realizar tareas de
transformacin, clculo de datos, realizacin de pruebas estadsticas, generacin
de nuevos archivos y documentos conteniendo resultados sin necesidad de estar
digitando cada vez los comandos correspondientes, con el consiguiente ahorro de
tiempo y esfuerzo.

Ejemplo de Aplicacin
Al abrir el programa nos encontramos con una cuadrcula en la que podemos
escribir tanto texto como nmeros. Excel es una hoja de clculo, lo que quiere decir
que su propsito es precisamente calcular expresiones matemticas. En las casillas

50
ESTADISTICA INFERENCIAL I 30-11-2015

o celdas de la ventana de Excel podemos introducir tanto nmeros como


expresiones. As por ejemplo, si en la casilla A1 hemos introducido el nmero 5, y
en la casilla A2 el nmero 7 y queremos calcular su suma, podemos introducir en la
casilla A3 la expresin =A1+A2 obteniendo el valor de dicha suma. Notad que el
smbolo = indica que el programa ha de calcular la expresin que viene a
continuacin y no se trata de un mero texto a insertar. En ocasiones podemos ver
que se intercala el smbolo $ junto a la referencia de una celda, por ejemplo $A$2.
Esto indica que la referencia de la celda es absoluta y no relativa; es decir, que si
copiramos la expresin en otra celda, al ser absoluta la formula quedar tal cual
est, pero si es relativa (no lleva los smbolos $) modificar la frmula que copiamos.

Para comenzar a trabajar con una muestra, una vez introducidos sus datos,
utilizaremos las funciones que Excel nos proporciona. Por ejemplo, la funcin
=SUMA(Rango) o =PROMEDIO(Rango) calculan respectivamente la suma y el
promedio de una muestra. Si los datos estn contiguos, el Rango se especifica
poniendo la referencia de la primera celda de la muestra, el smbolo ":", y la
referencia de la ltima. Por ejemplo: =SUMA(B3:B14).

51
ESTADISTICA INFERENCIAL I 30-11-2015

Dentro del men Herramientas, podemos encontrar la opcin Anlisis de Datos. Si


no se encuentra, la tendremos que instalar mediante la opcin Complementos. Una
vez instalada, seleccionamos la opcin Estadstica Descriptiva, que nos proporciona
fcilmente las medidas de centrado y dispersin ms habituales de la muestra.

52
ESTADISTICA INFERENCIAL I 30-11-2015

53
ESTADISTICA INFERENCIAL I 30-11-2015

5.1 REGRESIN LINEAL SIMPLE

Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas
y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados,
etc.), puede darse el problema de que la dependiente asuma mltiples valores
para una combinacin de valores de las independientes.

La dependencia a la que hacemos referencia es relacional matemtica y no


necesariamente de causalidad. As, para un mismo nmero de unidades
producidas, pueden existir niveles de costo, que varan empresa a empresa.

Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los


cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin,
en la cual la variable independiente se asocia con un indicador de tendencia central
de la variable dependiente. Cabe recordar que en trminos generales, una funcin
es un tipo de relacin en la cual para cadavalor de la variable independiente le
corresponde uno y slo un valor de la variable dependiente.

La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar


para solucionar problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar


alguna Relacin Funcional entre dos o ms variables, donde una variable depende
de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera


en un modelo de Regresin Simple.

"Y es una funcin de X"

Y = f(X)

Como Y depende de X,

54
ESTADISTICA INFERENCIAL I 30-11-2015

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresin es muy importante identificar cul es la variable


dependiente y cul es la variable independiente.

En el Modelo de Regresin Simple se establece que Y es una funcin de slo una


variable independiente, razn por la cual se le denomina tambin Regresin Di
variada porque slo hay dos variables, una dependiente y otra independiente y se
representa as:

Y = f (X)

"Y est regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. Tambin se


le llama REGRESANDO o VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA


REGRESOR y se le utiliza para EXPLICAR Y.
Ejemplo de aplicacin

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg)
de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se
observ el peso de una persona seleccionada de entre el grupo con dicha estatura,
resultando:

X 152 155 152 155 157 152 157 165 162 178 183 178

Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Con estos datos vamos a plantear una ecuacin de regresin simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y
contrastaremos nuestra hiptesis con la prueba F.

55
ESTADISTICA INFERENCIAL I 30-11-2015

DESARROLLO
Representacin matemtica y grfica de los datos:
Representacin Matemtica

estatur peso I.C. para la I. C.


a s Regresin Lineal media individual

dato y Residu
s x y x ^2 y ^2 Xy est. al L. I. L. S. L. I. L. S.

2310 56.4 53.0 59.7 47.3 65.5


1 152 50 4 2500 7600 3 -6.43 7 9 0 6

2402 3782. 9532. 59.0 56.0 61.9 50.0 68.0


2 155 61.5 5 3 5 3 2.47 9 7 5 2

2310 2970. 56.4 53.0 59.7 47.3 65.5


3 152 54.5 4 3 8284 3 -1.93 7 9 0 6

2402 3306. 8912. 59.0 56.0 61.9 50.0 68.0


4 155 57.5 5 3 5 3 -1.53 9 7 5 2

2464 4032. 9969. 60.7 58.0 63.4 51.8 69.6


5 157 63.5 9 3 5 7 2.73 5 8 5 8

2310 56.4 53.0 59.7 47.3 65.5


6 152 59 4 3481 8968 3 2.57 7 9 0 6

2464 60.7 58.0 63.4 51.8 69.6


7 157 61 9 3721 9577 7 0.23 5 8 5 8

2722 67.7 65.1 70.2 58.8 76.5


8 165 72 5 5184 11880 1 4.29 7 4 5 7

2624 65.1 62.6 67.5 56.2 73.9


9 162 66 4 4356 10692 1 0.89 5 6 7 4

3168 78.9 74.6 83.3 69.4 88.5


10 178 72 4 5184 12816 9 -6.99 5 3 5 2

56
ESTADISTICA INFERENCIAL I 30-11-2015

3348 83.3 78.0 88.6 73.3 93.3


11 183 84 9 7056 15372 2 0.68 1 4 1 4

3168 78.9 74.6 83.3 69.4 88.5


12 178 82 4 6724 14596 9 3.01 5 3 5 2

5.1.1 PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE


Para probar hiptesis acerca de la pendiente y la ordenada en el origen del modelo
de regresin, debe hacerse la suposicin adicional de que trmino del error i esta
normalmente distribuido. Por lo tanto, se supone que los errores i son NID (0,2).
Despus se pueden probar es suposiciones mediante el anlisis de residuos.
Supongamos que el experimentador desea probar la hiptesis de que la pendiente
es igual a un cierto valor, por ejemplo 1,0. Las hipte apropiadas son:

En donde se ha especificado la hiptesis alterna de dos extremos. Ahora bien, como


las i son NID(0,2) se concluye que las yi son NID(0 + 2). Por lo tanto, es una
combinacin lineal de variables aleatorias independientes normalmente distribuidas.
En consecuencia, es N( 2/Sxx). Adems es independiente de MSE. Entonces,
como resultado de la suposicin de normalidad, la estadstica:

57
ESTADISTICA INFERENCIAL I 30-11-2015

Tiene una distribucin t con n 2 grados de libertad si H0: 1 = 1,0 es verdadera.


Se rechaza H0:1 = 1,0 si:

En donde t0 se calcula usando la Ecuacin (1-23). Puede utilizarse un


procedimiento para probar hiptesis acerca de la ordenada en el origen. Para
probar:

Y se rechaza la hiptesis nula s.


Un caso especial muy importante de la hiptesis (1-22) es:

Esta hiptesis se relaciona con la significacin de la regresin. No rechazar H0: 1


= 0 equivale a concluir que no existe una relacin lineal entre y. En otras palabras,
el mejor estimador de yi para cualquier valor de xj es j = . En muchos casos esto
puede indicar que no hay una relacin causal entre x y y, o que la relacin real no
es lineal. El procedimiento para probar H01 = 0 se puede deducir usando dos
enfoques. El primero consiste en descomponer la suma total de cuadrados
corregida de y:

58
ESTADISTICA INFERENCIAL I 30-11-2015

Los dos componentes de Syy miden, respectivamente, la variabilidad de yi explicada


por la recta de regresin y la variacin residual, no explica por la recta de regresin.

se conoce como la suma de cuadrados del error o residual

Y Denomina suma de cuadrados de regresin. Por lo


tanto, la Ecuacin (1-28) se transforma en:

Syy = SSR + SSE (1-29)

De la Ecuacin se obtiene que la frmula para calcular SSR

es:

5.1.2 CALIDAD DEL AJUSTE EN REGRESIN LINEAL SIMPLE

En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre y; sin embargo, no hemos visto si tal relacin permite
hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber
qu tanta de la variabilidad presente en fue explicada por el modelo, adems si se
cumplen los supuestos de los residuos.

Coeficiente de determinacin. Un primer criterio para evaluar la calidad del ajuste


es observar la forma en que el modelo se ajust a los datos. En el caso de la
regresin lineal simple esto se distingue al observar si los puntos tienden a ajustarse
razonablemente bien a la lnea recta (vase la figura 1.3). Pero otro criterio ms
cuantitativo es el que proporciona el coeficiente de determinacin, el cual est
definido por:

59
ESTADISTICA INFERENCIAL I 30-11-2015

En general se interpreta como la proporcin de la variabilidad en los datos (Y ) que


es explicada por el modelo. En el caso de los datos de la resistencia de la pulpa
(tabla 1.1) tenemos

Por lo tanto, podemos decir que 93% de la variacin observada en la resistencia es


explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin entre es descrita adecuadamente por una
lnea recta.

5.1.3 ESTIMACIN Y PREDICCIN POR INTERVALO EN


REGRESIN LINEAL

Una de las aplicaciones ms importantes en un anlisis de regresin es hacer


estimaciones de la respuesta media para un valor dado de X. En el caso particular
de la regresin lineal simple, sabemos que un estimador puntual de la respuesta
media lo da la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por intervalos


para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuacin:

60
ESTADISTICA INFERENCIAL I 30-11-2015

5.1.4 USO DE SOFTWARE ESTADSTICO


Excel
En la hoja de clculo de Excel se incluye la regresin lineal simple y mltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:

Generalmente Excel no trae instalado la herramienta de anlisis de datos esta debe


instalarse con la siguiente secuencia:
1.- En la hoja de clculo de Excel (pantalla principal) hacer clic con el puntero en el
smbolo del sistema localizado en el extremo superior izquierdo

2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)

61
ESTADISTICA INFERENCIAL I 30-11-2015

3.- De la ventana desplegada hacer clic en complementos

4.- De la ventana desplegada hacer clic en ir


5.- De esta ventana activar la casilla de herramientas para anlisis (palomearla) y dar clic en
aceptar. De esta manera hemos activado la opcin de anlisis de datos.

62
ESTADISTICA INFERENCIAL I 30-11-2015

5.2 REGRESIN LINEAL MLTIPLE


En muchas situaciones prcticas existen varias variables independientes que se
cree que influyen o estn relacionadas con una variable de respuesta Y, y por lo
tanto ser necesario tomar en cuenta si se quiere predecir o entender mejor el
comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de
electricidad en una casa habitacin tal vez sea necesario considerar el tipo de
residencia, el nmero de personas que la habitan, la temperatura promedio de la
zona, etctera.
Sea variables 1, 2, . independientes o regresoras, y sea Y una variable de
respuesta, entonces el modelo de regresin lineal mltiple con K variables
independientes es el polinomio de primer orden:

Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos


cuadrados aplicamos el siguiente sistema de ecuaciones normales:

63
ESTADISTICA INFERENCIAL I 30-11-2015

5.2.2 PRUEBAS DE HIPTESIS EN LA REGRESIN MLTIPLE


Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas
para regresin lineal simple, pero ahora son ms necesarias porque en regresin
mltiple tenemos ms parmetros en el modelo; sin embargo, por lo general es
necesario evaluar su verdadera contribucin a la explicacin de la respuesta.
Tambin requerimos de la suposicin de que los errores se distribuyen en forma
normal, independientes, con media cero y varianza.
La hiptesis global ms importante sobre un modelo de regresin mltiple consiste
en ver si la regresin es significativa. Esto se logra probando la siguiente hiptesis:

Aceptar significa que ningn trmino o variable en el modelo tiene una contribucin
significativa al explicar la variable de respuesta. Mientras que rechazar implica que
por lo menos un trmino en el modelo contribuye de manera significativa a explicar.
El procedimiento para probar esta hiptesis es una generalizacin del procedimiento
utilizado para probar la hiptesis equivalente en regresin lineal simple.

5.2.3 INTERVALOS DE CONFIANZA Y PREDICCIN EN REGRESIN


MLTIPLE

En los modelos de regresin mltiple con frecuencia es conveniente construir


estimaciones de intervalos de confianza para los coeficientes de regresin. Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual est dado por:

64
ESTADISTICA INFERENCIAL I 30-11-2015

Tambin es posible obtener un intervalo de confianza con respecto a la respuesta media en un


punto particular, digamos 10, 20, . est dado por:

5.2.4 USO DE SOFTWARE ESTADSTICO


Para capturar la tabla de datos para el anlisis de regresin lineal mltiple,
primeramente capturamos los datos en la hoja de clculo, posteriormente activamos
Datos seguido de Anlisis de datos y seleccionamos Regresin, y aceptar.

65
ESTADISTICA INFERENCIAL I 30-11-2015

En la ventana de captura se solicitar el rango de celdas donde se encuentran los


datos para la variable dependiente Rango Y de entrada y para la(s) variable(s)
regresora(s) Rango de entrada (para los datos de X1 y X2, se sombrean ambos
simultneamente con el ratn, en este caso a partir de la columna 2).

Activamos la casilla de rtulos, por default est indicado en una hoja nueva,
seleccionamos adems cualquiera de las opciones de residuos, grafica de
residuales, y curva de regresin ajustada y aceptar y tendremos el resultado.

66
ESTADISTICA INFERENCIAL I 30-11-2015

5.3 REGRESIN NO LINEAL


Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se habla
de regresin lineal simple.

Cuando las variables X y Y se relacionan segn una lnea curva, se habla de


regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin parablica,
exponencial, potencial etc.

Supongamos que al hacer la representacin grfica correspondiente la distribucin


bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin entre
las dos variables, pero desde luego, esa relacin no es lineal.

Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las
dos variables.

Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la


logartmica, la exponencial y la potencial.

67
ESTADISTICA INFERENCIAL I 30-11-2015

CONCLUSIN

La finalidad de la inferencia estadstica es obtener informacin sobre caractersticas


desconocidas de las poblaciones generalmente cuantificadas por parmetros a partir
de caractersticas conocidas de las muestras cuantificadas por estadsticos. Incluir
poblaciones o inmensos datos de individuos en la investigacin suele ser
impracticable, y por ello se suele trabajar con grupos pequeos generalizando los
resultados mediante las tcnicas de Estadstica Inferencia.

68
ESTADISTICA INFERENCIAL I 30-11-2015

FUENTES DE INFORMACIN
http://dta.utalca.cl/estadistica/ejercicios/interpretar/Metodos/propuesto%20NOPARAM.pdf

http://www.dm.uba.ar/materias/estadistica_Q/2010/2/C010%20Metodos%20no%20param%20(u
na%20muestra).pdf

http://www.ray-
design.com.mx/psicoparaest/index.php?option=com_content&view=article&id=247:prueba-
kolmogorov&catid=53:pruebasnopara&Itemid=62

https://es.wikipedia.org/wiki/Prueba_de_Anderson-Darling

http://estadistec.blogspot.mx/2011/11/equipo-8.html

https://www.academia.edu/9323239/PRUEBAS_DE_NORMALIDAD_NO_PARAMETRICAS

http://estadistec.blogspot.mx/2011/11/equipo-8.html

http://www.ub.edu/aplica_infor/spss/cap5-6.htm

http://html.rincondelvago.com/paquetes-estadisticos.html

http://www.uv.es/~montes/nau_gran/practiques_excel.pdf

http://probest.jimdo.com/temario/unidad-v/5-1-3-regresion-lineal-simple/

http://moodle2.unid.edu.mx/dts_cursos_mdl/lic/AE/EI/AM/10/Prueba_de_hipotesis.pdf

https://www.academia.edu/9699876/CONCEPTOS_UNIDAD_IV_2#signup/close

https://www.academia.edu/8137314/Estad%C3%ADstica_Inferencial_II#signup/close

http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/lecciones/capitulotres/ejem8_1
.html

http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/lecciones/capitulotres/ejem8_1
.html

http://www.vitutor.com/pro/2/a_14.html

http://www.tesoem.edu.mx/alumnos/cuadernillos/2010.031.pdf

69
ESTADISTICA INFERENCIAL I 30-11-2015

FORMULARIO

70
ESTADISTICA INFERENCIAL I 30-11-2015

GLOSARIO DE TRMINOS Y ABREVIACIONES

ANLISIS DE CONTINGENCIA.- Es el estudio que se realiza con las tablas de


contingencia y consiste en analizar el grado de asociacin o dependencia entre dos
variables cualitativas; para medir el grado de dependencia se utiliza el coeficiente
de contingencia. (Ver coeficiente de contingencia).

ANLISIS DE CORRELACIN.- Es el estudio que se realiza para medir la


intensidad o grado de la asociacin que existe entre variables numricas.

ANLISIS DE REGRESIN.- Es el estudio que se realiza con el propsito de hacer


predicciones. El objetivo es el desarrollo de un modelo estadstico que pueda ser
utilizado para predecir valores de una variable dependiente, basado en los valores
de la variable independiente.

ANLISIS DE VARIANZA.- Es un mtodo para comparar dos o ms medias (Ver


media) de n grupos analizando la varianza de los datos, tanto entre n grupos
como dentro de ellos.

AUTOCORRELACIN.- Se denomina as a la correlacin de una variable consigo


misma cuando se desfasa uno o ms periodos de tiempo. S determina calculando
el coeficiente de autocorrelacin.

BONDAD DE AJUSTE.- Es un indicador que permite discernir acerca de qu tan


buena es la ecuacin obtenida. Para determinar la bondad de un ajuste se utilizan
diferentes criterios en la regresin lineal. Unos se refieren a los residuales como son

71
ESTADISTICA INFERENCIAL I 30-11-2015

el valor de la sumatoria de residuales al cuadrado, la varianza, la desviacin


estndar del ajuste y el coeficiente de correlacin al cuadrado. Otro indicador de la
bondad de ajuste es el realizado mediante el test de bondad de ajuste utilizando la
prueba Ji-Cuadrada (X 2 ), Kolgomorov -Smirnov (K-S) entre otras.

CENSO.- Es una investigacin estadstica que consiste en el recuento de la


totalidad de los elementos que componen la poblacin por investigar. Es necesario
que se especifique el espacio y el tiempo al que se refiere el recuento.

CICLO.- (Ver variaciones o fluctuaciones cclicas).

CLASE MEDIANA.- En una tabla de datos agrupados, es la clase o intervalo al que


pertenece el valor de la mediana.

CLASE MODAL.- En una tabla de datos agrupados, es la clase o intervalo que tiene
la mayor frecuencia.

COEFICIENTE DE CONFIANZA.- Se representa por (1- ) y es la probabilidad de


que la hiptesis nula Ho no sea rechazada cuando de hecho es verdadera y debera
ser aceptada.

COEFICIENTE DE CONTINGENCIA Chi-Cuadrado.- Es un nmero que mide el


grado de asociacin o dependencia de las clasificaciones en una tabla de
contingencia (h x k).

COEFICIENTES DE REGRESIN.- Son los valores constantes de una ecuacin de


regresin lineal. En el modelo de regresin lineal siguiente los coeficientes son a y
b.

72
ESTADISTICA INFERENCIAL I 30-11-2015

CONTRASTE DE HIPTESIS.- Conocido tambin como dcima o prueba de


hiptesis, es el proceso estadstico que se sigue para la toma de decisiones a partir
de la informacin de la muestra. Comparando el valor del estadstico experimental
con el valor terico, se rechaza o acepta la hiptesis nula (H 0 ). Lo contrario a la
hiptesis nula se llama hiptesis alterna (H 1 ).

DATO.- Conocido tambin como informacin, es el valor de la variable asociada a


un elemento de una poblacin o una muestra.

DENSIDAD DE POBLACIN.- Es la medida ms tradicional y usada con mucha


frecuencia para expresar el nmero de habitantes por kilmetro cuadrado. Se
calcula dividiendo el nmero de habitantes de una zona por la superficie total que
tiene esa zona.

DIAGRAMA.- Es un dibujo o representacin grfica que sirve para representar un


objeto, indicar la relacin entre elementos o mostrar el valor de una magnitud.

DISTRIBUCIN NORMAL O CURVA NORMAL.- Llamada tambin como


distribucin de Gauss, es la distribucin de probabilidad ms utilizada en estadstica
y teora de probabilidad.

ENCUESTA.- Es un mtodo de recoleccin de datos. Es llevada a cabo


generalmente a travs de algn cuestionario que puede o no ser diligenciado por el
encuestado y/o encuestador.

73
ESTADISTICA INFERENCIAL I 30-11-2015

ESTADSTICA.- Es la ciencia que comprende una serie de mtodos y


procedimientos destinados a la recopilacin, tabulacin, procesamiento, anlisis e
interpretacin de datos cuantitativos y cualitativos. Un objetivo de la estadstica es
describir "la poblacin del estudio" en base a informacin obtenida de elementos
individuales. Se divide en dos ramas: Estadstica descriptiva y Estadstica
inferencial.

ESTADSTICA DESCRIPTIVA.- Rama de la ciencia estadstica que se encarga


desde la recopilacin, procesamiento y anlisis de la informacin siendo sus
conclusiones vlidas slo para el grupo analizado.

ESTADSTICA INFERENCIAL.- Rama de la ciencia estadstica que proporciona


mtodos y procedimientos que permiten obtener conclusiones para una poblacin
a partir del estudio de una o ms muestras representativas.

ESTADSTICO.- Conocido tambin como estadgrafo, es el valor calculado en base


a los datos que se obtienen sobre una muestra y por lo tanto es una estimacin de
los parmetros. Entre los ms usados se tiene la media muestral y la desviacin
estndar muestral.

EXACTITUD.- Es la cercana de una medicin al verdadero valor que se pretende


medir.

FUENTES DE DATOS.- Medios de donde procede la informacin. Los datos pueden


reunirse de diferentes fuentes de informacin ya existentes o pueden obtenerse
mediante censos, encuestas y estudios experimentales para conseguir nuevos
datos.

74
ESTADISTICA INFERENCIAL I 30-11-2015

GRADOS DE LIBERTAD.- En estadstica grados de libertad de un estadstico


calculado en base a n datos, se refiere al nmero de cantidades independientes
que se necesitan en su clculo, menos el nmero de restricciones que ligan a las
observaciones y el estadstico. Simblicamente se representa por gl.

HIPTESIS ESTADSTICA.- Es una afirmacin respecto a alguna caracterstica de


la poblacin en estudio que se formula para ser sometida a la denominada prueba
de hiptesis, para ser aceptada o rechazada.

NDICE.- Es la relacin expresada en porcentaje entre el precio, cantidad o valor de


un bien y servicio o conjunto de bienes y servicios, en un perodo de estudio y el
precio, cantidad o valor del mismo bien y servicio o conjunto de bienes y servicios
en el periodo de referencia o perodo base.

INFERENCIA ESTADSTICA.- Es una parte de la estadstica cuya finalidad es


obtener conclusiones respecto a la poblacin a partir de datos observados en
muestras. Es el proceso por medio del cual se hacen aseveraciones o estimaciones
de un todo, a partir de sus partes o elementos.

INTERVALO DE CONFIANZA.- Conocido tambin como lmites de confianza. Es


un rango de valores en el cual se encontrara el valor del parmetro, con una
probabilidad determinada.

75
ESTADISTICA INFERENCIAL I 30-11-2015

LMITE INFERIOR.- Es el menor valor de un intervalo de clase.

LMITE SUPERIOR.- Es el mayor valor de un intervalo de clase.

MEDIANA.- Es una medida de tendencia central. Es el valor que divide al conjunto


de datos ordenados, en aproximadamente dos partes: 50% de valores son inferiores
y otro 50% son superiores.

MODA.- Es una medida de tendencia central es el valor de la variable que tiene


mayor frecuencia absoluta, la que ms se repite es la nica medida de centralizacin
que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin
de ningn clculo.

MUESTRA.- Es un subconjunto representativo de la poblacin a partir del cual se


pretende realizar inferencias respecto a la poblacin de donde procede.

MUESTREO.- Es un conjunto de mtodos y procedimientos estadsticos destinados


a la seleccin de una o ms muestras es la tcnica seguida para elegir muestras.

NMERO NDICE.- Es aquella medida estadstica que permite estudiar los cambios
que se producen en una magnitud simple o compleja con respecto al tiempo o al
espacio.

76
ESTADISTICA INFERENCIAL I 30-11-2015

PARMETRO.- Es cualquier valor caracterstico de la poblacin. Ejemplo: la media


de la poblacin, la desviacin tpica de la poblacin.

PROBABILIDAD.- Es un nmero que se le asigna a un suceso como una medida


de su incertidumbre. Este nmero puede tomar valores entre cero y uno inclusive.

PROMEDIO.- Es cualquier medida de posicin de tendencia central.

PRUEBA DE HIPTESIS.- Es una tcnica que permite rechazar o aceptar la


hiptesis en base de la informacin proporcionada por la muestra.

PRUEBA JI-CUADRADO.- Es una prueba que permite contrastar si la hiptesis H


0 es coherente con los datos obtenidos en la muestra.

REGRESIN LINEAL.- La regresin ser lineal cuando la curva obtenida o


seleccionada sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene
mediante el mtodo de mnimos cuadrados.

TABLA DE CONTINGENCIA.- Es una tabla de doble entrada. Se representa


genricamente como (x i ; y j ; n ij ).

77
ESTADISTICA INFERENCIAL I 30-11-2015

UNIDAD ESTADSTICA.- Conocido tambin como unidad elemental. Es el


elemento o unidad base de la poblacin o de la muestra que permite obtener
informacin o datos referidos a ciertas caractersticas o variables, que nos interesan
para explicar un determinado fenmeno.

VARIABLE.- Es una caracterstica de la poblacin o de la muestra cuya medida


puede cambiar de valor.

VARIANZA.- Conocida tambin como variancia, es una medida de dispersin de la


informacin. Se obtiene como el promedio de los cuadrados de las desviaciones de
los valores de la variable respecto de su media aritmtica.

78
ESTADISTICA INFERENCIAL I 30-11-2015

ANEXOS (PROBLEMAS PROPUESTOS)


Ejercicio 1 Se realiza un experimento para determinar la duracin de vida de
ciertos circuitos electrnicos (Y) en funcin de dos variables de fabricacin (1) y (
2), con los siguientes resultados:

1. Ajustar un modelo de regresin lineal.


2. Calcular el coeficiente de determinacin y la varianza residual. Es el ajuste
adecuado?
3. Construir un intervalo de confianza al 90% para la prediccin en el punto (0, 0).

Ejercicio 2 Los datos de la tabla adjunta indican la gravedad especfica (1),


contenido de humedad (2) y fuerza (Y) de diez vigas de madera. Encontrar el
modelo de regresin que mejor se ajusta a estos datos.

79
ESTADISTICA INFERENCIAL I 30-11-2015

Ejercicio 3 La demanda de un tipo de impresoras ha cambiado debido a una rpida


variacin en el precio. Se ha observado la demanda (Y) en una amplia regin
geogrfica y el precio unitario (X) (en unidades de diez mil pesetas). Los resultados
son los de la tabla adjunta. Ajustar un polinomio de regresin a estos datos que
explique el comportamiento de la demanda.

Ejercicio 4 Los siguientes datos son las edades de una muestra de personas
seleccionadas entre los visitantes de un Bingo.

32, 23, 64, 31, 74, 44, 61, 33, 66, 73,

27, 65, 40, 54, 23, 43, 58, 87, 58, 62.

68, 89, 93, 24, 73, 42, 33, 63, 36, 48,

77, 75, 37, 59, 70, 61, 43, 68, 54, 29,

48, 81, 57, 97, 35, 58, 56, 58, 57, 45

Realiza un test Chi-cuadrado de bondad de ajuste para decidir si puede aceptarse


que las edades sigan una distribucin normal.

80
ESTADISTICA INFERENCIAL I 30-11-2015

Ejercicio 5 Comprobar si los datos siguientes, obtenidos con el generador de


nmeros aleatorios de SWP, apoyan la hiptesis de que el generador est bien
programado (generan valores de una distribucin U(0, 1)). Emplead cinco clases de
igual amplitud.

0.437 88, 0.773 48, 0.494 65, 0.319 8, 0.169 8, 0.672 27, 0.809 02, 0.515 59,

0.042 26, 0.182 82, 0.348 55, 0.307 36, 0.783 92, 0.323 71, 0.315 60, 3. 071 8102,

0.690 65, 0.607 36, 0.398 60, 2. 168 1102, 0.890 32, 0.983 29, 0.139 6, 0.226 39,

0.660 60, 0.742 93, 0.873 2, 0.519, 0.426 76, 0.734 85, 0.966 90, 0.771 51,

0.808 92, 0.798 18, 0.123 27, 0.556 45, 0.930 97, 0.254 07, 0.615 81, 0.296 01,

0.348 44, 5. 374 1102, 0.641 75, 0.520 51, 0.625 50, 0.675 22, 0.690 63, 0.353
67, 0.109 98, 0.636 73

Ejercicio 6 Los Estudiantes de una Escuela de Ingeniera proceden de Bachillerato


o de Formacin Profesional. Se desea saber si este hecho tiene influencia en que
el estudiante abandone sus estudios antes de 7 aos de cursar la carrera. Con este
objeto se ha realizado una encuesta sobre una muestra de ambos grupos de
alumnos, obtenindose los siguientes resultados:

Qu conclusin debe adoptarse al 95% de Confianza?

81
ESTADISTICA INFERENCIAL I 30-11-2015

Ejercicio 7 Se desea comparar la eficacia de dos equipos de trabajo que realizan


su labor en dos plantas diferentes. Para ello se ha considerado el nmero medio de
artculos por hora que se termina en cada planta en ciertos das elegidos
aleatoriamente. Las pruebas se han llevado a cabo durante 10 das, revisando cada
da el trabajo terminado por uno slo de los grupos. Los resultados obtenidos en
cada planta han sido.

Puede aceptarse que la eficacia de los equipos es similar al 95% de confianza?

82

S-ar putea să vă placă și