Sunteți pe pagina 1din 45

UNIVERSIDAD RAFAEL URDANETA

FACULTAD DE INGENIERÍA
ESCUELA DE INDUSTRIAL
CÁTEDRA: LABORATORIO DE ESTADÍSTICA AVANZADA
PROF. JUAN DIEGO HERNÁNDEZ LALINDE

Estudio Estadístico sobre el voltaje


medido de la zona norte y la zona sur
en Maracaibo

PROYECTO DE CÁTEDRA

Realizado por:
• Gómez Rivas, Claudio Sergio
C.I.:20.370.165
• Más y Rubí Márquez, Alberto
C.I.: 21.162.889
2

Maracaibo, abril de 2.010


3

ESTUDIO ESTADÍSTICO SOBRE EL VOLTAJE


MEDIDO DE LA ZONA NORTE Y LA ZONA
SUR EN MARACAIBO

Gómez Claudio Más y Rubí Alberto


C.I.: 20370165 C.I.: 21162889
Av. 3G con calle 62 Calle 19 con Av. 115
Residencias Santa Marta Urbanización el Pinar
Apto 3 - 4 Apto 3-F
Tlf: 04146896013 Tlf: 04264672080
Claudio.gomez.1991.s@gmail.com aj_m_789@hotmail.com

Tutor académico
4

ÍNDICE

RESUMEN
ABSTRACT
INTRODUCCIÓN
CAPÍTULO I: EL PROBLEMA
1. Planteamiento del problema
2. Objetivos de la investigación
2.1 General
2.2 Específicos
3. Justificación de la investigación
4. Delimitación de la investigación
CAPÍTULO II: MARCO TEÓRICO
1. Muestra piloto
2. Distribución normal
3. Statgraphics
4. SPSS
5. Excel
6. Inferencia estadística
CAPÍTULO III: MARCO METODOLÓGICO
1. Tabla de fundamentos metodológicos de la investigación realizada
2. Población
3. Muestra
CAPÍTULO IV: ANÁLISIS DE LOS RESULTADOS
4.1.Análisis de la distribución que siguen los datos
4.2. Tamaño adecuado de la muestra
4.3. Inferencia sobre el voltaje
CONCLUSIONES
ANEXOS
5

Gómez, Claudio – Más y Rubí, Alberto. (2010) Estudio estadístico sobre el


voltaje medido de la zona norte y la zona sur en Maracaibo
Trabajo de investigación de la cátedra laboratorio de estadística avanzada

RESUMEN

El problema planteado en esta investigación es la disminución de la calidad del


servicio eléctrico causado por fluctuaciones en el voltaje, que podría ocasionar
daños en dispositivos electrodomésticos, entre otros. El objetivo principal de este
trabajo es analizar el voltaje de la zona norte (ZN) y zona sur (ZS) en Maracaibo
para determinar la existencia de posibles fluctuaciones y su rango de valores.
Esta investigación es de tipo exploratoria porque el tema de investigación es
poco estudiado y sirve para establecer prioridades para investigaciones
posteriores. El diseño es no experimental porque no hubo manipulación de la
variable; y, documental, debido a que el proceso está basado en el análisis y la
interpretación de datos obtenidos por otros investigadores en fuentes
documentales. Para realizar este análisis, primero se debe realizar un estudio de
normalidad, para determinar si los datos siguen esta distribución. Luego se
determina el número de muestra adecuado con el uso del paquete estadístico
Statgraphics, para finalmente realizar una inferencia sobre los voltajes de la ZN y
de la ZS.

Palabras claves: Estadística, Distribución normal, Inferencia estadística,


Statgraphics, SPSS, Excel
6

ABSTRACT
The problem presented in this investigation is the decrease of the quality of the
electric service caused by voltage fluctuations that may derive in damage to
electro domestic devices and others. The main objective of this investigation is to
analyze the voltage in the south zone (SZ) and in the north zone (NZ) in
Maracaibo in order to determine the existence of possible fluctuations and its
range of values. The type of this research is exploratory because the subject of
investigation isn’t much studied and it serves to establish priorities for future
investigations. The design is “not experimental” because there wasn’t any
manipulation of the variable, and “documentary” because the process is based in
the analysis and interpretation of data obtained by other investigators in
documentary sources. To conduct this analysis, a normality study must be
conducted first to determine if the data follow this distribution. Then the sample is
calculated with the statistic package “Statgraphics” to finally execute an inference
about the voltages of the SZ and the NZ.
7

INTRODUCCIÓN

La presente investigación tiene como objetivo principal determinar si existe


fluctuación del voltaje entre la zona norte (ZN) y la zona sur (ZS), así como si
este suministro está ubicado fuera del intervalo de 100V a 120V.

En el capítulo 1 se plantean los problemas que se pueden generar producto de


un voltaje suministrado mayor a 120V o menor a 100V en alguna de las zonas.

En el capítulo 2 se definirán conceptos básicos para el claro entendimiento de la


investigación realizada.

En el capítulo 3 se especifica el tipo de investigación, el diseño de la


investigación y las fases de la metodología, para posteriormente analizar las
fases establecidas en el capítulo 4.
8

CAPÍTULO I
EL PROBLEMA

1. PLANTEAMIENTO DEL PROBLEMA


Los sistemas eléctricos están sujetos a una amplia variedad de problemas
de calidad de energía que pueden interrumpir el servicio de fluido eléctrico en la
comunidad y afectar equipos sensibles ocasionando paralizaciones, mal
funcionamiento y pérdidas. Las fluctuaciones momentáneas de voltaje pueden
impactar desastrosamente en la población originando todos los problemas
mencionados en el diagrama que se muestra en la figura 1.

Fluctuación
de voltaje
(Generalmente por se da por
pérdidas de capacidad)

Menor o mayor
intensidad
Estallamiento
de bombillos Daños a
equipos
Menor o mayor Mal funcionamiento
potencia de los equipos DISMINUCIÓN DE
LA CALIDAD DEL
SERVICIO DE FLUIDO
ELÉCTRICO DE LA
ZONA NORTE Y SUR
Funcionamiento ineficiente
de generadores
Costos excesivos DE LA CIUDAD
DE MCBO

Paradas no programadas

Ausencia de un programa de
Mantenimiento preventivo

Fig. 1. Diagrama causa – efecto del problema “Disminución de la calidad


del Servicio de fluido eléctrico en la zona Norte y Sur de la ciudad de
Maracaibo
9

En este proyecto de investigación se pretende estudiar:


• Si realmente “FLUCTUACIONES DEL VOLTAJE” se presenta en las
zonas investigadas de Maracaibo:
- Baja para la zona norte (ZN)
- Alta para la zona sur (ZS))
• Si el voltaje suministrado esta fuera del intervalo 100 V – 120 V

2. OBJETIVOS DE LA INVESTIGACIÓN

2.1. GENERAL
Analizar la tensión eléctrica de la ZN y ZS determinando la existencia de
fluctuaciones de voltaje y su rango de valores.

2.2. ESPECÍFICOS
- Comprobar mediante una muestra piloto que el comportamiento de los
datos siguen una distribución normal.
- Establecer el tamaño adecuado de la muestra con el uso del paquete
estadístico Statgraphics.
- Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido
utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS
(statistics Packaged for social science).

3. JUSTIFICACIÓN DE LA INVESTIGACIÓN
Con la realización de este proyecto se tendrá certeza en relación a la
existencia o no de fluctuaciones voltaje en la ZS y ZN, entonces será posible
tomar las medidas necesarias que permitan solventar los problemas de
ingeniería, diseño, mantenimiento o cualquier otro, que puedan estar originando
dicha falla.
Así mismo, el desarrollo de la investigación permitió adquirir destrezas y
habilidades en relación al manejo de dos paquetes importantes en la estadística,
10

como son el Statgraphics y el SPSS (aumentando el nivel de conocimientos


referidos al tratamiento estadístico de datos).

4. DELIMITACIÓN DE LA INVESTIGACIÓN

4.1. DELIMITACIÓN ESPACIAL


Los datos usados para realizar este estudio exploratorio fueron
recolectados en las zonas norte y sur de la ciudad de Maracaibo, estado Zulia.

4.2. DELIMITACIÓN TEMPORAL


El periodo de desarrollo del proyecto es de 2 semanas, comprendido en el
semestre 2010-A.

4.3. DELIMITACIÓN CIENTÍFICA


En el trabajo se comprueba mediante una muestra piloto que el
comportamiento de los datos sigue una distribución normal, para luego
establecer el tamaño adecuado de la muestra, finalizando con la inferencia de si
el voltaje de la ZS y ZN están dentro del intervalo preestablecido. Para el
desarrollo de los puntos fueron utilizados los paquetes estadísticos Statgraphics
y SPSS.
11

CAPÍTULO II
MARCO TEÓRICO

1. MUESTRA PILOTO
Cuando no es conveniente considerar todos los elementos de la
población, lo que se hace es estudiar una parte de esa población. Una parte de
la población se llama muestra.

La muestra siempre debe tener las mismas características del universo,


ya que es representativa de este.

Según:
“Se llama muestra a una parte de la población a estudiar que sirve para
presentarla”. Murria R. Spiegel(1991)
“Una muestra debe ser definida en base de la población determinada, y
las conclusiones que se obtengan de dicha muestra solo podrán referirse a la
población en referencia”. Cadenas (1974)
“Una muestra es la colección de algunos elementos de la población, pero
no de todos”. Levin & Rubin (1996)

2. DISTRIBUCIÓN NORMAL

“Sin lugar a dudas, la distribución mas utilizada para modelar


experimentos aleatorios es la distribución normal. Esta distribución puede
obtenerse al considerar el modelo básico de una variable aleatoria binomial
cuando el número de ensayos se vuelve cada vez más grande. Este fue el
enfoque original seguido por De Moivre en 1773. Desafortunadamente, su
trabajo se perdió por un tiempo, y Karl Gauss desarrollo, de manera
independiente, la distribución normal casi cien años después. Aunque más tarde
se dio crédito a De Moivre, la distribución normal también se conoce como
distribución Gaussiana”. Douglas C. Montgomery y George C. Runger. (1996)
12

3. STATGRAPHICS
“Statgraphics es un programa para gestionar y analizar valores
estadísticos.

Statgraphics tiene cuatro módulos principales: un editor estadístico


(StatReport) que prepara informes con datos variables; un asistente estadístico
(StatWizard) que sugiere los métodos más adecuados para recopilar y analizar
datos; y un enlace estadístico (StatLink) que enlaza el libro de análisis (Statfolio)
con la fuente de datos.

Statgraphics destaca especialmente por sus capacidades para la


representación gráfica de todo tipo de estadísticas y el desarrollo de
experimentos, previsiones y simulaciones en función del comportamiento de los
valores.
En definitiva, Statgraphics es una completa herramienta para el estudio, análisis
y aprendizaje de cualquier rama de la Estadística.”
Referencia proveniente de su página principal.

4. SPSS
“Es un programa estadístico informático muy usado en las ciencias
sociales y las empresas de investigación de mercado. En la actualidad, la sigla
se usa tanto para designar el programa estadístico como la empresa que lo
produce. Originalmente SPSS fue creado como el acrónimo de Statistical
Package for the Social Sciences ya que se está popularizando la idea de traducir
el acrónimo como "Statistical Product and Service Solutions". Sin embargo,
aunque realizando búsquedas por internet estas pueden llevar a la página web
de la empresa, dentro de la página misma de la empresa no se encuentra dicha
denominación. Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y
Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de
13

suNational Opinión Research Center estuvo a cargo del desarrollo, distribución y


venta del programa. A partir de 1975 corresponde a SPSS Inc.”
Información referencial de su página principal

5. MICROSOFT EXCEL

Microsoft Excel es un programa de hoja o planilla de cálculo. Al igual que


Microsoft Word, posee actualmente un mercado dominante. Fue originalmente el
más fuerte competidor del entonces popular Lotus 1-2-3, y en tercera posición
estuvo Quattro Pro; pero eventualmente Excel se vendió más, se popularizó y se
convirtió en el estándar de facto. Está disponible para plataformas Windows y
Mac.

Extensiones comunes: .xls (Excel 97-2003), .xlsx (Excel 2007-2010)

Información referida por parte de la página del proveedor

6. INFERENCIA ESTADÍSTICA
Consiste en tomar una muestra de alguna población que posea la mayor
cantidad de características de la misma, es decir, que sea representativa. Ya
que, si es representativa, se puede inferir correctamente sobre la población que
se va a estudiar.

Uno de los métodos utilizados para la inferencia estadística es la prueba


de hipótesis, que consiste en realizar una afirmación acerca de uno de los
parámetros desconocidos de la población que se va a estudiar.
14

CAPÍTULO III
MARCO METODOLÓGICO

1. TABLA DE FUNDAMENTOS METODOLÓGICOS DE LA INVESTIGACIÓN


REALIZADA
TIPO DE DISEÑO DE LA OBJETIVOS FASES DE LA TÉCNICAS DE
INVESTIGACIÓN INVESTIGACIÓN METODOLOGÍA RECOLECCIÓN
(ARIAS, 2006) (HERNANDEZ DE DATOS
SAMPIERI,
2006)
EXPLORATORIA NO Comprobar 1.- Introducción - Observación
Utilizada cuando EXPERIMENTAL mediante una de la muestra documental
se desea conocer No fue muestra piloto piloto aleatoria - Observación
un tema o manipulada la que el en el paquete indirecta
problema de variable comportamiento estadístico SPSS - Lectura
investigación de los datos 2.- Se analizaron evaluativa
poco estudiado o DOCUMENTAL siguen una los resultados
que no ha sido Proceso basado distribución arrojados
abordado antes en la búsqueda, normal determinándose
recuperación, si se sigue una
análisis, crítica e distribución
interpretación de normal
datos Establecer el 1.- Introducción - Observación
secundarios, es tamaño de la muestra documental
decir, los adecuado de la piloto aleatoria - Observación
obtenidos y muestra con el en el paquete indirecta
registrados por uso del paquete estadístico - Lectura
otros estadístico Statgraphics evaluativa
investigadores en Statgraphics 2.- Se estableció
fuentes el tamaño de la
documentales; muestra,
impresas, tomando en
audiovisuales o cuenta una
electrónicas. potencia de 80%.
Como en toda
investigación el
propósito de este Inferir si el voltaje 1.- Introducción - Observación
diseño es el de la ZS y ZN de la muestra documental
aporte de nuevos están dentro del obtenida en el - Observación
conocimientos intervalo paquete indirecta
preestablecido estadístico - Lectura
utilizando el Statgraphics. evaluativa
paquete 2.- Uso del
estadístico Statgraphics para
Statgraphics y el método de
paquete prueba de
estadístico hipótesis.
SPSS.
15

2. POBLACIÓN
Mediciones de los voltajes en la ZN y ZS

3. MUESTRA
Para el estudio de normalidad, la muestra fue aleatoria, cuyo tamaño fue
establecido por el profesor Hernández, siendo éste de 30 tensiones.

Para la aplicación del método de la prueba hipótesis, se estableció un


tamaño de muestra que satisfaga los requerimientos del estudio (potencia), con
el uso del paquete estadístico Statgraphics.
16

CAPÍTULO IV
ANÁLISIS DE LOS RESULTADOS

1. ANÁLISIS DE LA DISTRIBUCIÓN QUE SIGUEN LOS DATOS


La muestra aleatoria seleccionada de 30 datos se aprecia en la tabla 1 (obtenida
con Excel):
Dato
ZN ZS
1
111,23 101,6
2
120,68 114,45
3
92,83 97,34
4
146,06 121,24
5
123,59 134,1
6
100,29 129,71
7
135,64 134,26
8
103,4 106,47
9
99,97 129,01
10
125,58 102,84
11
127,1 104,99
12
71,82 125,01
13
71,82 94,55
14
79,03 145,33
15
70,49 115,32
16
102,56 112,06
17
92,08 149,98
18
121,79 114,45
19
59,48 77,99
20
97,51 108,87
21
108,91 123,64
22
125,58 72,61
23
118,38 125,59
24
129,35 145,29
25
98,04 132,76
26
100,83 118,39
27
98,04 99,49
28
79,03 163,12
29
118,69 126,35
30
106,34 107,75
TABLA 1
17

Esta muestra aleatoria se obtuvo con el uso del programa Excell. Con estos
datos y con la información proporcionada en la tabla 2, en los histogramas 1, 2,
3 y 4; y, en los diagramas 1 y 2, se comenzó el estudio de normalidad:

ESTADÍSTICOS

Puntua(Zo Puntua(Zo
ZonaN ZonaS naN) naS)
N Válidos 30 30 30 30
Perdidos 0 0 0 0
Media 104,5380 117,8187 ,0000000 ,0000000
Error típ. de la media 3,89482 3,68368 ,18257419 ,18257419
Mediana 102,9800 116,8550 -,0730331 -,0477623
Moda -
71,82(a) 114,45 -,16696
1,53370(a)
Desv. típ. 1,0000000 1,0000000
21,33279 20,17632
0 0
Asimetría -,265 -,052 -,265 -,052
Error típ. de asimetría ,427 ,427 ,427 ,427
Curtosis -,478 ,278 -,478 ,278
Error típ. de curtosis ,833 ,833 ,833 ,833
Mínimo 59,48 72,61 -2,11215 -2,24068
Máximo 146,06 163,12 1,94639 2,24527
Percentiles 2,5 -
59,4800 72,6100 -2,2406790
2,1121475
16 -
78,7416 99,4040 -,9126869
1,2092370
84 125,6408 134,7012 ,9892189 ,8367497
97,5 146,0600 163,1200 1,9463933 2,2452718
a Existen varias modas. Se mostrará el menor de los valores.

TABLA 2
18

ZonaN

6
Frecuencia

7
6 6
5

Media =104,54
1 1 1 Desviación típica =21,
333
N =30
0
50,00 75,00 100,00 125,00 150,00
ZonaN

HISTOGRAMA 1

Puntua(ZonaN)

6
Frecuencia

4 8
7

2
3 3 3
2 2 Media =2,36E-16
Desviación típica =1,
1 1 00000
N =30
0
-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000
Puntua(ZonaN)

HISTOGRAMA 2
19

ZonaS

6
Frecuencia

7
6
5

3 3 3
2
Media =117,82
1 Desviación típica =20,
176
N =30
0
75,00 100,00 125,00 150,00 175,00
ZonaS

HISTOGRAMA 3

Puntua(ZonaS)

4
Frecuencia

3 6 6

5 5

1 2 2
Media =-3,33E-16
1 1 1 1 Desviación típica =1,
00000
N =30
0
-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000 3,00000
Puntua(ZonaS)

HISTOGRAMA 4
20

-1

-2

-3

Puntua(ZonaN)

DIAGRAMA 1

-1

-2

-3

Puntua(ZonaS)

DIAGRAMA 2

Analizando primero los resultados de la ZN en la tabla 2, observamos que


en los valores tipificados, el promedio de los voltajes es igual a “0”, así como su
21

desviación estándar es “1”, arrojando indicios de que los datos siguen el


comportamiento de una distribución normal. El coeficiente de asimetría resulta
igual a -0,265; y la curtosis es -0,478; estos dos valores expresan que los datos
están sesgados hacia la izquierda (sesgo negativo) y con la curtosis, se aprecia
que la distribución es platicúrtica.
En el histograma 2 y en el diagrama 1, se aprecia que la mayoría de los
datos (95%) estan comprendidos entre los percentiles 2,5 y 97,5; esto se valida
ya que, tipificados, el percentil 2,5 es igual a –2,1121475 y el percentil 97,5 es
1,9463933; resultando prácticamente iguales al valor que deben tener esos
percentiles en una distribución normal, que son -2 y 2. Con respecto a los
percentiles 16 y 84, ambos resultan (tipificados) -1,2092370 y 0,9892189
respectivamente, valores que se aproximan al -1 y 1 que acumulan el 68% de
los datos (característica de una distribución normal).
Examinando los resultados de la ZS en la tabla 2, encontramos que el
promedio es igual a “0” y la desviación estándar es “1” (ambos valores
tipificados). En otro orden de ideas, el coeficiente de asimetría resulta -0,052 y la
curtosis es 0,278; por lo tanto, existe un sesgo negativo o hacia la izquierda
(pequeño), y la distribución presenta un comportamiento leptocúrtico.
Por otra parte, en el histograma 4 y en el diagrama 2 se observa que los
percentiles 2,5 y 97,5 (tipificados) resultan – 2,2406790 y 2,2452718
respectivamente, valores muy cercanos a – 2 y 2; y los percentiles 16 y 84
resultan – 0,9126869 y 0,8367497 respectivamente, valores que están muy
cerca de – 1 y 1.

Pruebas de normalidad

Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Puntua(ZonaN) ,108 30 ,200(*) ,972 30 ,585
Puntua(ZonaS) ,074 30 ,200(*) ,989 30 ,982
ZonaN ,108 30 ,200(*) ,972 30 ,585
ZonaS ,074 30 ,200(*) ,989 30 ,982
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
TABLA 3
22

En la tabla 3, observamos que el nivel de significancia de la prueba


arrojado con la prueba de Kolmogorov – Smirnov (con la corrección de la
significación de Lilliefors) es 0,200 y 0,200 en la ZN y la ZS respectivamente;
valores que superan el alfa establecido por el programa SPSS (0,05), entonces,
se acepta la hipótesis nula de que la distribución de los datos sigue una
distribución normal.
Además, con el nivel de significancia de Shapiro-Wilk (prueba que tiene
más robustez que las demás), se obtienen 0,585 y 0,982 para la ZN y la ZS
respectivamente. Ambos valores superan el alfa de 0,05; por tanto, no se
rechaza la hipótesis nula (que es la misma hipótesis que en la prueba
Kolmogorov- Smirnov)
Con todo lo expuesto anteriormente, se puede afirmar con veracidad que
los datos proporcionados siguen el comportamiento de una distribución normal.

2. TAMAÑO ADECUADO DE LA MUESTRA

Para el cálculo de la muestra adecuada tanto de la ZN como de la ZS, se


utilizó el paquete estadístico Statgraphics, colocándose lo siguiente:
• Parámetro a estimar: media normal
• Potencia deseada: 80%.
• Media hipotética: 110
• Alfa: 0,05
• Varianzas poblaciones conocidas

Insertando esto en el Statgraphics, obtenemos un tamaño de muestra


para ZN igual a 36, y de la ZS igual a 32. Resultados que se verifican al observar
la curva 1 (ZN) y la curva 2 (ZS) de potencia.
Con esta muestra calculada, se asegura que al tomar un valor aleatorio
del espacio muestral, éste va a estar contenido entre 100,0001V y 119,9999V.
De la misma forma se obtiene la muestra significativa si se desea inferir
sobre los voltajes de la ZN y la ZS, que resulta 58. Este valor se comprobó con
23

el uso de las curvas OC y con el uso de la fórmula para “n” de la hipótesis


alternativa unilateral.

Curva de Potencia
alfa = 0,05, sigma = 21,3328, n=36
1

0,8

Potencia (1 - beta) 0,6

0,4

0,2

0
95 100 105 110 115 120 125
Media Verdadera

CURVA 1 (ZN)

Curva de Potencia
alfa = 0,05, sigma = 20,1763, n=32
1

0,8
Potencia (1 - beta)

0,6

0,4

0,2

0
95 100 105 110 115 120 125
Media Verdadera

CURVA 2 (ZS)
24

Para saber si el voltaje de la ZS es mayor que el de la ZN, se realiza el


método de prueba de hipótesis en el Statgraphics, donde se planteará:
H 0 : µ ZN − µ ZS = 0
H 1 : µ ZN − µ ZS < 0

El resumen estadístico es el siguiente:


Norte Sur
Recuento 58 58
Promedio 109,349 120,218
Desviación Estándar 22,1534 21,4741

Coeficiente de Variación 20,2594% 17,8625%

Mínimo 61,93 70,62


Máximo 157,72 163,12
Rango 95,79 92,5
Sesgo Estandarizado -0,126744 -0,0170384

Curtosis Estandarizada -0,948562 -0,676767

El cual, al aplicársele la prueba de hipótesis arroja un valor P de


0,00419025; rechazando así la hipótesis nula, de manera que se afirma que el
voltaje de la zona sur es mayor que el de la zona norte.
Se debe aclarar que se asumieron varianzas iguales, debido a que al
realizar la prueba-F para comparar desviaciones estándar, se obtuvo lo
siguiente:
Norte Sur
Desviación Estándar 22,1534 21,4741

Varianza 490,775 461,136

Gl 57 57

Hipótesis Nula: sigma1 = sigma2


Hipótesis Alt.: sigma1 <> sigma2
F = 1,06427 valor-P = 0,814908
No se rechaza la hipótesis nula para alfa = 0,05.

Por lo tanto, es razonable asumir varianzas iguales.


25

En el siguiente histograma de frecuencia (histograma 5), diagrama de caja y


bigote (3) y gráfico cuantil-cuantil, se aprecian la distribución de los datos de la
ZN y de la ZS (obtenido con el Statgraphics), donde se puede visualizar que una
cantidad importante de los datos de voltaje de la ZS supera a los de la ZN:

Norte

29

19
frecuencia

11

21
50 70 90 110 130 150 170
Sur

HISTOGRAMA 5

Gráfico Caja y Bigotes

Norte

Sur

60 80 100 120 140 160 180

DIAGRAMA 3
26

Gráfico Cuantil-Cuantil

180

160

140

Sur
120

100

80

60
60 80 100 120 140 160 180
Norte
27

CONCLUSIONES

En un análisis estadístico, resulta de una gran ayuda que los datos provengan
de una distribución normal, porque permite una facilidad al momento de
encontrar parámetros especificados, así como para observar los histogramas,
diagrama de caja y bigote, entre otras herramientas gráficas. En la investigación
realizada, se realizó un estudio de normalidad tomando en como base los
valores tipificados de la media, desviación estándar, los percentiles 2,5; 16; 84 y
97,5; Prueba de Kolmogorov-Smirnov (con la corrección de Lilliefors) y la de
Shapiro Wilk.
El conjunto de datos estudiado pasó todas las pruebas y por lo tanto se
concluyó con suficiente evidencia que seguía una distribución normal, lo que
permitió el avance del estudio, llegando al cálculo de una muestra que tuviera un
nivel de tolerancia de 80% y cuyos valores estuvieran comprendidos entre
100,0001V y 199,9999V.
El cálculo se hizo con el Statgraphics, arrojando una muestra de 36 y 32
para la ZN y la ZS respectivamente; pero, como se deseaba realizar una prueba
de hipótesis entre ambas muestras, se tuvo que realizar un nuevo cálculo de
muestra adecuado (de nuevo con el Statgraphics), donde se obtuvo un valor de
58 datos.
Finalmente, se realizó la inferencia estadística para determinar qué voltaje
resultaba mayor. El resultado fue que el voltaje de la ZS es mayor que el de la
ZN, para obtener esto se utilizó de nuevo el paquete estadístico Statgraphics y el
método de prueba de hipótesis, donde la nula expresaba que la diferencia de
medias es igual a cero y la alternativa que era menor que cero, de manera que
al rechazarse la hipótesis nula (que ocurrió porque el valor P resultó menor que
el alfa de 0,05), se concluye que el voltaje en la ZS es mayor que el de la ZN.
28

ANEXOS

Anexado ejercicio exigido por el profesor Juan Hernández de Regresión


Lineal Múltiple de primer y segundo orden.
29

INTRODUCCIÓN

Las pruebas de aptitud para el trabajo se han usado como criterio de


admisión para determinar la factibilidad de una contratación en el ámbito laboral.
Con este propósito se ha definido una seria de pruebas capacitadas para
determinar que tan eficiente llegaría ser un personal cuando es contratado por
una empresa, en tal caso, podría hablarse de la aptitud como la capacidad de
una persona de adecuarse a una tarea, esto engloba tanto capacidades
cognoscitivas y procesos, como características emocionales y de personalidad.
Para ello, deben conocerse bien las características del trabajo a desempeñar, y
las de las personas que ha de realizarlo.
Por lo tanto, El presente trabajo tiene como apreciación dar a conocer con
certeza que prueba repercute mas sobre el individuo por medio de un método
estadístico conocido como lo es la Regresión Lineal múltiple de Primer y
Segundo Orden; esta nos conducirá a conocer cuan significativa es para el
individuo.
Además llevaremos a experimentación las pruebas estadísticas ya
mencionadas permitiéndonos así extender el propósito de esta investigación; En
otro orden de ideas, no solo conoceremos que pruebas son necesarias para
medir la calidad en base a la aptitud del personal sino que también darle el uso
adecuado al tema estadístico como herramientas eficaz para el desarrollo
personal.
30

Ejercicio

En muchas agencias gubernamentales y compañías privadas el problema


de identificar aquellos factores que son importantes para predecir la aptitud para
el trabajo de los aspirantes a obtener un empleo constituyen un proceso
continuo. El procedimiento usual es el de aplicar al solicitante un conjunto de
pruebas apropiadas y tomar la decisión de contratarlo o no con base en los
resultados de estas. El asunto clave es conocer a priori qué pruebas pueden
predecir la aptitud para el trabajo de una persona. Supóngase que el personal de
una compañía muy grande ha desarrollado cuatro pruebas para una
determinada clasificación con respecto al trabajo. Estas pruebas se aplicaron a
20 individuos que fueron contratados por la compañía. Después de un periodo
de dos años, cada uno de estos empleados se clasifica de acuerdo con su
aptitud para el trabajo. La puntuación para la aptitud hacia el trabajo Y y la
correspondiente a cada una de las cuatro pruebas X1, X2, X3, X4 se dan en la
tabla:

Y X1 X2 X3 X4
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 102 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 108 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74
31

a) Ajuste un modelo de regresión lineal múltiple de primer orden

Para realizar el ajuste de un modelo de regresión lineal múltiple de primer


orden, primero debemos definir ciertos aspectos:

El modelo de regresión lineal múltiple con “k” regresores está definido


como:

Y = β0 + β1 x1 + β2 x 2 + ... + βk x k + ε

Donde los parámetros βj , j = 0,1,2..., k se conocen como coeficientes de


regresión.

Por lo tanto, el modelo de regresión lineal múltiple del ejercicio es:

Y = β0 + β1 x1 + β2 x 2 + β3 x3 + β4 x 4 + ε

Para la obtención de los betas, utilizamos el siguiente sistema de


ecuaciones:
n n n n n
1 → nβˆ0 + βˆ1 ∑ xi1 + βˆ 2 ∑ xi 2 + βˆ3 ∑ xi 3 + βˆ 4 ∑ xi 4 = ∑ y i
i =1 i =1 i =1 i =1 i =1
n n n n n n
2 → βˆ 0 ∑ xi1 + βˆ1 ∑ xi21 + βˆ 2 ∑ xi1 .xi 2 + βˆ3 ∑ xi1 xi 3 + βˆ 4 ∑ xi1 xi 4 = ∑ y i xi1
i =1 i =1 i =1 i =1 i =1 i =1
n n n n n n
3 → βˆ 0 ∑ xi 2 + βˆ1 ∑ xi 2 xi1 + βˆ 2 ∑ xi22 + βˆ3 ∑ xi 2 xi 3 + βˆ 4 ∑ xi 2 xi 4 = ∑ y i xi 2
i =1 i =1 i =1 i =1 i =1 i =1
n n n n n n
4 → βˆ 0 ∑ xi 3 + βˆ1 ∑ xi 3 xi1 + βˆ 2 ∑ xi 3 .xi 2 + βˆ3 ∑ xi23 + βˆ 4 ∑ xi 3 xi 4 = ∑ y i xi 3
i =1 i =1 i =1 i =1 i =1 i =1
n n n n n n
5 → βˆ 0 ∑ xi 4 + βˆ1 ∑ xi 4 xi1 + βˆ 2 ∑ xi 4 .xi 2 + βˆ3 ∑ xi 4 xi 3 + βˆ 4 ∑ xi24 = ∑ y i xi 4
i =1 i =1 i =1 i =1 i =1 i =1
32

Hallando todos los coeficientes de beta:

n = 20 n n

n ∑x i1 = 2284 ∑x i2 = 2163
∑x i1 = 2284 i =1
n
i =1
n
∑x
i =1
= 261292 ∑x
2
n i1 i2 xi1 = 247092
∑ xi 2 = 2163 i =1
n
i =1
n
∑ xi1 xi 2 = 247092
i =1
n ∑x 2
i2 = 237965
∑x
i =1
i3 = 2010 i =1
n
i =1
n
n ∑x i1 xi 3 = 229422 ∑x i2 xi 3 = 218580
∑ xi 4 = 1912
i =1
i =1
n
i =1
n
n ∑x i1 xi 4 = 218256 ∑x i2 xi 4 = 207894
∑y
i =1
i = 1853 i =1
n
i =1
n
∑ yi xi1 = 211605
i =1
∑y x i i2 = 203005
i =1

n n
∑x
i =1
i3 = 2010 ∑x i4 = 1912
i =1
n n
∑x
i =1
i3 xi1 = 229422 ∑x i4 xi1 = 218256
i =1
n n
∑ xi 3 xi 2 = 218580
i =1
∑x i4 xi 2 = 207894
i =1
n n
∑x
i =1
2
i3 = 203338 ∑x i4 xi 3 = 193440
i =1
n n
∑x
i =1
i3 xi 4 = 193440 ∑x 2
i4 = 184904
i =1
n n
∑ yi xi3 = 188994
i =1
∑y x i i4 = 180553
i =1
1

5
2

4

2
0

2
2
8
4

2
1
6
3

2
0
1
0
ˆ


1
9
1
2
ˆ
ˆ
0

ˆ
0
+
ˆ

0
+
2
4
7
0
9
2
+
2
2
9
4
2
2
2
2
8
4

+
2
1
8
2
5
6
+2
6
1
2
9
2
ˆ β
β
β
Resolviendo este sistema de ecuaciones se obtiene:
βˆ 0 = −175 .88439507
βˆ1 = 0.4910803256 59
βˆ 2 = 0.0201810425 323
βˆ3 = 1.3021711275 8
βˆ 4 = 0.8305674038 5
0

Con los coeficientes de regresión, obtenemos finalmente el modelo de


regresión lineal múltiple, que es:

Y = −175 .884 + 0.491 x1 + 0.02 x 2 +1.302 x3 + 0.831 x 4


33

Sustituyendo en el sistema de ecuaciones anterior, tenemos lo siguiente:

Estos resultados también se justifican con el análisis de regresión en el


SPSS, donde se obtienen unos valores de beta prácticamente iguales a los que
se obtuvieron resolviendo las matrices; estos valores de beta son:

Coeficientes(a)

Coeficientes no
Modelo estandarizados
Error
B típ.
1 (Consta -
48.610
nte) 175.884
X1 .491 .359
X2 .020 .140
X3 1.302 .350
X4 .831 .253
b) Realice un análisis completo de residuales. Emita conclusiones:

Utilizaremos varios aspectos:


34

 El coeficiente de Durbin-Watson es 1.744, lo cual indica que no existe


correlación entre los residuos, ya que su valor es aproximadamente 2
(ver anexo 1).

 En el siguiente histograma, observamos como el residuo tipificado


sigue una distribución normal, esto se demuestra porque su media es
1.14 ×10 −15 ≈ 0 (aproximadamente 0), y su desviación estándar es
0.889 (aproximadamente 1), los datos poseen una sola moda, su
curva presenta una forma leptocúrtica, además, el 68% de los datos
están contenidos entre -1 y 1, así como el 95% se encuentran entre -2
y 2.

 En el siguiente grafico de dispersión se observa un solo valor atípico


(encerrado en un cuadrado azul), mientras que la mayoría de los datos
35

se encuentran dentro de -2 y 2, siendo estos los percentiles 2,5% y


97,5%.

c) Interprete las estimaciones de β3 y β2

Los valores de los coeficientes de regresión son 1,302 y 0,02


respectivamente.

El valor de β3 representa el coeficiente mayor, esto quiere decir que su


impacto en la variable dependiente Y (o variable aleatoria) es el más grande
entre todas las demás variables independientes, ya que, por ejemplo, al
introducir los siguientes valores:
x1 =1
x 2 =1
x3 = 1
x 4 =1
36

Al multiplicar cada uno de estos valores por sus respectivos betas,


obtenemos el siguiente impacto sobre la variable dependiente Y:

β1 x1 = 0.491 ×1 = 0,491
β2 x 2 = 0,02 ×1 = 0,02
β3 x3 = 1,302 ×1 = 1,302
β4 x 4 = 0,831 ×1 = 0,831

Por lo tanto se puede observar claramente que el coeficiente de regresión


β3 es el que afecta mas el valor que se obtenga de la variable Y. Por otra

parte, se puede visualizar que el valor de β2 es el que tiene menos impacto


en la aptitud hacia el trabajo.

d) ¿Qué proporción de la variación observada en la aptitud se puede


explicar con la relación del modelo?

El valor de R2 o coeficiente de determinación es igual a “0.854”


representando un 85.4%, es decir que el 85.4% de los datos son tomados en
cuenta por la recta o explicado de otra forma, el modelo de regresión es
adecuado, porque el valor de R2 se encuentra por encima del 75%.

e) ¿El modelo elegido especifica una relación lineal útil entre la aptitud
y al menos uno de las cuatro pruebas?

A través de la siguiente tabla, se explicara la relación que existe o no entre la


aptitud y alguna de las cuatro pruebas.

Correlaciones

Y X1 X2 X3 X4
Y Correlación de 1 -.004 .479(*) .886(**) .865(**)
37

Pearson
Sig. (bilateral) .986 .033 .000 .000
N 20 20 20 20 20
X1 Correlación de
-.004 1 .057 -.153 -.096
Pearson
Sig. (bilateral) .986 .812 .519 .688
N 20 20 20 20 20
X2 Correlación de
.479(*) .057 1 .517(*) .380
Pearson
Sig. (bilateral) .033 .812 .020 .098
N 20 20 20 20 20
X3 Correlación de
.886(**) -.153 .517(*) 1 .764(**)
Pearson
Sig. (bilateral) .000 .519 .020 .000
N 20 20 20 20 20
X4 Correlación de
.865(**) -.096 .380 .764(**) 1
Pearson
Sig. (bilateral) .000 .688 .098 .000
N 20 20 20 20 20
* La correlación es significante al nivel 0,05 (bilateral).
** La correlación es significativa al nivel 0,01 (bilateral).

En negrita se observan los datos necesarios para establecer la existencia de una


correlación entre las variables (aptitud con las pruebas), estas correlaciones son:

 Y con x1: Entre estas dos variables no hay correlación lineal, esto se
demuestra porque su coeficiente de correlación de Pearson es “-
0.004”, que es aproximadamente “0”, además, el valor “P”
(significancia estadística) es 0.986, superando al alfa utilizado (0.05),
aceptando así la hipótesis nula de que el valor de R (coeficiente de
correlación muestral o de Pearson) es igual a “0”, por lo tanto, se
apoya lo anteriormente dicho. En el grafico de dispersión se observara
38

claramente en el recuadro azul como no hay una correlación lineal


entre las variables “Y” y “x1”.

 Y con x2: Entre estas dos variables sucede una pequeña confusión ya
que el coeficiente de correlación de Pearson es “0.479” valor que se
encuentra exactamente en la mitad ( entre el intervalo de 0 a 1 , donde
0 significa que no hay correlación, mientras que 1 expresa que están
perfectamente correlacionados) , por otra parte, el valor P estimado es
igual a “0.033”, siendo este valor menor que el alfa utilizado para la
prueba, rechazándose así la hipótesis nula la cual plantea que no hay
correlación entre dichas variables. En conclusión y tomando en cuenta
el grafico de dispersión no se puede afirmar totalmente que existe una
correlación pero se puede observar que los datos expresan una
relación medianamente lineal.

 Y con x3: Entre estas dos variables existe una completa correlación
lineal. Esto se puede demostrar ya que el coeficiente de correlación de
Persson es igual a “0.886”, el cual es un valor muy cercano a “1”. A su
vez, el valor de significancia estadística (P) es igual a 0, donde
claramente se observa que es menor al alfa utilizado. Finalmente en el
grafico de dispersión se apoya estas suposiciones.

 Y con x4: Entre estas dos variables existe una completa correlación
lineal entre las dos variables. Esto se puede demostrar ya que el
coeficiente de correlación de Pearson es igual a “0.865”, el cual es un
valor muy cercano a “1”. A su vez, el valor de significancia estadística
(P) es igual a 0, donde claramente se observa que es menor al alfa
utilizado. Finalmente en el grafico de dispersión se apoya estas
suposiciones.
39

f) ¿Si la puntuación de la prueba 3 permanece en el modelo se justifica


la eliminación de la puntuación de la prueba 1 como predictor?
Justifique su respuesta

Si, porque la correlación entre la prueba 1 (x1) y la aptitud para el trabajo


(variable dependiente Y) es nula; esto se demuestra porque su coeficiente de
Pearson resulta igual a -0.004, valor muy cercano a “0”; y su valor de
significancia es 0.986, siendo este superior al alfa de 0.05, reflejándose así una
aceptación de la hipótesis nula, donde se plantea que no existe correlación entre
las variables.

En cambio, la prueba 3 (x3) es la que mayor impacto tiene sobre la aptitud


para el trabajo, todo esto se explica con mayor extensión en el punto anterior.

g) Ajuste un modelo de regresión lineal múltiple de segundo orden.


Dedúzcase la mejor ecuación de predicción y empléese para estimar
la aptitud para el trabajo de un individuo que tiene las siguientes
puntuaciones, en las pruebas: x1=105, x2=110, x3=99 y x4=107.

Un modelo de regresión lineal múltiple de segundo orden debe contener


todas las posibles combinaciones entre las variables independientes
(combinaciones expresadas como multiplicaciones).

Entonces, el modelo de segundo orden para este ejercicio debe ser:

Y = β0 + β1 x1 + β 2 x 2 + β3 x3 + β4 x 4 + β5 x12 + β6 x 22 + β7 x32 + β8 x 42 + β9 x1 x 2 + β10 x1 x3


+ β11 x1 x 4 + β12 x 2 x3 + β13 x 2 x 4 + β14 x3 x 4

En el programa SPSS observamos como se eliminan o excluyen un gran


numero de variables; esto se debe a que su nivel de significancia supera al
40

alfa establecido por el programa (0.05), además cabe destacar que la adición
de una variable sin importancia puede aumentar el error cuadrático medio, lo
que constituye un indicador de que tal variable disminuye la calidad con la
que el modelo ajusta los datos (ver el siguiente cuadro).

Variables excluidas (b)

Estadísticos
Beta de
Modelo dentro t Sig. colinealidad
Toleranci Toleran Toleran
a cia cia Tolerancia
1 X1 .101(a) 1.227 .237 .988
X2 .069(a) .735 .473 .795
X3 .172(a) .814 .427 .158
X4 -.332(a) -1.192 .250 .087
X1
.105(a) 1.272 .221 .987
X1
41

X2
.081(a) .868 .398 .799
X2
X3
.189(a) .914 .373 .163
X3
X4
-.259(a) -.925 .368 .089
X4
X1
.099(a) 1.094 .289 .838
X2
X1
.224(a) 1.600 .128 .325
X3
X1
.040(a) .216 .831 .216
X4
X2
.115(a) .972 .345 .494
X3
X2
.078(a) .542 .595 .347
X4
a Variables predictoras en el modelo: (Constante), X3X4
b Variable dependiente: Y
También podemos visualizar en la siguiente tabla, que la única variable
que forma parte de este nuevo modelo de regresión lineal múltiple de segundo
orden es X3X4, porque su nivel de significancia (p) resulto igual a “0”,
rechazando así la hipótesis nula de que no existe correlación entre ella y la
variable dependiente:

Coeficientes(a)

Coeficient
es
Coeficientes no estandariz
estandarizados ados
Model Error
o B típ. Beta t Sig.
1 (Constant
-10.736 9.334 -1.150 .265
e)
X3X4 .011 .001 .936 11.242 .000
42

a Variable dependiente: Y

El modelo de regresión lineal de segundo orden seria entonces:

Y = −10 .736 + 0.011 x3 x 4

Como x1 y x2 no aparecen en el modelo, se utilizan únicamente los valores


de, x3=99 y x4=107, y, sustituyendo resulta:

Y = −10 .736 + 0.011 ×(99 ) ×(107 )


Y =105 .787

h) Emita conclusiones para ambos modelos. ¿Cuál seleccionaría y por


que?

Para escoger el modelo mas adecuado debemos comparar diferentes


aspectos:

Modelo de primer orden Modelo de segundo orden


R2 0.854 0.868
Coeficiente
de Durbin 1.744 1.62
Watson
Gráficos de Y X1 X2 X3 X4

dispersión Y X3X4

X3X4
43

Correlacion
es entre la
variable
dependiente
y las demás
variables
Valor del
estadístico
de prueba F F = 28.768 F = 126.375
(en
ANOVA)

Región F > 3.06 F > 4.41


critica

Con respecto al valor del coeficiente de determinación (R 2), se observa


claramente que aunque la diferencia entre ambos es pequeña, el coeficiente en
el modelo de segundo orden es mayor, explicándose así un 1.4% mas la
varianza por la recta de regresión. El coeficiente de Durbin-Watson es mas
cercano a 2 en el modelo de primer orden, por lo tanto, en el primer modelo, se
infiere que hay menos correlación entre los residuales.

En los gráficos de dispersión se observa como en el modelo de segundo


orden existe una clara relación lineal y directa con respecto a la aptitud para el
trabajo y la variable x3x4, en cambio, en el modelo de primer orden solo se
observa correlación entre la variable dependiente “Y” y las variables
independientes x2, x3 y x4, mientras que la variable x1 no tiene correlación con la
dependiente; esto afecta la exactitud que se espera obtener del modelo, ya que
se esta empleando una prueba que no tiene relación directa con la aptitud para
44

el trabajo. Esta afirmación se soporta al observar las tablas que poseen el


coeficiente de correlación de Pearson y la significancia estadística, donde se
evidencia que la variable x1 no tiene relación con “Y”, y que la correlación de
Pearson de valor mayor se encuentra en la variable independiente perteneciente
al modelo de segundo orden.

Finalmente, al realizar la prueba de análisis de varianzas, obteniendo el


valor del estadístico “F” y generando la región critica, observamos que, a pesar
de que ambos modelos se encuentran dentro de esta zona (rechazando así la
hipótesis nula de que no hay correlación), el modelo de segundo orden se
encuentra mucho más alejado del punto crítico.

Al momento de tomar la decisión de elegir uno de los modelos, la


evidencia indica que el segundo modelo expresa no solamente una mejor
adecuación, si no que se observa una correlación mayor entre la variable
independiente y la variable dependiente, siendo la correlación uno de los puntos
mas importantes al momento de generar un modelo de regresión.
45

CONCLUSIONES
Un modelo de regresión lineal sea simple o múltiple permite establecer
una relación lineal entre dos variables (en caso de ser regresión lineal simple) ó
3 ó mas variables (en caso de ser regresión lineal múltiple), donde en el modelo
existe un variable dependiente y el resto deben ser variable independientes.
En el ejercicio planteado se observa cómo la correlación entre variables
depende del coeficiente de correlación de Pearson (R), y del valor de
significancia (P), donde el valor R vale 1 si las variables están perfectamente
correlacionadas y 0 si no hay correlación entre ellas; y P plantea la hipótesis
nula de que R es igual a “0”, por lo tanto al ser menor al alfa de 0,05; se
rechazará está hipótesis, estableciendo correlación entre las variables.
En el modelo de regresión lineal múltiple de segundo orden ocurre
generalmente la eliminación o exclusión de variables independientes por no
tener correlación con la variable dependiente o por aumentar la suma de
cuadrados de los errores.
Se debe recordar que R2 (coeficiente de determinación) no mide cuan
apropiado resulta ser el modelo, si no que establece que porcentaje de la
varianza es explicado por la recta de regresión.

S-ar putea să vă placă și