Materia

INSTITUTO TECNOLÓGICO SUPERIOR
DE SAN ANDRÉS TUXTLA
Materia
Probabilidad y Estadistica
Profesor
Tonatiuh Sosme Sanchez
Tema
Regresión y Correlación
Alumnos
Miguel Isidro Martínez Maciel
Grupo
202-A
Carrera
Ing. Electromecánica
Entrega 11 junio 2018
Índice
5.1 Control de calidad. 3, 9
5.2 Diagrama de dispersión 10, 11
5.3 Regresión lineal simple 12
5.4 Correlación 13, 15
5.5 Determinación y análisis de los coeficientes de correlación y de
determinación. 16
5.6 Distribución normal bidimensional 17, 20
5.7 Intervalos de confianza y pruebas para el coeficiente de
correlación. 21
5.8 Errores de medición. 22
Bibliografía. 23
INTRODUCCION
Regresión y Correlación lineal múltiple es el décimo fascículo, de una

serie de guías de estudio en las que se desarrollan los temas de los
programas de las asignaturas del área de Probabilidad y
Estadística, así como temas selectos que complementan el
aprendizaje de de esta disciplina. Tienen la característica de que
el estudiante adquiera sólo aquella que trate el tema que necesite
reforzar o el que sea de su propio interés.
Miguel Isidro Martínez Maciel Página 3

Control de calidad.
Control de calidad
El uso de la estadística inferencial tiene grandes ventajas, al utilizar únicamente una
muestra representativa, en lugar de un censo, se puede recolectar información de una
manera ágil, sencilla y más económica. Además en algunas ocasiones, las
estimaciones obtenidas de la muestra son más precisas que la información obtenida de
una población, lo anterior se atribuye a los errores que frecuentemente se cometen en
la elaboración de un censo. Ya que por la utilización de las muestras simplifican los
datos de la población.
La estadística inferencial se utiliza para obtener conclusiones que sobrepasan los

límites del conocimiento aportado por los datos, busca tener información de un
colectivo mediante un metódico procesamiento del manejo de datos de la muestra.
El mejoramiento incesante de la calidad de bienes y servicios es un asunto que emplea
una metodología que hace uso de herramientas tradicionales y se enriquece con
nuevas técnicas cada día. Las 7 herramientas básicas de la calidad constituyen un
conjunto de instrumentos para la recopilación sistemática de datos y el análisis de
resultados. Fueron desarrolladas en Japón, por el profesor Ishikawa, para hacer más
eficaz la solución de los problemas por parte de todos los trabajadores. Estas
herramientas son: histograma, diagrama de dispersión, estratificación, hoja de control,
Diagrama de Pareto, gráficos de control, diagrama causa-efecto. La combinación de
éstas proporciona una metodología práctica y sencilla para:
* Solución efectiva de problemas,
* Mejoramiento de procesos
* Establecimiento de controles en las operaciones del proceso
Las 7 herramientas
1. Hoja de control (Hoja de recogida de datos).

2. Histograma.
3. Diagrama de Pareto.
4. Diagrama de causa efecto.
5. Estratificación (Análisis por Estratificación).
6. Diagrama de Scadter (Diagrama de Dispersión).
HOJA DE CONTROL
Definición
Formato para colectar datos.
Las hojas de control o también llamadas hojas de registro o recogida de datos son
formas estructuradas que facilitan la recopilación de información, previamente

diseñadas con base en las necesidades y características de los datos que se requieren
para medir y evaluar uno o varios procesos. Las Hojas de Recogida de Datos son
impresos que se utilizan para reunir datos que, en general, se anotan de forma tabular
o en columnas. Normalmente requieren de un proceso adicional, una vez recogidos los
datos, utilizando una herramienta de análisis de los mismos. Se puede afirmar que las
hojas de control son las herramientas bases para la recolección y análisis de datos, que
permiten realizar seguimientos en el proceso de resolución de problemas.
Objetivos principales
* Facilitar la recolección de datos.
* Organizar automáticamente los datos de manera que puedan usarse con facilidad
más adelante.
* Son el punto de partida para la elaboración de otras herramientas, como por

ejemplo los Gráficos de Control.
HISTOGRAMA
Definición
El histograma es un tipo especial de gráfico de barras que se puede utilizar para

comunicar información sobre las variaciones de un proceso y/o tomar decisiones
enfocándose en los esfuerzos de mejora que se han realizado. Un histograma es una
representación gráfica de una variable en forma de barras. Comúnmente las
estadísticas por si mismas no proporcionan una imagen completa e informativa del
desempeño de un proceso. El histograma, siendo un gráfico de barras especial, se
utiliza para mostrar las variaciones cuando se proporcionan datos continuos como
tiempo, peso, tamaño, temperatura, frecuencia, etc. El histograma permite reconocer y
analizar patrones de comportamiento en la información que no son aparentes a primera
vista al calcular un porcentaje o la media.
Proceso para la elaboración de un histograma
1. Determinar el rango de los datos. Rango es igual al dato mayor menos el dato
menor.
2. Obtener todos los números de clases, existen varios criterios para determinar el
número de clases (o barras). Por ejemplo, la regla de Sturgess. Sin embargo, ninguno
de ellos es exacto. Algunos autores recomiendan de cinco a quince clases,
dependiendo de cómo estén los datos y cuántos sean. Un criterio usado
frecuentemente es que el número de clases debe ser aproximadamente a la raíz
cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de
artículos) es mayor que cinco, por lo que se seleccionan seis clases.

3. Establecer la longitud de clase: es igual al rango dividido por el número de clases.
4. Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los
datos en relación al resultado del PASO 2 en intervalos iguales.
5. Graficar el histograma: En caso de que las clases sean todas de la misma

amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de
clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base
superior de los rectángulos se obtiene el polígono de frecuencias
DIAGRAMA DE PARETO
Definición
El diagrama de Pareto es una herramienta de análisis que ayuda a tomar decisiones en

función de prioridades, el diagrama se basa en el principio enunciado por Vilfredo
Pareto que dice:
"El 80% de los problemas se pueden solucionar, si se eliminan el 20% de las causas
que los originan".
En otras palabras: un 20% de los errores vitales, causan el 80% de los problemas, o lo
que es lo mismo: en el origen de un problema, siempre se encuentran un 20% de
causas vitales y un 80% de triviales. Es por lo enunciado en los párrafos anteriores que
al Diagrama de Pareto también se le conoce también como regla 80 - 20 o también por"
muchos triviales y pocos vitales" o por la curva C-A-B.
El Diagrama de Pareto es una gráfica en donde se organizan diversas clasificaciones

de datos por orden descendente, de izquierda a derecha por medio de barras sencillas
después de haber reunido los datos para calificar las causas. De modo que se pueda
asignar un orden de prioridades.
Usos
* Conocer cuál es el factor o factores más importantes en un problema.

* Determinar las causas raíz del problema.
* Decidir el objetivo de mejora y los elementos que se deben mejorar.
* Conocer se ha conseguido el efecto deseado (por comparación con los Paretos
iniciales)
Proceso para la elaboración de un diagrama de Pareto
1. Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el

periodo de tiempo).

2. Reunir datos. La utilización de un Check List puede ser de mucha ayuda en este
paso.
3. Ordenar los datos de la mayor categoría a la menor
4. Totalizar los datos para todas las categorías.
5. Calcular el porcentaje del total que cada categoría representa.
6. Trazar los ejes horizontales (x) y verticales (y primario - y secundario).
7. Trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, según se
calculó anteriormente).
8. De izquierda a derecha trazar las barras para cada categoría en orden
descendente. Si existe una categoría “otros”, debe ser colocada al final, sin importar su
valor. Es decir, que no debe tenerse en cuenta al momento de ordenar de mayor a
menor la frecuencia de las categorías.
9. Trazar la escala del eje vertical derecho para el porcentaje acumulativo,
comenzando por el 0 y hasta el 100%
10. Trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte

superior de la barra de la primera categoría (la más alta).
11. Dar un título al gráfico, agregar las fechas de cuando los datos fueron reunidos y
citar la fuente de los datos.
12. Analizar la gráfica para determinar los “pocos vitales”
DIAGRAMA DE CAUSA Y EFECTO
Definición
El diagrama de Ishikawa, también llamado diagrama de espina de pescado, diagrama

de causa-efecto, diagrama de Grandal o diagrama causal, es una representación
gráfica que muestra la relación cualitativa e hipotética de los diversos factores que
pueden contribuirá un efecto o fenómeno determinado.
Características
* Impacto visual: Muestra las interrelaciones entre un efecto y sus posibles causas
de forma ordenada, clara, precisa y de un solo golpe de vista.
* Capacidad de comunicación: Muestra las posibles interrelaciones causa-efecto

permitiendo una mejor comprensión del fenómeno en estudio, incluso en situaciones
muy complejas.
* Objetivo: Identificar las posibles causas de un problema específico.
Proceso para la elaboración de un diagrama de causa-efecto

Para empezar, se decide qué característica de calidad, salida o efecto se quiere
examinar y continuar con los siguientes pasos:
1. Hacer un diagrama en blanco.

2. Escribir de forma concisa el problema o efecto.
3. Escribir las categorías que se consideren apropiadas al problema: máquina, mano
de obra, materiales, métodos, son las más comunes y se aplican en muchos procesos
4. Realizar una lluvia de ideas (brainstorming) de posibles causas y relacionarlas con
cada categoría.
5. Preguntarse ¿por qué? a cada causa, no más de dos o tres veces. ¿Por qué no se
dispone de tiempo necesario? ¿Por qué no se dispone de tiempo para estudiar las
características de cada producto?
6. Empezar por enfocar las variaciones en las causas seleccionadas como fácil de
implementar y de alto impacto.
Para crear y organizar las espinas de un diagrama, hay que considerar lo siguiente:
1. Todas las espinas deben ser causas posibles.

2. Todas las causas deben ser presentadas en las vías que indiquen cómo se
relacionan con el problema.
3. La disposición de las espinas debe reflejar las relaciones entre las causas
ESTRATIFICACIÓN
Definición
La estratificación es un método estadístico utilizado para el control, análisis y mejora de

la calidad consistente en clasificar los datos disponibles por grupos con similares
características. A cada grupo se le denomina estrato. Los estratos a definir lo serán en
función de la situación particular de que se trate, pudiendo establecerse
estratificaciones atendiendo a:
* Personal
* Materiales
* Maquinaria y equipo
* Áreas de gestión
* Tiempo
* Entorno
* Localización geográfica
* Otros
Características
La estratificación de los datos nos permitirá comparar las características poblacionales

de los diferentes estratos que, de no ser iguales, son una fuente de heterogeneidad y,

por tanto, de no calidad. En consecuencia, estas heterogeneidades deben ser
detectadas, corregidas y eliminadas. La situación que en concreto va a ser analizada
determina los estratos a emplear.
Proceso para la elaboración de un análisis de estratificación:
1. Seleccionar las variables de estratificación.

2. Establecer las categorías que se utilizarán en cada variable de estratificación.
3. Clasificar las observaciones dentro de las categorías de la variable de
estratificación
4. Calcular el fenómeno que se está midiendo en cada categoría.
5. Mostrar los resultados. Los gráficos de barras suelen ser los más eficaces.
6. Preparar y exponer los resultados para otras variables de estratificación.
7. Planificar una confirmación adicional
GRAFICA DE CONTROL
Definición
Una gráfica de control es un diagrama que sirve para examinar si un proceso se

encuentra en una condición estable, o para asegurar que se mantenga en esa
condición. En estadística, se dice que un proceso es estable (o está en control) cuando
las únicas causas de variación presentes son las de tipo aleatorio. Las causas
aleatorias son de difícil identificación y eliminación. Las causas específicas sí pueden
ser descubiertas y eliminadas, para alcanzar el objetivo de estabilizar el proceso.
* Causas aleatorias de variación: Son causas desconocidas y con poca

significación, debidas al azar y presentes en todo proceso.
* Causas específicas (imputables o asignables): Normalmente no deben estar

presentes en el proceso. Provocan variaciones significativas.
Proceso para la elaboración de una gráfica de control
1. Construcción del gráfico

2. Selección de la variable
3. Definición del marco de muestreo y el método de selección
4. Determinación del número de subgrupos o muestras (m)
5. Determinación del tamaño del sub grupo o muestra (n)
6. Recolección de la información
7. Cálculo de límites de control
8. Construcción del gráfico

DIAGRAMA DE DISPERSIÓN
Definición
Un diagrama de dispersión es una representación gráfica de la relación entre dos

variables, muy utilizada en las fases de Comprobación de teorías e identificación de
causas raíz y en el Diseño de soluciones y mantenimiento de los resultados obtenidos.
Tipo de diagrama que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos. Se le llama así pues los datos se muestran
como un conjunto de puntos, cada uno con el valor de una variable que determina la
posición en el eje horizontal y el valor de la otra variable determinado por la posición en
el eje vertical, teniendo una línea de ajuste (línea de tendencia) con el fin de estudiar la
correlación entre las variables.
Son muy útiles a la hora de expresar los resultados numéricos de un
experimento. Aunque los gráficos de líneas son parecidos, los puntos de datos en un
diagrama de dispersión no están conectados directamente. En su lugar, sirven para
mostrar la tendencia general representada por los datos.
Proceso para la elaboración de un diagrama de dispersión
1. Se elabora una teoría razonable

2. Se obtienen los pares de valores y se dibuja el diagrama
3. Se identifica la pauta de correlación
4. Se estudian las posibles explicaciones

Lectura y uso del Diagrama de Dispersión
La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de la
relación, la forma de la relación y la posible presencia de punto anómalos.
La relación entre los datos se denomina “correlación positiva” cuando a un aumento en
el valor de la variable X le acompaña un aumento en la otra variable.
El caso inverso da lugar a la llamada “correlación negativa”.
El patrón de puntos puede asumir formas diversas, dependiendo de la relación que

exista entre las variables. Si el patrón de puntos asume la forma (quizás aproximada)
de una línea recta, se dice que existe una relación lineal entre las variables.
En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan

separados del patrón de puntos. El usuario debe dejar fuera del análisis esos puntos,
que quizás son debidos a lecturas equivocadas o a algún cambio en las condiciones
del proceso, etc.
Pero se ganará conocimiento de este último al estudiar las causas por las que se
presentaron los puntos.
Un Diagrama de Dispersión no dice nada de porqué existe la correlación, por lo que es

imprescindible examinar la aparente relación entre las variables desde el punto de vista
científico o técnico.
El Coeficiente de Relación Lineal.
El valor del Coeficiente de Correlación lineal de Pearson (r) proporciona una medida del
grado de relación entre dos variables y se calcula mediante la expresión:
r = S (xy) / S(xx) S(yy)
Dónde:
S(xx) = ƩXi² – (ƩXi)² / n
S(yy) = ƩYi² – (ƩYi)² / n
S(xy) = ƩXiYi – ((ƩXi) (ƩYi))/ n
n es el número de parejas de datos. El término S(xy) se llama covarianza.

REGRESIÓN LINEAL SIMPLE
Si sabemos que existe una relación entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede
darse el problema de que la dependiente asuma múltiples valores para una
combinación de valores de las independientes.
ASPECTOS TEÓRICOS
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para
solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar

alguna Relación Funcional entre dos o más variables, donde una variable depende de
la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en

un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran,
de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.
Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar

que el 87.9% de las variaciones que ocurren en el peso se explicarían por las
variaciones en la variable estatura.

CORRELACIÓN
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una

relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que
dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos
dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen
también los de B y viceversa. La correlación entre dos variables no implica, por sí
misma, ninguna relación de causalidad.
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante la línea de
mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales
de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
 La fuerza extrema según el caso, mide el grado en que la línea representa a la

nube de puntos: si la nube es estrecha y alargada, se representa por una línea
recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una
tendencia elíptica o circular, la relación es débil.
 El sentido mide la variación de los valores de B con respecto a A: si al crecer
los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores
de A disminuyen los de B, la relación es negativa.
 La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la
curva monofónica o la curva no monotónica.
Interpretación geométrica
Dados los valores muéstrales de dos variables aleatorias e

, que pueden ser consideradas como vectores en un espacio a n
dimensiones, pueden construirse los "vectores centrados" como:
e .
El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente:

Pues es el coeficiente de correlación muestral de Pearson. El coeficiente de
correlación es el coseno entre ambos vectores centrados:
 Si r = 1, el ángulo °, ambos vectores son colineales (paralelos).

 Si r = 0, el ángulo °, ambos vectores son ortogonales.
 Si r =-1, el ángulo °, ambos vectores son colineales de dirección
opuesto.
Más generalmente: .
Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el

coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -
1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las
variables, que sobre su distancia angular en la hiperesfera a n dimensiones.
La Iconografía de las correlaciones es un método de análisis multidimensional que

reposa en esta idea. La correlacion lineal se da cuando en una nube de puntos estos
se encuentran o se distribuyen alrededor de una recta.
Distribución del coeficiente de correlación
El coeficiente de correlación muestral de una muestra es de hecho una varible

aleatoria, eso significa que si repetimos un experimento o consideramos diferentes
muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación
muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para
muestras grandes la variación en dicho coeficiente será menor que para muestras
pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para
el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución
gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de
probabilidad dada por:
donde:
es la distribución gamma
es la función gaussiana hipergeométrica.

Nótese que , por tanto r es estimador sesgado de .
Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:
for
Aunque, la solucón:
es subóptima. Se puede obtener un estimador sesgado con mínima varianza para
grandes valores de n, con sesgo de orden buscando el máximo de la expresión:
, i.e.
En el caso especial de que , la distribución original puede ser reescrita como:
donde es la función beta.

DETERMINACIÓN Y ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN Y
DE DETERMINACIÓN.
El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación

entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre
las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de
las dos variables la nube de puntos se aproximaría a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es
representar los pares de valores en un gráfico y ver que forma describen.
El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par

de valores (x,y) se multiplica la “x” menos su media, por la “y” menos su media. Se
suma el resultado obtenido de todos los pares de valores y este resultado se divide por
el tamaño de la muestra. Denominador se calcula el produto de las varianzas de “x” y
de “y”, y a este produto se le calcula la raíz cuadrada. Los valores que puede tomar el
coeficiente de correlación “r” son: −1 < r < 1
Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la
otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo:
altura y peso: los alumnos más altos suelen pesar más. Si “r” < 0, la correlación lineal
es negativa (si sube el valor de una variable disminuye el de la otra). La correlación
negativa es tanto más fuerte cuanto más se aproxime a −1.
Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Si “r” = 0,
no existe correlación lineal entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial, etc.) De todos modos, aunque el valor de “r” fuera
próximo a 1 o −1, tampoco esto quiere decir obligatoriamente que existe una relación
de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al
puro azar.

Distribución normal bidimensional.
La distribución normal n-dimensional Nn (m,S) es una generalización de la distribución
normal univariante.
La función de densidad de una variable n-dimensional normal X=(X1, X2, ..., Xn) de
parámetros m y S es
Para (i = 1,2,..,n), donde m es el vector de medias
con
y S es la matriz de varianzas-covarianzas (simétrica y definida positiva)
con y .
Propiedades:
 Para n=1 la función de densidad anterior es la de la distribución normal

unidimensional.
 Si m = 0 y S = I (matriz identidad) entonces la distribución se denomina normal
n-dimensional estándar, Nn(0,I)
 Si Z=(Z1,...,Zn) tiene una distribución normal n-dimensional estándar, A=(aij) es
una matriz cuadrada de orden n con determinante no nulo y m=(m1,..,mn)' es
una matriz columna nx1 entonces la variable
X=AZ+m
 sigue una distribución normal n-dimensional Nn(m,S) donde S = A A'.

 Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S) y B y C son
dos matrices de números reales (B de dimensión pxn y C de dimensión px1) tal
que BSB' es una matriz definida positiva entonces la variable

Z=BX+C
 tiene una distribución normal p-dimensional Np(Bm+C, BSB').

 Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S), la variable
formada por cualquier subconjunto de k variables de las n, sigue una distribución
normal k-dimensional con los parámetros correspondientes.
En particular con k=1, tenemos que la distribución marginal de cualquiera de las
Xi es una distribución normal unidimensional .
 Sean X1, X2,..,Xn variables aleatorias independientes con distribuciones
normales unidimensionales . Entonces, la variable aleatoria

X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S) con
parámetros y .
 Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional
Nn(m,S). Sus n variables componentes X1, X2,..,Xn son independientes si, y
sólo si, están incorrelacionadas.
 Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional
Nn(m,S). Si dividimos sus componentes en dos grupos ,por
ejemplo y y de igual forma particionamos las

matrices m y S (con los parámetros correspondientes a cada grupo),
y entonces la distribución de condicionada por
es una normal p-dimensional de media y matriz de

varianzas-covarianzas .
Normal bidimensional:
Esta distribución es un caso particular de la distribución normal n-dimensional para n=2

por lo que todos los resultados vistos anteriormente son también válidos.
No obstante, mostraremos de forma explícita dichos resultados sin recurrir a la notación

matricial.
Así bien, la función de densidad de una variable aleatoria (X,Y) normal bidimensional
es
para y , donde mX y mY son las medias de X e Y

respectivamente, sX y sY sus desviaciones típicas y r el coeficiente de correlación
lineal entre las dos variables.
Propiedades:
 Si mX y mY son cero sX y sY son 1 y r es cero entonces la distribución se

denomina normal bidimensional estándar, y su función de densidad es
 Si (X,Y) tiene una distribución normal bidimensional y

(U,V) es una transformación de ella del tipo U=aX+bY+c y V=dX+eY+f , de
manera que la matriz tiene determinante distinto de cero (rango dos).
Entonces la variable aleatoria (U,V) también sigue una distribución normal
bidimensional , donde

 En particular, si (X,Y) tiene una distribución normal bidimensional estandar
y (U,V) es una transformación de ella del tipo anterior (con

rg(B)=2) entonces (U,V) sigue una distribución normal bidimensional
 Si (X,Y) tiene una distribución normal bidimensional, tanto X como Y siguen

distribuciones normales, en concreto X tiene una distribución N(mX,sX) e Y tiene
una distribución N(mY,sY).
 Si X e Y son variables aleatorias independientes con distribuciones normales
unidimensionales N(mX,sX) y N(mY,sY). Entonces, la variable aleatoria (X,Y)
tiene distribución normal bidimensional .

 Sea (X,Y) una variable aleatoria normal bidimensional. Entonces, X e Y son
independientes si, y sólo si, están incorrelacionadas.
 Sea (X,Y) una variable aleatoria normal bidimensional. La distribución de Y
condicionada por X=x es normal unidimensional.

Intervalos de confianza y pruebas para el coeficiente de correlación.
Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r
ambas variables deben tener una distribución normal. Si los datos no tienen una
distribución normal, una o ambas variables se pueden transformar (transformación
logarítmica) o si no se calcularía un coeficiente de correlación no paramétrico
(coeficiente de correlación de Pearson) que tiene el mismo significado que el
coeficiente de correlación de Pearson y se calcula utilizando el rango de las
observaciones.
La distribución del coeficiente de correlación de Pearson NO ES NORMAL pero
no se puede transformar r para conseguir un valor z (transformación de Fisher) y
calcular a partir del valor z el intervalo de confianza.
Donde Ln representa el logaritmo neperiano que en la base es:
N= tamaño muestral.
Para hallar el intervalo de confianza de Z se hace lo siguiente:
Tras
calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso
inverso para calcular los intervalos del coeficiente r
Puede calcularse en cualquier grupo de datos, sin embargo la validez del test de
hipótesis sobre la correlación entre las variables requiere en sentido estricto:
 que las dos variables procedan de una muestra aleatoria de individuos.
 que al menos una de las variables tenga una distribución normal en la población
de la cual la muestra procede.

Errores de medición.
Toda medición siempre irá acompañada de una incertidumbre. El resultado de

una medición, es el conjunto de dos valores: el valor obtenido en la medición y la
incertidumbre.
Siempre que realizamos una medición cometeremos un error en la determinación
de la magnitud medida. Este error puede ser despreciable en función de la precisión
requerida. Definiremos como error a la diferencia entre la dimensión determinada en la
medida y la dimensión real .Se puede producir error de medición por causas que
determinan su ocurrencia en forma aleatoria (error aleatorio) o bien ser efecto de un
error que ocurre en forma sistemática (sesgo).
 Error grave: se debe principalmente a fallas humanas en la lectura o utilización
de los instrumentos, así como en el registro y cálculo de los resultados de las
mediciones.
 Error sistemático: se puede presentar como consecuencia de un efecto
reconocido de una magnitud de influencia en el resultado de una medición o por
defectos en el instrumento de medida.
 Error instrumental: son inherentes a los instrumentos de medición a causa de
su estructura mecánica. Se pueden presentar por no ajustar el cero antes de
realizar mediciones, por una calibración inadecuada del instrumento, etc. Este
error se puede evitar:
o Seleccionado el instrumento adecuado para la medición.
o Aplicando los factores de corrección después de definir la cantidad del
error.
o Al calibrar el instrumento con un patrón.
 Error ambiental: se deben a las condiciones externas que afectan la operación

del dispositivo de medición como los efectos por cambios de: temperatura,
humedad, presión barométrica o de campos magnéticos y electrostáticos.
 Error estático: se originan por las limitaciones de los dispositivos de medición o
las leyes físicas que dominan su comportamiento.
 Error dinámico: se ocasiona cuando el instrumento no responde con la
suficiente rapidez a los cambios de la variable de medida
 Error aleatorio: se presenta por variaciones impredecibles o estocásticas,
temporales y espaciales de las magnitudes de influencia. Se puede reducir
aumentando el número de observaciones.

Bibliografía:
(2da edición ). Administración por calidad . En S. Pulido, Administración por calidad . México
D.F : UMUSA .
http://www2.eco.uva.es/estadmed/probvar/d_multivar/dnvar7.htm

Materia

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Materia

Încărcat de

Drepturi de autor:

Formate disponibile

INSTITUTO TECNOLÓGICO SUPERIOR

DE SAN ANDRÉS TUXTLA

Entrega 11 junio 2018

5.2 Diagrama de dispersión 10, 11

5.3 Regresión lineal simple 12

5.4 Correlación 13, 15

5.5 Determinación y análisis de los coeficientes de correlación y de

5.6 Distribución normal bidimensional 17, 20

5.7 Intervalos de confianza y pruebas para el coeficiente de

5.8 Errores de medición. 22

Regresión y Correlación lineal múltiple es el décimo fascículo, de una

Miguel Isidro Martínez Maciel Página 3

La estadística inferencial se utiliza para obtener conclusiones que sobrepasan los

* Solución efectiva de problemas,

* Establecimiento de controles en las operaciones del proceso

1. Hoja de control (Hoja de recogida de datos).

Formato para colectar datos.

Miguel Isidro Martínez Maciel Página 4

* Facilitar la recolección de datos.

* Son el punto de partida para la elaboración de otras herramientas, como por

El histograma es un tipo especial de gráfico de barras que se puede utilizar para

Proceso para la elaboración de un histograma

Miguel Isidro Martínez Maciel Página 5

5. Graficar el histograma: En caso de que las clases sean todas de la misma

El diagrama de Pareto es una herramienta de análisis que ayuda a tomar decisiones en

El Diagrama de Pareto es una gráfica en donde se organizan diversas clasificaciones

* Conocer cuál es el factor o factores más importantes en un problema.

Proceso para la elaboración de un diagrama de Pareto

1. Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el

Miguel Isidro Martínez Maciel Página 6

10. Trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte

12. Analizar la gráfica para determinar los “pocos vitales”

DIAGRAMA DE CAUSA Y EFECTO

El diagrama de Ishikawa, también llamado diagrama de espina de pescado, diagrama

* Capacidad de comunicación: Muestra las posibles interrelaciones causa-efecto

* Objetivo: Identificar las posibles causas de un problema específico.

Proceso para la elaboración de un diagrama de causa-efecto

Miguel Isidro Martínez Maciel Página 7

1. Hacer un diagrama en blanco.

1. Todas las espinas deben ser causas posibles.

La estratificación es un método estadístico utilizado para el control, análisis y mejora de

La estratificación de los datos nos permitirá comparar las características poblacionales

Miguel Isidro Martínez Maciel Página 8

Proceso para la elaboración de un análisis de estratificación:

1. Seleccionar las variables de estratificación.

Una gráfica de control es un diagrama que sirve para examinar si un proceso se

* Causas aleatorias de variación: Son causas desconocidas y con poca

* Causas específicas (imputables o asignables): Normalmente no deben estar

Proceso para la elaboración de una gráfica de control

1. Construcción del gráfico

Miguel Isidro Martínez Maciel Página 9

Un diagrama de dispersión es una representación gráfica de la relación entre dos

Proceso para la elaboración de un diagrama de dispersión

1. Se elabora una teoría razonable

Miguel Isidro Martínez Maciel Página 10

El patrón de puntos puede asumir formas diversas, dependiendo de la relación que

En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan

Un Diagrama de Dispersión no dice nada de porqué existe la correlación, por lo que es

El Coeficiente de Relación Lineal.

r = S (xy) / S(xx) S(yy)

S(xx) = ƩXi² – (ƩXi)² / n

S(yy) = ƩYi² – (ƩYi)² / n

S(xy) = ƩXiYi – ((ƩXi) (ƩYi))/ n