Probabilidad y Estadistica Unidad IV y V

1 Probabilidad y Estadstica
INSTITUTO TECNOLGICO SUPERIOR DE LOS ROS
UNIDAD IV y V
Probabilidad y Estadstica
Ingeniera Electromecnica
Docente: Ing. Amalio Garca Salvador
Alumno: Israel Marn Sandoval
Correspondiente a la Unidad IV y V como trabajo final
Balancn, Tabasco. Sbado 18 de Abril de 2015

ndice de temas
UNIDAD 4: ESTADSTICA INFERENCIAL 3
4.1 Inferencia Estadstica 3
4.2 Muestreo Estadstico 3
4.3 Estimadores 6
4.4 Estimacin Puntual 7
4.5 Estimacin por intervalo 9
4.6 Errores Tipo I y Tipo II 11
Conclusin de la Unidad 14
UNIDAD 5: REGRESIN Y CORRELACIN 15

5.1 Control de Calidad 15
5.2 Diagrama de Dispersin 17
5.3 Regresin Lineal Simple 18
5.4 Correlacin 19
5.5 Determinacin y Anlisis de los coeficientes de correlacin y
determinacin 20
5.6 Distribucin Normal Bidimensional 21
Conclusin de la Unidad 23
BIBLIOGRAFA 23
UNIDAD IV. ESTADSTICA INFERENCIAL
4.1 INFERENCIA ESTADSTICA
INTRODUCCIN
Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una
cosa de otra. La estadstica, ciencia o rama de las Matemticas que se ocupa de
recoger datos, analizarlos y organizarlos, y de realizar las predicciones que sobre
esos datos puedan deducirse, tiene dos vertientes bsicas:
a) Estadstica descriptiva: Bsicamente se ocupa de la 1 parte, es decir, a partir

de ciertos datos, analizarlos y organizarlos. Es aqu donde tiene sentido calcular la
media, mediana, moda, desviacin media, desviacin tpica, etc.
b) Estadstica inferencial: Se ocupa de predecir, sacar conclusiones, para una

poblacin tomando como base una muestra (es decir, una parte) de dicha
poblacin. Como todas las predicciones, siempre han de hacerse bajo un cierto
grado de fiabilidad o confianza. Ser esta ltima vertiente de la estadstica la que
estudiemos en este tema
La inferencia estadstica es una parte de la Estadstica que comprende los

mtodos y procedimientos para deducir propiedades (hacer inferencias) de una
poblacin, a partir de una pequea parte de la misma (muestra). La bondad de
estas deducciones se mide en trminos probabilsticos, es decir, toda inferencia se
acompaa de su probabilidad de acierto.
4.2 MUESTREO ESTADSTICO
Ya sabemos que una poblacin es el conjunto de individuos sobre los que

hacemos cierto estudio, y que una muestra es un subconjunto de la poblacin. Es
evidente que los resultados de una determinada encuesta tendrn un mayor grado
de fiabilidad si dicha encuesta se realiza sobre la poblacin completa. Sin
embargo, en la mayora de las ocasiones esto no es posible, debido a mltiples
razones: * Imposibilidad material (Hacer una encuesta a los casi 41 millones de
espaoles es imposible, hacer un estudio sobre la fecha de caducidad de un
producto.
Si lo hacemos con todos los productos que vendemos luego?) * Imposibilidad

temporal (Hacer un estudio sobre la duracin de una bombilla. Cunto debemos
esperar para saberlo?). Por tanto, es habitual que tengamos que manejarnos con
muestras, de modo que es importante saber elegir bien una muestra de la
poblacin, una muestra que represente bien a dicha poblacin. Hay muchas
maneras de elegir una muestra de una poblacin.
Antes de pasar a analizar dichas formas de extraccin de muestras, lo que si

hemos de dejar claro es que todas las muestras han de cumplir varias condiciones
indispensables. Es evidente que para que el estudio a realizar sea fiable, hay que
cuidar mucho la eleccin de la muestra, para que represente en la medida de lo
posible a la poblacin de la que se extrae. Si la muestra est mal elegida, diremos
que no es representativa.
En este caso, se pueden producir errores imprevistos e incontrolados. Dichos

errores se denominan sesgos y diremos que la muestra est sesgada.
Una de las condiciones para que una muestra sea representativa es que el
muestreo (o sistema para elegir una muestra de una poblacin) que se haga sea
aleatorio, es decir, todas las personas de la poblacin tengan las mismas
posibilidades de ser elegidas, mientras que si la eleccin de la muestra es
subjetiva, es probable que resulte sesgada.
Las distintas maneras de elegir una muestra de una poblacin se denominan

muestreos. Bsicamente hay dos tipos de muestreos:
1. Muestreo no probabilstico: El investigador no elige la muestra al azar, sino

mediante determinados criterios subjetivos.
2. Muestreo probabilstico: Cuando la muestra se elige al azar. En este caso

podemos distinguir varios tipos:
a) Muestreo aleatorio simple: Aquel en el que cada individuo de la poblacin

tiene las mismas Posibilidades de salir en la muestra.
b) Muestreo sistemtico: En el que se elige un individuo al azar y a partir de

l, a intervalos constantes, se eligen los dems hasta completar la muestra.
c) Muestreo estratificado: E n este muestreo se divide la poblacin en

clases o estratos y se escoge, aleatoriamente, un nmero de individuos de
cada estrato proporcional al nmero de componentes de cada estrato.
d) Muestreo por conglomerados: Si no disponemos de la relacin de los

elementos de la poblacin, o de los posibles estratos, no podemos aplicar
los muestreos anteriores.
Aqu entra el llamado muestreo por conglomerados, donde en lugar de elegir

individuos directamente, se eligen unidades ms amplias donde se clasifican los
elementos de la poblacin, llamados conglomerados. En cada etapa del muestreo

en lugar de seleccionar elementos al azar seleccionamos conglomerados.
Los conglomerados deben ser tan heterogneos como la poblacin a estudiar,

para que la represente bien. Luego se elegiran algunos de los conglomerados al
azar, y dentro de estos, analizar todos sus elementos o tomar una muestra
aleatoria simple. No debemos confundir estrato y conglomerado. Un estrato es
homogneo (sus elementos tienen las mismas caractersticas), mientras que un
conglomerado es heterogneo (debe representar bien a la poblacin).
Veamos la diferencia de estos muestreos mediante un ejemplo:
Imaginemos que hemos de recoger una muestra de 20 alumnos de entre

los de un instituto de 600.
-Muestreo aleatorio simple: Elegiramos un alumno al azar (probabilidad de

elegirlo 1/600. Lo devolvemos a la poblacin y se elige otro (probabilidad de
elegirlo 1/ 600), y as hasta 20. Notemos que si no devolvisemos al alumno,
entonces, la probabilidad de escoger al 2 alumno seria 1/599, y ya no todos
tendran la misma probabilidad de ser elegidos. El problema es que entonces
permitimos que se puedan repetir individuos.
-Muestreo sistemtico: Como hemos de elegir 20 alumnos de 600, es decir,

1 de cada 30, se procede as: Se ordenan los alumnos y se numeran, se elige uno
al azar, por ejemplo el alumno 27, y luego los dems se eligen a partir de este a
intervalos de 30 alumnos. Escogeramos por tanto a los alumnos:
27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,5
67,597.
y el alumno 627 ya es otra vez el 27.
-Muestreo estratificado: Si queremos que la muestra sea representativa, lo mejor

ser conocer cuntos alumnos de cada curso hay, es decir, si hay 200 alumnos de
3 ESO, 150 de 4 ESO, 150 de 1 Bachillerato y 100 de 2 Bachillerato,
procederamos:
Como de 600 en total hemos de elegir a 20, de 200 de 3 de ESO hemos de

elegir x:
20/600 = x/200 x = 4000/600 = 6.6 7 alumnos de 3
(Utilizando la regla de tres) De igual manera podemos calcular los alumnos

correspondientes a los dems cursos:
20/600 = y/150 y = 3000/600 = 5 alumnos de 4
20/600 = z/150 z = 3000/600 = 5 alumnos de 1
20/600 = t/100 t = 2000/600 = 3.3 alumnos de 2
De modo que en nuestra muestra de 20, 7 alumnos son de 3, 5 de 4, 5 de 1 y 3

de 2. Para la eleccin de cada alumno dentro de cada curso, utilizamos el
muestreo aleatorio simple.
-Muestreo por conglomerados: Para ver este muestreo, hemos de cambiar

el ejemplo. Supongamos que queremos extraer una muestra aleatoria de los
estudiantes universitarios del pas. Necesitaramos una lista con todos ellos para
poder realizar algn muestreo del tipo de los 3 anteriores, lo cual es muy difcil de
conseguir. Sin embargo, los estudiantes estn clasificados por Universidades,
Facultades y Clases.
Podemos seleccionar en una primera etapa alguna Universidades, despus

algunas facultades al azar, dentro de las facultades algunas clases y dentro de las
clases, algunos estudiantes por muestreo aleatorio simple. Los conglomerados en
cada etapa seran las diferentes Universidades, las diferentes facultades y las
diferentes clases.
Como vemos los conglomerados son unidades amplias y heterogneas
4.3 ESTIMADORES
Como el objetivo principal de la estadstica inferencial es el estudio de la Poblacin

y realizar predicciones a cerca de ella pero a partir de una muestra de ella , no de
la poblacin entera, en principio, tendremos que estimar los ndices de la
poblacin a partir de los ndices correspondientes para la muestra.
En una primera aproximacin, parece lgico pensar que si queremos determinar la

media de una cierta poblacin, si hemos cogido una muestra representativa de
dicha poblacin, la media de la muestra (que es fcilmente calculable porque
tenemos los datos) ser muy parecida a la de la poblacin y por tanto sirva para
estimarla.
Distinguiremos, por tanto, entre:

1. Parmetros poblacionales: Que son los ndices centrales y de dispersin

que definen a una poblacin.
Representaremos la media poblacional y la desviacin tpica poblacional .
En el caso de proporciones, la proporcin de poblacin que tiene una determinada

caracterstica la denotaremos por p y la proporcin que no la cumple por q = 1 p.
(Como en la Distribucin binomial)
2. Estadsticos poblacionales: Son los ndices centrales y de dispersin que

definen a una muestra. Representaremos la media muestra por x y la
desviacin tpica muestral por s.
En el caso de proporciones, la proporcin de muestra que tiene una determinada

caracterstica la denotaremos por p y la proporcin que no la cumple por q = 1
p.
Cul es el problema de la estimacin entonces?. Como vamos a disponer de una

muestra, lo que podemos calcular es x y s (o bien p y q), y a partir de estos
intentar estimar quienes tienen que ser y (o bien p y q), los reales para la
poblacin.
En la estimacin por puntos, el conocimiento de un estadstico muestral nos

permitir decidir cul es el correspondiente parmetro de la poblacin. Para ello
hemos de conocer cul es la relacin entre un estadstico y el correspondiente
parmetro.
4.4 ESTIMACIN PUNTUAL
Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido
de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimacin puntual la talla media de los individuos. Lo ms importante de un
estimador, es que sea un estimador eficiente. Es decir, que sea insesgado
(ausencia de sesgos) y estable en el muestreo (varianza mnima).
Si tenemos una poblacin de parmetros desconocidos y , y tomamos una

muestra, podemos calcular la media muestral, x1, que tendr cierta relacin con .
Podramos tomar otra muestra, de igual tamao, y calcular de nuevo su media

muestral x2, que tambin estar relacionada con . As sucesivamente,
considerando varias muestras y haciendo las medias mustrales respectivas,
tenemos una serie de medias, relacionadas de alguna manera con cmo? De

la siguiente forma:
Propiedad: Si la poblacin sigue una distribucin normal N(, ), donde y son

desconocidos, si elegimos todas las muestras de cierto tamao (n) , de forma que
sean representativas, entonces:
a) La media de las medias muestrales de todas las muestras

posibles, es igual a la media poblacional, es decir:
b) La desviacin tpica de las medias mustrales posibles es:
Donde es la desviacin tpica poblacional y n es el tamao de las muestras.
Conclusin: Las medias de las muestras de tamao n extradas de una poblacin

de parmetros y , siguen una distribucin:
Siempre que dichas muestras tengan un tamao n 30.
Notas importantes:
a) Este resultado es consecuencia del Teorema Central del lmite.
b) Si la poblacin es normal, el resultado se cumple para muestras de

CUALQUIER tamao (incluso menor que 30).
c) Si es desconocida, el mismo resultado sigue siendo cierto sustituyendo

en la frmula por s.
Ejemplo: La altura de los estudiantes de una poblacin se distribuye segn una

normal de media 167 y desviacin tpica 3.2.
a) Calcula la probabilidad de que un estudiante mida menos de 165 cm.

b) Se toma una muestra de 10 estudiantes. Calcula la probabilidad de que

la media muestral sea menor que 165 cm.
En el apartado a), manejamos la variable
X N (165; 3.2)
Siendo X= altura de un estudiante.
La probabilidad pedida ser:
En el apartado b), la variable que manejamos ya no es X, sino que tenemos una

muestra de 10 estudiantes. Como la poblacion inicial es normal, podemos aplicar
el resultado anterior aunque la muestra sea de tamao menor que 30. As, la
variable a estudiar es:
X=media de las alturas de 10 estudiantes, que segn lo dicho, sigue una

distribucin.
4.5 ESTIMACIN POR INTRVALO.
Nos planteamos ahora determinar que proporcion de una poblacion posee un

cierto atributo, por ejemplo si es fumador o no fumador, si tiene ordenador o no, si
tiene alergia o no,etc... El estudio de este tipo de proporciones es equiparable al
de una distribucion binomial (donde solo hay dos posibilidades).
Si la proporcion exito es p y la de fracaso q, y se toma una muestra de la

poblacion de tamao n, al igual que en el caso anterior, para cada muestra
tendremos una proporcion muestral que denotaremos por p y una desviacion
tpica muestral que denotaremos por sp.
Entonces,utilizando razonamientos similares a los del apartado anterior, se verifica

que p = p, y
Conclusin: Las proporciones mustrales de tamao n 30, extradas de una

poblacin en la que la probabilidad de xito es p, se ajustan a una normal.
En una variable normal cualquiera N (, ), se verifica que:
1. En el intervalo ( , + ) est el 68.26% de la poblacin.

2. En el intervalo ( 2 , + 2 ) est el 95.44 % de la poblacin.
3. En el intervalo ( 3 , + 3 ) est el 99.74 % de la poblacin.
Porcentajes de poblacin en los diferentes intervalos simetricos de una normal N(, ).
Es evidente que a medida que el intervalo se ampla, hay mayor porcentaje de la

poblacin en l. En general, dado un porcentaje del N %, siempre es posible
encontrar un intervalo simtrico respecto de la media de forma que dicho intervalo
contenga a dicho porcentaje de poblacin.
Ms explcitamente, se denomina intervalo de probabilidad a aquel intervalo para

el cul se sabe que hay una seguridad del N % de que los parmetros mustrales
(x o p) se encuentren en dicho intervalo. La seguridad N viene fijada previamente.
Si queremos que el N % de la poblacin est en el intervalo, denominaremos nivel

de confianza al nmero:
1 = N/100
Y unido a este, se encuentra el llamado nivel de significacin, que viene dado por
. Este nivel en general vendr explicitado en las condiciones del problema, si
bien los valores ms comunes suelen ser del 90%, 95% y 99%.
4.6 ERRORES TIPO I Y TIPO II.
Para explicar este tipo de errores, primero debo describirte qu situacin pueden
aparecer stos. Existir la siguiente hiptesis estadstica:
En estadstica, un error de tipo I es el rechazo incorrecto de una hiptesis nula

verdadera. Un error de tipo II es la falta de rechazar una hiptesis nula falsa. Un
error de tipo I es un falso positivo.
Por lo general, un error de tipo I conduce a la conclusin de que existe una cosa o
la relacin cuando en realidad no lo hace, por ejemplo, que un paciente tiene una
enfermedad que est siendo probado para cuando realmente el paciente no tiene
la enfermedad o que un mdico cura el tratamiento una enfermedad, cuando en
realidad no es as. Un error de tipo II es un falso negativo.
Ejemplos de errores de tipo II sera una prueba de sangre no detectar la

enfermedad que fue diseado para detectar, en un paciente que realmente tiene la
enfermedad, o un ensayo clnico de un tratamiento mdico no demostrar que el
tratamiento funciona, cuando en realidad lo hace. Al comparar los dos medios,
concluyendo los medios eran diferentes cuando en realidad no fueron diferentes
sera un error de tipo I, la celebracin de los medios no fueron diferentes cuando
en realidad eran diferentes sera un error de tipo II.
Todas las pruebas de hiptesis estadsticas tienen una probabilidad de cometer

errores tipo I y tipo II.
Por ejemplo, los anlisis de sangre para una enfermedad falsamente detectar la
enfermedad en una proporcin de personas que no lo tienen, y no se podr
detectar la enfermedad en una proporcin de las personas que lo tienen.
Estos trminos tambin se utilizan de una manera ms general por los cientficos
sociales y otros, para referirse a los defectos en el razonamiento.
Error de tipo I
Un error de tipo I, tambin conocido como un error de la primera clase, se produce

cuando la hiptesis nula es verdadera, pero se rechaza. Se est afirmando algo
que est ausente, un xito falso. Un error de tipo I se puede comparar con lo que
se denomina falso positivo en las pruebas de que una sola condicin se prueba
para. Errores de tipo I son un enfoque filosfico del escepticismo y de la navaja de
Occam. Un error de tipo I se produce cuando creemos una mentira. En trminos
de los cuentos populares, un investigador puede ser "falsas alarmas" sin un lobo a
la vista.
El tipo del error de tipo I se llama el tamao de la prueba y denotada por la letra
griega una. Por lo general, es igual al nivel de significacin de la prueba. En el
caso de una simple hiptesis nula a es la probabilidad de un error de tipo I.
Si la hiptesis nula es de material compuesto, a es el mximo de los posibles

probabilidades de un error de tipo I.
Error de falsos positivos
Un error de falsos positivos, comnmente llamada una "falsa alarma" es un

resultado que indica una determinada condicin se ha cumplido, cuando en
realidad no se ha cumplido. En el caso de "falsas alarmas" - la condicin probada
es "Hay un lobo cerca de la manada", el resultado real fue que no haba sido un
lobo cerca de la manada. El pastor errneamente indic que haba una, llamando
"Lobo, lobo!".
Un error de falso positivo es un error de tipo I cuando la prueba se comprueba una

sola condicin, y da como resultado una decisin afirmativa o negativa
generalmente designado como "verdadero o falso".
Error de tipo II
Un error de tipo II, tambin conocido como un error de la segunda clase, se

produce cuando la hiptesis nula es falsa, pero errneamente no ser rechazada.
Est fallando para hacer valer lo que est presente, de una seorita. Un error de
tipo II puede ser comparado con un llamado falso negativo en una prueba de
comprobacin de una sola condicin con un resultado definitivo de verdadero o
falso. Un error de tipo II se comete cuando dejamos de creer en una verdad. En
trminos de los cuentos populares, un investigador puede dejar de ver el lobo. Una
vez ms, H0: ningn lobo.
El tipo del error de tipo II se denota con la letra griega y en relacin con la potencia
de una prueba.
Lo que realmente llamamos de tipo I o error de tipo II depende directamente de la

hiptesis nula. La negacin de la hiptesis nula provoca errores tipo I y tipo II para
cambiar los papeles.
El objetivo del ensayo es determinar si la hiptesis nula puede ser rechazada. Una
prueba estadstica puede rechazar o dejar de rechazar una hiptesis nula, pero
nunca probarlo verdad.
Error de falsos negativos
Un error de falsos negativos es donde un resultado de la prueba indica que una

condicin fall, mientras que en realidad se ha realizado correctamente. Un
ejemplo comn es un prisionero culpable liberado de la crcel. La condicin: "Es
el prisionero culpable?" en realidad tena un resultado positivo. Pero la prueba no
se dio cuenta de esto, y decidi errneamente el prisionero no era culpable.
Un error de falsos negativos es un error de tipo II se produce en pasos de prueba

en una sola condicin se comprueba, y el resultado puede ser positivo o negativo.
El poder o potencia del estudio representa la PROBABILIDAD de observar en la

muestra una determinada diferencia o efecto, si existe en la poblacin. Es el
complementario del error tipo II (1-beta).
Date cuenta que cuanto mayor es alfa menor es beta. Su relacin es inversa.
En esta ltima grfica 1-alfa y 1-beta indican la zona de probabilidad en donde la

decisin ser correcta y por tanto no estamos cayendo en ningn tipo de error.
CONCLUSIN DE LA UNIDAD
Tomando en cuenta la Inferencia estadstica y que podemos usarla para predecir

con nmeros sucesos un poco mas exactos a lo usual, entonces ahora podemos
tomar decisiones basadas en nmeros lo que para nuestra profesin o carrera es
importante.
Teniendo presente que en una prueba de hiptesis solo se puede tomar una de
dos decisiones: aceptar o rechazar la hiptesis nula. Debe subrayarse que
siempre existe la posibilidad de rechazar la hiptesis nula cuando no debera
haberse rechazado (error tipo I). Tambin existe la posibilidad de que la hiptesis
nula se acepte cuando debera haberse rechazado (error de tipo II).
Esto nos ayuda tanto en la toma de decisiones como en predecir decisiones

futuras.
5.1 CONTROL DE CALIDAD.
Definicin
El control de calidad estadstico se refiere a la utilizacin de mtodos estadsticos

en el seguimiento y mantenimiento de la calidad de los productos y servicios Un
mtodo, conocido como muestreo de aceptacin, se puede utilizar cuando una
decisin debe ser tomada para aceptar o rechazar un grupo de piezas o artculos
basados en la calidad encontrado en una muestra.
Un segundo mtodo, conocido como control estadstico de proceso, utiliza

pantallas grficas conocidas como grficos de control para determinar si un
proceso debe continuar o debe ajustarse para conseguir la calidad deseada.
El Control Estadstico de la Calidad y la mejora de procesos. Comenzando con la

aportacin del cientfico llamado Shewhart, sobre reconocer que en todo proceso
de produccin existe variacin, podemos decir que no podan producirse dos
partes con las mismas especificaciones, pues era evidente que las diferencias en
la materia prima e insumos y los distintos grados de habilidad de los operadores
provocaban variabilidad. Shewhart no proponasuprimir las variaciones, sino
determinar cul era el rango tolerable de variacin que evite que se originen
problemas.
Causas de variacin

Existen variaciones en todas las partes producidas en el proceso de manufactura.
Hay dos fuentes de variacin:
o o
variacin aleatoria se debe al azar y no se puede eliminar por completo. variacin

asignable es no aleatoria y se puede reducir o eliminar.
Nota: la variacin puede cambiar y cambiar la forma, dispersin y tendencia

central de la distribucin de las caractersticas medidas del producto.
Diagramas de diagnstico
Controles o registros que podran llamarse "herramientas para asegurar la calidad

de una fbrica", esta son las siguientes:
Hoja de control (Hoja de recogida de datos)

Histograma
Anlisis paretiano (Diagrama de pareto)
Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado)
Estratificacin (Anlisis por Estratificacin)
Diagrama de scadter (Diagrama de Dispersin)
Grfica de control
Como elaborar un diagrama de Pareto
Partiendo de los descubrimientos del celebre economista y socilogo italiano

Vilfredo Pareto El diagrama de Pareto es una comparacin ordenada de factores
relativos a un problema. Esta comparacin nos va a ayudar a identificar y enfocar
los pocos factores vitales diferencindolos de los muchos factores tiles. Esta
herramienta es especialmente valiosa en la asignacin de prioridades a los
problemas de calidad, en el diagnstico decausas y en la solucin de las mismas,
el diagrama de Pareto se puede elaborar de la siguiente manera:
1. Cuantificar los factores del problema y sumar los efectos parciales hallando el
total.
2. Reordenar los elementos de mayor a menor.
3. Determinar el % acumulado del total para cada elemento de la lista ordenada.
4. Trazar y rotular el eje vertical izquierdo (unidades).

5. Trazar y rotular el eje horizontal (elementos).
6. Trazar y rotular el eje vertical derecho (porcentajes).
7. Dibujar las barras correspondientes a cada elemento.
8. Trazar un grfico lineal representando el porcentaje acumulado.
9. Analizar el diagrama localizando el "Punto de inflexin" en este ltimo grfico.
Se ha llegado a verificar la regularidad con la que se dan en las distintas

actividades y fenmenos sociales y productivos, el hecho de que unos pocos
factores son responsables de la mayora de los sucesos, en tanto que el resto
mayoritario de los elementos o factores generan o poseen escasos efectos, es lo
que ms comnmente se cataloga como los "pocos vitales y los muchos triviales".
As en procesos tradicionales de produccin podemos tener que el 20% de las

causas de imperfecciones o fallas originan o son responsables de entre un 70 y
80% de los defectos detectados. Y al revs, un 80% de las restantes causas
generan tan slo entre un 30 y 20% de los defectos.
Qu importancia tiene ello? Pues bien, permite atacar unas pocas causas
generando un importanteimpacto total.
5.2 DIAGRAMA DE DISPERSIN.
Definicin.
Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las

coordenadas cartesianas para mostrar los valores de dos variables para un
conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una
variable que determina la posicin en el eje horizontal y el valor de la otra variable
determinado por la posicin en el eje vertical.[1] Un diagrama de dispersin se
llama tambin grfico de dispersin.
Caractersticas principales:
Impacto visual
Un Diagrama de Dispersin muestra la posibilidad de la existencia de
correlacin entre dos variables de un vistazo.
Comunicacin
Simplifica el anlisis de situaciones numricas complejas
Gua en la investigacin
El anlisis de datos mediante esta herramienta proporciona mayor
informacin que el simple anlisis matemtico de correlacin, sugiriendo
posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos
y procesos en su utilizacin.
Utilidad
Los diagramas de dispersin pueden utilizarse para examinar:
* Relaciones causa-efecto
* Relaciones entre dos efectos
* Posibilidad de utilizar un efecto como sustituto de otro
* Relaciones entre dos posibles causas
En las distribuciones bidimensionales a cada individuo le corresponden los valores
de dos variables, las representamos por el par (xi, yi). Si representamos cada par
de valores como las coordenadas de un punto, el conjuntode todos ellos se llama
nube de puntos o diagrama de dispersin.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor
posible, llamada recta de regresin.
Pasos a seguir para elaborar un diagrama de dispersin.
1. Elaborar una teora admisible y relevante sobre la supuesta relacin entre dos
variables.
2. Obtener los pares de datos correspondientes a las dos variables.
3. Determinar los valores mximo y mnimo para cada una de las variables.
4. Decidir sobre qu eje se representar a cada una de las variables.
5. Trazar y rotular los ejes horizontal y vertical.
6. Marcar sobre el diagrama los pares de datos.
7. Rotular el grfico.
5.3 REGRESIN LINEAL SIMPLE
INTRODUCCIN
Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples
valores para una combinacin de valores de las independientes.
ASPECTOS TERICOS
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar

para solucionar problemas comunes en los negocios. Muchos estudios se
basanen la creencia de que es posible identificar y cuantificar alguna Relacin
Funcional entre dos o ms variables, donde una variable depende de la otra
variable.
Se puede decir que Y depende de X, en donde Y y X son dos variab les cualquiera
en un modelo de Regresin Simple.
"Y es una funcin de X"

Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
Conclusin
La ecuacin de Regresin Lineal estimada para las variables estatura y peso

muestran, de acuerdo a la prueba F, relacin. Esta relacin se ha estimado en un
R = 93.7, que indica una fuerte relacin positiva. Adems si consideramos el
coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las
variaciones que ocurren en el peso se explicaran por las variaciones en la
variable estatura.
5.4 CORRELACIN
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una

relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera
que dos variables cuantitativas estn correlacionadas cuando los valores de una
de ellas varan sistemticamente con respecto a los valores homnimos de la otra:
si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A
lo hacen tambin los de B y viceversa. La correlacin entre dos variables no
implica, por s misma, ninguna relacin de causalidad.
Fuerza, sentido y forma de la correlacin
La relacin entre dos super variablescuantitativas queda representada

mediante la lnea de mejor ajuste, trazada a partir de la nube de puntos. Los
principales componentes elementales de una lnea de ajuste y, por lo tanto, de una

correlacin, son la fuerza, el sentido y la forma.
La fuerza extrema segn el caso, mide el grado en que la lnea representa a la

nube de puntos: si la nube es estrecha y alargada, se representa por una lnea
recta, lo que indica que la relacin es fuerte; si la nube de puntos tiene una
tendencia elptica o circular, la relacin es dbil.
El sentido mide la variacin de los valores de B con respecto a A: si al crecer los

valores de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A
disminuyen los de B, la relacin es negativa.
La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la
curva monotnica o la curva no monotnica.
Interpretacin geomtrica
Dados los valores muestrales de dos variables aleatorias e, que pueden ser
consideradas como vectores en un espacio a n dimensiones, puden construirse
los "vectores centrados"
Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el

coeficiente de correlacin tiene siempre un sentido, cualquiera que sea su valor
entre 1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia
entre las variables, que sobre su distancia angular en la hiperesfera a n
dimensiones.
La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que

reposa en esta idea. La correlacion lineal se da cuando en una nube de puntos
estos se encuentran o se distribuyen alrededor de una recta.
Distribucin del coeficiente de correlacin
El coeficiente de correlacin muestral de una muestra es de hecho una

varible aleatoria, eso significa que si repetimos un experimento o consideramos
diferentes muestras se obtendrn valores diferentes y por tanto el coeficiente de
correlacin muestral calculado a partir de ellas tendr valores ligeramente
diferentes. Para muestras grandes la variacin en dicho coeficiente ser menor
que para muestras pequeas. R. A. Fisher fue el primero en determinar la
distribucin de probabilidad para el coeficiente de correlacin.
Si las dos variables aleatorias que trata de relacionarse proceden de una

distribucin gaussiana bivariante entonces el coeficiente de correlacin r sigue una
distribucin de probabilidad.
5.5 DETERMINACIN Y ANLISIS DE LOS COEFICIENTES DE CORRELACIN

Y DE DETERMINACIN.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible

relacin entre las variables. Este coeficiente se aplica cuando la relacin que
puede existir entre las varables es lineal (es decir, si representaramos en un gfico
los pares de valores de las dos variables la nube de puntos se aproximara a una
recta). No obstante, puede que exista una relacin que no sea lineal, sino
exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal
medira mal la intensidad de la relacin las variables, por lo que convendra utilizar
otro tipo de coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor
es representar los pares de valores en un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Numerador: se denominacovarianza y se calcula de la siguiente manera: en cada

par de valores (x,y) se multiplica la x menos su media, por la y menos su medi
a. Se suma el resultado obtenido de todos los pares de valores y este resultado se
divide por el tamao de la muestra.
Denominador se calcula el produto de las varianzas de x y de y, y a este

produto se le calcula la raz cuadrada.
Los valores que puede tomar el coeficiente de correlacin r son: 1 < r < 1
Si r > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el
de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si r < 0, la correlacin lineal es negativa (si sube el valor de una variable

disminuye el
de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a

1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si r = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro
tipo de correlacin (parablica, exponencial, etc.)

De todos modos, aunque el valor de r fuera prximo a 1 o 1, tampoco esto

quiere decir obligatoriamente que existe una relacin de causa-efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.
5.6 DISTRIBUCIN NORMAL BIDIMENSIONAL.
La distribucin normal n-dimensional Nn (m,S) es una generalizacin de la

distribucin normal univariante. La funcin dedensidad de una variable n-
dimensional normal X=(X1, X2, ..., Xn) de parmetros m y S es para
(i = 1,2,..,n), donde m es el vector de medias con y S es la matriz de varianzas-

covarianzas (simtrica y definida positiva) con y Propiedades:
Para n=1 la funcin de densidad anterior es la de la distribucin normal

unidimensional.
Si m = 0 y S = I (matriz identidad) entonces la distribucin se denomina normal n-

dimensional estndar, Nn(0,I) Si Z=(Z1,...,Zn) tiene una distribucin normal n-
dimensional estndar, A=(aij) es una matriz cuadrada de orden n con determinante
no nulo y m=(m1,..,mn)' es una matriz columna nx1 entonces la variable X=AZ+m
sigue una distribucin normal n-dimensional Nn(m,S) donde S = A A'.
Si X=(X1,...,Xn) tiene una distribucin normal n-dimensional Nn(m,S) y B y C son

dos matrices de nmeros reales (B de dimensin pxn y C de dimensin px1) tal
que BSB' es una matriz definida positiva entonces la variable
Z=BX+C tiene una distribucin normal p-dimensional Np(Bm+C, BSB'). Si

X=(X1,...,Xn) tiene una distribucin normal n-dimensional Nn(m,S), la variable
formada por cualquier subconjunto de k variables de las n, sigue una distribucin
normal k-dimensional con los parmetros correspondientes.
En particular con k=1, tenemos que la distribucin marginal de cualquiera de las Xi

es una distribucin normal unidimensional Sean X1, X2,..,Xnvariables aleatorias
independientes con distribuciones normales unidimensionales. Entonces, la
variable aleatoria X=(X1,...,Xn) tiene una distribucin normal n-dimensional
Nn(m,S) con
Parmetros y Sea X=(X1,...,Xn) una variable aleatoria con distribucin normal n

dimensional Nn(m,S). Sus n variables componentes X1, X2,..,Xn son
independientes si, y slo si, estn incorrelacionadas.
Sea X=(X1,...,Xn) una variable aleatoria con distribucin normal n dimensional

Nn(m,S). Si dividimos sus componentes en dos grupos.
Normal bidimensional:
Esta distribucin es un caso particular de la distribucin normal n

-dimensional para n=2 por lo que todos los resultados vistos anteriormente son
tambin vlidos. No obstante, mostraremos de forma explcita dichos resultados
sin recurrir a la notacin matricial.
Si (X,Y) tiene una distribucin normal bidimen sional, tanto X como Y siguen
distribuciones normales, en concreto X tiene una distribucin N(mX,sX) e Y tiene
una distribucin N(mY,sY). Si X e Y son variables aleatorias independientes con
distribuciones normales unidimensionales N(mX,sX) y N(mY,sY). Entonces, la
variable aleatoria (X,Y) tiene distribucin normal bidimensional Sea (X,Y) una
variable aleatoria normal bidimensional. Entonces, X e Y son independientes si, y
slo si, estn incorrelacionadas.
Sea (X,Y) una variable aleatoria normal bidimensional. La distribucin de Y

condicionada por X=x es normal unidimensional.
CONCLUSIN DE LA UNIDAD
Sabiendo acerca de problemas en las variables ahora podemos aplicar el

resolverlos mediante mtodos distintos a los conocidos o conociendo los que no
sabamos que existan, ejemplo a esto es la regresin, tomandolo en general la
regresin y correlacin son tcnicas que nos permitirn solucionar problemas,
tomar variales, escoger opciones e irnos por la que responda a una solucin
factible, tanto como se pudo comprender en la unidad IV estas tcnicas igual nos
servirn de mucha ayuda en nuestra profesin a la hora de tomar decisiones en
base a nmeros y arrojarnos soluciones mas exactas.
Bibliografa:
Rincn Pino, Mara Ysabel. Universidad Nacional Federico Villarreal, Maestra

en salud reproductiva, Curso Estadstica. Lima Per 2005.
Kenney, J. F. and Keeping, e. s., mathematics of statistics, pt. 2, 2nd ed.

Princeton, NJ: Van Nostrand, 1951 (Solo unos prrafos en el tema de correlacin).

Probabilidad y Estadistica Unidad IV y V

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Probabilidad y Estadistica Unidad IV y V

Încărcat de

Drepturi de autor:

Formate disponibile

1 Probabilidad y Estadstica

INSTITUTO TECNOLGICO SUPERIOR DE LOS ROS

Balancn, Tabasco. Sbado 18 de Abril de 2015

UNIDAD 5: REGRESIN Y CORRELACIN 15

UNIDAD IV. ESTADSTICA INFERENCIAL

4.1 INFERENCIA ESTADSTICA

a) Estadstica descriptiva: Bsicamente se ocupa de la 1 parte, es decir, a partir

b) Estadstica inferencial: Se ocupa de predecir, sacar conclusiones, para una

La inferencia estadstica es una parte de la Estadstica que comprende los

4.2 MUESTREO ESTADSTICO

Ya sabemos que una poblacin es el conjunto de individuos sobre los que

Si lo hacemos con todos los productos que vendemos luego?) * Imposibilidad

Antes de pasar a analizar dichas formas de extraccin de muestras, lo que si

En este caso, se pueden producir errores imprevistos e incontrolados. Dichos

Las distintas maneras de elegir una muestra de una poblacin se denominan

1. Muestreo no probabilstico: El investigador no elige la muestra al azar, sino

2. Muestreo probabilstico: Cuando la muestra se elige al azar. En este caso

a) Muestreo aleatorio simple: Aquel en el que cada individuo de la poblacin

b) Muestreo sistemtico: En el que se elige un individuo al azar y a partir de

c) Muestreo estratificado: E n este muestreo se divide la poblacin en

d) Muestreo por conglomerados: Si no disponemos de la relacin de los

Aqu entra el llamado muestreo por conglomerados, donde en lugar de elegir

elementos de la poblacin, llamados conglomerados. En cada etapa del muestreo

Los conglomerados deben ser tan heterogneos como la poblacin a estudiar,

Veamos la diferencia de estos muestreos mediante un ejemplo:

Imaginemos que hemos de recoger una muestra de 20 alumnos de entre

-Muestreo aleatorio simple: Elegiramos un alumno al azar (probabilidad de

-Muestreo sistemtico: Como hemos de elegir 20 alumnos de 600, es decir,

y el alumno 627 ya es otra vez el 27.

-Muestreo estratificado: Si queremos que la muestra sea representativa, lo mejor

Como de 600 en total hemos de elegir a 20, de 200 de 3 de ESO hemos de

20/600 = x/200 x = 4000/600 = 6.6 7 alumnos de 3

(Utilizando la regla de tres) De igual manera podemos calcular los alumnos

20/600 = y/150 y = 3000/600 = 5 alumnos de 4

20/600 = z/150 z = 3000/600 = 5 alumnos de 1

20/600 = t/100 t = 2000/600 = 3.3 alumnos de 2

De modo que en nuestra muestra de 20, 7 alumnos son de 3, 5 de 4, 5 de 1 y 3

-Muestreo por conglomerados: Para ver este muestreo, hemos de cambiar

Podemos seleccionar en una primera etapa alguna Universidades, despus

Como vemos los conglomerados son unidades amplias y heterogneas

Como el objetivo principal de la estadstica inferencial es el estudio de la Poblacin

En una primera aproximacin, parece lgico pensar que si queremos determinar la

Distinguiremos, por tanto, entre:

1. Parmetros poblacionales: Que son los ndices centrales y de dispersin

Representaremos la media poblacional y la desviacin tpica poblacional .

En el caso de proporciones, la proporcin de poblacin que tiene una determinada

2. Estadsticos poblacionales: Son los ndices centrales y de dispersin que

En el caso de proporciones, la proporcin de muestra que tiene una determinada

Cul es el problema de la estimacin entonces?. Como vamos a disponer de una

En la estimacin por puntos, el conocimiento de un estadstico muestral nos

4.4 ESTIMACIN PUNTUAL

Si tenemos una poblacin de parmetros desconocidos y , y tomamos una

Podramos tomar otra muestra, de igual tamao, y calcular de nuevo su media

tenemos una serie de medias, relacionadas de alguna manera con cmo? De

Propiedad: Si la poblacin sigue una distribucin normal N(, ), donde y son

a) La media de las medias muestrales de todas las muestras

b) La desviacin tpica de las medias mustrales posibles es:

Donde es la desviacin tpica poblacional y n es el tamao de las muestras.

Conclusin: Las medias de las muestras de tamao n extradas de una poblacin

Siempre que dichas muestras tengan un tamao n 30.

a) Este resultado es consecuencia del Teorema Central del lmite.

b) Si la poblacin es normal, el resultado se cumple para muestras de

c) Si es desconocida, el mismo resultado sigue siendo cierto sustituyendo

Ejemplo: La altura de los estudiantes de una poblacin se distribuye segn una