Documente Academic
Documente Profesional
Documente Cultură
NCLEO DE ANZOTEGUI
ESCUELA DE INGENIERA Y CS. APLICADAS
DEPARTAMENTO DE ELECTRICIDAD
ESTADSTICA
SECCION #20
DISTRIBUCIONE
S DE
FRECUENCIAS
Y
PROBABILIDAD
ES
Profesor:
Hernn, Rojas
Estudiante:
Junior, Torres
20.764.386
Julio, 2014
INTRODUCCION
En estadstica, se denomina distribucin de frecuencias a la agrupacin de datos
en categoras mutuamente excluyentes que indican el nmero de observaciones en cada
categora. Esto proporciona un valor aadido a la agrupacin de datos. La distribucin
de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el
nmero existente en cada clase. La tabla de frecuencias ayuda a agrupar cualquier tipo
de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los
valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es
decir, su frecuencia absoluta.
Una distribucin de probabilidad indica toda la gama de valores que pueden
representarse como resultado de un experimento. Una distribucin de probabilidad es
similar al distribucin de frecuencias relativas .Si embargo, en vez de describir el
pasado, describe la probabilidad que un evento se realice en el futuro, constituye una
herramienta fundamental para la prospectiva, puesto que se puede disear un escenario
de acontecimientos futuros considerando las tendencias actuales de diversos fenmenos
naturales.
MARCO TEORICO
1) DISTRIBUCION DE FRECUENCIA:
3,5 o tambin cuando se clasifica a las personas en clases sociales: alta, media, baja. O
cuando se califica un servicio de un hospital: excelente, bueno, regular, malo.
b) Poblacin y Muestra
Poblacin: Conjunto de individuos o elementos que le podemos observar, medir
una caracterstica o atributo que puedan ser objeto del estudio estadstico. Un censo, por
ejemplo, es el recuento de todos los elementos de una poblacin
Una poblacin est determinada por sus caractersticas definitorias. Por lo tanto,
el conjunto de elementos que posea esta caracterstica se denomina poblacin o
universo. Poblacin es la totalidad del fenmeno a estudiar, donde las unidades de
poblacin poseen una caracterstica comn, la que se estudia y da origen a los datos de
la investigacin.
Otros ejemplos de poblacin:
El conjunto formado por todos los estudiantes universitarios en Venezuela.
El conjunto de todos los estudiantes de una Universidad.
El conjunto de personas fumadoras de una regin.
Son caractersticas medibles u observables de cada elemento por ejemplo, su
estatura, su peso, edad, sexo, etc.
Supongamos que nos interesa conocer el peso promedio de la poblacin formada
por los estudiantes de una universidad. Si la universidad tiene 5376 alumnos, bastara
pesar cada estudiante, sumar los 5376 pesajes y dividirlo por 5376. Pero este proceso
puede presenta dificultades dentro de las que podemos mencionar:
Localizar y pesar con precisin cada estudiante:
Escribir todos los datos sin equivocaciones en una lista:
Efectuar los clculos.
Las poblaciones pueden ser finitas e infinitas. Las dificultades son mayores si en
nmero de elementos de la poblacin es infinito, si los elementos se destruyen, si sufren
daos al ser medidos o estn muy dispersos, si el costo para realizar el trabajo es muy
costoso.
Es de fundamental importancia comenzar el estudio definiendo la poblacin a
estudiar.
Las poblaciones suelen ser muy numerosas, por lo que es difcil estudiar a todos
sus miembros; adems de que esto no es posible, no es necesario. Es como si se quisiera
estudiar la composicin qumica del agua de un ro y para ello se intentar analizar toda
el agua que corre por su cauce, cuando solamente se puede tomar unas muestras para
realizar ese estudio y llegar a conclusiones generalizables con respecto a la composicin
qumica del agua a todo el ro.
: esto es,
Una advertencia en el uso de esta medida, es que al elevar las distancias al cuadrado,
automticamente se elevan las unidades. Por ejemplo, si unidad trabajada en los datos es
centmetros, la varianza da como resultados centmetros al cuadrado.
Varianza Muestral
Dentro de la estadstica descriptiva, la varianza muestral se utiliza como medida
de dispersin, cuya definicin es:
Propiedades de Varianza
Algunas propiedades de la varianza son:
, propiedad que permite que la definicin de desviacin tpica sea
consistente.
Siendo a y b constantes cualesquiera. De esta ltima
propiedad es fcil ver que la varianza de una constante es cero. i.e.
, que se conoce como frmula computacional
para el clculo de la varianza.
Media
En matemticas y estadstica una media o promedio es una medida de tendencia
central que resulta al efectuar una serie determinada de operaciones con un conjunto de
nmeros y que, en determinadas condiciones, puede representar por s solo a todo el
conjunto. Existen distintos tipos de medias, tales como la media geomtrica, la media
ponderada y la media armnica aunque en el lenguaje comn, el trmino se refiere
generalmente a la media aritmtica.
Mediana
En Estadstica, una mediana es el valor de la variable que deja el mismo nmero
de datos antes y despus que l, una vez ordenados estos. De acuerdo con esta
definicin el conjunto de datos menores o iguales que la mediana representarn el 50%
de los datos, y los que sean mayores que la mediana representarn el otro 50% del total
de datos de la muestra.
Existen 2 estrategias para calcular la mediana: Considerando los datos tal cual,
sin agruparlos, o bien cuando los tenemos agrupados en intervalos de clase. Veamos
cada una de ellas.
. Es decir:
aritmtica
Datos agrupados:
y otros dos
d) Histograma de Frecuencia
En estadstica, un histograma es una representacin grfica de una variable en
forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los
valores representados. En el eje vertical se representan las frecuencias, y en el eje
horizontal los valores de las variables, normalmente sealando las marcas de clase, es
decir, la mitad del intervalo en el que estn agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o
altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir,
valores continuos. Los histogramas son ms frecuentes en ciencias sociales, humanas y
econmicas que en ciencias naturales y exactas. Y permite la comparacin de los
resultados de un proceso.
Tipos de Histogramas
Diagramas de barras simples: Representa la frecuencia simple (absoluta o
relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de
la categora que representa.
Diagramas de barras compuesta: Se usa para representar la informacin de
una tabla de doble entrada o sea a partir de dos variables, las cuales se representan as;
la altura de la barra representa la frecuencia simple de las modalidades o categoras de
la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.
Diagramas de barras agrupadas: Se usa para representar la informacin de
una tabla de doble entrada o sea a partir de dos variables, el cual es representado
mediante un conjunto de barras como se clasifican respecto a las diferentes
modalidades.
GRAFICAS
Se
representan
los intervalos
de clase en el
eje de
abscisas (eje
horizontal) y
las
frecuencias,
absolutas o
relativas, en
el de
ordenadas
(eje vertical).
O representar
simultneamen
te los
histogramas de
una variable en
dos situaciones
distintas.
Otra forma
muy
frecuente,
de
representar
dos
histograma
s de la
misma
variable en
dos
situaciones
distintas.
Construccin de un Histograma
Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el
dato menor.
Paso 2: Obtener el nmeros de clases, existen varios criterios para determinar el
nmero de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de
ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de
cmo estn los datos y cuntos sean. Un criterio usado frecuentemente es que el nmero
de clases debe ser aproximadamente a la raz cuadrada del nmero de datos. Por
ejemplo, la raz cuadrada de 30 (nmero de artculos) es mayor que cinco, por lo que se
seleccionan seis clases.
Paso 3: Establecer la longitud de clase: es igual al rango entre el nmero de
clases.
Paso 4: Construir los intervalos de clases: Los intervalos resultan de dividir el
rango de los datos en relacin al resultado del PASO 2 en intervalos iguales.
Paso 5: Graficar el histograma: En caso de que las clases sean todas de la misma
amplitud, se hace un grfico de barras, las bases de las barras son los intervalos de
clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base
superior de los rectngulos se obtiene el polgono de frecuencias.
e) Polgono de Frecuencia
Un polgono de frecuencia es un grfico que se realiza a travs de la unin de los
puntos ms altos de las columnas en un histograma de frecuencia (que utiliza columnas
verticales para mostrar las frecuencias). Los polgonos de frecuencias para datos
agrupados, por su parte, se construyen a partir de la marca de clase que coincide con el
punto medio de cada columna del histograma de frecuencias acumuladas, que permite
diagramar su correspondiente polgono.
Por ejemplo: un polgono de frecuencia permite reflejar las temperaturas
mximas promedio de un pas en un perodo de tiempo. En el eje X (horizontal), pueden
sealarse los meses del ao (enero, febrero, marzo, abril, etc). En el eje Y (vertical), se
indican las temperaturas mximas promedio de cada mes (24,25,21). El polgono
de frecuencia se crea al unir con segmento, todas las temperaturas mximas promedio.
Los polgonos de frecuencia se suelen utilizar cuando se desea mostrar ms de
una distribucin o la clasificacin cruzada de una variable cuantitativa continua con una
cualitativa o cuantitativa discreta en un mismo grfico. El punto con mayor altura de un
polgono de un polgono de frecuencia representa la mayor frecuencia mientras que el
rea bajo la curva incluye la totalidad de los datos existentes. Cabe recordar que la
frecuencia es la repeticin menor o mayor de un suceso, o la cantidad de veces que un
proceso peridico se repite por unidad de tiempo.
P(
I=1
0P(A)1
P(s)=1
Si A y B son eventos que se excluyen mutuamente, P( AB)= P(A) + P(B)
Si A1, A2,,An, son eventos que se excluyen mutuamente de par en par
entonces:
n
n
P ( Ai)= P(Ai)
i=1
i=1
La propiedad 4 no se sigue; sin embargo, cuando consideramos el espacio
muestral idealizado, esta condicin ser necesaria y por tanto, se incluye aqu.
La eleccin de estas propiedades de la probabilidad est obviamente motivada
por las caractersticas correspondientes de la frecuencia relativa. La propiedad antes
mencionada como regularidad estadstica, ms tarde se ligara con esta definicin de
probabilidad. Por el momento solo demostraremos que los valores de P(A) y fA estn
prximos uno al otro (en cierto sentido), si fA se basa en un gran nmero de
repeticiones. Este hecho es el que justifica el empleo de P(A) para medir la probabilidad
de que A ocurra.
Por el momento no sabemos como calcular P(A). Solo hemos anotado algunas
propiedades generales que posee P(A).
La probabilidad mide la frecuencia con la que se obtiene un resultado (o
conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen
todos los resultados posibles, bajo condiciones suficientemente estables. La teora de la
probabilidad se usa extensamente en reas como la estadstica, la fsica, la matemtica,
la ciencia y la filosofa para sacar conclusiones sobre la probabilidad de sucesos
potenciales y la mecnica subyacente de sistemas complejos.
El estudio cientfico de la probabilidad es un desarrollo moderno. Los juegos de
azar muestran que ha habido un inters en cuantificar las ideas de la probabilidad
durante milenios, pero las descripciones matemticas exactas de utilidad en estos
problemas slo surgieron mucho despus.
Segn Richard Jeffrey, "Antes de la mitad del siglo XVII, el trmino 'probable'
(en latn probable) significaba a probable, y se aplicaba en ese sentido, unvocamente, a
la opinin y a la accin. Una accin u opinin probable era una que las personas
sensatas emprenderan o mantendran, en las circunstancias."[]
Aparte de algunas consideraciones elementales hechas por Girolamo Cardano en
el siglo XVI, la doctrina de las probabilidades data de la correspondencia de Pierre de
Fermat y Blaise Pascal (1654). Christian Huygens (1657) le dio el tratamiento cientfico
conocido ms temprano al concepto. Ars Conjectandi (pstumo, 1713) de Jakob
Bernoulli y Doctrine of Chances (1718) de Abraham de Moivre trataron el tema como
una rama de las matemticas. Vase El surgimiento de la probabilidad (The Emergence
of Probability) de Ian Hacking para una historia de los inicios del desarrollo del propio
concepto de probabilidad matemtica.
La teora de errores puede trazarse atrs en el tiempo hasta Opera Miscellanea
(pstumo, 1722) de Roger Cotes, pero una memoria preparada por Thomas Simpson en
1755 (impresa en 1756) aplic por primera vez la teora para la discusin de errores de
observacin. La reimpresin (1757) de esta memoria expone los axiomas de que los
errores positivos y negativos son igualmente probables, y que hay ciertos lmites
asignables dentro de los cuales se supone que caen todos los errores; se discuten los
errores continuos y se da una curva de la probabilidad.
Pierre-Simon Laplace (1774) hizo el primer intento para deducir una regla para
la combinacin de observaciones a partir de los principios de la teora de las
probabilidades. Represent la ley de la probabilidad de error con una curva y = (x),
siendo x cualquier error e y su probabilidad, y expuso tres propiedades de esta curva:
1. Es simtrica al eje y;
2. El eje x es una asntota, siendo la probabilidad del error
igual a 0;
Teora de Probabilidad
La probabilidad constituye un importante parmetro en la determinacin de las
diversas causalidades obtenidas tras una serie de eventos esperados dentro de un rango
estadstico.
Existen diversas formas como mtodo abstracto, como la teora Dempster-Shafer
y la teora de la relatividad numrica, esta ltima con un alto grado de aceptacin si se
toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel
mnimo ya que somete a todas las antiguas reglas a una simple ley de relatividad. As
mismo es la parte de ley.
Aplicaciones
Dos aplicaciones principales de la teora de la probabilidad en el da a da son en
el anlisis de riesgo y en el comercio de los mercados de materias primas. Los gobiernos
normalmente aplican mtodos probabilsticos en regulacin ambiental donde se les
llama "anlisis de vas de dispersin", y a menudo miden el bienestar usando mtodos
que son estocsticos por naturaleza, y escogen qu proyectos emprender basndose en
anlisis estadsticos de su probable efecto en la poblacin como un conjunto. No es
correcto decir que la estadstica est incluida en el propio modelado, ya que tpicamente
los anlisis de riesgo son para una nica vez y por lo tanto requieren ms modelos de
probabilidad fundamentales, por ej. "la probabilidad de otro 11-S". Una ley de nmeros
pequeos tiende a aplicarse a todas aquellas elecciones y percepciones del efecto de
estas elecciones, lo que hace de las medidas probabilsticas un tema poltico.
Un buen ejemplo es el efecto de la probabilidad percibida de cualquier conflicto
generalizado sobre los precios del petrleo en Oriente Medio - que producen un efecto
domin en la economa en conjunto. Un clculo por un mercado de materias primas en
que la guerra es ms probable en contra de menos probable probablemente enva los
precios hacia arriba o hacia abajo e indica a otros comerciantes esa opinin. Por
consiguiente, las probabilidades no se calculan independientemente y tampoco son
necesariamente muy racionales. La teora de las finanzas conductuales surgi para
por el hecho de no poder determinar con precisin sus parmetros fundamentales, lo que
imposibilita la creacin de un sistema de ecuaciones determinista.
Clculo
Calcular la probabilidad es posible, utilizando un diagrama de rbol, o tablas y
grficas:
1) La vida media de una lmpara, segn el fabricante, es de 68 meses, con una
desviacin tpica de 5. Se supone que se distribuye segn una distribucin
normal En un lote de 10.000 lmparas. a) Cuntas lmparas superarn
previsiblemente los 75 meses? b) Cuntos lmparas se estropearn antes de
60 meses?
I) Dos caras.
c) Un dado est trucado, de forma que las probabilidades de obtener las distintas
caras son proporcionales a los nmeros de estas. Hallar:
A) La probabilidad de obtener el 6 en un lanzamiento.
d) Se lanzan dos dados al aire y se anota la suma de los puntos obtenidos. Se pide:
A) La probabilidad de que salga el 7.
P(x)
p(xi) = 1
i=1
1
se sustituirn por f(x) 0 y f(x) dx =1. Se procede formalmente como sigue.
0
b)
f(x) dx = 1.
b
c) Para calquier a,b, tal que -< a <b <+, tenemos P(a X b) = f(x) dx
a
Observaciones:
a) Fundamentalmente queremos decir que X es una variable aleatoria continua si X
puede tomar todos los valores en algn intervalo (c,d), donde c y d pueden ser ( +) respectivamente. La existencia estipulada de una fdp es un mtodo
matemtico que tiene una base intuitiva considerable y hace ms sencillo
nuestros clculos. En relacin con esto, de nuevo se debe sealar que cuando
suponemos que X es una variable aleatoria continua, estamos considerando la
descripcin idealizada de X.
b) P(c < X < d) representa el rea bajo la grfica de la figura de la fdp f entre x = c
y z = d.
F(x)
x
x=c
z=d
Aunque quisiramos estar de acuerdo (para fines matemticos) con que cada
punto concebible del segmento pudiera ser el resultado de nuestro experimento, nos
sorprenderamos mucho si en realidad escogieramos el punto medio del segmento, o
cualquier otro punto especfico de ese elemento. Cuando indicamos esto en un lenguaje
matemtico preciso, decimos que el evento tiene probabilidad 0. En vista de estas
consideraciones, todas las siguientes probabilidades son iguales si X es una variable
aleatoria continua:
P(c < X < d), P(c < X < d), P(c < X < d), y P(c < X < d)
d) Aunque aqu no verificaremos los detalles, se puede demostrar que la anterior
asignacin de probabilidades a los eventos en Rx satisface los axiomas bsicos de
probabilidades, donde podemos tomar:
x | - < x < +
como el espacio muestral.
+
e) Si una funcin f* satisface las condiciones, f*(x) 0, para toda x, y f*(x)
dx=K,
donde K es un nmero positivo real (no
necesariamente igual a 1), entonces f* no satisface todas las condiciones para ser una
fdp. Sin amargo, podemos definir con facilidad una nueva funcin, digamos f, en donde
trminos de f* como sigue:
f*(x)
f(z)=
para toda x
K
x+ x
f(s)ds= x f(x
x + x
x
Ejemplos:
f(x) dx ?
a
Ntese que si a < b < 0 o 1 < a < b, P(a < X < b) =0 y,por tanto, f(x)=0.Si 0 < a < b < 1,
P(a< X < b)=b a y, por tanto, f(x)= 1. As encontramos:
1, 0< x < 1,
F(x) =
0, para cualquier otro valor.
F(x)
F(x)
(1,2)
X=1500
X=2500
0 < x < 1,
-
evaluar la integral
(2x) dx=1/4
0
2x dx
1/3
5/36
=
2/3
5
=
1/3
12
2x dx
1/3
b) Distribucin Normal
En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss
o distribucin gaussiana, a una de las distribuciones de probabilidad de variable
continua que con ms frecuencia aparece en fenmenos reales.
etc.
Distribucin normal
Funcin
de
densidad
de
probabilidad
de
distribucin
Parmetros
>0
Dominio
Funcin
densidad (pdf)
de
Funcin
de
distribucin (cdf)
Media
Mediana
Moda
Varianza
de
probabilidad
Coeficiente
simetra
de
Curtosis
0
0
Entropa
Funcin generadora
de momentos (mgf)
Funcin
caracterstica
Ejemplos:
es perfectamente vlida.
a)
t = (75 -68)/5 = 1,4
P (X > 75) = (t > 1,4) = 1 - P (t 1,4) = 1 - 0,9192 = 0,0808
Luego, el 8,08% de las lmparas (808 lmparas) superarn los 75 meses
b)
t = (60 -68)/5 = -1,6
P (X 60) = (t -1,6) = P (t> 1,6) = 1 - P (t 1,6) = 0,0548
Luego, el 5,48% del lote (548 lmparas) no llegarn probablemente a durar 60 meses
t = (400-302)/40 = 2,45
c) Distribucin Binomial.
Caractersticas Analticas
Su funcin de probabilidad est dada por:
donde
, siendo
en )
las combinaciones de
en (
elementos tomados de
Todo experimento que tenga estas caractersticas diremos que sigue el modelo de la
distribucin Binomial. A la variable X que expresa el nmero de xitos obtenidos en
cada prueba del experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0,
1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar
todas las maneras posibles de obtener k-xitos y (n-k) fracasos debemos calcular stas
por combinaciones (nmero combinatorio n sobre k).
La distribucin Binomial se suele representar por B(n,p) siendo n y p los parmetros
de dicha distribucin.
Funcin de Probabilidad de la v.a. Binomial
Funcin de probabilidad de la distribucin Binomial o tambin denominada funcin de
la distribucin de Bernoulli (para n=1). Verificndose: 0 p 1
Como el clculo de estas probabilidades puede resultar algo tedioso se han construido
tablas para algunos valores de n y p que nos facilitan el trabajo.
Ver Tabla de la Funcin de Probabilidad de la Binomial
Parmetros de la Distribucin Binomial
Ejemplos
1) Al poner en funcionamiento una mquina, existe cierta probabilidad de que el
operario cometa un error. De manera realista puede suponerse que ste aprende
en cuanto sabe que la probabilidad de cometer errores disminuye cuando use la
mquina en repetidas ocasiones. Supongamos que el operario hace n intentos y
que los n ensayos son estadsticamente independientes. Supongamos de manera
especifica que P( en error cometido en la i-sima repeticin)= 1/(i+1),i=1,2,n.
Supongamos que se consideran 4 intentos ( esto es, n=4) y que se define la
variable aleatoria X como el nmero de operaciones hechas sin error en la
maquina. Observemos que X no esta distribuida binomialmente porque la
probabilidad de xito no es constante,
Para calcular la probabilidad de X= 3, por ejemplo, procedemos como sigue: X=3 si y
slo si hay exactamente un intento no exitoso. Esto puede suceder en el primero, en el
segundo, tercero o cuarto ensayo.
Por lo tanto,
P(X=3)= 2/3 4/5 +1/2 1/3 4/5 +1/2 2/3 4/5 + 2/3 1/5
= 5/12
2) Consideremos una situacin semejante a la descrita en el ejemplo anterior. Esta
vez supondremos que hay una probabilidad constante p1 de no cometer error en
la mquina durante cada uno de los primeros n1 intentos y una probabilidad
constante p2<p1 de no cometer error en cada una de las siguientes n2
repeticiones. Sea X el nmero de operaciones exitosas de la mquina durante los
n=n1+n2 intentos independientes. Encontramos una expresin general para
P(X= k). Por la misma razn dada en el ejemplo precedente, X no esta
distribuida binomialmente. Para obtener P(X=k) procedemos como sigue.
Sea Y1 el nmero de operaciones correctas durante los primeros n1 intentos y sea Y2el
nmero de operaciones correctas durantes los segundos n2 intentos.
Por lo tanto Y1 y Y2 son variables aleatorias independientes y X= Y1+Y2. As, X= si y
slo si Y1=r y Y2=k-r, para cualquier entero que satisfaga 0 < r < n1 y 0< k- r < n2Las restricciones anteriores sobre r son equivalentes a 0< r < n1 y k-n2< r < k.
Combinndolas podemos escribir
Max (0,k n2) < r < min (k,n19
d) Distribucin de Poisson
Sea X una variable aleatoria que toma los valores posibles: 0,1,n, Si
- k
P(X=k)= e , k= 0,1,,n,
k!
Decimos que X tiene una distribucin de Poisson con parmetro > 0.
Para verificar que la anterior representa una legtima distribucin de probabilidades,
simplemente observemos que
- k
-
P(X=k)= (e a /k!)= e e = 1.
k=0
k=0
Observacin:
Puesto que estamos definiendo en forma directa la variable aleatoria en trminos de su
recorrido y distribucin de probabilidades, sin referencia a ningn espacio muestral
original S, podemos suponer que el espacio muestral S se ha identificado con Rx y e
X(s)=s. Es decir, los resultados del experimento son simplemente los nmeros 0,1,2,
y las probabilidades asociadas con cada uno de esos resultados estn dadas por las
ecuaciones anteriores.
Ejemplos:
1) En una concurrida interseccin de trfico la probabilidad p de que un automvil
tenga un accidente es muy escasa, digamos p=0.0001. Sin embargo, durante
cierta parte del da, entre las 4pm y las 6pm un gran nmero de automviles pasa
por la interseccin, digamos 1000. En dichas condiciones, Cul es la
probabilidad de que dos o ms accidentes ocurran durante ese periodo?
Formulemos algunas hiptesis. Supongamos, en primer lugar, que el valor de p es el
mismo para cada uno de los automviles. En segundo lugar, supongamos que si un
automvil tiene o no un accidente, no depende de lo que le suceda a cualquier otro
automvil. (Esta suposicin, obviamente, no es realista; no obstante la formularemos.)
As podremos suponer que si X es el nmero de accidentes entre los 1000 automviles
que llegan, entonces X tiene una distribucin binomial con p=0.0001. (Otra hiptesis,
no indicada de manera explicita, es que n, el nmero de automviles que pasa por la
interseccin entre las 4pm y las 6pm est predeterminada en 1000.desde luego, un
planteamiento ms realista seria considerar n misma como una variable aleatoria cuyo
valor depende de un mecanismo aleatorio. Sin embargo no haremos esto aqu, slo
consideraremos n como fija.) Por tanto podemos obtener el valor exacto de la
probabilidad deseada:
(1+0.1)= 0.0045.
P(X=k)=
n
k
k
P
n-k
(1-P)
k
(np)
k!
Supngase, por ejemplo, que un fabricante produce artculos de los cuales alrededor de
1 en 1000 son defectuosos. Esto es, p= 0,001. Por tanto, usando la distribucin
binomial, encontramos que en un lote de 500 artculos la probabilidad de que ninguno
sea defectuoso es:
500
(0.999)
= 0.609. si aplicamos la aproximacin de Poisson, esta probabilidad puede
escribirse como:
-0.5
e
= 0.61.
e) Distribucin Chi-Cuadrada
Un caso especial muy importante de la distribucin gama, se obtiene si hacemos = y
r =n/2, donde n es un entero positivo. Obtenemos una familia de distribuciones de un
parmetro con fdp
n/2-1
f(z) =
1
z
n/2
2 (n/2)
-z/2.
z >0
Una variable aleatoria Z que tiene fdp dada por la ecuacin anterior se dice que tiene
una distribucin X- cuadrada con n grados de libertad ( se denota con: 2Xn ). En la
figura se muestra la fdp para n= 1,2 y n > 2. Una consecuencia inmediata de la
ecuacin:
2
E(X)= r/ , V(X9= r /
Es que si Z tiene una fdp de la ecuacin:
n/2-1
f(z) =
1
z
n/2
2 (n/2)
-z/2.
z >0
Tenemos:
E(Z)=n ,
f(z)
V(Z)= 2n
f(z)
f(z)
(a) n=1
(b) n=2
z
(c)n>2
1-
2
X
donde:
Esta integral no tiene una solucin conocida, y solo se conocen mtodos numricos para
calcular sus valores, hay distintos tipos de tablas y algoritmos para ordenador con los
que se pueden calcular sus soluciones, veamos una tabla distribucin chi-cuadrado y su
modo de utilizacin.
La Tabla
Esta tabla presenta la distribucin de probabilidad de chi-cuadrado para distintos valores
de k(de 1 a 10) y de x(de 0 a 20 de 0,2 de incremento), presentndolo con seis cifras
decimales, separadas de tres en tres por un espacio en blanco para facilitar la lectura, en
la fila superior estn los valores de k, y en la columna de la izquierda los de x, donde se
cruzan la columna de la k buscada y la fila de la x, se encuentra el valor de la
probabilidad acumulada desde 0 a la x buscada.
Ejemplo:
Cual es la Distribucin de probabilidad de chi-cuadrado de 4 grados de libertad de que
x< 1,2
Buscando en la tabla la columna del 4 y la fila de 1,2, tenemos:
, pero se
Para calcular
, partimos de la expresin:
Ejemplo
Calcular la distribucin de probabilidad de una variable estadstica chi-cuadrado, de 6
grados de libertad sea mayor de 3,4.
segn lo anterior:
buscando en la tabla tenemos:
con lo que tenemos:
operando tenemos:
que es la respuesta a la pregunta.
Para la variable mayor que x1 y menor que x2
siendo:
tenemos que:
Ejemplo
Cual es la probabilidad de que una variable chi-cuadrado de 8 grados de libertad este
comprendida entre 3,4 y 5,6.
Esto es:
segn la tabla tenemos:
Interpolacin Lineal
La funcin chi-cuadrado es continua para x mayor que cero, pero en la tabla solo se
recogen algunos de sus valores, si bien la tabla podra hacerse ms extensa el numero de
valores recogidos siempre seria finito, para calcular los valores no recogidos en la tabla
podemos emplear la interpolacin lineal.
Ejemplo
Cual es la probabilidad de una distribucin chi-cuadrado de 5 grados de libertad, de que
x sea menor que 1,75.
Esto es:
el valor 1,75 no esta en la tabla, pero si tenemos que:
sustituyendo en la expresin:
tenemos que:
operando tenemos:
esto es:
que resulta:
que es el resultado buscado:
Ejemplo
Cual es el valor de x, de una distribucin chi-cuadrado de 6 grados de libertad, que deja
a su izquierda una probabilidad del 80%
Consultando la tabla tenemos que:
Calculo de la probabilidad con la tabla inversa.
Empleando esta tabla podemos realizar clculos directos como en la anterior,
normalmente ser necesaria recurrir a la interpolacin lineal para obtener los resultados
Ejemplo
Cul es la distribucin de probabilidad de chi-cuadrado de 4 grados de libertad de que
x < 1,2 ?
este es el mismo ejemplo que en la tabla directa, veamos como se hara en este caso:
la pregunta es:
este valor no figura en la tabla pero si tenemos en la fila de k= 4, que:
operando:
esto es:
que da como resultado:
esto es:
como se puede ver hay una diferencia del orden de la tercera cifra decimal, respecto a la
bsqueda directa en la tabla, esta diferencia se produce por la interpolacin lineal, al
sustituir la funcin por la recta que une dos puntos conocidos, y a la relativamente gran
diferencia entre x1 y x2, que es el 60% al valor de x1.
Para valores de k grandes
Ejemplo:
2
Supngase que la velocidad V de un objeto tiene distribucin N(0,1). Sea K=mV 72 la
energa cintica del objeto. Para encontrar la fdp de K, busquemos primero la fdp de
2
S= V . Al aplicar directamente el teorema:
2
Sean X una variable aleatoria continua con fdp f y Y=X . Entonces, la variable aleatoria
Y tiene fdp dada por:
g(y)=
1
2 y
[f( y) + f(-y)]
g(s)=
2s
-1/2
=s
-s/2
1 e
2
1
n/2
2
-z/2.
z >0
(n/2)
V(Z)= 2n
Encontramos directamente:
2
E(K)=m/2 y V(K)= m /2
f) Distribucin de Weibull
La distribucin de Weibull, que recibe su nombre del investigador sueco que la
desarroll, se caracteriza por considerar la tasa de fallos variable, siendo utilizada por su
gran flexibilidad, al poder ajustarse a una gran variedad de funciones de fiabilidad de
dispositivos o sistemas.
La distribucin de Weibull complementa a la distribucin exponencial y a la normal, se
usa cuando se sabe de antemano que una de ellas es la que mejor describe la
distribucin de fallos o cuando se han producido muchos fallos (al menos 10) y los
tiempos correspondientes no se ajustan a una distribucin ms simple.
La distribucin de Weibull nos permite estudiar cul es la distribucin de fallos de un
componente clave de seguridad que pretendemos controlar y que a travs de nuestro
registro de fallos observamos que stos varan a lo largo del tiempo y dentro de lo que
se considera tiempo normal de uso.
Definicin:
Modificando la nocin de tasa constante de fallas que condujo la ley exponencial de
falla. Supngase que la tasa de fallas Z, asociada con T, la duracin de un artculo, tiene
la forma siguiente:
-1
Z(t)= () t ,
Donde y son constantes positivas. De la ecuacin:
t
- 0 Z(s) ds
F(t)= Z(t) e
Obtenemos la expresin siguiente para la fdp de T:
-1 -t
F(t)= () t
e , t > 0, , > 0
Se dice que la variable aleatoria con fdp dada por la ecuacin anterior tiene una
distribucin de Weibull. La figura muestra la fdp para =1 y =1,2,3. La funcin
De confiabilidad R est dada por:
-t
R(t)= e
que es una funcin decreciente.
f(t)
=1
=3
=2
f
0.4
0.8
1.2
Observacin:
La distribucin exponencial es un caso especial de distribucin de Weibull, puesto que
obtenemos la distribucin exponencial si hacemos =1 en la ecuacin:
-1
Z(t)= () t
La suposicin de la ecuacin anterior establece que Z(t) no es una constante, sino ue es
proporcional a las potencias de t. Por ejemplo, si =2 , Z es una funcin lineal de t; si
=3, Z es una funcin cuadrtica de t, etc. As, Z es una funcin creciente, decreciente o
constante de t, segn el valor de como se indica en la figura:
z(t)
z(t)
=1
t
Z es constante
z(t)
>1
t
Z es creciente
0<< 1 t
Z es decreciente
Ejemplo
1) Los datos siguientes corresponden a los tiempos de falla de cierto componente
de un aeroplano: 23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12,
120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95.
Este tipo de datos se modela generalmente con una distribucin Weibull, cuya funcin
de densidad est dada por
(1)
Supongamos que se desea hacer inferencias sobre el parmetro
distribucin inicial no informativa
y los
, con base en la
observaciones
en vista de la informacin
distribucin final de
, la
:
(2)
Densidad predictiva de
:
(3)
es el nmero de parmetros
Regresin logstica
La regresin lineal tcnica que usa variables aleatorias, continuas se diferencia del otro
mtodo analtica que es la correlacin, porque esta ltima no distingue entre las
variables respuesta y la variable explicativa por que las trata en forma simtrica.
La mate matizacin nos da ecuaciones para manipular los datos, como por ejemplo
medir la circunferencia de los nios y nias y que parece incrementarse entre las edades
de 2 meses y 18 aos, aqu podemos inferir o predecir que las circunferencias del crneo
cambiara con la edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la
edad la variable explicativa.
Regresin Lineal: y = A + Bx
Regresin Logartmica: y = A + BLn(x)
Regresin Exponencial: y = Ac(bx)
Regresin Cuadrtica: y = A + Bx +Cx2
+2 SD (98%)
Media (50%)
-2 SD (2%)
Para obtener un modelo de regresin es suficiente establecer la regresin para eso se
hace uso del coeficiente de correlacin: R.
R = Coeficiente de correlacin, este mtodo mide el grado de relacin existente entre
dos variables, el valor de R vara de -1 a 1, pero en la prctica se traba con un valor
absoluto de R.
El valor del coeficiente de relacin se interpreta de modo que a media que R se
aproxima a 1, es ms grande la relacin entre los datos, por lo tanto R (coeficiente de
correlacin) mide la aproximacin entre las variables.
Distribucin Divariante
La distribucin divariante es cuando se estudia en una poblacin dos variables, que
forman pares correspondientes a cada individuo.
LENGUAJE 2
10
Los pares de valores son: (2, 2) (4,2) (5,5)(8,7) (9,10) forman una distribucin divriate.
La correlacin, mtodo por el cual se relacionan dos variables se pude graficar con un
diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de puntos,
encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar una recta
y cuyos puntos mas cercanos de una recta hablaran de una correlacin mas fuerte, ha
esta recta se le denomina recta de regresin, que puede ser positiva o negativa, la
primera contundencia a aumentar y la segunda en descenso o decreciente.
Tambin se puede describir un diagrama de dispersin en coordenadas cartesianas
valores como en la distribucin divriate, en donde la nube de puntos representa los
pares de valores.
Por ltimo se pueden graficar las lneas de tendencia, herramienta muy til para
el mercadeo por que es utilizada para evaluar la resistencia que proyectan los precios.
Cuando una lnea de tendencia central se rompe ya sea con tendencia al alza o en la baja
es porque ocurre un cambio en los precios, por lo tanto las lneas de tendencia pueden
ser alcista cuando se unen los puntos sucesivos y bajista cuando se unen los puntos
mximos.
Tambin existen grficos que representan la dispersin de datos dentro de las
coordenadas cartesianas, sea las nubes de puntos y que pueden darse segn la relacin
que representa, que puede ser lineal, exponencial y sin relacin, esta ltima cuando los
puntos estn dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay
relacin.
Relacin Exponencial:
Sin Relacin
(1/30) * 1,034
------------------------------= 40,265
---------(1/30) * 0,00856
Y el parmetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 * x)
Esta recta define un valor de la variable dependiente (peso), para cada valor de la
variable independiente (estatura):
Estatura
x
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
Peso
x
30,6
31,0
31,4
31,8
32,2
32,6
33,0
33,4
33,8
34,2
34,6
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para
solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia
de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms
variables, donde una variable depende de la otra variable. Se puede decir que Y depende
de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple.
"Y es una funcin de X" Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable
dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se
establece que Y es una funcin de slo una variable independiente, razn por la cual se
le denomina tambin Regresin Divariada porque slo hay dos variables, una
dependiente y otra independiente y se representa as:
Y = f (X) "Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le
llama regresando variable de respuesta.
La variable Independiente X se le denomina variable explicativa regresor y se le
utiliza para explicar y.
CORRELACIN
Cada conjunto de correlaciones se basa en un tipo de correlacin, que no es ms que una
lista de propiedades. stas pueden ser propiedades de datos, que se encuentran en el
propio mensaje, o propiedades de contexto, que describen detalles del sistema o de
mensajes no relacionados con los datos transmitidos en el mensaje.
Puede usar un tipo de correlacin en ms de un conjunto de correlaciones. Si necesita
establecer correlaciones entre distintos valores para las propiedades de un tipo de
correlacin, deber crear un conjunto de correlaciones nuevo: cada uno de ellos se
puede inicializar una sola vez. Puede promocionar las propiedades de un esquema de
propiedades para declarar que algunas de las propiedades de un mensaje estn
accesibles para la orquestacin.
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de
una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que
dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas
La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta,
la curva monotnica o la curva no monotnica
TIPOS DE CORRELACIN
La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una
forma redondeada.
GRADO DE CORRELACIN
El grado de correlacin indica la proximidad que hay entre los puntos de la nube de
puntos. Se pueden dar tres tipos:
La correlacin ser fuerte cuanto ms cerca est los puntos de la recta.
En una distribucin bidimensional puede ocurrir que las dos variables guarden algn
tipo de relacin entre s.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy
posible que exista relacin entre ambas variables: mientras ms alto sea el alumno,
mayor ser su peso.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin
entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre
las variables es lineal (es decir, si representramos en un grfico los pares de valores de
las dos variables la nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la
intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de
coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es
representar los pares de valores en un grfico y ver qu forma describe.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de
valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma
el resultado obtenido de todos los pares de valores y este resultado se divide por el
tamao de la muestra.
Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto
se le calcula la raz cuadrada.
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la
otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el
de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo
de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere
decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables,
ya que este resultado podra haberse debido al puro azar.
Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de
altura y peso de los alumnos de una clase:
Alumno
x
Alumno
1
Alumno
2
Alumno
3
Alumno
4
Alumno
5
Alumno
6
Alumno
7
Alumno
8
Alumno
9
Alumno
10
Aplicamos la frmula:
Estatura Peso
x
x
1,25
33
1,28
34
1,27
34
1,21
31
1,22
32
1,29
34
1,30
34
1,24
31
1,27
35
1,29
34
(1/30) * (0,826)
-------------------------------------------------------r=
-(((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)
Luego,
r=
X
0,719
x
Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo
positivo.
CONCLUSION