Estadistica Texto Paralelo

c c

c
Facultad de Ciencias Jurídicas y Sociales
4to. Semestre
Sección ͞B͟
ESTADISTICA

c

Estadística es el Conjunto de informes numéricos derivados de los censos de población, de

datos del registro del estado civil y de informes de apropiaciones.
Estadística es la disciplina que estudia cuantitativamente los fenómenos de masa o
colectivos, o sea, aquellos fenómenos cuyo estudio solo puede efectuarse a través de una
colección de observaciones
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza
y población se hizo con el objetivo de preparar la construcción de las pirámides. En el
mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
Conjunto de métodos científicos ligados a la toma, organización, recopilación,

presentación y análisis de datos, tanto para la deducción de conclusiones como para
tomar decisiones razonables de acuerdo con tales análisis.

La estadística es una ciencia referente a la recolección, análisis e interpretación de datos,
ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones
regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma
aleatoria o condicional. Sin embargo estadística es mucho más que eso, dado que en otras
palabras es el vehículo que permite llevar a cabo el proceso relacionado con la
investigación científica.
También se denominan estadísticas (en plural) a los datos estadísticos.
Distribución normal.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de
decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
OV La estadística descriptiva, que se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos en estudio.
Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos
gráficos son: histograma, pirámide poblacional, clústers, entre otros.
OV La estadística inferencial, que se dedica a la generación de los modelos, inferencias
y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hipótesis),
estimaciones de características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o modelamiento de
relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento
incluyen anova, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también
una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la
materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo
estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas
criminales, entre otros
HISTORIA
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza
y población se hizo con el objetivo de preparar la construcción de las pirámides. En el
mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos

estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra
parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de
conocer el número de la población.
También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron
censos periódicamente con fines tributarios, sociales (división de tierras) y militares
(cálculo de recursos y hombres disponibles). La investigación histórica revela que se
realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y
ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor supieron
emplear los recursos de la estadística. Cada cinco años realizaban un censo de la
población y sus funcionarios públicos tenían la obligación de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las
riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno
de estos empadronamientos de la población bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas
operaciones Estadísticas, con la notable excepción de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en
el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos.
En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran
Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras
de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de
revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante
la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,
Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes
operaciones al método científico, de tal forma que cuando se crearon los Estados
Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de
aplicarse a los datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor
que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley
exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un
brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a
publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y
en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y
fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban
treinta años y efectuó predicciones sobre el número de personas que morirían de varias
enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría
esperar. El trabajo de Graunt, condensado en su obra Natural and Political
Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ...
Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis
estadístico.
Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los
recursos nacionales, comprensiva de datos sobre organización política, instrucciones
sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más
concretas de métodos de observación y análisis cuantitativo y amplió los campos de la
inferencia y la teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica
como resultado de la especulación sobre si la población aumentaba, decrecía o
permanecía estática.
En los tiempos modernos tales métodos fueron resucitados por algunos reyes que
necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos
países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar
en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau.
Este investigador se propuso destruir la antigua creencia popular de que en los años
terminados en siete moría más gente que en los restantes, y para lograrlo hurgó
pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de
partidas de defunción pudo demostrar que en tales años no fallecían más personas que en
los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés
Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida
humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan
todas las compañías de seguros.
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres,
Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto
tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el
siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.
Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra

estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón,
que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La
raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa
estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la
estadística revela el sentido cuantitativo de las más variadas situaciones.
Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la
teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del
principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el
primero en realizar la aplicación práctica de todo el método Estadístico, entonces
conocido, a las diversas ramas de la ciencia.
Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos

fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada
por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss
y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por
Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las
variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl
Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y
G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.
Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo

del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o
relatividad, se ha demostrado que el determinismo fue reconocido en la Física como
resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las
ciencias sociales como a las físicas.
SU RELACIÓN CON OTRAS CIENCIAS
La estadística es una rama de la matemática que se refiere a la recolección, estudio e

interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de
disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología
y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones
gubernamentales.
Cada vez es mayor la proporción de investigadores, en las más diversas disciplinas
científicas, que realizan análisis estadísticos de datos como procedimiento formal para
llegar a conclusiones o apoyar procesos de decisión sobre las hipótesis de la investigación .
Los recursos de la estadística para la investigación científica pueden considerarse como un

conjunto de herramientas conceptuales que poseen sus propias condiciones de aplicación
y pautas de uso. Respetando ambos aspectos, las conclusiones que se realizan sobre las
informaciones tratadas convenientemente con herramientas estadísticas, tendrán una
base sólida. En caso contrario, las conclusiones pueden ser erróneas e, incluso, engañosas.
Estadística: es comúnmente considerada como una colección de hechos numéricos

expresados en términos de una relación sumisa, y que han sido recopilado a partir de
otros datos numéricos.
Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística
como un valor resumido, calculado, como base en una muestra de observaciones que
generalmente, aunque no por necesidad, se considera como una estimación de parámetro
de determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos
de masa o colectivo, cuya mediación requiere una masa de observaciones de otros
fenómenos más simples llamados individuales o particulares".
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables basadas en tal análisis.
"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los

hechos sujetos a una apreciación numérica como base a la explicación, descripción y
comparación de los fenómenos". (Yale y Kendal, 1954).
Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la

estadística, debido al gran campo de aplicación que posee.
La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias,

en buena medida se basa en el manejo de recursos estadísticos como elementos
indispensables para llegar a conclusiones aceptables por el resto de la comunidad
científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los
casos si no es a través de perspectivas complejas de relación entre variables, la atención
de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la
llamada Estadística Multivariante. Los diseños complejos de investigación y análisis, las
aportaciones más recientes de la informática para la aplicación de técnicas avanzadas de
manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y
aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano
es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente, otras
especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y
retransmitido, preocupadas más por los resultados y posibilidades que por las condiciones
de aplicación y el fundamentos de uso, de tal forma que se ha propiciado la utilización de
las técnicas estadísticas, sin considerar la adecuación de éstas a las condiciones en las que
se aplican.
A su vez, las ciencias sociales se han visto apabulladas en los últimos años por avances
vertiginosos en informática y aplicaciones estadísticas (Manheim, 1982; Rossi y otros,
1983), y muy especialmente en la psicología (Judd y otros, 1995), lo que favorece una
absorción de poca calidad por parte de los especialistas en áreas no metodológicas. Por
otro lado, la adopción de procedimientos informáticos para realizar tareas metodológicas
no parece ser una solución inmediata, considerando la ansiedad que generan los
ordenadores, fenómeno muy generalizado (Fariña y Arce, 1993).
La fusión de esta creciente complicación de las herramientas de análisis, junto con la

discrepancia entre los objetivos de formación y la necesidad de uso de los recursos
estadísticos, consigue finalmente que el especialista en áreas aplicadas tienda a descuidar
aspectos muy básicos, previos a la aplicación de estos recursos estadísticos complejos. Por
otro lado, en muchas ocasiones, la aplicación de herramientas estadísticas se deja
arrastrar por hipótesis de comodidad, en el sentido de aplicarse para permitir la ejecución
de una prueba o el ajuste de un modelo, no porque son las estrategias más adecuadas,
sino porque son las más cómodas.
ESTADISTICA DESCRIPTIVA
ESTADÍSTICA
Es el conjunto de procedimientos y técnicas empleadas para recolectar, organizar y
analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de
incertidumbre que plantean las ciencias sociales o naturales.
ESTADÍSTICA INDUCTIVA Y DEDUCTIVA
Uno de los problemas fundamentales de la Estadística es el estudio de la relación
existente entre una población y sus muestras. Según la dirección de tal relación la
Estadística puede ser:
Deductiva, cuando a partir del conocimiento de la población se trata de caracterizar cada
muestra posible.
Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende
caracterizar la población.
ESTADÍSTICA DESCRIPTIVA E INFERENCIAL
Estadística Descriptiva se refiere a la recolección, presentación, descripción, análisis e
interpretación de una colección de datos, esencialmente consiste en resumir éstos con
uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad
de los mismos. La estadística Descriptiva es el método de obtener de un conjunto de datos
conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por éstos.
Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una
población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se
conocen los elementos de una muestra.
Estadística Inferencial se refiere al proceso de lograr generalizaciones acerca de las
propiedades del todo, población, partiendo de lo específico, muestra. las cuales llevan
implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas la muestra
deben ser representativa de la población y la calidad de la información debe ser
controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se
tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos
errores. La estadística inferencial es el conjunto de técnicas que se utiliza para obtener
conclusiones que sobrepasan los límites del conocimiento aportado por los datos, busca
obtener información de un colectivo mediante un metódico procedimiento del manejo de
datos de la muestra.
En sus particularidades la Inferencia distingue la Estimación y la Contrastación de
Hipótesis. Es estimación cuando se usan las características de la muestra para hacer
inferencias sobre las características de la población. Es contrastación de hipótesis cuando
se usa la información de la muestra para responder a interrogantes sobre la población.
ANALISIS ESTADÍSTICO
El análisis estadístico es todo el proceso de organización, procesamiento, reducción e
interpretación de datos para realizar inferencias.
DATOS Y VARIABLES
Cuando se consideran los métodos de organización, reducción y análisis de datos
estadísticos, se hace necesario aclarar los siguientes conceptos.
Variables: es toda característica que varía de un elemento a otro de la población.
Datos: son medidas o valores de las características susceptibles de observar y contar, se
originan por la observación de una o más variables de un grupo de elementos o unidades
CLASIFICACIÓN DE VARIABLES
Las variables pueden clasificarse en: categóricas o cualitativas (atributos), no tienen
ningún grado de comparación numérica, ejemplo: sexo, estado civil; y numéricas o
cuantitativas, son características factibles de expresar por medio de números, estas
pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y
Continuas, que pueden tomar cualquier valor en un intervalo.
REPRESENTACIÓN DE DATOS
Los datos son colecciones de un número cualquiera de observaciones relacionadas entre
si, para que sean útiles se deben organizar de manera que faciliten su análisis, se puedan
seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar
a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario
conocer lo métodos de Organización y Representación, la finalidad de éstos métodos es
permitir ver rápidamente todas las características posibles de los datos que se han
recolectado.
Representación Tabular:
Presenta las variable y las frecuencias con que los valores de éstas se encuentran
presentes en el estudio.
Representación Gráfica :
Se llaman gráficas a las diferentes formas de expresar los datos utilizando los medios de
representación que proporciona la geometría.
METODOS DE REPRESENTACIÓN DE DATOS CUANTITATIVOS
Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o
descendente. Ofrece las ventajas siguientes: describe los valores mínimos y máximos, en
él se pueden dividir los datos fácilmente en secciones, permite darse cuenta de los valores
que aparecen más de una vez, se puede observar la distancia entre valores consecutivos.
Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores
Diagrama de Tallo y Hoja. Es útil para realizar una exploración preliminar del conjunto,
genera una imagen adecuada de ellos sin perder información.
Distribución de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de
una tabla para clasificar los datos según su magnitud, en ella se señala el número de veces
que aparece cada uno de los valores. Cuando se dispone de un gran número de valores
discretos o cuando las variables son continuas, tiene sentido formar una tabla que
presente la distribución de frecuencias de los datos agrupados en intervalos o clases, de
igual tamaño si es posible, sin embargo una tabla de este tipo supone una concentración
de datos que produce pérdida de información.
DISTRIBUCIÓN DE FRECUENCIAS
Organización de datos agrupados
Definiciones
Clases o intervalos de clase: Grupo de valores que describen una característica. Deben
incluir todas las observaciones y ser excluyentes. Los intervalos contienen los límites de
clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados,
cuando contienen ambos límites e intervalos abiertos si incluyen solo un límite.
Limites Reales: Sirven para mantener la continuidad de las clases
Anchura o tamaño del intervalo: es la diferencia entre los límites reales de una clase
Número de clases: es el número total de grupos en que se clasifica la información, se
recomienda que no sea menor que 5 ni mayor que 15
Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los
puntos medios coincidan con los datos observados para minimizar el error.
Frecuencia: es el número de veces que aparece un valor
Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado
valor o límite de clase.
Frecuencia Relativa: Indica la proporción que representa la frecuencia de cada intervalo de
clase en relación al total, es útil para comparar varias distribuciones con parámetros de
referencia uniformes.
Frecuencia Acumulada Relativa: Indica la proporción de datos que se encuentra por arriba
o debajo de cierto valor o límite de clase.
Gráficos de una Distribución de Frecuencias
Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan
fácilmente en la tabla, ayudan a estimar valores con una simple ojeada y brinda una
verificación gráfica de la veracidad de las soluciones.
Histograma:
Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente ( intervalo variable). La utilización de los
intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de
los intervalos sea mucho mayor que la de los demás, logrando así que las observaciones se
hallen mejor repartidas dentro del intervalo.
Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del
histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del áreas.
Curvas de frecuencia
No es más que la curva suavizada que se traza sobre el polígono y representa la asimetría
y la curtosis que tiene la distribución, permite visualizar un esquema más claro del patrón
de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simétricas o Asimétricas
(sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales.
Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos
colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia,
es necesario tener una base estándar, la frecuencia relativa. La ojiva representa
gráficamente la forma en que se acumulan los datos y permiten ver cuantas
observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una
medida de los cuartiles, deciles , percentiles.
c
Es un subconjunto de casos o individuos de una población estadística.
Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la

población, para lo cual deben ser representativas de la misma. Para cumplir esta
característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo.
En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con
mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más
abajo).
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la
población porque el manejo de un menor número de datos provoca también menos
errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son
los sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser inferior que el de la población,
pero suficiente para que la estimación de los parámetros determinados tenga un nivel de
confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su
cálculo.
c c
Agrupación de datos en categorías mutuamente excluyentes que indican el número de

observaciones en cada categoría. Esto significa una de las cosas más importantes de la
matemática, su estadística con la agrupación de datos. La distribución de frecuencias
presenta las observaciones clasificadas de modo que se pueda ver el número existente en
cada clase.
Elementos fundamentales para elaborar una distribución de frecuencia:
1) RANGO.
Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y
el número menor de los datos.
R = N_max - N_min
Ejemplo. Dados los números: 5, 10, 12, 8, 13, 9, 15 R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumándole 1 al rango. AT = (R+1)
3) LAS CLASES.
Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama
límite superior. hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
4)EL NUMERO DE CLASES.

Se determina a través de la formula de Sturges, la cual es valida cuando el No de
observaciones sea menor o igual a 500. Formula.
Nc= 1 + 3.33log ( N )
Donde:
Nc es el número de clases. N es la cantidad de muestras tomadas.
5) VALOR DEL INTERVALO O AMPLITUD

Se Obtiene por medio de la ecuación de dicta:
Vi = AT / Nc
Donde:
Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase

Las medidas de posición nos facilitan información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos. Las medidas de posición son de dos tipos:
!!"#$: informan sobre los valores medios de la serie de datos.
% ! ! !"#$: informan de como se distribuye el resto de los
valores de la serie.
!!"#$
Las principales medidas de posición central son las siguientes:
&'(: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las más utilizadas:
#")*"+se calcula multiplicando cada valor por el número de veces que se
repite. La suma de todos estos productos se divide por el total de datos de la muestra:
Xm (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
= ---------------------------------------------------------------------------------------
n
% ,)*"#+ se eleva cada valor al número de veces que se ha repetido. Se
multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el
total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la
media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales,
inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los
años anteriores. En todo caso, la media aritmética es la medida de posición central más
utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie,
por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media
aritmética como geométrica) se puede ver muy influido por valores extremos, que se
aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en
gran medida el valor de la media, perdiendo ésta representatividad.
ë'( !: es el valor de la serie de datos que se sitúa justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no
utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el
número de veces que se ha repetido).
-'(: es el valor que más se repite en la muestra.
.)$+ vamos a utilizar la tabla de distribución de frecuencias con los datos de la
estatura de los alumnos que vimos en la lección 2ª.
#%$ #/!%$/" #/!#$"0

1$# )$ /)/$ )$ /)/$
x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Vamos a calcular los valores de las distintas posiciones centrales:
&'(#")*"+
Xm (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 *

= 3)
--------------------------------------------------------------------------------------------------
30
Luego:
Xm = 1,253
Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.
ë'(,)*"#+
X ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^

= (1/30)
Luego:
Xm = 1,253
En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene

siempre por qué ser así.
-'(!+La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los
valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias
relativas acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría

exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos
valores se encuentra la división entre el 50% inferior y el 50% superior.
2'(+
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta
seria cuenta con 3 modas.
à

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o

menos concentrados, o más o menos dispersos.
Existen diversas ) # !, entre las más utilizadas podemos destacar las
siguientes:
&'(!,: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.
ë'(#!3: Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas
por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por
el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
-'(0 !"4: Se calcula como raíz cuadrada de la varianza.
2'( 5!" 0#3 ! #!: se calcula como cociente entre la desviación
típica y la media.
.)$+ vamos a utilizar la serie de datos de la estatura de los alumnos de una clase
(lección 2ª) y vamos a calcular sus medidas de dispersión.
#%$ #/!%$/" #/!#$"0

1$# )$ /)/$ )$ /)/$
x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
&'( !,+ Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20).
Luego el rango de esta muestra es 10 cm.
ë'( #!3+ recordemos que la media de esta muestra es 1,253. Luego, aplicamos la
fórmula: Por lo tanto, la varianza es 0,0010
-'(0 !"4+es la raíz cuadrada de la varianza. Luego:

2'( 5!" 0# ! #!: se calcula como cociente entre la desviación
típica y la media de la muestra.
Cv = 0,0320 / 1,253
Luego,
Cv = 0,0255
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el
nivel de dispersión de dos muestras. Esto no ocurre con la desvación típica, ya que viene
expresada en las mismas unidas que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los
alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus
coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.

c
veremos que la media y la varianza son casos particulares de cantidades más generales
llamadas momentos.
Consideremos la función ã A la esperanza matemática de se le

denomina k-ésimo momento de .
[4.6]
Si , se tiene que el primer momento de es la media de , es decir
[4.7]
(compare con la definición de la sección 4.4). [4.8]
Si ã obtenemos el k-ésimo momento central de . Esto es:

[4.9]
Si el primer momento central existe, debe ser igual a cero.
El ,/!))!"!"#$ï es la varianza (compare con la definición de varianza de

la sección 4.4). Por lo tanto la varianza de puede obtener como el segundo momento de X
menos el cuadrado de la media.
[4.10]
[4.11]
Obsérvese que de aquí se llega a
[4.12]

cc c
Si una "#%/ !)*"# con respecto a la media m y si el tercermomento central
existe, entonces éste debe ser cero.
Cabe hacer notar que, si

, no implica que la distribución sea simétrica, pero
si es simétrica, entonces
. Sin embargo es costumbre usar la expresión
como la medida de la simetría, ya que cuando una distribución es

simétrica, g y toma un valor positivo (o negativo) para una distribución que tiene una
gran cola en el lado derecho (izquierdo) y g es llamado , de la distribución.
a

La cantidad se usa como la medida de la o /#" de una

distribución.
a

!
! !
"# "# "#
FUNCION GENERATRIZ DE MOMENTOS
En algunos casos se pueden calcular los momentos directamente usando la definición, sin
embargo, habrá ocasiones en que resulta más sencillo si usamos una función auxiliar,
y calculamos su esperanza, esto es:
[4.13]
Derivando esta expresión

Derivando k veces, se tiene:
Cuando , la expresión del lado derecho es el k-ésimo momento de X
[4.14]
Cuando ,
[4.15]

Las probabilidades son muy útiles, ya que pueden servir para desarrollar estrategias. Por
ejemplo, algunos automovilistas parecen mostrar una mayor tendencia a aumentar la
velocidad si creen que existe un riesgo pequeño de ser multados; los inversionistas
estarán más interesados en invertirse dinerosi las posibilidades de ganar son buenas. El
punto central en todos estos casos es la capacidad de cuantificar cuan probable es
determinado evento. En concreto decimos que las probabilidades se utilizan para expresar
cuan probable es un determinado evento.
2.1.1 Conceptoclásico y como frecuencia relativa. 1 Definición Clásico. La probabilidad

clásica: el enfoque clásico o a priori de la probabilidad se basa en la consideración de que
los resultados de un experimento son igualmente posibles. Empleando el punto de vista
clásico, la probabilidad de que suceda un evento se calcula dividiendo el número de
resultados favorables, entre el número de resultados posibles.
2 La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el

número de eventoselementales que componen al evento E, entre el número de eventos
elementales que componen el espacio maestral:
Como frecuencia relativa 1 probabilística: se basa en las frecuencias relativas. La

probabilidad de que un evento ocurra a largo plazo se determina observando en que
fracción de tiempo sucedieron eventos semejantes en el pasado. La probabilidad de que
un evento suceda se calcula por medio de:
P (E) número de veces que el evento ocurrió en el pasado
Numero total de observaciones
2 Definición Frecuencia. La definición frecuentita consiste en definir la probabilidad como

el límite cuando n tiende a infinito de la proporción o frecuencia relativa del suceso. Sea
un experimento aleatorio cuyo espacio maestral es E Sea A cualquier suceso
perteneciente a E Si repetimos n veces el experimento en las mismas Condiciones, la
frecuencia relativa del suceso A será: Cuando el número n de repeticiones se hace muy
grande la frecuencia relativa converge hacia un valorque llamaremos probabilidad del
suceso A. Es imposible llegar a este límite, ya que no podemos repetir el experimento un
número infinito de veces, pero si podemos repetirlo muchas veces y observar como las
frecuencias relativas tienden a estabilizarse Esta definición frecuentita de la probabilidad
se llama también probabilidad a posteriori ya que sólo podemos dar la probabilidad de un
suceso después de repetir y observar un gran número de veces el experimento aleatorio
correspondiente. Algunos autores las llaman probabilidades teóricas.
2.1.2 interpretación subjetiva de probabilidad
1 La probabilidad subjetiva de un evento: se la asigna la personaque hace el estudio, y

depende del conocimientoque esta persona tenga sobre el tema. Precisamente por su
carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es
de las más comunes que se utilizan al no apoyarse más que en el sentido común y los
conocimientos previos, y no en resultados estadísticos.
c
c
La distribución Binomial es un caso particular de probabilidadde variable aleatoria

discreta, y por sus aplicaciones, es posiblemente la más importante.
Esta distribución corresponde a la realización de un experimento aleatorio que cumple

con las siguientes condiciones:
* Al realizar el experimento sólo son posible dos resultados: el suceso A, llamado éxito, o
su contrario A͛, llamado fracaso.
* Al repetir el experimento, el resultado obtenido es independiente de los resultados

obtenidos anteriormente.
* La probabilidad del suceso A es constante, es decir, no varía de una prueba del
experimento a otra. Si llamamos p a la probabilidad de A, p(A) = P, entonces p(A͛) = 1 ʹ p =
q
* En cada experimento se realizan n pruebas idénticas.
Todo experimento que tenga estas características se dice que sigue el modelo de la
"#%/ !!)$"#%/ !#!/$$.
En general, si se tienen R ensayos Bernoulli con probabilidad de éxito y de fracaso ,

entonces la distribución de probabilidad que la modela es la "#%/ !#%%$
%!)$y su regla de correspondencia es:
Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido
tablas para algunos valores de R y que facilitan el trabajo.
$/$$"#%/ !#%%$%!)$#"#)*"+
a) Utilización del Minitab 15.
b) Utilización de la fórmula
c) Utilización de las tablas binomiales
Por ejemplo:
¿Cuál es la probabilidad de obtener exactamente 2 caras al lanzar una misma moneda 6

veces ?
Donde:
OV P(X) es la probabilidad de ocurrencia del evento
OV p es la probabilidad de éxito del evento (en un intento) (0.5)

OV q es la probabilidad de fracaso del evento (en un intento) y se define como
q = 1 ʹ p (0.50)
OV X = ocurrencia del evento o éxitos deseados = 2 (para efectos de la tabla binomial
tómese como r)
OV n = número de intentos
OV c

OV La distribución de POISSON es también un caso particular de probabilidad de
variable aleatoria discreta, el cual debe su nombre a Siméon Denis Poisson (1781-
1840), un francés que la desarrolló a partir de los estudios que realizó durante la
última etapa de su vida.
OV Esta distribución se utiliza para describir ciertos procesos.
OV Características:
OV En este tipo de experimentos los éxitos buscados son expresados por unidad de
área, tiempo, pieza, etc:
OV - # de defectos de una tela por m2
OV - # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc.
OV - # de bacterias por c m2 de cultivo
OV - # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
OV - # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
OV Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo,
área, o producto, la fórmula a utilizar es:
OV
OV donde:
OV p() = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l.
OV l = media o promedio de éxitos por unidad de tiempo, área o producto
OV e = 2.718 (base de logaritmo neperiano o natural)
OV = variable que nos denota el número de éxitos que se desea que ocurra
OV Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de
tiempo es independiente de otro intervalo dado, así como cada área es
independiente de otra área dada y cada producto es independiente de otro
producto dado.
OV 6$/$$"#%/ !#%%$!#"#)*"+
OV a) Utilización del Minitab 15.
OV b) Utilización de la fórmula
OV c) Utilización de las tablas de Poisson
OV
OV Por ejemplo:
OV Si un banco recibe en promedio (l=) 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba:
OV a) cuatro cheques sin fondo en un día dado (x),
OV b) 10 cheques sin fondos en cualquiera de dos días consecutivos?
OV (e= 2.718281828)
c
La distribución normal es también un caso particular de #%%$ 0#%$

$"# !"4!/, fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más
comúnmente, como la 7)!
/7. La distribución de una variable normal está
completamente determinada por dos parámetros, su media (µ) y su desviación estándar
(ʍ). Con esta notación, la densidad de la normal viene dada por la ecuación:
que determina la curva en forma de campana que tan bien conocemos
Existen dos razones básicas por las cuales la distribución normal ocupa un lugar tan
prominente en la estadística:
OV Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en

la que es necesario hacer inferencias mediante la toma de muestras.
OV La distribución normal casi se ajusta a las distribuciones de frecuencias reales
observadas en muchos fenómenos, incluyendo características humanas, resultados de
procesos físicos y muchas otras medidas de interés para los administradores, tanto en
el sector público como en el privado.
Propiedad:
No importa cuáles sean los valores de µ y ʍ para una distribución de probabilidad normal,
el área total bajo la curva siempre es 1, de manera que podemos pensar en áreas bajo la
curva como si fueran probabilidades. Matemáticamente es verdad que:
1.V Aproximadamente el 68% de todos los valores de una población normalmente

distribuida se encuentra dentro de ± 1 desviación estándar de la media.
2.V Aproximadamente el 95.5% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 2 desviaciones estándar de la media.
3.V Aproximadamente el 99.7% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 3 desviaciones estándar de la media.
Relación entre el área bajo la curva de distribución normal de probabilidad y la distancia a

la media medida en desviaciones estándar.
Estas gráficas muestran tres formas diferentes de medir el área bajo la curva normal. Sin
embargo, muy pocas de las aplicaciones de la distribución normal de probabilidad
implican intervalos de exactamente (más o menos) 1, 2 ó 3 desviaciones estándar a partir
de la media. Para estos casos existen tablas estadísticas que indican porciones del área
bajo la curva normal que están contenidas dentro de cualquier número de desviaciones
estándar (más o menos) a partir de la media.
Afortunadamente también se puede utilizar una "#%/ ! #%%$ !#)$

"6!# para encontrar áreas bajo cualquier curva normal. Con esta tabla se determina el
área o la probabilidad de que la variable aleatoria distribuida normalmente esté dentro de
ciertas distancias a partir de la media. Estas distancias están definidas en términos de
desviaciones estándar.
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Esto hace que sea posible usar solamente una tabla de la distribución de probabilidad
normal estándar.
El valor de z está derivado de la fórmula:
En la que:
OV x = valor de la variable aleatoria de interés.

OV µ = media de la distribución de la variable aleatoria.
OV ʍ = desviaciʍn estándar de la distribución.
OV z = número de desviaciones estándar que hay desde x a la media de la distribución. (El
uso de z es solamente un cambio de escala de medición del eje horizontal)
c
Muestreo Aleatorio
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que
cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra
aleatoria es también llamada una muestra probabilística son generalmente preferidas por
los estadísticos porque la selección de las muestras es objetiva y el error muestral puede
ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de
muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo
estratificado y muestreo de conglomerados.
Error Estándar:
La desviación estándar de una distribución, en el muestreo de un estadístico, es
frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación
estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una
población, es llamada el error estándar de la media. De la misma manera, la desviación
estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas
de una población, es llamada el error estándar de la proporción. La diferencia entre los
términos "desviación estándar" y "error de estándar" es que la primera se refiere a los
valoresoriginales, mientras que la última está relacionada con valores calculados. Un
estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.

Estimación de Parámetros
La teoría de muestreo puede emplearse para obtener información acerca de muestras

obtenidas aleatoriamente de una población conocida. Sin embargo, desde un punto de
vista practico, suele ser mas importante y ser capaz de inferir información acerca de una
población a partir de muestras de ellas. Dichos problemas son tratados por la inferencia
estadística que utiliza principios de muestreo. Un problema importante de la inferencia
estadística es la estimación de parámetros poblacionales o simplemente parámetros (
como la media y la varianza poblacionales ), a partir de los estadísticos muéstrales
correspondientes o estadísticos ( como la media y la varianza muestral.
Estimados sin Sesgo
Si la media de la distribución muestral de un estadístico es igual al parámetro poblacional

correspondiente, el estadístico se denomina estimador sin sesgo del parámetro; de otra
manera, es denominado estimador sesgado. Los valores correspondientes de dichos
estadísticos se llaman estimados sin sesgo o sesgados, respectivamente.
1.- La media de la distribución muestral de las medias es x , la media poblacional. Por lo

tanto, la media muestral x es un estimado sin sesgo de la media poblacional .
2.- La media de la distribución muestral de las varianzas es :
s2 = ( N-1/ N ) 2
donde 2 es la varianza poblacional y N es el tamaño de la muestra .Entonces, la varianza
muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza
modificada.
2 =( N/ N-1 )s2
Se encuentra que 2 = 2 , de modo que 2 es un estimado sin sesgo de 2 .Sin embargo es un

estimado de .En términos de esperanza matemática se podía decir que un estadístico no
esta sesgado si su esperanza es igual al parámetro poblacional correspondiente. Por lo
tanto, x y 2 no están sesgados , porque E
Estimados Eficientes
Si las distribuciones muéstrales de dos estadísticos tienen la misma media o esperanza

matemática entonces el estadístico con la menor varianza se denomina estimador
eficiente de la media , mientras que el otro estadístico se le llama estimador ineficiente.
Los valores correspondientes de los estadísticos se conocen, respectivamente , como
estimadores eficientes. Si se consideran todos los estadísticos posibles, cuyas
distribuciones muéstrales tienen la misma media, aquel con la menor varianza suele
denominarse el mejor o mas eficiente estimador de dicha media.
La distribución muestral de la media y la mediana tienen la misma media; a saber la media

poblacional. Sin embargo, la varianza de la distribución muestral de las medias es mas
pequeña que la varianza de la distribución muestral de las medianas . por lo tanto, la
media muestral ofrece un estimado ineficiente de esta De todos los estadísticos que
estiman la media poblacional, la media muestral ofrece el mejor o mas eficiente estimado.
En la practica , suelen usarse los estimados ineficientes debido a la relativa facilidad con
que se obtienen algunos de ellos.

Errores de tipo I y de tipo II
De Wikipedia, la enciclopedia libre

Saltar a navegación, búsqueda
En un estudio de investigación, el error de tipo I también mal llamado error de tipo alfa (ɲ)
(ɲ es la probabilidad de que ocurra este error), es el error que se comete cuando el
investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera en la población. Es
equivalente a encontrar un resultado falso positivo, porque el investigador llega a la
conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
es también conocido como nivel de significancia, si el nivel de confianza es 95% el nivel de
significancia vendría a ser 5%
En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (ɴ)
(ɴ es la probabilidad de que exista éste error), se comete cuando el investigador no
rechaza la hipótesis nula siendo ésta falsa en la población. Es equivalente a la probabilidad
de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido
incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%..
El poder o potencia del estudio representa la probabilidad de observar en la muestra una

determinada diferencia o efecto, si existe en la población. Es el complementario del error
de tipo II (1-ɴ).
c8c9
En probabilidad y estadística, la distribución t (de t-Student) es una distribución de

probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las

diferencias entre dos medias muestrales y para la construcción del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación
típica de una población y ésta debe ser estimada a partir de los datos de una muestra.
Caracterización
La distribución t de Student es la distribución de probabilidad del cociente
donde
OV Z tiene una distribución normal de media nula y varianza 1

OV V tiene una distribución chi-cuadrado con ʆ grados de libertad
OV Z y V son independientes
Si ʅ es una constante no nula, el cociente es una variable aleatoria que sigue la

distribución t de Student no central con parámetro de no-centralidad ʅ.
[editar] Aparición y especificaciones de la distribución t de Student
Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas

normalmente, con media ʅ y varianza ʍ2. Sea
la media muestral. Entonces
sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la desviación estándar no siempre es conocida de antemano,

Gosset estudió un cociente relacionado,
donde
es la varianza muestral y demostró que la función de densidad de T es
donde ʆ es igual a n о 1.
La distribución de T se llama ahora la distribución-t de Student.
El parámetro ʆ representa el número de grados de libertad. La distribución depende de ʆ,
Intervalos de confianza derivados de la distribución t de Student
El procedimiento para el cálculo del intervalo de confianza basado en la t de Student

consiste en estimar la desviación típica de los datos S y calcular el error estándar de la
media= S/(raíz cuadrada de n), siendo entonces el intervalo de confianza para la media = x
media +- t (alfa/2) multiplicado por (S/(raíz cuadradada de n)).
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las
medias de muestras de dos distribuciones normales se distribuye también normalmente,
la distribución t puede usarse para examinar si esa diferencia puede razonablemente
suponerse igual a cero.
para efectos prácticos el valor esperado y la varianza son :
E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3
c:c
Prueba de bondad de ajuste de ji-cuadrada

El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable
aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones
se arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la
frecuencia observada en el intervalo de la clase iesimo. De la distribución de probabilidad
hipotética, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E1.
La estadística de prueba es:
X20 =
Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1
grados de libertad, donde p representa el numero de parámetros de la distribución
hipotética estimada por el medio de estadística de muestra. Esta aproximación se mejora
cuando n aumenta. Rechazaríamos la hipótesis de que X se ajusta ala distribución
hipotética si X²0>X²ɲ k-p-1
Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere
ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado
pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas
esperadas, si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo
general en relación con el valor mínimo de las frecuencias esperadas, aunque los valores
de 3,4 y 5 se utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado
pequeña, puede combinarse con la frecuencia esperada en un intervalo de clase
adyacente. Las frecuencias observadas correspondientes se combinaran también en ese
caso, y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho.
Ejemplo
Una distribución completamente especificada Un científico de computadoras ha
desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9.
Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la
tabla 11-3. ¿Existe evidencia de que el generador de números aleatorios esta trabajando
correctamente?
Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la
distribución uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir
exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,͙.,9 Puesto
que estas frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún
parámetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de
la ji cuadrada tendrá k-p-1=10-0-1=9 grados de libertad.
Total
0123456789
Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000
Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000
El valor esperado de la estadística de prueba es 2 2 2 2
X20 = =
Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene
de una distribución uniforme discreta. En consecuencia, el generador de números
aleatorios parece estar trabajando en forma satisfactoria.
1.V Test de Kolmogorov-Smirnov
Para la aplicación del test señalado, es necesario determinar la Frecuencia observada

acumulada. Para la frecuencia observada en el caso especial de Gumbel, se ordena la
información de menor a mayor y se aplica:
Donde:
Fn (x): frecuencia observada acumulada.
n: N° total de orden
N: N° total de datos.
En el caso de la frecuencia teórica acumulada, ésta se determina a través de la
función de Gumbel.
Una vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias

entre ambas, en la i-ésima posición de orden, que se denomina D.
Luego, asumiendo un valor de significancia, se recurre a la tabla de valores críticos
de D en la prueba de bondad de ajuste de Kolmogorov-Smirnov, y considerando el
tamaño de la muestra, se establece lo siguiente:
Si D < D tabla, se acepta que (el ajuste es adecuado, con el nivel de confiabilidad
asumido.

:cc; c
Representaciones de Spline
En la terminología del dibujo mecánico, una spline es una banda flexible que se utiliza para
producir una curva suave a través de un conjunto de puntos designados. Varios pesos
pequeños se distribuyen a lo largo de la banda para mantenerla en posición sobre la mesa
de dibujo mientras se traza la curva. Es habitual describir la curva spline como una función
cúbica polinómica cuyas primera y segunda derivada son continuas a través de las
distintas secciones de la curva. Por otra parte, una superficie spline se puede describir
como dos conjuntos de curvas ortogonales de spline
Existe una gran variedad de curvas y superficies spline. Además se les prefiere por la gran
diversidad de formas que pueden tomar, Fig 1 y Fig 2
Especificación de spline
Existen tres métodos equivalentes para especificar una representación de spline
particular:
1. Podemos establecer el conjunto de condiciones de frontera que se imponen en la spline
2. Podemos establecer la matriz que caracteriza la spline
3. podemos establecer un conjunto de funciones de combinación que determinan la
manera en que se combinan las restricciones geométricas en la curva para calcular
posiciones a lo largo de la trayectoria de la curva.
A fin de ilustrar estos procedimiento, suponga que tenemos la siguiente representación

polinómica cúbica paramétrica para la coordenada de x a lo largo de la trayectoria de una
sección de la spline:
x(u ) = a x u 3 + bx u 2 + c x u + d x , 0 ч u ч 1
Por ejemplo, se podrían establecer las condiciones de frontera para esta curva, en las
coordenadas de extremo x(0) y x(1) y en las primeras derivadas paramétricas en los
extremos x´(0) y x´(1). Estas cuatro condiciones de frontera son suficientes para
determinar los valores de los cuatro coeficientes.
A partir de las condiciones de frontera, obtenemos la matriz que caracteriza esta curva de
spline al volver a expresar de nuevo la ecuación (1) como el producto
Donde U es la matriz renglón de potencias del parámetro u y C es la matriz columna de

coeficientes. Al utiliza la ec. (2), es posible expresar las condiciones de frontera en forma
de matriz de coeficientes C como
C = M spline « M geom
Donde M geom es una matriz de columnas de cuatro elementos que contiene los valores
de restricciones geométricas (condiciones de frontera) en la spline y M spline es la matriz
de 4x4 que transforma loa valores de restricción geométrica a los coeficientes polinómicos
y ofrece una caracterización para la curva de spline. Por podemos construir
x (u ) = U « M spline « M geom
Por último podemos ampliar la ec. (3), con el propósito de obtener una representación
polinómica para la coordenada x en términos de parámetros de restricción geométrica
x(u ) = є g k BFk (u ) , k =0
donde gk son los parámetros de restricción, como las coordenadas del punto de control y
la pendiente de la curva en los puntos de control , y BFk(u) son las funciones de
combinación polinómica.
Métodos de interpolación de spline cúbica
Esta clase de spline se utiliza con mayor frecuencia para establecer las trayectorias de los
movimientos de objetos o para ofrecer una representación de un objeto o trazo existente.
En comparación con los polinomios de orden superior, las spline cúbicas requieren de
menos cálculos y memoria computacional, a la vez que son más estables. Las spline
cúbicas son más flexibles para el modelado de formas curvas arbitrarias.
Dado un conjunto de puntos de control, las spline de interpolación cúbica se obtienen al

ajustar los puntos de entrada con una curva polinómica cúbica alrededor de la curva que
pasa por todos los puntos de control (en este caso de interpolación). Suponga que
tenemos n+1 puntos de control que se especifican con las coordenadas
p k = ( x k y k z k ), k = 0, 1, 2,͙ , n
Podemos describir el polinomio cúbico paramétrico que se debe ajustar entre cada par de
puntos de control con el siguiente conjunto de ecuaciones
x(u ) = a x u 3 + bx u 2 + c x u + d x ,
y (u ) = a y u 3 + b y u 2 + c y u + d y ,
z (u ) = a z u 3 + bz u 2 + c z u + d z , 0 ч u ч 1
Para obtener los coeficientes incógnitos, debemos establecer suficientes condiciones de
frontera en las uniones entre las secciones de la curva de manera que podamos obtener
los valores numéricos para todos ellos.
Curvas de Bézier
Para cualquier nº de puntos de control, el nº de ptos de control que se debe aproximar y
su posición relativa determinar el grado del polinomio de Bézier. Del mismo modo que con
las spline de interpolación, se puede especificar una curva de Bézier con condiciones de
frontera con una matriz característica o con funciones de combinación. Usualmente se
utiliza esta última técnica.
El calculo recursivo de las funciones de combinación de Bézier ,es dado por la expresión:
Bk ,n (u ) = (1 о u )Bk ,n о1 (u ) + uBk о1,n о1 (u ), n > k ш 1

##$ ! !$
El propósito principal del análisis de la correlación lineal es medir la exactitud de una

relación lineal entre dos variables. Al examinar un diagrama scatter nos percatamos de la
relación entre la x e y.
<=##$ ! cuando la configuración de los puntos está esparcida.
No correlación: A medida que aumenta x los valores de y se dispersan
##$!
La correlación puede ser"0o !,"0.

La "0es cuando la variable y tiende a crecer y la !,"0cuando la variable y
tiende a disminuir.
Correlación Lineal Positiva: cuando la variable y (eje vertical) tiende a

crecer.
Correlación Lineal Negativa: cuando la variable y (eje vertical) tiende a

disminuir. La relación inferior es casi perfecta
Correlación no lineal

Regresión con Mínimos Cuadrados.
Cuando se asocia un error sustancial a los datos, la interpolación polinomial es

inapropiada y puede llevar a resultados no satisfactorios cuando se usa para predecir
valores intermedios. Los datos experimentales a menudo son de ese tipo. Una estrategia
mas apropiada en estos casos es la de obtener una función aproximada que ajuste
͞adecuadamente͟ el comportamiento o la tendencia general de los datos, sin coincidir
necesariamente con cada punto en particular. Una línea recta puede usarse en la
caracterización de la tendencia de los datos sin pasar cobre ningún punto en particular.
Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados
y luego trazar la ͞mejor͟ línea a través de los puntos. Aunque este enfoque recurre al
sentido común y es valido para cálculos a ͞simple vista͟ es deficiente ya que es arbitrario.
Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la
interpolación seria apropiada), cada analista trazara rectas diferentes.
La manera de quitar esta subjetividad es considerar un criterio que cuantifique la

suficiencia del ajuste. Una forma de hacerlo es obtener una curva que minimice la
diferencia entre los datos y la curva y el método para llevar a cabo este objetivo es al que
se le llama regresión con mínimos cuadrados.
Regresión Lineal
El ejemplo mas simple de una aproximación por mínimos cuadrados es el ajuste de una
línea recta a un conjunto de parejas de datos observadas: (x1,y1), (x2,y2), ...,(xn,yn). La
expresión matemática de una línea recta es:
en donde a0 y a1 son coeficientes que representan la intersección con el eje de las

abscisas y la pendiente, respectivamente y E es el error o residuo entre el modelo y las
observaciones, que se puede representar reordenando la ecuación (1) como:
Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor

aproximado, a0+a1x, predicho por la ecuación lineal.
Criterio para un ͞mejor͟ ajuste
Una estrategia que obtiene la ͞mejor͟ línea a través de los puntos debe minimizar la suma
de los errores residuales, como en:
Otro criterio seria minimizar la suma de los valores absolutos de las diferencias, esto
es:Una tercera estrategia en el ajuste de una línea optima es el criterio de mínimas. En
este método, la línea se escoge de tal manera que minimice la distancia máxima a la que
se encuentra un punto de la línea recta. Esta estrategia esta mal condicionada para
regresión ya que influye de manera indebida sobre un punto externo, aislado, cuyo error
es muy grande. Se debe notar que el criterio mínimas algunas veces esta bien
condicionado para ajustar una función simple a una función complicada.
Una estrategia que ignora las restricciones anteriores es la de minimizar la suma de los
cuadrados de los residuos, Sr, de la siguiente manera:
Este criterio tiene muchas ventajas, incluyendo el que ajusta una línea única a un conjunto
dado de datos. Antes de analizar estas propiedades, se muestra un método que determina
los valores de a0 y a1 que minimizan la ecuación.
Ajuste de una recta utilizando Mínimos Cuadrados.
Para determinar los valores de las constantes a0 y a1, se deriva la ecuación (3) con
respecto a cada uno de los coeficientes:
Nótese que se han simplificado los símbolos de la sumatoria; a menos que otra cosa se
indique, todas las sumatorias van desde i=1 hasta n. Igualando estas derivadas a cero, se
genera un mínimo Sr. Si se hace así, las ecuaciones anteriores se expresaran como:
Ahora considerando que

= n, las ecuaciones se pueden expresar como un conjunto de dos ecuaciones lineales
simultaneas con dos incógnitas
A estas ecuaciones se les conoce como ecuaciones normales. Se pueden resolver

simultáneamente y obtener:
Este resultado se puede usar junto con la ecuación para obtener: en donde son la media
de y y x, respectivamente, quedándonos entonces la siguiente ecuación para a0:
>
Esta prueba estadística en su modelo matemático, significa conocer la correlación entre

tres o más variables, en las que dos de ellas se asocian y la tercera se muestra sin cambio.
Por lo tanto, cabe formular la pregunta clave: ¿qué tan estrechamente dependen las
variables a y b, cuando c se mantiene sin cambios?. En este sentido, se establece la
interpretación del presente procedimiento.
Matemáticamente, la fórmula siguiente se define como correlación múltiple:
Las fórmulas para correlación parcial se definen matemáticamente como sigue:
Pasos:
1.V Elaborar una tabla en la que se ordenen las observaciones de las diferentes
variables: x, y, z, etc.
2.V De acuerdo con la fórmula de coeficiente de correlación simple de Pearson, calcular
por cada pareja de variables: XY, XZ, YZ, etc.
3.V Calcular el coeficiente de correlación múltiple en función de la variable
independiente considerada en la hipótesis alterna, mediante la fórmula rx.zy.
4.V Calcular los coeficientes de correlación parcial para cada variable estudiada,
mediante las fórmulas rxy.z, rxz.y y rzy.x.
5.V Calcular los grados de libertad (gl). gl = N tamaño de la muestra - K variables.
6.V Comparar los valores de coeficiente múltiple y parcial de correlación con los valores
críticos correspondientes, distribuidos en función de la probabilidad. Tabla de
coeficientes de correlación en niveles de P 0.05 y 0.01.
7.V Decidir si se acepta o rechaza la hipótesis.

Ejemplo:
Objetivo: Conocer si la cantidad de lectura en niños de 12, 13 y 14 años es una variable

dependiente de la edad o de la variable del diámetro de su cabeza.
Hipótesis.
Ha. Entre las variables cantidad de lectura, edad y diámetro de la cabeza existe correlación
significativa, así como dependencia.
Ho. Entre las variables cantidad de lectura, edad y diámetro de la cabeza no existe
correlación significativa, así como dependencia.
? R

gl = N - K = 15 - 3 = 12
Los valores de r calculados de la correlación parcial se comparan en la distribución de

valores críticos en función de la probabilidad y se observa que con 12 grados de libertad
se ubican las cifras de 0.532 y 0.661, para un nivel de significancia al 5 y 1%. Esto significa
que los valores 0.97 y 0.99 tienen una probabilidad menor que 0.01.
Entonces las variables X y Y tienen una probabilidad que cae en el nivel de significancia, se
acepta Ha y se rechaza Ho. La variable Z se acepta Ho y se rechaza Ha.
Hay significancia entre la edad de los niños y su cantidad de lectura, y no hay significancia
entre el radio de sus cerebros.
? @
Se suele representar por MST, se le denomina varianza total o cuadrados medios totales,
es también un cociente y al numerador se le llama suma de cuadrados total y se
representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variación G.L. SS MS F
Entre grupos k-1 SSA SSA/(k-1) MSA/MSE
Tratamientos
Dentro Error (n-1)k SSE SSE/k(n-1)
Total kn-1 SST
Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región
crítica para dicho contraste es F > F(k-1,(n-1)k)a
Algunas propiedades
Es fácil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada
identidado propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El análisisde la varianza se puede realizar con tamaños muestrales iguales o distintos, sin
embargo es recomendable iguales tamaños por dos motivos:
La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es
igual.
Igual tamaño minimiza la probabilidad de error tipo II.
-'$!6$$0#!3
El anova permite distinguir dos modelos para la hipótesis alternativa:
$5"5. en el que la H1 supone que las k muestras son muestras de k
poblaciones distintas y fijas.
$ 5" $"#en el que se supone que las k muestras, se han
seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modeloI de anova es que se asume que existen cinco poblaciones (sin
tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el
contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del
animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el
estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos
que las forman) es decir corresponderían a la misma situación, mientras que en un
modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los
cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y
en algunas pruebas de hipótesis suplementarias.
!6$$0#!35"#
Es un diseñode anova que permite estudiar simultáneamente los efectos de dos fuentes
de variación.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no,
diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos.
En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco
para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el
segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n
individuos o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor
y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de
efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de
efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este
análisis es:
i o Ai b el efecto del nivel i del 11 factor, j es la media global, Donde o Bj e el efecto del
nivel j del 2º factor y ijk las desviaciones aleatorias alrededor de las medias, que también
se asume que están normalmente 2.distribuidas, son independientes y tienen media 0 y
varianza
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade
la de aditividad de los efectos de los factores.
B)ij, se les )ij, (AB)ij, ( A los términos ( denomina interacciónentre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea diferente
para cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un
anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el
efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos
grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se
les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el
tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles
(hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de
resultados posibles se esquematizan en la figura
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo
tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo
tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del
tratamiento). Ambos efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en
ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en
ambos grupos de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y
los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando
se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por
separado, por lo que, si en un determinado estudio se encuentra interacción entre dos
factores, no tiene sentido estimar los efectos de los factores por separado. A la
interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor
que la suma de efectos actuando por separado, en Biología se le denomina sinergiao
potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría
que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el
sexo que se tome como referencia).
2'!6$#!3/!04+A)$")!"$"#3
Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más
común es el diseño completamente aleatorizado a una vía. El término proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitación (el factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno
de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a.V Esta variación entre el número total de las 14 observaciones. Esto se llama 0# !
""$.
b.V Existe variación entre los diferentes tratamientos (muestras). Esto se llama
0# !!"#)/"#.
c.V Existe variación dentro de un tratamiento dado (muestra). Esto se denomina
0# !!"#$)/"#.

OV http://www.indec.mecon.ar/
OV http://www.isapre.cl/lado-graficos99.htm
Utilizamos esta página para extraer los gráficos con los que apoyamos o contrariamos nuestra
hipótesis.
OV http://www.ing.unp.edu.ar/estadisitio/graficos.htm
OV http://www.ull.es/publicaciones/latina/z8/r4el.htm
OV
OV http://www.monografias.com/trabajos15/estadistica/estadistica.shtml
OV
OV http://es.wikipedia.org/wiki/Estad%C3%ADstica
OV
OV http://www.hrc.es/bioest/estadis_1.html
OV
OV http://www.eumed.net/cursecon/libreria/drm/ped-drm-est.htm
OV
OV http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-indice.html
OV
OV http://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial
OV
OV http://www.mitecnologico.com/iem/Main/EstadisticaInferencial
OV
OV http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html
OV
OV http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html
OV
OV http://www.slideshare.net/freddygarcia/estadistica-inferencial-presentation
OV
OV http://eilae12007.blogspot.com/

Estadistica Texto Paralelo

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Estadistica Texto Paralelo

Încărcat de

Drepturi de autor:

Formate disponibile

c c

Estadística es el Conjunto de informes numéricos derivados de los censos de población, de

Conjunto de métodos científicos ligados a la toma, organización, recopilación,

En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos

Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo

SU RELACIÓN CON OTRAS CIENCIAS

La estadística es una rama de la matemática que se refiere a la recolección, estudio e

Los recursos de la estadística para la investigación científica pueden considerarse como un

Estadística: es comúnmente considerada como una colección de hechos numéricos

"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los

Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias,

La fusión de esta creciente complicación de las herramientas de análisis, junto con la

   c 

Es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la

 c c 

Agrupación de datos en categorías mutuamente excluyentes que indican el número de

Elementos fundamentales para elaborar una distribución de frecuencia:

4)EL NUMERO DE CLASES.

5) VALOR DEL INTERVALO O AMPLITUD

#%$ #/!%$/" #/!#$"0

Vamos a calcular los valores de las distintas posiciones centrales:

Xm (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 *

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

X ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^

En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene

En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría

à   

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o

-'(0 !"4: Se calcula como raíz cuadrada de la varianza.

#%$ #/!%$/" #/!#$"0

-'(0 !"4+es la raíz cuadrada de la varianza. Luego:

Consideremos la función ã     A la esperanza matemática de  se le

Si  , se tiene que el primer momento de es la media de , es decir

 (compare con la definición de la sección 4.4). [4.8]

Si ã  obtenemos el k-ésimo momento central de . Esto es:

Si el primer momento central existe, debe ser igual a cero.

El ,/!))!"!"#$ï es la varianza (compare con la definición de varianza de

Obsérvese que de aquí se llega a

Si una "#%/ !)*"# con respecto a la media m y si el tercermomento central

  existe, entonces éste debe ser cero.

Cabe hacer notar que, si

como la medida de la simetría, ya que cuando una distribución es

  

La cantidad se usa como la medida de la   o /#" de una

a   

"# "# "#

FUNCION GENERATRIZ DE MOMENTOS

Derivando esta expresión

Cuando , la expresión del lado derecho es el k-ésimo momento de X

    

2.1.1 Conceptoclásico y como frecuencia relativa. 1 Definición Clásico. La probabilidad

2 La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el

Como frecuencia relativa 1 probabilística: se basa en las frecuencias relativas. La

P (E) número de veces que el evento ocurrió en el pasado

Numero total de observaciones

2 Definición Frecuencia. La definición frecuentita consiste en definir la probabilidad como

2.1.2 interpretación subjetiva de probabilidad

1 La probabilidad subjetiva de un evento: se la asigna la personaque hace el estudio, y

c c

c

c c

#%$ #/!%$/" #/!#$"0

Xm (1,201) + (1,214) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 *

à

-'(0 !"4: Se calcula como raíz cuadrada de la varianza.

#%$ #/!%$/" #/!#$"0

-'(0 !"4+es la raíz cuadrada de la varianza. Luego:

Consideremos la función ã A la esperanza matemática de se le

Si , se tiene que el primer momento de es la media de , es decir

(compare con la definición de la sección 4.4). [4.8]

Si ã obtenemos el k-ésimo momento central de . Esto es:

El ,/!))!"!"#$ï es la varianza (compare con la definición de varianza de

Si una "#%/ !)*"# con respecto a la media m y si el tercermomento central

existe, entonces éste debe ser cero.

La cantidad se usa como la medida de la o /#" de una

a

"# "# "#

Cuando , la expresión del lado derecho es el k-ésimo momento de X

c

c

OV c

La distribución normal es también un caso particular de #%%$ 0#%$

Afortunadamente también se puede utilizar una "#%/ ! #%%$ !#)$

c

c8c9

:cc; c

<=##$ ! cuando la configuración de los puntos está esparcida.

La correlación puede ser"0o !,"0.