Trabajo Final Estadistica Completo - Steven Madaschi PDF

Área de Ciencias Básicas y Ambientales
Estadística Aplicada
MGA-502
Sección:
03
Tema:
Trabajo Final
Facilitador:
Alexis Duran
Presentado Por:
Nombre Matrícula
Steven C. Madaschi A. 1057712/13-1111
1- Describa los contenidos estudiados en cada una de las cinco
unidades del programa de la asignatura Estadística Aplicada.
Unidad 1: Estadística Descriptiva
La estadística descriptiva es la rama de la estadística que recolecta, analiza
y caracteriza un conjunto de datos (peso de la población, beneficios diarios
de una empresa, temperatura mensual,…) con el objetivo de describir las
características y comportamientos de este conjunto mediante medidas de
resumen, tablas o gráficos.
Población y Muestra
En estadística Población se refiere al universo, conjunto o totalidad de
elementos sobre los que se investiga o hacen estudios. Muestra es una
parte o subconjunto de elementos que se seleccionan previamente de una
población para realizar un estudio.
Variables
Una variable es una característica o cualidad de un individuo que está
propenso a adquirir diferentes valores. Estos valores se caracterizan por
poder medirse.
Parámetros y estadísticos
Parámetro: un parámetro estadístico es un número que se obtiene a partir
de los datos de una distribución estadística.
Estadístico: es una medida cuantitativa, derivada de un conjunto de datos

de una muestra, con el objetivo de estimar o inferir características de una
población o modelo estadístico.
Error muestral: se refiere a la variación natural existente entre muestras

tomadas de la misma población.
Medidas de tendencia central
Las medidas de tendencia central son medidas estadísticas que pretenden
resumir en un solo valor a un conjunto de valores. Representan un centro
en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas
de tendencia central más utilizadas son: media, mediana y moda.
La media aritmética es el valor obtenido por la suma de todos sus valores
dividida entre el número de sumadores.
La moda es el dato más repetido de la encuesta, el valor de la variable con
mayor frecuencia absoluta. En cierto sentido la definición matemática
corresponde con la locución "estar de moda", esto es, ser lo que más se
lleva.
La mediana es un valor de la variable que deja por debajo de sí a la mitad
de los datos, una vez que éstos están ordenados de menor a mayor. En caso
de un número par de datos, la mediana no correspondería a ningún valor
de la variable, por lo que se conviene en tomar como mediana el valor
intermedio entre los dos valores centrales.
Medidas de dispersión
Son parámetros estadísticos que indican como se alejan los datos respecto
de la media aritmética. Sirven como indicador de la variabilidad de los
datos. Las medidas de dispersión más utilizadas son la amplitud o rango, la
desviación media, la desviación estándar y la varianza.
La amplitud Indica la dispersión entre los valores extremos de una variable.
Se calcula como la diferencia entre el mayor y el menor valor de la variable.
Se denota como R.
Para datos ordenados se calcula como:
R = x(n) - x(1)
Dónde: x(n): Es el mayor valor de la variable. x(n): Es el menor valor de la
variable.
La desviación media es la media aritmética de los valores absolutos de las

diferencias de cada dato respecto a la media.
Donde:
xi:valores de la variable.
n: número total de datos

La varianza es la media aritmética del cuadrado de las desviaciones
respecto a la media de una distribución estadística.
La desviación estándar es la raíz cuadrada de la varianza. Es decir, la raíz
cuadrada de la media de los cuadrados de las puntuaciones de desviación.
Representaciones graficas de datos

En los análisis estadísticos, es frecuente utilizar representaciones visuales
complementarias de las tablas que resumen los datos de estudio. Con estas
representaciones, adaptadas en cada caso a la finalidad informativa que se
persigue, se transmiten los resultados de los análisis de forma rápida,
directa y comprensible para un conjunto amplio de personas.
Tipos de representaciones gráficas
Cuando se muestran los datos estadísticos a través de representaciones

gráficas, se ha de adaptar el contenido a la información visual que se
pretende transmitir. Para ello, se barajan múltiples formas de
representación:
 Diagramas de barras: muestran los valores de las frecuencias

absolutas sobre un sistema de ejes cartesianos, cuando la variable es
discreta o cualitativa.
 Histogramas: formas especiales de diagramas de barras para
distribuciones cuantitativas continuas.
 Polígonos de frecuencias: formados por líneas poligonales abiertas
sobre un sistema de ejes cartesianos.
 Gráficos de sectores: circulares o de tarta, dividen un círculo en
porciones proporcionales según el valor de las frecuencias relativas.
 Pictogramas: o representaciones visuales figurativas. En realidad son
diagramas de barras en los que las barras se sustituyen con dibujos
alusivos a la variable.
 Cartogramas: expresiones gráficas a modo de mapa.
 Pirámides de población: para clasificaciones de grupos de población
por sexo y edad.
Unidad 2: Probabilidades
Probabilidad
La probabilidad es simplemente qué tan posible es que ocurra un evento
determinado. Cuando no estamos seguros del resultado de un evento,
podemos hablar de la probabilidad de ciertos resultados: qué tan común es
que ocurran. Al análisis de los eventos gobernados por la probabilidad se le
llama estadística.
Definición clásica y frecuencial
Probabilidad clásica: Es la razón entre el número de casos (sucesos)
favorables, y el número total de casos (sucesos) posibles, siempre que nada
obligue a creer que algunos de estos sucesos debe tener preferencia a los
demás, lo que hace que sean igualmente posibles, es decir:
Probabilidad frecuencial: Conocida también como probabilidad empírica es

la que se fundamenta en los datos que se obtienen por
encuestas, preguntas, etc.
Se le llama probabilidad frecuencial al cálculo de la probabilidad de un
evento y la frecuencia relativa del mismo.
Para determinar la probabilidad frecuencial, se repite un número
determinado de veces, posteriormente se registran los datos y se divide el
número de veces que se obtiene del resultado que nos interesa entre el
número de veces que se realizó el experimento.
Distribuciones de probabilidad
La distribución de probabilidad, se refiere a todos los resultados posibles
que pueda tener una variable aleatoria, es decir, describe el
comportamiento de dicha variable dentro de un intervalo de valores o de
posibles resultados.
La variable aleatoria puede ser discreta o continua. Una variable aleatoria
discreta es aquella representada por números enteros, caracterizada por el
límite de valores que puede tomar. Por otro lado, una variable aleatoria
continua no posee esta separación o limitación, puede tomar cualquier
valor dentro del límite establecido.
Tipos de distribución de distribuciones de probabilidad:
El tipo de distribución depende del tipo de variable que se esté tratando.
Existen muchas, a continuación, las principales o más conocidas:
 Para variables continuas: en el caso de que la variable aleatoria sea

continua, la distribución asociada es una distribución normal o de
tipo Gaussiana.
 Para variables discretas: en el caso de que la variable aleatoria sea
discreta, pueden existir varios tipos de distribuciones, las principales
son la distribución binomial, la distribución hipergeométrica y la
distribución de Poisson.
Distribución Normal es una de las más importantes en el área de

estadística. Su desarrollo y explicación se les atribuyen a diferentes
investigadores, especialmente a Carl Friedrich Gauss.
Esta distribución considera dos parámetros, los cuales son el promedio o la

media (μ) y la desviación estándar (σ). Gracias a estos dos parámetros, tiene
asociada una ecuación, de la cual se desarrolla una gráfica conocida como
campana de Gauss.
Esta gráfica es simétrica con respecto a la media y su apertura o ancho viene
dada por la desviación estándar. A su vez, en la gráfica se ve reflejada la
distribución de la probabilidad de la variable en estudio.
De esta distribución normal se desarrollan otros tres tipos de
distribuciones:
 T de Student
 Ji-cuadrado
 F de Fisher
Algunos ejemplos donde puede darse una distribución normal son:
 El efecto de un medicamento o fármaco.

 El cambio de temperatura en una época del año específica.
 Caracteres morfológicos como el peso o la estatura en un grupo de
individuos.
La Distribución Binomial fue desarrollada por Jacob Bernoulli, posee
diversas aplicaciones en el área de bioestadística, específicamente en la
realización de experimentos, también es conocida como distribución de
Bernoulli.
Un experimento o estudio tiene una distribución binomial cuando se

cumplen las siguientes condiciones:
 En el experimento solo existen dos posibles resultados, el éxito o el

fracaso.
 La repetición del mismo experimento presenta un resultado que es
independiente de los resultados anteriores.
 La probabilidad del éxito o del fracaso es constante.
 Cada experimento posee un mismo número de réplicas.
Se aplica a experimentos y relaciones en las áreas de medicina o biología,

aunque también puede ser aplicada en las finanzas y economía. Algunos
ejemplos de su aplicación son:
 Si una persona presenta o no una enfermedad como cáncer, viruela,

o hepatitis.
 Si una mujer se encuentra o no embarazada.
 Si la publicación de un artículo fue exitosa o no.
Unidad 3: Estimación puntual y por intervalos

Se llama estimación al conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos
proporcionados por una muestra. Por ejemplo, una estimación de la media
de una determinada característica de una población de tamaño N podría
ser la media de esa misma característica para una muestra de tamaño n
Estimación puntual
Una estimación es puntual cuando se usa un solo valor extraído de la
muestra para estimar el parámetro desconocido de la población. Al valor
usado se le llama estimador.
Estimación por intervalos
A veces es conveniente obtener unos límites entre los cuales se encuentre
el parámetro con un cierto nivel de confianza, en este caso hablamos de
estimación por intervalos.
Intervalos de confianza para la media y la proporción
Se llama intervalo de confianza a un par o varios pares de números entre
los cuales se estima que estará cierto valor desconocido con una
determinada probabilidad de acierto. Formalmente, estos números
determinan un intervalo, que se calcula a partir de datos de una muestra, y
el valor desconocido es un parámetro poblacional. La probabilidad de éxito
en la estimación se representa con 1 - α y se denomina nivel de confianza.
Intervalos de confianza para la media:
Dada una variable aleatoria con distribución Normal N(μ, σ), el objetivo es
la construcción de un intervalo de confianza para el parámetro μ, basado
en una muestra de tamaño n de la variable.
Desde el punto de vista didáctico hemos de considerar dos posibilidades

sobre la desviación típica de la variable: que sea conocida o que sea
desconocida y tengamos que estimarla a partir de la muestra. El caso de σ
conocida, ya comentado anteriormente, no pasa de ser un caso académico
con poca aplicación en la práctica, sin embargo es útil desde el punto de
vista didáctico.Intervalo de confianza de una proporción
Intervalo de confianza de una proporción:
El intervalo de confianza para estimar una proporción p, conocida como una

proporción muestral pn de una muestra de tamaño n, a un nivel de
confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema

Central del Límite y la aproximación de una binomial por una normal.
Unidad 4: Pruebas de hipótesis
Prueba de hipótesis
Una prueba de hipótesis es una regla que especifica si se puede aceptar o

rechazar una afirmación acerca de una población dependiendo de la
evidencia proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una

población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el
enunciado que se probará. Por lo general, la hipótesis nula es un enunciado
de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el
enunciado que se desea poder concluir que es verdadero de acuerdo con la
evidencia proporcionada por los datos de la muestra.
Con base en los datos de muestra, la prueba determina si se puede rechazar

la hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el
valor p es menor que el nivel de significancia (denotado como α o alfa),
entonces puede rechazar la hipótesis nula.
Tipos de error
Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa
en probabilidades, siempre existe la posibilidad de llegar a una conclusión
incorrecta. Cuando usted realiza una prueba de hipótesis, puede cometer
dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están
inversamente relacionados y se determinan según el nivel de significancia y
la potencia de la prueba. Por lo tanto, usted debe determinar qué error
tiene consecuencias más graves para su situación antes de definir los
riesgos.
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un
error de tipo I. La probabilidad de cometer un error de tipo I es α, que
es el nivel de significancia que usted establece para su prueba de
hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una
probabilidad de 5% de estar equivocado al rechazar la hipótesis nula.
Para reducir este riesgo, debe utilizar un valor menor para α. Sin
embargo, usar un valor menor para alfa significa que usted tendrá
menos probabilidad de detectar una diferencia si está realmente
existe.
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un
error de tipo II. La probabilidad de cometer un error de tipo II es β,
que depende de la potencia de la prueba. Puede reducir el riesgo de
cometer un error de tipo II al asegurarse de que la prueba tenga
suficiente potencia. Para ello, asegúrese de que el tamaño de la
muestra sea lo suficientemente grande como para detectar una
diferencia práctica cuando está realmente exista.
Prueba de hipótesis para la media
Esta se utiliza para probar una afirmación con respecto a una media de una
población única.
Nota: Se considera práctico utilizar la distribución t solamente cuando se

requiera que el tamaño de la muestra sea menor de 30, ya que para
muestras más grandes los valores t y z son aproximadamente iguales, y es
posible emplear la distribución normal en lugar de la distribución t.
Prueba de hipótesis para proporciones

Las pruebas de proporciones son adecuadas cuando los datos que se están
analizando constan de cuentas o frecuencias de elementos de dos o más
clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto
a una proporción (o Porcentaje) de población. Las pruebas se basan en la
premisa de que una proporción muestral (es decir, x ocurrencias en n
observaciones, o x/n) será igual a la proporción verdadera de la población
si se toman márgenes o tolerancias para la variabilidad muestral. Las
pruebas suelen enfocarse en la diferencia entre un número esperado de
ocurrencias, suponiendo que una afirmación es verdadera, y el número
observado realmente. La diferencia se compara con la variabilidad prescrita
mediante una distribución de muestreo que tiene como base el supuesto
de que es realmente verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas
de medias, excepto que, en el caso de las primeras, los datos muestrales se
consideran como cuentas en lugar de como mediciones. Por ejemplo, las
pruebas para medias y proporciones se pueden utilizar para evaluar
afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras),
y
3) La igualdad de parámetros de más de dos poblaciones (prueba de k
muestras). Además, para tamaños grandes de muestras, la distribución de
muestreo adecuada para pruebas de proporciones de una y dos muestras
es aproximadamente normal, justo como sucede en el caso de pruebas de
medias de una y dos muestras.
Unidad 5: Correlación y regresión
El análisis de regresión consiste en emplear métodos que permitan
determinar la mejor relación funcional entre dos o más variables
concomitantes (o relacionadas). El análisis de correlación estudia el grado
de asociación de dos o más variables.
Correlación lineal simple
Para estudiar la relación lineal existente entre dos variables continuas es
necesario disponer de parámetros que permitan cuantificar dicha relación.
Uno de estos parámetros es la covarianza, que indica el grado de variación
conjunta de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1
Siendo x¯¯¯ e y¯¯¯ la media de cada variable y xi e yi el valor de las variables
para la observación i
La covarianza depende de las escalas en que se miden las variables

estudiadas, por lo tanto, no es comparable entre distintos pares de
variables. Para poder hacer comparaciones se estandariza la covarianza,
generando lo que se conoce como coeficientes de correlación. Existen
diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho
de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva

perfecta y -1 una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del
efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Además del valor obtenido para el coeficiente de correlación, es necesario

calcular su significancia. Solo si el p-value es significativo se puede aceptar
que existe correlación, y esta será de la magnitud que indique el coeficiente.
Por muy cercano que sea el valor del coeficiente de correlación a +1 o −1,
si no es significativo, se ha de interpretar que la correlación de ambas
variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
Coeficiente de correlación lineal
La correlación, también conocida como coeficiente de correlación lineal (de

Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal

entre dos variables, es decir, si se representan en un diagrama de dispersión
los valores que toman dos variables, el coeficiente de correlación lineal
señalará lo bien o lo mal que el conjunto de puntos representados se
aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que

mide el grado de intensidad y el sentido de la relación entre dos variables.
Siendo:
Cov (x;y): la covarianza entre el valor «x» e «y».
σ(x): desviación típica de «x».
σ(y): desviación típica de «y».
Correlación y causalidad
Correlación: Según la RAE significa: “Correspondencia o relación recíproca
entre dos o más cosas o series de cosas.” En este caso la relación que se
establece es de simple correspondencia o similitud, no de origen. Por
ejemplo, existe una correlación entre el número de iglesias en una ciudad y
el número de alcohólicos en la misma.
Causalidad: Según la RAE significa: “Causa, origen, principio”. Es una
palabra que se utiliza para establecer una relación entre una causa y un
efecto. Es decir, hace referencia a los motivos que originan “algo”. Por
ejemplo, si tocas el fuego, te causa una quemadura.
Regresión lineal simple
La regresión lineal simple consiste en generar un modelo de regresión
(ecuación de una recta) que permita explicar la relación lineal que existe
entre dos variables. A la variable dependiente o respuesta se le identifica
como Y y a la variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio.

Este último representa la diferencia entre el valor ajustado por la recta y el
valor real. Recoge el efecto de todas aquellas variables que influyen en Y
pero que no se incluyen en el modelo como predictores. Al error aleatorio
también se le conoce como residuo.
En la gran mayoría de casos, los valores β0 y β1 poblacionales son
desconocidos, por lo que, a partir de una muestra, se obtienen sus
estimaciones β^0 y β^1
Estas estimaciones se conocen como coeficientes de regresión, ya que

toman aquellos valores que minimizan la suma de cuadrados residuales,
dando lugar a la recta que pasa más cerca de todos los puntos. (Existen
alternativas al método de mínimos cuadrados para obtener las
estimaciones de los coeficientes).
y^=β^0+β^1x
β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxR
β^0=y¯¯¯−β^1x¯¯¯
Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente

de correlación. β^0 es el valor esperado la variable Y cuando X = 0, es decir,
la intersección de la recta con el eje y. Es un dato necesario para generar la
recta, pero en ocasiones, no tiene interpretación práctica (situaciones en
las que X no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y

dependiendo de ellos es necesario satisfacer distintas condiciones. En caso
de querer medir la relación lineal entre dos variables, la recta de regresión
lo va a indicar de forma directa (ya que calcula la correlación). Sin embargo,
en caso de querer predecir el valor de una variable en función de la otra, no
solo se necesita calcular la recta, sino que además hay que asegurar que el
modelo sea bueno.
2- Diga cuáles de esos contenidos podría utilizar en su trabajo final de
investigación de la maestría y argumente cómo los usaría.
Mi trabajo final de investigación corresponde a la maestría en
Ciberseguridad, para la realización del mismo es probable que demos
mucho uso a las herramientas de la unidad 1 de Estadística Descriptiva,
como por ejemplo:
Imaginemos que para esta tarea me proponga desarrollar alguna

herramienta de ciberseguridad que quiera comercializar, para ello
necesitaría un estudio de mercado el cual debe ser aplicado a una muestra
representativa de una población de potenciales usuarios del mismo.
En dicho estudio lo más probable es que necesite recolectar datos de una o

varias variables a través de este estudio. Un ejemplo de variables
cuantitativas serian cantidad de ciberataques que haya sufrido, cantidad de
dinero y/o tiempo perdido a raíz de estos ciberataques, que tanto
valorarían en porcentaje la importancia de la información pérdida, que
porcentaje de información recuperaron. Como variables cualitativas el
sexo, estado civil, si pudo recuperar parte de la información, si tuvieron que
pagar alguna suma de dinero para recuperarla, si poseen antivirus, si
poseen firewall, etc.
A raíz de estos estudios utilizaría las medidas de tendencia central como la

media para obtener, valga la redundancia los valores promedio recopilados
en las variables cuantitativas analizadas anteriormente, de igual manera
pudiera utilizarse el rango o amplitud para determinar los valores extremos
y la desviación estándar para determinar que tanto se alejan los datos del
valor promedio de las mismas. Pudiera utilizar también lo que estudiamos
llamado tabla de frecuencia, esto con el fin de poder visualizar como están
distribuidas las distintas respuestas obtenidas en cada pregunta y nos
permitiría realizar representaciones graficas de dichos datos. Esto ayudaría
bastante a la hora de interpretar y visualizar más a fondo los datos y
también sería una manera estética de plasmar estos datos recopilados en
el trabajo final.
Cabe destacar también que a partir de los datos obtenidos en estos estudios
y/o encuestas podría ser posible obtener probabilidades que indicarían
informaciones tales como que tan probable es que recibamos algún
ciberataque, la probabilidad de perder información a causa de ello, la
probabilidad de que sea necesario pagar una cantidad x de dinero para
recuperar dicha información, entre otras informaciones probabilísticas
relevantes que apoyarían la hipótesis y/o le darían un mayor sentido.
Es probable que se utilice el análisis de correlación entre variables, esto

con el fin de determinar por ejemplo que variable afecta el recibir un
ciberataque o no, o que hace más vulnerables a las personas ante estos
ciberdelincuentes, si alguna característica de la población está asociada a
estos ataques, entre otras informaciones relevantes que pueden llevarme
a determinar la solución a una problemática y/o determinar que parte de la
población necesita una mayor atención en cuanto a esto se refiere.
A raíz de todo lo medido podemos obtener estadísticos muéstrales sobre

distintos aspectos de relevancia para mi trabajo final, que bien pudieran
guiarme a la identificación de un nuevo problema, a determinar si es viable
o no el proyecto que propongo desarrollar o si el mismo requiere reajustes
para llenar la expectativas de la población estudiada y captar su atención, y
claro para que esta sea una herramienta útil que permita mitigar algún
problema identificado en gran parte de la población gracias a la utilización
de la estadística.
Bibliografía
https://www.diferenciador.com/poblacion-y-muestra/
https://enciclopediaeconomica.com/variable-estadistica/
https://www.superprof.es/apuntes/escolar/matematicas/estadistica/descriptiva/parametros-
estadisticos.html
https://es.wikipedia.org/wiki/Estad%C3%ADstico_muestral
https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/4934?ver=sindiseno
https://es.wikipedia.org/wiki/Medidas_de_tendencia_central
https://www.ditutor.com/estadistica/medidas_dispersion.html
https://www.ecured.cu/Medidas_de_dispersi%C3%B3n
https://www.hiru.eus/es/matematicas/representacion-grafica-de-datos-estadisticos
https://sites.google.com/site/cristina12estadistica/9--probabilidad-clasica-y-frecuencial
https://www.webyempresas.com/distribucion-de-probabilidad/
http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/B0C8m1t8.htm
https://es.wikipedia.org/wiki/Intervalo_de_confianza
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-
topics/basics/what-is-a-hypothesis-test/
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-
topics/basics/type-i-and-type-ii-error/
https://economipedia.com/definiciones/correlacion-y-causalidad.html
https://rpubs.com/Joaquin_AR/223351
https://tarwi.lamolina.edu.pe/~fmendiburu/index-filer/academic/metodos1/Regresion.pdf
https://www.ditutor.com/estadistica/variables_tipos.html
https://www.ecured.cu/Tablas_de_frecuencias

Trabajo Final Estadistica Completo - Steven Madaschi PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Trabajo Final Estadistica Completo - Steven Madaschi PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Área de Ciencias Básicas y Ambientales

Estadístico: es una medida cuantitativa, derivada de un conjunto de datos

Error muestral: se refiere a la variación natural existente entre muestras

La desviación media es la media aritmética de los valores absolutos de las

n: número total de datos

Representaciones graficas de datos

Cuando se muestran los datos estadísticos a través de representaciones

 Diagramas de barras: muestran los valores de las frecuencias

Probabilidad frecuencial: Conocida también como probabilidad empírica es

 Para variables continuas: en el caso de que la variable aleatoria sea

Distribución Normal es una de las más importantes en el área de

Esta distribución considera dos parámetros, los cuales son el promedio o la

Algunos ejemplos donde puede darse una distribución normal son:

 El efecto de un medicamento o fármaco.

Un experimento o estudio tiene una distribución binomial cuando se

 En el experimento solo existen dos posibles resultados, el éxito o el

Se aplica a experimentos y relaciones en las áreas de medicina o biología,

 Si una persona presenta o no una enfermedad como cáncer, viruela,

Unidad 3: Estimación puntual y por intervalos

Desde el punto de vista didáctico hemos de considerar dos posibilidades

Intervalo de confianza de una proporción:

El intervalo de confianza para estimar una proporción p, conocida como una

En la demostración de estas fórmulas están involucrados el Teorema

Una prueba de hipótesis es una regla que especifica si se puede aceptar o

Una prueba de hipótesis examina dos hipótesis opuestas sobre una

Con base en los datos de muestra, la prueba determina si se puede rechazar

Nota: Se considera práctico utilizar la distribución t solamente cuando se

Prueba de hipótesis para proporciones

La covarianza depende de las escalas en que se miden las variables

 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva

Además del valor obtenido para el coeficiente de correlación, es necesario

La correlación, también conocida como coeficiente de correlación lineal (de

Por tanto, es una medida estadística que cuantifica la dependencia lineal

De una forma menos coloquial, la podemos definir como el número que

Cov (x;y): la covarianza entre el valor «x» e «y».

σ(x): desviación típica de «x».

σ(y): desviación típica de «y».

El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio.

Estas estimaciones se conocen como coeficientes de regresión, ya que

Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente

Una recta de regresión puede emplearse para diferentes propósitos y

Imaginemos que para esta tarea me proponga desarrollar alguna

En dicho estudio lo más probable es que necesite recolectar datos de una o

A raíz de estos estudios utilizaría las medidas de tendencia central como la

Es probable que se utilice el análisis de correlación entre variables, esto

A raíz de todo lo medido podemos obtener estadísticos muéstrales sobre

S-ar putea să vă placă și