Sunteți pe pagina 1din 14

PARTE 1: INTRODUCCIÓN

Estadística.

La estadística nace en el siglo xix como la unión de dos pensamientos antiguos, la probabilidad
nacida como teoría matemática de los juegos al azar y la estadística, nacida como la ciencia del
estado, encargada de la descripción de los datos.

ESTADÍSTICA: ES LA CIENCIA ENCARGADA DE OPTENER CONCLUSIONES DE LAS


INVESTIGACIONES Empíricas A PARTIR DE METODOS MATEMATICOS.

METODOS O MODELOS MATEMATICOS: Son creados para simplificar los complejos


problemas de la realidad, así es más ameno manejar datos matemáticos y facilita su uso y
comprensión. Como es de esperarse estos modelos tienden a tener su margen de error.

Es importante comprender la estadística como una herramienta para en las ciencias diferenciar
el conocimiento basado en experimentos empíricos de aquellos que carecen de este.

Problemas que trata la estadística.

Descripción de datos: Su primera función es a partir de los datos simplificar estos con
modelos matemáticos para hacer más amena su interpretación.

Análisis de muestra: Es probable que a menudo el estudio de toda la población se dificulte


un poco, por esto los estadísticos tendemos a sacar de una población una muestra
REPRESENTATIVA, donde con los datos de dicha muestra se establecerán conclusiones para
toda la población.

Verificación de hipótesis: Es muy frecuente que en las investigaciones científicas, se utilicen


modelos para constatar que ciertas hipótesis son ciertas, alejando del experimentos
factores externos y controlando la seguridad del experimento.

Relaciones: Busca por medio de datos estadísticos establecer si ciertos factores tiene
relación, por ejemplo si el índice de personas que ingresan a una universidad depende de
su estrato socioeconómico.

Predicción: Es más utilizado en ámbitos económicos para prever cierta demanda de un


producto, etc. Generalmente se utiliza la historia como un recurso para la predicción.

Metodología de la investigación estadística.

En el método científico generalmente se utilizan dos tipos de razonamiento, el deductivo y


el inductivo.

 El método deductivo analiza los factores generales y de estos extrae conclusiones


para los factores particulares, razonamiento inherente a la lógica. Eje: Todos los
perros tiene pulmones, mi mascota es un perro, tiene pulmones.
 El método inductivo es lo inverso, a partir de factores particulares se establecen
conclusiones para los factores generales.

La estadística descriptiva es aquella donde promedio de modelos matemáticos se manipulan


los datos para convertirlos en información, y la inferencia estadística es el proceso donde esa
información se transforma en conocimiento científico, conocimiento que se adapta a los
problemas de la realidad.

Etapas en la investigación estadística.

1. Problema: Como primera medida se tiene que plantear una pregunta o interrogante,
después tener bien definida la población del estudio y las variables que se quieren
estudiar.

2. Construcción de modelo: Dependienta del tipo y cantidad de las variables, se establece


el modelo matemático más adecuado en la investigación. En toda construcción del
modelo se necesita tener en cuenta que existen dos descomposiciones en la variable
de respuesta (y), la parte sistemática y la parte aleatoria.

Y=Parte sistemática + Parte aleatoria

3. Recolecta de información: Una vez escogido el modelo del estudio, necesitamos saber
de qué forma se recolectará la información.

(1) Muestreo
(2) Diseño de experimentos

En el muestreo simplemente se observan las variables y se anotan sus valores


En el experimento, se fijan algunas variables con el deseo de ver la respuesta
de otras variables.

Un poco de Historia.

Probabilidad.

Se conoce por estudios arqueológicos que los dados datan desde antes de 3.000 años
A.C. Utilizados generalmente como parte de los juegos de azar, juegos que eran
utilizados como entretenimiento y cultos religiosos. Las civilizaciones más antiguas
explicaban el azar de forma metafísica, ya fuera por oráculos o por seres divinos. El
estudio de la probabilidad se solidifica por el famoso problema de Fermat y Pascal
(¿Cómo repartir las ganancias de las apuestas entre los jugadores?, teniendo en cuenta
que el juego fue suspendido).
Más tarde, Laplace fue el primero en introducir la definición de probabilidad como
disciplina, sirviendo hasta el siglo XIX a la física y astronomía principalmente.

Ciencia del estado.

Antiguamente en los estados era necesario recolectar información sobre su pueblo,


desde censos hasta información sobre sus recursos. Durante los siglos 16 y 17 la
estadística coge fuerza, siendo útil en las cifras de mortalidad y población de una
nación.

Más tarde fue aplicándose en la teoría evolutiva de Darwin, adentrándose la


estadística por la jugosa aleatoriedad del proceso evolutivo. Galton, primo de Darwin,
realizó estudios exhaustivos sobre la estadística en el proceso evolutivo, buscando
ayuda de otros autores filósofos y matemáticos (K. Pearson), lograron establecer gran
parte de la estadística actual.

En 1950 se puede dar inicio a la estadística moderna, influenciada por Pearson y otros
matemáticos, se logró aplicar la estadística en las ingenieras, antropología, economía, y
a gran parte de la disciplina. El gran avance de la estadística también tiene fruto por el
nacimiento de los ordenadores, que hacen más ameno la creación de modelos y el
trato con los datos.

PARTE 2: DATOS
Tipos de datos.
La estadística descriptiva busca convertir los datos en información, para esto es
necesario categorizar los datos.

Cualitativos: Son aquellos datos que no contienen variables numéricas y describen


cualidades, por ejemplo, el color de cabello, los nombres, etc.

Cuantitativos Discretos: Son aquellos con valores numéricos enteros, que se


utilizan generalmente para contar las veces que ocurre un suceso, por ejemplo,
Numero de clientes en cierta empresa.

Cuantitativos Continuos: Son aquellos que toman valores decimales, se utilizan


mayormente en magnitudes, por ejemplo, la altura de las personas.

Distribución de frecuencias:
Se representan los datos indicando los valores de la variable e indicando su frecuencia
relativa.

Donde A es una variable:

La frecuencia relativa está dada por:

Fr(A) = Número de veces que se observa A (No.Veces que se repite A)

Número total de datos

La Fr puede ser interpretada como el porcentaje que representa esa variable en la cantidad
total de datos o la probabilidad de que ocurra dicha variable.

En una variable tipa Cuantitativo discreto y cualitativo, su clase (X) Se indican


individualmente, a menos que las clases sean más de 20, en ese caso es conveniente
agruparlas al igual que con las variables Cuantitativas continuas.

Agrupamiento en tablas de frecuencia:

Cuando el número de clases en una variable Cuantitativa discreta es muy grande, o,


cuando es una variable cuantitativa continua es conveniente agrupar los datos en
clases.

1. Si los datos son tipo decimal, conviene redondear los datos a lo sumo 3
decimales después de la coma.
2. Decidir el número de clases (x), una forma muy utilizada es elegir el “r” más
cercano a un entero, donde r=Raíz(n), donde n es el número total de datos.
3. Tratar de que los intervalos en las clases sean iguales.
4. Sacar la marca de clase. Suma de los intervalos en cada clase dividido por 2.
Semigrafica para la distribución de frecuencias. (Diagrama de tallo y hojas)
Cuando el número de datos es MENOR A 50, es conveniente realizar el diagrama de
tallo y hojas. Funciona de la siguiente manera:

Si es variable cuantitativa discreta: En la parte izquierda es el “tallo”, en la parte


derecha es la “hoja”. Si el dato contiene dos dígitos, su unidad es la hoja, y su
decena es el tallo. Si el dato contiene tres dígitos, su unidad es la hoja y su
decena-centena es el tallo. Así, el tallo representa la clase y su hoja las
frecuencias.

Si por el contrario, es una variable cuantitativa continua, tendremos que


redondear a DOS O TRES cifras significativas, una vez hecho esto, realizaremos
el mismo procedimiento que para las variables cuantitativas discretas.

EJEMPLO: La siguiente distribución de frecuencias representa las edades para un colectivo


de N=20.

36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 30

-Realizando el diagrama:

2 0 344459
3 6 979361410
4 105

De acuerdo al diagrama podemos inferir que:


-De 20 a 29 años hay 7 personas
-De 30 a 39 hay 10 personas
-De 40 a 45 hay sólo 3 personas.

Representaciones gráficas.

 Diagrama de Pareto: Se utiliza para datos cualitativos.

-Su clase se representa en el eje X y su frecuencia en el eje Y.


-Algo muy curioso es que generalmente en estos gráficos, la ¼ parte en el eje X
representa la ¾ parte del eje Y. La ¾ parte del eje X representa la ¼ parte del
eje Y. A este efecto se le conoce como LEY DE PARETO.
EJEMPLO:

-La tinta representa la ¼ pate en el eje X, pero en el eje Y representa la ¾ parte.

 Diagrama de barras: Se utiliza para datos no agrupados y variables cuantitativas


discretas. Su eje Y representa la frecuencias y su eje X representa su clase.

 Histograma: Es una representación muy utilizada para datos agrupados.

-En el eje X se encuentra su marca de clase por agrupación, su eje Y representa su


frecuencia.
Otros gráficos.

-Diagrama de puntos: Puede ser una alternativa para el diagrama de tallos y hojas. Se
construye con una línea recta y a continuación se separan las clases. En medio de las clases irán
sus frecuencias representadas por puntos.

12 15 20

-Diagrama de pastel o pictograma. Se utiliza para describir la división en categorías o áreas


diferentes.

Medidas de centralidad.

Media (XX ): Es una medida de centralidad en estadística. A menudo se le llama valor


esperado o esperanza. Funciona como la medida geométrica de estabilidad para
un conjunto de datos, el valor que se espera que tengan la mayoría de datos,
siendo así un estilo de promedio.

Cálculo.
Datos: Si tenemos el conjunto de datos y necesitamos la media, es
simplemente sumar todos los datos y dividir por el número total de
datos.

∑Xi/N Donde N es el número total de datos.

No agrupados: Es la suma de la multiplicación de cada clase o dato por


su frecuencia relativa.

∑Xi * Fr (Xi)

Agrupados: Suponemos que toda marca de clase representa los datos


en esa longitud, por esto la media para datos agrupados, se halla con la
suma de la multiplicación de cada marca de clase por su frecuencia
relativa.
∑Mi * Fr (Mi)
Mediana y Moda: La mediana viene siendo el valor posición del medio, es decir, el
50% de los datos estará por debajo de la mediana y el 50% por encima.

No agrupados: Viene siendo el número total de datos sobre 2. El valor


resultante es la posición en frecuencia acumulada. Si encontramos el
valor exacto en la tabla, la clase de estas frecuencias es la mediana, de
lo contrario, sería su valor siguiente.

Agrupados:

Li-1 es el límite inferior de la clase donde se encuentra la mediana.

N / 2 es la semisuma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

Fi es la frecuencia absoluta del intervalo mediano.

Ti es la amplitud de los intervalos.

Y la MODA es el valor que más se repite.

Uno de los problemas principales de la media es que utiliza la magnitud de los datos, por lo
que un dato atípico puede cambiar radicalmente su valor. La mediana por su parte utiliza el
orden de los datos y no su magnitud. Lo más recomendable es calcular ambas, si estas
difieren mucho significa que su distribución es muy heterogénea (Muestra formada por datos
de distintas clases).

Medidas de dispersión.
Desviación típica: Es la medida de dispersión para la media. Esta resulta útil para
calcular su variabilidad. Con la variabilidad podemos comparar la dispersión en las
muestras, ver que tan alejado se encuentran nuestros datos sobre la media y hasta
incluso ver el % de datos que se encuentran en cierto rango de medidas. Si una
muestra está menos dispersa, se pueden encontrar más fácilmente los datos atípicos o
errores, por el contrario, si la muestra está muy dispersa, podremos confundir los datos
atípicos y así nunca ver errores.

Cálculo:

Datos:

S=√ (∑Xi-XX )2/N Donde N es el número de datos.

Sin agrupar:

S=√ (Xi-XX )2 * Fr (Xi)

Agrupados:

S=√ (MI - XX )2 * Fr (Mi)

La media junto con la desviación tiene un significado importante, pues nos puede dar el
porcentaje de datos encontrados en cierto rango de la muestra. Siendo k el número de
desviaciones.

100(1-(1/K2))

Si por ejemplo nuestra media es de 50 y la desviación de 3, sabremos que entre


la media y 2 desviaciones típicas está como mínimo el 75%, siendo ese 75% el
rango de (50+2*3)=56 Y (50-2*6) =44. Entonces concluiremos que entre 44 y 56
se encuentran el 75% de los datos.

Coeficiente de variación: Es una medida que nos dice que porcentaje representa la desviación
típica sobre nuestra media. Resulta muy útil cuando los datos son de diferentes magnitudes, así
comparar cuales datos están más dispersos. Si nuestro CV es del 7% indica poca dispersión, si
está entre 8% y 20% es una dispersión aceptable, si está entre valores mayores al 20% es un
dispersión muy alta, lo que indica unos datos muy heterogéneos.

CV=S/XX

Datos heterogéneos: Un dato heterogéneo es aquél que presenta dispersión, son aquellos
datos donde su media no es representativa, donde sus datos son muy atípicos y muy dispersos.
Medidas de asimetría y curtosis.

Coeficiente de asimetría: Es una medida que indica la asimetría de la distribución. Si


nuestro coeficiente es 0 tenemos una distribución simétrica, y por ende, no sesgada. Si
nuestro coeficiente es mayor que 0, tenemos una distribución asimétrica por la
derecha, por ende, diremos que nuestra distribución está sesgada hacia la derecha. Si
nuestro valor es menor que 0, es una distribución sesgada a la izquierda, con asimetría
hacia la izquierda.

CA=∑ (XI - XX )3 / (ns3)

CA=(∑ (XI - XX )3 * Fr (Xi))/(ns3)

Curtosis: Es una medida para saber qué tan cerca están los datos respecto de la media.
Nos indica el nivel de heterogeneidad de los datos; si este es menor a dos, es una
distribución heterogenia, si este es mayor a cuatro presenta homogeneidad, pero con
algunos valores atípicos.

Datos atípicos:

Un dato atípico es aquel dato producido por un error en la toma de información, son
datos tomados en distintas circunstancias y que presenta errores de medida.
Generalmente son datos alejados del grupo de datos principal.

La forma más utiliza para descubrir los valores atípicos es la siguiente.

Son atípicos los valores menores de Q1 – 1.5 (Q3-Q1)

Son atípicos los valores mayores de Q3 + 1.5 (Q3-Q1)

Calcular cuartiles:

Donde k es el cuartil que se quiere hallar


Li es el límite inferior de la clase donde se encuentra el cuartil.

N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.

Ai es la amplitud de la clase.

Diagrama de cajas: Es una representación gráfica de los resúmenes estadísticos más


importantes. Es muy útil para identificar datos atípicos a la muestra. También se utiliza mucho
para comparar datos de la misma variable aplicadas a diferentes poblaciones.

Se construye de la siguiente forma:

1. Tener los cuartiles, el valor menor y mayor de nuestra muestra.


2. El valor menor y mayor representan los límites de la caja.

3. Dentro de la caja ira la mediana o el Q2.

4. En los límites de la caja, sobresalen dos “bigotes” a cada lado, los valores
por fuera de estos “bigotes” serán valores atípicos. Estarán datos por la
formula anterior.
PARTE 2: DESCRIPCIÓN CONJUNTA DE VARIABLES.

En esta parte se estudiarán los modelos cuantitativos para medir la relación entre las
variables (x, y).

TABLA DE FRECUENCIAS:

Para las variables cuantitativas, la distribución de frecuencias para dos variables se


denomina “Distribución conjunta”. Para los datos cualitativos se denomina tabla de
contingencia.

Método de construcción.
La frecuencia de cada casilla está dada por la forma F (x, y), donde x son las filas e y son las
columnas. De esta forma, en cada casilla irá la frecuencia de ambas variables, se consigue
con la suma de estas.

Distribución marginal.
Se denomina distribución marginal a la suma de las frecuencias para cada x e y.

Distribución condicional.
De esta distribución podemos concluir los valores que representa la variable Y con respecto
a cierta característica de la variable X.

Fr (x/y) = (Fr (x, y)) (yi), Donde yi es la distribución marginal de esa casilla.

Gráficas: La gráfica que resulta más útil para el análisis de dos variables (continuas sin
agrupar) es el diagrama de dispersión, este nos indica sí existe relación entre las dos
variables comparadas.
Para datos agrupados se utiliza un histograma bidimensional.

COVARIANZA.

Medida que permite establecer (medir) la relación entre dos variables (x, y).
Si la Cov tiene signo positivo, este indica que su relación es positiva. Si su relación es
positiva, nos dice que los valores de X e Y tenderán a estar arriba o por debajo de la media
a la misma vez. Si, por el contrario, es negativo, indica que mientras un valor de X este por
encima de la media, su respectivo valor en Y se ubicara por debajo de la media.

Cov (x, y) = ∑(x-xx) (y-yx))/(n)

CORRELACIÓN.

Debido a la dependencia que tiene la covarianza con las unidades de medida de las
variables, nace el coeficiente de correlación, este al igual que la covarianza indica la
relación entre dos variables.

- Su signo debe ser igual al de la covarianza.


- Si no está entre -1 y 1, no tienen relación.
- Se define como: (Cov (x, y))/(Sx * Sy)

RECTA DE REGRESIÓN.

Cuando dos variables tienden a relacionarse linealmente, sus puntos se agrupan en forma de
recta. En este punto, podremos describir la relación de dos variables en torno a su resta y las
desviaciones que tengan los puntos sobre esta; funcionando la recta como su media.

Recta regresión: Y = a + b (x)

Donde a es el valor de X en el origen (0); a = (YX - b*XX )


Donde b es la pendiente.; b = (Cov) / (S x2)

Una vez establecida la relación, la recta de regresión es muy útil para prever. Se utiliza
suponiendo que se desconoce la variable Y, y que se conoce su variable X; de este modo, Y es
la variable de respuesta y X es el estímulo.

Se conoce como desviación típica residual al promedio de las desviaciones entre cada dato.
Sr = √ (∑(Yi – a - bXi)2 / (n) )
PARTE 3: PROBABILIDAD Y VARIABLES ALEATORIAS.

El cálculo de probabilidades nace como el instrumento que permitirá la generalización de


una muestra a su población respectiva, funcionando puente entre lo conocido y lo
desconocido mediante modelos de la población.

Definiremos entonces a la probabilidad de un suceso A como:


P(A)=k/N

Donde K es la característica favorable (A) y N en número total de datos.


Así, por ejemplo, si lanzamos una moneda 400 veces, buscando que su resultado sea cara,
en la repetición número 100 su frecuencia relativa irá ajustándose a 0,5.

Definición y propiedades

Se puede definir a la probabilidad como aquella medida del grado de incertidumbre ante
un experimento empírico. Un experimento es aquel proceso donde se observa en un
elemento de la población cierta característica.

S-ar putea să vă placă și