Sunteți pe pagina 1din 5

ESTADÍSTICA DESCRIPTIVA

"Los métodos que implican la recolección, presentación y caracterización de un


conjunto de datos a fin de descubrir en la forma apropiada las diversas características de
ese conjunto de datos". Berenson y Leving (1982)
Cualquiera sea el trabajo geológico que se aborda y el objetivo que se persiga se
requiere observar el fenómeno natural y tomar datos midiendo, contando o registrando
la presencia de algún carácter. En los últimos años la recolección de información se ha
visto favorecida por los avances tecnológicos que en algunos casos va acompañada de
una disminución de los costos de obtención de datos. Es así que la cantidad de datos que
están disponibles para analizar suelen aumentar a ritmo acelerado. Si los geólogos
quieren sacar provecho de esta información necesitan organizar y sintetizar los datos. La
estadística descriptiva ayuda en este aspecto pues ofrece métodos que permiten resumir
la información contenida en un conjunto de datos de la manera más concisa y completa
posible. Esto se logra con tablas y gráficos y con unas medidas resumen llamadas
estadísticos ó parámetros según se trate de medias de la muestra ó de la población
respectivamente. Además, estadísticos y parámetros permiten no solo tener una
apreciación del conjunto total de los datos, sino que posibilita resolver problemas
prácticos como se verá más adelante.
Analizar una muestra con pocos datos es una tarea relativamente fácil, sobre todo si
están ordenados, pero si la muestra grande las cosas se complican. Cuando las muestras
son grandes, con el número de 14 datos n mayor que 30, conviene construir una
distribución de frecuencias.
Una distribución de frecuencias, se puede representar con una tabla y/o mediante un
gráfico. En ella los datos se acomodan en clases.
La clase refiere al número de valores diferentes al que toman los datos de una variable
discreta A, o a los intervalos disjuntos, que cubren el dominio de definición de la
variable continua X.
A cada clase le corresponde una frecuencia absoluta, fi, que es el número de veces que
se repite un dato. La suma de las frecuencias de las i-ésimas clases de una muestra es
igual al tamaño de la muestra.
Los intervalos disjuntos de la variable continua X son llamados intervalos de clase.
Estos intervalos, se eligen de igual amplitud (C). Tomar pocos intervalos en el dominio
de la variable implica pérdida de información en el sentido que se disipa la variabilidad
y tomar muchos intervalos tampoco es conveniente pues se tergiversa la idea de síntesis.
Para calcular el número adecuado de intervalos de clase, m, de una distribución se
puede utilizar una aproximación empírica (m=√n) o la fórmula de Sturgers (m = parte
entera de [1+log n/log 2)]). Conocido el número de intervalos se calcula la amplitud de
los mismos ((valor más alto – valor más bajo)/m).
Los límites de cada intervalo se definen de manera tal que no existan dudas de donde
ubicar a los datos que caen exactamente sobre el borde. El criterio más utilizado
consiste en incluir en un intervalo los datos iguales o mayores que el límite inferior y
menores que el límite superior. Por ejemplo si un fósil mide 5mm y los límites de dos
intervalos adyacentes son 4 - 5mm y 5 - 6mm se incluye en el intervalo 5 - 6 milímetros.
La tabla de frecuencias tiene al menos dos columnas, en la primera columna se ubican
los límites inferior y superior de cada intervalo de clase de la variable continua X o las
valores diferentes que toma la variable discreta A en estudio.
En la segunda columna se ponen las frecuencias absolutas fi correspondiente a cada
clase. Se pueden poner dos columnas opcionales más, una con las frecuencias relativas
y otra las frecuencias acumuladas.
La frecuencia relativa, fi, resulta del cociente entre la frecuencia absoluta y el número n
de datos de la muestra (fri = fi/n). Se cumple que la suma de todas las frecuencias
relativas de los datos de una muestra es igual a uno o a 100.
Medidas de tendencia central: Moda, Mediana, Media, Media Geométrica
Moda
La moda ( X  ) de una serie de datos es el valor que aparece con más frecuencia que
cualquier otro. Una serie de datos puede no tener moda o tener más de una, si tiene dos
modas se dice bimodal y polimodal si tiene más de dos. (Marta Alperin, 2013, pág.19)
En los datos sin agrupar la moda se observa claramente cuando se ordenan los datos de
menor a mayor. Cuando los datos están agrupados la moda se encuentra en la clase de
mayor frecuencia, llamada clase modal. Su valor se halla a partir de la siguiente
expresión:

Li Limite inferior
W ancho de clase
1 diferencia entre la frecuencia modal y la premodal
2 diferencia entre la frecuencia modal y la postmodal

Mediana
La mediana ( X ~ ) es el valor medio de una serie cuando los valores se ordenan de
menor a mayor. Divide la serie de tal forma que el 50% de los valores son menores a él
y el otro 50% de los valores son mayores a él. (Marta Alperin, 2013, pág.20)
Una característica importante de la mediana es que no está influenciada con la magnitud
de los valores de las colas de la distribución. Si el número de datos de la serie es impar
el valor coincide con el valor central y cuando es par, la mediana se encuentra entre los
dos valores centrales. Si los datos están agrupados la mediana se ubica en la clase
mediana (la clase cuya frecuencia acumulada supera primero el valor [(n + 1) / 2]). Su
valor se halla a partir de la siguiente expresión:
Li=límite inferior a la mediana
fi/2=tamaño total de la muestra
Fi-1=Frecuencia acumulada anterior a la mediana
fme=frecuencia absoluta de la clase de la mediana
w=ancho de clase
Media aritmética
La media aritmética, promedio o simplemente media, es la medida de tendencia central
más común y útil. El símbolo X se usa para la media de la muestra y la media de la
población se representa con la letra . (Marta Alperin, 2013, pág.21)
Para un conjunto de n observaciones {x1, x2…, xn}, es igual a las suma de las n
observaciones dividido el número total de datos n

Yifi=marca de clase * frecuencias relativas


n=suma al total de frecuencias

LA VARIANZA
La varianza de n observaciones (x1, x2,…, xn) se define como el promedio del
cuadrado de las desviaciones con respecto a la media.

n tamaño de muestra
X1 marca de clase
x La media
fi frecuencia absaluta
EL DESVIO ESTÁNDAR
El desvío estándar de n observaciones (x1, x2,…, xn), es la raíz cuadrada positiva de la
varianza. (Marta Alperin, 2013, pág.24)

n: tamaño de muestra
X1: marca de clase
X: La media
fi: frecuencia absaluta

COEFICIENTE DE VARIACIÓN
El coeficiente de variación para una muestra de valores x1, x2, … , xn es la razón entre
su desvío estándar y la media de esos datos. (Marta Alperin, 2013, pág.24)

S= Desviación estándar
x= media
El coeficiente de variación de una población homogénea es típicamente menor que la
unidad. Si es mayor que 1,5 conviene investigar posibles fuentes de heterogeneidad en
los datos, también puede indicar la existencia de valores extremos. A pesar de esto, en
numerosas variables geológicas el coeficiente de variación toma valores entre 2,5 y 0,2.
COEFICIENTE DE SIMETRÍA
El coeficiente de simetría (CS) se utiliza para caracterizar el comportamiento de la
distribución respecto a la media . La simetría es importante para saber si los valores de
la variable se encuentran en una determinada zona del recorrido de la variable. (Marta
Alperin, 2013, pág.26)

s desviación estandar
n tamaño de muestra
COEFICIENTE DE KURTOSIS
Coeficiente de Kurtosis, K, también llamado de Exceso o de Curtosis, mide el grado de
achatamiento de la distribución con respecto al modelo teórico Normal. Sote, Armando
(2005)

Se ha demostrado que cuando en las distribuciones normales la kurtosis es cero (K = 0) .


La kurtosis es positiva (K > 0) en las distribuciones más puntiagudas que la del modelo
normal, se dice que son leptocurticas . Si la distribución es más achatada que la del
modelo normal, la kurtosis es negativa (K < 0) y se las llama platicurticas

S-ar putea să vă placă și