Sunteți pe pagina 1din 66

PG8: TRATAMIENTO ESTADISTICO

DE DATOS GEOQUMICOS
Preparado: Miguel Calcina B.
Fuente: Levinson, Keith Kenyon, Landin,
Howart.

Introduccin
El proceso de interpretacin final casi siempre
involucra la puesta en prctica de algunos
procedimientos estadsticos y/o grficos siempre
en cuando los estudios de orientacin han sido
incapaces definir todos los criterios interpretativos
con una precisin suficiente. Su seleccin y
secuencia de aplicacin en un estudio geoqumica
sern influenciadas por la naturaleza del estudio
tanto como la filosofa de la interpretacin
aceptada.

Este proceso es enormemente facilitado si


el conjunto de datos son primeramente
desagregados en sus grupos de
componente naturales. Las computadoras
personales actualmente son econmicas y
los paquetes de software son disponibles
(por ejemplo., Estadstica, Surfer, ARC
GIS, Map Info) permiten que a esto sea
llevado rpidamente y eficientemente
(Lloyd, 1998).

SOFTWARE
ESTADISTICA
Excel, Minitab, SPSS
Distribucin de datos bien organizado
Base de datos de gran capacidad
SAS
PROGRAMABLE y MUY POTENTE
MAPEO
ARC VIEW, ARC MAP, ARC GIS
MAP INFO
GEOSOFT, OASIS, MONTAGE
Con aplicaciones de estadistica

ANALISIS ESTADISTICO
La aplicacin efectiva de procedimiento estadstico
a los datos geoqumicos es dependiente sobre el
programa correcto, y propone la aplicacin
apropiada del muestreo y las fases analticas.
El tratamiento estadstico avanzado de un conjunto
de datos podra ser un ejercicio insulso cuando la
representatividad y calidad es inadecuado. Sin
embargo, con tal de que sus limitaciones se aprecien
totalmente, las tcnicas estadsticas constituyen
herramientas tiles y a menudo poderosas para el
anlisis de datos geoqumicos

Desafortunadamente, los procedimientos


estadsticos son aplicados de una manera
indistinta sin entender los principios subyacentes
o de la conducta de los elementos de inters
dentro del ambiente geolgico y geoqumico.
Como lo nombrado por Sinclair, (1987) intentar
llevar a cabo una evaluacin ciega de datos
sometindolo a cualquier nmero creciente de
paquetes de software y esperar que una
computadora haga nuestro pensamiento para
nosotros est patentemente equivocado.... ". Los
modelos estadsticos siempre deben reflejar
realidades geolgicas y geoqumicas.

Anlisis Estadstico Univariante


Gran parte de la estadstica aplicada tiene
que ver con la organizacin, presentacin
y resumen de los datos. La primera fase
de la interpretacin geoqumica consiste
en condensar grandes cantidades de datos
numricos y extraer de ellos la
informacin esencial.

Por lo tanto, desagregar la poblacin de datos


es a menudo esencial antes e incluso de los
procedimientos estadsticos simples sean
aplicados. Mtodos de conseguir esta inclusin:
Identificacin y separacin del componente
poblacional relacionado para diferentes tipos de roca,
ambientes geoqumicos, etc;
Retirar outliers (valores extremadamente altos o
bajos distintos de las poblaciones principales). Esto
puede ser conseguido usando uno de los mtodos
grficos simples descritos en la siguiente seccin.

Parmetros Estadsticos
Algunos parmetros usados comnmente
que describen la tendencia central, y
ayudan a definir poblaciones geoqumicas
incluyen:
Media aritmtica (X) = X1, X2, X3. Xn

Media Geomtrica Y= x1, x2, x3 xn

Mediana = valor central n valores que divide en dos


grupos de = n
Si med y prom. Arit/Geom = entonces la
distribucin es Normal/Log-normal.
Moda conj X1,X2,X3xn , es el que ocurre con
mayor frecuencia
Vmax, Vmin .
La Media geomtrica es un estadgrafo que no se deja
influenciar mucho por los altos o bajos errticos, por lo tanto
es mucho ms representativo de la poblacin examinada

Porqu usar n-1 y no n?


Bien la respuesta es algo complicada, pero en general si su grupo de
datos es una muestra del universo, entonces Ud. Estn tomando un sub
grupo del mundo real, entonces debe utilizar n-1

Medidas de dispersion:
Rango, x1,x2,x3xn = Vmax Vmin
Varianza (S2) x1,x2,x3xn =
Desviacin Estandar squard S2
Percentiles (P10/P90, P50)
Cuartiles (Q25,Q75) =Q75-Q25, sirve
relieve geoqumico
Coef. Variacin=
Construir relaciones bivariantes
(Correlaciones).
Histogramas

s
cv 100%
x

C.V = Es ms homognea o presenta


menos discrepancia aquella distribucin
que tiene el menor coeficiente de
variacin

MEDIANA
Es el valor de la variable que divide el total de las n observaciones
debidamente ordenadas en dos parte de igual tamao. Esto significa que a
uno o al otro lado de este valor mediano se encuentra no ms del 50% del
total de las observaciones.
2 CASOS:
IMPARES.- La mediana es igual al valor del trmino central.
4, 1, 4, 8, 5, 6, 9

n=7

1, 4, 4, 5, 6, 8, 9

n + 1 /2 = 4

PARES.- La mediana es igual al promedio de los dos valores del centro


323, 425, 428, 432, 440, 445, 500, 510
n + 1 /2 = 4.5
432 + 440 /2 = 436.

MODA
Es simplemente el valor ms frecuente de una variable.
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13 -------- 9
3, 5, 8, 10, 12, 16, 18 ----- no hay
2, 3, 4, 4 , 4, 5, 5, 7, 7, 7, 9 ------- 4 y 7
Datos agrupados:
# personas por familia

# de familias

Y1 = 2

N1 = 16

Y2 = 3

N2 = 24

Y3 = 4

N3 = 52

Y4 = 5

N4 = 76

Y5 = 6

N5 = 40

Y6 = 7

N6 = 12

LA VARIANZA
(es una alternativa para medir la dispersin)
Con la perspectiva de construir un indicador que dimensione la
desviacin o distancia promedio de los Xi respecto a su media, se
propuso elevar al cuadrado su desviacin, a fin de que no sea siempre
negativa.
2
Varianza

x x

n 1

Si los valores estn muy concentrados las desviaciones respecto a la


media sern muy pequeos y en consecuencia tambin sus cuadrados,
se evita que las desviaciones positivas se compensen con las negativas
PERO DESDE ESTE PUNTO DE VISTA, LA VARIANZA TIENDE A
EXAGERAR LOS VERDADEROS VALORES RESPECTO A LA
MEDIA
BAJO ESTA ALTERNATIVA PARA MEDIR LA DISPERSIN Y
QUE AMORTIGUE DICHO EFECTO ES LA DESVIACIN
ESTNDAR

DESVIACIN ESTNDAR
La desviacin estndar o tpica se define
como la raz cuadrada de la varianza.
Desviacin
Estndar

NOTA:
Porqu usar n-1 y no n?
Bien la respuesta es algo complicada, pero en
general si su grupo de datos es una muestra
del universo, entonces Ud. Estn tomando un
sub grupo del mundo real, entonces debe
utilizar n-1

EJEMPLO DE DISPERSIN
Grupo 1:
X

XX

(X X)2

-10

100

-2

12

20

10

100
208 / n 1 = (69.33)1/2 = 8.3 (DESV. ESTNDAR)

Grupo 2:
X

XX

(X X)2

-2

-1

11

12

4
10/ n 1 = (3.33)1/2 = 1.8257 (DESV. ESTNDAR)

COEFICIENTE DE VARIACIN
C.V. = DESV. ESTNDAR/ MEDIA ARITMTICA
Se expresa en trminos porcentuales.
Es ms homognea o presenta menos discrepancia aquella
distribucin que tiene el menor coeficiente de variacin
Una distribucin puede considerarse como Gaussiana si el coeficiente
de variacin es menos a 0.5, en caso contrario indicara un carcter log
normal.

CUARTILES.Los cuartiles son estadgrafos de posicin que dividen al total de las


observaciones, debidamente ordenadas en cuatro partes de igual tamao.
Valor mnimo.
Q1 = n/4 ----- el 25% de las observaciones tienen valores inferiores o
iguales a Q1 y el 75% es > a Q1.
Q2 = n/2 = mediana
Q3 = 3n/4 = es un valor que supera a ms del 75% y que es superado
por no ms del 25%.
Valor mximo.

PERCENTILES.Los percentiles son estadgrafos de posicin que


dividen al totalidad de las observaciones en 100
partes iguales, es un estdgrafo que d una idea
porcentual de las distribucin de los datos. Es uno de
los estadgrafos ms utilizados
RANGO INTERCUARTLICO.(Q3 Q1) ----- 50%
De la misma forma, que como alternativa a la media, la
mediana es una mediad de la tendencia central basada
en percentiles.
El RI puede considerarse como una alternativa de la
desviacin tpica para calcular la dispersin de los
elementos.

CORRELACIN.Trata de encontrar variables que estn relacionadas o


asociadas entre s, existen muchas variables, es especial
cuantitativas que dependen en algn grado de otras;
entonces es posible que una variable pueda estar
correlacionada matemticamente en funcin de la otra.
Correlacin Positiva.- Cuando el incremento en una
variable , significa el incremento en la otra.
Correlacin Negativa.- Cuando el incremento en una
variable, significa la disminucin en la otra.
Hay dos formas de representar la correlacin:
Numrica .- (Coeficiente de Pearson)
Grfica .- (Nube de puntos)

COEFICIENTES DE LA FORMA DE LA
DISTRIBUCIN
CURTOSIS.Es una medida de la concentracin de la distribucin entorno a la media, si la
variable es normal el valor del coeficiente es cero. Valores mayores que cero
indicarn que la distribucin tiende a concentrarse entorno a la media ms que
una distribucin normal, mientras que valores menores que cero indicarn que
tienden a desplazarse.
SESGO.Es una medida de la simetra de la distribucin de los valores respecto a la
media. Valores mayores que cero indicarn que las desviaciones respecto a la
media son mayores para los valores superiores (sesgo positivo), mientras que
valores menores que cero indicarn que las desviaciones respecto a la media
son mayores para los valores inferiores. (sesgo negativo)

Histograma con
sesgo Positivo
debido a valores
altos.

Histograma con
sesgo negativo
debido a valore
bajos

Presentacin de Grficos
Una vez iniciada la discriminacin se logro
en base a las caractersticas geolgicas y
geomorfolgicas, los grficos presentados
como: histogramas de distribucin de
frecuencia, los box-plots y grfico de
probabilidad pueden adelantar el proceso
de reconocimiento de poblacin y
delineacin de outlier.

Proporciona una distribucin de la variable.

BOX PLOT (Caja de Bigotes)

Los lmites superior e inferior de la caja


corresponden a los cuartiles tercero y primero
(percentil 75 y 25)respectivamente, en
consecuencia la altura de la caja coincide con el
rango intercuartlico (RI).
La lnea horizontal dentro de la caja
corresponde al segundo cuartil Q2 (mediana).

Los bigotes inferior y superior al mnimo y


mximo valor , tal que su distancias a los lmites
superior e inferior respectivamente de la caja es
inferior a una vez el RI.
En el caso de que un valor diste de los lmites
inferior y superior de la caja ms de 1.5 veces el
RI, el valor se le denomina fuera de rango y se le
representa por el smbolo O y por X si los
valores son superiores a tres veces la longitud de
la caja o RI, llamados valores extremos.

Valores
extremos
Valores
observados

RECTA DE HENRY

Si los puntos
obtenidos estn
alineados podemos
decir que la
distribucin
estudiada se
aproxima a una
distribucin normal

Adems de
indicarnos la
normalidad del
comportamiento de
las muestras nos
indican al igual que
los grficos
anteriores los
valores extremos
que podran ser
observados en el
tratamiento
estadstico

Valor
extremo

Distribucin de frecuencias por


histogramas
Los histogramas de frecuencia pueden ser
fcilmente construidos con software
auxiliado por computadora o
manualmente. Estos muestran la
frecuencia de valores en clases sucesivas
(i.e. especificar rangos de concentracin
aritmticos o logartmicos). Los intervalos
generalmente se seleccionan de 10 a 20
clases que cubren todo el conjunto de
datos.

HISTOGRAMAS.Tratan de dividir el
conjunto de datos
en una serie de
intervalos y
representarlos bajo
la forma de un
histograma de
frecuencias, la
similitud con una
curva Gaussiana,
puede inducir que
esta tiene un
comportamiento
normal.

Curva
Gaussiana

Como construir histogramas de frec.


Ordenar los datos en forma ascendente o
descendente
Calcular el rango o amplitud de frecuencias,
contando para ello con valores mximos y
mnimos. R=A= (Lim Sup Lim Inf.)
Calcular el nmero de intrvalos de clase (K), no
existe una regla general en cuanto al nmero
ptimo de clases (K), sin embargo existen tcnicas
que permiten determinar para n observaciones Ej.
Ley de Sturges, K= 1+3,32 log (n). La de Dixon &
Kronwell, K= 10 log (n).
Calcular el ancho o amplitud de cada clase, C=
R/K.
Definir los lmites de cada clase, para esto se suma
el intervalo de clase al menor valor observado.
Contar la cantidad de observaciones que caen
dentro de cada intervalo y tabular los resultados.
A partir de los histogramas, son construidos las
curvas o polgonos de frecuencia, existen una
diversidad de curvas

Distribucin Normal Tpica


(Estndar).
La Distribucin Normal o Gausiana es
caracterizada por una perfecta simetra y una
disposicin en forma de seno, est definida por
la siguiente formula:
Donde: y= es la altura de la curva, = promedio
aritmtico, x= es cualquiera dato medido, y 2 es
la varianza de la poblacin.

1
e
2

1/ 2 x x

Grfico de Probabilidad
Acumuladas
Particularmente la informacin til sobre la
distribucin estadstica de datos con una
distribucin normal o lognormal se muestra por
grfico de probabilidad acumulativa. En estos
grficos la ordenada es aritmtica o logartmica y
en la abcisa la escala de probabilidad el cual es
colocado para una distribucin normal o
lognormal acumulativo, en el cual se graficar
como una lnea recta. stos grficos pueden
crearse manualmente (Sinclair, 1987) o con un
programa de computador conveniente (ej,
PROBPLOT como lo descrito por Sinclair, 1987).

Cuando es creado
manualmente se traza con
datos agrupados para los
propsitos de construccin
del histograma (de valores
altos para bajos o viceversa)
y se traza directamente en el
papel de probabilidad. Los
grficos de probabilidad
pueden indicar una
delineacin efectiva de las
poblaciones mltiples. Por
ejemplo, una mezcla de dos
poblaciones normales
distintas aparece como dos
segmentos casi rectos
separados por segmentos
encorvados que contienen un
punto de la inflexin

Diagramas Bivariates
Los diagramas bivariantes simples tambin
pueden ayudar a veces definir la importancia de los
outlier. Esta aproximacin ha proporcionado en
ocasiones a la exploracin una gua de igual o
mayor valor que los complejos parmetros
estadsticos multivariados. Por ejemplo, en los
casos dnde el umbral anmalo (o nivel de la
inspeccin) puede ser una funcin de otra variable
(debido a la adsorcin por Fe y/o Mn) un
procedimiento de la regresin puede ayuda en el
reconocimiento de muestras verdaderamente
anmalas (Garrett, 1991).

Correlacin
La muestra del coeficiente de correlacin r, mide
el grado de la asociacin linear entre dos
variables (el grado en la cual una variable
cambia con otra).
Una correlacin positiva indica que ambas
variables tienden a incrementarse juntas. Una
correlacin negativa indica que una variable se
incrementa, y la otra decrece.

Correlacin de Pearson
Se calcula la correlacin de Pearson en cada
poblacin a escala logartmica, con el fin de
determinar la relacin que existe entre par de
elementos, considerando en la interpretacin los
que muestran rasgos fuertes a muy fuertes
El coeficiente de la correlacin de la muestra (r)
es calculado por la frmula:

EL COEFICIENTE DE CORRELACIN LINEAL DE


PEARSON
El Coeficiente de Correlacin Lineal de Pearson es un
ndice estadstico que permite medir la fuerza de la
relacin lineal entre dos variables. Su resultado es un
valor que flucta entre 1 (correlacin perfecta de
sentido negativo) y +1 (correlacin perfecta de sentido
positivo). Cuanto ms cercanos al 0 sean los valores,
indican una mayor debilidad de la relacin o incluso
ausencia de correlacin entre las dos variables.

Su clculo se basa en
la expresin:

ANLISIS ESTADISTICO DE DATOS


MULTIELEMENTALES

SECUENCIA DE INTERPRETACION
1.
2.
3.
4.
5.
6.
7.
8.

ANLISIS UNIVARIATE
RELACIONES BIVARIATE Y CORRELACIONES
GRAFICOS SCATTER PLOTS, BOX PLOTS,
HISTOGRAMAS
ANALISIS COMPONENTES PRINCIPALES (PCA)
ANALISIS DISCRIMINANTE Y PETROLOGIA
ANALISIS DISCRIMINANTE CANONICAL
ANALISIS CLUSTER
PROBABILIDAD

EJEMPLOS DE PRESENTACION DE
DATOS
1.

1.
2.

Un esboso de anlisis UNIVARIANTE


Medidas de tendencia central: Promedio
(arit-geom), Mediana, Vmax, Vmin.
Medidas de dispersion: Rango, Varianza, Sd,
percentiles (P10/P90, P50), cuartiles
(Q25,Q75)
Construir relaciones BIVARIANTES
(Correlaciones).
Histogramas

PRESENTACION DE DATOS LITOGEOQUIMICOS


ESTADISTICA UNIVARIANTE - ESTUDIO ORIENTACION
ELEMENT

Valid N Mean Median Minimum Maximum Lower Upper Percentile Percentile Range Std.Dev. Skewness COEFF.
Quartile Quartile
90
98
VAR.
As_ms61
1388 100.0
31.4
1.2
1470.0
11.0
93.4
249.0
782.0
1468.8
185.2
3.5
185.3
Ba_ms81
1389 2429.9 1430.0
0.3
20000.0 1120.0 2010.0
3910.0
20000.0 19999.8 3771.9
3.9
155.2
BaO_MS81%
1389
0.4
0.2
0.0
19.5
0.2
0.3
0.5
2.3
19.5
1.0
11.1
272.4
Bi_ms61
1388
1.0
0.6
0.0
54.4
0.3
0.9
1.9
5.6
54.4
2.0
15.4
208.0
CaO_ms81%
1389
1.0
0.4
0.0
33.6
0.1
1.2
2.4
5.5
33.6
1.8
7.3
186.4
Co_ms61
1388
7.8
7.2
0.2
66.9
2.6
10.1
14.6
26.2
66.7
7.0
2.6
90.1
Co_ms81
1389
7.8
6.5
0.3
568.0
2.5
10.0
14.0
28.0
567.8
16.6
28.1
212.0
Cr2O3_ms81% 1389
0.0
0.0
0.0
0.1
0.0
0.0
0.0
0.0
0.1
0.0
9.5
83.3
Cu_ms61
1388
34.8
25.0
0.1
927.0
16.4
34.6
58.2
142.5
926.9
53.2
9.1
152.8
Fe2O3_ms81% 1389
4.2
4.2
0.6
16.5
3.1
4.9
5.9
8.3
15.9
1.6
1.6
36.9
Hg_ppb
1389 398.7
40.0
0.5
96900.0
10.0
180.0
530.0
3320.0 96899.5 2959.6
26.5
742.2
K2O_ms81%
1389
10.4
10.9
0.2
16.1
7.8
13.1
13.9
14.8
15.9
3.0
-0.4
28.7
Nb_ms61
1388
88.6
84.1
1.1
228.0
64.7
110.0
141.0
188.5
226.9
38.8
0.5
43.8
Nb_ms81
1389
93.0
90.0
0.5
285.0
78.0
103.0
119.0
167.0
284.5
27.3
1.4
29.3
Pb_ms61
1388 132.0
46.0
6.5
3140.0
30.5
117.0
345.0
870.0
3133.5
233.8
4.7
177.1
Pb_ms81
1389 109.9
40.0
2.5
2130.0
25.0
100.0
280.0
750.0
2127.5
187.4
4.1
170.5
Sn_ms61
1388
1.0
1.0
0.1
7.2
0.8
1.2
1.4
2.0
7.1
0.4
4.3
39.0
Sn_ms81
1389
3.6
1.0
0.5
2420.0
1.0
2.0
4.0
7.0
2419.5
65.0
37.1
1793.8
TiO2_ms81%
1389
0.7
0.7
0.0
1.6
0.5
0.8
1.0
1.2
1.6
0.2
0.1
34.3
Zn_ms61
1388 215.4 118.0
12.0
7200.0
78.0
184.0
426.0
1245.0
7188.0
381.2
7.9
176.9
Zr_ms81
1389 427.9 390.0
18.5
2230.0
340.0
440.0
672.0
916.0
2211.5
172.0
2.7
40.2

4 Acid digest
vs.
Li Metaborate Fusion

THE OXIDATION
STATE OF IRON
REPORTED AS
Fe2O3
FeO
Fe

Fe2+, Fe3+
Mg2+, Co2+ ,Ni2+

SULPHIDE MINERALS)
BIOTITE
CHLORITE
MAGNETITE
ANKERITE
Fe2+

Normal P-Plot: vanadium (ppm)


6
V_PPM: N = 1111, Mean = 42.55, StdDv = 38.61, Max = 275, Min = 0.5

3
2

Rock Chip Geochemistry


Histogram (All Rocks Outcrop Rockchips) )

1
0
No of obs

Expected Normal Value

-1
Mean = 42.55

-2
-3

500

45%

450

41%

400

36%

350

32%

300

27%

250

23%

200

18%

150

14%

100

9%

50

5%

0
0.50

55.40
27.95

110.30
82.85

165.20
137.75

0%
275.00

220.10
192.65

247.55

V_PPM

-4
0

20

40

60

80

100

120 140 160


Value

180 200

220 240 260

280 300

MATRIS ESCATER PLOTS


CRIPPLE CREEK GEOCHEMISTRY
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

Area: Cresson Pipe

0.4

0.6

0.8

1.0

0.0

0.2

Area: Ironclad

0.4

0.6

0.8

1.0

0.0

0.2

Area: Ajax-Capt'n Stopes

0.4

0.6

0.8

1.0

0.8

1.0

Area: Blue Bird

1.8
1.6
1.4

TiO2 (%)

1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

Area: Cresson Pit

0.4

0.6

0.8

1.0

0.0

0.2

Area: Last Dollar-OM

0.4

0.6

0.8

1.0

Area: Captain Stopes

1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.2

0.4

0.6

Area: Grassy Valley

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

Area: Mineral Hill

0.2

0.4

0.6

Area: Vindicator

P2O5 (%)

0.2

0.4

0.6

Area: Globe Hill

1.8

0.0
0.0

0.0

0.8

1.0

Fuente: Kenyon

EJEMPLOS DE ESTADISTICA MULTIVARIATE


1.
2.
3.
4.

ANALISIS DISCRIMINANTE
ANALISIS COMPONETES PRINCIPALES
ANALISIS DISCRIMINANTE CANONICAL
ANALISIS CLUSTER

ANALISIS ESTADISTICO DE DATOS MULTIELEMENTALES

SECUENCIA DE INTERPRETACION

1.
2.
3.
4.
5.
6.
7.
8.
9.

ANALISIS UNIVARIATE
RELACIONES Y CORRELACIONES BIVARIATES
GRAFDICOS DE SCATTER, BOX Y BIGOTES
PLOTS, HISTOGRAMAS.
ANALISIS COMPONETES PRINCIPALES (PCA)
SELECCION DE ELEMENTOS STEPWISE
ANALISIS DISCRIMINATE Y PETROLOGIA
ANALISIS DISCRIMINANTE POR CANONICA
ANALISIS CLUSTER (WARD).
ITERACION DE ANALISIS CLUSTER
CHEQUEO POR ANALISIS DISCRIMINANTE
(POST POSTERIOR PROBABILIDAD)

ANALISIS DE COMPONENTES
PRINCIPALES
UN RESUMEN DE LA VARIANZA
TOTAL DE LA MUESTRA

ANALISIS MULTIVARIANTE
Anlisis Discriminante Canonical
Anlisis discriminante Canonical es una
tcnica usado para reducir el tamao.
Da una variable de clasificacin y varios
intervalos de variables, anlisis
discriminant canonical deriva de variables
canonical que resume la variacin entre
clases.
Los variables tienen un aproximado
DISTRIBUCION NORMAL multivariate

ANALISIS CLUSTER
Permite explorar semilaridades entre individuos
(muestras) Modo-Q, o entre variables (modo-R)
definindolo en grupos.
Anlisis por agrupamiento jerarquizado; se obtiene de
n lineas = muestras y p columnas = varaiables.
Usando un coeficiente de similaridad cualquiera entre
lneas se obtiene una matriz [nxn] utilizada en el Modo
Q. Si la comparacin es entre columnas se obtendr una
matriz inicial de [pxp].
En la matriz inicial de coeficientes de similaridad estes
presentan el grado o semejanza entre pares de objetos y
los mismos devern ser ordenados de acuerdo con lo
grados de similaridad (0 - 1), de modo que quedan
agrupados segn una disposicin jerarquizada.

Granito Itaoca

Similarity

56.38

70.92

85.46

100.00

SiO2

TiO2

MgO

CaO

P2O5 FeO Fe2O3 K2O


Variables

MnO Na2O Al2O3

Stream sediment
Dendrograma Stream Sediment
Single Linkage, Euclidean Distance

Similarity

29.80

53.20

76.60

100.00

1 11 2 19 8

7 14 17 20 21 4

5 18 9 12 10 3 24 25 13 16 15 22 23

Observaciones - casos

- Casos

Coeficientes de similaridad
1. Coeficiente de distancia: expresa el grado de
semilaridad con la distancia en un espacio
multidimensional, si las variables tiene el mismo peso, la
funcin distancia ser limitada a valores entre 0 (mayor
similaridad) y 1 (menor similaridad).
2. Coeficiente de Correlacin: mide el grado de
asociacin entre valores por la representacin de puntos
en un sistema de coordenadas y sus respectivas
posiciones en relacin a una lnea recta. Se considera el
ceoficiente de correlacin paramtrica (Pearson) y no
paramtrica (Sperman).
Coeficiente coseno-teta: medida de proporcionalidad que
expresa el grado de similaridad en terminos de
separacin angular (p, q) valores comparados.

CORRELACIONES
PEARSON (PRODUCTO-MOMENTO)
SPEARMAN (RANK-ORDER)

Anlisis de Componentes
Principales (CPA)
Es una transformacin linear de m variables
originales en m nuevas valores, es el calculo
de los autovalores y sus correspondientes
autovectores de una matriz de varianzacovarianza.
El CPA es un mtodo factorial que intenta
identificar variables subyacentes o factores, que
expliquen la configuracin de correlacin dentro
de un conjunto de variables observadas, de
carcter numrico para todos ellos..

ACP
Loading Plot of Zn, ..., Pb
Pb

0.9

Mn
Fe(%x100)

0.8

Second Factor

0.7
0.6
0.5
0.4
C dppm

0.3
0.2

Zn

0.1
0.0

Cu

0.0

0.2

0.4
0.6
First Factor

0.8

1.0

Score Plot of Zn, ..., Pb


4

Second Factor

-1
0

2
First Factor

ANOMALIAS GEOQUIMICAS
La distribucin geoqumica de los elementos en
los diferentes materiales geolgicos depende de
las condiciones y eventos que ocurren en rocas,
suelos, agua. Mientras no ocurran eventos
mineralizantes,
estos materiales van a
mantener los niveles de abundancia normales
(fondo, background) y en el otro caso, la
distribucin de los elementos ser diferente a la
abundancia normal, esto es mayor o menor y
estaremos ante la
presencia de anomalas
geoqumicas.

VALOR DE FONDO BACKGROUNDSu determinacin se realiza por evaluaciones


estadsticas y comparndolo con los valores
referenciales calculados para diferentes tipos de
materiales naturales en la Tierra.
Adems el ploteo de los valores de los elementos
con sus coordenadas nos permite realizar un
anlisis de los elementos en los denominados
patrones de dispersin.

Valor de fondo BackgroundTodo conjunto de datos puede contener dos componentes:


1.- Valores promedio de abundancia normal o background
2.- Valores anmalos.
Adems, para cada elemento analizado, el promedio o valor
background y su fluctuacin alrededor de este valor
(desviacin estndar) deben ser calculados para determinar
cuales valores son normales y cuales anmalos, que pueden
estar relacionados a mineralizacin. Frecuentemente los
valores de los elementos trazas son distribuidos
lognormalmente; esto es, el logaritmo del contenido de los
elementos trazas forma una distribucin gaussiana forma de
campana en un histograma.

AJUSTE A UNA DISTRIBUCIN LOGNORMAL


En prospeccin geoqumica, estudiamos el
contenido de elementos trazas en varios
materiales naturales, y decir que los valores
son distribuidos en forma lognormal significa
que los logaritmos de estos valores son
distribuidos siguiendo una ley normal (o ley de
Gauss) bien conocida como la curva con forma
de campana.

Histogramas y curvas de frecuencia


acumulada

UMBRAL GEOQUIMICO
-THRESHOLD Estadsticamente es el lmite superior de las
fluctuaciones del background. Los valores
iguales o mayores al threshold son considerados
anmalos. Ajuste al comportamiento lognormal
es generalmente el caso de muestras de suelos,
fragmentos de rocas, sedimentos de drenajes,
etc.

Clculo del umbral o Threshold


Ha sido observado que en caso de una
distribucin
simtrica
(normal
o
lognormal),
95%
de
los
valores
individuales estn entre Media+2DS, es
decir que solamente el 2.5% de la
poblacin
excede el lmite superior
Media+2DS. Este lmite superior es
tomado convencionalmente como el
threshold (Th), encima del cual los valores
son considerados como anmalos.

CLASES FREC.

Distribucin Log Au

1.20-1.30

16

60

1.30-1.40

33

50

1.40-1.50

50

1.50-1.60

50

1.60-1.70

36

1.70-1.80

1.80-1.90

1.90-2.00

2.00-2.10

2.10-2.20

10

2.20-2.30

2.30-2.40

2.40-2.50

2.50-2.60

2.60-2.70

2.70-2.80

40
30
20
10

2.70-2.80

2.50-2.60

2.30-2.40

2.10-2.20

1.90-2.00

1.70-1.80

1.50-1.60

1.30-1.40

0
1.1 -1.20

Frecuencias

1.1 -1.20

Intervalos de clases

Background

Anomalas

Anomalia Geoqumica
Anomalias geoquimica Anomala.- Tericamente son
valores alejados al background debido al aumento de la
concentracin en uno o ms elementos; por lo tanto
Anomala geoqumica es una desviacin de los valores
geoqumicos que son normales para una regin., por lo
tanto una yacimiento es una anomala
Anomala significativa, son usados como guas en la
prospeccin debido a su relacin con la mineralizacin,
se determina con mtodos estadisticos.
Anomala no significativa no tiene relacin con la
mineralizacin natural, puede ser por la actividad
industrial o contaminacin antropgena.

Rangos de
Anomalia.
T 2T:
Dbilmente
anmalos
2T 3T:
Moderadament
e anmalos
>3T:
Fuertemente
anmalos
Fig: Anomala, threshold regional y local, dispersin primaria.
Fuente: Levinson (1980).