Sunteți pe pagina 1din 312

UNIVERSIDAD

~~ NACIONAL
DE COLOMBIA
"~~=~ S E D E P A L M 1R A
FACULTAD DE INGENIERÍA
Y ADMINISTRACIÓN
ESTADíSTICA DESCRIPTIVA PARA
INGENIERíA AMBIENTAL CON SPSS
VIVIANA VARGAS FRANCO

ESTADíSTICA DESCRIPTIVA PARA


INGENIERíA AMBIENTAL CON SPSS

CALI, JULIO DE 2007


Vargas Franco, Viviana
Estadística descriptiva para ingeniería ambiental con
SPSS / Viviana Vargas Franco. -- Editora Viviana Vargas
Franco. -- Cali : Impresora Feriva, 2007.
312 p.: ii. ; 24 cm .
ISBN 978-958-33-9319-3
1. Estadística descriptiva. 2. Análisis de datos. 3. Estadística
con ayuda de computador. 4. SPSS para Windows (Programa para computador) -
Métodos estadísticos. 5. Medio ambiente - Métodos estadísticos 1. Tí!.
519.53 cd 21 ed.
A1131724

CEP-Banco de la República-Biblioteca Luis Ángel Arango

© Viviana Vargas Franco


vvargasf@palmira.unal.edu .co
Julio de 2007

ISBN 978-958-33-9319-3

Universidad Nacional de Colombia - Sede Palmira


Facultad de Ingeniería y Administración

Foto carátula: Carlos Carrillo

Impreso en los talleres gráficos


de Impresora Feriva S.A.
Calle 18 No. 3-33
PBX: 5249009
www.feriva.com
Cali, Colombia
A
Diana y David, mis hijos
A
Diana y David, mis hijos
Agradecimientos
La autora expresa sus más sinceros agradecimientos a las diversas personas e
instituciones que han colaborado en la elaboración de este libro, entre las que se
destacan las siguientes:
Adela Parra Romero. Estadística - Universidad del Valle.
Juan José Castillo. Ingeniero Ambiental- Universidad Nacional de Colombia, Sede
Palmira.
Mauricio Rojas Delgado. Estudiante Ingeniería Agrícola - Universidad Nacional de
Colombia, Sede Palmira.
Natalia Tamayo González. IngenieraAmbiental- Universidad Nacional de Colombia,
Sede Palmira.
Rafael Domínguez Lasso. Ingeniero Agroindustrial - Universidad Nacional de
Colombia, Sede Palmira.
Ricardo Alberto Londoño Saldaña. Ingeniero Agroindustrial - Universidad Nacional
de Colombia, Sede Palmira.

Instituciones
Instituto Cinara de la Universidad del Valle. Santiago de Cali
Departamento Administrativo de Gestión del Medio Ambiente de Cali-DAGMA.
Corporación Autónoma Regional del Valle del Cauca-CVC.
Universidad Nacional de Colombia - Sede Palmira
Agradecimientos
La autora expresa sus más sinceros agradecimientos a las diversas personas e
instituciones que han colaborado en la elaboración de este libro, entre las que se
destacan las siguientes:
Adela Parra Romero. Estadística - Universidad del Valle.
Juan José Castillo. Ingeniero Ambiental- Universidad Nacional de Colombia, Sede
Palmira.
Mauricio Rojas Delgado. Estudiante Ingeniería Agrícola - Universidad Nacional de
Colombia, Sede Palmira.
Natalia Tamayo González. IngenieraAmbiental- Universidad Nacional de Colombia,
Sede Palmira.
Rafael Domínguez Lasso. Ingeniero Agroindustrial - Universidad Nacional de
Colombia, Sede Palmira.
Ricardo Alberto Londoño Saldaña. Ingeniero Agroindustrial - Universidad Nacional
de Colombia, Sede Palmira.

Instituciones
Instituto Cinara de la Universidad del Valle. Santiago de Cali
Departamento Administrativo de Gestión del Medio Ambiente de Cali-DAGMA.
Corporación Autónoma Regional del Valle del Cauca-CVC.
Universidad Nacional de Colombia - Sede Palmira
Contenido

Pág.

Introducción ....................................................................................................

Capítulo 1
Fundamentos de los métodos estadísticos
1.1 Modelos estadísticos............................................... .............. ....... ..... .... 4
1.2 Aspectos generales del método científico............................................. 5
1.3 Los datos como materia prima de los métodos estadísticos .... ... ....... ... 8
1.4 Aspectos relacionados con la calidad del dato..................................... 9
1.5 Conceptos en la aplicación de los métodos estadísticos.. ..................... 11
1.6 Estadística descriptiva vs estadística inferencial.................................. 13
1. 7 Definición de variables ............... ....................... ..... .............................. 14
1. 7.1 Variables cualitativas o categóricas.......... ....... ....... ....... ....... ...... 14
1.7.2 Variables cuantitativas................................................................ 15
1.7.3 Otras clasificaciones................................................................... 17
1.8 Métodos paramétricos y no paramétricos ............................................. 17
1.9 Métodos estadísticos por tipo de variable............................................. 18
1.10 Etapas generales en la construcción de un modelo estadístico ............. 20

Capítulo 2
Medidas descriptivas
2.1 Medidas de tendencia central............ ............ ................ .............. ......... 23
2.1.1 Media.......................................................................................... 24
2.1.2 Mediana...................................................................................... 36
2.1.3 Moda........................................................................................... 38
2.2 Medidas de dispersión .......... .................. ...... ................ ................ ....... 41
2.2.1 Rango....................................................... .................. ................ 41
2.2.2 Desviación media ....................................................................... 42
2.2.3 Varianza...................................................................................... 44
2.2.4 Desviación estándar.... ............................... ............ ......... ............ 46
2.2.5 Coeficiente de variación ...... ....................................................... 48

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS IX


Capítulo 3
Distribución de frecuencias
3.1 Distribución de frecuencias univariadas............................................... 53
3.1.1 Distribución de frecuencias univariadas para una
variable discreta.................. ........................................................ 54
3.1.2 Distribución de frecuencias univariadas para una
variable continua .................................. ...................................... 61
3.2. Distribuciones bidimensionales de frecuencia ................................ ..... 89
3.2.1 Distribución bidimensional en variables discretas ...................... 89
3.2.2 Distribución bidimensional para variables continuas.................. 93

Capítulo 4
Medidas y gráficas de posición
4.1 Cuartiles................................................................................................ 98
4.2 Deciles .................................................................................................. 103
4.3 Percentiles............................................................................................. 106
4.4 Medidas de dispersión para indicadores de posición............................ 11 O
4.5 Representación gráfica de las medidas de posición .............................. 11 O
4.5.1 Diagramas de cajas y alambres .................................................. 110
4.5.2 Diagrama de tallos y hojas ......................................................... 120

Capítulo 5
Modelos de regresión
5.1 Modelo de regresión lineal simple........................................................ 127
5.2 Supuestos del modelo de regresión lineal simple ................................. 131
5.3 Diagrama de dispersión ........................................................................ 132
5.4 Otros modelos de regresión .................................................................. 136
5.5 Coeficiente de correlación.................................................................... 147
5.6 Coeficiente de determinación ............................................................... 155

Capítulo 6
Planeación estadística en un proyecto de investigación
6.1 Objetivos del proyecto .......................................................................... 159
6.2 Descripción del sistema ........................................................................ 159
6.3 Codificación del sistema........................ ............................................... 161
6.4 Definición de variables, sitios y frecuencia de muestreo ..................... 162
6.5 Formatos de muestreo........................................................................... 164

x ESTADisTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss


6.6 Flujo de información ... ........................................ ................................. 165
6.7 Sistema de información .. ....... ...................... ........ ........................ ......... 167

Capítulo 7
Evaluación de sistemas para tratamiento de agua potable
7.1 Estadísticas descriptivas ..... ..................... .................... ..... .................... 171
7.2 Gráficos de medias, mínimos y máximos............................................. 173
7.3 Histogramas ............................................................................. ... ......... . 180
7.4 Tablas cruzadas..................................................................................... 182
7.5 Gráficos de frecuencias acumuladas ..................................................... 185
7.6 Gráficos de tallos y hojas .... ... ............................ .. ............... ............. ... .. 186
7.7 Percentiles .... ... .... ........ ....... ........... ..... ..... .. ... ... ................ .. ..... ............. .. 190
7.8 Diagrama de cajas y alambres .............................................................. 193

Capítulo 8
Calidad de aire
8.l Gráficos de estadísticas descripti vas.. .... ..... .. .............. ............. ............. 204
8.2 Histogramas ........ .... .. .. ........ ... ....... ... .... ....... .. ........ ...... ... .. ..... ..... .. ........ . 211
8.3 Tablas cruzadas..................................................................................... 214
8.4 Gráficas de frecuencias acumuladas .. ................ ................................... 217
8.5 Percentiles... ........... ............................ .............. .............................. ....... 220
8.6 Contaminación del aire en Ciudad de México ....................... ............... 224

Capítulo 9
Calidad de agua en una fuente superficial
9.l Estadísticas descriptivas ....................................................................... 237
9.2 Presentación gráfica.............................................................................. 239
9.3 Histogramas .......... ......... ......... .... .......................................................... 245
9.4 Tablas cruzadas..................................................................................... 248
9.5 Frecuencias acumuladas ....................................................................... 251
9.6 Percentiles....... .... ................................................. ... .... ....... .......... ......... 252

Capítulo 10
Instrucciones en SPSS
10.1 Ingresando los datos a SPSS .................................................................. 257
10.2 Importando archivos de Excel ....................... ................................. ....... . 259
10.3 Estadísticas descriptivas................................................... ... ..... ............... 263

ESTADIsTICA DESCRIPT IVA PARA INGENIERIA AMBIENTAL CON SPSS XI


10.4 Histograma .... ... ..... ............ .............. ....... ..... ........ ... .......... .. ..... .. .... .......... 268
10.5 Gráfico de frecuencias acumuladas......................................................... 270
10.6 Gráficos en tres dimensiones ...... ....... ............................................ .. ....... 271
10.7 Gráficos de barras en tres dimensiones ................................................... 273
10.8 Gráfico de tallos y hojas. ............................ .... ................................. ..... ... 274
10.9 Gráfico de cajas y alambres .......................................................... .......... 276
10.10 Percentiles....................................... ......................... ............ .... ............. 277
10.11 Tablas cruzadas o distribución de frecuencias con dos variables.......... 280

Capítulo 11
Gráficas en Excel
11.1 Gráfico para la media, desviación estándar y el máximo.... ........ ......... ... 283
11.2 Gráfico para media, máximo y mínimo .... .... ....... .... ... .......... .. ......... ...... . 288
11.3 Gráfico de series de tiempo ............................................................... ...... 291

Bibliografía .................................................................................................................... 295

XII ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS


Introducción

Este libro tiene como objetivo proporcionar aspectos conceptuales de la estadística


descriptiva con aplicaciones en estudios de la Ingeniería Sanitaria y Ambiental.
Está diseñado como texto de consulta en cursos de estadística o para el uso de
estudiantes o profesionales que desarrollen un estudio o una investigación donde
se requiera aplicar técnicas de estadística descriptiva para el análisis de datos y la
toma de decisiones.
En él se exponen aspectos conceptuales de los principales métodos de la estadística
descriptiva en lo relacionado con la organización, presentación, estimación y análisis
de indicadores estadísticos aplicados en estudios o investigaciones en la Ingeniería
Sanitaria y Ambiental. Este trabajo se constituye en un aporte al uso de los métodos
estadísticos descriptivos, considerando que se han escrito muchos textos sobre
métodos estadísticos pero pocos en el ámbito nacional y regional con aplicaciones
a la Ingeniería Sanitaria y Ambiental.
Si bien es cierto que el espectro de desarrollo de la Ingeniería Sanitaria y Ambiental
es amplio, se han seleccionado casos sobre evaluación de la calidad de agua en una
fuente superficial, comparación de sistemas de tratamiento para agua potable y
evaluación de la contaminación del aire en una región específica. Otras aplicaciones
pueden seguir la metodología estadística utilizada en los casos estudiados en el
presente libro.
Debido al avance de los recursos informáticos, en cuanto a hardware y software,
los cuales han permitido una utilización intensiva de los métodos estadísticos, en
este libro se presentan los procesos o rutinas para la estimación de los indicadores
estadísticos en la hoja electrónica Excel (Microsoft Office) y el programa estadístico
SPSS (Statistical Package for the Social Sciences) versión 11.5.
La forma como se expone el libro se presenta a continuación: Los primeros cinco
capítulos contienen los aspectos conceptuales de la estadística descriptiva. El capítulo
1 presenta los fundamentos de los métodos estadísticos; el capítulo 2, medidas de
tendencia central y medidas de dispersión; el capítulo 3, distribuciones univariadas

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


y bivariadas; el capítulo 4, medidas y gráficas de posición, y el capítulo 5, modelos
de regresión lineal. En cada uno de estos capítulos se desarrollan ejemplos que
ilustran los procesos estadísticos relacionados con estudios sobre ingeniería sanitaria
y ambiental.
Del capítulo 6 al capítulo 9 se presenta la aplicación de los métodos estadísticos
descriptivos a casos documentados de la Ingeniería Sanitaria y Ambiental. El capítulo
6 desarrolla la planeación estadística de un proyecto de investigación; el capítulo
7 analiza la evaluación de plantas de tratamiento de agua; el capítulo 8 presenta un
estudio de calidad de aire, y el capítulo 9, un estudio sobre la calidad de agua en
una fuente superficial.
Los capítulos 10 Y 11 presentan las instrucciones para utilizar el software SPSS y
Excel, respectivamente.
Las bases de datos de los casos de apl icación fueron recolectadas en diversas
investigaciones y estudios desarrollados por varias instituciones, entre las que se
destacan: Instituto Cinara de la Universidad del Valle, Corporación Autónoma
Regional del Valle del Cauca (CVC), Universidad Nacional de Colombia, sede
Palmira y Departamento Administrativo de Gestión del Medio Ambiente de la ciudad
Santiago de Cali (DAGMA).

2 ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss


CAPíTULO

1
Fundamentos
de los métodos estadísticos

Los procesos de recolección, organización, presentación, procesamiento, análisis e


interpretación de datos numéricos son aspectos fundamentales en el desarrollo de un
estudio o una investigación en general, y en particular en los estudios relacionados con
la Ingeniería Sanitaria y Ambiental, considerando que generalmente en estos últimos
los datos son la herramienta básica para la consolidación de las investigaciones y
la toma de decisiones.
Los datos generan información para la toma de decisiones en condiciones de certeza
o de incertidumbre. Para la toma de decisiones en condiciones de certeza se utilizan
modelos matemáticos determinísticos y la toma de decisiones en condiciones de
incertidumbre, medida por la teoría de la probabilidad, se realiza a través de los
modelos estadísticos estudiados en la ciencia Estadística.
La estadística es la ciencia que se encarga de la recopilación, organización,
presentación, análisis e interpretación de datos numéricos, con el fin de tomar
decisiones con criterios de incertidumbre y confiabilidad. Los métodos estadísticos
tratan de la presentación gráfica y resumen de datos a través de indicadores,
estimación de parámetros poblacionales, pruebas de hipótesis en relación con
parámetros poblacionales, determinación de la exactitud de las estimaciones,
estudio de la variación, estudio de correlación y el diseño de experimentos, de forma
univariada y multivariada, entre otros.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 3


VIVIANA VARGAS FRANCO

1.1 Modelos estadísticos


Un modelo estadístico es una representación simplificada, formal y abstracta de
un fenómeno de la naturaleza o de un sistema, éste puede representar la estructura,
el comportamiento o el funcionamiento de una parte de interés o el conjunto del
fenómeno o del sistema. La representación se hace a través de símbolos matemáticos
que corresponden a relaciones entre parámetros y variables.
Un modelo se considera adecuado si efectiva y objetivamente representa la realidad
que pretende estudiar y conocer. El elemento básico para juzgar un modelo es su
confrontación con la realidad, esto implica que para juzgar el modelo debe hacerse
una observación empírica del objeto de estudio y con base en ella juzgar la bondad
del modelo (Quiroga).
La construcción y aplicación de un modelo estadístico se define a través de los
elementos básicos de la teoría estadística: datos, aleatoriedad, variabilidad, teoría de
probabilidad, selección muestral, estimación de parámetros y docimasia de hipótesis,
entre otros.
No existe un modelo perfecto, pero se debe preferir un modelo simple, donde no
se pierda información, considerando los componentes sistémicos y aleatorios del
fenómeno.
Los métodos estadísticos proporcionan criterios y modelos matemáticos para
realizar los procesos de recolección, procesamiento y análisis de datos requeridos
en estudios donde una componente fundamental son los datos, con características
de variabilidad y aleatoriedad. La aplicación de los métodos estadísticos permite
generar conclusiones objetivas con criterios de confiabilidad y riesgo en la toma de
decisiones. Los métodos estadísticos son un medio y no un fin y como tal deben
ser utilizados; los resultados estadísticos deben ser contrastados con análisis de las
teorías y modelos conceptuales o modelos matemáticos que permitan suministrar
avances significativos en las diferentes áreas de su aplicación.
La estadística como ciencia independiente es un desarrollo del siglo XX. Sir Ronald
Aymer Fischer (1890-1962) fue el principal representante, el transformador de ideas
que cohesionó y estableció los fundamentos teóricos de la inferencia estadística
como método de razonamiento inductivo que da un nuevo sentido al procesamiento
de datos e intenta medir su grado de incertidumbre. Sus resultados le dieron a la
estadística estatus de disciplina científica, reafirmado por los innumerables campos
de aplicación de sus metodologías (Y áñez, 200 1).
El avance del análisis estadístico en los últimos años ha sido rápido y su uso se
constituye en una valiosa herramienta para la toma de decisiones. La actualización

4 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO 1- FUNDAMENTOS DE LOS MÉTODOS ESTADíSTICOS

permanente de los recursos informáticos en cuanto a hardware y software ha


permitido una utilización intensiva de los métodos estadísticos.
Existen dos fases en el procesamiento estadístico de un conjunto de datos: una parte
relacionada con la estadística descriptiva o estadística deductiva y otra relacionada con
la estadística inferencial o estadística inductiva. La estadística descriptiva consiste
en resumir el conjunto de datos de una investigación en indicadores estadísticos
que permiten estimar el grado de centralidad, dispersión, posición y distribución de
frecuencias. El análisis descriptivo es una etapa importante en la comprensión de un
fenómeno, pues permite estudiar las tendencias generales del conjunto de datos.
Generalmente después del proceso descriptivo se hace la estimación de la
inferencia estadística o estadística inferencia\. Esta consiste, a partir de los
resultados estadísticos de una muestra representativa de una población, en realizar
generalizaciones o inducciones a parámetros de la población, considerando criterios
de riesgo y confiabilidad, estimados a partir de la teoría de la probabilidad, tal como
se observa en la Figura 1.1.

Población
Muestreo probabilístico

MlIestra representativa
X" Xl' XJ'
X 4 , X 5 , ........ X .. ,
X ..+/, X m +l , •••
X/ •••.• Xl'" XJ
........ X p •••• XIV'
X4 •••••• X k +/
Xk+1" •....••..•. X n
Teoría de probabilidad

Proceso de inferencia estadística

Figura 1.1 Esquema del proceso de inferencia estadística

Los métodos estadísticos están relacionados con el método científico en las etapas
de recolección, organización, presentación y análisis de datos, para la deducción
de conclusiones y la toma de decisiones razonables de acuerdo con los análisis
estadísticos.

1.2 Aspectos generales del método científico


El conocimiento científico es aquel que se realiza mediante la aplicación del método
científico; permite el uso de la razón, la lógica, la objetividad y tiende a evitar que

ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPSS 5


VIVIANA VARGAS FRANCO

el conocimiento surja de la pasión o la emoción. Por medio de la investigación


científica el hombre ha alcanzado una reconstrucción conceptual del mundo que es
cada vez más amplia, profunda y exacta (Bunge). El conocimiento científico puede
caracterizarse como conocimiento racional, sistemático, exacto, verificable y por
consiguiente falible .
El método científico es una guía para desarrollar una investigación o estudio con
resultados de carácter científico. La palabra método viene del griego: "meta", que
significa "con" y "odos" que significa "camino", es decir, es la forma de proceder
encaminada hacia un objetivo donde lo que se va desarrollando guarda orden y
coherencia. El método científico puede concebirse como un modelo general de
acercamiento a la realidad; es una pauta o matriz abstracta y amplia, dentro de
la cual están los procedimientos y técnicas específicas que se emplean en una
investigación.
Una investigación puede definirse como el estudio sistemático de un sujeto u objeto
con el fin de descubrir nuevos hechos o principios. La aplicación de la lógica y
la objetividad son la base del uso del método científico. En el método científico
es esencial el estudio de lo que ya se conoce, pues a partir de ese conocimiento
se formulan hipótesis, que se ponen a prueba generalmente con procesos de
experimentación.
Las etapas del método científico no deben considerarse lineales, son procesos
cíclicos, donde el avance de una etapa permite revisar las anteriores; éstas deben
considerarse como una guía para abordar en forma metódica el proceso de realizar
una investigación. Si bien existen diferentes esquemas del método científico, el
que se presenta en la Figura 1.2 destaca los aspectos relacionados con el uso de los
métodos estadísticos.
Entre las características básicas del proceso de investigación se destacan los siguientes
aspectos:
• Un producto de la investigación: nuevo conocimiento
Es un proceso sistemáticamente organizado
Es un proceso en espiral del conocimiento
Genera saltos cualitativos del conocimiento por acumulación de pequeños cambios
cuantitativos
• Permite replicabilidad de los resultados
• Operan la lógica y la objetividad

B ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO 1- FUNDAMENTOS DE LOS MÉTODOS ESTADíSTICOS

PREGUNTAS DE
INVESTIGACIÓN OBJETIVOS HIPÓTESIS
Definir: Definir: ~ Definir los posibles resulta-
• Antecedentes • Objetivo general dos de las preguntas de in-
• Justificación • Objetivos vestigación.
Preguntas a específicos
resolver

t
t MARCO TEÓRICO
Describir teorías y concep-
NUEVAS tos aplicados en la investi-
PREGUNTAS DE gación .
INVESTIGACIÓN
PROCESAMIENTO Y

t ·
ANÁLISIS DE DATOS
Aplicar:
Instrumentos de
recolección de datos.
t
METODOLOGÍA
CONCLUSIONES y · Sistemas de información. Describir el diseño ex-
RECOMENDACIONES
Generar en relación con las ....... ·· Teoría de muestreo.
Estadística descriptiva. ~
perimental, materiales y
métodos para desarrollar
preguntas de investigación
y análisis de datos.
··Inferencia estadística.
Modelos matemáticos.
los objetivos de la inves-
tigación.

Figura 1.2 Esquema de las etapas del método científico.


Se relacionan los siguientes conceptos:
o Teoría vs práctica

o Abstracción vs concreción

o Conocimiento particular vs general

o Inducción vs deducción
o Análisis vs síntesis
o Conocimiento heurístico vs científico

La estadística es un conjunto de herramientas útiles en la investigación en las fases


de planeación, análisis e interpretación de los resultados de una investigación,
apoyando el desarrollo del método científico en la descripción y la predicción. Por
la naturaleza de los métodos estadísticos los resultados son parciales y fragmentados
más que completos y definitivos.
En una investigación debe haber concordancia lógica entre los objetivos, el diseño
de la investigación, el análisis de los resultados y las conclusiones; generalmente
los conceptos y métodos estadísticos juegan un papel importante únicamente en el
análisis e interpretación de datos, lo cual conduce con frecuencia a investigaciones
en las que no hay una buena concordancia entre los objetivos, el diseño de la
investigación y las conclusiones.

ESTADISTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss 7


VIVIANA VARGAS FRANCO

Los procesos estadísticos proporcionan información y conclusiones a partir de un


conjunto de datos. Inferencias de lo particular a lo general podrán obtenerse con
un cierto grado de incertidumbre y los investigadores en los diferentes campos de
la ciencia deberán reconocer el papel de la estadística como un aspecto relevante
de una investigación.
El papel de la estadística en la investigación es, entonces, funcionar como una
herramienta en el diseño de ésta, en el análisis de datos y en la extracción de
conclusiones a partir de ellos. Los métodos estadísticos no deberían ser ignorados
por ningún investigador, aun cuando no tengan ocasión de emplearlos en todos sus
detalles y ramificaciones.

1.3 Los datos como materia prima de los métodos estadísticos


Los datos provienen de un proceso de medición u observación que debe realizarse
de manera regular, organizada y sistemática, de tal forma que permita obtener un
sistema confiable de observaciones con el fin de acercarse a la respuesta de los
interrogantes específicos de una investigación.
Los datos son la materia prima de la mayoría de los estudios o investigaciones, de
ellos depende en buena medida el aprovechamiento de los métodos estadísticos para
su posterior análisis. De nada vale acumular datos sobre una investigación si no
existen criterios para su organización y procesamiento estadístico.

En un estudio donde los resultados generan un conjunto de datos, es casi indispensable


resumirlos en indicadores de carácter estadístico que faciliten su presentación,
interpretación y análisis. Un conjunto de datos no genera información por sí mismo,
es a través del procesamiento matemático o estadístico significativo donde se pueden
encontrar indicadores y medidas de tendencia que generen información:

Datos =/:. Información

No se puede caer en la frase "ricos en datos, pobres en iriformación ". En general los
textos de métodos estadísticos no mencionan o suponen que el proceso de recolección
y calidad del dato es un aspecto conocido por los investigadores o profesionales
que realizan estudios, sin embargo es una de las fases de la experimentación que
generalmente no se planea con el cuidado que se requiere.
La recolección de datos y su posterior análisis no son la finalidad principal de
una investigación o un estudio, es necesario realizar procesos de modelación
matemática y estadística que permitan generar información sobre las preguntas
de la investigación. La información que se genere del proceso de análisis debe

8 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 1- FUNDAMENTOS DE LOS MÉTODOS ESTADíSTICOS

incorporarse a teorías y marcos conceptuales, de tal forma que se consigan


conclusiones válidas y objetivas. Un proceso que permite transformar datos en
información se presenta en la Figura 1.3.

Definición de Aplicación de Procesamiento y


técnicas de técnicas de análisis de datos con
recolección de recolección de métodos estadísticos
datos datos y matemáticos

+
DATOS
J ( INFORMACIÓN )

Organización y
digitalización en Teorías y conceptos
bases de datos del fenómeno de
y sistemas de estudio
infonnación

Figura 1.3 Un esquema metodológico para convertir datos en información.

1.4 Aspectos relacionados con la calidad del dato


La calidad de los datos es uno de los aspectos importantes que se deben planear
antes de las etapas de recolección y aplicación de los métodos estadísticos, pues los
procesos estadísticos generalmente no verifican ni corrigen deficiencias en la calidad
de los datos. Varios componentes se deben estudiar sobre la calidad de un conjunto
de datos: confiabilidad, validez y representatividad, entre otros.

Representatividad. Está relacionada con el tamaño de la muestra y la forma como se


seleccionan los individuos u observaciones a ser analizados y responde a la pregunta:
¿Los resultados de la muestra pueden aplicarse o generalizarse a la población objeto
de estudio?

El tamaño de la muestra depende del grado de variabilidad del fenómeno a estudiar,


el nivel de precisión deseado y el nivel de confiabilidad requerido, así como de los
costos de personal, reactivos y equipos, entre otros.
La forma de selección del número de muestras, es decir, el tipo de muestreo a
utilizar, puede ser probabilístico (cada elemento tiene una probabilidad conocida de
ser seleccionado en la muestra), o no probabilístico (no todos los elementos tienen

ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss 9


VIVIANA VARGAS FRANCO

probabilidad de ser incluidos en la muestra). Se deben seleccionar los individuos sin


sesgo y que haya participación de los diversos elementos del fenómeno a estudiar.
La representatividad está ligada a la definición de la población objetivo y a la
muestra seleccionada y estas a su vez a los objetivos del estudio, los cuales deben
estar claramente definidos
Confiabilidad. Se relaciona con los instrumentos o formas de medición de las
variables a medir y responde a la pregunta: ¿Qué tanto se puede repetir la medición
de tal forma que produzca resultados similares en condiciones similares?
La corrfiabilidad está asociada a la consistencia de los datos con los instrumentos de
medición. La corrfiabilidad de un instrumento de medición se refiere al grado en que
su aplicación, repetida al mismo sujeto u objeto, produce resultados iguales.
Validez . Se refiere al grado en que un instrumento, concepto o indicador mide
realmente la variable que se pretende medir, ésta debe alcanzarse en todo instrumento
de medición que se aplica. Una pregunta que responde al concepto de validez es:
¿Se está midiendo lo que realmente se cree medir?
Si es así, la medida es válida, de lo contrario no lo es. No hay medición perfecta, pero
es necesario que haya una representación fiel de las variables a observar, mediante
el instrumento de medición.
Un instrumento de medición puede ser confiable, pero no necesariamente válido.
Por eso es conveniente que los resultados de una investigación demuestren ser
confiables y válidos,
Factores que afectan la confiabilidad y la validez. Algunos factores que afectan la
confiabilidad y la validez de un conjunto de datos:
Improvisación
• Instrumentos de medición utilizados en diferentes contextos y sin adaptación
• Falta de validación de los instrumentos de medición
• Instrumentos inadecuados para las variables seleccionadas
• Condiciones inadecuadas en las que se aplica el instrumento
Capacitación deficiente al personal de apoyo
Instrucciones deficientes
Fuentes de error. Algunas fuentes de error en las mediciones son: error aleatorio,
error sistemático, normalidad y anormalidad.
Error aleatorio. Es el producido por el sistema de mediciones, es un error constante
que está presente en cada una de las mediciones que se efectúan. Su valor no afecta

10 ESTADiSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO 1- FUNDAMENTOS DE lOS MÉTODOS ESTADíSTI COS

al valor real ni al valor promedio del conjunto de datos. En términos estadísticos es


igual a la diferencia entre una medición y la media de todas las mediciones.
Error sistemático. Es el producido por la medición de cada una de las componentes
del sistema, no es constante, es el error de redondeo que se lleva a cabo en cada una
de las mediciones. En términos estadísticos es igual a la diferencia de la media de
todas las mediciones con el valor real de la variable (que normalmente es desconocido
en el estudio).
El error sistemático normalmente permanecerá cuando se repita la medición. De
ahí que sea dificil detectarlo en un estudio. Éste también indica que el instrumento
de medida no es completamente válido. Algunas veces es posible detectar un error
sistemático si el mismo objeto se mide con dos métodos distintos. Si se descubre,
se elimina por corrección de mediciones (por ejemplo, por normalización de las
mismas) o por calibración de la escala del instrumento de medida.
En un estudio el error aleatorio y el error sistemático pueden darse conjuntamente
y es importante detectarlos. A mayor número de observaciones se controla el error
aleatorio, pero no el error sistemático. Entre las estrategias para reducir el error
sistemático se encuentran: calibración de los instrumentos y realización de medidas
ocultas. En general, los fabricantes de instrumentos de medición suelen garantizar
que el error total (aleatorio + sistemático) de su equipo es inferior a cierto límite,
siempre y cuando el instrumento sea usado con las especificaciones definidas.
Normalidad y anormalidad. Se dice que los datos son normales si el patrón sigue
la forma de una curva normal o en forma de campana, en caso contrario se habla de
datos con anormalidad. En el caso de datos normales, se pueden estimar intervalos
de confianza alrededor de indicadores estadísticos de interés; en caso de anormalidad
se pueden estimar niveles percentiles, que pueden estar alrededor del 95% y 97,5%,
que depende del estudio que se esté realizando.

1.5 Conceptos en la aplicación de los métodos estadísticos


A continuación se describen algunos conceptos fundamentales para la aplicación de
los métodos estadísticos.
Población. Se define de acuerdo con los objetivos del estudio, y está determinada
por condiciones ambientales, de tiempo y espacio, entre otras. La población se define
como la totalidad de los elementos o individuos que tienen características similares y
sobre los cuales se desean realizar inferencias o generalizaciones. Se deben definir
claramente quiénes y qué características deben tener los objetos o sujetos del estudio,
es decir, la población.

ESTADíSTICA D ESC RIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 11


VIVIANA VARGAS FRANCO

Muestra. Es una parte seleccionada de la población objeto de estudio y sobre la


cual se van a realizar las mediciones. La muestra debe ser representativa con el fin
de dar confiabilidad a las inferencias o generalizaciones a la población. La muestra
puede ser seleccionada con criterios probabilísticos o criterios no probabilísticos. En
general, para el uso de la inferencia estadística se requiere una muestra probabilística.
Para la selección de una muestra probabilística se deben considerar los siguientes
aspectos:
• Definir en forma precisa la población
Considerar el marco muestral (fuente de extracción de unidades)
Seleccionar el tipo de muestreo (depende de la población, puede ser aleatorio,
estratificado, por conglomerados, sistemático, entre otros)
• Estimar el tamaño de muestra (con criterios estadísticos, definir: nivel de
confiabilidad deseado, nivel de precisión en la estimación y nivel de variabilidad
de las variables de interés)
• Definir un procedimiento de muestreo (cómo seleccionar los elementos de la
población)
Seleccionar la muestra
Una población puede ser finita o infinita, pero la muestra siempre será finita. La
muestra puede ser de interés inmediato, pero importa principalmente describir la
población de la cual se tomó. La escogencia de la muestra debe reflejar estrechamente
las posibles características de la población.
Parámetro. Se refiere a un indicador estadístico que es calculado a través de
las observaciones o datos de la población. El valor del parámetro es constante y
generalmente desconocido, el cual se estima a través de los datos de la muestra.
Estadístico o estadígrafo. Se refiere a un indicador estadístico que es calculado de
las observaciones o datos de la muestra. El valor del estadístico es conocido y varía
con la muestra. En general estos indicadores son los que se pretenden generalizar a
la población a través del proceso de inferencia estadística. Los más utilizados son:
media aritmética, desviación estándar, momentos, coeficientes de correlación, entre
otros. La media muestral es un estadístico que permite estimar la media poblacional,
que es un parámetro.
Estimación. Es el proceso estadístico mediante el cual se infieren o generalizan los
datos de un estadístico a un parámetro, utilizando la teoría de la probabilidad. Es decir,
se generalizan los valores de los resultados muestrales a valores poblacionales.
Distribución de probabilidades. Es la forma de agrupación de los datos. Existe un
gran número de distribuciones asociadas a la forma de agrupación y al tipo de variable
de los datos. Algunos ejemplos de distribuciones son: normal, Poisson, geométrica,

12 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPITULO 1 - FUNDAMENTOS DE LOS MÉTODOS ESTADlsTICOS

hipergeométrica, entre otras. Si los datos se aproximan a una de estas distribuciones,


su modelo teórico se puede utilizar para propósitos de toma de decisiones.

1.6 Estadística descriptiva vs estadística inferencial


Los métodos estadísticos se pueden clasificar en dos fases: estadística descriptiva y
estadística inferencia\. No es que existan dos estadísticas, las primeras son técnicas
descriptivas y las segundas inferenciales, estas últimas se apoyan en los resultados
de las técnicas descriptivas y permiten generalizar de una muestra a una población,
utilizando la teoría de la probabilidad, tal como se observa en la Figura 1.4.

Estadistica descriptiva o
estadlstica deductiva Inferencia estadlstica o
estadlstica Inductiva

Univariada o
multivariada Unlvariada o

1 multivariada

( TEoRÍA DE LA PROBABILIDAD )

1
• Intervalos de confianza.
• Presentación gráfica de datos. • Pruebas de hipótesis.
• Medidas de tendencia central. • Modelos de regresión.
• Medidas de dispersión. • Modelos de diseño de experimentos.
• Modelos de series de tiempo.
• Medidas de posición.
• Distribución de frecuencias. • Análisis multivariado.
• Geoestadística.
• Meta-análisis.

Figura 1.4 Esquema de la relación entre estadística descriptiva e inferencial y sus


principales procesos.

La estadística descriptiva, como su nombre lo indica, permite describir


significativamente un conjunto de datos mediante la presentación, organización y
resumen en indicadores estadísticos. Las técnicas con las cuales se resume el conjunto
de datos son: las medidas de tendencia central, de dispersión, de posición y el análisis
de distribución de frecuencias; estos métodos pueden ser de carácter univariado o
multivariado, de acuerdo con los requerimientos del estudio. Generalmente después
del análisis descriptivo se desarrolla el análisis inferencia\.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 13


VIVIANA VARGAS FRANCO

El análisis estadístico inferencial permite hacer un proceso inductivo para inferir


sobre una medida estadística, generalmente la media aritmética, a la población
con base en observaciones de una muestra seleccionada en el estudio. Este tipo de
análisis utiliza la teoría de la probabilidad para cuantificar el nivel de confianza de
las conclusiones obtenidas (Behar, 1996). Algunos métodos para realizar el proceso
de inferencia están conformados por modelos de diseño de experimentos, modelos
de regresión, intervalos de confianza y pruebas de hipótesis.

1.7 Definición de variables


Una variable es una característica observable o medible en un objeto o sujeto de
estudio, que puede adoptar diferentes valores o expresarse en varias categorías. Los
valores que asumen las variables en cada uno de los sujetos son los datos. También
se entiende por variable una característica observable relacionada con otros aspectos
observables, estas relaciones pueden ser de causalidad, covariación, dependencia y
asociación o influencia.
En investigación, las variables son los aspectos a medir y representan los conceptos
estudiados, estas constituyen un elemento básico de las hipótesis puesto que se
construyen sobre la base de relaciones entre variables referentes a determinadas
unidades de medición. Es importante resaltar la importancia de las variables como
elementos básicos del método científico, ya que la investigación es, en ciertos aspectos
fundamentales, una tarea de medir, analizar y concluir sobre variables de interés en
un problema específico.
Una variable es medida utilizando una escala de medición, la elección de la escala
de medición depende del tipo de variable y del manejo estadístico que se aplicará al
conjunto de datos. Existe una correspondencia directa entre el concepto de variable
y escala de medición. Las variables pueden ser clasificadas como cuantitativas
(intervalares) o cualitativas (categóricas), dependiendo si los valores presentados
tienen o no un orden de magnitud natural (cuantitativas), o simplemente un atributo
no sometido a cuantificación (cualitativa). Un diagrama donde se presentan la
clasificación de los principales tipos de variables y la relación con la escala de
medición se presenta en la Figura 1.5.

1.7.1 Variables cualitativas o categóricas


Son aquellas cuyos valores tienen un carácter de cualidad no susceptible, naturalmente
de variación numérica. Se clasifican en ordinales y nominales.
Nominal, se denomina a la variable cualitativa que genera valores de cualidad, sin
tener ellos ningún orden o jerarquía. Los números asignados a las diversas categorías

14 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPITULO 1- FUNOAMENTOS DE LOS MÉTODOS ESTADlsTICOS

( CLASlFICACIÓN DE VARIABLES)

CUALITATIVAS CUANTITATIVAS

Escala de medición

INTERVALO RAZÓN

Figura 1.5 Diagrama general de clasificación de variables.

del valor de las variables se consideran como etiquetas, pero no poseen el significado
numérico usual, los valores tienen una naturaleza no-métrica, no se puede decir
que una categoría es mejor que otra y la asignación numérica es arbitraria. Algunos
ejemplos de variables cualitativas nominales son : género, raza, profesión, credo
religioso, color de ojos, partidos políticos y estado civil.
Ordinal, se denomina a una variable que genera datos de cualidad y no de cantidad,
los números asignados a las diversas categorías se consideran etiquetas, pero se
genera una relación de orden que se preserva en el sistema numérico. Los números
que se asignan a los atributos deben respetar o conservar el orden de las características
que se miden. El tipo de datos que resulta tiene naturaleza no-métrica. A pesar
del orden jerárquico no es posible obtener valoración numérica lógica entre dos
valores. Algunos ejemplos de variables cualitativas ordinales son: estrato socio-
económico, nivel de satisfacción (acuerdo-total, acuerdo-parcial, desacuerdo-parcial
y desacuerdo-total) y calificación (E-excelente, S-satisfactorio, A-aceptable, D-
deficiente, I-insuficiente).
Las funciones de distribución asociadas a una variable discreta son: uniforme discreta,
Bemoulli, binomial , hypergeométrica, Poisson, geométrica, binomial negativa,
Beta-binomial y logarítmica.

1.7.2 Variables cuantitativas


Son aquellas donde las características o propiedades pueden presentarse en diversos
grados o intensidad y poseen un carácter numérico. Las escalas cuantitativas son

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 15


VIVIANA VARGAS FRANCO

reconocidas también como escalas intervalares o numéricas. Estas se clasifican en


continuas y discretas.
Variables discretas, los valores de estas variables son enumerables y toman sólo
valores enteros. Ejemplos: número de hijos, número de carros, número de personas,
número de productos y número de pacientes atendidos, entre otras. La escala de
medición es de intervalo.
Variables continuas, son aquellas que pueden tomar infinitos valores dentro
de un intervalo dado. Los valores de estas variables están relacionados con los
números reales. Ejemplos: peso, estatura, salario y temperatura, entre otros.
Las variables continuas presentan dos escalas de medición: de intervalo y de
razón.
Escala de intervalo, se caracteriza por generar datos numéricos, la diferencia entre
dos medidas es significativa. En esta escala tienen sentido la suma y la resta de
valores, pero no existe un cero absoluto ni las distancias entre los valores generan
noción de equivalencia. En esta escala no tiene sentido el concepto de división.
Algunos ejemplos: puntuaciones en una prueba de razonamiento (IQ) y temperatura
del agua.
Por ejemplo, en esta escala es posible decir el mejor desempeño (IQ) que tuvo
un estudiante en una prueba frente a otro; un niño con un IQ de 150 es mejor
que un niño que obtuvo 75, pero no se puede decir que el primero tiene el doble
de inteligencia que el segundo. En esta escala no hay un cero verdadero. El cero
en temperatura Fahrenheit es una temperatura seleccionada al azar. El cero en
centígrados corresponde a otra temperatura muy diferente. El resultado es que, a
pesar de que 100°C es el doble de 50°C, en una temperatura de 100°C no hace el
doble de calor que en una de 50°C.
Escala de razón, es el nivel más complejo en las escalas, tiene un origen natural, el
cero absoluto, y al igual que en la escala de intervalo se generan medidas numéricas
y las diferencias son valores significativos. La resta y la división entre dos valores
de esta escala tienen significado. Ejemplos: peso, estatura y edad, entre otros. Aquí
tiene sentido hablar de que una persona pesa el doble de otra, o que alguien tiene el
doble de años que otra persona.

En general las medidas dan origen a datos continuos, mientras que las enumeraciones
o conteos originan datos discretos. Es siempre posible pasar de una escala a otra
menos exigente. Ejemplo: los estudiantes pueden medirse en metros (variable
continua-razón), pero pueden también ordenarse de mayor a menor, convirtiéndose
en una variable ordinal.

16 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPfTUlO 1 - FUNDAMENTOS DE lOS MÉTODOS ESTADfsTICOS

En nivel de complejidad se puede clasificar como el más simple, la escala nominal,


seguido de la escala ordinal, posteriormente aparecen las escalas de intervalo y la escala
de más alto nivel de complejidad es la de razón. La importancia de esta clasificación
por niveles reside en el hecho de que mientras más complejo o alto es el nivel de
medición, más elaborados son los métodos estadísticos que se pueden utilizar.
Las funciones de distribución asociadas a una variable continua son: uniforme,
normal, exponencial, gamma, beta, Cauchy, Log normal, doble exponencial o
Laplace, Weibull, Logística, Gumbel y sistema Personiano.

1.7.3 Otras clasificaciones


Existe otro tipo de clasificaciones de las variables, las cuales se presentan a
continuación:
Variables dependientes (1'): Reciben este nombre las variables a explicar, o sea, el
objeto de una investigación que se trata de explicar en función de otros elementos.
Variables independientes (X): Son las variables explicativas, es decir, los factores o
elementos susceptibles de explicar las variables dependientes (Y); en una investigación
de tipo experimental son las variables que se manipulan.
Variables intermedias o intervinientes: En algunos casos de análisis de relación
causa-efecto, se introducen una o más variables de enlace interpretativo entre las
variables dependientes e independientes.
Variables explicatorias: Son las propiedades que interesan directamente al
investigador en términos de su modelo.
Variables externas: Son las que están fuera del interés teórico inmediato y pueden
afectar los resultados de la investigación empírica.
La clasificación de las variables depende de cada investigación en particular.

1.8 Métodos paramétricos y no paramétricos


Dentro de los métodos estadísticos se pueden distinguir los métodos paramétricos
y no paramétricos. La estadística paramétrica se aplica principalmente a datos de
tipo cuantitativo y cada técnica tiene supuestos estadísticos que se deben cumplir
para poder aplicar el método; uno de los principales supuestos se refiere a la
normalidad de la población de la cual fue extraída la muestra, si no se cumple
este supuesto, sobre todo en los casos en que la muestra es de tamaño menor de
30 unidades, las conclusiones a las que se llegue podrían ser erróneas. Cuando
las variables que se manejan no son de tipo cuantitativo o cuando no se cumplen

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 17


VIVIANA VARGAS FRANCO

los supuestos estadísticos requeridos para las diferentes pruebas, se utilizan los
métodos no paramétricos.
Los métodos utilizados para las variables de tipo cuantitativo (intervalo o razón)
son los métodos paramétricos, los cuales presentan buenos niveles de confiabilidad
en la predicción. En las escalas cualitativas (nominales u ordinales) se utilizan los
métodos estadísticos no paramétricos, que no son tan precisos en su predicción. En
la Tabla 1.1 se presentan las principales características de los métodos paramétricos
y no paramétricos.
Tabla 1.1 Principales características de los métodos paramétricos y no
paramétricos.

Métodos paramétricos Métodos no paramétricos


• Se requieren conocimientos de teoría de • Se requieren conocimientos elementales
la probabilidad, pruebas de hipótesis y a nivel matemático. Son fáciles de usar y
funciones de distribución, entre otros. entender.
• Se deben cumplir varios supuestos sobre los • Se tienen pocos supuestos, los datos pue-
datos de la población: distribución normal, den o no tener distribución, es decir, libre
varianzas iguales, entre otros. distribución.
• Las variables deben ser cuantitativas, • Se pueden utilizar con variables de tipo
con escala de medición de intervalo o de cualitativo con escalas de medición ordinal
razón. o nominal. También se pueden utilizar en
variables cuantitativas.
• Se pueden realizar análisis multivariados. • Presenta limitaciones en el análisis multi-
variado.
• Generalmente se requieren tamaños de • Se pueden trabajar con muestras pequeñas
muestra grandes (n > 30). (n < 30).
• Se utiliza el total del conjunto de datos. • Solo se utiliza parte del conjunto de da·
tos.
• Son métodos eficientes y confiables esta- • No son tan eficientes estadísticamente,
dísticamente. presentan una mayor probabilidad de
rechazar una hipótesis nula falsa (error
Tipo 11).

1.9 Métodos estadísticos por tipo de variable


Un aspecto a considerar en una investigación es definir el tipo de análisis estadístico
que se debe realizar dependiendo de las variables y su escala de medición. Como
una guía se presentan en la Tabla 1.2 los diversos métodos estadísticos que se pueden
aplicar según el tipo de variable y su escala de medición.

18 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPrTULO 1 - FUNDAMENTOS DE LOS MÉTODOS ESTADrSTICDS

Tabla 1.2 Clasificación de métodos estadísticos dependiente del tipo de variable


y su escala de medición.
M6todo a utilizar
Tipo de variable Estadistica Estadistica inferencial Estadistica infarancial
descriptiva paramétrica no param6trica
Análisis de Tabulación cruza-
correspondencias. da: Chi-cuadrado,
Análisis de correlación Mcnemar, Cochran,
nominal moda canónica no lineal. Coeficiente de contin-
frecuencias Análisis de gencia, Phi, Cramer's
homogeneidad. V, Lambda
Modelos de regresión de Rachas.
elección discreta.
Análisis de
correspondencias. Tabulación cruzada:
Cualitativa Análisis de correlación Chi-cuadrado, Gamma,
canónica no lineal. Somer's d, Kendall's,
Análisis de Tau·b, Kendall's tau·c.
moda homogeneidad. Kruskal-Wallis.
ordinal frecuencias Análisis de componentes Prueba de la mediana.
mediana principales Friedman.
categórico. Mann-Whitney.
Regresión categórica. Wilcoxon.
Modelos de regresión de Rachas.
elección discreta-
ordenados.
Análisis de
correspondencias. Tabulación cruzada:
Análisis de correlación Chi-cuadrado, Gamma,
canónica no lineal. Somer's d, Kendall's,
Análisis de Tau-b, Kendall's tau-c.
moda homogeneidad. Kruskal-Wallis.
discreta frecuencias Análisis de componentes Prueba de la mediana.
mediana principales Friedman.
categórico. Mann-Whitney.
Regresión categórica. Wilcoxon.
Modelos de regresión de Rachas.
Cuantitativa elección discreta-
ordenados.
Estimación puntual y por
intervalo. Kruskal-Wallis.
Pruebas de hipótesis. Prueba de la mediana.
ANOVA. Mann-Whitney.
continua Todas MANOVA. Wilcoxon.
Análisis de componentes Signo.
principales. Rachas.
Modelo de regresión Chi-cuadrado.
lineal simple y múltiple.

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 19


VIVIANA VARGAS FRANCO

1.10 Etapas generales en la construcción de un modelo estadístico


Como una guía y no como una norma inflexible, se pueden delinear las siguientes
etapas en la construcción de un modelo o procesamiento estadístico (Quiroga).
• Caracterización del problema
En esta etapa se deben definir los diferentes aspectos del problema, con el fin de lograr
una idea global del mismo, considerando en lo posible ir de lo simple a lo complejo,
de las partes al todo. En este aspecto se pueden seguir los siguientes pasos:
El sistema. Definición del sistema y los diversos componentes del sistema, de acuerdo
con el problema, su delimitación, los diversos componentes y sus relaciones.
Justificación. Se debe definir el porqué y el para qué de la investigación y del
estudio del sistema, aclarando los elementos teóricos sobre el problema y sus
fuentes, realizando una revisión del estado del arte. Se deben definir el tipo
de parámetros, variables y supuestos sobre sus relaciones; de causalidad o de
correlación. Así mismo, se deben definir variables de respuesta, variables de estado,
variables endógenas y/o exógenas y la caracterización de información disponible,
en inventario y tamaño.
• Definición de objetivos e hipótesis
Se deben plantear los objetivos e hipótesis generales en relación con el problema
objeto de la investigación. Las hipótesis deben basarse principalmente en la
naturaleza misma del fenómeno o sistema, apoyadas en teorías, experiencias y
criterios de personas que conozcan la problemática estudiada. Se deben definir
alternativas de modelos y su aplicación.
• Marco teórico
De acuerdo con las hipótesis, se deben exponer los elementos teóricos fundamentales
de la investigación y de carácter estadístico que permitirán la construcción, el
desarrollo y aplicación de los modelos estadísticos.
• Diseño de metodologías estadísticas
Se debe caracterizar el proceso de muestreo o el diseño experimental utilizado para
la obtención de las observaciones, definiendo limitaciones y cobertura (población y
muestra). Así mismo, definir los parámetros y las variables, su caracterización y su
nivel de importancia: ¿cuáles variables se observan?, ¿cómo se observan?, ¿cuáles
se generan? y ¿cómo se generan? Las variables deben clasificarse según diferentes
criterios (aleatoria, determinística, de respuesta, independiente, dependiente,
observable, no observable, generada, endógena, exógena, de estado, controlada, no

20 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIEN TAL CON SPSS


CAPrTULO 1- FUNDAMENTOS DE LOS MÉTODOS ESTADrSTICOS

controlada y covariable, entre otras). Debe juzgarse su grado de variabilidad, los


posibles factores que la determinan y definir sus categorías.
En la caracterización de parámetros deben explicarse su interpretación y su papel
en el sistema o fenómeno. Del mismo modo, describir los métodos de estimación
de parámetros, propiedades, errores estándar y criterios para evaluarlos. Se deben
describir y explicar la docimasia de hipótesis estadísticas. ¿Qué supuestos se deben
validar? ¿Cuál es su importancia? ¿Cómo validarlos? Se deben describir y explicar
los métodos y formas de aplicación del modelo construido y validado, sus alcances,
limitaciones y ventajas.

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 21


CAPrTULO 1- FUNDAMENTOS DE LOS MÉTODOS ESTADrSTICOS

controlada y covariable, entre otras). Debe juzgarse su grado de variabilidad, los


posibles factores que la determinan y definir sus categorías.
En la caracterización de parámetros deben explicarse su interpretación y su papel
en el sistema o fenómeno. Del mismo modo, describir los métodos de estimación
de parámetros, propiedades, errores estándar y criterios para evaluarlos. Se deben
describir y explicar la docimasia de hipótesis estadísticas. ¿Qué supuestos se deben
validar? ¿Cuál es su importancia? ¿Cómo validarlos? Se deben describir y explicar
los métodos y formas de aplicación del modelo construido y validado, sus alcances,
limitaciones y ventajas.

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 21


CAPíTULO

2
Medidas descriptivas

Este capítulo presenta las principales medidas descriptivas de tendencia central y


dispersión utilizadas para el resumen de un conjunto de datos. Una medida descriptiva
es un valor que caracteriza las observaciones resumiéndolas en medidas de tendencia
central, dispersión o variabilidad y forma o asociación.
Las medidas de tendencia central describen valores típicos que se encuentran entre el
valor mínimo y el valor máximo observado en el conjunto de datos. Las medidas de
dispersión o variabilidad describen en qué medida los valores de un conjunto de datos
son distintos entre sí o con respecto a una medida de centralidad. Las medidas de
forma describen las características de una distribución de frecuencias de un conjunto
de datos. Las medidas de asociación, para el caso de dos o más variables, muestran
el grado de asociación entre estas variables y cómo están relacionadas.

2.1 Medidas de tendencia central


Estas medidas permiten describir el grado de centralidad de un conjunto de datos. Son
valores que representan un valor central hacia el cual tiene tendencia a concentrarse
el conjunto de datos. Entre las medidas de tendencia central se destacan:
• Media:
aritmética
geométrica

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 23


VIVIANA VARGAS FRANCO

armónica
cuadrática
rango medio
ponderada
Mediana
• Moda
Las medidas de centralidad más utilizadas son la media aritmética, mediana y moda.
En algunos textos al cálculo de estas tres medidas se le denomina promedio.

2.1.1 Media

2.1.1.1 Medía aritmética


Es la medida más utilizada en el análisis de un conjunto de datos, es un valor central que
toma en cuenta todos los valores que aparecen en el conjunto de datos y las distancias
relativas a estos valores. Los valores tienen la misma importancia en el grupo de datos.
Su analogía fisica se puede comparar con el centro de masa de una colección de
masas de una dimensión, tal como se presenta en la Figura 2.1

o O O O! O

Figura 2.1 Representación gráfica del concepto de media.


La media aritmética es la suma de los valores de la variable sobre el número de datos
en análisis, la notación en la muestra es diferente que en la población.

Si XI' X]' X j , •••••••••••• , X n _ l' X n representan los valores de una variable en una
muestra, entonces la media aritmética se calcula por medio de la ecuación 2.1.
11

X=XI+XZ+Xj + ... +Xn _~Xi LX


---=-- . (2.1)
n n n
X . (se lee "X barra" o "X trazo ''): media de un conjunto de datos provenientes de una muestra
n : número de datos de una muestra
I :(es la letra griega mayúscula sigma): signo de suma/aria (se lee "suma de'')
Cuando los datos representan el total de la población, la notación de la media es
diferente de la media de los datos muestrales.

24 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 2- MEDIDAS DESCRIPTIVAS

Si XI' X]' X J,............, X N _ l ' X N representan los valores de una variable en una
población, entonces la media aritmética se calcula por medio de la ecuación 2.2.
N

XI+X]+XJ+'" +XN ,..LIx¡ ~X


~
p= =--=-- (2.2)
N N N

f.l
: (es la letra griega minúscula mu): media de un conj unto de datos p rovenientes de una población
N : número de datos de una población

La media aritmética poblacional se estima a partir de la media aritmética muestral


utilizando la teoría de la probabilidad.
En estudios ambientales o de ingeniería sanitaria en muy pocas oportunidades se
cuenta con los datos poblacionales, muy frecuentemente se tienen conjuntos de
datos provenientes de una muestra, considerando que generalmente los fenómenos
naturales tienen población infinita, lo cual impide obtener los datos de la población.
Por ejemplo, para estimar la calidad de agua de una fuente de agua o la calidad del
aire en una determinada zona, tener la población es equivalente a analizar "toda"
el agua del río o "todo" el aire de la zona de estudio, lo cual no es posible. Esto
refuerza la importancia de la estimación de la media poblacional a partir de la media
muestral.
La media aritmética no siempre tiene sentido conceptual o validez real. Por ejemplo,
si en un muestreo de calidad de agua se tiene un valor de pH de 4 unidades, es decir
ácido, y un valor de pH de 8 unidades, es decir básico, el promedio del agua daría
un pH de 6 unidades, es decir neutro, lo cual no tendría sentido desde el punto de
vista real, por 10 anterior es necesario analizar la validez lógica y real de esta medida
antes de ser utilizada.
La media aritmética sólo tiene sentido para datos cuantitativos, ya sean estos de
carácter discreto o continuo, pues no se puede promediar el sexo, que toma categorías
°
de femenino y masculino, así estas estén categorizadas como y 1, debido a que la
media daría 0,5, que no tiene sentido ni representación real. En el presente texto la
media aritmética se denominará media o promedio. En la Tabla 2.1 se presentan
algunas ventajas y limitaciones de la media aritmética.

ESTADIs TICA DESCRIPTIVA PARA ING ENIERfA AMBIENTAL CON SPSS 25


V IVIANA VARGAS FRANCO

Tabla 2.1 Ventajas y limitaciones de la media aritmética.

-,
Ventajas Limitaciones
• Es la medida estadística más comúnmente • Es fuertemente afectada por los valores ex·
empleada. tremos, ya sean valores máximos o mínimos
• Es fácil de calcular y entender. Ypor consiguiente puede estar lejos de ser
• Se pueden realizar cálculos algebraicos. una representación de la muestra.
• En su cálculo se incluye cada uno de los • No es conveniente utilizarla en: conjunto
datos de la muestra o la población. de datos demasiado heterogéneos, cuando
los datos sean proporcionales o estén en
• Es un valor único para cada conjunto de
progresión geométrica.
datos.
• Se debe analizar junto con medidas de
• Las unidades son las mismas de la variable
dispersión.
analizada.
• Se debe acompañar por otras medidas de
• La distribución de las medias que se obtienen
tendencia central, tales como la mediana y
de muestreos repetidos de una población se
la moda.
conoce y es de gran utilidad en el proceso de
inferencia. Generalmente es la distribución • Sólo tiene sentido en variables cuantitati·
normal. vas.

Ejemplo 2.1 Un monitoreo de la calidad de agua en una fuente superficial, en


la variable turbiedad, presenta los siguientes resultados:
7

¿ X;
Datos primer muestreo: 5; 4; 5; 4; 8; 10,' 9 (UNT) -+ X = ~ = 6,4 (UNT)
7
8
¿X;
Con una muestra adicional: 12 (UNT) -+ X=~= 7,1 (UNT)
8
9
¿X;
Con otra muestra adicional: 150 (UNT) -+ X=~= 23(UNT)
9
10
¿x;
Con otra muestra adicional: 320 (UNT) -+ X=~= 52,7 (UNT)
10

(UNT Unidades Nefelométricas de Turbiedad)

26 ESTADíSTICA D ESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss


CAPfTULO 2- MEDIDAS DESCRIPTIVAS

Considerando el primer muestreo, la media de turbiedad para la fuente


superficial es 6,4 UNT, valor que indica el centro del conjunto de datos. A
medida que se adicionan valores extremos de turbiedad, la media incrementa
su valor significativamente. Un solo dato extremo altera el valor de la media
de manera significativa.
El valor de la media para datos homogéneos es un buen indicador del grado de
centralidad de un conjunto de datos; sin embargo, es una medida fuertemente
afectada por valores extremos, y esto es una gran limitación para el uso de este
indicador estadístico sin el análisis conjunto de otras medidas de centralidad
o dispersión.

2.1.1.2 Propiedades del operador sumatoria


A continuación se presentan las principales propiedades del operador sumatoria, las
cuales permiten comprobar algunas propiedades de la media.

n
· ¿ e = ne donde e es constante y n el número de datos
;=/
n n

• ¿eX;=e¿X;
;=/ ;=/
11

• ¿X=nX
;=/
n n n

• ¿(aX;±bY¡j=a¿X;±b¿Y;
;= / ;=/ ;=/
n

"x.
- . /
• X=~-
¿
-
¿X.=nX
n
I

"
11

;=/ I

2.1.1.3 Propiedades de la media


• La suma de las desviaciones de los datos con respecto a la media es cero.
Esta propiedad surge del hecho de que la media es el punto de equilibrio de
la distribución, tal como se presenta en la ecuación 2.3. La media es la única
medida de tendencia central que cumple esta propiedad.
n
¿ (X¡-X)= 0 (2.3)
;=/

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 27


VIVIANA VARGAS FRANCO

Demostración: Aplicando propiedades del operador sumatoria se tiene el


siguiente proceso:
n n n n
I(X¡-X)= Ix;- IX= IX¡-nX=nX-nX=O
¡= 1 ¡= 1 ¡= 1 ¡=1

• Las sumas de los cuadrados de las desviaciones a partir de la media aritmética


es menor que la suma de cuadrados de las desviaciones a partir de cualquier
otro valor. En forma algebraica:

I (X¡-xy es mínima.

• Si cada uno de los datos de una variable toma valores constantes (k) , la media
será igual al valor de la constante. En términos algebraicos:
Si X= k , para todo i = 1,2, ..... n, entonces X= k .
• Si cada uno de los datos de una variable es afectado aditivamente (negativamente)
por una constante (k) , la media de la nueva variable es equivalente a sumar
(restar) la constante a la media de la variable original. Enforma algebraica:
Si Y¡ = k ± X¡,para todo i = 1,2, ..... n , entonces Y= k ± X.
• Si cada uno de los datos de una variable es afectado multiplicativamente por
una constante (k) , la media de la nueva variable es equivalente a multiplicar la
constante por la media de la variable original. Enforma algebraica:
Si Y¡ = kX¡ , para todo i = 1, 2, ..... n , entonces Y = kX.
• Si cada uno de los datos de una variable es dividido por una constante (k) ,
entonces la media de la nueva variable es la media de la variable original,
dividida por la constante. Algebraicamente:
X -
Si Y. = -'- , para todo i = 1, 2, ..... n , entonces Y = X
, k k
• Si se genera una variable como la combinación lineal de dos variables, la media
de la nueva variable será la combinación lineal de las medias de las variables
originales. Algebraicamente:
Si Z¡ = aX¡ + bY¡ , para todo i = 1,2, ..... n, entonces Z = aX + bY.
• En general, de todas las medidas utilizadas para calcular la tendencia central
de una población, la media es la menos sujeta a variación debida a cambios en
la muestra.

28 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 2 - MEDIDAS DESCRIPTIVAS

La media es la medida de tendencia central más utilizada en estadística, pues emplea


los datos disponibles de una variable y tiene una fuerte aplicabilidad en el proceso
de inferir de una muestra a una población, debido a que las distribuciones de medias
que se obtienen de muestreos repetidos de una población se conocen y son de gran
utilidad en el proceso de inferencia.

2.1.1.4 Media geométrica


Esta es una medida de centralidad que se utiliza generalmente cuando los valores
dependen del tiempo; varían de manera no lineal o cuando existe un alto grado de
heterogeneidad en el conjunto de datos.

La media geométrica de un conjunto de datos XI' Xl' X] ,••.•.•.•..•., X II _I , XII


de una muestra se define como la raíz n-ésima de la multiplicación del conjunto
de datos y se calcula como se presenta en la ecuación 2.4.

(2.4)

Para facilitar el cálculo se aplica la función log a ambos lados de la


ecuación:

_1
- -log ( XI' Xl' •••• XII)
n
_1
- - ( log XI + log Xl + ... + log XII)
n
generando la ecuación 2.5.
11

Llog(X/)
/
l og X g= . .---=1'---_ _
. : (2.5)
n

Entonces para hallar la media geométrica se aplica la fonción exponencial en


base 10, a ambos lados de la igualdad, generando:

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 29


VIVIANA VARGAS FRANCO

Cuando los datos representan el total de la población la notación de la media


geométrica se presenta a continuación.

La media geométrica de un conjunto de datos Xl' X]' X 3 , •••••••••••• , XN _1' X N de


una población, se define como la raíz N-ésima de la multiplicación del conjunto
de datos y se calcula como se presenta en la ecuación 2.6.

Il g = ~ XJ' X]' X 3 ' oo.· X N_J' X N (2.6)

El empleo de la media geométrica es equivalente a realizar una transformación de la


variable original X , en log(X) y el posterior cálculo de la media aritmética a la nueva
variable, para obtener ellogaritrno de la media geométrica. Por ejemplo, si la variable
abarca un campo de variación muy grande, tal como el porcentaje de impureza de
un producto químico (por lo general alrededor del 0.1%, pero en ocasiones llega
incluso al 1% o más); en este caso es conveniente el empleo de log X en lugar de
X para obtener una distribución más simétrica y una aproximación más cercana a
la curva nOffilal. En la Tabla 2.2 se presentan algunas ventajas y limitaciones de la
media geométrica.
Tabla 2.2 Ventajas y limitaciones de la media geométrica

Ventajas Limitaciones
• Es una medida resistente a datos extremos, pero • No es fácil de calcular y para un número considera·
mite detectar en un conjunto muy heterogéneo, ble de datos (n > 150), se presentan limitaciones
una medida de tendencia central confiable. en el programa Excel. En el programa SPSS
• Las unidades de la media geométrica son las no está considerada dentro de las rutinas más
mismas de la variable. comunes.
• Se pueden realizar cálculos algebraicos. • Puede presentar limitaciones en su interpreta·
• En su cálculo se incluye cada uno de los datos de ción.
la muestra. • Cuando existe uno o varios valores de la variable
• Es un valor único para un conjunto de datos. iguales a cero, el valor de la media geométrica
• Es muy útil cuando el conjunto de datos represen· toma automáticamente el valor de cero.
ta aumentos o disminuciones porcentuales. • Sólo se puede calcular cuando la raíz n·ésima
• Se utiliza para promediar valores cuyo crecimiento exista.
sea en progresión geométrica. • Programas como Excel no validan el signo del
producto y siempre que hay valores negativos no
la calcula.
• Sólo tiene sentido en variables de carácter cuan·
titativo.
• El desarrollo algebraico de esta medida puede
tener un grado de complejidad mayor que el
desarrollo de la media aritmética.

30 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO 2- MEDIDAS DESCRIPTIVAS

Ejemplo 2.2 Considerando la situación del ejemplo 2.1 se calcula la media


geométrica:

Datos del primer muestreo:


5; 4; 5; 4; 8; 10; 9 (UNT) x =~x.x"x
g I 2 7 = 6 (UNT'/
Considerando una muestra adicional:
12 (UNT) -+ Xg = ~ XI· Xl·· Xa = 6,6 (UNT)
Considerando otra muestra adicional:
150 (UNT) -+ ~ = ~ Xl· Xl·· X 9 = 9,3 (UNT)
Considerando otra muestra adicional:
_ ~ol
320 (UNT) -+ Xg = 'IJ Xl· Xl·· XJO = 13,2 (UNT)
La media geométrica para los datos del primer muestreo es 6 UNTya medida que
se incorporan datos extremos la media geométrica se incrementa levemente en
comparación con la alteración que presentan las medias aritméticas calculadas
en el ejemplo 2.1 .
El valor de la media geométrica es considerablemente menos afectado por valores
extremos en comparación con los valores de la media aritmética, generando una
medida más cercana a la centralidad del conjunto de datos cuando el conjunto
de datos es heterogéneo.

2.1.1.5 Media armónica


Equivale a la transformación del conjunto de datos originales en el recíproco de cada
dato, l/X, y luego se calcula la media de los datos transformados, es el recíproco de
X. Su campo de aplicación es bastante restringido. Es útil al promediar velocidades,
volúmenes de ventas y cuando la variable crece en progresión armónica.

La media armónica de un conjunto de datos XI' X 2 , Xl' ............, XII _I' XII
provenientes de una muestra se define como la media de los recíprocos del
conjunto de datos, tal como se presenta en la ecuación 2.7.

1 n
1
I-
11
(2.7)
X
¡=I ¡

n
Siempre que X¡ :; O

ESTADíSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 31


VIVIANA VARGAS FRANCO

Para un conjunto de datos provenientes de una población se calcula como se presenta


a continuación.

La media armónica de un conjunto de datos XI' X]' X 3 , •••••••••••• , X N _I' X N


provenientes de una población se define como la media de los recíprocos del
conjunto de datos, tal como se presenta en la ecuación 2.8.
1 N
#"=7f~) N 1
L...x.
;=1 t
Ix.
;-1 ,
(2.8)

N
Siempre que X¡ '* O
La relación entre las medias aritmética, geométrica y armónica se presenta en la
desigualdad 2.9.

X" :5 X g :5 X (2.9)

La media armónica es la más resistente a valores extremos, seguida por la media


geométrica y luego la media aritmética. Las fortalezas de la media aritmética son sus
propiedades, las cuales permiten desarrollos algebraicos y propiedades importantes
para la inferencia estadística y la distribución normal que presenta la familia de
medias de un estudio.

Ejemplo 2.3 Considerando la situación del ejemplo 2.1 se calcula la media


armónica:
Datos del primer muestreo:
7
x= 5,7 (UNT)
1
5; 4; 5; 4; 8; 10; 9 (UNT) -+ " 7
I-
/_/ X¡

Con una muestra adicional:


8
X=
1 6,1 (UNT)
12 (UNT) -+ " 8
I-
¡~/ X¡

Con otra muestra adicional:


9
X= 6,8 (UNT)
-+ h 9 1
150 (UNT)
I-
¡_/ Xi

Con otra muestra adicional:

32 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 2- MEDIDAS DESCRIPTIVAS

7,5 (UNT)
320 (UNT)

El valor de la media armónica para turbiedad en el primer muestreo es 5, 7 UNT,


ya medida que se adicionan valores extremos a la muestra el valor de la media
armónica no se incrementa significativamente.
Como se puede observar, a través de los ejemplos 2.1, 2.2 Y 2.3, se cumple la
relación de desigualdadpresentada en la ecuación 2.9 entre las medias armónica,
geométrica y aritmética. La media armónica genera los menores valores de
centralidad del conjunto de datos y es la que menor impacto presenta por
valores extremos. Sin embargo, esta medida presenta limitaciones en su manejo
algebraico y no existe cuando algún dato toma el valor de cero. Así mismo no
posee ventajas en su distribución.

2.1.1.6 Media cuadrática

Es otra medida de tendencia central, que consiste en elevar al cuadrado los valores y
generar la raíz cuadrada de la media aritmética de estos nuevos valores, es poco afectada
por valores extremos, pero presenta pocas ventajas algebraicas y de distribución.
La media cuadrática de un conjunto de datos Xl' X 2 , X 3 , ............ , Xn_l' X n
provenientes de una muestra se define como se presenta en la ecuación 2.10.

-2
X=
¡r;Zx/n
(2.10)

Xl es la notación para la media cuadrática muestral


Cuando los datos representan la totalidad de una población la definición de la media
cuadrática se presenta a continuación.

La media cuadrática de un conjunto de datos XI' X 2 , X 3 , ............ , X N _I' X N


provenientes de una población se define como se presenta en la ecuación 2.11.

p.
2
=
~~X/ (2.11)
N
p.2 es la notación para la media cuadrática poblacional

ESTADfsTICA D ESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 33


VIVIANA VARGAS FRANCO

Ejemplo 2.4 Considerando la situación del ejemplo 2.1 se calcula la media


cuadrática:
Datos del primer muestreo:

~
5; 4; 5; 4; 8; 10; 9 (UNT) -+
¿X/
X 2
= ;=17 = 6,8 (UNT)
Con un dato adicional:

12 (UNT) -+
X2 = [f;
¿X/
;=18 = 7,7 (UNT)

Con otro dato adicional:

~
150 (UNT) -+
¿X/
X = 2
;=19 = 50,5 (UNT)
Con otro dato adicional:

~
o

320 (UNT) -+
¿X/
X2 =
= 112 (UNT)
;=1
10
El valor de la media cuadrática para turbiedad en el primer muestreo es 6,8
UNT, pero a medida que se adicionan valores extremos el valor de la media
cuadrática aumenta significativamente.
La media cuadrática presenta más variabilidad que la media aritmética. Esta
medida es fuertemente afectada por valores extremos.

2.1.1.7 Rango medía o semírrango


Otro valor representativo de importancia, sobre todo cuando se necesita rápidamente
una medida de centralidad es el rango medio o semirrango.

El rango medio se define como la media aritmética del valor máximo y el valor
mínimo de un conjunto de datos y se calcula como se presenta en la ecuación
2.12.
X mín +Xmáx
RM = ~~--.:.=- (2.12)
2
Donde X mín es el valor mínimo y X máx es el valor máximo del conjunto de
datos.

34 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 2- MEDIDAS DESCRIPTIVAS

Aunque el rango medio se calcula fácil y rápidamente, a menudo es ineficiente porque


ignora la información contenida en los términos intermedios. Así mismo puede que
no sea representativo, en el caso de que alguno de los valores máximo o mínimo,
sean valores especiales o atípicos dentro del conjunto de datos.

Ejemplo 2.5 Considerando la situación del ejemplo 2.1 se calcula el rango


medio:
Datos del primer muestreo:
X min +Xm6x
5; 4; 5; 4; 8; 10; 9 (UNT) ~ RM= = 7 (UNT)
2
Con un dato adicional:
X min + X m6x
12 (UNT) ~ RM= =8 (UNT)
2
Con otro dato adicional:
X mín +Xm6x
150 (UNT) ~ RM= = 77 (UNT)
2
Con otro dato adicional:
X min +Xm6x
320 (UNT) ~ RM= =162 (UNT)
2

El rango medio para turbiedad en el primer muestreo es 7 UNT; sin embargo,


cuando se adicionan datos extremos esta media aumenta significativamente.
El valor del rango medio presenta una variación similar al valor de la media
aritmética, por su definición es afectada por los valores extremos.

2.1.1.8 Media ponderada


Cuando se conoce la media de varios grupos de datos y el número de datos en cada
grupo, se puede calcular la media global que se conoce como la media ponderada,
mediante la ecuación 2.13.

(2.13)

En el siguiente ejemplo se ilustra su uso.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 35


VIVIANA VARGAS FRANCO

Ejemplo 2.6 Se ha realizado un monitoreo de 4 meses sobre la calidad de agua


en sólidos suspendidos (mg/l), en el afluente de una planta de tratamiento de
agua potable. Las medias mensuales se presentan a continuación:

S61idos suspendidos (mall) Mes 1 Mes 2 Mes 3 Mes 4


X 9,8 11,4 7,5 10,5
n 13 18 20 15
Para el cálculo de la media se utiliza la media ponderada, descrita en la
ecuación 2.13

(13· 9,8) + (18· 11,4) + (20· 7,5) + (15·10,5)


Xp
13 + 18 + 20 + 15

X p = 9,7 mg/l

Es decir, la media de sólidos suspendidos en el afluente de la planta durante los


4 meses fue de 9, 7 mg/l

2.1.2 A4ediana
Es la segunda medida más utilizada después de la media aritmética para estimar
el centro de un conjunto de datos. Para hallar la mediana de un conjunto de datos
estos deben ser inicialmente puestos en orden de magnitud, de manera creciente o
decreciente. La mediana es el elemento central del conjunto de datos, es una medida
de posición; hay el mismo número de observaciones a la derecha y a la izquierda
del valor de la mediana.
La mediana divide la distribución de los datos en el punto medio; el 50% de los datos
está por encima de la mediana y el otro 50% está por debajo de la mediana, es decir,
es el valor que divide el conjunto de datos en dos grupos iguales.

Si Xl' X 2 , X j , •••••••••••• , X n -1' X n representan los valores ordenados de forma


ascendente o descendente de una variable seleccionada de una muestra, entonces
la mediana se calcula mediante la ecuación 2.14.

X n+l si n es impar
2

Me =ixn+xn (2.14)
- - +1
2 2
si n es par
2

36 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 2- MEDIDAS DESCRIPTIVAS

Cuando los datos representan la totalidad de una población la fórmula de la mediana


se presenta a continuación:

Si XI' X]' X 3 , •••••••••••• , X N- 1' X N representan los valores ordenados de forma


ascendente o descendente de una variable seleccionada de una población,
entonces la mediana se calcula mediante la ecuación 2.15.
X N+ I si N es impar
-
]

M=
e XN+XN (2.15)
- -+1
] 2
si N espar
2

Si el número de datos es impar, la mediana es el dato del centro del conjunto de


datos. Una vez los datos se ordenen en forma ascendente o descendente. Los datos
que se repiten deben ser ordenados, también, en su secuencia lógica. Si el número
de datos es par, la mediana es la media de los dos datos del centro. En la Tabla 2.3
se presentan algunas ventajas y limitaciones de la mediana.

Tabla 2.3 Ventajas y limitaciones de la mediana.

Ventajas Limitaciones

• Su valor no se ve afectado por datos extre· • Es afectada por el número de observaciones,


mos y por lo tanto es una medida de impor· pero no por su magnitud.
tancia cuando se presenta esta situación en
un conjunto de datos. • En general la mediana es menos estable que
la media de una muestra a otra, por lo tanto
• Es fácil de calcular y entender. no es tan útil en la estadística inferencial.
• las unidades de la mediana son las mismas • los datos deben ser ordenados antes de
de la variable. calcular la mediana.
• Se puede hallar en variables cualitativas y • Su definición no permite realizar procesos
cuantitativas. algebraicos.
• Es un valor único para un conjunto de da·
tos.
• Cuando los datos tienen una marcada asi·
metría, es mejor representar la tendencia
central con la mediana que con la media.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 37


VIVIANA VARGAS FRANCO

Ejemplo 2. 7 Considerando la situación del ejemplo 2.1 se calcula la mediana:

Datos del primer muestreo (n=7):

5; 4; 5; 4; 8; 10; 9 (UNT) -+ Me =X7 +/ =X4 = 5 (UNT)


2

Con un dato adicional (n=8):

12 (UNT) -+
M=
e
Xi +
'"
X~ + /= X 4 : X s = 6,5 (UNT)

Con otro dato adicional (n=9):

150 (UNT) -+ Me = X 9 +/ =Xs = 8 (UNT)


2
Con otro dato adicional (n=10):
X IO + X/o
- -+/
320 (UNT) -+ 2 2
X s + X6 = 8,5 (UNT)
Me
2

La mediana para la turbiedad en el primer muestreo es 5 UNT, es decir, el 50%


de los datos son menores a 5 UNTy el 50% son mayores a 5 UNT A medida que
se adicionan datos extremos esta medida varía levemente.
El valor de la mediana es el valor central de la distribución de datos, es una
medida bastante resistente a valores extremos, por lo tanto es una buena medida
de centralidad del conjunto de datos.

2.1.3 Moda
Como su nombre lo indica, representa el valor o valores que tienen la mayor
frecuencia en el conjunto de datos; son los valores que más se repiten, ya sean estos
muestrales o poblacionales. En un conjunto de datos puede no existir un valor modal
o existir una o más modas. Cuando hay una moda, el conjunto de datos se denomina
unimodal, en el caso de dos modas se denomina bimodal, en el caso de tres modas se
denomina tri modal y en el caso de más modas se denomina multimodal. La moda
se representa como M o para datos muestrales o poblacionales. En la Tabla 2.4 se
muestran algunas ventajas y limitaciones de la moda.

38 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPrTULO 2- MEDIDAS DESCRIPTIVAS

Tabla 2.4 Ventajas y limitaciones de la moda.

Ventajas Limitaciones

• Es fácil de calcular y entender. • La moda no necesariamente ocurrirá como


un valor central.
• Las unidades de la moda son las mismas de • La moda no siempre existe.
• No se pueden realizar procesos algebrai-
la variable. cos.
• No presenta mucha utilidad con pocos datos
• No requiere cálculo. en el conjunto de análisis.
• En general cuando el conjunto de datos no
• Puede utilizarse para datos cualitativos y resulta unimodal se debe a posibles fallas
datos cuantitativos. en el muestreo o falta de homogeneidad de
los mismos.
• A pesar de describirse como una medida
• No es afectada por datos extremos aisla- de centralidad, cuando los datos no son
dos. simétricos, no la representa.

Ejemplo 2.8 Considerando la situación del ejemplo 2.1, se estima la moda:


Primer muestreo:
5; 4; 5; 4; 8; 10; 9 (UNT) -+ Mol = 4 (UNT) Y Mol = 5 (UNT)
Con un dato adicional:
12 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT)
Con otro dato adicional:
150 (UNT) -+ MOl = 4 (UNT) y Mol = 5 (UNT)
Con otro dato adicional:
320 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT)

Los datos del primer muestreo presentan dos modas, es decir, es un conjunto de
datos bimodal; los valores que mayor frecuencia presentan en turbiedad son 4
UNT y 5 UNT A medida que se incorporan datos extremos al conjunto de datos
las modas se mantienen constantes, en este caso específico.

Si se obtienen diferentes muestras de una población en forma aleatoria, la media


varia en cada una de ellas, lo mismo sucede con la mediana y la moda. Sin embargo,
la media varía menos que la mediana y la moda, lo cual es muy importante en la
estadística inferencial y es una de las principales razones del uso de la media en

ESTADrSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 39


VIVIANA VARGAS FRANCO

esta rama de la estadística. Una media muestral con seguridad está más cerca de la
media poblacional que la mediana o la moda de la muestra.
La media, la mediana y la moda proporcionan una parte de la descripción del conjunto
de datos. Sin embargo, es necesario definir indicadores que permitan estimar el grado
de variación o dispersión de los datos con relación a las medidas de tendencia central
y del conjunto de datos en general. Estas medidas por sí solas no son suficientes
para analizar y tomar decisiones en relación con un fenómeno en estudio, como se
ilustra en el siguiente ejemplo.

Ejemplo 2.9 Se evalúa el efluente de dos reactores en paralelo para tratamiento


de agua potable, en la variable color real medida en Unidades de Platino Cobalto
(UPC), generando las siguientes medias:

Reactor 1: Xl =10 UPC


Reactor 2: Xl =10UPC
En el análisis y comparación de estos dos reactores se estaría muy tentado a
concluir la igualdad en el efluente para color real. Sin embargo, los datos con
los cuales se calcularon las medias se presentan a continuación:
Reactor 1: 10; 12; 10; 12; 8; 10; 8 UPC
Reactor 2: 58; 2; 2; 2; 2; 2; 2 UPC

Como se puede apreciar, los datos arrojados por los dos reactores en color real
difieren significativamente, factor que no se puede evidenciar sólo a través del
valor de la media. Por lo tanto, a pesar de ser la media una de las medidas más
utilizadas para resumir y analizar un conjunto de datos, es necesario acompañar
esta medida con otras medidas de centralidad y dispersión, las cuales permitan
estimar el grado de variación del conjunto de datos.

En la Tabla 2.5 se presentan otras medidas de centralidad que permiten analizar de


forma más integral la calidad de agua en color real de los dos reactores. Se puede
apreciar, a través de estas medidas, que el reactor 1 tiene más homogeneidad en el
conjunto de datos, en comparación con el reactor 2, debido a que en el primero las
medidas de tendencia central son muy similares, mientras que en el segundo difieren
significativamente.

40 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 2- MEDIDAS DESCRIPTIVAS

Tabla 2.5 Medidas de tendencia central de dos reactores para potabilización de


agua en color real.

Color Real (UPC)


Medidas de tendencia central
Reactor 1 Reactor 2
Media 10 10
Mediana 10 2
Media geométrica 9,9 3,2
Moda 10 2

Se puede generalizar que un conjunto de datos es homogéneo cuando la media, la


mediana y la media geométrica presentan valores similares, en caso contrario se
presenta heterogeneidad en el conjunto de datos_ Sin embargo, existen medidas
descriptivas que miden en forma adecuada el grado de dispersión o variabilidad del
conjunto de datos, denominadas medidas de dispersión.

2.2 Medidas de dispersión


Las medidas de dispersión o variabilidad permiten generar criterios sobre el grado
de homogeneidad o heterogeneidad del conjunto de datos que se está analizando, en
relación con una medida de centralidad, o con respecto a los datos en sí. Las medidas
estadísticas más utilizadas para medir el grado de variabilidad o dispersión son:
rango, desviación media, varianza, desviacióv estándar y coeficiente de variación.

2.2.1 Rango
Es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.
Mide la longitud en la cual se encuentran los datos, en general a mayor longitud
mayor dispersión de los datos; sin embargo, es necesario analizar la variable y las
unidades en las cuales se está midiendo, con el fin de hacer un análisis adecuado de
esta medida de dispersión.

El rango de una muestra aleatoria o de una población se define por la


ecuación 2.16.
(2.16)

En la Tabla 2.6 se presentan algunas ventajas y limitaciones de esta medida de


dispersión.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 41


VIVIANA VARGAS FRANCO

Tabla 2.6 Ventajas y limitaciones del rango.

Ventajas Limitaciones

• Es la medida de variación más fácil • No se pueden realizar cálculos algebraicos.


• Sólo incluye dos datos para su cálculo: el valor
de calcular y entender. máximo y el valor mínimo, ignorando los valores
intermedios.
• las unidades coinciden con las de • Es fuertemente afectada por los valores extremos.
• Se debe acompañar de otras medidas de dispersión
la variable de análisis. para su análisis.

Ejemplo 2.10 Considerando la situación del ejemplo 2.1 se calcula el rango:


Datos del primer muestreo:
5; 4; 5; 4; 8; 10; 9 (UNT) -+ R = X máx - X min = 6 (UNT)
Con un dato adicional: 12 (UNT) -+ R =Xmáx-Xmín = 8 (UNT)
Con otro dato adicional: 150 (UNT) -+ R =Xmáx-Xmln = 146 (UNT)
Con otro dato adicional: 320 (UNT) -+ R =Xmáx-Xmín = 316 (UNT)
Para el primer muestreo el rango es 6 UNT, es decir, la diferencia entre el valor
mínimo y el valor máximo es 6 UNT A medida que se incorporan datos extremos
el rango aumenta considerablemente, evidenciando el grado de dispersión de
los datos.
Como se puede apreciar, a medida que el conjunto de datos presenta
más variación o heterogeneidad, el rango incrementa su valor de forma
significativa. El rango es una buena medida del grado de dispersión de un
conjunto de datos.

2.2.2 Desviación media


Se define como la media aritmética de los valores absolutos de las desviaciones
de los datos, con respecto a la media; también se puede calcular en relación
con la mediana, en este último caso la desviación media representa un valor
menor. Una limitación de esta medida es su poca facilidad para el desarrollo
algebraico.
En la obtención de esta medida intervienen todos los valores del análisis; por lo
tanto, permite una información relativa de todos ellos, y da mejor conocimiento del
grado de variabilidad de la distribución de los datos que el rango.

42 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPfTULO 2- MEDIDAS DESCRIPTIVAS

Si Xl' Xl' X 3 , ............ , X,, _I' X" representan los valores de una variable en
una muestra, entonces la desviación media se calcula por medio de la ecuación
2.17.
"
¿Ix;-xl (2.17)
dm =.:..;=.-:1'----_ _
n

Si los datos son el total de la población, la notación de la desviación media se presenta


a continuación:

Si XI' Xl' X 3 , •••••••••••• , X N _ I' X N representan los valores de una variable en una
población, entonces la desviación media se calcula por medio de la ecuación
2.18.
N

¿IX;-pl (2.18)
DM = .:. ;=.-:1'------
N

Ejemplo 2.11 Considerando la situación del ejemplo 2. 1 se calcula la desviación


media:
Datos del primer muestreo: 7

5; 4; 5; 4; 8; 10; 9 (UNT) -+
¿lx;-xl
;= I
dm= =2,2 (UNT)
7
Con un dato adicional: 8

12 (UNT)-+
¿lx;-xl
;=/
dm= =2,6 (UNT)
8
Con otro dato adicional: 9

150 (UNT) -+
¿1x;-xl
;= /
dm= =28,2 (UNT)
9
Con otro dato adicional: 10

320 (UNT)-+
¿Ix;-xl
;=1
dm= = 72,9 (UNT)
10
La desviación media para el primer conjunto de datos toma el valor de 2,2 UNT,
que indica el nivel de dispersión de los datos con relación al valor medio, que es
6,4 UNT Cuando se introducen datos extremos al muestreo, la desviación media
aumenta evidenciando el grado de dispersión del conjunto de datos.

ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS 43


VIVIANA VARGAS FRANCO

A medida que el conjunto de datos presenta mayor variabilidad la desviación


media aumenta su valor y permite medir el grado de variabilidad del conjunto
de datos.

2.2.3 Varianza
Debido a las limitaciones algebraicas que evidencian el rango y la desviación media,
se origina el concepto de varianza, que mide las variaciones del conjunto de datos con
respecto a su media aritmética y se define como la media aritmética de los cuadrados
de las desviaciones de cada dato a la media aritmética. En general, cuanto menor sea
el valor de la varianza, menor es el grado de variación o heterogeneidad del conjunto
de datos con respecto a su media aritmética. Sin embargo, es necesario contextualizar
el análisis de esta medida a la variable y las unidades en que está medida.

Si Xl' X 2 , X 3 , •••••••••••• , X,,_I' X" representan los valores de una variable


seleccionada de una muestra, entonces se define la varianza muestral como la
ecuación 2.19.
n

S2
~ (x¡-X/ = (X¡-X/+(X -X/+(X -X/+ •••• + (Xn-X/
2 3

n-l n-l
(2.19)

El cociente (n -1) se utiliza en reemplazo de n, debido a que con esta definición se


obtiene una mejor estimación de la variable poblacional, es decir, el valor esperado
de S es igual a ,;2, en términos matemáticos:
E (S) =,;2
Además, S cumple con la propiedad de ser un estimador insesgado, una característica
deseable para un estimador.
En el caso de que los datos sean el total de la población, la notación se presenta a
continuación:

Si Xl' X 2 , X 3 , •••••••••••• , XN_1' X N representan los valores de una variable


seleccionada de una población, entonces se define la varianza poblacional como
la ecuación 2.20.
N

1 ~ (x¡- f.l/ (X¡- f.l/+ (X2 - f.l/+ (X3 - f.l/+ .... + (XN- f.l/
(J = =
N N
0": es la letra griega "sigma" (2.20)

44 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 2- MEDIDAS DESCRIPTIVAS

En la Tabla 2.7 se muestran algunas ventajas y limitaciones de la varianza.


Tabla 2.7 Ventajas y limitaciones de la varianza.

Ventajas limitaciones
• Es de las medidas de variación, la más utili· • Las unidades de esta medida son las uni·
dades de la variable al cuadrado.
zada.
• No es fácil su interpretación debido a sus
• Se pueden realizar cálculos algebraicos. unidades.
• Se debe acompañar de otras medidas de
• Se incluyen todos los datos en su cálculo. dispersión para su análisis.

Ejemplo 2.12 Considerando la situación del ejemplo 2.1 se puede calcular el


valor de la varianza:
Datos del primer muestreo:
7

¿(Xi-Xl
5; 4; 5; 4; 8; 10; 9 (UNT) ~
S= ;gl = 6,3 (UNTl
7-1
Con un dato adicional:
8

12 (UNT) ~
¿ (X/-Xl
S= ;~1 = 9,3 (UNTl
8-1
Con otro dato adicional:
9
¿(X¡-Xl
150 (UNT) ~ s= 1_ _ __
c...;--0
2276,3 (UNTl
9-1
Con otro dato adicional:
10

320 (UNT) ~
¿ (X;-Xl
S = ;-1 = 10844,3 (UNTl
10-1
Como se puede apreciar la varianza genera una idea significativa del grado
de variabilidad de un conjunto de datos, pues a medida que aumenta el grado
de heterogeneidad esta medida aumenta sustancialmente, aunque sus unidades
elevadas al cuadrado limitan fuertemente su interpretación.

2.2.3.1 Propiedades de la varianza


• El valor de la varianza es siempre positivo o igual a cero, esto es: S ~ O,para
cualquier conjunto de datos.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 45


VIVIANA VARGAS FRANCO

• Si todos los valores de un conjunto de datos son constantes, el valor de la varianza es


igual a cero. Algebraicamente:
Si Xi = k , para todo i = 1, 2, ..... n, entonces S2 = O.
• La varianza no se altera cuando a cada uno de los datos se le suma o se le resta
una constante. En términos algebraicos:
Si 1'; = Xi ± k, para todo i = 1, 2, ..... n, entonces S: S: .
=

• Si cada uno de los datos en análisis se multiplica por una constante, la varianza
resultará multiplicada por la constante al cuadrado. Algebraicamente:
Si 1'; = kXi , para todo i = 1, 2, ..... n, entonces S:= S:.
k
2

• Si se divide por un mismo número a cada uno de los datos en análisis, la varianza
quedará multiplicada por el cuadrado de dicho divisor. En este caso la constante
debe ser diferente de cero. Algebraicamente:
Si Y i = : Xi ' para todo i = 1,2, ..... n, entonces S: = /2 S: ; k,* O

Una ecuación alternativa para el cálculo aproximado de la varianza se presenta


a continuación:
n

IX;
S2=~-X2
n
2.2.4 Desviación estándar
La forma de superar una de las limitaciones de la varianza, sus unidades al cuadrado,
es a través del uso de la raíz cuadrada, dando origen al concepto de desviación
estándar.
La desviación estándar muestral se define como la raíz cuadrada positiva de la
varianza muestral, tal como se presenta en la ecuación 2.21.

I"
/-1
(Xi-Xl
(2.21)
S=-Vs2=
n-1
La desviación estándar poblacional se define como la raíz cuadrada positiva de
la varianza poblacional, tal como se presenta en la ecuación 2.22.
N

I (Xi-P.)]
u={Gi= i-l (2.22)
N

, 46 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 2- MEDIDAS DESCRIPTIVAS

En la Tabla 2.8 se presentan algunas ventajas y limitaciones de la desviación


estándar.
Tabla 2.8 Ventajas y limitaciones de la desviación estándar.

Ventajas Limitaciones
• Es, junto con la varianza, una de las medidas • Se debe acompañar de otras medidas de
de variación más utilizadas.
dispersión para su análisis.
• Tiene las mismas unidades de la variable
analizada.
• Para su cálculo primero debe calcularse la
• Se pueden realizar cálculos algebraicos.
• Se incluyen todos los datos en su cálculo. varianza.

Ejemplo 2.13 Considerando la situación del ejemplo 2.1 se calcula el valor de


la desviación estándar:

Datos del primer muestreo:

5; 4; 5; 4; 8; 10; 9 (UNT) ~ S = ...JS2 = _i-_'____ = 2,5 (UNT)


7-1

Con un dato adicional:

12 (UNT) ~ S = ...JS2 = _ia_,_ _ _ =3 (UNT)


8-1

Con otro dato adicional:

150 (UNT) ~ S = ...JS2 = ;- 1

9-1
=47,7 (UNT)

Con otro dato adicional:

320 (UNT) ~ S = ...JS2 = i=' =104,1 (UNT)


10-1

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 47


VIVIANA VARGAS FRANCO

Para los datos del primer muestreo la desviación estándar es 2,5 UNT, que
indica poca variación entre los datos, es decir, los datos se alejan de la media
(6,4 UNT) en una desviación estándar en 2,5 UNT hacia adelante yen 2,5 UNT
hacia atrás de la media. A medida que el conjunto de datos se vuelve heterogéneo,
la desviación estándar toma valores bastante grandes. Por ejemplo, con todo
el conjunto de datos analizados, el valor de la desviación estándar es 104,1
UNT, lo que significa que los datos se alejan en promedio 104,1 UNT del valor
medio (6,4 UNT).
Ésta es una buena medida del grado de dispersión del conjunto de datos; a
medida que aumenta el grado de variación de los datos esta medida aumenta,
en las mismas unidades de la variable de origen.

2.2.5 Coeficiente de variación


El coeficiente de variación permite estimar la relación porcentual entre el valor de
la media y la desviación estándar. A medida que se presenta mayor heterogeneidad
en el conjunto de datos, el valor del coeficiente de variación es mayor. Esta medida
puede tomar valores negativos sólo cuando la media tiene un valor negativo, por
ejemplo, en el caso de la variable temperatura o nivel de pérdidas. En este caso se
sugiere tomar el valor absoluto para una mejor interpretación del coeficiente de
variación.

El coeficiente de variación muestral consiste en expresar la desviación estándar


muestral como un porcentaje de la media muestral, tal como se presenta en la
ecuación 2.23
s
CV= X x 100% (2.23)
Siempre que X"# O
El coeficiente de variación poblacional consiste en expresar la desviación
estándar poblacional como un porcentaje de la media poblacional, tal como se
presenta en la ecuación 2.24.

(1 (2.24)
CV=¡¡-x 100%
Siempre que JI. "# O
Esta medida es adimensional, sus unidades están dadas en porcentaje, por lo tanto
es un buen indicador de comparación entre dos o más diferentes variables o dos o
más diferentes poblaciones.

48 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 2 - MEDIDAS DESCRIPTIVAS

Como una guía para su interpretación se puede tomar el siguiente esquema:

0% 30% 70% 100%

Datos poco variables Datos variables Datos muy variables ---.


u homogéneos o heterogéneos o muy heterogéneos

De otra forma:
Si S~ O.3X entonces el conjunto de datos es poco variable u homogéneo
con relación a la media.
Si O.3X < S ~ O. 7X entonces el conjunto de datos es variable o heterogéneo con
relación a la media.
Si S>0.7X entonces el conjunto de datos es muy variable o muy
heterogéneo con relación a la media.

Ejemplo 2.14 Considerando la situación del ejemplo 2.1, se calcula el coeficiente


de variación:
Datos del primer muestreo:

5; 4; 5; 4; 8; 10; 9 (UNT) -+ CV = 2,5 x100% = 39,1 % (UNT) o S = 0,39 X


6,4
Con un dato adicional:
12 (UNT) -+ CV=.-L x100% = 42,3% (UNT) o S = 0,42 X
7,1
Con otro dato adicional:
150 (UNT) -+ CV = 47, 7xl 00% = 207,4% (UNT) o S = 2,07 X
23
Con otro dato adicional:
320 (UNT) -+ CV= 104,1 x100% = 197,6% (UNT) o S = 1,97 X
52,7
Para el primer conjunto de datos el CV = 39%, indica que los datos presentan
variación con relación a la media. A medida que se consideran datos extremos en
el muestreo, el CV toma valores de 207% y 197%, que indica una gran variación
de los mismos con relación a la media.
El coeficiente de variación aumenta considerablemente a medida que la distancia
entre la media y la desviación estándar crecen.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 49


VIVIANA VARGAS FRANCO

Ejemplo 2.15 Considerando los datos presentados en el ejemplo 2.8: Se evalúan


dos reactores en paralelo para tratamiento de agua potable, en la variable color
real en Unidades de Platino Cobalto (UPC), generando las siguientes series
de datos:
Reactor 1: 10; 12; 10; 12; 8; JO; 8 UPC
Reactor 2: 58; 2; 2; 2; 2; 2; 2 UPC
En la Tabla 2.9 se presentan las principales medidas de tendencia central y
dispersión para este conjunto de datos.

Tabla 2.9 Medidas descriptivas para la comparación de dos reactores para


potabilización de agua, en color real.

Medidas Símbolo
Reactor 1 Reactor 2 I
descriptivas matemático
Media X 10 UPC 10 UPC
.
Mediana Me 10 UPC 2 UPC
Media geométrica Xg 9,9 UPC 3,2 UPC
Moda Mo 10 UPC 2 UPC
Rango R 4 UPC 56 UPC
Varianza SZ 2,7 UPC 2 448 UPC 2
Desviación estándar S 1,6 UPC 21,2 UPC
Coeficiente de variación e.v. 16,3 % 211,7 %

A pesar de tener los mismos promedios en color real, los dos reactores presentan
eficiencias bastante diferentes, tal como se puede evidenciar en las medidas de
dispersión. El rango para el primer reactor es 4 UPC Y para el segundo es 56 UPC,
10 cual evidencia que en los datos del segundo reactor la distancia entre el valor
mínimo y el valor máximo es mucho mayor que la del reactor 1.
La desviación estándar, esto es, el promedio de la distancia de los datos con respecto
a la media, es 1,6 UPC para el primer reactor y 21,2 UPC para el segundo reactor. Es
decir, los datos se alejan de la media en 1,6 UPC para el primer reactor y se alejan
21,2 UPC para el segundo reactor, lo cual permite concluir que existe una mayor
variación en el reactor 2.
El coeficiente de variación es también un buen indicador del grado de variación de
los datos en relación con la media; para el reactor 1 es 16,3% y para el reactor 2 es
211,7%. Un CV=16,3% significa que el conjunto de datos es homogéneo para el caso

50 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 2- MEDIDAS DESCRIPTIVAS

del reactor 1; sin embargo, un CV= 211,7% significa gran variación o heterogeneidad
en el conjunto de datos, para el caso del reactor 2.
También, las medidas de centralidad, como la mediana, la media geométrica y la
moda, indican el grado de variación de un conjunto de datos, pues en el reactor 1
estas medidas toman valores similares, contrario a lo que sucede en el reactor 2.
En general las medidas descriptivas permiten resumir adecuadamente un conjunto de
datos en medidas de centralidad y medidas de dispersión que permiten caracterizar
el fenómeno en estudio. Adicionalmente es necesario estudiar la distribución del
conjunto de datos, tal como se desarrolla en el próximo capítulo.

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 51


CAPITULO 2- MEDIDAS DESCRIPTIVAS

del reactor 1; sin embargo, un CV= 211,7% significa gran variación o heterogeneidad
en el conjunto de datos, para el caso del reactor 2.
También, las medidas de centralidad, como la mediana, la media geométrica y la
moda, indican el grado de variación de un conjunto de datos, pues en el reactor 1
estas medidas toman valores similares, contrario a lo que sucede en el reactor 2.
En general las medidas descriptivas permiten resumir adecuadamente un conjunto de
datos en medidas de centralidad y medidas de dispersión que permiten caracterizar
el fenómeno en estudio. Adicionalmente es necesario estudiar la distribución del
conjunto de datos, tal como se desarrolla en el próximo capítulo.

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 51


CAPíTULO

3
Distribución de frecuencias

Las medidas de tendencia central y dispersión resumen el conjunto de datos en


uno o varios indicadores estadísticos, perdiéndose la tendencia y las frecuencias
de agrupación de los datos. Esta limitación se soluciona con el estudio de la
distribución de frecuencias, que consiste en describir numérica y gráficamente la
forma y composición del agrupamiento del conjunto de datos. La distribución de
frecuencias puede realizarse para una, dos o más variables. En el caso de una variable
se denomina distribución univariada, en el análisis de dos variables se denomina
distribución bivariada y para más de dos se denomina distribución multivariada.
La manera de construir la distribución de frecuencias puede resultar tediosa, si se
realiza manualmente y si el número de datos es considerablemente grande; para
ello se recomienda el uso de software estadístico. Sin embargo, en este capítulo
se desarrollarán ejemplos que ilustran la forma de construir la distribución de
frecuencias de forma manual y en el capítulo lOse presenta el proceso con el
software SPSS.

3.1 Distribución de frecuencias univariadas


Corresponde a la agrupación de una sola variable a través de categorías o intervalos,
de tal forma que se presentan las frecuencias o repeticiones en cada una de ellas.
En el caso de una variable discreta, los datos se agrupan en categorías, mientras que
para una variable continua se agrupan en intervalos.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 53


VIVIANA VARGAS FRANCO

3.1.1 Distribución de frecuencias univariadas


para una variable discreta
Para generar la distribución de frecuencias en una variable discreta se deben seguir los
pasos que se describen a continuación, los cuales permiten organizar la distribución
de los datos en una tabla de cinco columnas:

Paso 1: Identificar los valores diferentes que toma la variable y escribirlos en la


primera columna de la tabla, en orden ascendente. Se denotará por k el número
de valores diferentes que se encuentran en el conjunto de datos y se denotarán por
Xl' X]' X 3 , .... , X k_ 1' X k. En esta columna no deben haber valores repetidos.

Paso 2: La segunda columna consiste en calcular la frecuencia absoluta, ni' que es


el número de veces que se repite el valor Xi en el conjunto de datos. La suma de
los ni es igual al número total de datos en análisis. Por ejemplo, el valor de n 3 es el
número de veces que se repite la observación X 3 en el conjunto de datos.

Paso 3: El cálculo de la frecuencia absoluta acumulada, Ni' consiste en diligenciar


la tercera columna y es equivalente a sumar los valores menores o iguales de las
frecuencias absolutas, ni' de cada valor Xi' como se presenta a continuación.

N¡ =n¡

N] = NI + n} = nI + n]
N3 = N 2 + n 3 = nI + n 2 + n 3
: :
:
N k_¡ =Nk _] + n k _¡ = n¡ + n] + n 3 + ..... + n k _] + n k _1
N k =Nk _¡ + n k = nI + n] + n 3 + ..... + n k _ 1 + n k = n

Por ejemplo, el valor N 4 es el número de datos que tienen valores menores o iguales
aX4 •
En este caso se debe cumplir la desigualdad de la ecuación 3.1.

nI =N¡ ~N2 ~N3""'" ~Nk_¡ ~Nk= n (3.1)

Paso 4: La cuarta columna consiste en calcular la frecuencia relativa, hi , la cual es


el valor relativo o porcentual, que representa el valor de cada Xi . Generalmente este
valor se multiplica por 100%, tal como se ilustra a continuación:

54 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 3- DISTRIBUCiÓN DE FRECUENCIAS

n,
h,=-lOO%
n

:
n
hk _ ]=~lOO%
n

Por ejemplo el valor de h3 es el porcentaje de veces que aparece la observación


X 3 en el conjunto de datos.
La suma de todos los valores h¡ debe ser 100%. En el caso que cada h¡ no sea haya
multiplicado por 100%, la suma debe ser 1.
Paso 5: La quinta columna consiste en calcular la frecuencia relativa acumulada,
H¡, que es equivalente a sumar los valores menores o iguales de las frecuencias
relativas de cada valor X¡ , como se presenta a continuación.
H] =h¡
H 2 = H¡ + h 2 = h¡ + h 2
H3 = Hz + h3 = h¡ + h 2 + h3
: :

: :
H k_¡ =Hk_2 + h k_¡ = h¡ + h 2 + h3+ ....• + h k_2 + h k_¡
Hk =Hk_¡+hk=h¡+hz+h; + •.... +hk _¡+hk=l ólOO%

Por ejemplo, el valor de H 4 es el porcentaje de datos que tienen valores menores o


iguales a X 4 •

En este caso se debe cumplir la desigualdad de la ecuación 3.2.

(3.2)

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 55


VIVIANA VARGAS FRANCO

Siguiendo los pasos del 1 al5 se construye la Tabla 3.1, que representa la distribución
de frecuencias para una variable cuantitativa discreta, presentando un buen resumen
del conjunto de datos de la muestra o población estudiada.
Tabla 3.1 Distribución de frecuencias para una variable discreta.

Frecuencia Frecuencia
Valores absoluta Frecuencia relativa
Frecuencia relativa
de la acumulada acumulada 1%1
absoluta
variable ;
n;
;
n; N;=¿n¡ h;=-100% H;=¿h;
X;
;= I n ;-1

Xl nI NI hl Hl
Xz nz Nz hz Hz
Xl n] N] h] H]
: : : : :
: : : : :
: : : :
X k_l nk_l N k_l h k_l H k_1
Xk nk Nk=n hk H k= 100%
k k
Totales ¿n;=n ¿h;=100%
;~1
-- ;=1
--

Cuando se tiene un número considerable de categorías en una variable discreta se


procede a generar intervalos para construir la tabla de distribución de frecuencias,
debido a que al utilizar la metodología descrita anteriormente se genera una
distribución poco significativa, pues es posible que cada dato presente una o
dos repeticiones, 10 que generaría una tabla casi igual al conjunto de datos
analizados.

3.1.1.1 Medidas de tendencia central y dispersión


para datos agrupados en una variable discreta
Cuando se tiene una tabla de frecuencias para una variable discreta, es posible estimar
a partir de la información de la distribución, algunas medidas descriptivas tales como:
media, varianza, desviación estándar y coeficiente de variación.
La media se puede calcular utilizando la distribución de frecuencias de la Tabla 3.1,
a través de la ecuación 3.3.

56 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 3- DISTRIBUCiÓN DE FRECUENCIAS

XII' = (3.3)

X'" : media calculada con datos agrupados

La varianza para datos agrupados se puede calcular a través de la fórmula de la


ecuación 3.4.

;-/
n-l

El valor de h; debe utilizarse sin porcentaje (%), tanto para el cálculo de la media
como de la varianza.
A partir de estas dos medidas se pueden estimar la desviación estándar y el coeficiente
de variación; su conceptualización, interpretación y unidades son similares a las
presentadas en el Capítulo 2.

3.1.1.2 Representación gráfica de la distribución para una variable discreta


Gráfica de frecuencias absolutas
Esta gráfica se construye ubicando los diversos valores de la variable en el eje X, en
el eje y] la frecuencia absoluta y en el eje Y2 la frecuencia relativa, o viceversa, tal
como se observa en la Figura 3.1. Esta gráfica muestra la tendencia de la distribución
de los datos.
Gráfica de frecuencias acumuladas
Esta gráfica coincide con la función discontinua escalonada. En el eje X se ubican
los valores que toma la variable X, en el eje Y¡ la frecuencia relativa acumulada y
en el eje Y2 la frecuencia absoluta acumulada, o viceversa. Tal como se presenta en
la Figura 3.2.
Según esta gráfica el valor de H" es el porcentaje de datos que tienen valores menores
o iguales a X".
(Ver Figura 3.1 y Figura 3.2 en la página siguiente)

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 57


VIVIANA VARGAS FRANCO

Y
j

hJ%)
J J Y
ni
2

h¡ nj

h3 n3
h2 n2
hk nk
hk _ 1 1 •
• t nk _ 1

XI X2 X ················X
3 k_1 Xk
Variable X

Figura 3.1 Gráfica de frecuencias absoluta y relativa para una variable discreta.

hK =100%
Y,
H K_ I
H K _]
! o---e
o---e
o---e r
Nk=n
Nk_1
Nk _]

H4 o---e N4

H3 o---e N3
H] o---e N]
H¡ o---e N¡

XI X] X3 X4 X k _] X k _ 1 Xk
Variable X

Figura 3.2 Gráfica de frecuencias acumuladas para una variable discreta.

58 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Ejemplo 3.1 Se tomaron muestras de coliformes totales, mediante el método


de filtración por membrana, para la estimación de la calidad del aire en los
predios de la Universidad Nacional de Colombia-Sede Palmira y se encontró
la siguiente serie de datos: 23; 10; 47; 47; 232; 156,' 99; 47; 156; 23; 47 Y
99 UFC/m 3 .

Considerando que la variable coliformes totales es una variable cuantitativa


discreta, se utilizan los pasos descritos anteriormente para construir la tabla y
gráficas de distribución de frecuencias. La Tabla 3.2 presenta la distribución
de frecuencias, donde se puede analizar que el 75% de los datos toman valores
menores o iguales a 99 UFC/m 3, el valor de 232 UFC/m 3 tiene una frecuencia
de un dato en la muestra y corresponde a un porcentaje del 8,3%, y el valor de
47 UFC/m 3 tiene una frecuencia de cuatro muestras equivalentes a un porcentaje
del 33,3%.

Tabla 3.2 Distribución de frecuencias para coliformes totales en el análisis


de la calidad de aire en la Universidad Nacional de Colombia-Sede
Palmira.

Número de Datos %de datos de %de datos acumu-


Coliformes datos de acumulados de colifor· coliformes lados de coliformes
totales coliformes mes totales totales totales
; I
XI totales ni
N I = ¿ni hl =-100% HI=¿h¡ (%)
ni 1- 1 n 1- 1

10 1 1 8,3 8,3
23 2 3 16,7 25,0
47 4 7 33,3 58,3
99 2 9 16,7 75,0
156 2 11 16,7 91,7
232 1 12 8,3 100%
Totales n=12 -- 100% --

La Figura 3.3 muestra la gráfica de frecuencias absoluta y relativa, no acumuladas,


donde se puede analizar que la mayor frecuencia la presenta el valor de 47
UFC/m 3, con una frecuencia absoluta de cuatro datos y una frecuencia relativa
de 33,3%, y con menores frecuencias los valores de 10 UFC/m3 y 232 UFC/m 3
con frecuencias absolutas de un dato y frecuencias relativas de 8,3 %.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 59


VIVIANA VARGAS FRANCO

h¡(%) ni

33,3 4

16,7 2
~

8,3 1

10 23 47 99 156 232
J
Coliformes IOlales (UFC/m )

Figura 3.3. Frecuencias absoluta y relativa para el estudio de calidad de aire


en coliformes totales en la Universidad Nacional de Colombia-Sede
Palmira.
La Figura 3.4 presenta la gráfica de frecuencias acumuladas, donde se analiza que
el 58,3% de los datos son menores o iguales a 47 UFC/m 3 y el 91,7% de los datos
son menores o iguales a 150 UFC/m 3 •

HJ%) Ni

100 o o 12
91,7 o o 11
75,0 o o 9
58,3 0----0 7

25,0 0-----0 3
8,3~ 1

10 23 47 99 150 232
Coliformes IOlales (UFC/m J)

Figura 3.4. Frecuencias absoluta y relativa acumuladas para el estudio de calidad


de aire en coliformes totales en la Universidad Nacional de Colombia-
Sede Palmira.

60 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 3- DISTRIBUCiÓN DE FRECUENCIAS

Utilizando las ecuaciones 3.3 y 3.4 para el cálculo de la media y la varianza


considerando datos agrupados, se presentan a continuación estas medidas para
coliformes totales en el análisis de calidad de aire:

¿ n ¡ X¡

¡s I = 82,2 (UFC 1m3 )


n
6

2
¿
¡a l
n¡ ( ) ( - 82,2/
S ag = ----11---- => S ag = 68,1 (UFC 1m3)

Con la fórmula alterna:


6
Sa~ = ¿ h¡ ()(- 82,2/ = 4649,8 (UFC I m 3/ => S ag = 65,2 (UFC 1m3)
¡= I

El coeficiente de variación se puede estimar a partir de los anteriores valores:


CV=82,8%
La media de coliformes totales es 82,2% (UFC/m 3) , con desviación estándar
de 68 ,1 (UFC/m 3) y coeficiente de variación de 82,8%, lo que indica gran
dispersión del conjunto de datos con relación a la media. Aunque generalmente
debido a la gran variación de la variable coliformes se sugiere el uso de la media
geométrica.

3.1.2 Distribución de frecuencias univariadas


para una variable continua
En el caso de una variable continua, los datos se agrupan en intervalos o clases
para definir la distribución de frecuencias. Los criterios de frecuencias: absolutas
y relativas, acumuladas y no acumuladas, son los mismos que para el caso de una
variable discreta, analizada anteriormente. La diferencia consiste en la definición
de intervalos y el concepto de marca de clase, así mismo la representación gráfica
tiene algunas particularidades. La definición de los intervalos la puede hacer el
investigador, de acuerdo con su conocimiento sobre la variable o el interés por
rangos específicos. También se pueden utilizar algunas reglas que permiten estimar

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 61


VIVIANA VARGAS FRANCO

el número de intervalos. A continuación se presentan los pasos para la definición


de los intervalos, la marca de clase y la forma de construcción de la tabla de
frecuencias.
Paso 1: Estimar el número de intervalos a considerar; esto se puede hacer de dos
maneras: que el investigador defina el número de intervalos que requiere, o utilizar
como guía la ecuación 3.5, donde k es el número aproximado de intervalos y n es
el número de datos de la variable analizada.

k = 1 + 3,3 Ig( n ) (3.5)

El valor de k generalmente toma valores decimales, por lo tanto es necesario


aproximarlo a un valor entero ; el número de intervalos es un valor entero, se
deben hacer 4 ó 5 intervalos y no 4,5. Otra opción para hallar el número de
intervalos es utilizando la fórmula: k = rn.
Se recomienda aproximar este valor
al mayor entero. En general la literatura recomienda usar entre cinco y veinte
intervalos
Paso 2: Una vez definido el número de intervalos, se requiere estimar la longitud de
cada intervalo. Se recomienda que la longitud sea igual en cada uno de los intervalos,
pues esto facilita la interpretación de la distribución de frecuencias. La longitud de
cada intervalo se calcula mediante la ecuación 3.6.

L=JL (3.6)
K

Donde R es el rango; R = X máx - X min Y k el número de intervalos a elaborar.


A continuación se presentan los pasos para la definición de los intervalos, la marca
de clase y la construcción de la tabla de frecuencias.
Paso 3: Definir los límites de cada intervalo, se inicia con el valor inicial X o, que
puede ser definido como el valor mínimo del conjunto de datos, o como el menor
valor entero al valor mínimo, con el fin de que los límites de los intervalos tengan
valores enteros y esto facilite la interpretación de la distribución de frecuencias.
Los intervalos deben definirse con la notación matemática de conjuntos, pues esto
evitará ambigüedades en la ubicación de cada dato en particular, tal como se presenta
a continuación:

62 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

primer intervalo [Xo, XI]


segundo intervalo (XI, Xzl
tercer intervalo (X2 , Xl]

(k -1) ésimo intervalo (Xk - 2, X k -¡)


k-ésimo intervalo
Cada límite se calcula sumándole la longitud del intervalo al límite anterior:

XI = X o + L; X 2 = Xl + L; :::::; X k- I = X k- 2 + L; X k = X k- I + L

Paso 4: Calcular la marca de clase, que se define como el punto medio de cada
intervalo, y se calcula mediante la ecuación 3.7.

X'I (3.7)

Paso 5: Construir la distribución de frecuencias como se presenta en la


Tabla 3.3:
• La primera columna consiste en enumerar los intervalos definidos con la
ecuación 3.5.
• La segunda columna es la definición de los intervalos construidos sobre la base
de los pasos 2 y 3, descritos anteriormente.
• La tercera columna es la marca de clase definida en el paso 4.
• La cuarta columna es la frecuencia absoluta, ni' que consiste en contar el número
de datos de la muestra o población que se encuentran en cada intervalo.
• La quinta columna es la frecuencia absoluta acumulada, N¡, definida como el
valor acumulado del número de datos en cada intervalo.
• La sexta columna es la frecuencia relativa, h¡, definida como la representación
porcentual de cada intervalo.
• La séptima columna es la frecuencia relativa acumulada, H i , que consiste en el
valor acumulado de las representaciones porcentuales, h¡, en cada intervalo.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 63


VIVIANA VARGAS FRANCO

Tabla 3.3. Distribución de frecuencias univariadas para una variable continua.

Frecuencia Frecuencia
Número Marca absoluta acu· relativa
Frecuencia Frecuencia
del Intervalo de mulada acumulada
absoluta relativa
intervalo (X;-J,XJ clase ¡ ¡

X' I.
n¡ N¡=¿n¡ h¡=n¡ln (%) H¡=¿h¡
k
¡= / ; =1

1 {Xo,Xti x', n, N, h, H,
:z (X"Xz] X'z nz Nz hz Hz
3 (Xz' X,] X'J nj Nj hj Hj
: : : : : : :
: : : : : : :
k-l (X. _l , X. _ti X'. _, nk _ 1 N. _, h. _, H. _,
k (X. _"X.] x'. n. N.=n h. H.=IOO%
-- Totales -- n -- 100% --

3.1.2.1 Medidas de centralidad y dispersión para datos agrupados


en una variable continua
Media, para datos agrupados de una variable continua se calcula utilizando la
ecuación 3.8.

k k

¿n;X/ ¿n;X/ k
;=1 ;-1
X ag = k
= =¿h;X/ (3.8)
; =1
¿ni n
;=1

El cálculo de la media a través de la tabla de frecuencias genera un error en relación con


la media de los datos originales, pues como se puede analizar de las fórmulas, se supone
que la marca de clase es un representante de cada intervalo. Este error se denomina
error de agrupación, que es equivalente al error relativo de un número aproximado y
se calcula con la fórmula de la ecuación 3.9. Para calcular el error de agrupación de la
media se debe calcular la media del conjunto de datos sin agrupar.

X ag I100%
IEagl = X-X (3.9)
I
Siempre que X:f:: O

64 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 3- DISTRIBU CiÓN DE FRECUENCIAS

Varianza, para datos agrupados de una variable continua se calcula utilizando la


fórmula de la ecuación 3.10.

k k

¿nJX/-X"gl ¿nJX¡:"'X"gl k
Sl= .....:/:.....-...:..'----- = /- 1 -::::.'Lh/(x/-x.l (3.10)
"11 (fn,)-l n-l ¡ /-/
/- /

El error de agrupamiento para la varianza se presenta en la ecuación 3.11. Para


calcularlo se debe hallar la varianza de los datos sin agrupar.

(3.11)

Siempre que S #: O

Desviación estándar, para datos agrupados de una variable continua se calcula


utilizando la fórmula de la ecuación 3.12.

(3.12)

El error de agrupamiento para la desviación estándar se presenta en la ecuación 3.13.


Para calcularlo se debe hallar la desviación estándar de los datos sin agrupar.

(3.13)

Siempre que S #: O

En general, se puede decir que los datos están bien agrupados si el error de agrupación
presenta valores menores al 30%, medianamente bien agrupados si éste se encuentra
entre 30% y 70% Yun deficiente agrupamiento para errores mayores a 70%, tal como
se ilustra a continuación:

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 65


VIVIANA VARGAS FRANCO

0% 30% 70% 100%

Datos bien Datos medianamente Agrupación


agrupados bien agrupados deficiente

Mediana, cuando los datos se agrupan en intervalos de clase, la mediana no puede


calcularse en forma exacta; sin embargo, si se supone que las observaciones en cada
intervalo están distribuidas uniformemente, puede obtenerse una aproximación de
la mediana.
El primer paso consiste en localizar el intervalo que contiene el valor de la mediana,
es decir, saber dónde se halla el 50% de los datos, o dónde se encuentra la mitad de
ellos. La mediana se calcula a través de la ecuación 3.14 utilizando las frecuencias
absolutas, o la ecuación 3.15 empleando las frecuencias relativas.

-2- N1-1
Me:: X I _ 1 + n ni 1(L) (3.14)
[

M :::: X +O'5 - H 1-1 1/L I (3.15)


,- I-J
[ h1 .' '/

Donde:
X;-J Límite inferior del intervalo que contiene el valor de la mediana
n Número de observaciones en el conjunto de datos
X; -1 Frecuencia absoluta acumulada hasta el intervalo anterior a la clase que
contiene la mediana
ni Frecuencia absoluta del intervalo donde se encuentra la mediana
H¡-l Frecuencia relativa acumulada hasta el intervalo anterior a la clase que
contiene la mediana (sin porcentaje)
h¡ Frecuencia relativa del intervalo donde se encuentra la mediana (sin
porcentaje)
L Longitud del intervalo donde se encuentra la mediana

66 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

.!J
CAPfTULO 3. DISTRIBUCiÓN DE FRECUENCIAS

Moda, similarmente como se calculó la mediana, la moda se puede estimar a partir


de la tabla de distribución de frecuencias. El primer paso consiste en identificar
el intervalo donde se encuentra la moda, es decir, el intervalo que tenga la mayor
frecuencia absoluta o relativa. Una vez determinado el intervalo modal, la moda se
puede estimar a partir de la ecuación 3.16.

(3.16)

Donde:
X; - 1 límite inferior del intervalo que contiene el valor de la moda
dI =Ini - ni-! I diferencia entre la frecuencia absoluta del intervalo modal y la
frecuencia absoluta del intervalo precedente.
d] = Ini - nj+ 1I diferencia entre la frecuencia absoluta del intervalo modal y la
frecuencia del intervalo siguiente.
L longitud del intervalo donde se encuentra la moda
Si la longitud de los intervalos es igual, se pueden considerar las frecuencias relativas
(sin porcentaje), tal como se presenta a continuación:

3.1.2.2 Representación gráfica de las frecuencias para una variable continua


En el caso de una variable continua las gráficas de la distribución de frecuencias
tienen nombre específico y juegan un papel protagónico para estimar la tendencia
de la distribución poblacional y tienen una fuerte incidencia en los procesos de:
inferencia, cálculo de probabilidades, estimación de intervalos de confianza y pruebas
de hipótesis, entre otros.
Histograma, es la representación gráfica de los intervalos en el eje X y las frecuencias
relativa y absoluta en los ejes YI y y], como se presenta en la Figura 3.5. Con el
histograma se puede analizar la tendencia de los datos y es la primera aproximación
a la forma de distribución poblacional del conjunto de datos.
Polígono de frecuencias, es la representación gráfica de la marca de clase de cada
intervalo en el eje X y las frecuencias relativa y absoluta en los ejes YI y y], como
se presenta en la Figura 3.6. Se puede dibujar sobrepuesta al histograma o en forma
separada. El polígono de frecuencias permite estudiar la forma de la distribución

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 67


VIVIANA VARGAS FRANCO

de frecuencias, y a partir de la forma se pueden inferir algunas características


importantes, tales como la simetría con relación al centro del conjunto de datos.

h,f") ",

hJ "J
h, "1
h, "1
hk nk

Xo X, Xl XJ •••••••• Xk _ 1 X k
Variable X

Figura 3.5. Histograma, gráfica de los intervalos de clase vs. las frecuencias
absoluta y relativa.

h,(%) n/

hJ
h1
t ~ ! n
3

n1

h'l
hk _ 1
"
~
1 ni
nk _ 1

hk t .. t nk

X/ x/ X'3 X/_ I x' k

Variable X

Figura 3.6. Polígono de frecuencias , gráfica de las marcas de clase vs. las
frecuencias relativas y absolutas.

68 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Ojiva es la representación gráfica de cada límite de clase en el eje X y la frecuencia


relativa y absoluta acumulada en los ejes Y¡ Y Yz, como se observa en la Figura 3.7.
La ojiva se puede presentar para valores mayores o iguales (a) o para valores menores
o iguales al límite superior de cada intervalo (b).

H¡(%)

Variable X

(a) Ojiva, para valores menores o iguales

H¡(%) Ni

H J=100% NJ=n
H1 N1
HJ NJ
H4 N4

------e
Xk _ J
Variable X
(b) Ojiva, para valores mayores o iguales

Figura 3.7 Ojiva, gráfica de los intervalos y las frecuencias relativa y absoluta
acumuladas.

ESTADIsTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 69


VIVIANA VARGAS FRANCO

A partir de la gráfica de la ojiva es posible obtener en forma aproximada el


valor de la mediana. Ésta es el valor que divide la distribución en dos partes
iguales, es decir, el 50% de los datos están por encima de la mediana y el 50%
de los datos están por debajo de la mediana. Ubicando el valor del 50% en el
eje Y, se estima en el eje X el valor de la mediana en forma aproximada, como
se presenta en la Figura 3.8.

HJ%) NI

100% Nk=n
HK_J Nk _ J

HJ NJ
50%
H2 N2

HJ

Xo
/ XJ X2 XJ Xk _ J Xk
NJ

Me = valor de la mediana

Variable X

Figura 3.8 Estimación de la mediana a partir de la ojiva.

Ejemplo 3.2 Los datos de la Tabla 3.4 corresponden a un muestreo de


ruido ambiental del nivel de presión sonora (LP) medida en decibeles
(dE) en diferentes estaciones de la ciudad de Cali durante el día (LPD) y
la noche (LPN).

Como el nivel de presión sonora es una variable cuantitativa continua, se procede


a realizar los pasos para construir la tabla de frecuencias, el histograma y la ojiva,
tanto para el nivel de ruido en el día y en la noche.

Análisis para el nivel de presión sonora de la ciudad de Cali durante el día (lPO)
El número de intervalos se estima utilizando la ecuación 3.5:

k = 1 + 3,3 19(50) = 6,6::::: 7

70 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Tabla 3.4 Muestras del nivel de presión sonora de ruido medida en decibles (dB)
en diferentes estaciones de la ciudad de Cali. (LPD, en el día; LPN,
en la noche).

N' dI estlci6n LPD(dB) LPN(dB) N° dllStlci6n LPD(dB) LPN(dB)


1 63,7 56,6 26 65,1 57,6
2 66,9 60,2 27 55,3 47,1
3 66,8 56,0 28 71,3 61,7
4 75,3 72,3 29 72,3 72,8
5 70,8 67,2 30 64,6 54,6
6 75,0 68,3 31 59,6 55,8
7 76,3 67,3 32 70,6 70,7
8 75,0 69,4 33 65,3 60,0
9 71,4 72,3 34 74,0 68,3
10 77,4 70,7 35 74,9 69,9
11 71,6 65,7 36 64,1 59,8
12 70,5 65,1 37 53,3 44,2
13 73,7 65,9 38 62,5 52,7
14 71,0 64,7 39 62,3 56,6
15 56,1 54,1 40 75,4 70,0
16 69,0 63,1 41 61,1 49,6
17 72,1 68,5 42 65,9 57,7
18 74,1 71,0 43 62,6 63,0
19 76,5 71,0 44 50,2 42,0
20 57,3 55,4 45 50,9 44,6
21 71,6 67,4 46 62,0 52,7
22 67,2 63,5 47 64,0 54,4
23 62,3 55,5 48 58,7 50,6
24 69,4 64,5 49 68,2 62,7
25 60,5 60,7 50 61,6 49,1

Es decir, se construirán siete intervalos en la tabla de frecuencias. La longitud de


cada intervalo se estima a partir de la ecuación 3.6:

L = X máx -Xmín = 27,2 = 39::::: 4dB


k 7'

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 71


VIVIANA VARGAS FRANCO

Esto es, la longitud de cada intervalo será de 4 dB. Considerando que el valor mínimo
es de 50,2 dB, se selecciona el menor entero al valor mínimo como el valor de X o,
es decir:
X o=50dB

A partir del valor mínimo se generan los límites superiores de los intervalos:

Xl = X o + L = 50 + 4 = 54 dB
X 2 = X¡ + L = 54 + 4 = 58 dB
X 3 = X 2 + L = 58 + 4 = 62 dB
X 4 = X3 + L = 62 + 4 = 66 dB
X s = X 4 + L = 66 + 4 = 70 dB
X ó = X s + L = 70 + 4 = 74 dB
X 7 =Xó +L= 74+4= 78dB

Las marcas de clase se construyen como el valor medio de los intervalos de clase:

Xo+X¡ 50+54
X; 2
=
2
=52dB

X¡+X2 54+58
X'=
2 =56dB
2 2

y así sucesivamente hasta llegar a la última marca de clase:

X; Xó +X7 = 74 + 78 = 76dB
2 2

A partir de los anteriores valores se genera la Tabla 3.5 de distribución de


frecuencias. La columna de frecuencias absolutas consiste en contar el número de
datos que se encuentra en cada intervalo dentro del conjunto de datos analizado,
por ejemplo n¡ = 3, es el número de datos de la muestra que se encuentran en
el intervalo [ 50,54 J dB, que en porcentaje, frecuencia relativa, corresponde a
h¡ = %0 100% = 6%, es decir, el 6% de los datos se hallan en este intervalo.
El valor de N s = 29 significa que 29 datos son menores o iguales a 70 dB Yen términos
porcentuales representan el 58% de los datos y el valor de H 4 = 46% significa que
el 46% de los datos son menores o iguales a 66 dB.

72 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Tabla 3.5. Distribución de frecuencias para el nivel de presión sonora en el día


en la ciudad de Cali.

Número de Porcentaje
Número de datos acumulado de
Número Intervalos de Marca acumulados Porcentaje de datos por
de datos por
del ruido por intervalo de datos por intervalo
clasa intervalo
intarvalo (X¡_oX¡) da ruido ruido intervalo de ruido de ruido
k (dB) x.', ni
; h¡=n¡ln(%) ;

N¡=¿n; H¡=¿h l (%)


1-1 ;=1

1 [50,54] 52 3 3 6 6
2 (54,58] 56 3 6 6 12
3 (58,62] 60 6 12 12 24
4 (62,66] 64 11 23 22 46
5 (66,70] 68 6 29 12 58
6 (70,74] 72 12 41 24 82
7 (74, 78] 76 9 50 18 100
-- Totales --- 50 --- 100% ---

La Figura 3.9 presenta el histograma para el nivel de presión sonora en el día en


la ciudad de Cali, donde se puede apreciar que las mayores frecuencias se dan en
los intervalos de ruido entre (62, 66JdB y (70, 74JdB, con frecuencias relativas del
22% y el 24%, respectivamente. Las menores frecuencias se dan en los intervalos
[50,54JdB y (54,58JdB con frecuencias relativas del 6%.
La Figura 3.10 presenta la ojiva, que consiste en graficar los límites superiores de
cada intervalo versus los valores de frecuencia relativa acumulada. Aquí se puede
analizar que el 46% de los datos tienen niveles de ruido menores o iguales a 66dB
y el 82% niveles de ruido menores o iguales a 74dB.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 73


VIVIANA VARGAS FRANCO

25

~
~
20
.~
ji 15
~
.~

r----1
10
"';:s"
'"
"~
lt., 5

O
50-54 54-58 58-62 62-66 66-70 70-74 74-78
Niveles de ruido LPD (dB)

Figura 3.9 Histograma de niveles de ruido en el día para la ciudad de Cali.

~ 100
~
i5 90
..s;:s 80
§ 70
g 60
.~ 50
Ji <\)
40
~ 30
.~ 20
<ll
~ la
~ O~I~~-:~~~--~--~~--~--
54 58 62 66 70 74 78
Niveles de ruido LPD (dB)

Figura 3.10 Ojiva para los niveles de ruido en el día para la ciudad de Cali.

A continuación se presentan algunas medidas de centralidad y dispersión para la


medición de ruido en el día.
Como el nivel de presion sonora se mide en dB (decibelios), paraca\cular las medidas
de centralidad y dispersión se debe tener en cuenta que para promediar el nivel de
presión sonora es necesario utilizar la ecuación 3.17:

-
LP=101og
[1n ~
~10
O,I.LP] (3.17)

74 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Donde:
LP Nivel de presión sonora equivalente.
n Número de mediciones.
LP Nivel de presión.
Es decir, el nivel de presión sonora (LP) no se puede promediar directamente ya que
esta medida se encuentra en escala logarítmica. Es necesario entonces utilizar como
parámetro la ecuación 3.17. Redefiniendo las ecuaciones 3.8 a la 3.16 con base en
la ecuación 3.17 y la información de la Tabla 3.5, se calculan la media, varianza,
desviación estándar, mediana y moda.

X ag = 10 /og (-~ L ni. 1(yO,J)(XiV = 70,9dB -IEagl% = 1


7
°':;,;°,9 1 = 0,3%

El valor medio de ruido en el día en la ciudad de Cali es 70,9 dB, el error de


agrupamiento es 0,3% para este estadístico, que significa que la tabla de distribución
de frecuencias resume muy bien el conjunto de datos.

• S;g = 162,ldB2 -IEagl% = 1159,9159,9


-162,11 %= 1,3%
• Sag =12,6dB -1 Eag 1%=112,71~,1/,61 %=0,7%
La desviación estándar del nivel de ruido durante el día en la ciudad de Cali es 12,6
dB. La distribución de frecuencias representa muy bien la variación del conjunto de
datos, con un error de agrupamiento del 0,7%.

La moda estimada a partir de la distribución de frecuencias representa adecuadamente


la moda del conjunto de datos, dado que el error de agrupamiento es sólo del
3,1% .

• Me""'67.3dB
- , -lEag 1%=167,05-67,31
67,05
%=04%
,

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 75


VIVIANA VARGAS FRANCO

El valor de la mediana estimado con la distribución de frecuencias es un buen


indicador de la mediana del conjunto de datos, pues el error de agrupamiento es tan
solo del 0,4%.

Análisis para el nivel de presión sonora en la noche (LPNJ


Siguiendo la misma metodología para el análisis de ruido en el día, se realiza la
distribución de frecuencias para el nivel de presión sonora en la noche. La distribución
de frecuencias se presenta en la Tabla 3.6.

Tabla 3.6 Distribución de frecuencias para el nivel de presión sonora en la noche


para la ciudad de Cali.

Intervalos Datos Porcentaje acumulado


Número Marca Datos por Porcentaje de
de acumulados por de datos por intervalo
del de intervalo datos por interva·
ruido intervalo de ruido de ruido
intervalo clase de ruido / lo de ruido /
(X¡_/J X¡}
k x.' n¡ N¡=¿n¡ h¡=n¡ln (%) H¡=¿h/(%)
I
(dB) /- 1 /- 1

1 [42,47} 44,5 3 3 6 6

2 (47, 52} 49,5 4 7 8 14

3 (52, 57} 54,5 11 18 22 36

4 (57,62) 59,5 7 25 14 50

5 (62,67) 64,5 9 34 18 68

6 (67,72) 69,5 13 47 26 94

7 (72, n) 74,5 3 50 6 100

-- Totales -- 50 -- 100% --

La Figura 3.11 presenta el histograma para el nivel de presión sonora en


la noche en la ciudad de Cali, donde se puede apreciar que las mayores
frecuencias suceden en los intervalos de ruido entre (52,57]dB y (67, 72]dB,
con frecuencias relativas del 22% y el 26%, respectivamente. Las menores
frecuencias se dan en los intervalos (42,47]dB y (72, 77]dB con porcentajes
del 6%, respectivamente.

76 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

30

25
~
~

.~ 20

~
15
.~
"s:::
<Il
;os 10
"~
~
5

O
42-4 7 4 7-52 52-5 7 57-62 62-67 67- 72 72- 77

Niveles de ruido LPD (dB)

Figura 3.11 Histograma del nivel de presión sonora, ruido, medido en la noche en
la ciudad de Cali.
En la Figura 3.12 se presenta la ojiva, que representa la gráfica de los límites
superiores de clase versus los valores de frecuencia relativa acumulada. Donde se
puede analizar que el 50% de los datos tienen niveles de ruido menores o iguales a
62dB y el 94% niveles menores o iguales a 72dB.

~
~
100
90
.----.
/
~ 80
-S!;:s
¡;; 70
;:s
60
"<:s
.~ 50

.----/
-S!
~ 40
.~
t.J 30
s:::
<\)
;:s 20
t.J
~
c..:; la
O
54 58 62 66 70 74 78
Niveles de ruido LPD (dB)

Figura 3.12 Ojiva para los niveles de ruido en la noche para la ciudad de Cali.

ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 77


VIVIANA VARGAS FRANCO

A continuación se calculan algunas medidas de centralidad y dispersión para la


medición de ruido en la noche; como el nivel de presión sonora se mide en dB
(decibelios), para calcular las medidas de centralidad y dispersión se debe tener en
cuenta que para promediar el nivel de presión sonora es necesario utilizar la expresión
de la ecuación 3.17, y redefinir las ecuaciones 3.8 a la 3.16.

X ag = 10 log (~ ¿ni. 1ffO,J)(XV = 66,7dB _1 Eag 1% = 166,166,1


- 66, 7 I = 0,9%

El valor medio de ruido en la noche en la ciudad de Cali es de 66,7 dB Y el error


de agrupamiento es de 0,9% para este estadístico, que significa que la tabla de
distribución de frecuencias resume muy bien el conjunto de datos.

• S;g= 153,8dBl -lEa 1%= 1153,3 -153,81 %= 0,3%


g 153,3

• Sag= 12,4dB -1 Eag 1%= 112,31~,~2,41 %= 0,8%


La desviación estándar del nivel de ruido durante la noche en la ciudad de Cali es 12,4
dB. La distribución de frecuencias representa muy bien la variación del conjunto de
datos, con un error de agrupamiento del 0,8 %, para este estadístico.

Mo~ 68,4dB _1 Eag 1%=156,;;;8,4 1%= 20%

• Me~62dB -IEagl %= 162,2 - 62


62,2 1 % =0,3%

Los valores de la moda y la mediana son menores en las horas de la noche que en las
horas del día. El error de agrupamiento de la moda, en este caso, es mucho mayor
que el presentado para el nivel de ruido en las horas del día.

Ejemplo 3.3 La producción de basura diaria por vivienda y por habitante en el


municipio de Talaigua, departamento de Bolívar, se presenta en la Tabla 3.7.

78 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

Tabla 3.7 Datos de producción de basura diaria en el municipio de Talaigua


(Bolívar) .

Basura Basura
Basura por Basura por
Vivienda No. de por vivien· Vivienda No. de por vivien·
habitante habitante
No. habitantas da No. habitantas da
(kg/dial (kg/dial
(kg/dial (kg/dial
1 3 1.70 0,57 20 6 3,93 0,65
2 5 4,51 0,90 21 8 4,06 0,51
3 5 5,14 1,03 22 5 4,29 0,86
4 4 0,95 0,24 23 10 4.71 0,47
5 6 1.73 0,29 24 6 2,59 0,43
6 5 1,08 0,22 25 3 3,87 1,29
7 10 8,55 0,86 26 5 6.75 1,35
8 8 3.73 0,47 27 8 5,83 0.73
9 8 8,87 1,11 28 11 10,65 0,97
10 2 2,72 1,36 29 6 3,72 0,62
11 7 1,01 0,14 30 4 2,18 0,54
12 5 1,80 0,36 31 4 1,97 0,49
13 2 2,26 1,13 32 2 2,09 1,04
14 5 6,39 1,28 33 10 5,00 0,50
15 7 5,43 0.78 34 5 6,44 1,29
16 7 3.71 0,53 35 2 1,14 0,57
17 7 7,86 1.12 36 9 3,39 0,38
18 6 6,67 1,11 37 6 4,12 0,69
19 6 4,44 0.74

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 79


VIVIANA VARGAS FRANCO

Análisis para producción de basura diaria por vivienda


Siguiendo los pasos para construir la tabla de distribución de frecuencias, se presenta
en la Tabla 3.8, la distribución para la producción de basura producida por vivienda
(kgldía).
Tabla 3.8 Distribución de frecuencias para la producción de basura por vivienda
(kg/día)

Datos Porcentaje
Intervalos de Marca acumulados Porcentaje de acumulado de
Número de Datos por datos por intervalo de
basura por por intervalo de datos por
del clase intervalo basura
vivienda basura intervalo de
intervalo de basura ; ;
(X¡./1X¡j X.', basura
k ni
(kg/día) (kg/día) N;=Ln; h;=n;ln(%) H;=Lh¡(%)
;=1 ¡= I

1 rO,2] 1 8 8 21,6 21.6

2 (2,4] 3 11 19 29,7 51,3

3 (4,6] 5 10 29 27,0 78,3

4 (6,8] 7 5 34 13,5 91.8

5 (8,IO] 9 2 36 5A 97,2

6 (lO,12] 11 1 37 2,7 99,9

-- Totales -- 37 -- 100% --

El histograma para la producción de basura por vivienda se muestra en la Figura


3.13, donde se puede analizar que las mayores frecuencias se tienen en los intervalos
(0,2), (2A) Y (4,6) (kg/día), con frecuencias relativas de 21,6%, 29,7% Y 27,0%,
respectivamente. La menor frecuencia se encuentra en el intervalo (10,12) (kg/día),
con un porcentaje del 2,7%.

80 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 3- DISTRIBUCiÓN DE FRECUENCIAS

35
30
~
~
25
.~
.....!:! 20
~
.S! 15
u
~
;:
u 10
~
t:.;
5
I
O I I
0-2 2-4 4-6 6-8 8 -10 10 - 12
Basura por vivienda (kg/día)

Figura 3.13. Histograma de producción de basura por vivienda en el municipio de


Talaigua (Bolívar).
La ojiva se muestra en la Figura 3.14, donde se puede analizar que el 51,3% de los
datos son menores o iguales a 4 kg/día por vivienda y el 91,8% de los datos son
menores o iguales a 8 kg/día por vivienda.

100
~ 90
~
~ 80
-Sl;:
t:
70
;:
<.>
~
60
~ 50
]
~ 40
.9 30
<.>
s.::
1\)
;: 20
<.>

J: 10
o
2 4 6 8 la 12
Basura por vivienda (kg/día)

Figura 3.14. Ojiva de la producción de basura por vivienda en el municipio de


Ta/aigua (Bolívar) .

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 81


VIVIANA VARGAS FRANCO

A continuación se presentan medidas de centralidad y dispersión para la medición


de producción diaria de basura por vivienda en kg/día, estimados a partir de la
distribución de frecuencias.

X Qg = 4,2 (kg/día) -IEQgl % = 0%


S:g = 6,4 (kg/día) -IEQgl % = 12,3%
SQg = 2,5 (kg/día) -1 1
EQg % = 4,2%
Me ~ 3,9 (kg/día) -1 EQg 1% = 0%

Mo ~ 3,5 (kg/día) -IEQgl % =No existe

El valor medio de producción de basura por vivienda es 4,2 kg/día, con una
desviación de 2,5 kgldía. La mediana y la moda toman valores de 3,9 kgldía y 3,5
kgldía, respectivamente. En general, las distribuciones de frecuencias presentan una
buena agrupación del conjunto de datos, pues se obtuvieron errores de agrupamiento
relativamente pequeños. El error de agrupamiento de la moda no existe, debido a que
en el conjunto de datos no existe moda, a pesar de que este valor se puede estimar
con la tabla de frecuencias.

Análisis para producción de basura diaria por habitante


La distribución de frecuencias para la producción de basura diaria por habitante para
el municipio de Talaigua (Bolívar), se presenta en Tabla 3.9.
El histograma para la producción diaria de basura por habitante del municipio de
Talaigua se presenta en la Figura 3.15, donde se puede analizar que la producción
de basura con mayor frecuencia sucede en el intervalo (O,4-0,6]kg/día, con una
frecuencia relativa del 27%. La producción con menor frecuencia se da en el intervalo
(O-O,2]kg/día con una frecuencia relativa del 2,7%.

La ojiva para la producción de basura diaria por habitante se presenta en la Figura


3.16, donde se puede analizar que el 43,2% de los habitantes tienen una disposición
de basuras menor o igual de 0,6 kgldía, el 70,2% tienen una disposición de basura
menor o igual a 1,0 kg/día y el 86,4% tienen una disposición menor o igual a 1,2
kgldía.

82 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 3- DISTRIBUCiÓN DE FRECUENCIAS

Tabla 3.9 Distribución defrecuencias para la producción de basura por habitante


(kg/día).

Porcentaje
Datos acumulado
Intervalos de Marca acunwlados Porcentaje de
de datos por inter·
Número de Datos por
datos por
basur por por intervalo
del clase intervalo valo de
habitente de basura intervalo de
intervalo de basura 1 basura
k
(X¡./JX,j X'1 basura ¡
(kg/dÚl) ni N¡=Ln¡ hl=n¡ln(%)
(kg/dÚI) 1- / H1=Lh l (%)
i- l

1 [0-0,2} 0,1 1 1 2,7 2,7

2 (0,2-0,4) 0,3 5 6 13,5 16,2

3 (O, 4-0, 6} 0,5 10 16 27,0 43,2

4 (O, 6-0, 8} 0,7 6 22 16,2 59,4

5 (O,8-l) 0,9 4 26 10,8 70,2

6 (J-l,2) 1,1 6 32 16,2 86,4

7 (J ,2-l,4) 1,3 5 37 13,5 99,9

-- Totales -- 37 -- 100% --

30

~ 25
~
~ 20

~
·9
15

~ 10
~ 5

O +------+------r-----~----~r_----~----~----~
1-1,2 1,2 -1,4
Basura por vivienda (kg/día)

Figura 3.15 Histograma de producción de basura diaria por habitante para el


municipio de Talaigua (Bolívar).

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 83


VIVIANA VARGAS FRANCO

100
~ 90
~
.g 80
-Sl;:s
E::
70
;:s
<.;¡
(] 60
(]
.;: 50
~
~ 40
.S!<.;¡ 30
s::
~
;:s 20
"~
~ 10
O
0,2 0,4 0,6 0,8 1 1,2 1,4
Basura por vivienda (Kg/día)

Figura 3.16 Ojiva de producción de basura diaria por habitante para el municipio
de Talaigua (Bolívar) .
A continuación se presentan medidas de centralidad y dispersión para la medición
de basura por habitante en kg/día, estimados a partir de la distribución de
frecuencias.

X ag = 0,7 (kg/día) -IEagl%=O%

S:g = 0,1 (kg/día) -IEagl%=O%

Sag = 0,3 (kg/día) -IEagl%=O%


Me;:;; 0,7 (kg/día) -IEagl%=O%
0
Mo ;:;; 0,5 (kg/día) -lEag 1%=1
Q
,6-0,51=167%
0,6 '

El valor medio de la producción de basura por habitante es 0,7 kg/día, con una
desviación de 0,3 kg/día. La mediana y la moda toman valores de 0,7 kg/día y 0,5
kg/día, respectivamente. En general, la distribución de frecuencias presenta una
buena agrupación del conjunto de datos, pues se obtuvieron errores de agrupamiento
iguales a cero, excepto para el valor de la moda.

84 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

3.1.2.3 Asimetría y nivel de apuntamiento de las gráficas de frecuencias


La suavización de los polígonos de frecuencias muestrales son una aproximación
a la curva de frecuencias poblacional; esta aproximación es más precisa a medida
que aumenta el tamafio de la muestra. La Figura 3.17 muestra diversas formas
de tendencia de los datos, generadas a través de las curvas del polígono de
frecuencias.

a) Simétrica o normal b) Sesgada a la derecha c) Sesgada a la izquierda


(sesgo positivo) (sesgo Negativo)

d) En forma de J e) En forma de J
v j) En forma de U
invertida

g) Bimodal h) M ultimodal i) Rectangular o uniforme

Figura 3.1 7 Diagramas de distribución para una variable continua (Spiegel,


1970).
(a) Curva de frecuencias simétricas. Se caracterizan porque las
observaciones que equidistan el máximo central tienen la misma
frecuencia. Curva normal.
(b) Curva sesgada a la derecha (sesgo positivo). La cola de la curva a
un lado del máximo central es mayor que al otro lado. Si la cola

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 85


VIVIANA VARGAS FRANCO

mayor se presenta a la derecha de la curva se dice que está sesgada


a la derecha o sesgo positivo.
(e) Curva sesgada a la izquierda (sesgo negativo). Si ocurre lo contrario
se dice que la curva está sesgada a la izquierda o sesgo negativo.
(d) Curva en forma de J. El máximo se presenta en un extremo.
(e) Curva en forma de J invertida. El mínimo se presenta en un
extremo.
(f) Curva en forma de U. Tienen el máximo en ambos extremos.
(g) Curva bimodal. Tiene dos máximos.
(h) Curva multimodal. Tiene más de dos máximos.
(i) Rectangular o uniforme.

Dos medidas ayudan a caracterizar una curva de frecuencias : el grado de asimetría,


medido por el indicador de sesgo, y el grado de apuntamiento de la curva, medido
por el coeficiente de curtosis.
Sesgo, es el grado de asimetría o falta de simetría de una distribución. Una curva es
simétrica si las observaciones son equidistantes con el valor máximo central de la
curva. Si el polígono de frecuencias de una distribución tiene una cola más larga a
la derecha del máximo central que a la izquierda, la distribución se llama asimétrica
positiva o sesgada a la derecha o que tiene sesgo positivo. En el caso de que la
distribución tenga una cola más larga a la izquierda, la distribución se llama asimétrica
negativa o sesgada a la izquierda o que tiene sesgo negativo. El sesgo o nivel de
asimetría de una distribución se puede estimar a partir de la ecuación 3.18.

asimetría = A = medía - moda (3.18)


s
s

Aquí, s es la desviación estándar de la muestra.

El nivel de sesgo o asimetría presenta las siguientes interpretaciones:


• Cuando es igual a cero, la simetría es perfecta; la curva presenta forma de campana
o distribución normal.
• Cuando el valor es cercano a 0,1, indica una distribución de frecuencias
ligeramente asimétrica.
Si el valor es mayor que 0,1, indica una distribución de frecuencias con asimetría
notoria.
• El signo positivo indica una asimetría con cola hacia la derecha.

86 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

• El signo negativo indica una asimetría con cola hacia la izquierda.


Un valor aproximado de la moda será el valor más alto de la curva del polígono de
frecuencia. Una curva de frecuencia puede tener más de una moda, sin embargo, en
la mayoría de las aplicaciones relacionadas con las investigaciones experimentales
son raras las distribuciones que tienen más de una moda. La presencia de dos o
más modas significa generalmente que los datos no son homogéneos o que se han
combinado dos o más distribuciones distintas.
Si la distribución es unimodal y simétrica, entonces la media, mediana y moda serán
iguales entre sÍ. Un ejemplo de esto es la curva con forma de campana o normal.
Cuando la distribución es asimétrica, la media y la mediana no serán iguales. Así, en
el caso de una distribución asimétrica en forma negativa o sesgada negativamente,
la media será menor que la mediana. Con una curva asimétrica en forma positiva
o sesgada positivamente, la media será mayor que la mediana, tal como se observa
en la Figura 3.18.

M o =M• =X M o <M• <X X<M<M


• o
As=O As>O As <O
(a) (b) (e)

Figura 3.18. Opciones de asimetría presentadas en una distribución de


frecuencias.
(a) Asimetría perfecta; distribución normal
(b) Asimetría positiva, cola hacia la derecha, sesgo positivo
(e) Asimetría negativa, cola hacia la izquierda, sesgo negativo

Coeficiente de curtosis, es el grado de apuntamiento de una distribución, este se toma


generalmente con relación a la distribución simétrica o curva normal; una distribución
que presenta un apuntamiento relativamente alto se llama leptocúrtica;una
distribución achatada se llamaplaticúrtica y la distribución normal o acampana con
relación al centro se llama mesocúrtica. Una medida del coeficiente de curtosis se
emplea utilizando la ecuación 3.19.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 87


VIVIANA VARGAS FRANCO

"
¿(X¡-Xl
1-/
curtosis =k (3.19)
ns4
Donde s es la desviación estándar y n el número de datos en la muestra.

Este índice presenta la siguiente interpretación:

Cuando es igual a 0,263, se dice que es una distribución mesocúrtica o distribución


normal.
Cuando es mayor que 0,263 se dice que es una distribución leptocúrtica.
Cuando es menor que 0,263 se dice que es una distribución platicúrtica.

Para las distribuciones no normales que tienen un gran apuntamiento, la mediana


puede ser una medida de centralidad más fiable que la media, y entonces resulta
preferible. En la Figura 3.19 se presentan las diversas opciones del coeficiente de
curtosis.

~
k=0,263 k < 0,263 k> 0,263
(a) Mesoeúrtiea: (b) Platieúrtiea: (e) Leptoeúrtiea:
distribución normal distribución achatada distribución apuntada

Figura 3.19 Clasificación del nivel de apuntamiento de una curva a través del
coeficiente de curtosis.
Intervalos para la media. Para una distribución aproximadamente normal se pueden
estimar intervalos con relación a la media y la desviación estándar, como se ilustra
a continuación:
f.I. ± a : contiene aproximadamente el 68% de los datos.
f.I. ± 2a: contiene aproximadamente el 95% de los datos.

f.I. ± 3a: contiene aproximadamente el 99 % de los datos.

88 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPrTULO 3 - OISTRIBUCIÓN OE FRECUENCIAS

Con datos muestrales los intervalos son:


X±S ~ Contiene aprox. el 68% de los datos.
X ± 2S ~ Contiene aprox. el 95% de los datos.
X ± 3S ~ Contiene aprox. el 99% de los datos.

Gráficamente se ilustran estos intervalos en la Figura 3.20.

I
I
I
I
I
I
I
I
I
I
._0-;

¡.L-3O ¡.L-20 ¡.L-o ¡.L ¡.L o


I
¡.L+20
I
¡.L+3O

\. )
Y
68%

\. )
Y
95%

\. )
Y
99%

Figura 3.20 Intervalos para la media en una distribución normal.

3.2 Distribuciones bidimensionales de frecuencia


En este caso se analiza la distribución de frecuencias de dos variables simultáneamente.
Se estudia el caso donde las dos variables son discretas o continuas, pero no la
combinación de ellas.

3.2.1 Distribución bidimensional en variables discretas


En este caso se considera que las dos variables en análisis son de carácter discreto.
La distribución de frecuencias consiste en elaborar una tabla de dos entradas, donde se

ESTAOrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 89


VIVIANA VARGAS FRANCO

colocan en la primera fila los valores diferentes de la primera variable y en la primera


columna los valores diferentes de la segunda variable; en ambos casos los valores
de cada variable deben ser diferentes y estar ordenados en forma ascendente. En la
Tabla 3.10 se presenta la distribución bidimensional para dos variables discretas.
Tabla 3.10 Frecuencia bidimensional para variables discretas.

~
Frecuencias
VIfiBbII x
Y, y] Y3 · .. Yk-/ Y,
margina/es de X
nll n,z n'3 n/,k _1 n"k n,.
X, hll h/2 h'3 · .. hlk _ 1 h,.
h"k
n21 n2Z nZ3 nZ,k- 1 nz,' nz.
X2 hZI hzz hZ3
· ..
hU _1 hu hz.
n31 n3Z n33 n3,k_1 nu n3.
X3
h31 h3Z h33
· .. hU _1 hu h3.

np_u np _I,z np_I,3 np _/,k - I np _I,k np_l"


Xp" h._u h. _1.2 h. _I,3
· .. h. _lk _1 h. _u h. _l .
npl npz np3 np,k_1 npk np.
Xp hnl hoz h3
· .. h.,k_1 h.k h•.
Frecuencias n, nz n3 n,k_1 n.k n-n
margina/es de Y h, h.z h3
· .. h,k_1 hk h .• 100"

En este caso cada frecuencia absoluta, nij' es el número de datos que presentan los
valores Xi y lj, simultáneamente.
Por ejemplo, n]3 es el número de datos que toman los valores X] y Y3' simultáneamente.
n 34 es el número de datos que tienen los valores de X3 y Y4, simultáneamente.
Así mismo se pueden hallar las frecuencias absolutas marginales, que son equivalentes
al análisis de las variables unidimensionales o de una variable independiente de la
otra y se denota por ni. para la variable X y nj . para la variable Y.
Por ejemplo, n 3. es el número de datos que toman el valor de X3 para cualquier valor
de la variable Y y es equivalente a la expresión:
k

n 3.=n3 /+n 31 + ...... +n3k = Ln


j =/
3j

n.4 es el número de datos que toma el valor de Y4 para cualquier valor de la variable
X y es equivalente a la expresión:

90 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

n. 4+ n 14 + nu+ ...... + n p4 = f
;=1
nu

En la tabla de frecuencias se deben verificar las siguientes expresiones:


k

n./+n.l +n.3+ ...... +n.k = ~n


~ .J
. =n
j =/

~n . =n
~ l.
i= /

De forma similar:

Donde n es el número total de datos considerados en el estudio.


De modo similar se procede para el cálculo de las frecuencias relativas, recordando
que estas son el cociente entre la frecuencia absoluta sobre el total de datos. También
se pueden calcular las frecuencias relativas con relación al número de datos de las
filas o al número de datos de las columnas.
Cada frecuencia relativa, hij' es el porcentaje de datos que presentan los valores Xi
ylj, simultáneamente.
Por ejemplo, h23 es el porcentaje de datos que toman valores de Xl y Y3 ,
simultáneamente. h34 es el porcentaje de datos que tienen valores de X 3 y Y4,
simultáneamente.
Así mismo se pueden hallar las frecuencias relativas marginales, que son equivalentes
al análisis de las variables unidimensionales o de una variable independiente de la
otra y se denotan por h. para la variable X y h.j para la variable Y.
Por ejemplo, h3. es el porcentaje de datos que toman el valor de X 3 para cualquier
valor de la variable Y y es equivalente a la expresión:
k

h 3.=h3/+h 3Z + ...... +h 3k = ¿h3j


j =/

h.4 es el porcentaje de datos que toman el valor de Y4 para cualquier valor de la


variable X y es equivalente a la expresión:

h.4= h/ 4+ hu+ ...... + h p4 = f


i= /
hu

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 91


VIVIANA VARGAS FRANCO

Para las frecuencias relativas se deben verificar las expresiones:


k

h. l + h.Z + h.3+ ...•.• + h.k = ¿hj= 1 Ó 100%


j =1

h l. + h z. + h3. + ...... + hp. = f


;=1
h L = 1 Ó 100%

De forma similar:

h ll + h 12 + h13+ ••..•. + h pl + h pz +···· + hpk=f "ihij= 1 Ó 100%


;= 1 j = 1

También es posible calcular las frecuencias acumuladas absolutas y relativas, Nij y


Hij' considerando los criterios anteriores y la definición de cada una de ellas.
En la Figura 3.21 se muestra la representación gráfica de una distribución
bidimensional para variables discretas. En este caso se deben graficar en el espacio
tridimensional; dos dimensiones para las variables X y Y, Y otra para las frecuencias
relativas o absolutas. La gráfica se realiza levantando sobre cada punto del plano
XY, es decir (Xi' Y j ), un segmento vertical de longitud igual a nij para la frecuencias
absolutas o hij para las frecuencias relativas.

n , (h,J

Y, x, Ix: x ..
II
1( I A,A X,/
x

/
y,
y, /

/ /
7
/
/
'.
/
11
/
/
/
1/

/
/
/
/

y, / / / / / /

Figura 3.21 Gráfica de distribución defrecuencia bidimensional para dos variables


discretas,

92 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS

3.2.2 Distribución bidimensional para variables continuas


Para el caso de dos variables continuas se deben realizar intervalos tanto para la
variable X como para la variable Y. En este sentido los intervalos se pueden definir
por experiencia de los investigadores o se pueden construir siguiendo los pasos
recomendados para la definición de intervalos de una variable continua del caso
unidimensional.
En la Tabla 3.11 se presenta la distribución de frecuencias bivariadas para dos
variables continuas ( X Y Y). En la primera columna se colocan los intervalos
de la variable X y en la primera fila se colocan los intervalos de la variable Y,
o viceversa.
Tabla 3.11 Frecuencia bidimensional para dos variables continuas.

~
Frecuencias
Variable X [Yo. V,I IY,.Y 21 IY 2.Y31 · .. (YK.,.YKI
marginales de X
n11 n12 n13 n1K n1.
[X •• Xd h11 h12 h13 · .. h1K h1.
n21 n22 n23 n2K n2.
IX 1• X21
h21 h22 h23 · .. h2k h2.
n31 n32 n33 n3K n3.
IX 2• X31
h31 h32 h33
· .. h3K h3.

np1 np2 np3 npK np.


IXp.1• Xpl
hp1 hp2
· .. hpK
hp3 hp.
Frecuencias n' l n'2 n'3 n'K n.. -n
marginales de V h' l h'2 h'3
· .. h'K h.. -100%

Las frecuencias absolutas nij consisten en el número de datos que se encuentran en


los intervalos ( X i _l , XJ y ( lj-l' lj], simultáneamente.
Por ejemplo, n l3 es el número de datos que se dan en los intervalos (Xl' Xl] Y
( YH Y3 ] simultáneamente. n 34 es el número de datos que tienen los intervalos
(Xl' X 3] y (Y3, Y4] simultáneamente.

Así mismo , se pueden hallar las frecuencias absolutas marginales, que son
equivalentes al análisis de cada una de las variables unidimensionales o de una
variable independiente de la otra y se denota por ni. para la variable X y n.j para la
variable Y.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 93


VIVIANA VARGAS FRANCO

Por ejemplo, n 3. es el número de datos que hay en el intervalo ( X] ,X3 J,


independientemente de los intervalos de la variable Y. Es equivalente a la siguiente
expresión:
k

n 3• = n 31 + nn+ ...... + n 3k = ¿n
j=/
3j

n." es el número de datos que hay en el intervalo (Y3, YJ, independientemente de


los intervalos de la variable X. Es equivalente a la expresión:
p

n.4=n 14 +n u + ...... +np"= ¿ni"


i= I

En la tabla de frecuencias se deben verificar las expresiones:


k

n.l = n.] + n. 3 + ...... + n.k = ~n


~ ./
. =n
j=1

nI. + n].
+.n 3 + ...... + np. = ~
~ n· = n L
i=1

De forma similar:

n 11 + n J] + n /3 + ...... + n p / + n p ] + .... + n pk = f f nij = n


i=1 j = 1

Donde n es el número total de datos considerados en el estudio.


De forma similar, se procede para el cálculo de las frecuencias relativas, recordando
que son el cociente entre la frecuencia absoluta sobre el total de datos. También se
pueden calcular las frecuencias relativas en cuanto al número de datos de las filas o
al número de datos de las columnas.
Cada frecuencia relativa hij consiste en el número de datos que se encuentran en los
intervalos ( X i _l , XJ Y ( lJ-l' lJJ, simultáneamente.
Por ejemplo, h]3 es el porcentaje de datos que toman valores entre (XI' Xzl Y
( y] , Y3 J simultáneamente. h]3 es el porcentaje de datos que tienen valores entre
( X]' X 3 J y ( Y3 , Y"J, simultáneamente.
Así mismo, se pueden hallar las frecuencias relativas marginales, que son equivalentes
al análisis de las variables unidimensionales o de una variable independiente de la
otra y se denota por h i. para la variable X, y hj para la variable Y.

94 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 3- DISTRIBUCiÓN DE FRECUENCIAS

Por ejemplo, h3' es el porcentaje de datos que toman valores entre ( X 2, X 3] para
cualquier valor de la variable Y. Es equivalente a la siguiente expresión:
k

h 3.=h3/+h 32+······ +h 3k= ¿h3j


j =/

h.4 es el porcentaje de datos que toman valores entre (Y3' y J para cualquier valor de
la variable X. Es equivalente a la expresión:

h.4 = hl4+ hu+ ...... + h p4 = f;=/


hu

En la tabla de frecuencias se deben verificar las expresiones:


k

h./ + h.2+ h.3 + ...... + h. k = ¿ h.j = 1 Ó 100%


j =/

h/. +h 2. +h 3. + ...... +hp . = fh¿ = 1 Ó 100%


;=/

De forma similar:
P k
hlJ +hll + h/3 + ...... + h p1 +hp 2 + .... +hpk = ¿¿hij = 1 Ó 100%
i=l j =l

También es posible calcular las frecuencias acumuladas absolutas y relativas Nij y


Hij, considerando los criterios anteriores y la definición de cada una de ellas.
La Figura 3.22 muestra la representación gráfica de una distribución bidimensional
para variables continuas. En este caso se deben graficar en el espacio tridimensional;
dos dimensiones para las variables X y Y Y otra para las frecuencias relativas o
absolutas. En el caso unidimensional las frecuencias se representan por áreas de
rectángulos en el histograma, ahora en el caso bidimensional, las frecuencias se
representan por volúmenes de paralelepípedos en el denominado estereograma.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 95


VIVIANA VARGAS FRANCO

n¡(h)

/ /
/ /

¿:. f- ~
/ /

/ /
V / V /

/ / / /

h
.~
Xl XJ / Xl ....
YI / /
"XI

/ V
I
1/ ,. x
1/ / / /
YJ / 1/ 1/ /
/ / 1/ 1/ V / /
,/ / V / / / /
/ / / / /

Figura 3.22 Estereograma, gráfica de distribución bidimensional de frecuencia


para dos variables continuas.

96 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO

4
Medidas y gráficas
de posicion

Las medidas de tendencia central y dispersión presentan limitaciones cuando se desea


realizar análisis con respecto a la posición que ocupan los datos; por tal razón surgen
las medidas de posición que se usan para describir la posición que tienen un valor
específico en relación con el resto de datos. Estas medidas sintetizan las distribuciones
de frecuencias e indican qué porcentaje de datos, dentro de una distribución, hay
antes o después de un valor determinado.
Las medidas de posición más utilizadas en estadística son los cuartiles, deciles y
percentiles:
Cuartiles : Dividen la distribución en 4 partes iguales; existen 3 cuartiles: primero,
segundo y tercer cuartil.
Deciles: Dividen la distribución en 10 partes iguales; existen 9 deciles: primero
al noveno decil, son también llamados cuantiles.
Percentiles: Existen 99 percentiles que dividen una distribución en 100 partes iguales:
primero al noventa y nueve percentil, también se llaman centiles.
A continuación se describe la forma de estimar cada una de estas medidas, las cuales
se pueden calcular para datos agrupados y datos sin agrupar. También es posible
estimarlos a partir de la ojiva

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 97


VIVIANA VARGAS FRANCO

4.1 Cuartiles
Los cuartiles son los valores que dividen un conjunto de datos que previamente han
sido ordenados en forma creciente, en cuatro partes iguales. Existen tres cuartiles
que se denominan Q/ , Q2 y Q3 y presentan las siguientes características:
Q/ : Es el valor de la variable donde el 25% de los datos es menor que este valor
y el 75% de los datos es mayor que él.
Q2: Es el valor de la variable donde el 50% de los datos es menor y el 50% de
los datos es mayor que este valor. Coincide con el valor de la mediana.
Q3: Es el valor de la variable donde el 75% de los datos es menor que él y el 25%
de los datos es mayor que este valor.
• Entre los valores Q/ y Q3 se encuentra el 50% de los datos.
Entre dos cuartiles consecutivos se encuentra un 25% de los datos, tal como se
observa en la Figura 4.1.

25% 25% 25% 25%

mín. Ql Q2 Q3 máx.

Datos ordenados en forma creciente

Figura 4.1 Esquema gráfico de la ubicación de los cuartiles en una distribución.

Cuartiles para datos sin agrupar, en este caso se deben ordenar los datos de forma
creciente. El cálculo de los cuartiles se debe realizar considerando diferentes opciones
de acuerdo con el número de datos. Generalmente los textos presentan que el cuartil

.. Xn+Xn
uno, Q¡, se puede calcular como X n + / SI n es Impar o 4 4+ / SI n es par y que
4 2
. . X 3n +X3n .
el cuartll tres, Q3' se puede calcular como X 3 (n +/) SI n es par o 7 7+ / SI n
4 2
es impar, pero estas fórmulas no funcionan en todos los casos. (El lector puede
verificarlo con los ejemplos que se muestran en este capítulo).

98 ESTAOlsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4- MEDIDAS Y GRÁFICAS DE POSICiÓN

Después de un detallado análisis de las posibilidades para el cálculo de los cuartiles


se llega, en este libro, a las fórmulas generales que permiten estimar estos valores
en forma precisa. El cuartil dos, Q;z, sólo depende del valor de paridad que toma n ,
mientras que para el cálculo del cuartil uno, Qb y el cuartil tres, Q3' deben considerarse

adicionalmente otros argumentos, como la paridad de ; o de n ~1 .

Para el cálculo de los cuartiles los datos deben estar ordenados en forma ascendente,
los valores repetidos deben considerarse en el conjunto de datos. Las diferentes
opciones para el cálculo de cuartiles se presentan en las siguientes ecuaciones:

• Si n es impar: Q;Z=X"+I (4.1)


;z

. n+l
S1 --2- es par: (4.2)

(4.3)

Si n + 1 es impar: QI =X"+3 (4.4)


2 4

Q3 = X3" +J (4.5)
4

X"+X,,
- -+1
Q1= 1 1
• Si n es par: 2 (4.6)

3X"
-+1 +X"
-
Si !!. es par: QI= 4 4 4 O, 75X" + 0,25X" (4.7)
2 -¡+I -¡

(4.8)

Si n es impar: O, 75X" + 1 + 0,25X" + 6 (4.9)


4 4
2
3XJ" +1 + X3"-1
4 4
Q3 =---=--4-~- = 0,75XJ"+1 + 0,25X311 _1 (4.10)
4 4

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 99


VIVIANA VARGAS FRANCO

Ejemplo 4.1 Se tienen los datos de Demanda Química de Oxígeno (DQO) en


mg/l, en el efluente de una planta de tratamiento anaeróbico para agua residual
tipo UASB (Upflow Anaerobic Sludge Blanket), la serie de datos ordenados en
forma creciente se presenta a continuación:
110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260;
312; 315,: 320 y 320 (mg/l) .
Considerando que el número de datos es impar, n=19, y que n ~
1
10

es un número par, se utilizan las ecuaciones 4.1,4.2 Y 4.3 para el primero, segundo
y tercer cuartil, respectivamente, tal como se presenta a continuación:
X S +X6
Q/ = 2 0,5Xj + 0,5X6 = 0,5( 152) + 0,5( 155) = 153,5 mg / I

Es decir, el 25% de los datos son menores que 153,5 mg/l y el 75% de los datos
superan este valor en el efluente de DQO en la planta UASB.
Q2=X/ o =191 mg/I

Donde el 50% de los datos son menores que 191 mg/I y el 50% de los datos
supera este valor. Es el valor de la mediana.

X U +X/5
Q3 = 2 = 0,5Xu + 0,5X/5 = 0,5( 257) + 0,5( 260) = 258,5 mg / I

Significa que el 75% de los datos es menor que 258,5 mg/l y e125% de los datos
supera este valor en el efluente de DQO en la planta UASB.

Cuartiles para datos agrupados: En este caso se considera que los datos están
agrupados en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre
cada uno de los cuartiles. Los cuartiles se pueden calcular a través de la ecuación
4.11 si se utilizan las frecuencias relativas, o con la ecuación 4.12 si se utilizan las
frecuencias absolutas.

Q. =x1-/ + (0,25k-H
2 1- / ) (L) (4.11)

Q. =X¡-/ + (knl4 -N1


n _/) (L) (4.12)
1

100 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

Donde:
k : Valor del k-ésimo cuartil a ser calculado (k = 1, 2 Ó 3)_
X¡ _/: Límite inferior del intervalo que contiene el valor cuartiL
n : Número de observaciones.
H¡ - 1: Frecuencia relativa acumulada del intervalo anterior al que contiene el cuartil
(sin porcentaje).
h¡ : Frecuencia relativa del intervalo donde se encuentra el cuartil (sin
porcentaje).
N¡ - 1: Frecuencia absoluta acumulada del intervalo anterior al que contiene el
cuartiL
n¡ : Frecuencia absoluta del intervalo donde se encuentra el cuartiL

L : Longitud del intervalo donde se encuentra el cuartiL

Ejemplo 4.2 Considerando la Tabla 4.1, donde se presenta la distribución de


frecuencias para la variable nivel de presión sonora en el día, ruido, tomada en
diferentes estaciones de la ciudad de Santiago de Cali, se procede a estimar los
cuartiles para datos agrupados. (Esta tabla es equivalente a la Tabla 3.5).

Tabla 4.1 Distribución de frecuencias para la presión sonora en el día (LD).


Porcentaje
Datos acumula- acumulado
Marca dos por Porcentaje de de datos
Número Intervalos de Datos por
de intervalo de datos por
del ruido intervalo de de
clase ruido por intervalo
intervalo ruido
(X,-" X,} X'¡ ¡ intervalo de ruido de ruido
k (dB) (dB) ni N/=¿n¡ /
/- 1
h¡=n;ln (%)
H¡=¿h¡(%)
¡- I
1 [50,54J 52 3 3 6 6
2 (54,58J 56 3 6 6 12
3 (58,62J 60 6 12 12 24
4 (62,66J 64 11 23 22 46
5 (66,70J 68 6 29 12 58
6 (70,74J 72 12 41 24 82
7 (74,78J 76 9 50 18 100
.... Tota/es ..... 50 ..... 100% .....

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 101


VIVIANA VARGAS FRANCO

A partir de la tabla de distribución de frecuencias se utiliza la fórmula de la ecuación


4.11, para el cálculo de los cuartiles:
• Primer cuartil
Se encuentra en el cuarto intervalo, considerando que los datos hasta allí son menores
o iguales que 46% y el tercer intervalo contiene el 24% de los datos, según la columna
de frecuencia relativa acumulada. El primer cuartil es el valor que genera el 25% de
los datos menores que él. Por lo tanto, se generan los siguientes valores:
n = 50; k = 1; X3 = 62 dB; H3 = 24% = 0,24; h4 = 22% = 0,22; L = 4
Entonces:
( 0,25 - 0,24) (4) = 62,2 dB
Q¡ = 62 + 0,22

Significa que e125% de los datos es menor que 62.2 dB Yel 75% de los datos supera
este valor.
• Segundo cuartil
Se encuentra en el quinto intervalo, considerando que los datos hasta allí son menores
o iguales que 58% y en el cuarto intervalo los datos son menores o iguales al 46%,
según la columna de frecuencia relativa acumulada, presentándose los siguientes
valores:
n = 50; k = 2; X 4 = 66 dB; H 4 = 46% = 0,46; hs = 12% = 0,12; L = 4
Entonces:

( 0,50 - 0,46) (4) = 67,3 dB


Ql = 66 + 0,12

Es decir, el 50% de los datos es menor que 67,3 dB Y el 50% de los datos supera
este valor. Coincide con el valor de la mediana.
• Tercer cuartil
Se encuentra en el sexto intervalo, pues los datos hasta allí son menores o iguales al
82%, según la columna de frecuencia relativa acumulada. Por lo tanto, se generan
los siguientes valores:
n = 50; k = 3; X s = 70 dB; H s = 58% = 0,58; hó = 24% = 0,24; L = 4
Entonces:
(0,75 - 0,58) (4) = 72,8 dB
Q3 = 70 + 0,24

102 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

Significa que el 75% de los datos es menor que 72,8 dB Y e125% de los datos supera
este valor.

4.2 Deciles
Los deciles son los valores que dividen el conjunto de datos, ordenados en forma
creciente, en diez partes iguales. Existen nueve deciles que se denominan DI' D2J ••• ,
D9' Cada decil representa el! 0% del total de los datos y entre dos deciles consecutivos
se encuentra un 10% de los datos, tal como se presenta en la Figura 4.2. El cálculo
de los deciles se puede realizar para variables no agrupadas y variables agrupadas.

Datos ordenados en forma creciente


Figura 4.2 Esquema gráfico de los valores deciles de una distribución.
Deciles para datos sin agrupar, en este caso se deben ordenar los datos en orden
creciente. Si se considera el conjunto de datos ordenados XI' X]' X]' •••••••••••• X" _1 , X"
los deciles se pueden estimar a partir de la ecuación 4.13.

X ... si n es par
D=
k ¡ 10

Xk(It+I)
10
si n es impar
(4.13)

Donde k es el número del decil a calcular.

Ejemplo 4.3 Para los datos del ejemplo 4.1, sobre la Demanda Química de
Oxígeno (DQO) en el efluente de una planta de tratamiento anaeróbico para
agua residual tipo UASB (Upflow Anaerobic Sludge Blanket):
110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260;
312; 315; 320 Y 320 (mg/l).
Se calculan a continuación los deciles del conjunto de datos (n=19):

DI = X I (II +I) = X] = 126 mg / 1


10

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 103


VIVIANA VARGAS FRANCO

D 2 =X2 (fI+l) =X4 = 145 mg / I


lO

DJ =XJ(fI+l) =X6 = 155 mg / I


10

D 4 =X4 (n+I)=Xa =181 mg/I


lO

D s = X s (fI + 1) = X IO = 191 mg / I
10

D 6 = X 6 (fI + 1) = X 12 = 208 mg / I
10

D 7=X7(fI+l) =X14 = 257 mg / I


10

Da =Xa(fI+l) =X16 = 312 mg / I


lO

D9 =X9(fI+l) =Xla =320 mg/I


10

El decil 3, D J , significa que el 30% de los valores es menor que 155 mg/l y el
70% de los datos supera este valor.
El decil5, D s , significa que el 50% de los datos es menor que 191 mg/l y el 50%
de los datos supera este valor.
El decil 9, D 9 , significa que el 90% de los datos es menor que 320 mg/l y el1 0%
de los datos supera este valor.

Deciles para datos agrupados: En este caso se considera que los datos están agrupados
en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre cada
uno de los deciles a estimar. Los deciles se pueden calcular a través de la ecuación
4.14, si se utilizan las frecuencias relativas, o con la ecuación 4.15, si se utilizan las
frecuencias absolutas.

D =x. + (O,lk-HI _ I ) (L) (4.14)


k ,-1 h
I

D =X + (knll0-N¡ _/ ) (L) (4.15)


k 1- /
ni

104 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

Donde:
k : Valor del k-ésimo decil a ser calculado. (k = 1,2, 3, 4, .... , 9)
X¡ _I : Límite inferior del intervalo que contiene el valor decil.
n : Número de observaciones en el conjunto de datos.

H¡ _I : Frecuencia relativa acumulada del intervalo anterior al que contiene el decil


(sin porcentaje).
h¡ : Frecuencia relativa del intervalo donde se encuentra el decil (sin
porcentaje).
N¡_ I : Frecuencia absoluta acumulada del intervalo anterior al que contiene el decil.
n¡ : Frecuencia absoluta del intervalo donde se encuentra el decil.

L : Longitud del intervalo donde se encuentra el decil.

Ejemplo 4.4 Considerando los datos del ejemplo 3.2 y la tabla de distribución
de frecuencias 4.1, donde se presentan las frecuencias de la variable nivel de
presión sonora de ruido medido en decibeles (dB), para diferentes estaciones
de la ciudad Santiago de Cali, en el día. Se calculan a continuación los deciles
D¡, DsY D", utilizando la ecuación 4.14.

• Primer decil
Se encuentra en el segundo intervalo, debido a que los datos hasta allí son menores o
iguales al 12%, según la columna de frecuencia relativa acumulada y el primer decil
es el valor que genera el 10% de los datos menores que él. Por lo tanto, se generan
los siguientes valores:
n = 50; k = 1; XI = 54 dB ; HI = 6% = 0,06 ; h } = 12% = 0,12; L = 4
Entonces:

D =X + [0,1(l)-H¡J (L)
I I h
1

D = 54 + [ 0,1 -0,06 J = 553 dB


1 0,12 '

Es decir, el 10% de los datos es menor que 55,3 dB Y el 90% de los datos supera
este valor.

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 105


VIVIANA VARGAS FRANCO

• Quinto decil
Se encuentra en el quinto intervalo, debido a que los datos hasta allí son menores
o iguales al 58%, según la columna de frecuencia relativa acumulada y el quinto
decil es el valor que genera el 50% de los datos menores que él. De esta manera se
generan los siguientes valores:
n = 50; k = 5; X 4 = 66 dB; H 4 = 46% = 0,46; h5 = 12% = 0,12; L = 4
Entonces:

D =66+ (0,50-0,46) (4)=6~3dB


5 0,12 '

Es decir, el 50% de los datos es menor que 67,3 dB Y el 50% de los datos supera
este valor. Coincide con el valor de la mediana.
• Noveno decil
Se encuentra en el séptimo intervalo, pues los datos hasta allí son menores o iguales
al 100%, según la columna de frecuencia relativa acumulada, y el noveno decil es
el valor que genera el 90% de los datos menores que él. Por lo tanto, se generan los
siguientes valores:
n = 50; k = 9; X ó = 74 dB; Hó = 82% = 0,82; h7 = 18% = 0,18; L = 4
Entonces:

D = 74 + (0,9 - 0,82) (4) = 758 dB


9 0,18 '

Significa que el 90% de los datos es menor que 75,8 dB Yel 10% de los datos supera
este valor.

4.3 Percentiles
Los percentiles son aquellos valores que dividen los datos ordenados de forma
creciente, en cien partes iguales. Existen noventa y nueve percentiles que se denotan
por P¡, P 2 , . . . . . . . oo. , P 99 , donde cada percentil representa el 1% del total de los
datos.
El percentil 1, PI> supera el uno por ciento de los valores y es superado por el 99%
de los datos restantes. El percentil 95, P 95 , supera el 95% de los datos y es superado
por el 5% de los datos. P k : Percentil k-ésimo, es aquel valor de la variable que deja
a su izquierda el k% de la distribución.

106 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

Percentiles para datos sin agrupar, en este caso se deben ordenar los
datos en forma creciente. Si se considera el conjunto de datos ordenados
XI' X 2 , X 3 , •••••••••••• X n _ l' X n , los percentiles se pueden calcular a través de la
ecuación 4.16.

x ... si n espar
P=
Ir ¡ lOO

XIr(If+J)
110
si n es impar
(4.16)

Donde k es el número del percentil a calcular.

Ejemplo 4.5 Para los datos del ejemplo 4.1, sobre la Demanda Química de
Oxígeno (DQO) en el efluente de una planta de tratamiento anaeróbico para
agua residual tipo UASB (Upflow Anaerobic Sludge Blanket):
Se calculan a continuación los percentiles 35, 80 Y 95.

P 35 =X35 (n+J) =X7 = 160 mg /1


100

P ao =Xao(n + l) =X16 = 312 mg /1


100

P 95 =X95 (n+l) =X19 = 320 mg /1


10

El percentil 35, P35 , significa que el 35% de los valores es menor que 160 mg/l
y el 65% de los datos es mayor que este valor.
El percentil 80, Pao, significa que el 80% de los datos es menor que 312 mg/l y
el 20% es mayor que este valor.
El percentil95, P 95 , significa que el 95% de los datos es menor que 320 mg/l y
el 5% es mayor que este valor.

Percentiles para datos agrupados. En este caso, se considera que los datos están
agrupados en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre
cada uno de los percentiles a estimar. Los percentiles se pueden calcular a través de
la ecuación 4.17, si se utilizan las frecuencias relativas, o con la ecuación 4.18, si
se utilizan las frecuencias absolutas.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 107


VIVIANA VARGAS FRANCO

P =x. + (0,01k-Hi _ l ) (L) (4.17)


k ,-1 h ,.

P =X _ + (kn/100-N¡ 1) (L) (4.18)


k i 1
ni

Donde:
k : Valor del k-ésimo percentil a ser calculado. (k = 1,2,3,4,5, 6, 7, .... , 98,99)

Xi - J : Límite inferior del intervalo que contiene el valor percentil.

n : Número de observaciones.

N i _ 1 : Frecuencia absoluta acumulada del intervalo anterior al que contiene el


percentil.

nk : Frecuencia absoluta del intervalo donde se encuentra el percentil.

Hi _ J : Frecuencia relativa acumulada del intervalo anterior al que contiene el percentil


(sin porcentaje).

hk : Frecuencia relativa del intervalo donde se encuentra el percentil (sin


porcentaje).

L : Longitud del intervalo donde se encuentra el percentil.

Ejemplo 4.6 Considerando los datos del ejemplo 3.2 y la tabla de distribución
de frecuencias 4.1, donde se presentan las frecuencias de la variable nivel de
presión sonora de ruido medido en decibeles (dE), para diferentes estaciones
de la ciudad de Santiago de Cali, en el día. Se calculan a continuación los
percentiles 25, 80 Y 95, utilizando la ecuación 4.17.

• Percentil 25
Se encuentra en el cuarto intervalo, debido a que los datos hasta allí son menores
o iguales al 46%, según la columna de frecuencia relativa acumulada y el percentil
25 es el valor que genera el 25% de los datos menores que él, lo cual genera los
siguientes valores:
n = 50; k = 25; X 3= 62 dB; H3 = 24% = 0,24; h4 = 22% = 0,22; L = 4

108 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPrTULO 4- MEDIDAS Y GRÁFICAS DE POSICiÓN

Entonces:
( 0,25 - 0,24 )
P 15 = 62 + 0,22 ( 4 ) = 62,2 dB

Es decir, el 25% de los datos es menor que 62,2 dB Y el 75% de los datos supera
este valor.
• Percentil 80
Se encuentra en el sexto intervalo, debido a que los datos hasta allí son menores o
iguales al 82%, según la columna de frecuencia relativa acumulada. De esta manera
se generan los siguientes valores:
n = 50; k = 80; X 5 = 70 dB; H5 = 58% = 0,58; h5 = 24% = 0,24; L = 4
Entonces:

( 0,80 - 0,58 )
Pao = 70 + 0,24 ( 4) = 73,7 dB

Es decir, el 80% de los datos es menor que 73,7 dB Y el 20% supera este valor.
• Percentil 95
Se encuentra en el séptimo intervalo, pues los datos hasta allí son menores o iguales
al 100%, según la columna de frecuencia relativa acumulada. De esta manera se
generan los siguientes valores:
n = 50; k = 90; X ó = 74 dB ; Hó = 82% = 0,82; h 7 = 18% = 0,18; L = 4
Entonces:

( 0,95 - 0,82 )
P 95 =74+ 0,18 (4)= 76,9dB

Significa que el 95% de los datos es menor que 76,9 dB Y el 5% supera este valor.
También existen los quintiles que dividen el conjunto de datos en cinco partes iguales;
existen cuatro quintiles que se pueden denominar k l , k], k j Y k".
En teoría, los percentiles 25%, 50% Y 75% son el primero, segundo y tercer cuartil,
respectivamente. Así mismo, los percentiles P/O ' p]O ' PjO, P"o , P so , Póo, P 70, Pao Y
P 90 corresponden a cada uno de los deciles DI ' D] , D j , Do Ds, Dó, D 7 , DaY D 9,
respectivamente. Tal como se presenta a continuación:
PJO = DI ; P10 = Dl ; P30 = Dj Y así sucesivamente hasta P 90 = D9 Y

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 109


VI VI ANA VARGAS FRANCO

P2S= Q¡ ; P SO=Q2= DS y P 7S= QJ

4.4 Medidas de dispersión para indicadores de posición


Algunas medidas de dispersión para las medidas de posición se relacionan a
continuación. Éstas permiten representar, en forma gráfica, las medidas de posición
y comprender la dispersión del conjunto de datos a través de los intervalos inter-
cuartil, inter-decil, inter-percentil y semirrecorrido inter-cuartil, tal como se presenta
en las ecuaciones 4.19, 4.20, 4.21 Y 4.22, respectivamente.

Intervalo o recorrido ;nter-cuartil


Ra=R1C=QJ-Q¡ (4.19)

Este intervalo contiene el 50% de los datos analizados

Intervalo o recorrido ;nter-decil


R D =D 9 -D¡ (4.20)
Este intervalo contiene el 80% de los datos analizados

Intervalo o recorrido ;nter-percentiJ


RC=P99- P ¡ (4.21)
Este intervalo contiene el 99% de los datos analizados

Sem;rrecorr;do ;nter-cuartil
SRa = QJ- Q¡ (4.22)
2

4.5 Representación gráfica de las medidas de posición

4.5.1 Diagramas de cajas y alambres


Este diagrama constituye una buena síntesis de la distribución de frecuencias y su
sencillez lo hace muy útil, sobre todo en aquellas situaciones donde es necesario
comparar dos o más distribuciones (poblaciones o tratamientos). Los diagramas
de cajas y alambres (boxplots o box and whiskers), muestran cómo se distribuyen
los datos, de tal forma que proporcionan información acerca de la localización, la
dispersión, el sesgo y las colas del conjunto de datos, que se pueden apreciar en un
solo gráfico.

110 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 4- MEDIDAS Y GRÁFICAS DE POSICiÓN

Este diagrama ha sido un aporte fundamental realizado por Tukey (1977). Es un


gráfico simple debido a que se realiza con cinco números y se observan en forma
clara la distribución de los datos y sus principales características.
Los diagramas de cajas y alambres son útiles para diversos fines, entre los objetivos
de estos se destacan :
• Identificar los datos alrededor de la mediana
• Tener idea de la dispersión de los datos, basándose en la longitud de la caja (rango
intercuartílico), pues la caja corresponde al 50% de los datos que están en la parte
central. Además, se aprecia el rango de los datos que corresponde a la distancia
entre las observaciones más extremas.
• Permitir conocer el grado de asimetría de una distribución, al comparar la
proporción de la caja que queda a la izquierda de la mediana con la que queda a
la derecha, igualmente la longitud de los alambres respectivos.
• El diagrama es útil para identificar posibles outliers (datos fuera de lo común) a
través de los cercos internos pero dentro de los externos y outliers fuera de los
cercos externos.
• Permitir comparar varias poblaciones a través de sus distribuciones. En este
caso se construye un diagrama para cada distribución y se dibujan en una
misma escala (sobre un mismo plano), lo cual permite fácilmente hacerse una
idea de las semejanzas y las diferencias de los rasgos más importantes de las
distribuciones.
Similarmente se pueden comparar diversas variables para una misma
población.
Existen dos opciones para graficar el diagrama de cajas y alambres : uno general y
otro identificando valores extremos y outliers.

Diagrama general. Se basa en el valor mínimo, los cuartiles (Q/> Q2 y Q3) y el valor
máximo. Los pasos para construirlo se presentan a continuación:
• Dibujar y marcar un eje de medida horizontal o vertical.
• Construir una caja (rectángulo), con ancho arbitrario (el ancho no tiene
representación estadística alguna), cuyo borde izquierdo (inferior) sea el valor del
primer cuartil y el borde derecho (superior) sea el valor del segundo cuartil.
• Construir una segunda caja a partir del límite derecho (superior) de la primera
caja, hasta el valor del tercer cuartil.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 111


VIVIANA VARGAS FRANCO

• Dibujar un primer segmento de recta (bigote) desde el valor mínimo hasta el


borde izquierdo (inferior) del primer rectángulo.
• Dibujar un segundo segmento de recta (bigote) desde el borde derecho (superior)
del segundo rectángulo hasta el valor máximo del conjunto de datos.
Siguiendo los pasos anteriores se construye el diagrama general de cajas y alambres
para un conjunto de datos, el cual se puede presentar de forma horizontal o vertical,
tal como se observa en la Figura 4.3. El bigote de la izquierda (inferior) representa
el 25% de los valores entre el valor mínimo y el primer cuartil, Q¡; la primera caja
corresponde al 25% de los datos, los cuales se encuentran entre Q¡ y Q2; la segunda
caja corresponde al 25% de los datos, los cuales se encuentran entre Q2 y Q3' El
bigote de la derecha (superior) viene dado por los datos que se encuentran entre Q3
y el valor máximo del conjunto de datos.

- ",4x.

-Q3

- M. =Qz

-Q¡
mín. Q¡ Qz = M. Q] máx.
I I I
I

-mín.

(a) (b)

Figura 4.3 Diagrama general de cajas y alambres en un eje vertical (a) y un eje
horizontal (b).

La interpretación del diagrama de cajas se presenta a continuación:


• La longitud de la caja refleja el grado de dispersión de los datos. A mayor longitud,
mayor dispersión. Ahí se encuentra el 50% de los datos.
• La línea que divide la caja principal es el valor de la mediana. Si ésta se encuentra
en el punto medio de la caja o cercano a éste, indica simetría de los datos con
relación a la mediana. También indica homogeneidad en la distribución de los
datos.

112 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPrTULO 4- MEDIDAS Y GRÁFICAS DE POSICiÓN

• La dispersión está dada tanto por la longitud de la caja, como por la distancia
entre los extremos de los bigotes.
• El sesgo se observa en la desviación que exista entre la línea de la mediana en
relación con el centro de la caja, y también la relación entre las longitudes de los
bigotes.
• Las colas de la distribución se pueden apreciar por la longitud de los bigotes
en cuanto a la altura de la caja, y también por las observaciones que se marcan
explícitamente.

Ejemplo 4. 7 Considerando el ejemplo 4.1 sobre los datos de Demanda Química


de Oxígeno (DQO) en mg/l, en el efluente de una planta de tratamiento anaeróbico
para agua residual tipo UASB (Upflow Anaerobic Sludge Blanket):
110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260;
312; 315; 320 y 320 (mg/l).
Se desarrolla el diagrama de cajas y alambres con base en los valores de los
cuartiles:
QJ=153,5 mg/l, Ql=191 mg/l, Q3=258,5 mg/I
Considerando el valor mínimo 110 mg/l y el valor máximo 320 mg/l, se construye
en la Figura 4.4 el diagrama de cajas y alambres.

_ : '::lf·¡::I~,·. :l
!(
I
110
I
153,5
I
191
I
258,5
I
320

Xmín Q¡ Qz QJ Xmáx
Niveles de DQO (mg/I)

Figura 4.4 Diagrama de cajas y alambres para los datos de DQO en una planta
de tratamiento UASB.
Considerando que en cada cuartil se encuentra e125% de los datos, se puede analizar
que la distribución es asimétrica en relación con la mediana, así mismo, que existe
menor dispersión en el intervalo (153,5; 191) mgll que en el intervalo (191; 258,5)
mgll. El bigote de la izquierda presenta menor longitud que el bigote de la derecha,
evidenciando que por debajo del valor de la mediana; 191 mgll, el conjunto de datos
presenta menor nivel de variación que por encima de este valor.

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 113


VIVIANA VARGAS FRANCO

Diagrama con puntos extremos. En este caso se realizan las cajas como en el caso del
diagrama general, adicionando los límites generados por cercos internos y externos,
utilizando las siguifntes expresiones:
cerco interno inferior ~ QJ-1.5*RlC
cerco interno superior ~ Q3+ 1.5*RlC
cerco externo inferior ~ QJ-3*RlC
cerco externo superior ~ Q3 +3*RlC

Donde RlC = QJ- Q2 es el rango intercuartílico que corresponde a la longitud de la


caja, es decir, donde se encuentra el 50% de las observaciones analizadas.
Se deben prolongar líneas rectas desde los bordes de las cajas, QJ y Q3' identificando
los límites a una distancia de 1,5*RlC (cerco interno) y a una distancia de 3*RlC
(cerco externo).
Los puntos que se encuentren entre las distancias 1, 5 *RlC y 3*RlC se deben marcar
con círculos abiertos, "o", y significan puntos inusuales suaves o puntos extremos. Los
puntos que se encuentren por encima de una distancia de 3*RIC son puntos atípicos
o que se salen de la tendencia general de los datos, a estos puntos generalmente se les
llama "outliers" o puntos raros y se marcan con "*". Si no hay datos en esta región
se considera que no hay puntos outliers en el conjunto de datos. La representación
de este diagrama de cajas y alambres se ilustra en la Figura 4.5.

* Puntos raros u "outliers"


*
* -- 3RlC
o Puntos extremos
o
o _ 1,5RlC

-QJ}
_ Ql 50 % de datos

-Q/

- 1,5RlC
o
O Puntos extremos
O
3RIC
*
* Puntos raros u "outliers"
*

Figura 4.5 Representación del diagrama de cajas y alambres con datos


extremos.

114 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

La interpretación en este caso es similar al diagrama general de cajas y alambres,


pero se deben tener las siguientes consideraciones:
• Si hay valores extremos por debajo o por encima de la caja, se presenta una mayor
dispersión en el conjunto de datos.
• Cuando hay valores extremos, la media aritmética no es representativa.
• Los puntos outliers deben analizarse cuidadosamente, con el fin de tomar
decisiones en relación con ellos.
Ejemplo 4.8 Se tienen los datos de precipitación anual (mm) registrada desde
1994 hasta el 2002, en el municipio de Morales-Cauca, tal como se presenta
en la Tabla 4.2. Se desea comparar, mediante un diagrama de cajas y alambres
con valores extremos, la precipitación de los meses de julio y octubre a través
de los años analizados.

Tabla 4.2 Precipitación (mm) anual registrada en el municipio de Morales,


departamento del Cauca, desde 1994 al 2002.

~ En. Feb Mlr Abr Jun Jul Al' 5., Oct Nov Die
1994 63,5 70,4 160,5 101 89,5 92,5 100,5 115,3 158,9 99,4 97,8
1995 58,4 78,3 168,9 110 95,6 80.7 115,2 120,3 166,2 103 89.7
1996 60,2 80,1 152,3 108 102 89,6 97,3 109,4 171,3 96,5 80,4
1997 70,2 70,4 156,3 112 98,4 86,9 103,3 110,3 169,2 97,5 86,3
1998 98,2 78,2 159.7 106 90,1 90,6 105,8 114,5 160,5 89,3 94,2
1999 57,3 69,8 148,9 98.7 85,6 79,4 95,4 100,2 149.7 90,1 85,2
2000 68,2 75,6 158,9 112 98,9 88,1 108,4 109,8 168,4 86,3 79,8
2001 59,8 71.2 160,2 105 88,5 83.7 104,2 118,2 170,2 90,4 86,3
2002 68,1 73,2 156.7 110 96,8 91.7 107,9 111,8 165,9 94.7 95,8

Precipitación en el mes de julio


Con base en las ecuaciones 4.1 a 4.5 se calculan los cuartiles, el RlC y los
cercos internos y externos:

Q¡=X3 = 83,7 mm, Q2=XS = 88,1 mm y Q3=X7 = 90,6 mm


RlC= Q3 - Q¡ = 6,9 mm

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 115


VIVIANA VARGAS FRANCO

Cerco interno inferior: QJ -1,5* RlC= 83,7 -10,4 = 73,3 mm


Cerco interno superior: QJ + 1,5* RlC= 90,6 + 10,4 = 101 mm
Cerco exterior inferior: QJ - 3* RlC= 83,7- 20,7 = 63 mm
Cerco exterior superior: QJ + 3* RlC= 90,6 + 20,7= 111,3 mm

Precipitación en el mes de octubre

QJ= 160,5 mm , Q2 = 166,2 mm y Q3 = 169,2 mm

RlC= Q3 - QJ = 8,7 mm

Cerco interno inferior: QJ -1,5* RlC= 160,5 -13,1 = 147,4 mm


Cerco interno superior: Q, + 1,5* RlC= 169,2 + 13,1 = 182,3 mm
Cerco exterior inferior: Q, - 3* RlC= 160,5 - 26,1 = 134,4 mm
Cerco exterior superior: Q, - 3* RlC= 169,2 - 26,1 =195,3 mm
Como se puede apreciar en la Figura 4.6, no existen valores extremos ni puntos
outliers en la precipitación de los meses de julio y octubre. Se puede analizar
que existe mayor precipitación en el mes de octubre que en el mes de julio.
Las dos distribuciones presentan ligera asimetría en relación con la mediana,
considerando que la longitud de las cajas no es similar. La precipitación enjulio
es mucho menor que en octubre.

116 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN

200
195.3

182,3

169.2
166,2
160.5

150
147,4

134.4

,......,

'Oª'"
'-'
Q

' (3 100
111 .3

101

!
.....
:&U
90,6
88.1

e
p.,
83,7

73.3

63

50

Julio Octubre
Meses

Figura 4.6 Diagramas de cajas y alambres para la precipitación mensual del


municipio de Morales- Cauca, en los meses de julio y octubre, durante
los años 1994 a 2002.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 117


VIVIANA VARGAS FRANCO

Ejemplo 4.9 Considerando los datos de precipitación anual (mm) registrada


en los años de 1994 hasta el 2002, en el municipio de Morales-Cauca, se desea
comparar, mediante un diagrama de cajas y alambres con valores extremos, la
precipitación de los años 1994 y 2002.
Precipitación en el año 1994:

63,5 70,4 89,5 92,5 97,8 99,4 100,5 101 115,3 158,9

. Como n = 11 Y n; 1 = 6, par, entonces se utilizan las fórmulas 4,1,4,2 Y 4,3 para

el cálculo de los cuartiles.


Q¡ = 0,5X3 + 0,5X4= 0,5( 89,5) + 0,5( 92,5) = 91 mm
Q2 =X6 = 99,4 mm

Q3 = 0,5Xa + 0,5X9 =0,5( 101) + 0,5( 115,3) = 108,2 mm


RlC= Q3 - Q¡ = 17,2 mm

Cerco interno inferior: Q¡ -1,5* Rle= 91- 25,8 = 65,2 mm


Cerco interno superior: Q¡ + 1,5* Rle= 108,2 + 25,8 = 134 mm
Cerco exterior inferior: Q, - 3* Rle= 91- 51,6 = 39,4 mm
Cerco exterior superior: Q, + 3* Rle= 108,2 + 51,6 = 159,8 mm

Precipitación en el año de 2002:


68,1 73,2 91,7 94,7 95,8 96,8 110 107,9111,8 156,7 165,9

Como n = 11 Y n + 1 = 6, par, se utilizan las fórmulas 4.1, 4.2 Y 4.3.


2
Q¡ = 0,5X3 + 0,5X4 = 0,5( 91,7) + 0,5( 94,7) = 93,2 mm

Q2=X6 = 96,8 mm

Q3 = 0,5Xa + 0,5X9 =0,5( 107,9) + 0,5( 111,8) = 109,9 mm


Rle= Q3 - Q¡ = 16,7 mm

Cerco interno inferior: Q¡ -1,5* Rle= 93,2 - 25,1 = 68,1 mm


Cerco interno superior: Q3 + 1,5* Rle= 109,9 + 25,1 = 135 mm

118 ESTAD ISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4 - MEOIDAS y GRÁFICAS DE POSICiÓN

Cerco exterior inferior: Q¡- 3* RlC= 93,2 - 50,1 = 43,1 mm


Cerco exterior superior: Q3 + 3* RlC= 108,2 - 50,1 = 158,3 mm
Como se puede apreciar en la Figura 4.7, no existen diferencias marcadas en
la precipitación de los años 1994 y 2002, pero en el año 2002 se presentó un
punto atípico o "outlier ", con valor de 165,9 mm.

Precipitación
(mm) o \ 65 ,9

\ 59,8 \ 58,3

\35
\34

\ 09,9
08,2

99,4 96,8

9\ 93,2

65,2
68, \

43 ,\

39,4

1994 2002

Años

Figura 4.7 Diagramas de cajas y alambres para la precipitación mensual del


municipio de Morales- Cauca, para los años de 1994 y 2002.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 119


VIVIANA VARGAS FRANCO

4.5.2 Diagrama de tallos y hojas


También denominado diagrama de Tukey, es un procedimiento semi gráfico para
presentar información en variables cuantitativas; es una forma rápida de obtener una
representación visual del conjunto de datos a través de su recuento y ordenación.
En términos generales, se puede decir que los diagramas de tallos y hojas, además
de ser fáciles de elaborar, presentan más información que los histogramas, teniendo
solo como limitación que no muestran las frecuencias, aunque se pueden desarrollar
en columnas anexas al diagrama.

Los pasos para construirlo son los siguientes:


• Se deben seleccionar uno o dos dígitos iniciales de la variable de análisis, para
los valores de tallo y el dígito o dígitos finales se convierten en hojas.
• Luego se hace una lista de los valores de tallo en una columna vertical (entre 5
y 20 tallos).
• Se procede a registrar la hoja por cada observación junto al valor correspondiente
al tallo.
• Finalmente se indican las unidades de tallos y hojas en algún lugar del
diagrama.

El diagrama de tallos y hojas permite visualizar:


• El centro de la distribución.
• La forma general de la distribución: simétrica si las porciones a cada lado del
centro son imágenes espejos de las otras; sesgada a la izquierda si la cola izquierda
(los valores menores) es mucho más larga que los de la derecha (los valores
mayores) y sesgada a la derecha opuesto a la sesgada a la izquierda.
• Desviaciones marcadas de la forma global de la distribución.
• La forma de comparar dos distribuciones en forma simultánea.

Ejemplo 4.10 Considerando los datos de precipitación anual (mm) registrada en


los años 1994 a 2002 en el municipio de Morales-Cauca, presentados en la tabla
4.2, se realiza a continuación el diagrama de tallos y hojas para la precipitación
del mes de enero y del mes de octubre, durante los años 1994 a 2002.
Precipitación en el mes de enero:
63,5 58,4 60,2 70,2 98,2 57,3 68,2 59,8 68,1 (mm)

120 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 4- MEDIDAS Y GRÁFICAS DE POSICiÓN

Estos datos transformados a números enteros quedan como: 635584602702


982573682598681.
En este caso es conveniente escoger el primer número como el tallo y los dos
últimos términos como las hojas. El diagrama de tallos y hojas se presenta a
continuación:
Enero
Tallos Hojas (n=9)
5 73 84 98
6 02 35 81 82
7 02
8
9 82

Como se puede apreciar, las mayores frecuencias de precipitación para el mes


de enero se presentan en los rangos de 50 mm y 60 mm, muy poca frecuencia
en los rangos de 70 mm a 90 mm.
Precipitación en el mes de octubre:
158,9166,2171,3169,2160,5149,7168,4170,2165,9(mm)
Estos datos transformados a números enteros quedan como: 1589 1662 1713
16921605 1497 1684 17021659.
En este caso es conveniente escoger los dos primeros términos como el tallo y
los dos últimos términos como la hoja, tal como se presenta a continuación:
Octubre
Tallos Hojas (n = 9)
14 97
15 89
16 05 59 62 84 92
17 02 13
Como se puede apreciar, las mayores frecuencias para el mes de octubre
se presentan alrededor de 160 mm y muy pocas frecuencias entre 140mm y
150mm.

Otra ventaja de los diagramas de tallos y hojas consiste en la comparación de dos


distribuciones, tal como se presenta en el siguiente ejemplo.

ESTADISTICA DESCRIPTIVA PARA ING ENIERfA AMBIENTAL CON SPSS 121


VIVIANA VARGAS FRANCO

Ejemplo 4.11 Mediante un diagrama de tallos y hojas, comparar la distribución


de la precipitación de los años 1995 y 2000, indicados en la Tabla 4.2. A
continuación se presentan los datos transformados:
Año 1995: 584783168911009568071152120316621030897 (mm)
Año 2000: 682 75615891120989881108410981684863798 (mm)
Generando el siguiente diagrama:
Año 1995 Año 2000
Hojas Tal/os Hojas
84 5
6 82
83 7 5698
9707 8 6381
56 9 89
3000 10 8498
52 11 20
03 12
15 89
8962 16 84
Como se puede apreciar, las distribuciones de precipitación de los años 1995 y
2000 no presentan grandes diferencias, concentrándose las mayores frecuencias
entre 70 mm y 110 mm.

122 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


Modelos de regresión

Cuando se realizan estudios que involucran varias variables, evaluadas simultáneamente


para cumplir un objetivo específico, se puede analizar la relación inherente a ellas.
Definir relaciones que posibiliten predecir una o más variables en términos de otras
es uno de los objetivos fundamentales de muchas investigaciones, lo cual se puede
abordar a través de las técnicas estadísticas de modelos de regresión.
Los modelos de regresión se usan para estimar "la mejor" relación funcional entre
una variable dependiente y una o varias variables independientes, mientras que los
métodos de correlación se utilizan para medir el grado de asociación de las distintas
variables.
El término "regresión" fue definido por Francis Galton (1822-1911), en su libro
Natural inheritance (1889), refiriéndose a la "ley de la regresión universal". Él
estudió la eugénica, término también introducido por él para definir el estudio de la
mejora de la raza humana a partir de las características hereditarias.
Galton estudió la altura de los hijos en relación con la altura de sus padres, y probó
que la altura de los hijos, de padres altos, "regresaba" hacia la media de la altura de
la población a lo largo de sucesivas generaciones. Esto es, hijos de padres demasiado
altos tendían a ser en promedio más bajos que sus padres, e hijos de padres muy
bajos tendían a ser en promedio más altos que sus padres.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 123


VIVIANA VARGAS FRANCO

Así mismo, se realizó un estudio con más de mil registros de grupos familiares y
se encontró la relación que se presenta en la ecuación 5.1, que permite estimar la
altura media del hijo a partir de la altura del padre.

Altura del hijo =85 (cm) + (0,5)* altura del padre (cm)
y=a+bx (5.1)

Por ejemplo, si el padre mide 2,0 m = 200 cm, entonces se desea estimar la estatura
media de su hijo, es decir, cuánto vale y = ?, para un valor x = 200 cm, reemplazando
en la ecuación 5.1 se obtiene:
y = 85 + 0,5( 200 ) = 185 cm

Entonces, se espera que el hijo mida 185 cm = 1,85 m, es decir alto, pero no tanto
como el padre. El valor tiende a regresar a la media.
Si el padre mide 1,2 m = 120 cm, entonces se desea estimar qué se espera de la
estatura de su hijo:
y = 85 + 0,5( 120 ) = 145 cm

En este caso, se espera que el hijo mida 1,45 m, es decir bajo, pero no tanto como
el padre. El valor tiende a regresar a la media.
Actualmente el término regresión se utiliza para predecir una variable en función de
otra, y no implica que se esté estudiando si se produce una regresión a la media.
El aspecto estadístico de la regresión consiste en lograr una estimación funcional
de la relación entre dos o más variables. En este proceso es necesario identificar
una variable independiente o de respuesta, y, la cual no es controlada en el estudio;
los valores de esta variable dependen de una o más variables independientes o de
regresión, que se denominan x" x], x 3 , •• ••••• , x n. Estas variables independientes o
de regresión no son aleatorias y no tienen propiedades poblacionales.
La variable y puede ser de carácter cuantitativo o dicotómico (aquella que
sólo admite dos categorías que definen opciones o características mutuamente
excluyentes: sí o no). En el primer caso se habla del modelo de regresión lineal y
en el segundo caso del modelo de regresión logística. La diferencia fundamental
entre el modelo de regresión lineal y de regresión logística es que el primero
predice el valor medio de la variable dependiente (y) a partir de una o más variables
independientes; mientras que el segundo permite predecir la proporción de una

124 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

de las dos categorías de la variable dependiente dicotómica, en función de una o


más variables independientes.
En el caso del modelo de regresión lineal, la relación entre dos variables
cuantitativas, una dependiente y una independiente, se denomina regresión simple
y cuando se trabaja una variable dependiente en función de varias variables
independientes, se denomina modelo de regresión múltiple, tal como se presenta
en la Figura 5.1.

Modelo de regralóa

I
I I!I
Simple Múldple
Una variable independiente x Varias variables independientes
Una variable dependiente: y x"xz,···,x"
Una variable dependiente: y

• •
Lineal N o lineal Lineal No lineal

Figura 5.1. Clasificación de modelos de regresión


La relación fija para un conjunto de datos de un estudio, se caracteriza por una
ecuación de predicción que recibe el nombre de ecuación de regresión o modelo
probabilístico, en contraposición de un modelo determinístico. Un modelo se
denomina determinístico cuando el valor de y es único para un único valor de x. Es
decir, dado un valor de entrada se obtiene un único valor de salida cada vez que se
opere el modelo, mientras que en un modelo estocástico o probabilístico que incluye
una o varias componentes probabilísticas, para un valor de entrada se obtiene una
respuesta diferente cada vez que se opere el modelo, tal como se muestra en la Figura
5.2. El modelo determinístico genera una relación de causa-efecto, mientras que el
modelo estocástico no necesariamente.

-'"

Modelo Modelo Posibles


salidas
~
.
~

Entrada determinístico Única


Entrada estocástico (n respuestas)
salida ~

(a) (b)

Figura 5.2. Esquema operativo de un modelo determinístico (a) y un modelo


estocástico (b).

ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS 125


VIVIANA VARGAS FRANCO

Algunos ejemplos de modelos determinísticos son: la ecuación del balance


hidrológico, la fórmula racional y el hidrograma unitario, y algunos ejemplos de
modelos estocásticos son: series de lluvias, series de caudales, niveles de embalses
y eventos extremos.
La Figura 5.3 presenta el ejemplo de una ecuación determinística correspondiente
al balance de agua en un embalse (a) y un ejemplo de un modelo estocástico, que
estima la remoción en un sistema de tratamiento de agua por Filtración Lenta en
Arena (FLA) (h).

Et
Evapotranspiración

Qv
Caudales de entrada Excesos
EMBALSE

dS
Cambio en almacenamiento
P Suministro
Precipitación Q

Infiltración
F

BALANCE: 1 + P = Et + F + Qv + Q + dS
a) Esquema de un modelo determinístico. Balance de agua en un embalse

F.L.A.
Ag Ul1 ,- -.
atl lente

¡....

agua

•• Posibles valores en el

arena • agua etluente

Agua efluente = J30+ J3¡agua afluente + Error

b) Esquema de un modelo estocástico. Estudio de la eficiencia


de unfiltro lento en arena (FLA)

Figura 5.3. Ejemplos físicos de un modelo determinístico (a) y un modelo


probabilístico (b).

126 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 5 - MODELOS DE REGRESiÓN

5.1 Modelo de regresión lineal simple


El análisis de regresión lineal simple se realiza cuando se pretende explicar una
variable dependiente, y , cuantitativa, en función de una variable independiente, x,
cuantitativa. Este modelo permite estimar la función lineal matemática entre x y y,
con el fin de hallar la estimación media de y, a partir de valores de x, tal como se
presenta en la ecuación 5.2.

(5.2)

Donde:
Y¡ : Valores de la variable de respuesta o dependiente. Genera un vector fila
T
transpuesto de dimensión (n x 1): [Y¡'Y]'Y3' .......'Ynl
x¡ Valores de la variable independiente. Genera un vector fila transpuesto de
dimensión (n x 1) : [x¡, x]' x 3 , ••••••• , xnl T
}Jo Valor poblacional desconocido, el cual se estima a través del conjunto de datos.
Es el valor de y cuando la variable x toma el valor de O. Punto de corte con el
ejey
}J, Valor poblacional desconocido, el cual se estima a través del conjunto de
datos. Es el valor de la pendiente de la recta.
E¡ Error aleatorio. Genera un vector de dimensión (n x 1) : [E" E], E3 , ....... , Enl T

Los errores aleatorios, E¡ , son valores no observables, en estos se pueden recoger


los posibles errores de medida, tanto de la variable x como de la variable y, así
como los errores en la especificación lineal del modelo y que pueden afectar a la
variable dependiente del modelo.
Los coeficientes poblacionales de correlación}Jo y }J, se estiman con los datos
muestrales del estudio generando los valores de a y b respectivamente, como se
presenta a continuación:

Modelo poblacional

¡ ...--
. - Estimación de parámetros
y=a+bx Modelo muestral

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 127


VIVIANA VARGAS FRANCO

La predicción de y se realiza a través de valores promedios o valores esperados;


a través de la ecuación 5.3 se puede estimar el valor promedio de y para un valor
específico de x .

I'xIy = E (y / x) = E ( Y) = y = a + bx (5.3)

Donde: I'ylx = E (y / x) = E ( Y) es la esperanza de y.

A partir de la ecuación 5.3 los errores se pueden calcular como e¡ = !y¡ - y¡!; es la
diferencia entre el valor muestral y y el valor estimado de la línea de regresión, y.
Existen dos formas de estimar los coeficientes del modelo de regresión (a y b): el
método de los mínimos cuadrados y el método de máxima verosimilitud. El método
de los mínimos cuadrados consiste en estimar los coeficientes de regresión, de tal
forma que se minimicen las distancias de los puntos muestrales a la recta estimada,
como se ilustra en la Figura 5.4. El método de máxima verosimilitud consiste en
hallar un modelo matemático o función de verosimilitud con los datos, de tal forma
que maximice la probabilidad de los parámetros del modelo.

y= a +bx
Variable y

Variable x

Figura 5.4 Esquema gráfico del método de mínimos cuadrados.

128 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

En general, la técnica más utilizada es la de mínimos cuadrados, que consiste en un


método de ajuste de curvas, sugerido originalmente a principios del siglo XIX por el
matemático francés Adrien Legendre (1752-1833).
Tal como se presentó anteriormente, el método de los mínimos cuadrados consiste en
hallar los valores de los parámetros del modelo de regresión, a partir de minimizar
la suma total de residuos o errores aleatorios generados por la estimación de la línea
de regresión, como se muestra en la ecuación 5.4 .

ft n ft

¿ eJ = ¿ (YI- y¡i =¿ (YI- a - bx¡i


1- / ¡- / 1- /
(5.4)

Para obtener los mínimos de la ecuación 5.4 se deben encontrar primero las derivadas
parciales con respecto de a y b, tal como se presenta en las ecuaciones 5.5 y 5.6,
respectivamente.

(5.5)

(5.6)

Seguidamente se igualan a cero las dos ecuaciones anteriores; generando las


expreSlOnes:

- 2 ¿ (y¡ - a - bx¡i = O
-2 ¿x¡(y,-a-bx,i= O

Aplicando propiedades del operador sumatoria, se obtienen las expresiones:

¿ Y¡ - ¿ a- b ¿ x¡ =O
¿ x¡Y¡- a ¿x¡-b ¿ x/=O

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 129


VIVIANA VARGAS FRANCO

Realizando operaciones algebraicas, se genera el sistema de ecuaciones 5.7 ,


denominado sistema de ecuaciones normales de la regresión, el cual es un sistema
de dos ecuaciones con dos incógnitas: a y b.

" "
na+b ¿x¡=¿y¡
¡- 1 ¡- I
(5.7)
"
a ¿x;+ b
" x/ = ¿x¡y¡
" ¿
¡- 1 ;- 1 ;- 1

Utilizando alguno de los métodos para resolver sistemas de ecuaciones lineales, se


obtiene el valor de b a través de la ecuación 5.8.

" ""
=;
n (¿x;y¡) - ( LXi)
;
(¿y;)
¡
b (5.8)
" "
n (¿x/) - ( ¿xli
¡ ;

Una vez calculado b se puede despejar de alguna de las ecuaciones del sistema 5.7
el valor de a, generando la ecuación 5.9.

" "
¿y¡- b
---'--1
LXi = _¿YI
_
- -=----1_....:....1-....:....1_
b¿x1
a n =y-bx (5.9)
n n

Es decir, los coeficientes poblacionales'po y.PI se estiman a través de los datos


muestrales, por el método de los mínimos cuadrados, con las ecuaciones 5.8 y 5.9.
Primero se debe calcular el coeficiente b y luego el coeficiente a. a es el punto
de corte con el eje y; es el valor de la variable x, cuando y = OY b es la pendiente
de la recta; es la razón media de cambio de y por cada unidad de cambio en x.
En la actualidad el cálculo de estas constantes se puede realizar de forma ágil
utilizando diferente tipo de software y estimar diversos modelos para un estudio
en particular.
De manera similar, se pueden hallar los coeficientes de regresión de un modelo
de regresión, con los parámetros en forma lineal, realizando las derivadas
parciales, encontrando y solucionando el sistema de ecuaciones normales
respectivo.

130 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MOOELOS OE REGRESiÓN

5.2 Supuestos del modelo de regresión lineal simple


Para obtener los estimadores de los parámetros desconocidos del modelo de regresión
lineal simple se debe cumplir un conjunto de supuestos, para el uso adecuado e
interpretación del modelo de regresión. Algunos de estos supuestos se requieren para
el análisis de inferencia de los parámetros, el cual no se desarrolla en el presente
texto. Los supuestos se presentan a continuación:

• El modelo es lineal en las variables y en los parámetros


Las variables independiente y dependiente que se analizan en el modelo se deben
encontrar en forma lineal, en la primera descripción del modelo o a través de un
proceso de transformación, y los parámetros o coeficientes de regresión asociados
a dichas variables también deben aparecer en forma lineal. Este supuesto es
fundamental, puesto que las técnicas estadísticas son diferentes para modelos
lineales que para modelos no lineales. Por ejemplo, el modelo y =.Po +.P¡X + e es
lineal en sus variables y en sus coeficientes de regresión, mientras que el modelo
y =.P~ I + e no es lineal en la variable independiente, pero lo es en sus parámetros.
Sin embargo, este modelo se puede transformar en un modelo lineal, como se
presentara más adelante en este capítulo.

• El modelo está correctamente definido


Este supuesto implica que se han incluido las variables explicativas o independientes
adecuadas dentro del modelo de regresión. Además no se deben haber omitido
variables independientes relevantes para explicar la variable dependiente, y la
relación matemática debe permanecer en el período muestral, lo cual implica que
los coeficientes de regresión son constantes.

• Variable independiente no estocástica


Los valores de la variable x son fijos para muestras repetidas, x es una variable
no estocástica, lo que equivale a realizar el análisis estadístico condicionado
a la muestra que se ha observado. De este modo, se supone que el modelo de
regresión y sus supuestos se aplican al conjunto particular de los valores de la
variable dependiente, x.

• Identijicabilidad de los parámetros


Significa que los coeficientes'po y.PI se pueden estimar de forma única a partir de
unas observaciones dadas, lo cual sucede cuando la variable x no sea constante, es
decir, que presente variabilidad. Si la variable x es constante, el modelo presentaría

ESTAOlsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 131


VIVIANA VARGAS FRANCO

dos términos constantes: el asociado al parámetro fJo y el asociado al parámetro fJ/


y ambos coeficientes medirían el mismo efecto.

• La esperanza de los errores condicionada a la información dada es nula


Significa que las observaciones de x no contienen información sobre el valor esperado
de ej. Este supuesto se utiliza en el proceso de inferencia de los parámetros estimados,
en forma algebraica:

E {e¡} ro
E {el] O
E { e;} = O => E { e;} = I =
E {en]1 IO

• Los errores presentan varianza constante


Esto significa que la varianza de los errores es constante, en forma algebraica:

v (e¡) = rl = constante i = 1, 2, 3, ....., n

• Los errores se distribuyen de forma normal


En forma estadística significa que la distribución de los errores es simétrica, es decir,
presenta una distribución normal, con media cero y varianza rl.

E ( e¡) - N ( o,rl )
El cumplimiento de este supuesto permite realizar inferencias sobre los parámetros
estimados del modelo de regresión.

5.3 Diagrama de dispersión


Existen diversas opciones para estudiar la forma del modelo de regresión: el primero
es a través de la relación conceptual de las variables analizadas, esto es, si se conoce
a priori la ecuación matemática de la relación entre las dos variables.
Otra es a través del diagrama de dispersión, que consiste en graficar en el plano
cartesiano las parejas de datos observados para realizar el análisis de regresión.
Este permite visualizar la tendencia del conjunto de datos y da una idea del tipo de
relación matemática existente entre las dos variables analizadas. El diagrama de
dispersión, permite evidenciar si existen datos que se alejan de la tendencia general

132 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 5 - MODELOS DE REGRESiÓN

del conjunto de datos; puntos atípicos u outliers, los cuales se pueden confirmar a
través de las gráficas de cajas y alambres.
Estos diagramas se pueden realizar con relativa facilidad en diferentes programas de
computador. En la Figura 5,5 se presenta el esquema general de un diagrama de dispersión,
el cual representa una gran ayuda en la definición de la ecuación matemática que permita
estimar la tendencia de los datos. Por ejemplo, en la Figura 5,6 se evidencia una tendencia
de los datos a una línea recta, con pendiente positiva y corte en el origen.

••• •
Yi
:

.
- •••-+-¡•••••

•~* ~ x

. ••• •
Xi

~
•• •

Figura 5.5 Esquema general de un diagrama de dispersión.

Ejemplo 5.1 Se tienen las medidas de sólidos suspendidos y turbiedad, evaluados


en una estación de monitoreo sobre el río Cauca, en el departamento del Valle
del Cauca. (Fuente: Cinara,1991), como se presentan a continuación:

Se desea calcular un modelo de regresión lineal que permita estimar valores


de sólidos suspendidos a partir de valores de turbiedad, es decir, la variable
dependiente, y, es sólidos suspendidos, pues esta es la que se desea estimar a
partir de la variable independiente, x; turbiedad.
Realizando el gráfico de dispersión entre turbiedad y sólidos suspendidos, se
observa en la Figura 5.6 que esta tendencia es una línea recta y que la relación
es directa, es decir, a medida que aumentan los niveles de turbiedad aumentan
los niveles de sólidos suspendidos.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 133


VIVIANA VARGAS FRANCO

1200

=
~ 1000
!. •
'" 800

"ª5
~
600
~
::s
'" 400
~'"
-
~
200

O
O 200 400 600 800
Turbiedad (UNT)

Figura 5.6 Diagrama de dispersión entre las variables sólidos suspendidos (y) y
turbiedad (x).
Para hallar los parámetros a y b del modelo de regresión lineal se presenta en la
Tabla 5.1 el cálculo de las operaciones requeridas para su estimación.
Tabla 5.1 Datos de turbiedad y sólidos suspendidos en una estación del río Cauca,
para ser analizados en un modelo de regresión lineal.
.
Sólidos
Número de Turbiedad
observación suspendidos
Fecha (UNT)
(mg/l) Xi * X, x, * y,
i Xi
Yi
1 04·Mar-91 42 71 1764 2982
2 07-Mar·91 72 146 5184 10512
3 11·Mar·91 360 505 129600 181800
4 14-Mar·91 35 61 1225 2135 ;
5 08·Abr·91 65 136 4225 8840
6 11·Abr·91 120 169 14400 20280
7 15·Abr·91 100 190 10000 19000i
8 14·May-91 190 269 36100 51110 I
9 16·May-91 650 978 422500 635700
10 20·May-91 230 394 52900 90620
11 23·May-91 105 176 11025 18480
12 27-May-91 75 120 5625 9000
13 30·May-91 69 99 4761 6831

Continúa en la página siguiente

134 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO 5- MODELOS DE REGRESiÓN

Viene de la página anterior

Sólidos
Número de Turbiedad
observación Suspendidos
Fecha (UNT) x¡*x¡ X¡*Yi
(mgfl)
i x¡

14 04·Jun·91 125 133 15625 16625
15 06·Jun·91 85 140 7225 11900
16 11·Jun·91 32 53 1024 1696
17 13·Jun·91 34 54 1156 1836
18 17·Jun-91 85 123 7225 10455
19 24-Jun·91 450 568 202500 255600
20 02·Jul·91 51 84 2601 4284
21 04-Jul·91 37 73 1369 2701
22 11·Jul-91 62 84 3844 5208
21
¿=suma 3074 4626 941878 1367595
;=/

Media 139,727273 210,272727

Utilizando los resultados de la Tabla 5.1 y las ecuaciones 5.8 y 5.9 se tienen los
siguientes resultados para los coeficientes de regresión a y b.

b = 22 (1367595) - ( 3074 )(4626) = 1 40765


22 (941878) - (3074/ '

a = (210,272727 -1,40765) (139,727273) = 13,5856


Entonces, el modelo de regresión lineal que relaciona turbiedad y sólidos
suspendidos en la estación de monitoreo en el río Cauca queda definido por la
ecuación 5.10.

E (y) =y = SS = 13,5856 + 1,40765 * TU (5.10)

El valor del intercepto en algunas ocasiones no tiene significado práctico, como


en este caso; significa que para un valor de turbiedad de O unidades, los sólidos
suspendidos son de 13,58 mg/l. El valor de la pendiente significa que por cada
unidad de cambio en los niveles de turbiedad, los sólidos suspendidos aumentan en
promedio en 1,4 unidades.

ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss 135


VIVIANA VARGAS FRANCO

Con el modelo de regresión hallado se pueden realizar estimaciones del valor


promedio de sólidos suspendidos a partir de un valor fijo de turbiedad. En general, se
recomienda realizar estimaciones en el rango de valores de la variable independiente
turbiedad, es decir [ 32; 650 J UNT, esto con el fin de evitar posibles inconsistencias,
debido a que no se conoce la forma de la relación por fuera de este rango.
Por ejemplo, para un valor de turbiedad de 50 UNT se espera que el valor medio de
sólidos suspendidos en el río Cauca, sea:
ss = 13,5856 + 1,40765 ( 50 UNT) = 83,9681 mgll
Para un valor de turbiedad de 450 UNT se espera que el valor medio de sólidos
suspendidos en el río Cauca sea:
ss = 13,5856 + 1,40765 ( 450 UNT) = 647,03 mgll
Valores por fuera del rango de turbiedad no se recomiendan estimar, pues la fuerza
del modelo de regresión es la estimación y no el pronóstico, para esto último se
utilizan con mucha confiabilidad los modelos de series de tiempo.

5.4 Otros modelos de regresión


Aunque la ecuación de la línea recta es una de las más utilizadas, en general un
conjunto de datos puede ajustarse a otra función matemática para describir en
mejor forma la asociación entre las variables. Se considera un modelo lineal si los
parámetros a estimar aparecen de manera lineal en la ecuación. En la Tabla 5.2 se
presentan diversos modelos lineales, en los parámetros de regresión.
Tabla 5.2 Modelos de regresión lineales en los parámetros de regresión.
Nombre de la función Ecuación
Parábola o cuadrático y =.Po + .PI X + .P1K + 8
Polinomio de grado 3·cúbico y =.Po + .PI X + .P1K + .P3 r +8
Polinomio grado-n y =.Po + .PI X + 'pzK + .P3 r + .•.... + .PIIX' + 8
Senoidal y =.Po + .PIsen x + .P2COS X + 8
logarítmica In y =.Po + .PI In x + 8
Semi logarítmica y =.Po + .PI In x + 8

Inversa y
.PI
=.Po + -+8
x
Continúa en la página siguiente

136 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 5 - MODELOS DE REGRESiÓN

Viene de la página anterior


Nombre de le funci6n Ecuaci6n
Raíz cuadrática 1 y =flo + fl¡x'h + 8

Raíz cuadrática 2 y =flo +fl¡x 'h + fllX + 8


Cuadrático del logarítmico y =flo + fl¡lnx + fll( Inxl + 8
Y =flo + fl¡ e-x + 8
Y = flo +fl¡~ + fll ln x + 8

Y =flo + fl¡x + fll ~ + 8


Otras ecuaciones lineales Y =flo + fl¡lnx +fl2 ..¡x+ 8
Y =flo + fl¡x·5 + fl2 eX +8
Y =flo + fl¡lnx +fl2(ln xl + 8
In y = In flo +fl Iln x + 8

Los modelos lineales son útiles en muchas situaciones, y aunque la relación entre
la variable de respuesta y las variables regresoras no sea lineal, en muchos casos
la relación es "linealizable" en el sentido de que haciendo transformaciones con
logaritmos o funciones inversas en la variable de respuesta y/o algunas variables
regresoras, la relación se convierte en lineal. Sin embargo, existen situaciones
donde una relación no lineal no es factible su linealización. En este último caso se
denomina modelo de regresión no lineal (El estudio de un modelo de regresión no
lineal es muy extenso y complejo, pero existe una amplia literatura sobre el tema).
En la Tabla 5.3 se presentan ejemplos de modelos no lineales y su transformación a
modelos lineales en los parámetros y variables de regresión.
Tabla 5.3 Modelos de regresión no lineales y su transformación a modelos de
regresión lineales.
Funci6n Modelo no lineal Modelo transformado a lineal

1 1
Hipérbola 1 y= +8 -=fl
y o+fl¡ X+8
flo+ fl1x

x 1 fl¡
Hipérbola 2 y= +8 y=flo--X+ 8
flox-fl¡

Contmúa en la págma sIguIente

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 137


VIVIANA VARGAS FRANCO

Viene de la página anterior

Exponencial 1 y =fJofJ/ +& In y = In fJo + x In fJ¡ + &

Exponencial 2 y =fJOeP + &


'X
Iny = InfJo + fJ¡x + &
Geométrica o
potencia
y = fJOxP ' + & In y = In fJo + fJ¡ In x + &

1
Raíz y =fJofJ~+ & Iny=lnfJo+-X Infl¡+&

1
logística 1 Y = fJ fJ; + & In y = -lnfJo -x InfJ¡+ &
o

logística 2 y ~+&;fJ¡<O In (fJ] -1) =fJo + fl¡x + &


Y

logística 3 y =fJo (l-eP'X) + & ; fJ¡ < O In (1- to )=fJ¡x+&

Gamma o
especial de Hoerl y =fJOeP1XxP' + & In y = InfJo + fl¡x + fJ]ln x + &

Gauss y =fJo eP¡{X -fJ,/ + & ; fJ¡ < O Iny = InfJo + fJ¡ (x-fJ]l + &

Especial 1 y =flo eP'/. + & Iny=lnfJo + fJ¡ +&


x

1 1
Especial 2 Y =fJo+fJ¡e- x +&

En la Tabla 5.4 se muestra el sistema de ecuaciones lineales para algunos modelos


de regresión, las cuales se pueden resolver con un conjunto específico de datos, para
estimar los parámetros a y b.

138 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 5 - MODELOS DE REGRESiÓN

Tabla 5.4 Ecuaciones normales para algunos modelos de regresión.

Modelo de regresi6n lineal Sistema de ecuaciones normales


n n

y=Po+p¡x+e poblacional na+b ¿xl = ¿y¡


¡- / ¡- /
n n n

y=a+bx mues/ral a ¿xl + b


1- /
¿
;- /
x: = ¿X¡y¡
;- /

n n
y=po+p/lnx+e poblacional na+b ¿Inx¡= ¿y¡
¡- / ¡- /
n n n
y=a+blnx mues/ral a ¿Inx¡+b ¿(lnxl/= ¿y¡lnx¡
;- 1 ¡- l ¡- J

n n
Y = PoxtI'+ e
lny = InPo +p¡lnx +e
} poblacional n In a + b ¿ In x¡ = ¿
;- / ;- /
In y¡

n n n

Iny=lna+blnx mues/ral In a ¿In x¡+ b ¿(In x;/ =


1- /
¿
;=1
In x¡ Iny¡
/- /

n n
y =Po efl,x+ e
Iny=lnPo+p¡x+e } poblacional n In a + b ¿x¡ =
;- /
¿
i=I
Iny¡
n n n

In a ¿x;+ b¿(X)2 = ¿x¡lny;


Iny=ln a +bx mues/ral ;- / 1- / 1- /

n 1 n
y=Po+ p¡ +e poblacional na+b ¿-=¿y¡
x ¡_ I Xi ¡_ I

n 1 n 1 n y.
b
y=a+ -x mues/ral a¿-+b¿-=¿~
;_1 X¡ 1_ / xi ¡_ I x¡

Y =Pop/'+ e
1 } poblacional n In a + In b ¿ -x¡1 = ¿
n

¡_ / ¡_ /
n
In y¡
Iny = In Po +-X Inp¡+e
n 1 n 1 n Iny .
1 Ina¿-+b¿2=¿-'
Iny=lna+ -X Inb mues/ral ¡ _ / x¡ 1_ / XI ¡_ / x¡

n n n
na +b ¿xl+c ¿x/= ¿y¡
;- / i=I i- J
y=Po+P¡X+P2r +e poblacional n n n n
a ¿x¡+b ¿x/+c ¿x; = ¿x¡y¡
;- / ¡- I ¡=/ ;=/
y=a+bx+d mues/ral n n n n
a ¿x:+ b ¿x/+ C ¿x/ =
;- / ;- / ¡- I
¿
; ""' 1
X¡2y¡

Continúa en la página siguiente

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 139


VIVIANA VARGAS FRANCO

Viene de la página anterior

Modelo de regresión lineal Sistema de ecuaciones normales

na+b ix,'h+eix,=iy,
¡- I 1- 1 ¡- 1
y = flo + fl¡x'h + fllX + e poblaeional
a ix,'h+bix,+e ix~=ix:y,
/- / /- / /- / ;- /
y=a+bx'h + ex muestral
a ix,+bix~+e i x / = ix/y/
/- / /- / /- 1 ¡- I

y =flo + fl¡ln x + fll (In x / + e poblacional


na + b t}n x/ + c
/- /
f (In x/l f
/- /
=
1- /
y/

y = a + blnx + e (In x/ muestral


a f/nx,+b f(lnx)'+c f(lnx¡}J=
1- / /- 1 /- /
f
1- /
y/In x/

a f (In x¡l + b f (In xli + c f (In XI)' f y¡ (In x¡l


/- / /- / 1- 1
=
/- /

y = floefl'xxP' + e } n In a +b fx¡+c f/nx¡ = f Iny¡


lny = Inflo + fl¡x + fllln x + e poblacional /- 1 /- / /- /

Ina fx¡+b fx:+c fx¡ (Inx¡l= fX¡lny,


'-1 /-/ ¡- I ¡- l
lny =ln a +bx+clnx muestral
In a f/nx¡+b fX¡lnx¡+e f(lnx¡l= f/nY¡lnx¡
1- 1 /- / ;- / ,- /

- fl2 +e ;fl¡< O }
Y 1 +efl·+fl,x poblacional n n e
na + b ¿ x¡ =¿ In ( - - 1 )
In (L
y
-1 )=flo+fl¡x+e ¡- ¡ /- ¡ y¡
,. " ,. e
a ¿x¡+b ¿x/= ¿x¡ln (- -1)
e ¡- / /- / /- / y¡
In(--1)=ax+b muestral
y

n n
y =fl o efl,(x- fl ,/ + e,°fl¡<O } n In a + b ¿ (x¡ - e/ = ¿ In y¡
/- / ¡- /
Iny=lnflo+fl/(x-fll/ +e poblacional

In a i(x,-e/+ b i(x¡-e/= i (x,-e/lny¡


Iny =ln a + b(x- e/ muestral /- / /- ¡ /- /

140 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPrTULO 5- MODELOS DE REGRESiÓN

Ejemplo 5.2 Calcular el modelo potencial y =flo X fJ1 + e para estimar niveles
de sólidos suspendidos a partir de valores de turbiedad, en una estación de
monitoreo del río Cauca, con los datos presentados en el ejemplo 5.1. Con el
fin de seguir los procedimientos para estimar los coeficientes de regresión de
la línea recta, se debe linealizar la ecuación potencial aplicando logaritmo
natural, generando la ecuación 5.11, que es lineal en los parámetros de
regresiónfloY fll '

In y= Inflo + fllln x + e ecuación poblacional (5.11)


In y = In a + b In x ecuación muestral

En la Figura 5.7 se presenta el diagrama de dispersión para esta ecuación.

.,
7

7

~
:;¡;
.
1::
~
6

:oc 6
''""
~
:::: 5
.~

'"
~ 5
~
....¡
4

3
3 4 4 5 5 6 6 7 7
LN de turbiedad

Figura 5.7 Diagrama de dispersión para el logaritmo de turbiedad y el logaritmo


de sólidos suspendidos.

Para estimar a y b se define en la ecuación 5.12 la fórmula de los residuales para el


modelo transformado a logaritmos.
n n n
Le: = L(y¡-y¡l =L(lny¡-ln a-b Inx)2 (5.12)
/- 1 ¡=1 ¡= I

Hallando las derivadas parciales con respecto a cada uno de los parámetros a estimar,
se obtienen las ecuaciones 5.13 y 5.14.

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 141


VIVIANA VARGAS FRANCO

ooa~e: = _2a f(lny,-In a-b Inx¡)


¡-1
(5.13)

oLe: n
~ =- 2
ob
¿ In x¡ ( In Y¡ -In a - b In x¡)
¡=1
(5.14)

Igualando a cero simultáneamente las dos ecuaciones anteriores y despejando se


genera el sistema de ecuaciones (5 .15), denominado sistemas de ecuaciones normales
de la regresión, para el modelo potencial. Este sistema coincide con el presentado
en la Tabla 5.4.
n n

n In a + b ¿ In x¡ = ¿ In y¡
1-1 1-1

n n n (5.15)
In a ~)nx¡+b ¿(Inx,l=
¡-1 ¡-1
¿
¡-1
Inx¡ Iny,

Con el fin de calcular las diversas sumas que se requieren para la estimación de
los coeficientes, se presentan en la Tabla 5.5 los datos que permiten reemplazar las
ecuaciones normales del modelo potencial, para el ejemplo 5.2.
Tabla 5.5. Valores que permiten estimar el sistema de ecuaciones normales del
modelo potencial y =/Jo xP 1 + e
Sólidos In
turbiedad
suspendidos In Un tur)x Un tur)x
Observación (sólidos
fecha (x¡} (turbiedad) (lntur) Un sólidos)
i (y¡} suspendidos)
(UNT) ( lnx¡} (lnx;/ (lnx,lny¡)
(mgll) ( lny,)
1 04·Mar·91 42 71 3.74 4,26 13,97 15,93
2 07·Mar-91 72 146 4,28 4,98 18,29 21,31
3 ll -Mar-91 360 505 5,89 6,22 34,65 36,64
4 14-Mar-91 35 61 3,56 4,11 12,64 14,62
5 08-Abr-91 65 136 4,17 4,91 17,43 20,51
6 ll-Abr-91 120 169 4.79 5,13 22,92 24,56
7 15-Abr-91 100 190 4,61 5,25 21,21 24,16
8 14-May-91 190 269 5,25 5,59 27,53 29,36

Continúa en la página siguiente

142 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5 - MODELOS DE REGRESiÓN

Viene de la página anterior


Sólidos In
turbiedad In (In tur}x (In tur}x
Observaci6n suspendidos (sólidos
fecha (x¡) (turbiedad) (Inturl (In sólidosl
i (y¡) suspendidosl
(UNT) ( Inx¡) (In xi (lnx¡lny¡)
(mgll) ( Iny¡)
9 16·May·91 650 978 6,48 6,89 41,95 44,60
10 20·May·91 230 394 5,44 5,98 29,57 32,50
11 23·May·91 105 176 4,65 5,17 21,66 24,06
12 27-May·91 75 120 4,32 4,79 18,64 20,67
13 30·May·91 69 99 4,23 4,60 17,93 19,46
14 04·Jun·91 125 133 4,83 4,89 23,31 23,61
15 06·Jun·91 85 140 4,44 4,94 19,74 21,95
16 11·Jun·91 32 53 3,47 3,97 12,01 13,76
17 13·Jun·91 34 54 3,53 3,99 12,44 14,07
18 17·Jun·91 85 123 4,44 4,81 19,74 21,38
19 24·Jun·91 450 568 6,11 6,34 37,32 38,75
20 02·Jul·91 51 84 3,93 4,43 15,46 17,42
21 04·Jul·91 37 73 3,61 4,29 13,04 15,49
22 11·Jul·91 62 84 4,13 4,43 17,03 18,29
22
L=suma 3074 4626 99,88 109,98 468,47 513,09
I- l

Utilizando los resultados de la tabla anterior y reemplazando en las ecuaciones 5.15 .


El sistema de ecuaciones lineales para el modelo potencial queda expresado como
se presenta a continuación:

22 In a + 99,88 b = 109,98
99,88 In a + 468,47 b = 513,09

Resolviendo este sistema de ecuaciones con incógnitas In(a) y b, se tiene que:

b = 0,917814 Y In a = 0,8322

Se aplica antilogaritmo para obtener el valor de a:

a =2,2984

Por lo tanto el modelo de regresión queda definido por la ecuación 5.16 ó 5.17.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 143


VIVIANA VARGAS FRANCO

In SS = 0,8322 + 0,9178 In TU (5.16)

SS = 2,2984 TUo. m814 (5.17)

Los coeficientes de la ecuación 5,16 se pueden interpretar de la siguiente forma:


In a = 0,832 ~ para un valor de turbiedad de 1 UNT, el valor del logaritmo de
sólidos suspendidos es de 0,8322.
b = 0,9178 ~ por cada unidad de cambio en el logaritmo de turbiedad, el logaritmo
de sólidos suspendidos aumenta en 0,9178.
En la ecuación 5,17 el coeficiente de la potencia b = 0,917814 tiene la misma
interpretación que en la ecuación 5,16, mientras que el valor de a = 2,2984 es el
valor de sólidos suspendidos, en mg/l, para un valor de turbiedad de 1 UNT.
Como se puede apreciar, las variables sólidos suspendidos y turbiedad se ajustaron
de manera adecuada al modelo de la línea recta y al modelo potencial, tal como lo
evidenciaron los respectivos diagramas de dispersión. Surge entonces, de manera
natural, la pregunta: ¿Cuál es el mejor modelo? Para responder esta pregunta es
necesario estudiar los conceptos de correlación, que se presentan en el siguiente
numeral.
En la Figura 5.8 se ilustran algunas gráficas de modelos no lineales en los parámetros,
pero que son linealizables por medio de una transformación matemática, como se
presentó en la Tabla 5.3.

144 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 5- MODELOS DE REGRESiÓN

, I
I
I ~ I ,
•t It
I

••
1-....¡
t t
I
I
I
• c-;.",.... I
I
I
••
I
v.- I
1M
I
-.----------------------------- • I

Jl
tic

61.

7 7
6>'

x x
116 116

y y

/1
6
y=ax 6 /1
--_-:y=ax
x 1 x

y b>O y b<O

y =a +blnx
y=a +blnx
X
X

Figura 5. 8 Tendencias de algunos modelos no lineales en los parámetros (Behar,


1996).

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 145


VIVIANA VARGAS FRANCO

, ,
,-u"" ,-_""
l:
b<'

" t------::;--------------- "1------------------------

x x

y
1
y (a + be-X)

l/a 1- - - - 1- - - - - - - - :.::.;:..::.::- - - - -

o x

(a> 0, b> 0, e > O) (a > 0, b> 0, e < O)


y , y ,
,,
,, "
,, y = a + be-x
, ,, , , , , ,

~
,,

y=a + be-x

a--r---------------------+ a
x x

Figura 5.8 Tendencias de algunos modelos no lineales en los parámetros


(Continuación) (Behar, 1996).

146 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

5.5 Coeficiente de correlación


Una pregunta que surge después de la estimación del modelo de regresión, es: ¿cuál
es la intensidad de la relación matemática entre las dos o más variables analizadas?
Las técnicas estadísticas que permiten responder y determinar el grado de intensidad
de la relación del conjunto de variables se denomina análisis de correlación. Un
indicador muy utilizado en el análisis de correlación es el denominado coeficiente
de correlación muestral, denotado por r, el cual se estima con el conjunto de datos
analizado.
El coeficiente de correlación muestral, r, fue definido por el investigador Kart
Pearson, aproximadamente en 1900. Este coeficiente describe la intensidad
lineal de la relación entre dos conjuntos de variables de nivel de intervalo
o de razón, y no proporciona necesariamente una medida de la causalidad
entre ambas variables. r es una medida de la dependencia estadística lineal,
es decir, la ecuación de la línea recta, de las variables x y y. También se le
denomina r de Pearson o coeficiente de correlación producto-momento de
Pearson, el cual se puede calcular con las ecuaciones 5.18, o, 5.19.

n n
¿(x¡-x)(y¡-y) ¿(xi-xl
¡- / ¡-/
r= =b (5.18)
n n n
¿(xi-xl ¿(y¡-il ¿(y¡-il
¡-/ ¡-/ ¡-1

Donde b, es el coeficiente de correlación estimado en el modelo de regresión


lineal.

(5.19)

Propiedades del coeficiente de correlación r


A continuación se describen las principales propiedades del coeficiente de
correlación:

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 147


VIVIANA VARGAS FRANCO

r es un valor adimensional, que no depende de la magnitud de las variables


analizadas.
• El valor del coeficiente r se encuentra entre: -1 ~ r ~ 1, en términos porcentuales
-100% ~ r ~ 100%.
• El coeficiente de correlación tiene el mismo signo que la pendiente de la ecuación;
(a) r> O sí y sólo si b > O; (b) r < O sí y sólo si b < O. Tal como se presenta a
continuación:

y y
r<'
6<'

x x



a) b)

Un valor de r == O significa que no hay correlación lineal entre las variables


estudiadas; las variables no presentan ningún grado de dependencia lineal(a) o
la dependencia es curvilínea (b) como se observa a continuación:

y y



• •
• r 'Z O •
• l •
.
• r -:: :, O
-=----.x
• • I •
•• x



t
a) b)

148 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

• Valores de r cercanos a O indican que hay dependencia estadística lineal débil,


por lo tanto las predicciones que se realicen a partir de la recta de regresión son
poco fiables . También, es posible en estos casos que la relación pueda ser no
lineal entre las variables. Si las variables son independientes r = O, la inversa no
es necesariamente cierta.
• Un valor de r cercano a 1 (o 100%) indica dependencia lineal fuerte (las variables
aumentan al mismo tiempo) y por lo tanto las predicciones que se realicen a partir
de la recta de regresión serán bastante fiables. En este caso existe una correlación
lineal positiva fuerte, como se observa en la siguiente figura:

y
r=:.1

• Un valor de r cercano a -1 indica dependencia lineal fuerte (una variable


disminuye a medida que la otra crece) y por lo tanto las predicciones que se
realicen a partir de la recta de regresión serán bastante fiables, en forma gráfica
se muestra a continuación:

y
r =:. -1

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 149


VIVIANA VARGAS FRANCO

Valores de r = 1 o r = -1 (r = 100% o r = -100 %) se presentan cuando los puntos


observados se encuentran sobre la línea de regresión; existe una dependencia
perfecta entre las dos variables analizadas, como se observa a continuación:

y.
r=-1

a) b)

Las variables x y y pueden estar correlacionadas linealmente, es decir, un valor


de r cercano a ±1 (±100%), lo cual no significa que x causa a yo y causa a x; el
modelo de regresión no evidencia una relación de casualidad.
Las variables x y y pueden ser depen,dientes, pero su coeficiente de correlación, r,
puede ser O, esto sucede en el caso de tendencias parabólicas o exponenciales, pues
el coeficiente de correlación mide el grado de asociación de la línea recta, de las
dos variables analizadas. Si dos variables aleatorias son independientes también
son no correlacionadas, pero si dos variables aleatorias no están correlacionadas
no necesariamente son independientes.
Se puede definir una guía que permita analizar la intensidad y la dirección del
coeficiente de correlación, tal como se presenta a continuación:

Correlación Correlación Correlación Correlación Correlación Correlación


negativa negati va negativa positiva positiva positiva
fuerte moderada débil débil moderada fuerte

r=-1 r=- 0.7 r=-0.4 r=O r=0.4 r=0.7 r=1

t No hay
j
Correlación correlación Correlación
negati va positi va
perfecta perfecta
Correlación negativa Correlación positiva
~ ~

150 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

La anterior guía debe tomarse como un apoyo en el análisis del coeficiente de


correlación, pero siempre el coeficiente de correlación debe analizarse en el contexto
del fenómeno en estudio.
¿Qué no mide r?
• El coeficiente de correlación muestral, r, no mide la magnitud de la pendiente,
es decir, la fuerza de la asociación lineal entre las dos variables en estudio, como
se presenta en seguida:

Igual valor de r

• El coeficiente de correlación muestral tampoco mide 10 apropiado del modelo


lineal, como se muestra a continuación:

/
...

Igual valor de r

Si r = 0,3 Y r = 0,6, significa, solamente, que se tienen dos correlaciones positivas,


una algo mayor que la otra. No se puede concluir que r = 0,6 indica una relación
lineal dos veces mejor que la indicada por el valor r = 0,3.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 151


VIVIANA VARGAS FRANCO

Ejemplo 5.3 Calcular el coeficiente de correlación del modelo lineal estimado


para sólidos suspendidos y turbiedad, presentado en la ecuación 5.10:

E (y) = y = SS = 13,5856 + 1,40765 * TU

En la Tabla 5.6 se muestran las columnas que permiten calcular el coeficiente


de correlación, el cual se estima a través de la ecuación 5.18.

¿(xi-xl 512356,36
r=b ;=1 = 1,40765* 1035004,36 = 0,99 o r = 99%
n

~:rY;-YY
;=1

El valor del coeficiente de correlación indica que los sólidos suspendidos y la


turbiedad, presentan una buena relación lineal, es decir, los datos muestrales
se encuentran muy cercanos a la recta estimada.

Tabla 5.6 Valores que permiten estimar el coeficiente de correlación para el


modelo de regresión lineal entre sólidos suspendidos y turbiedad.

Turbiedad Sólidos
Observación
IUNT) suspendidos Irng/ll (xi-xl (Y/-yi
i
Xi Yi
1 42 71 9549,20 19396,13
2 72 146 4586,00 4130,63
3 360 505 48523,28 86865.77
4 35 61 10966,28 22281,53
5 65 136 5583.08 5516,03
6 120 169 388,88 1703.21
7 100 190 1577,68 410.87
8 190 269 2528,08 3449,21
9 650 978 260385.68 589409,35
10 230 394 8150.48 33756.71
11 105 176 1205.48 1174.43
12 75 120 4188.68 8148,67
13 69 99 5001.32 12381.01
14 125 133 216.68 5970.65
15 85 140 2994,28 4937.87
Continúa en la página siguiente

152 ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 5 - MODELOS DE REGRESiÓN

Viene de la p ágina anterior

Turbiedad Sólidos
Observeción
(UNT) suspendidos (mg/l) (x¡-xl (Y¡-yl
i
XI YI

16 32 53 11603,60 24733.85
17 34 54 11176,72 24420.31
18 85 123 2994,28 7616.05
19 450 568 96273.68 127970,75
20 51 84 7871.24 15944,11
21 37 73 10551,40 18843,05
22 62 84 6040,40 15944.11
22
¿=suma 3074 4626 512356.36 1035004.36
¡- 1

Media 139.72 210.27

Ejemplo 5.4 Calcular el coeficiente de correlación del modelo potencial


y = 'p~J para sólidos suspendidos y turbiedad, considerando los datos del
ejemplo 5.2. El modelo se calculó en la ecuación 5.17:

ss = 2,2984 * TUO,91 7814

En la Tabla 5.7 se presentan las columnas que permiten calcular el coeficiente


de correlación, el cual se estima a través de la ecuación 5.18, con las variables
transformadas a In.

"
¿( In x¡-In xl
15,06
¡- I
r=b - - - - - - - =0,917814 * - - - = 0,98 o r = 98%
n 13,11
¿(lny¡-Inyl
¡- I

El valor del coeficiente de correlación indica que el logaritmo natural de los


sólidos suspendidos y el logaritmo natural de la turbiedad presentan una buena
correlación lineal, es decir, los datos analizados se encuentran muy cercanos
a la recta estimada.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 153


VIVIANA VARGAS FRANCO

Tabla 5.7 Valores que permiten estimar el coeficiente de correlación para el


modelo de regresión lineal entre In de sólidos suspendidos y In de
turbiedad.
S6lidos
Turbiedad
Observación suspendidos In Turbiedad In Sólidos
(UNT)
(rng/I) L,(In x/- bt x)' L,(In y/-In y)'
i Iny¡ Inx¡

1 42 71 3,74 4,26 0,64 0,54


2 72 146 4,28 4,98 0,07 0,00
3 360 505 5,89 6,22 1,81 1,50
4 35 61 3,56 4,11 0,97 0,79
5 65 136 4,17 4,91 0,13 0,01
6 120 169 4,79 5,13 0,06 0,02
7 100 190 4,61 5,25 0,00 0,06
8 190 269 5,25 5,59 0,50 0,35
9 650 978 6.48 6,89 3,75 3,56
10 230 394 5,44 5,98 0,81 0,96
11 105 176 4,65 5,17 0,01 0,03
12 75 120 4,32 4,79 0,05 0,04
13 69 99 4,23 4,60 0,09 0,16
14 125 133 4,83 4,89 0,08 0,01
15 85 140 4,44 4,94 0,01 0,00
16 32 53 3.47 3,97 1,15 1.06
17 34 54 3,53 3,99 1,03 1,02
18 85 123 4,44 4,81 0,01 0,03
19 450 568 6,11 6,34 2.46 1,80
20 51 84 3,93 4.43 0,37 0,32
21 37 73 3,61 4,29 0,86 0,50
22 62 84 4,13 4.43 0,17 0,32
12
¿=suma 3074 4626 99,88 109,98 15,06 13,11
;=1

Media 139,72 210,27 4,54 5,00

154 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 5- MODELOS DE REGRESiÓN

5.6 Coeficiente de determinación


El coeficiente de determinación muestral, R 2 , es la variación total de la
variable dependiente y , que es explicada, o se debe a la variación de la variable
2
independiente x. R expresa la proporción de la variación total de los valores de
la variable y , que puede ser explicada por una relación lineal con los valores de
la variable aleatoria x. Este se puede calcular mediante la ecuación 5.20.

(5.20)

Propiedades del coeficiente de determinación


2
• O S K S 1 en ténninos porcentuales; 0% S R S 100%
• KS,,2
• R 2 da una mejor interpretación de la fuerza de relación entre y y x , que el
coeficiente de correlación, r.
Un valor de r = 0.9435 indica una buena relación lineal entre x y y , lo cual implica
un valor de R 2 = 0.8902 u 89.02%, lo cual significa que aproximadamente el 89%
de la variación de los valores de y se deben al modelo de regresión estimado.

Ejemplo 5.5 Calcular el coeficiente de determinación en los modelos lineal y


potencial, para los sólidos suspendidos y turbiedad en una estación de monitoreo
del río Cauca, presentados en las ecuaciones 5.10 Y 5.17.

Modelo Tipo r K
ss = 13,5856 + 1,40765 * TU Lineal 0,99039 0,98087

SS = 2,2984 * TUO,917814 Potencial 0,98380 0,96786

En la ecuación lineal el 98% de la variación de los sólidos suspendidos es


explicada por el modelo, que indica un buen modelo, es decir, solo el 2% de
la variación de y no es explicado por el modelo. En la ecuación potencial el
96,8% de la variación de los sólidos suspendidos es explicada por el modelo,
lo cual representa un buen modelo, es decir, solo el 3,2% de la variación de y no
es explicado por el modelo, presentándose ligeramente mejor el modelo lineal.
Además, generalmente se prefiere matemáticamente el modelo de la línea recta,
por su sencillez y facilidad de interpretación.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 155


VIVIANA VARGAS FRANCO

Coeficiente de no determinación
A partir del coeficiente de determinación, se puede definir el coeficiente de no
determinación, el cual mide la proporción de la variación total de y, que no es
explicada por la variación de x y se calcula como 1 - R 2 . Por ejemplo, para un valor
de r = 0.8, el valor del coeficiente de determinación es R 2 = 0,64 o 64%, el coeficiente
de no determinación es 1- R 2 = 0,36 o 36%, es decir, e136% de la variación de y no
se debe a la variación de la variable x.
Algunos aspectos para definir el modelo de regresión
A continuación se presentan algunos aspectos a considerar en la estimación de un
modelo de regresión.
• Analizar el grado de causa-efecto entre las variables a correlacionar. Si se sabe
el comportamiento del fenómeno en términos de su ecuación diferencial, como
por ejemplo, si el crecimiento de y por cada unidad de x es constante, es decir:

Z= k. Entonces la ecuación de regresión debe considerarse como la función

y = kx + e, o sea la familia de modelos rectilíneos, que soluciona la ecuación


diferencial.
• Estar interesado en estimar la variable y a partir de valores de la variable x o
determinar la tendencia de esta relación.
• Desear determinar el grado de correlación lineal entre las variables y y x.
• Generar y analizar el diagrama de dispersión. Este paso es muy importante porque
permite establecer en forma gráfica la tendencia de la relación.
Seleccionar el modelo de regresión que tenga el valor más alto del coeficiente de
determinación y el menor número de variables en el modelo.

156 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPíTULO

6
Planeación estadística
en un proyecto
de investigación

La planeación del proceso de recolección y organización del conjunto de observaciones


o datos en un proyecto de investigación se constituye en etapas fundamentales en el
desarrollo de un estudio, pues estos aspectos permiten contribuir significativamente
con la coherencia entre la recolección, el análisis de datos y los objetivos de la
investigación. La planeación de la recolección de los datos incluye la organización,
el manejo, la sistematización, la definición de variables, sitios y frecuencias de
muestreo, definición de instrumentos de recolección de datos, así como la definición
de un sistema de información.
La planeación estadística debe hacerse desde la toma de las muestras hasta el análisis
de los datos y la producción de informes, con el fin de generar información confiable
y coherente con los objetivos de la investigación. Para desarrollar el proceso de toma
de datos es necesario que el grupo de trabajo comprenda y comparta los objetivos del
proyecto, conociendo los aspectos de carácter técnico y los conceptos a manejarse
dentro de la investigación.
En este capítulo se presenta el método utilizado para el manejo de información en el
proyecto de investigación sobre sistemas para potabilización de agua denominado
Proyecto Integrado de Investigación y Demostración de Métodos de Filtración
Gruesa para Sistemas de Abastecimiento de Agua, el cual fue desarrollado por el
Instituto Cinara de la Universidad del Valle en los años de 1990 a 1995, realizado en

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 157


VIVIANA VARGAS FRANCO

la Estación de Investigación y Transferencia de Tecnología localizada en la Planta


de Tratamiento de Agua Potable de Puerto Mallarino en predios de Emcali.
El Instituto Cinara de la Universidad del Valle realiza, entre otras actividades,
investigaciones sobre tecnologías simplificadas en el área del abastecimiento de
agua potable con el objeto de desarrollarlas y adecuarlas a las condiciones técnicas
y socio-económicas de países en vía de desarrollo y como aporte a los problemas
de abastecimiento de agua del país.
Una de las tecnologías investigadas, por el Instituto Cinara, es la tecnología de
Filtración en Múltiples Etapas (FiME), la cual es una alternativa tecnológica para
la potabilización de agua, con mucho potencial de ser utilizada en las zonas rurales,
pequeños y medianos municipios. Esta tecnología no requiere el uso de sustancias
químicas ni componentes mecánicos y puede ser fácilmente operada, mantenida y
administrada por miembros de la comunidad.
Cuando la tecnología FiME es seleccionada, diseñada, construida, operada y
mantenida adecuadamente, produce efluentes con bajos niveles de turbiedad, sin la
presencia de impurezas ofensivas y libre de entero-bacterias, entero-virus y quistes
de protozoarios. (Visscher, 1996).
Una planta de tratamiento FiME generalmente consta de tres etapas de
tratamiento: un Filtro Grueso Dinámico (FGDi), un Filtro Grueso (FG) y un Filtro
Lento en Arena (FLA), tal como se presenta en la Figura 6.1. El Filtro Grueso
presenta varias opciones, dependiendo de tres aspectos: número de unidades,
sentido del flujo del agua y la forma de instalación del material filtrante, que
en este caso son gravas. En esta investigación se compararon cinco opciones
de filtración gruesa (FG) operando en paralelo: Filtro Grueso Ascendente
en Serie(FGAS), Filtro Grueso Ascendente en Capas (FGAC), Filtro Grueso
Horizontal Modificado(FGHM), Filtro Grueso Horizontal (FGH) y Filtro Grueso
Descendente en Serie (FGDS).
El estudio de diferentes tipos de filtros gruesos se realizó para remover niveles
adecuados de turbiedad y otros parámetros, de tal forma que permitieran superar
las limitaciones de operación que tiene la tecnología de Filtración Lenta en Arena
(FLA), la cual presenta dificultades en su operación, cuando los niveles en la fuente
de abastecimiento supera en turbiedad 50 UNT en el afluente o cuando se presentan
amplias variaciones en períodos muy cortos, intensificando las labores de operación
y mantenimiento, reduciendo significativamente la eficiencia del FLA. (CINARA-
IRC,1989).

158 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTUlO 6- PlANEACIÓN ESTADfsTICA DE UN PROYECTO DE INVESTIGACiÓN

Etapas de filtración Desinfección terminal


,~--------------------------~, ,,-----------\
Filtro grueso Filtro lento
(FG) en arena
(FLA)

Figura 6.1 Esquema general de una planta de tratamiento con tecnología FiME.
(Galvis, 1999).

6.1 Objetivos del proyecto


El equipo de trabajo debe entender claramente los objetivos del proyecto, pues estos
permiten guiar permanentemente las diversas actividades, en general, y en particular
el proceso de recolección y análisis de datos.
Entre los objetivos del proyecto de investigación: "Proyecto Integrado de Investigación
y Demostración de Métodos de Filtración Gruesa para Sistemas de Abastecimiento
de Agua", se destacan los siguientes:
• Evaluar y comparar desde el punto de vista económico, físico-químico ,
bacteriológico e hidráulico, diferentes opciones de filtración gruesa: FGAS ,
FGAC, FGH, FGHM Y FGDS .
• Investigar diferentes alternativas de Filtración Gruesa orientadas a producir
criterios de selección, diseño, operación y mantenimiento.
• Promover alternativas de Filtración Gruesa que permitan superar las limitaciones
de la tecnología de la Filtración Lenta en Arena.

6.2 Descripción del sistema


Realizar el esquema del sistema en estudio es una de las primeras actividades a
realizarse dentro del desarrollo de un proyecto de investigación.
El sistema de evaluación de la calidad de agua de los filtros gruesos se presenta en
la Figura 6.2. La fuente de abastecimiento utilizada fue el agua del río Cauca en su
paso por la estación Juanchito de la ciudad Santiago de Cali. La tecnología FiME
evaluada consta de tres etapas: Filtro Grueso Dinámico (FGDi), Filtro Grueso (FG)
y Filtro Lento en Arena (FLA).

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 159


VIVIANA VARGAS FRANCO

Filtro Grueso Dinámico (FGDi). Consiste en una estructura que consta de una capa
de grava fina del orden de 0,2m-0,3m de profundidad. El agua que entra en la unidad
fluye sobre la capa fina de grava y parte de ella drena, a través del lecho, hacia una
tubería perforada y continua hacia la siguiente etapa en el sistema de tratamiento. La
velocidad de operación de estas unidades puede estar entre 1,0 m/h y 9,0 m/h.
Filtro Grueso Ascendente en Serie (FGAS). Consiste en tres estructuras, de 1,2 m a
1,5 m de altura, encontrándose en cada una determinado tamaño de grava. La grava
se coloca de gruesa a fina. El agua atraviesa las tres estructuras, desde la grava gruesa
hasta la grava más fina, con flujo ascendente. La velocidad de operación es del orden
de 0,3 m/h a 3,0 m/h.

FLA 1
-t.4 ~

FLA2
-2.2 ~

FLA3
~uenteO.1
deagua ~~[B~:]uP~~~~~ 3.4 ~

FLA4
-4.4 ~

FLA 5
-5.4 ~
Filtración Gruesa Descendente en serie 3 Etapas (FGDS3)

Figura 6.2 Sistema del estudio de comparación de Filtros Gruesos (Galvis,


1999)

Filtro Grueso Ascendente en Capas (FGAC). Consiste en una sola estructura, de 1,2 m
a 1,5 m de altura, en la cual la grava se encuentra instalada por capas, quedando en
el fondo el material grueso y en la superficie el material fino. La grava se coloca de
gruesa a fina. El agua atraviesa la estructura desde la grava gruesa hasta la grava
más fina, con flujo ascendente. La velocidad de operación es del orden de 0,3 m/h
a 3,0 m/h.
Filtro Grueso Horizontal (FGH). Consiste en una estructura rectangular, compuesta
de tres capas de grava las cuales van de gruesa a fina. El flujo del agua va en sentido
horizontal. La velocidad de operación es del orden de 0,3 m/h a 3,0 m/h.

160 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 6 - PLANEACIÓN ESTADfsTICA DE UN PROYECTO DE INVESTIGACiÓN

Filtro Grueso Horizontal Modificado (FGHM). Consiste en una estructura


rectangular, compuesta de tres capas de grava las cuales van de gruesa a fina. En este
estudio éste es una modificación del FGH. El flujo del agua va en sentido horizontal.
La velocidad de operación es del orden de 0,3 m/h a 3,0 m/h.
Filtro Grueso Descendente en Serie (FGDS) . Consiste en tres estructuras de 1,2 m
a 1,5 m de altura, encontrándose en cada una determinado tamaño de grava. La
grava se coloca de gruesa a fina. El agua atraviesa las tres estructuras, desde la grava
gruesa hasta la grava más fina, con flujo descendente. La velocidad de operación es
del orden de 0,3 m/h a 3,0 mIh.
Filtro Lento en Arena (FLA)~ Es una estructura que consiste en un lecho de arena
fina, de diámetro efectivo entre 0,2 mm y 0,3 mm, con una profundidad de 0,5 m
a 0,8 m, colocada sobre una camada de grava de medio de soporte y una tubería
como sistema de drenaje en el fondo. La altura total del filtro, desde el fondo hasta
la corona de los muros, puede variar de 1,90 m a 2,50 m y se puede construir en
hormigón reforzado, ferrocemento, piedra o mampostería.

6.3 Codificación del sistema


La codificación del sistema de evaluación permite una fácil ubicación, agiliza el
manejo y desarrollo del muestreo, así como el diligenciamiento de los formatos
de campo y de laboratorio y la retroalimentación al sistema de información. El
sistema de experimentación, en la presente investigación, se codificó considerando
las diversas etapas de evaluación de la calidad de agua que operan en el sistema, tal
como se presenta en la Tabla 6.1.
Tabla 6.1 Codificación del sistema de evaluación del proyecto de investigación.

Etapas de mulltreo Codificaci6n


Cruda 0.1 Cruda
0.2 FGDi·A: Filtro Grueso Dinámico - A
Acondicionadores 0.3 FGDi·B: Filtro Grueso Dinámico - B
0.4 FGDi·C: Filtro Grueso Dinámico - C
1.1 FGAS1: Filtro Grueso Ascendente en Serie etapa 1
1.2 FGAS2: Filtro Grueso Ascendente en Serie etapa 2
Línea 1
1.3 FGAS3: Filtro Grueso Ascendente en Serie etapa 3
1.4 HA1: Filtro lento en Arena 1
2.1 FGAC: Filtro Grueso Ascendente en Capas
Línea 2
I 2.2 FlA2: Filtro lento en Arena 2
Continúa en la página siguiente

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 161


VIVIANA VARGAS FRANCO

Viene de la página anterior


Etapas de muestreo Codificaci6n
3.1 FGHM 1: Filtro Grueso Horizontal Modificado 1
3.2 FGHM2: Filtro Grueso Horizontal Modificado 2
línea 3
3.3 FGHM3: Filtro Grueso Horizontal Modificado 3
3.4 FLA3: Filtro Lento en Arena 3
4.1 FGH1: Filtro Grueso Horizontal 1
4.2 FGH2: Filtro Grueso Horizontal 2
línea 4
4.3 FGH3: Filtro Grueso Horizontal 3
4.4 FLA4: Filtro Lento en Arena 4
5.1 FGDS1: Filtro Grueso Descendente en Serie 1
5.2 FGDS2: Filtro Grueso Descendente en Serie 2
línea 5
5.3 FGDS3: Filtro Grueso Descendente en Serie 3
5.4 FlA5: Filtro Lento en Arena 5

6.4 Definición de variables, sitios y frecuencia de muestreo


En un estudio se presentan diversos tipos de variables, pero las que más se
encuentran en los fenómenos ambientales y de ingeniería sanitaria son las
variables de tipo continuo. En la Tabla 6.2 se presentan las variables estudiadas
en el proyecto de acuerdo con su clasificación entre químicas, físicas, biológicas
e hidráulicas. Los coliformes fecales y los estreptococos fecales son variables de
tipo discreto, las otras variables estudiadas son de carácter continuo con nivel de
medición de razón.
Tabla 6.2 Clasificación de variables que se analizaron en el estudio.

Variables Tipo Nombre de las variables


Turbiedad (UNT)
Color real (UPC)
Sólidos sedimentables (mg/llh)
Cuantitativas
Físicas Sólidos suspendidos (mg/l)
continuas
Sólidos volátiles (mg/l)
Sólidos totales (mg/l)
Temperatura (OC)
pH (unidades)
Alcalinidad total (mgJl Ca C0 3)
Cuantitativas Dureza total (mg/l Ca C0 3)
Químicas
continuas Oxígeno disuelto (mg/l)
Hierro total (mg/l)
Manganeso total (mgtl)
- - - --- ------ -- --- -- -- -- - --- - - - - -- -

Continúa en la página siguiente

162 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPfTULO 6- PLANEACIÓN ESTADfsTICA DE UN PROYECTO DE INVESTIGACiÓN

Viene de la página anterior

Variables Tipo Nombre de las variables


Cuantitativas Coliformes fecales (UFC/100ml)
Biológicas
discretas Estreptococos fecales (UFC/100ml)

Pérdida de carga hidráulica(cm)


Cuantitativas
Hidráulicas Pérdida de carga parcial (cm)
continuas
Caudal (l/s)

Los sitios de muestreo están relacionados con los objetivos de la investigación así
como de las necesidades de evaluar y comparar el sistema integralmente. En la Tabla
6.3 se presenta la frecuencia de muestreo para cada una de las variables a analizar en
esta investigación. Las frecuencias y puntos de muestreo se definieron de acuerdo
con la experiencia de los investigadores, los cuales consideraron la importancia de
las variables, los objetivos y el presupuesto disponible del proyecto de investigación.
En otros casos, se utiliza la teoría estadística del muestreo para estimar el número de
muestras requerido en cada variable, considerando niveles de error, confiabilidad,
variabilidad y recursos.
Tabla 6.3 Frecuencia y puntos de muestreo para análisis de calidad de agua en
el proyecto de investigación.

Punto de muestreo 1.3 1.4


03 2.1 2.2 Total de
1.1 1.2
01 04 06 3.3 3.4 muestra por
5.1 5.2 variable
05 4.3 4.4
Variable 5.3 5.4

Color real (UPC) 4d d 2s 2s 2s 2s 2s 4d/44s

Turbiedad (UNT) 24d d 3d 3d 3d 3d 3d 90d

Sólidos sedimenta bies (ml/I/h) q q q q 10q

Sólidos suspendidos (mg/l) d 2s 2s 2s 2s 2s 2s 1d/44s

Sólidos volátiles (mg/l) m m m m m m m 23m

Sólidos totales (mg/l) m m m m m m m 23m

Temperatura (OC) 4d 4d

Pérdida de carga hidráulica (cm) 3s 3s 3s 3s 3s 57s

Pérdida de carga parcial (cm) s s s s 19s

Caudal (l/s) d d d lOd

Continúa en la página siguiente

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 163


VIVIANA VARGAS FRANCO

Viene de la página anterior

Punto de muestreo 1.3 1.4


03 2.1 2.2 Total de
1.1 1.2
01 04 06 3.3 3.4 muestra por
5.1 5.2 variable
05 4.3 4.4
Variable 5.3 5.4
pH lunidadesl q q q q 12q I
Alcalinidad totallmg/I CaC0 31 m m m m 12m
Dureza totallmg/l CaC0 31 m s s s 12m
Oxígeno disuelto Img/ll q d d d 12q
Hierro y manganeso totallmg/ll m m m m m m m 23m

Coliformes fecales IUfC/lOOmll 2s 2s 2s 2s 2s 2s 2s 46s

Estreptococos fecales IUfC/l00mll q q q q q q q 23q

d - diaria s - semanal q - quincenal m - mensual

6.5 Formatos de muestreo


Es necesario registrar el conjunto de datos recolectados en instrumentos adecuados
como paso previo al resumen y análisis de estos. En general en proyectos de
seguimiento de sistemas de monitoreo, el instrumento que se utiliza es el formato.
La definición de los formatos debe planearse de tal forma que permita la obtención
de los datos de una manera completa y eficiente, que facilite la uniformidad en las
diferentes observaciones y evite la recolección de datos no relevantes, redundantes
y desorganizados
El formato debe responder a los objetivos y propósitos de la investigación y antes
de su puesta en operación se debe probar su funcionalidad. Este aspecto se cumple
mediante una aplicación piloto que detecte las fallas del instrumento de medición.
La distribución para diligenciar el formato debe ser lógica y ordenada. El orden de
los aspectos a evaluar debe responder a su importancia en el estudio, los datos deben
tener referencia de espacio y tiempo específicos.
El diligenciamiento de los formatos debe hacerse con criterios de calidad,
considerando que es la primera base de datos, no digital, que se tiene del estudio o
de la investigación, y los datos son la materia prima para el procesamiento y análisis
de los resultados. Uno de los formatos de la presente investigación se presenta en
la Tabla 6.4, donde se incluyen las variables analizadas y los puntos de muestreo
definidos.

164 ESTADISTI CA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 6- PLANEACIÓN ESTADIsTICA DE UN PROYECTO DE INVESTIGACiÓN

6.6 Flujo de información


A los datos recolectados es necesario hacerles un proceso de revisión y corrección en
cada etapa del flujo de información, considerando que las conclusiones del estudio
no pueden ser más precisas que los datos sobre los cuales se basan, es decir, las
conclusiones que se derivan del estudio son de tal calidad y precisión como se lo
permitan los datos y su análisis. Un conjunto de datos errados necesariamente va a
llevar a conclusiones erradas.
El flujo de la información del proyecto de investigación se desarrolló con base
en el esquema que se presenta en la Figura 6.3; este flujo permitió identificar el
seguimiento de los datos desde la toma de la muestra hasta el reporte y publicación
de los resultados, además permitió generar responsabilidades definidas en cada área
de trabajo de la investigación.
Las muestras fueron tomadas por los muestreadores de acuerdo con los sitios y horas
de muestreo específicos, las cuales eran llevadas a los laboratorios fisico-químico
o bacteriológico de acuerdo con el tipo de análisis a realizar, estos laboratorios
analizaron y reportaron los datos al área de ingeniería, que revisó y realizó las
observaciones pertinentes, para posteriormente trasladar los formatos al área de
información y sistemas donde se digitalizaron los datos en bases de datos y se realizó
el procesamiento estadístico, incluyendo resumen de los datos a través de tablas y
gráficos, los cuales fueron analizados en el área de ingeniería, para posteriormente ser
presentados y analizados con la dirección del proyecto. El procesamiento estadístico
se realizó utilizando los programas SPSS y Excel.

Laboratorio Dirección
flsico-gulmico del
proyecto
Comité de

Toma de
Análisis de
muestras y
reporte de
datos
1-----
Área de in¡:enierla
seguimiento y
control de
proyectos Cinara

muestras
Responsable del
proyecto
Laboratorio
microbioló¡:ico Información
técnica y socio
Análisis de económica
Área de
muestras y información ~
reporte de datos sistemas

Base de datos
Análisis estadístico

Figura 6.3 Esquema del flujo de información del proyecto de investigación.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 165


Tabla 6.4 Formato para la recolección de datos del proyecto de investigación. <
O>
O> <:
'i>
Instituto Cinara - Universidad del Valle e IRC-Holanda z
~

Proyecto Integrado de Investigación y Demostración de Métodos de Pretratamiento para Sistemas de Abastecimiento de Agua. <
~
:Il
Fecha: G)
~

~
(j)
LINEA 1 LINEA 2 LINEA 3 LINEA 4 LINEAS "TI
:Il
FGASl FGAS2 FGAS3 FLAl FGAC FLA2 FGHMl FGHM2 FGHM3 FLA3 FGHl FGH2 FGH3 FLA4 FGDSl FGDS2 FGDS3 FLAS ~
Z
()
Variable 1.1 1.2 1.3 1.4 2.1 2.2 3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 5.1 5.2 5.3 5.4 o
Hora
Turbiedad (UNTl
Color real (UPC)
pH (Unidades)
m
(j)
Alcalinidad
~ (l11li/1 CaCo3)
o
¡¡¡ Dureza total (mgJI CaCo3)
-i
Oxígeno disuelto (l11li/11
~
O Sólidos suspendidos (l11li/11
m
(j)
() Estabilidad en suspensión
:Il (an/h)
~ Sólidos sedimentables
~ (mI/h)
~
:Il 000 (l11li/11
~
~atura(OC)
Z
G)
m Estreptococos fecales
Z
;Ti (UFC/lOOmI)
:Il
i> CoIiformes fecales
~ (UFC/1OOmI)
;::
!!1 Pérdida de carga (an)
m
Z Caudal II/s)
~
r Filtrabilidad (mI/3nin)
()
O r....,(dias)
Z - - - - - ---- -- - --- ---

Ul
"tl
Ul
Ul Observaciones:
CAPrTULO 6 - PLANEACIÓN ESTADrSTICA DE UN PROYECTO DE INVESTIGACiÓN

6.7 Sistema de información


Un sistema de información es un mecanismo o estructura administrativa que
tiene como funciones la captación, almacenamiento, recuperación y análisis de
datos; permite recopilar, organizar, sistematizar y procesar los datos de manera
ágil y confiable. El sistema de información consta de bases de datos que son una
combinación de programas y archivos que se utilizan conjuntamente de manera
integrada y coordinada, las cuales permiten recolectar un conjunto de datos
mutuamente relacionados. La construcción de las bases de datos incluye la obtención
de los datos, su codificación, captación y sistematización.
Para diseñar el sistema de información se dividió el sistema de estudio en cinco
ambientes: cruda, acondicionada, integrada, filtros gruesos y filtros lentos en arena.
Estos ítemes forman el esquema principal de la entrada a la base de datos. La base
de datos tuvo 21 archivos correspondientes a los diferentes sitios de muestreo en
la investigación, tal como se presenta en la Figura 6.4 (ver Figura 6.4 en la página
siguiente). En las bases de datos los registros se organizan y se mantienen en una
tabla compuesta por filas y columnas, de tal forma que los datos sean fáciles de
encontrar y procesar. Las filas en la base de datos se llaman registros y las columnas
campos. Entre las ventajas de las bases de datos se destacan las siguientes: evitan
la redundancia, reducen las inconsistencias y los errores de captura, y apoyan la
integridad y la independencia de los datos.
E! sistema de información planteado permitió desarrollar las comparaciones y
evaluaciones de interés en la investigación, agilizó la adición, modificación y
consulta de registros. El análisis estadístico descriptivo de los datos generados en
esta investigación se presenta en el próximo capítulo.

ESTADrSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 167


CAPiTULO 6- PLANEACIÓN ESTADIsTICA DE UN PROYECTO DE INVESTIGACiÓN

l. CRUDA

2. ACONDICIONADA
L-J:I l FGD¡-A
FGD¡-B
- -
FGD¡ -C
---J
[ FGAS 1

3. INTEGRADA
FGAS2

FGAS3

FGHM 1

4. FILTROS GRUESOS FGHM ~( FGHM2

I I FGHM3

FGHI

FGH2
~~ FGH3

[
=-ti
FLA I l I
FGDSI

F0002

FGDS 3

5. FILTROS LENTOS
EN ARENA H-.[ FLA2 l
[ FLA3 l
[ FLA4 l
( FLA5 l
Figura 6.4 Esquema de la base de datos del proyecto de investigación.

168 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO

7
Evaluación de sistemas para
tratamiento de agua potable

Este capítulo presenta el procesamiento descriptivo y gráfico de un conjunto de datos


relacionado con la evaluación de sistemas para tratamiento de agua potable. Los datos
fueron procesados y presentados en el programa estadístico SPSS y corresponden a
la evaluación de cinco Filtros Gruesos (FG), evaluados en el marco de la tecnología
de filtración en múltiples etapas, FiME.

El estudio de evaluación y seguimiento de los filtros gruesos lo realizó el instituto


Cinara de la Universidad del Valle, en la Estación de Investigación y Transferencia
de Tecnología localizada en predios de la Planta de Tratamiento de Agua Potable de
Puerto Mallarino en Emcali, cuya fuente de agua cruda es el río Cauca. Los aspectos
conceptuales de esta investigación se presentaron en el capítulo 6.

Un sistema de abastecimiento de agua para beber, asearse y para fines domésticos


es un elemento esencial para la salud, el bienestar y la productividad de las
comunidades, y es determinante en la calidad de vida de las personas. El agua
contaminada contiene una gran cantidad de bacterias y virus que exponen a la
comunidad a enfermedades de origen hídrico, entre las que se destacan el cólera
y la enfermedad diarreica aguda (EDA). En países en vía de desarrollo, la EDA
es la segunda causa de muerte en los niños de 1 a 4 años (OPS). El suministro

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 169


VIVIANA VARGAS FRANCO

continuo de agua en suficiente cantidad y de buena calidad es factor básico en la


reducción de enfermedades de origen hídrico.
En América Latina las coberturas en abastecimiento de agua son del orden del 92%
para la zona urbana y 52% para la zona rural. En Colombia las coberturas son del
orden del 86% para la zona urbana y del 44% para la zona rural; sin embargo, se
estima que solo el 62% de los habitantes de las zonas urbanas reciben agua potable
y en la zona rural lo hace solamente el 10% (Mondragón, 1996). En la actualidad
estas cifras presentan la misma tendencia.
Las cifras presentadas sobre coberturas sugieren que el aprovisionamiento de agua
que cumpla con los tres elementos básicos: continuidad, cantidad y calidad, es
especialmente crítico en la zona rural, los pequeños y medianos municipios y los
asentamientos marginales de las grandes ciudades, donde se presentan limitaciones
de recursos humanos, fisicos, económicos, infraestructura administrativa y vías de
comunicación, entre otros.
Una alternativa tecnológica con mucho potencial para ser utilizada en los pequeños y
medianos municipios, las zonas rurales y urbano-marginales de las grandes ciudades
es la filtración en múltiples etapas (FiME). Esta tecnología ha sido desarrollada
sobre la base de la experiencia de la Filtración Lenta en Arena (FLA) por el Instituto
Cinara, de la Universidad del Valle.
Una planta de tratamiento FiME generalmente consta de tres etapas: filtro grueso
dinámico (FGDi), filtro grueso (FG) y filtro lento en arena (FLA). El filtro grueso
presenta varias alternativas que dependen del sentido del flujo del agua y del
número de unidades: de flujo ascendente: en capas (FGAC) y en serie de tres
etapas (FGAS3), de flujo horizontal: (FGH3) y modificado (FGHM3) y de flujo
descendente en serie de tres etapas (FGDS3). Un esquema de la tecnología FiME
se presentó en la Figura 6.1.
El Instituto Cinara evaluó los cinco filtros gruesos (FG) en parámetros fisico-
químicos, bacteriológicos e hidráulicos, con el fin de definir los mejores en
eficiencia. En este capítulo se analiza la eficiencia de los FG en las variables
turbiedad y coliformes fecales, utilizando técnicas estadísticas descriptivas y
gráficos; la metodología presentada se puede generalizar para las otras variables
analizadas en la investigación. A continuación se describen conceptualmente estas
variables.
Turbiedad. Es una medida de partículas orgánicas e inorgánicas en el agua, tales como
arcillas, sedimentos, partículas orgánicas coloidales, plancton y otros organismos

170 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

microscópicos, y estas partículas tienen un efecto en la salud pública porque pueden


incluir microorganismos patógenos o sustancias tóxicas, p.e. asbesto (Craun, 1993).
Niveles altos de turbiedad pueden proteger los microorganismos de los efectos de la
desinfección y además estimular el crecimiento de bacterias (WHO, 1993).
Coliformes fecales. Son organismos indicadores de contaminación fecal,
particularmente Escherichia coli (E. coli), una bacteria que vive en los intestinos del
hombre y otros mamíferos, los cuales son excretados en grandes cantidades en las
heces fecales. Este es un parámetro universal para indicar el grado de contaminación
fecal en una fuente, debido a que el mayor riesgo microbiológico en el agua está
asociado con la ingestión de agua contaminada con excretas de origen humano y
animal, y porque se ha establecido que la ingestión de patógenos causan enfermedades
de origen hídrido. (Craun, 1993)

7.1 Estadísticas descriptivas


Considerando que el afluente de los FG es el agua integrada, se calculan las
estadísticas descriptivas incluyendo esta etapa. Los filtros gruesos que presenten
menores valores efluentes en promedio y los de mayor remoción promedio serán
considerados los mejores.
La remoción de una variable se calcula con la fórmula:

Rem afluente - efluente xl 00%


afluente

• Turbiedad
La siguiente tabla presenta los resultados del programa estadístico SPSS en el cálculo
de algunas estadísticas descriptivas.
Estadísticas descriptivas para turbiedad (UNT)

Integrad FGAS3 FGAC FGHM3 FGH3 FGDS


Media 73,6 12,4 21.7 21,2 13,3 16,5
Mediana 48,0 8,0 18,0 17,0 9,5 14,0
Moda 26,0 14,0 17,0 17,0 18,0 18,0
Varianza 5790,1 139,7 342,2 256,6 100,0 228,3
Desviación típica 76,1 11,8 18,5 16,0 10,0 15,1
Rango ordinal 563,0 113,0 166,2 126,1 78,2 137,4
N total 294 294 294 294 294 294

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 171


VIVIANA VARGAS FRANCO

Los filtros con menores efluentes promedios son el FGAS3 y el FGH3, estos
presentan un menor valor en la desviación estándar y el rango, que significa una
mayor concentración de los datos alrededor del valor medio, seguidos del FGDS.
Por el contrario, los filtros que presentan mayores valores en los efluentes son el
FGHM3 y el FGAC, con valores de dispersión y rango más elevados, mostrando
una mayor dispersión en relación con el valor medio efluente.
Las estadísticas descriptivas para la remoción de turbiedad se observan en la siguiente
tabla:
Estadísticas descriptivas para remoción de turbiedad (%)
REMFAGS3 REMFGAC REMFGHM3 REMFGH3 REMFGDS
Media 80,3 66,2 65,1 77,5 73,6
Mediana 80,8 66,6 65,3 78,6 74,3
Moda 80,0 70,0 50,0 80,0 60,0
Varianza 82,5 127,0 194,6 103,0 124,9
Desviación típica 9,1 11,3 13,9 10,1 11,2
Rango ordinal 45.4 59.4 82,1 50,8 71,5
N total 294 294 294 294 294

Se puede analizar que los filtros con mayor eficiencia en la remoción de turbiedad son
el FGAS3 y el FGH3, los de menor eficiencia son el FGAC y el FGHM3, generando
los dos primeros menor variación en cuanto al valor medio que los dos últimos. En
la remoción de turbiedad la distribución del FGAS es muy simétrica, considerando
que los valores de la media, la mediana y la moda son muy similares. El filtro que
presenta menor simetría es el FGHM3.
• Coliformes fecales
Las estadísticas descriptivas para coliformes fecales se presentan en la siguiente
tabla:
Estadísticas descriptivas para coliformes fecales (UFC/100 mI)
INTEGRAD FGAS3 FGAC FGHM3 FGH3 FGDS
Media 24758 65 369 929 182 147
Mediana 13200 35 260 867 141 80
Moda 12900 12 10 1600 110 50
Varianza 992226516 8287 150381 525016 18199 26053
Desviación típica 31500 91 388 725 135 161
Rango ordinal 155000 389 1790 3807 618 760
N total 31 31 31 31 31 31

172 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 7 - EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

Al igual que en turbiedad, los filtros con menores efluentes son el FGAS3, el FGDS
y el FGH3, similarmente con los menores valores de dispersión. Los filtros con
mayores efluentes en coliformes fecales son el FGAC y el FGHM3, así mismo, con
los mayores valores de dispersión.
A continuación se presentan las estadísticas descriptivas para la remoción de
coliformes fecales.
Estadísticas descriptivas para remoción de coliformes fecales(%)
REMFGAS3 REMFGAC REMFGHM3 REMFGH3 REMFGDS
Media 99 98 93 99 99
Mediana 100 98 96 99 99
Moda 100 99 76 99 91
Varianza 1 3 39 3 4
Desviación típica 1 2 6 2 2
Rango ordinal 6 8 24 9 9
N total 31 31 31 31 31

Considerando la remoción en coliformes fecales se tiene que los mayores promedios


los presentan el FGAS3, FGH3 y el FGDS3 y los menores el FGAC y el FGHM3.
Las desviaciones en cada una de las remociones son muy similares. Debido a la
magnitud de las unidades en coliformes fecales, los valores de remoción deben
analizarse más detalladamente, considerando preferiblemente el número de unidades
logarítmicas reducidas.

7.2 Gráficos de medias, mínimos y máximos


La presentación gráfica de los datos es una de las etapas fundamentales en el análisis
descriptivo del fenómeno estudiado; en este ítem se presentan diversos tipos de
gráficos que permiten analizar la eficiencia de los filtros gruesos. Estas gráficas
se desarrollaron en la hoja electrónica Excel (Las instrucciones para realizarlas se
presentan en el capítulo 11).

• Turbiedad
La siguiente gráfica muestra los valores medios de los efluentes de los filtros gruesos,
la desviación estándar y el valor máximo.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 173


VIVIANA VARGAS FRANCO

so .ID

~
. .-._--........ '. '10
~

~
~ >201
ro
~
'00

80 i
t
! 20
~ 60 .1
i:1; ,o 40 ~
,o
,GAS, 'GAC fGHM3 FGH3 FGDS3

Medi. _ _ _ MlÚimo

'. 1111

1'. : '00

ID
I ~

:i l60
~
60 1l
~ 40
40
~
~
~
.'"
1 20 20
;
~
):
~

'GAS, 'GAC 'OHM' 'OH' FGOS3

Media _ _ _ Máximo

Gráfica de media, desviación estándar y máximos en turbiedad (UNT)


y remoción de turbiedad (%)
Se puede evidenciar, considerando el valor medio, la desviación estándar y el valor
máximo, que los mejores efluentes los tienen el FGAS3 y el FGH3, seguidos del
FGDS3. Los valores más altos en el efluente suceden en el FGAC y el FGHM3.
En el FGAC se observa el mayor valor máximo, así como la mayor dispersión del
conjunto de datos analizados.
En la remoción de turbiedad, el FGAS3 es el que mayor media presenta, seguido del
FGH3, los filtros de menor remoción son el FGHM3 y el FGAC.
El gráfico de series de tiempo permite visualizar la tendencia de una variable con
relación al tiempo de muestreo de los datos, tal como se ilustra en las siguientes
gráficas, donde se compara el comportamiento de los filtros FGAC y FGAS3 .

174 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

1+-----~--~~--~----~----_r----~----~~
50 70 90 1 lO 130 150 170 190
Día de operación
---FGAS3 - - - FGAC

30 +-----~----r_----r_----r_--~~--~----~~

50 70 90 110 130 150 170 190


Día de operación
---FGAS3 - - - FGAC

Gráficas de series de tiempo en turbiedad (UNT) y remoción de


turbiedad (%)
En el efluente de turbiedad se puede analizar que la tendencia de los filtros es similar;
sin embargo, los efluentes del FGAS3 siempre son menores que los del FGAC, y
esta característica es la deseable. En la remoción de turbiedad no se evidencia la
misma tendencia, presentando el FGAS3 siempre valores mayores de remoción que
los valores del FGAC.
Otro gráfico muy útil es el que presenta los valores mínimo, medio y máximo, donde
se puede observar y comparar la eficiencia de los filtros gruesos, de manera ágil y
clara.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 175


VIVIANA VARGAS FRANCO

110
roo

~
150

lZ0 i""
-- -
J-e 90

60
r-'

~
30
~
O
FGAS3 FGAC FGHM3 FGH3 FGDS3
+ M edia

,to
~100 1""

J 80
1~
60

,~ 40
.~ '-

S
=c:
20

o
FGAS3 FGAC FGHM3 FGH3 FGDS3

+ Media

Gráfica de mínimos, media y máximos en turbiedad (UNT) y remoción


de turbiedad (%)
El filtro donde sucede el valor máximo más elevado, en turbiedad, es el FGAC y
el filtro que tiene el menor valor máximo es el FGH3. Considerando la definición
de rango como la diferencia entre el valor máximo y el valor mínimo, se tiene que
el filtro con menor rango es el FGH3 seguido del FGAS3 . Los filtros con mayor
rango son el FGAC y el FGDS3 , evidenciando una mayor dispersión de los datos
en estos filtros. En remoción, el filtro con los niveles más bajos es el FGH3 y los
filtros que tienen los mejores niveles de remoción son el FGAS3 y el FGH3 . El
filtro con mayor rango es el FGHM3 y el de menor rango es el FGAS3 , seguido
del FGH3 .

176 ESTAD IsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

• Co/iformes fecales
El siguiente gráfico muestra los valores: medio, desviación estándar y valor máximo
del efluente de los filtros gruesos en coliformes fecales.

10000 _.•... --_.....__ .~-_._--._-- ....... _------~._---~_._- ...-----1 1~

,
I
...
~
~
1000

100

lO
~

FGAS3 FGAC FGHM3 FGH3 FGDS3


c:==::J Media ------ Máximo

120

---
r-
-- -
-=- --
--......
-- 100 I
@

1- f- - - 1------ 80
.
_. ~

f- i- f-- ~.
- f--
60 1
r-- 1- - - f-- 40 ..
~

f-- r-- t- - t- 1- 20 .i
~
o o
FGAS3 FGAC FGHM3 FGH3 FGDS3
c:=::::J Media ____ Máximo

Gráfica de media, desviación estándar y máximos en coliformes fecales


(UFC/ JOOml) y remoción de coliformesfecales (%)
El FGAS3 tiene el menor valor medio y valor máximo, seguidos del FGH3 y el
FGDS3. El filtro grueso con el mayor valor medio y el mayor valor máximo es
el FGHM3, seguido del FGAC. En la remoción, los menores valores se dan en el
FGHM3 y el FGAC. Las mayores remociones suceden en los filtros FGAS3, FGH3
y FGDS3, pero en ninguno de los filtros se evidencian grandes diferencias en sus
valores medios y máximos.

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 177


VIVIANA VARGAS FRANCO

A continuación se presenta la gráfica de series de tiempo para el efluente y la remoción


de algunos de los filtros gruesos evaluados, en coliformes fecales.

10000

1 1000

~
e. 100
I
~
a 10

SO 70 90 110 130 150 170 190


Día de operación
- - - FGAS3 ---FGAC - - - FGHM3

110~i--~~~~~~~--~------~---------------'

:;¡.
~1001 ~. ~
............... «;;j'*'f' cc:::::::: ::;::w

tI 90 I '1 .¡
,

t~
i
~
80 I
---~,L\t------------------------~
\} \1
____
70+1----~----~----r_--~__--~----~----~~
SO 70 90 110 130 150 170 190
Dla de operación
- - - FGAS3 ---FGAC - - - FGHM3

Gráfica de series de tiempo en coliformes f ecales (UFC/l00ml) y


remoción de coliformes fecales (%)
En el efluente de coliformes fecales se muestra una tendencia irregular en los filtros
gruesos, generando los menores valores el FGAS3 y los mayores valores el FGHM3.
En la remoción los mayores valores se dan en el FGAS3 y los menores valores el
FGAC.

178 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 7 - EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

El siguiente gráfico ilustra los valores mínimo, máximo y media de los efluentes de
los filtros gruesos en coliformes fecales.

10VV'
....
:-
000 ;;.;.;-

...
~:-

~
L.... ~ ~
100 ~
L....

10
-

1
FGAS3 FGAC FGHM3 FGH3 FGDS3
+ Media

110

1 t .~
~

1
70
FGAS3 FGAC FGHM3 FGH3 FGDS3
+ Media

Gráfica de mínimos, media y máximos en coliformes fecales (UFC/


100ml) y remoción de coliformes fecales (%)
Se puede analizar que los menores valores medios se encuentran en los filtros gruesos:
FGAS3 y FGDS3 y las mayores medias en el FGHM3 y el FGAC. Los mayores
rangos suceden en el FGAS3 y el FGAC y los menores rangos en el FGHM3 y el
FGH3. Las mayores remociones se observan en los filtros FGAS3, FGH3 Y FGDS3
y la menor remoción se da en el FGHM3.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 179


VIVIANA VARGAS FRANCO

7.3 Histogramas
Las gráficas de histograma penniten visualizar la fonna de la distribución del conjunto
de datos, la cual se puede comparar con distribuciones teóricas establecidas. Para
variables discretas las distribuciones a comparar pueden ser binomial, poisson,
geométrica e hipergeométrica, entre otras. En una variable continua las distribuciones
a comparar pueden ser unifonne, t-student, nonnal, chi-cuadrado, entre otras.
A continuación, se presentan, para algunos filtros gruesos, los histogramas de turbiedad y
remoción de turbiedad, comparado con la distribución nonnal. Las gráficas corresponden
al procesamiento realizado en el software estadístico SSPS (las instrucciones se presentan
en el capítulo 10). En cada gráfico se observa la desviación estándar (Desv. tip.), el valor
de la media (Media) y el número de datos analizados (N).

• Turbiedad
70 T'-----------------------, loor,- - - - - - - - - - - - ,

60
80

50

.~ 40
~
~
.:: 30
'r
.::
O

40

20

UlIII,~ J~~;".
20
D~sv.tlp. - 18,50
10
Media - 21
N-2 94,OO
38g~n~~~a~~~~~nn~~ 47.g.~n~u~M~~a~~

FGAC - TURBIEDAD (UN1J FGBJ - TURBIEDAD (UNT)


60,'---------,

50

40

'g
~ 30
.::
20

10 Desv. tlp. - 16,01


Media -U
1 11 11 1 11 1 1 1 1! II I I II I II ~ N - 194,OO
4 9 1318n 28~37 424752 5761
FGHM3 - TURBIEDAD (UNT)

Gráfica de frecuencias absolutas para turbiedad

180 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPfTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

El gráfico de frecuencias del FGAC muestra valores hasta 88 UNT, con frecuencias
significativas hasta 53 UNT Yfrecuencias máximas entre 3 UNT Y28 UNT. El FGH3
tiene valores hasta 49 UNT, con frecuencias significativas hasta 28 UNT Yfrecuencias
máximas entre 4 UNT Y 19 UNT. El FGHM3 presenta valores hasta 57 UNT, con
frecuencias significativas hasta 42 UNT Y frecuencias máximas entre 9 UNT Y 18
UNT. Las distribuciones evidencian cierto grado de asimetría con relación al valor
medio, con sesgo a la derecha, es decir, las mayores frecuencias se presentan en los
valores menores de turbiedad, disminuyendo la frecuencia a medida que aumentan
los valores de turbiedad.
Analizando la distribución de frecuencias, el mejor filtro en turbiedad es el FGH3,
pues tiene sus mayores frecuencias entre 4 UNT y 7 UNT, superando más de 120
datos en este rango, mientras que el FGAC tiene más de 120 datos en el rango de
8 UNT a 18 UNT.
• Remoción de turbiedad
40 ~-------' 30. - - - - - - - - - ,

30
20
/
~

10
/
10
1\
I L ni n
rlAf1
Dtn.tip.- n ,17 I Dtn.típ..- JI.IJ

lD111 ~ Mtm - u I~ MtdM • 11

0J;!
35 :I,J
40 ..!,J"U,
50U,
,,U,
eo¡.J.65,J..!,,J..!
O,"""5 eo
"""85
J,.U,.1.
90 J,J'
95 N-1U,H O~
46 ""
52 ..!,J
56..!,J
eoU,64U,
eaU,
'2U,'6¡.J.eo,J..!84,J..!8,8u92
,u96
L,LJ N -1f4,1IJ
FGAC - remoción en turbiedad (") FGHJ • remoción en turbiedad (")

60

50

40

';
_ 30 ,\
~ .\
20 ~
/ ~
.~
10

~
Desv. tlp. - IJ,95
Ittl!diQ - 65

h- N-194.00
U~~503540"50"9085roU908590~

FGHMJ • remoción en turbiedad (%)

Gráfica de frecuencias absolutas para remoción de turbiedad

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 181


VIVIANA VARGAS FRANCO

El gráfico de frecuencias en remoción de turbiedad para el FGAC muestra valores de


remoción entre 35% y 95%, con una gran concentración de datos en el rango entre
50% y 75%. El FGH3 tiene frecuencias de remoción entre e148% y el 96%, con una
gran concentración de valores entre 64% y 88%. El FGHM3 presenta frecuencias
de remoción entre el 15% y el 95%, con una gran concentración entre 45% y 85%.
Las distribuciones de la remoción de turbiedad son simétricas en relación con el
valor medio, con una buena aproximación a la curva normal, es decir, las mayores
frecuencias se encuentran alrededor del valor medio de la remoción y muy pocas
frecuencias en los valores extremos de la distribución de frecuencias. "'-.
Que la distribución de los datos se aproxime a una curva normal es una característica
deseable para el proceso de inferencia estadística.

7.4 Tablas cruzadas


El cruce de variables, denominado tablas cruzadas o tablas de contingencia, permite
evaluar las frecuencias de una variable, condicionada a los valores de otra variable. En
la evaluación de los filtros gruesos es importante analizar la eficiencia de diferentes
intervalos de calidad de agua en el afluente.
Considerando rangos de turbiedad en la integrada y rangos de turbiedad en el
efluente de los filtros gruesos, se presentan a continuación tablas de contingencia
para los filtros FGAS3, FGAC y FGH3, las cuales fueron generadas con el software
estadístico SPSS.
En cada tabla la segunda columna muestra los intervalos de calidad del agua afluente
(agua integrada) y la primera fila los intervalos efluentes de los filtros gruesos. El
término "Recuento", en cada casilla, corresponde al número de datos que cumplen
la condición del agua integrada y del efluente del filtro grueso. El primer porcentaje
en cada casilla corresponde al nivel porcentual por fila y el segundo porcentaje al
nivel porcentual por columna.

182 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

• Tabla para FGAS3


Tabla de contingencia Integrada * FGAS3
FGAS3
(O-S) (5-lOl (lO-20) (20-301 >30 Total
Integrada [0-201 Recuento 9 O O O O 9
%de Integrada 100,0% ,0% ,0% ,0% ,0% 100,0%
%de FGAS3 12,2% ,0% ,0% ,0% ,0% 3,1%
[20·401 Recuento 48 54 3 O O 105
%de Integrada 45.7 51.4 2,9 ,0% ,0% 100,0%
%de FGAS3 64,9% 56,8% 3,8% ,0% ,0% 35.7%
[40·501 Recuento 6 19 15 1 O 41
%de Integrada 14,6% 46,3% 36,6% 2.4% ,0% 100,0%
%de FGAS3 8,1% 20,0% 19,2% 3.4% ,0% 13,9%
[50·1001 Recuento 7 14 42 11 2 76
%de Integrada 9,2% 18.4% 55,3% 14,5% 2,6% 100,0%
%de FGAS3 9,5 14.7% 53,8% 37,9% 11,1% 25,9%
>100 Recuento 4 8 18 17 16 63
%de Integrada 6,3% 12.7% 28,6% 27,0% 25.4% 100,0%
%de FGAS3 5.4% 8.4 23,1% 58,6 88,9 21.4%
Total Recuento 74 95 78 29 18 294
%de Integrada 25,2% 32,3% 26,5 9,9% 6,1% 100,0%
%de FGAS3 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

De la tabla se pueden analizar diversos aspectos: El 35,7% de los valores del afluente
estuvieron entre 20 UNT Y40 UNT yen este caso los valores efluentes se presentaron
entre OUNT Y 10 UNT con un porcentaje representativo del 97 ,1 %. Se obtiene que el
25,2% de los datos del FGAS3, se encuentran entre OUNT Y 5 UNT Y el 32,3% entre
5 UNT Y 10 UNT. También se puede analizar que el 84% de los datos del FGAS3
son menores que 20 UNT Y el 57,5% de los datos son menores que 10 UNT.

• Tabla para FGH3


Tabla de contingencia Integrada * FGH3
FGH3
(0·5) (s-lO) (10-20) (20-30) >30 Total
Integrada [0·201 Recuento 7 2 O O O 9
%de Integrada 77,8% 22,2% ,0% ,0% ,0% 100,0%
%de FGH3 20,0% 1.7% ,0% ,0% ,0% 3,1%
[20-401 Recuento 23 74 7 1 O 105
%de Integrada 21,9% 70,5% 6.7% 1,0% ,0% 100,0%
%de FGH3 65.7% 61.7% 8,5% 2,3% ,0% 35.7%
[40·501 Recuento 3 18 17 3 O 41
%de Integrada 7,3% 43,9% 41,5% 7,3% ,0% 100,0%
%de FGH3 8,6% 15,0% 20.7% 7,0% ,0% 13,9%
[50·1001 Recuento 2 17 35 20 2 76
%de Integrada 2,6% 22.4% 46,1 26,3% 2,6% 100,0%
%de FGH3 5.7% 14,2% 42.7% 46,5% 14,3% 25,9%
> 100 Recuento O 9 23 19 12 63
%de Integrada ,0% 14,3% 36,5% 30,2% 19,0% 100,0%
%de FGH3 ,0% 7,5% 28,0% 44,2% 85.7% 21.4%
Total Recuento 35 120 82 43 14 294
%de Integrada 11,9% 40,8% 27,9% 14,6% 4,8% 100,0%
%de FGH3 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 183


VIVIANA VARGAS FRANCO

Se puede analizar que el 35,7% de los datos del agua integrada se encuentran entre
20 UNT Y 40 UNT Y para este rango los valores efluentes al FGH3 se tienen entre O
UNT Y 5 UNT Y 5 UNT Y 10 UNT en porcentajes de 21 ,9 Y 70,5 respectivamente.
Se visualiza que el 11,9% de los datos del FGH3 se dan entre O UNT Y 5 UNT Y
el 40,8% entre 5 UNT Y 10 UNT. También se puede analizar que el 80,6% de los
efluentes del FGH3 son menores que 20 UNT Y el 52,7% de los datos son menores
que 10 UNT.
• Tabla para FGAC
Tabla de contingencia Integrada • FGAC
FGAC
(0·5) (5·10) (10·20) (20·30) >30 Total
Integrada (0·20) Recuento 7 2 O O O 9
%de Integrada 77,8% 22,2% ,0% ,0% ,0% 100,0%
%de fGAC 50,0% 3,1% ,0% ,0% ,0% 3,1%
(20·40) Recuento 7 58 40 O O 105
%de Integrada 6.7% 55,2% 38,1% ,0% ,0% 100,0%
%de fGAC 50,0% 89,2% 44,0% ,0% ,0% 35,7%
(40·50) Recuento O 3 26 12 O 41
%de Integrada ,0% 7,3% 63.4% 29,3% ,0% 100,0%
%de fGAC ,0% 4.6% 28,6% 18,5% ,0% 13,9%
(50·100) Recuento O 2 20 41 13 76
%de Integrada ,0% 2,6% 26,3% 53,9% 17,1% 100,0%
%de fGAC ,0% 3,1% 22,0% 63,1 22,0% 25,9%
> 100 Recuento O O 5 12 46 63
%de Integrada ,0% ,0% 7,9% 19,0% 73,0% 100.0%
%de fGAC ,0% ,0% 5,5% 18,5% 78,0% 21.4%
Total Recuento 14 65 91 65 59 294
%de Integrada 4,8% 22,1% 31,0% 22,1% 20,1% 100,0%
- -
%de fGAC , 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Se puede analizar que el 35,7% de los datos de la integrada se encuentran entre 20


UNT Y 40 UNT Y en este rango los valores efluentes al FGAC se dan entre OUNT Y
5 UNTy 5 UNTy 10 UNTenporcentajes de 6,7 y 55,2 respectivamente. Se visualiza
que el 4,8% de los datos del FGAC están entre O UNT Y 5 UNT Y el 22,1% se da
entre 5 UNT Y 10 UNT. También se puede analizar que sólo el 57,9% de los datos
del FGAC son menores que 20 UNT, con relación al 84% del FGAS3 y al 80,6%
del FGH3 y únicamente el 26,9% es menor que 10 UNT.

184 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

7.5 Gráficos de frecuencias acumuladas


Los gráficos de frecuencias acumuladas permiten analizar los niveles de turbiedad
y los porcentajes en que estos niveles se presentaron en cada filtro grueso. A
continuación se muestran las gráficas de frecuencias acumuladas para los filtros:
FGAS3, FGDS y FGHM3. Las gráficas se procesaron en el programa estadístico
SPSS.

'''''

75•

.~
lO:
~ !O\

.¡:

""

'" 25.0 ""O 75,0 100,0 '" 25,0 ""O 15.0 100,0 125,0

FGAS3
FGDS

'''''

'"
.~
lO:
~ !O\

.¡:

""

25,0 50,0 75,0 100,0 125.0

FGHM3

Gráfica de frecuencias acumuladas para turbiedad


En el FGAS3 alrededor del 88% de los datos son menores que 25 UNT Y alrededor
del 98% de los datos son menores que 50 UNT. En el FGDS alrededor del 80% de
los datos son menores que 25 UNT Y alrededor del 98% de los datos son menores
que 50 UNT. En el FGHM3 alrededor del 70% de los datos son menores que 25
UNTy alrededor del 95% de los datos son menores que 50 UNT. De estos tres filtros,

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 185


VIVIANA VARGAS FRANCO

según la gráfica de frecuencias acumuladas, el más eficiente es el FGAS3, seguido


del FGDS y por último el FGHM3.

7.6 Gráficos de tallos y hojas


Los gráficos de tallos y hojas permiten visualizar en forma detallada la distribución
de frecuencias del conjunto de datos. Las salidas que se observan a continuación
corresponden al proceso en el software SPSS. En la columna "Frecuency" se presenta
la frecuencia absoluta de los datos; en la columna "Steam" se da el valor de los tallos
y en la columna "Leaf' se tiene el valor de las hojas para cada tallo.

• Diagrama para el FGAS3


En este caso las máximas frecuencias se dan en los valores menores o iguales a
9 UNT Y las mínimas frecuencias se tienen en los valores mayores o iguales a 20
UNT. Se puede analizar en el diagrama de tallos y hojas que 33 datos de turbiedad
tomaron valores entre 2 UNT y 3 UNT; 63 datos tomaron valores entre 4 UNT y 5
UNT; 46 datos entre 6 UNT y 7 UNT y 27 datos entre 8 UNT y 9 UNT, siendo estas
las mayores frecuencias.

Diagrama de tallos y hojas para el FGAS3

FGAS3 Stem-and-Lea~ Plot

Frequency Stem & Leaf

,00 o
33,00 o 2222222333333333
63,00 o 4444444444444444444455555555555
46,00 o 66666666667777777777777
27,00 o 8888888889999
2,00 1 ,\;

13,00 1 223333
27,00 1 4444444555555
18,00 1 66666777
18,00 1 88889999
8,00 2 0111
6,00 2 233
4,00 2 5&
7,00 2 677
4,00 2 9&
6,00 3 011
2,00 3 2
10,00 Extr~m~~ (>=33)

Stem widch: 10,0


Each leaf: 2 case(s)
& denotes fractional leaves.

186 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 7 - EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

• Diagrama para el fGAC


En el FGAC las máximas frecuencias están en los valores de 5 UNT a 9 UNT Y
entre 15 UNT Y 19 UNT. Las menores frecuencias se encuentran en los valores
mayores que 30 UNT. Del diagrama de tallos y hojas se puede evidenciar que 65
datos de turbiedad tomaron valores entre 5 UNT Y 9 UNT; 27 datos entre 12 UNT
y 14 UNT; 64 datos entre 15 UNT y 19 UNT y 39 datos entre 20 UNT y 24 UNT,
siendo estas las mayores frecuencias.

Diagrama de tallos y hojas para el FGAC

FGAC 5tem-and-Lea~ Plot

Frequency Stem o; Lea:f

14,00 o 334444.q
65,00 O 55566666677777888888888999999999
27,00 1 223333.q444.q40;
64,00 1 5555556666777777777788888889999
3 9,00 2 000111223333444444
26,00 2 55666678889
17,00 3 001134.q&
12,00 3 5678&
8,00 4 023&
6,00 4 6&
1,00 5 &
15,00 Extremes ( > =51)

5tem tJidth: 10,0


Each lea:f: 2 case (s)

& denotes fractional leaves.

• Diagrama para el fGH3

Aquí, las máximas frecuencias se encuentran entre los valores de 4UNT y 9 UNT
y las menores frecuencias entre los valores de 20 UNT a 32 UNT. Del diagrama de
tallos y hojas se puede evidenciar que 16 datos tomaron el valor de 3 UNT, 40 datos
se encuentran entre 4 UNT y 5 UNT; 71 datos se dan entre 6 UNT y 7 UNT y 28
datos entre 8 UNT y 9 UNT, siendo estas las mayores frecuencias.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 187


VIVIANA VARGAS FRANCO

Diagrama de tallos y hojas para el FGH3

FGH3 Stem-and-Leaf Plot

Frequency Stem & Leaf

16,00 o 3333333&
40,00 o 4444444445555555555
71,00 o 66666666666666666666677777777777777
28,00 o 88888888999999
1,00 1 &
8,00 1 2333
26,00 1 4444455555555
25,00 1 666677777777
22,00 1 88888888899
17,00 2 00000111
9,00 2 2233
6,00 2 445
6,00 2 77&
5,00 2 99&
1,00 3 &
5,00 3 22&
2,00 3 &
6,00 Extreme!!! (>~38)

Stem width: 10,0


Each leaf: 2 case(s)
& denotes fractional leaves.

De los diagramas de tallos y hojas, para los tres filtros analizados, el FGAS3 tiene la
mejor distribución, debido a que 169 datos tienen valores de turbiedad en el rango
de 2 UNT a 9 UNT, seguido del FGH3 con 155 datos en el mismo rango y luego se
encuentra el FGAC con sólo 79 datos en este rango.

• Comparaciones de diagramas de tallos y hojas


El diagrama de tallos y hojas compuesto permite comparar dos distribuciones
simultáneamente. A continuación se presenta la comparación de los efluentes de
algunos filtros gruesos:

• Diagrama para el FGAC y FGAS


La distribución del filtro FGAS muestra las mayores frecuencias en los valores hasta
9 UNT, mientras que en la distribución del FGAC, la concentración de las frecuencias
se encuentra entre 8 UNT y 9 UNT y entre 16 UNT y 17 UNT. Así mismo, el FGAS
presenta pocos datos mayores a 20 UNT, contrario al FGAC.

188 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

Diagrama de tallos y hojas para el FGAC y el FGAS

, ....
fGAC 1
1
33 Ir
'l'al.1o

o 1 2222222333333333
....
JGAI

I
44444555 Ir o 1 4444444444444444444455555555555 I
66666677777 I o 66666666667777777777777 I
888888888999999999 Ii o 1I 8888888889999 I

223333
• I1
Ii
1
1
1I
1I

223333
I
I
444444555555 I1 1 1I 4444444555555
66667777777777 11 1 li 66666777
88888889999 11 1 1 88889999
000111 11 I 1 0111
223333 11 2 233
44444455 11 I I 5.
66667 11 2 I 677
8889 I1 2 I 9&
0011 I1 J I 011
3& 11 J 1I 2.
445 11 1 I
67 11 J I
8& 11 J 1I
o
• I
23& 11
• 1I
I
I
6&
& 11

5
I
1I
bt-.
51 11 33
1 (>-) 1

• Diagrama para el FGAC y FGHM


El diagrama de tallos y hojas para comparar las distribuciones del FGAC y el FGHM
permite analizar que las distribuciones de frecuencias de estos dos filtros son muy
similares, con mayores frecuencias en los valores de 8 UNT Y 9 UNT de turbiedad
y entre 16 UNT y 17 UNT. Las menores frecuencias se dan a partir de 22 UNT en
las dos distribuciones (ver diagrama en la página siguiente).

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 189


VIVIANA VARGAS FRANCO

Diagrama de tallos y hojas para el FGAC y el FGHM

I
I
[
...
JGAC

33
44444555
I ftllo

o
o
1
I
I
11
11 H555555
.....
I'GIIIII
I
1
1
1
66666671771 o 11 666117777777

.
1
888888888999999999 o 11 88888888888999999999 1
[ 1 11 00 1
223333 1I 1 11 2333 1
444444555555 1I 1 11 444445555555 I
66667777777777 11 1 11 66666677777177 1
88888889999 I 1 11 88 888 888999 I
000111 11 00011111 I
223333 11 22233 I
44444455 11 45 1
66667 11 666671777 I
8889 11 88999
0011 11 01
I 3& I 333
445 I 4H5
67 11
8& 11 3 8.
o 11 • 0001
23& 11
• 3.
6& 11 •
I
6&

--
• 11
11 I 3&

51 11 54
l>el

7.7 Percentiles
Los percentiles son valores que permiten analizar de forma detallada las frecuencias,
en general los percentiles más utilizados son el percentil 95 y el percentil 99.

Tabla de valores percentiles en los filtros gruesos en turbiedad


Integrad FGAS3 FGAC FGH3 FGHM3 FGDS
Percentil 05 21,0 3,2 5,0 3,8 5,7 3,9
Percentil 25 30,0 3,9 9,6 6.4 9,2 7,5
Mediana 48,0 8,0 18,0 9,5 17,0 14,0
Percentil 75 84,0 16,0 26,0 18,0 27,0 20,0
Percentil 95 220,0 31,0 51,0 29,0 48,0 39,0
Percentil 99 450,0 68,0 110,0 50,0 100,0 105,0

De la tabla se puede analizar que el 50%, es decir, la mediana de los datos, toman
valores menores a 48 UNT en la integrada; 8 UNT en el FGAS3; 18 en el FGAC;
9,5 en el FGH3 ; 17 en el FGHM3 y 14 en el FGDS.

190 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPrTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

El 75% de los datos tiene valores menores a 84 UNT en la integrada; 16 UNT en el


FGAS3; 26 UNT en el FGAC; 18 UNT en el FGH3; 27 UNT en el FGHM3 y 20
UNT en el FGDS.
El 95% de los datos toma valores menores a 220 UNT en la integrada; 31 UNT en
el FGAS3; 51 UNTen el FGAC; 29 UNT en el FGH3 ; 48 UNTen el FGHM3 y 39
UNT en el FGDS.
Analizando el percentil95, los mejores filtros son el FGAS3 y el FGH3, seguido del
FGDS y por último los filtros FGAC y FGHM3.
A continuación se presentan los gráficos de diversos percentiles para los filtros
FGAS3 y FGAC.

Gráficas de valores percentiles para el FGAS3 (1 y 2) en turbiedad

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 191


VIVIANA VARGAS FRANCO

GráfICo de percelltiks JHlrt:l FGAC (1)


1~rl------~--------tl--------~--
160
140
~ 120
0::.'00
J
~ 60
80

Gráficas de valores percentiles para el FGAC (1 y 2) en turbiedad

En términos generales, el FGAS3 presenta valores percentiles menores a los valores


percentiles del FGAC, lo cual evidencia la fortaleza del FGAS3 en relación con el
FGAC.

192 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 7- EVALUACiÓN DE SISTEMAS PARA TRATAMIENTO DE AGUA POTABLE

7.8 Diagramas de cajas y alambres


Los diagramas de cajas y alambres permiten estimar gráficamente la forma de
distribución de los filtros gruesos, éste se puede realizar considerando también
valores extremos y valores atípicos u "outliers".
• Turbiedad
En el diagrama de cajas general (a) se puede evidenciar que los filtros más homogéneos
en su distribución son el FGAS3 , FGH3 y el FGDS, con mayor homogeneidad en la
distribución del FGDS, en relación con el valor de la mediana.
Considerando el diagrama con valores extremos y "outliers" (b) se puede evidenciar
que en los efluentes de los filtros existen valores extremos, denotados por "o" y valores
atípicos u "outliers" denotados por "*" (el número indica la posición de la observación
en la base de datos). Los valores atípicos se deben analizar cuidadosamente, con el
fin de definir el grado de validez de los mismos .

. ~----------------------~
- ...
110 too••
....
~ ....
*t..
*tAO .....
*t..
.....
1100
... *to.
.........
*t..

*to,
....
20 -,..

:
50

...
FGAS3
... ...
FGAC FGHM3
... ...
FGH3 FGDS FGAS3 FGAC FGHM3 FGH3
...
FGDS

(a) (b)
Gráfico de cajas y alambres para turbiedad

• Coliformes fecales
En el diagrama de cajas general (a) se puede evidenciar que los filtros más
homogéneos son el FGAS3 , FGH3 y el FGDS. El filtro con mayor dispersión lo
presenta el FGHM3 , seguido del FGAC.
Considerando el diagrama con valores extremos (b) se puede evidenciar que en el
efluente del FGHM3 no se presentan ni valores extremos ni atípicos, mientras que en
los otros filtros se presentan entre 1 o 2 valores extremos y 1 o 2 valores atípicos.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 193


VIVIANA VARGAS FRANCO

~rl-----------------------------'

*"
=-1500
S f500

~ ~
2- 2-
,; ,;
~ 1000 ~1ooo
u. u.

J
8 500
I ....
Q,
-w, •

500
B'

01
N-
I
~ N_ 31
~
"
FGAS3
"
FGAC
"
FGHM3
"
FGH3
"
FGDS
"
FGAS3
"
FGAC FGHM3
"
FGH3
"
FGDS

(a) (b)
Gráfico de cajas y alambres para coliformes fecales

En general, se puede analizar que los mejores filtros gruesos evaluados en cuanto
a turbiedad ycoliformes fecales fueron el FGAS y el FGH, seguido del FGDS; por
último se encuentran el FGAC y el FGHM. En el porcentaje de remoción los mejores
filtros fueron el FGAS, FGDS y FGH, seguidos del FGAC y el FGHM.
Sin embargo, para una adecuada selección de un filtro grueso es necesario
analizar otros parámetros de calidad de agua y considerar factores de operación y
mantenimiento, así como los costos de inversión inicial, administración, operación
y mantenimiento de cada una de las unidades.

194 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO

8
Calidad de aire

Este capítulo presenta el manejo de información asociado a la calidad del aire


medido en diferentes estaciones de Santiago de Cali; los datos y la información
se tomaron del Departamento Administrativo de Gestión del Medio Ambiente de
Cali, a través de su dirección electrónica www.dagmacali.gov.co. También se
presenta el manejo de información de la calidad de aire de la ciudad de México, de
su Sistema de Monitoreo Atmosférico de Ciudad de México - SIMAT, presentado
en su página electrónica (www.sma.df.gob.mx/simat/pnindicadores.htrn). Para los
datos de Santiago de Cali se analizan los parámetros dióxido de azufre, material
particulado y ozono.
El aire es una mezcla gaseosa compuesta en un 78% de nitrógeno, un 21 % de oxígeno
y un 1% de gases como bióxido de carbono, ozono, argón, xenón y radón, entre
otros. Se considera contaminación del aire a la adición de cualquier sustancia que
altere sus propiedades fisicas o químicas.
Debido a la contaminación atmosférica que se prese.n ta principalmente en las
ciudades, y con el fin de proteger la salud de sus habitantes, se necesita implementar
acciones para mejorar la calidad del aire, y el primer paso es medir su calidad,
determinando sus causas, y evaluar sus efectos y los problemas fundamentales que
se presentan para diseñar un plan acorde con ellos.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 195


VIVIANA VARGAS FRANCO

Alrededor del mundo se ha encontrado que en los centros urbanos las fuentes móviles
son las mayores contribuyentes de emisiones contaminantes a la atmósfera, siendo
siempre más significativas, comparadas con las emisiones de fuentes fijas. Un menor
aporte de emisiones es ocasionado por fenómenos asociados a las actividades de
urbanización, tales como: deforestación, tala de árboles, apertura de vías, erosión de
cerros, disposición de escombros, disposición de desechos sólidos y almacenamiento
de combustibles, entre otros. A continuación se describen algunos parámetros de
calidad de aire.

• Dióxido de Azufre (S02)


Es un gas incoloro de olor característico, constituido por un átomo de azufre y
dos átomos de oxígeno en su estructura molecular. Se origina por la combustión
o proceso de combustibles que contienen azufre (diésel y combustible) y la
fundición de minerales ricos en sulfatos. Se genera principalmente por la industria,
seguido de los vehículos automotores. Los compuestos que contienen azufre están
presentes en la atmósfera natural no contaminada. Estas sustancias provienen de
la descomposición bacteriana de la materia orgánica, de los gases volcánicos y
otras fuentes. Sin embargo, su contribución en el balance total de S02 resulta muy
pequeña en comparación con las producidas en los centros urbanos e industriales
como resultado de las actividades humanas.
El S02 atmosférico puede oxidarse a S03 por diferentes medios y reaccionar con la
humedad del entorno (H2S04), los cuales se dispersan en el ambiente en forma de
lluvia, niebla, nieve y rocío, dando origen a un proceso de acidificación de la tierra
y cuerpos de lluvia (lluvia ácida).
En altas concentraciones, el dióxido de azufre puede ocasionar dificultad para
respirar; humedad excesiva en las mucosas de las conjuntivas, irritación severa en
vías respiratorias e incluso al interior de los pulmones por formación de partículas
de ácido sulfúrico, ocasionando vulnerabilidad en las defensas.
El dióxido de azufre es causante de enfermedades respiratorias como broncoconstricción,
bronquitis y traqueítis, agravamiento de enfermedades respiratorias y cardiovasculares
existentes y la muerte; si bien los efectos señalados dependen en gran medida de la
sensibilidad de cada individuo, los grupos de la población más sensibles al dióxido de
azufre incluyen a los niños y ancianos, a los asmáticos y aquellos con enfermedades
pulmonares crónicas como bronquitis y enfisema.
La OMS recomienda como límite para preservar la salud pública una concentración
de 100 aSO llg/m3 promedio de 24 horas, y de 40 a 60 Ilg/m 3 en una media aritmética
anual.

196 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

• Material particulado o partículas (PMJ


En contaminación atmosférica se reconoce como partícula a cualquier material
sólido o líquido con un diámetro que oscila entre 0,0002 y 500 micrómetros (¡.tm).
En conjunto se designan como partículas suspendidas totales o PST.
Las fuentes de emisión de partículas pueden ser naturales o antropogénicas. Entre
las naturales se encuentran: viento, erosión del suelo, material biológico fraccionado,
erupciones volcánicas, incendios forestales y polinización de plantas, entre otros.
Entre las fuentes antropogénicas se encuentran: combustión de productos derivados
del petróleo, quemas en campos agrícolas, fertilización y almacenamiento de granos,
la industria de la construcción y diversos procesos industriales.
Las partículas pueden tener una composición fisicoquímica homogénea o estar constituidas
por diversos compuestos orgánicos e inorgánicos. Entre los componentes orgánicos se
encuentran: fenoles, ácidos, alcoholes y material biológico (polen, protozoarios, bacterias,
virus, hongos, esporas y algas). Entre los compuestos inorgánicos se encuentran nitratos,
sulfatos, polímeros, silicatos, metales pesados (hierro, plomo, manganeso, zinc o vanadio)
y elementos derivados de pesticidas y plaguicidas. Las partículas se clasifican de acuerdo
con su efecto en la salud humana, como producto derivado de un proceso natural o
antropogénico y por sus características físicas:
Partículas sedimenta bies (> 10/-1m ). Son partículas que por su peso tienden a
precipitarse con facilidad, razón por la cual permanecen suspendidas en el aire en
períodos cortos. Por lo general no representan riesgos significativos para la salud.
Partículas menores a 10 micrómetros (~ 10/-1m ) (PMlO)' Son partículas de
diámetro aerodinámico equivalente o menor a lOllm. Se consideran perjudiciales
para la salud debido a que no son retenidas por el sistema de limpieza natural del
tracto respiratorio.
Partículas menores a 2,5 micrómetros (~ 2,5/-1m). Son partículas de diámetro
aerodinámico equivalente o menor que 2,5 ¡.tm. Representan un mayor riesgo para
la salud humana, pueden ser un factor de muerte prematura en la población.
El material particulado puede tener efectos negativos en la salud y bienestar del
hombre, ya que puede contribuir a aumentar las enfermedades respiratorias como
la bronquitis y agudizar los efectos de otras enfermedades cardiovasculares. Así
mismo, afecta la visibilidad y velocidad de deterioro de muchos materiales hechos
por el hombre.
El riesgo a la salud por partículas lo constituye su concentración y el tiempo de
exposición en el aire, sin embargo, el tamaño es la característica física más importante

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 197


VIVIANA VARGAS FRANCO

para determinar su toxicidad y efectos en la salud humana. Las partículas mayores


a 10 11m son retenidas básicamente en las vías respiratorias superiores y eliminadas
en su mayor parte por el sistema de limpieza natural del tracto respiratorio, por lo
que no son consideradas significativamente dañinas para la salud; sin embargo, la
exposición continua a altas concentraciones puede causar irritación de garganta y
mucosa.
Las PMIO (fracción respirable) no son retenidas en las vías respiratorias superiores,
cerca de un tercio penetra hasta los pulmones. Su efecto depende de su composición
química, pueden producir irritación de las vías respiratorias, agravar el asma y
favorecer las enfermedades cardiovasculares. En el corto plazo la contaminación por
PM¡o puede causar deterioro de la función respiratoria y en el largo plazo se asocia
con el desarrollo de enfermedades crónicas, el cáncer o la muerte prematura.

• Ozono (03)
El ozono es un gas altamente reactivo, de color azul pálido, constituido por tres
átomos de oxígeno en su estructura molecular. Este se puede clasificar en dos grandes
grupos: ozono estratosférico y ozono troposférico.
Ozono estratosférico. Se origina en forma natural en la estratosfera (entre 12 km y
50 km a partir del suelo) mediante la fotodisificación del oxígeno producida por la
radiación solar ultravioleta; se concentra en una capa delgada denominada ozonosfera,
la cual filtra y modera la radiación solar ultravioleta y otras partículas energéticas
que inciden sobre la superficie terrestre. Esta acción protectora de la capa de ozono
permite que se lleven a cabo diversos procesos en los ecosistemas naturales: en la
célula evita que se rompan las moléculas de ADN y enlaces de carbono. En los
últimos cincuenta años la emisión de clorofiuorocarbono (CFC), usado en equipos
de refrigeración, aire acondicionado, aerosoles y esponjas plásticas, ha provocado
el deterioro y debilitamiento de la ozonosfera en un orden de 3% cada diez años.
Ozono troposférico. En la troposfera (de O km a 12 km a partir de la superficie
terrestre) el ozono se produce por la reacción fotoquímica de óxidos de nitrógeno
(NOx) y compuestos orgánicos volátiles (COY' s) derivados del uso de combustibles
fósiles, los cuales se denominan precursores del ozono. La reacción fotoquímica se
produce cuando los NOx y los COY's reaccionan con la luz solar, lo que produce
un átomo libre de oxígeno (O). Este átomo libre puede adicionarse a una molécula
de oxígeno (02) y formar una molécula de ozono (0 3), El proceso es reversible y
está condicionado por la intensidad de la radiación solar.
La OMS recomienda como límite para preservar la salud pública una concentración
de ozono de 0,05 a 0,10 ppm (partes por millón) por hora, cada tres años.

198 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

El ozono se considera uno de los contaminantes de mayor preocupación en la


actualidad, ya que es altamente oxidante y afecta los tejidos vivos, se asocia con
diversos padecimientos en la salud humana. Los individuos que viven en zonas
donde se registran regularmente concentraciones altas de ozono presentan diversos
síntomas como: irritación ocular, de nariz y garganta, tos, dificultad y dolor durante
la respiración profunda, dolor subesternal, opresión en el pecho, malestar general,
debilidad, náusea y dolor de cabeza. Por otra parte, los daños por exposición al
ozono dependen de la sensibilidad de cada individuo y del tipo de exposición. El
ozono causa severos daños al follaje de algunas variedades de plantas y en otras
reduce significativamente su crecimiento.

• Otros indicadores de calidad de aire


El monóxido de carbono es un gas incoloro e inodoro, que en concentraciones altas
puede ser letal. La principal fuente antropogénica de monóxido de carbono es la
quema incompleta de combustibles como la gasolina. Para que se complete el proceso
de combustión es necesario que haya una cantidad adecuada de oxígeno. Cuando
éste es insuficiente, se forma el monóxido de carbono y una manera de reducirlo es
exigir que los automóviles sean sincronizados debidamente para asegurar la mezcla
del combustible con el oxígeno. Por esta razón, los reglamentos de inspección de
automóviles han sido útiles para controlar el monóxido de carbono.
El monóxido de carbono es especialmente problemático en zonas urbanas con gran
número de automóviles. El volumen del tránsito y el clima local influyen sobre su
concentración en el aire. Los efectos sobre la salud dependen de la concentración y
duración de la exposición. El monóxido de carbono en los seres humanos afecta el
suministro de oxígeno en el torrente sanguíneo. La exposición al monóxido de carbono
puede agudizar las enfermedades del corazón y del pulmón. El peligro es más evidente
en nonatos, neonatos, ancianos y en quienes sufren enfermedades crónicas.
Los óxidos de nitrógeno son un grupo de gases conformados por nitrógeno y
oxígeno. El nitrógeno es el elemento más común y representa el 78% del aire que
respiramos. Los óxidos de nitrógeno incluyen compuestos como óxido nítrico (NO)
y dióxido de nitrógeno (N02). El término NOx se refiere a la combinación de estas
dos sustancias. Las fuentes más comunes de óxidos de nitrógeno en la naturaleza
son la descomposición bacteriana de nitratos orgánicos, incendios forestales y de
pastos, y la actividad volcánica. Las fuentes principales de emisión antropogénica
son los escapes de los vehículos y la quema de combustibles fósiles.
El óxido nítrico es relativamente inofensivo, pero el dióxido de nitrógeno puede
causar efectos en la salud. En el proceso de combustión, el nitrógeno en el combustible

ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 199


VIVIANA VARGAS FRANCO

y aire se oxidan para fonnar óxido nítrico y algo de dióxido de nitrógeno. Los óxidos
nítricos emitidos en el aire se convierten en dióxido de nitrógeno mediante reacciones
fotoquímicas condicionadas por la luz solar. El dióxido de nitrógeno daña el sistema
respiratorio porque es capaz de penetrar las regiones más profundas de los pulmones.
Así mismo, contribuye a la fonnación de la lluvia ácida.

• legislación ambiental
El gobierno nacional, a través del Ministerio de Transporte y mediante nonnas como el
Estatuto del Transporte para el transporte masivo (No. 3109 de 1997), ha contribuido
a definir lineamientos necesarios para la correcta planificación, ejecución y control
de dichos proyectos, centrando su atención en las grandes ciudades que integran
polos de desarrollo industrial y comercial. Para el análisis del comportamiento de
la contaminación es preciso realizar una comparación de los valores registrados de
cada contaminante con la nonna nacional vigente para emisiones atmosféricas (D.L.
02/82). Para poder aplicar esta nonna deben calcularse los valores específicos de
acuerdo con la temperatura promedio y la presión atmosférica de cada ciudad. Los
valores para Cali se muestran en la Tabla 8.1.

Tabla 8.1 Normativa de calidad del aire para diversos parámetros.

Nonna Nonnapare
Pmmetro SirmoIo Condición lIICionaI o candici6n
EPAnl local 121

la máxima concentración de una muestra recolectada en forme continua


durante 24 horas que se pueda sobrepasar por una sola vez en un 131 150 pg}m3
Partlculas
periodo de 12 meses.
menores
PMIO
de 10
micrómetros la concentración promedio de una muestra recolectada en forma
continua durante 24 horas que se pueda sobrepasar por una sola vez en 13150pg/m3
un periodo de 12 meses.

El promedio aritmético de los resultados de todas las muestras diarias


recolectadas en forma continua durante 24 horas en un intervalo de 12 100pg}m3 34.22 ppb
meses, no debe exceder la norma.

la máxima concentración de una muestra recolectada en forma continua


Dióxido
80 2 durante 24 horas que se puede sobrepasar por una sola vez en un 400pg}m 3 136.61 ppb
de azufre
periodo de 12 meses.

la máxima concentración de una muestra tomada en forma continua


durante 3 horas que se puede sobrepasar por sólo una vez en un periodo 512.29 ppb
de 12 meses.

Continúa en la página siguiente

200 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

Viene de la página anterior

Norma Nonnapara
Par6metro SInmoIo CandiI:i4n nacional O condición
EPAI11 1ocaI 12l

la máxima concentración de una rooestra recolectada en forma continua


15000¡.¡g/mJ 11.72 ppm
durante 8 horas.
Monóxido
CO
de carbono la máxima concentración de una muestra tomada en forma continua
durante 1hora que se puede sobrepasar por sólo una vez en un período 39.06 ppm
de 12 meses.

El promedio aritmético de los resultados de todas las muestras diarias


Dióxido de
N02 recolectadas en forma continua durante 24 horas, en un intervalo de 12 100¡.¡g/mJ 47.61ppb
nitrógeno
meses, no debe exceder la norma.

la mbima concentración de una muestra tomada en forma continua


Ozono 03 durante 1hora que se puede sobrepasar por sólo una vez en un periodo 170¡.¡g/mJ 77.57 ppb
de 12 meses.

111 2S' Cy 1 atmósfera


121 2S.2' Cy 0.89 atmósfera
131 Norma EPA

• Red de monitoreo de calidad del aire de Santiago de Cali

La red de monitoreo de Santiago de Cali está constituida por ocho estaciones


automáticas, la ubicación de las estaciones fijas se ilustra en la Figura 8.1 y los
parámetros medidos en cada una se consignan en la Tabla 8.2.

- ..:-- -- J
M.CAUII. . . _ . . . . . . . .
M &un6N
IJU"'iUfAIWfQ . . . . . .TUtwo
. . . . . . . . .--:NR . ........
I
Figura 8.1 Ubicación geográfica de estaciones de monitoreo de calidad de aire
en Santiago de Cali (www.dagmacali.gov. co).

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 201


VIVIANA VARGAS FRANCO

Tabla 8.2 Ubicación de las estaciones de monitoreo y parámetros medidos en


Santiago de Cali (www.dagmacalLgov.co).

Identificaci6n Meteoro· Par"'tros medidos


(Abreviatural logia CO
PMIl NO. S02 03

t : >~ ~'i .
Centro Diagnóstico ,.: ,'.... 1.';-, ~':';'''.:
.¡", t'''~~
Automotor del Valle
." . (",' . )",'" '.,
.' .
(CDAVI ~~-,y.;

,;

BA Marco Fidel Suárez


/" :" U-." ~;
2 ,,:'~:' ,,;
l ~~ ",L~
, ,

(BA) , , .:1:' ,);;"(

''l'-•• '~ 1", , .,":'1.

3 Hospital Universitario del Valle (HUV) ¡::', -' ,-~.


. ,;
'~',:
'..:1

",,:'.:' ,:>,.,'~ ,.' .


'.
4
Polideportivo El Diamante
(PPD)
; "'-~:" r:·~·>:
',,,:,
t'~ ./

""

5 CVC Pance

t
,
.....
!,-": ~. ..' t-,- .. ,,! 1:+:..:"«
6 Escuela República Argentina (ERA)
l,'. ,{~ '*,;:. ,,{:.'t'!:';;

""';'~'. .... ...


""',
~ .. ~

Universidad del Valle


7
(UV) l.: ,:j;, ,e,""l
lo;
'~ ~.: ;,¿ ,
8 Calle 15
:
La Tabla 8.3 presenta diversos indicadores descriptivos, utilizados para analizar los
parámetros evaluados por el SIMAT, Sistema de Monitoreo Atmosférico de Ciudad
de México, y presentados en su página de intemet (www.sma.df.gob.mxIsimatl
pnindicadores.htm). Por la importancia que tienen los indicadores de calidad del
aire y meteorología, estos se elaboraron con criterios de suficiencia de información,
que consideran el tipo de dato y el desempeño de las estaciones de monitoreo en
Ciudad de México.

202 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

Tabla 8.3 Indicadores descriptivos para el resumen de datos de calidad de aire.


(www.sma.dfgob.mx/simat/pnindicadores.htm)
Indicador Descripción Tipo de dato Par6metro

Señala los eventos extremos. Es sensible a cualquier Máximo diario 03. N02. CO.
Máximo suceso extraordinario (incendios. desfogues industriales. S02. PST.
eventos meteorológicos. etc.). Colecta de 24 horas PMlO

Señala los eventos extremos recurrentes. mitiga la


TOP 30 Máximo diario 03
influencia de sucesos extraordinarios.

Al ordenar una población de datos de menor a mayor.


Percentil un percentil señala la concentración que acumula un
determinado porcentaje del total.

Concentración que acumula 90% de los registros. Ca·


Promedio horario
racteriza el comportamiento de los registros máximos
Percentil 90
de un contaminante. evita la influencia de eventos
extraordinarios. Máximo diario 03. N02. CO.
S02. PST,
Promedio diario PMlO
Concentración que acumula el 75% de los registros.
Percentil 75 Caracteriza el comportamiento de registros cotidianos Colecta de 24 horas
de un contaminante. al evitar los valores altos.

Concentración que divide en dos al total de registros.


Percentil 50 (mediana) Caracteriza el comportamiento de registros cotidianos.
evidencia aumentos generales.

Promedio diario
Permite evaluar el cumplimiento de normas de protección S02. PST.
Promedio a la salud y el comportamiento anual de algunos paráme· Colecta de 24 horas PM 1o. pH.
tras. Es sensible a valores extremos. NOj. S04
Colecta semanal

Permite evaluar el cumplimiento de la norma de protección


Promedio trimestral Colecta de 24 horas Pb
a la salud por concentración de plomo.

Indica indirectamente un nivel de riesgo por exposición Promedio horario


Promedio superior a un limite a concentraciones superiores al valor de una norma de 03. PMlO
protección a la salud. Colecta de 24 horas

Promedio horario
Indica la frecuencia de valores de un contaminante en 03. N02. CO.
Promedio móvil
intervalos especificas. algunos se asocian a los límites S02. PST.
Intervalos
permisibles definidos en las Normas Oficiales Mexicanas PM10. pH.
Colecta de 24 horas
de Salud Ambiental. N03. S04
Colecta semanal

Muestra el comportamiento de un contaminante en el


03. N02. CO.
Comportamiento tipico diario transcurso del dia. Permite asociar con la intensidad de Promedio horario
S02
las actividades antropogénicas

ESTADisTICA DESCRIPTIVA PARA INGENIERiA AMBIENTAL CON SPSS 203


VIVIANA VARGAS FRANCO

8.1 Gráficos de estadísticas descriptivas

• Material particulado, PMro


En la gráfica se presenta el promedio anual de material particulado menor de 10
micrómetros, PMIO, en relación con la norma anual de 50 Jlglm 3 . Las estaciones
Centro de Diagnóstico Automotor del Valle (CDAV) y Calle 15 reportan valores
superiores a la norma anual definida, mientras que las estaciones Marco Fidel Suárez
(BA), Polideportivo El Diamante (PPD) y Escuela República Argentina (ERA) están
por debajo de la norma anual.

60,00

50,00

i. 40,00
~9
g
.
30,00
....
<.> 20,00
a 10,00

0,00
COAV BA POO ERA CALLE 15
Es/ación
Promedio anual - Norma anual 50 "g/m3

Gráfica de material particulado menor a JO micrómetros.


(www.dagmacali.gov.co)
En la Tabla 8.4 se presentan las frecuencias para diversos intervalos de material
particulado PM 1O·

Tabla 8.4 Distribución promedio de material particulado en algunas estaciones


de la ciudad de Santiago de Cali. Abril - noviembre de 2004.
(www.dagmacali.gov.co)

Distribución de frecuencias para promedio PMlO por Estación


Intervalo (Recuento de dlas)
CDAV BA PDD ERA
3
< 50 pg/m 85 (19.5%1 87 (35.7%1 85 (36.6%1 181 (43.5%1
51.100 pg/m3 132 (30.3%1 34(13.9%1 30 (12.9%1 27 (6.5%1
101 ·150 pg/m3 1 (0.2%1 1 (0.4%1 1 (0.4%1 0(0.0%1
Total 218 (50.0%1 122 (50.0%1 116 (50.0%1 208 (50.0%)

204 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 8 - CALIDAD DE AIRE

Observando la tabla se concluye que valores menores de 50 ~glm3 se dan el 39% de


las veces en la estación CDAV, el 71,3% en la estación BA, el 73,3% en la estación
PDD y el 87% en la estación ERA. En el rango de 51 ~glm3 a 100 J.lglm 3 se muestran
el 60,5% de los datos en la estación CDAV; el 27,8% en la estación BA; el 25,8%
en la estación PDD y el 13% en la estación ERA.
La siguiente gráfica muestra la serie de tiempo para la concentración máxima PM 10,
en algunas estaciones monitoreadas de Santiago de Cali.

100

i zso
i ZOO

j 150 ·

~ 100 -

I
<:l 50 -

- CDA V -poo ~ ERA ~- BA - - Nor",lIdillf';tI

Gráfica de series de tiempo anual para concentración máxima de


material particulado, PMlO (2004) .

La serie de tiempo de la concentración máxima, PM 10, permite visualizar que


en general la estación CDAV presenta muy frecuentemente valores por encima
de la norma de PM lO, con valores más elevados en los meses de mayo y julio,
disminuyendo sus niveles en los meses de octubre a diciembre. La estación PDD, en
los meses monitoreados, muestra valores máximos por debajo de la norma, excepto
en el mes de mayo; de igual forma la estación ERA reporta valores por debajo de
la norma, excepto en octubre. La estación BA tiene los valores más altos de las
estaciones graficadas en junio y julio, también evidencia los valores más bajos en
julio y agosto.
La siguiente gráfica muestra el comportamiento semanal, diario y horario en algunas
estaciones de monitoreo de la red de Santiago de Cali.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 205


VIVIANA VARGAS FRANCO

80

60 I __
::-
f.
-3 40
,
';..

20

o l' , - 'i
COAV BA POD ERA CVC CALLE 15
o Domingo C Lunl!s • Martes O Miércoles • Jueves • Viernes • Sdbado

Gráfica del comportamiento semanal de PM¡o. Enero de 2004


(www.dagmacali.gov.co)
Aunque no se puede observar una tendencia general para el comportamiento semanal
en las diferentes estaciones, las mayores concentraciones se muestran generalmente
los jueves para las estaciones BA, PDD, CVC y Calle 15; el martes para la estación
CDAV y el miércoles para la estación ERA. Las menores concentraciones se
dan el domingo para las estaciones CDAV, CVC y Calle 15; y el lunes para las
estaciones restantes (www.dagmacali.gov.co). La estación ERA muestra las
menores concentraciones de material particulado en el mes graficado y las mayores
concentraciones se dan en las estaciones CDAV y Calle 15.
La siguiente gráfica presenta el comportamiento diario de PM lOen enero, en algunas
estaciones monitoreadas en la ciudad.

1~r.1======================================~~
140

120

::- 100

l
-3
80

~• 60
40

20
o I-~,~- \.J V
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Dias (t)
- - CDAV - + - BA - - PDD ---..-CVC ~ ERA - + - CA LLE/5 - - - NormadiariaI50pg!m3

Gráfica del comportamiento mensual de PMlO. Enero de 2004.


(www.dagmacali.gov.co)

206 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIEN TAL CON SPSS


CAPfTULO 8 - CALIDAD DE AIRE

Se pueden apreciar concentraciones bajas y poco variables durante los primeros diez
días del mes en las estaciones graficadas y un comportamiento variable que alcanza
concentraciones mayores en la estación Calle 15 y CDAV, a partir del día 8 (www.
dagmacali.gov.co). La estación que evidencia los menores valores de PMIO es la
estación CVC, seguida por las estaciones PDD y ERA.
En la siguiente gráfica se muestran las máximas concentraciones horarias en algunas
de las estaciones monitoreadas. Se puede ver que, a excepción de la estación CVC
- Pance, ubicada en la zona rural, las máximas concentraciones ocurren entre las
10 Y 12 horas, con un incremento de las concentraciones a partir de las 18: 00 horas,
excepto para la estación PDD que mostró una disminución progresiva a partir de las
18 horas (www.dagmacali.gov.co).

100

80
........
~.,

~
60
'-
....
~
40

~
20

o
o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 23
horas (1)
ERA -+-- CALLE 1 5

Gráfica del comportamiento horario promedio de P Mi O. Enero de 2004


(www.dagmacali.gov.co).

• Dióxido de azufre (S02)


La siguiente gráfica muestra la concentración promedio de dióxido de azufre en
estaciones de Santiago de Cali.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 207


VIVIANA VARGAS FRANCO

40

130
~

120
,
1
~ 10
él
O +1_.1..-.........
CDAV BA PDD ERA
Estación
Concentración promedio anual -Norma anual 34,ZZ ppb

Gráfica de concentración promedio de dióxido de azufre (SO»


(www.dagmacali.gov.co)
En las estaciones CDAV, BA, PDD YERA los niveles de concentración promedio de
S02 son menores que la norma anual establecida, que es de 34,22 ppb, mostrando
las estaciones graficadas valores medios menores o iguales a 10 ppb. El mayor
promedio de concentración lo dan la estación CDAV, seguido de las estaciones BA,
ERA y el menor promedio la estación PDD.
La siguiente gráfica muestra la serie de tiempo anual de la concentración máxima
de S02 (ppb) en cuatro estaciones monitoreadas en Santiago de Cali.

~~-7--~-C~~~~--~~--~-C~--~~--~~--~~~--~~--~

1
. .
100
!{

t 10 ~~ :
. . .
J 'TT:'" :....•.. l •. ., .
..
<.l

-~~---~~~~ ~~~~~--~~~
~CDAV ~- BA -7" PDD ~ ERA --Norma diaria 136,61 ppb

Gráfica de series de tiempo anual para la concentración máxima de


S02

208 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 8 - CALIDAD DE AIRE

Se puede apreciar que en general las estaciones graficadas están por debajo de la
norma diaria establecida que es de 136,61 ppb, excepto la estación CDAV con un
valor superior a la norma en noviembre. De marzo a julio la estación PDD evidenció
en general las menores concentraciones máximas de S02. De octubre a diciembre
la estación que mostró los valores más altos fue la CDAV y la estación que dio los
valores más bajos fue ERA.
La siguiente gráfica muestra los valores promedios horarios de concentración de
S02·

20
····t~···············
liS .................. ... _.*. :* .. \ ..................... - ....... .

~.. 10 . • --: ............. /(~ ~ ~ :-~;- .~:~ ~


. . ..... ..... . .. .. •.
: ... .. * • .. ** .. *
s ~ ~.• ~. :.~ .: ...~... : .. : ·~:.: Jo:.::::1"-'·* ·~ ·..:a .. ii..:.:_-·~ .. ~ ~7~ .. ·_·. :. . :;.·
:tE JI(~( JK - )k '.:+: ~
-l!(. )I(- - ) K ~( )j( )K )K )K ::+: JI( )K
o
o 1 2 3 4 S 6 7 8 9 10 1 1 12 13 14 1 S 16 17 18 19 20 21 22 23
horas (1)
_ COA V -*- BA .. -. --_. POI) _ ERA

Gráfica de concentración promedio horaria de S02 (www. dagmacali.


gov.co)

Se observa que en el comportamiento horario para las concentraciones de S02, en


las diferentes estaciones, los valores máximos se dan entre las 9 y las 11 horas. Las
estaciones CDAV y BA muestran un segundo valor máximo, más bajo que el primero,
entre las 20 horas y las 21 horas, aproximadamente. Estos valores máximos coinciden
con las horas de mayor densidad de tráfico. También se observa que la estación con
mayor concentración es la CDAV, seguida de la BAy las menores concentraciones
las tienen las estaciones PDD y ERA.
La siguiente gráfica muestra el comportamiento semanal, diario y horario, en algunas
estaciones de monitoreo de la red de Santiago de Cali.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 209


VIVIANA VARGAS FRANCO

20.---------------------------------------------~

15

1
~'
10

o
CDAV BA PDD ERA
o Do",ingo CJ Lunes • Martes O MUrcoles • Jueves • Viernes • Sábado

Gráfica de concentración promedio semanal de S02


(www.dagmacali.gov.co)
Se observa que las menores concentraciones se dan el domingo, debido posiblemente
a la disminución del tráfico y de las actividades laborales. En general las mayores
concentraciones de S02 se muestran el martes para las estaciones CDAV, BAy PDD;
y el miércoles para la estación ERA. Se puede analizar que la estación CDAV da los
niveles más altos de S02 en los diferentes días de la semana, seguida por la estación
BA. En la estación ERA se observan los menores niveles de concentración de S02,
seguida de la estación PDD.

• Ozono (03)
La siguiente gráfica presenta la máxima concentración horaria de ozono en dos
estaciones monitoreadas: PDD y CVc.

aeJJO¡
84.00
82.00
i 80.00
-5
c" 78.00
76.00
74.00
72.00 +1------~----~~------~----~--------~----~
PDD O/e
= Máximo J hora - Norma horaria 77.57 ppb

Gráfica de máxima concentración horaria de ozono. Enero de 2004


(www.dagmacali.gov.co)

210 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

Se puede apreciar que, en el mes graficado, se excedió la norma horaria tanto en la


estación PDD como en CVC zona rural (www.dagmacali.gov.co). En la estación
PDD el valor máximo fue superior a 84 ppb de ozono y en la estación CVC la
concentración máxima de ozono supera las 80 ppb.
En las siguientes gráficas se presenta el comportamiento horario de ozono en las
estaciones Polideportivo El Diamante (PDD) y CVC Pance, para los diferentes días
de la semana.

Polideportivo El Diamante CVCPance


60 60
50 50

>- .

o 1 2 3 4 5 8 7 8 9 101112 13 14 15 18 17 181920 21 22 23 O 1 2 3 4 5 6 7 8 9 101 1 1213 14 1516 17 181920 21 22 23

¡Domingo -.- · LI,II\f'~ Io4Irt.. Mi6rcoIes ........- J\M'ItI ____ V¡emeS --"-- $M)ado

Gráfica de comportamiento horario del ozono 03. Enero de 2004.


(www.dagmacali.gov.co)
En la gráfica se observa que la tendencia del valor del ozono es similar en cada uno
de los días analizados en las estaciones PDD y CVC-Pance. El comportamiento
horario de 0 3 en enero de 2004 muestra que las mayores concentraciones promedio
de este contaminante se dan a las 13:00 horas en la estación PDD y a las 15:00
horas en la estación CVC- Pance (www.dagmacali.gov.co). Los menores valores de
03 se evidencian en las primeras hod s; desde las O hasta las 8 horas, a partir de lo
cual se observa un incremento signifibativo hasta alcanzar el valor máximo de 03
y disminuye nuevamente hasta alcanzar niveles bajos a partir de las 18 horas en la
estación PDD y de las 20 horas para la estación CVC-Pance.

8.2 Histogramas

• Material particulado, PM,o


A continuación se observan los histogramas del material particulado, PM¡O, en
las estaciones CDAV, PDD y ERA, los cuales se comparan con la distribución
normal.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 211


VIVIANA VARGAS FRANCO

Estación: J CDAV Estación: 4 PDD


800 400

600 300

'~
~ 400 '1200
~
'"

200 100

_"'·J2.'1
Mtfif-j7
_ . - 2lJf
M... · "
..........u,u.........1,I-I,Ju,u,J-li"'i"'i'''''' N·l121." N·Ufl."
42031152 6884100116132148164111196 W~JIIQ¡~II~I~1151!m

PMII PM"

Es/ación: 6 ERA
700

600

500

_.'14.14
II... ·'J
N'u;~"
3 15 n ! 51 ~ ~u• mlDl! 147

PM"

Gráfica de frecuencias absolutas para material particulado (P Mi oJ


En la estación CDAV se dan frecuencias en material particulado, PM IO , hasta 196
Ilg/m3, con las mayores frecuencias en el rango de 20 Ilglm3 a 68 Ilglm3, así mismo
se evidencia un buen ajuste de la distribución a la curva normal. El promedio en la
estación es de 57 Ilglm3 y una desviación estándar de 32,4 Ilglm3.
En la estación PDD se observan frecuencias hasta 137 Ilg/m3, con las mayores
frecuencias en el rango de 141lglm3 a 591lglm3, evidenciándose un buen ajuste de la
distribución a la curva normal. El valor promedio en esta estación es de 44 Ilglm3
con una desviación estándar de 25 ,2 Ilg/m3.

212 ESTADIsTICA DESCRIPTIVA PARA IN GENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

En la estación ERAse observan frecuencias hasta 147 ¡..tglm3, con su máxima concentración
en el rango de 15 ¡..tglm3 a 63 ¡..tglm3, evidenciándose un buen ajuste a la curva normal.
El valor promedio es de 43 ¡..tglm3 con una desviación de 24,94 ¡..tglm3 .
En general, las estaciones PDD y ERA evidencian la misma tendencia sin diferencias
significativas en los valores promedios de PM 1O. También se puede evidenciar que
de las estaciones graficadas solo la CDAV muestra frecuencias por encima de la
norma anual de PM JO, pero con pocas frecuencias en estos valores.

• Dióxido de azufre (SD2)


En la siguiente gráfica se observan los histogramas de la variable dióxido de azufre,
S02, en las estaciones CDAV, PDD y ERA.
Est.ción: J CDAV Est.ción: 4 PDD
1000. - - - - - - - - , 500 . - - - - - - - ,

800

200
Dm. n,. ·',H
Mp -',7
J,I,I,l,J,l,l,l,LM1IL,I,1,I,l.w;t_ N-'JIf,H
I~u~~~~w~m~~~ J~U~UU~u~~u.u

SO, SO,
E,"ción: 6 ERA
7011 . - - - - - - - - - ,

6011

500

200

1011

J,U,LJ,LI,IJI,U,U,u,u.,u,u,IJ;I:I;J
-.. ""
M" · ~, I

N-11"'"
J 1) ¡1 11 il 1)11 1111 ".I1lJl11~1

SO,

Gráfica de frecuencias absolutas para el dióxido de azufre (SO))


En la estación CDAV se muestran frecuencias de dióxido de azufre, S02, hasta valores
de 39,2 ppb; con concentración máxima de frecuencias en el rango entre 0,8 ppb Y

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 213


VIVIANA VARGAS FRANCO

10,4 ppb; con un valor medio de 9,7 ppb Y una desviación estándar de 9,06 ppb. La
forma de la distribución se concentra en los valores menores a 13,6 ppb. A partir de
este valor las frecuencias disminuyen sustancialmente, la gráfica de la distribución
presenta sesgo hacia el lado izquierdo.
En la estación PDD se observan frecuencias hasta 13,7 ppb; con una concentración
máxima de frecuencias en el rango entre 0,3 ppb y 4,8 ppb; con un valor medio de 3,3
ppb y una desviación estándar de 2,51 ppb. La forma de la distribución es asimétrica,
concentrándose la mayoría de valores hacia la franja izquierda de la gráfica y muy
pocos valores mayores a 7,0 ppb.
En la estación ERA se dan valores en la distribución hasta 14,7 ppb, con concentración
de frecuencias en el rango entre 0,3 ppb y 3,9 ppb; con un valor medio de 4,1 ppb
y una desviación estándar de 4,58 ppb. La forma de la distribución es asimétrica en
cuanto al valor medio, con sesgo alIado izquierdo.
De las estaciones graficadas sólo la CDAV evidencia valores por encima de la norma
anual de S02, con bajas frecuencias.

8.3 Tablas cruzadas


Realizando un cruce de variables entre dióxido de azufre S02 y material particulado,
PM 10, se muestran tablas de contingencia en tres estaciones monitoreadas en la ciudad
de Cali. A continuación se dan los resultados de la estación CDAY.

• Estación COA V
Tabla de contingencia PMIO *S02 8
S02
Total
10·201 (20-40) [40-60) >60
Recuento 2266 63 6 O 2335
<50 %de PM lO 97,0% 2.7 ,3% ,0% 100.0%
%de 502 49,8% 15.4% 11,8% ,0% 46,5%
Recuento 1904 245 21 8 2178
(50·100J %de PMlO 87.4% 11,2% 1,0% .4% 100.0%
%de 502 41,9% 60,0% 41,2% 50,0% 43.4%
PMlO
Recuento 316 85 17 7 425
(100·150) %de PMlO 74.4% 20,0% 4,0% 1.6% 100,0%
%de 502 6,9% 20,8% 33,3% 43,8% 8,5%
Recuento 61 15 7 1 84
>150 %de PM,o 72,6% 17,9% 8,3% 1,2% 100,0%
%de 502 1,3% 3.7% 13.7% 6,3% 1.7%
Recuento 4547 408 51 16 5022
Total %de PMlO 90,5% 8,1% 1,0% ,3% 100,0%
%de 502 100,0% 100,0% 100,0% 100,0% 100,0%
a. Estación - CDAV

214 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8- CALIDAD DE AIRE

En esta estación el 46,5% de los datos muestreados del material particulado PM 1O, da
concentraciones menores a 50 ¡¡glm 3 y el 43,4% se encuentra entre 50 ¡¡glm3 y lOO
3
¡¡glm , es decir, en estos dos intervalos se halla el 89,9% de los datos de PM\O.

Para dióxido de azufre, S02, se observa que 90,5% de los datos se encuentran en el
rango de Oppb a 20 ppb Y el 8, I % en el rango de 20 ppb a 40 ppb, es decir, en estos
dos rangos se encuentra el 98,6% de los datos de S02.

Cuando el PM lOse encuentra entre O ¡¡glm 3 y 50 ¡¡glm 3, el 97% de los datos de S02
se da entre O ppb Y 20 ppb Y el 2,7% entre 20 ppb Y 40 ppb.

Cuando el S02 se encuentra entre Opbb Y 20 ppb, el 49,8% de los datos de PMIO se
encuentra entre O ¡¡glm 3 y 50 ¡¡glm 3 y eI41,9% entre 50¡¡glm 3 y lOO ¡¡g/m 3 .

Del total de datos analizados, el 45,1% se encuentra entre O ppb Y 20 ppb de S02
3
y entre O ¡¡glm y 50 ¡¡glm 3 de PM 10, simultáneamente. El 37,9% de los datos
toman valores entre O ppb Y 20 ppb de S02 y entre 50 ¡¡glm 3 y 100 ¡¡glm 3 de PM 10,
simultáneamente.

• Estación POO
A continuación se presenta la tabla de contingencia para la estación PDD.

Tabla de contingencia PM1D * S02 8

S02 Total
[0·20) (20-40)

PMlO <50 Recuento 2214 2 2216


%de PMlO 99,9% ,1% 100,0%
%de S02 65,6% 50,0% 65,6%

(50·100) Recuento 1065 2 1067


%de PMlO 99,9% ,2% 100,0%
%de S02 31,6% 50,0% 31,6%

(100·150) Recuento 86 O 86
%de PMlO 100,0% ,0% 100,0%
%de S02 2,5% ,0% 2,5%

>150 Recuento 10 O 10
%de PMlO 100,0% ,0% 100,0%
%de S02 ,3% ,0% ,3%

Total Recuento 3375 4 3379


%de PMlO 99,9% ,1% 100,0%
%de S02 100,0% 100,0% 100,0%

a. Estación - POO

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 215


VIVIANA VARGAS FRANCO

En esta estación el 65,6% de los datos muestreados del material particulado PMIO
presenta concentraciones menores a 50 ¡.tg/m3 y el 31 ,6% se encuentra entre 50
¡.tg/m3 y 100 ¡.tg/m 3, es decir, en estos dos intervalos se encuentra el 97,2% de los
datos de PM 1O.
Para dióxido de azufre, S02, se presenta que 99,9% de los datos se encuentran en
el rango de O ppb a 20 ppb.
Cuando el PMIO se halla entre O ¡.tg/m3 y 50 ¡.tg/m 3 , el 99,9% de los datos S02 se
encuentra entre O ppb Y 20 ppb.
Cuando el S02 se da entre Oppb Y20 ppb, el 65,6% de los datos de PM 10 se encuentra
entre O ¡.tg/m3 y 50 ¡.tg/m3 y el 31 ,6% se encuentra entre 50 ¡.tg/m3 y 100 ¡.tg/m3 .
Del total de datos analizados el 65,5% se encuentra entre O ppb Y 20 ppb de S02
y entre O ¡.tg/m 3 y 50 ¡.tg/m3 de PM 10, simultáneamente. El 31 ,5% de los datos
toman valores entre O ppb Y 20 ppb de S02 y entre 50 ¡.tg/m3 y 100 ¡.tg/m3 de PM 10,
simultáneamente.

• Estación ERA
A continuación se presenta la tabla de contingencia para la estación ERA.

Tabla de contingencia PMIO • SOz'

80 2
Total
[0·201 (20-401 [40·601 >60
Recuento 2406 5 1 2 2414
<50 %de PMIl 99,7% ,2% ,0% ,1% 100,0%
%de 802 65,6% 14.7% 20,0% 50,0% 65,1%
Recuento 1167 18 2 2 1189
(50-1001 %de PMlO 98,1% 1.5% ,2% ,2% 100,0%
%de 502 31,8% 52,9% 40,0% 50,0% 32,1%
PMlO
Recuento 88 11 1 O 101
(100-1501 %de PMlO 87,1% 10,9% 2,0% ,0% 100,0%
%de 502 2.4% 32,4% 40,0% ,0% 2.7%
Recuento 4 O O O 4
>150 %de PMIl 100,0% ,0% ,0% ,0% 100,0%
%de 502 ,1% ,0% ,0% ,0% ,1%
Recuento 3665 34 5 4 3708
Total %de PMIl 98,8% ,9% ,1% ,1% 100,0%
%de 502 100,0% 100,0% 100.0% 100.0% 100,0%

a_Estación - ERA

En esta estación e165 ,1% de los datos muestreados del material particulado PMIO
evidencia concentraciones menores de 50 ¡.tg/m 3 y el 32,1% entre 50 ¡.tg/m3 y

216 ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

100 Ilg/m3, es decir, en estos dos intervalos se encuentra el 97,2% de los datos
de PM1o.
Para dióxido de azufre, S02, se observa que 98,8% de los datos se encuentra en el
rango de Oppb a 20 ppb Y el 0,9% en el rango de 20 a 40 ppb, es decir, en estos dos
rangos se da el 99,7% de los datos de S02.
Cuando el PMIO se da entre O Ilg/m3 y 50 llg/m3, el 99,7% de los datos S02 se
encuentran entre O ppb Y 20 ppb.
Cuando el S02 se halla entre O ppb Y 20 ppb, el 65,6% de los datos de PMIO se
encuentran entre O Ilg/m3 y 50 Ilg/m3 y el 31,8% entre 50 Ilg/m3 y 100 llg/m3.
Del total de datos analizados, el 64,9% se observa entre O ppb Y 20 ppb de S02
y entre O Ilg/m3 y 50 Ilg/m3 de PM 10, simultáneamente. El 31,5% de los datos
toman valores entre O ppb Y 20 ppb de S02 y entre 50Ilg/m3 y 100 llg/m3 de PMIO,
simultáneamente.

8.4 Gráficas de frecuencias acumuladas


A continuación se presentan las frecuencias acumuladas para la variable dióxido
de azufre S02 y material particulado, PM 10, en las estaciones monitoreadas CDAV,
PDD Y ERA.

• Material particulado, PM,o


COA V PDD
100'II 100'II

15% 15%

.~ "§-
~ "~
el; "'" el; "'"
,,% 25%

~~ 0,00 50,00 100,00 150,00 200,00


~
0,00
~ 50,00 100,00 150,00 200,00

PMII PM"

Gráfica de frecuencias acumuladas para material particulado, P MIO


(Continúa en la página siguiente) .

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 217


VIVIANA VARGAS FRANCO

ERA
1(lO'"

15%'

.~

~ 50%
<>':

""

.~ 0,00 50,00 100,00 150,00 200,00

PM"
Gráfica de frecuencias acumuladas para material particulado, PM¡O
(Viene de la página anterior)

En la estación CDAV alrededor del 50% de los datos toman valores menores o iguales
a 50 Ilglm 3 de material particulado, PM 10 Y aproximadamente el 88% de los datos
son menores o iguales que 100 Ilg/m 3 .
En la estación PDD cerca del 75% de los datos toman valores menores o iguales
que 50 Ilglm 3 y aproximadamente el 98% de los datos son menores o iguales que
lOOllglm3.
En la estación ERA alrededor del 65% de los datos son menores o iguales que 50 Ilglm3
y aproximadamente el 98% de los datos son menores o iguales que 100 Ilglm 3.
De las estaciones graficadas la única que muestra frecuencias por encima de la norma
es la CDAV, con bajas frecuencias.

• Dióxido de azufre, S02


A continuación se muestran las gráficas de frecuencias acumuladas en tres estaciones
de monitoreo para dióxido de azufre.

218 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 8 - CALIDAD DE AIRE

CDAV PDD
100% 100%

75" 75"

"i~- .~
~
~
&: "'" ~
&:
"'"

"" ""

10,00 20,00 30,00 40,00 50,00 '" 0,00 10,00 20,00 JO,OO

SO, SO]
ERA

75"

.~
l!
c:
~ "'"
&:

""

"',~~~~uw~~~~ww~
0.00 10,00 20,00 JO,OO

SO]

Gráfica de frecuencias acumuladas para dióxido de azufre, S02

En la estación CDAV alrededor del 75% de los datos son menores o iguales que 10
ppb Y aproximadamente el 90% de los datos son menores o iguales que 20 ppb de
dióxido de azufre.
En la estación PDD alrededor del 97% de los datos son menores o iguales que 10
ppb Y aproximadamente el 99% de los datos son menores que 20 ppb de dióxido
de azufre.
En la estación ERA alrededor del 95% de los datos son menores o iguales que 10
ppb Y aproximadamente el 99% de los datos son menores o iguales que 20 ppb de
dióxido de azufre.
De las estaciones graficadas la única que evidencia frecuencias por encima de la
norma es la CDAV, con bajas frecuencias.

ESTADfsTICA DESCRIPTIVA PARA INGENIEAIA AMBIENTAL CON SPSS 219


VIVIANA VARGAS FRANCO

8.5 Percentiles
Este ítem ilustra el análisis de los valores percentiles para material particulado, PM 1O
Y dióxido de azufre S02·

• Material particulado, PM,0


La siguiente tabla expone valores percentiles en cuatro estaciones monitoreadas en
la ciudad de Cali.
Tabla de valores percentiles para material particulado. PMlO

Estación
CDAV BA PDD ERA
Percentil 05 13.66 3,98 9,25 9.00
Percentil 25 33,96 16,80 25,88 25,00
Mediana 51,54 36.68 41,15 40.20
PMlO
Percentil 75 73.93 56.49 57,13 56.80
Percentil 95 116.30 89,05 89.12 89.00
Percentil 99 158.16 122,15 127,37 119.70

En la estación CDAV el 50% de los datos son valores menores o iguales que
51,5 Jlg/m3 ; el 75% menores o iguales que 73,9 Jlglm 3 ; el 95% menores o iguales
que 116,3 Jlglm 3 y el 99% menores o iguales que 158,1 Jlglm 3 . Evidenciando que
existen datos por encima de la norma anual de PM lO, en esta estación.
En la estación BA el 50% de los datos toma valores menores o iguales que
36,7 Jlg/m 3 ; el 75% menores o iguales que 56,5 Jlg/m 3 ; el 95% menores o iguales
que 89,1 Jlglm3 y el 122,2% menores o iguales que 158,1 Jlg/m 3• Es decir, en esta
estación se cumple la norma anual de PM 10 en el periodo analizado.
En la estación PDD el 50% de los datos toma valores menores o iguales
que 41,2 Jlg /m 3 ; el 75% valores menores o iguales que 57,1 Jlg /m 3 ; el
95% menores o iguales que 89,1 Jlg/m 3 y el 99% menores o iguales que
127,4 Jlg/m 3 . Lo cual indica que esta estación cumple la norma anual de
PMIO en el periodo analizado.
En la estación ERA el 50% de los datos toma valores menores o iguales que
40,2 Jlg/m 3 ; el 75% valores menores o iguales que 56,8 Jlg /m 3 ; el 95% de
los datos toma valores menores o iguales que 89,0 Jlg/m 3 y el 99% menores
o iguales que 119,7 Jlg /m 3 . Así, en esta estación se cumple la norma anual
de PMIO en el periodo analizado.

220 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTUlO 8 - CALIDAD DE AIRE

En general, se puede observar un comportamiento similar en las estaciones BA,


PDD YERA, cumpliendo siempre la norma, contrario a lo que sucede en la estación
CDAV, donde se presentan valores más elevados y con datos que no cumplen la
norma anual de PM I Q.
En la siguiente tabla se presentan los valores percentiles mensuales de material
particulado, PMIO, en la estación CDAY.
Tabla de valores percentiles mensuales para material
particulado. PM1D. en la estación CDAV

PM'O
Parcentil 05 Parcantil 25 Mediana Parcantil75 Parcentil 95 Parcantil 99
Abril 6.40 21,40 42,05 67,30 111,40 146.42
Mayo 12,32 29,32 45,50 64,66 110,46 153.70
Junio 5,02 17,55 36,90 61,52 111,82 160,00
Julio 5,87 24,90 42,91 63,55 102,13 143,29
Mes Agosto 3,94 10,59 27,10 46,52 80,00 113,07
Septiembre 11 ,80 28,20 43,49 59,55 95,44 138,33
Octubre 8,88 26,12 42 .. 21 61 ,62 95,00 127,59
Noviembre 14,19 31 ,51 44,33 59,82 90,40 121.01
Diciembre 18,92 34,99 49,87 67,00 98,29 126,26

En mayo el 50% de los datos fueron menores o iguales que 45,5 llg/m3; 75% de
los datos son menores o iguales que 64,7 llg/m3 y 95% de los datos son menores o
iguales que 110;5 llg/m3.
En agosto se observó que el 50% de los datos son menores o iguales que 27,1 llg/m3;
el 75% son menores o iguales que 46,5 Ilg/m3 y el 95% menores o iguales que 80
Ilg/m3.
Para el mes de diciembre el 50% de los datos son menores o iguales que 49,9%
llg/m3; el 75% son menores o iguales que 67,0 Ilg/m3 y el 95% de los datos son
menores o iguales que 98,3 llg/m3.
En general, en el percentil 95 , los meses con los valores más altos de material
particulado se encuentran entre abril a julio, 10 mismo sucede con el percentil 99.
La siguiente gráfica presenta los valores percentiles de material particulado, PMIO
a través de los meses en la estación CDAY.

ESTADfs TICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 221


VIVIANA VARGAS FRANCO

180
160
.:;--. 140" ·
t 120
~ 10 -* * *. ~ .
~~ 80
Q.; 60 ~. .)(. lE ·· )~( )( )( ~
40
20 .~ _~,.~=:~~=_~<;=-~_:m=:=.~.~:._~'.':_-~~
O
ABR. MAY. JUN. JUL. AGO. SEP. OCT. NOV. DIC.

Mes
--+-- Perc. S __ Perc. 25 --4- Perc. SO ~Perc. 75 --*- Perc. 95 - - Perc. 99

Gráfica de valores percentiles mensuales para material particulado,


P Mi O en la estación CDA V.
En la grafica de los percentiles se puede apreciar que los valores menores de PM 10
se dan en agosto y los mayores valores en junio.

• Dióxido de azufre, SD2


En la tabla siguiente se presentan valores percentiles para dióxido de azufre, S02,
en cuatro estaciones monitoreadas en Cali.
Tabla de valores percentiles para dióxido de azufre, SOz

I Estación
I
CDAV BA PDD ERA
S02 Percentil 05 1.63 1,13 .31 .53
Percentil 25 3.96 2,59 1.53 1,64
Mediana 7.41 4,71 2.90 2,87
Percentil 75 12.48 8.06 4.36 5.16
Percentil 95 24.79 15.78 7.90 11.08
Percentil 99 42.82 26.19 11.96 21.38

En la estación CDAV el 50% de los datos son valores menores o iguales que 7,4 ppb;
el 75% menores o iguales que 12,5 ppb; el 95% de los datos toma valores menores
o iguales que 24,8 ppb Y el 99% menores o iguales que 42,9 ppb. Por lo cual, esta
estación cumple la norma anual de S02 en el período analizado.
En la estación BA el 50% de los datos toma valores menores o iguales que 4,7 ppb;
e175% valores menores o iguales que 8,1 ppb; e195% valores menores o iguales que

222 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 8 - CALIDAD DE AIRE

15,8 ppb Y el 99% menores o iguales que 26,2 ppb. De este modo, en esta estación
se cumple la norma anual de S02 en el periodo analizado.
En la estación PDD el 50% de los datos toma valores menores o iguales que 2,9 ppb;
el 75% valores menores o iguales que 4,4 ppb; el 95% de los datos toma valores
menores o iguales que 7,9 ppb Y el 99% menores o iguales que 11 ,9 ppb. Así, esta
estación cumple la norma anual de S02 en el periodo analizado.
En la estación ERA el 50% de los datos toma valores menores o iguales que
2,9 ppb; el 75% de los datos toma valores menores o iguales que 5,2 ppb; el 95%
de los datos toma valores menores o iguales que 11,1 ppb Y el 99% son menores o
iguales que 21,4 ppb. Es decir, en esta estación se cumple la norma anual de S02
en el periodo analizado.
En general, se puede observar un comportamiento similar en las estaciones ERA
y PDD, con valores bajos de dióxido de azufre, seguidas de la estación BA, y por
último con los valores más elevados la estación CDAY. Pero las estaciones cumplen
la norma anual de S02.
En la siguiente tabla se observan los valores percentiles mensuales de dióxido de
azufre, S02, en la estación CDAY.
Tabla de valores percentiles mensuales para
dióxido de azufre. S02. en la estación CDAV.

S02
Percentil 05 Percentil 25 Mediana Percentil 75 Percentil 95 Percentil 99
Mes Abril ,15 ,93 1,67 2,75 6,05 9,44
Mayo ,47 1,94 3,34 5,65 11 ,34 18,73
Junio 1,34 2,39 3,96 7,50 15,17 27,12
Julio 1,91 3,60 5,94 8,95 17,11 24,21
Agosto ,33 2,73 4,17 6,24 11,37 16,20
Septiembre 1,89 4,37 7,50 10,60 18,07 26,00
Octubre 1,36 3.44 5,62 8,89 15,80 26,46
Noviembre ,90 2,60 5,08 9,84 21,95 39,42
Diciembre 1,08 2,98 5,73 12,18 26,26 46,93

En mayo, el 50% de los datos son menores o iguales que 3,3 ppb, el 75% son menores
o iguales que 5,7 ppb y el 95% son menores o iguales que 11 ,3 ppb de dióxido de
azufre. En agosto, el 50% de los datos son menores o iguales que 4,2 ppb, el 75%
son menores o iguales que 6,2 ppb y el 95% son menores o iguales que 11 ,4 ppb de
dióxido de azufre.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 223


VIVIANA VARGAS FRANCO

Para diciembre, el 50% de los datos son menores o iguales que 5,7 ppb, el 75% son
menores o iguales que 12,2 ppb Y el 95% son menores o iguales que 26,3 ppb de
dióxido de azufre.
En general, en el percentil 95 se observa que los meses con los valores más altos de
dióxido de azufre se encuentran entre septiembre y diciembre.
En la siguiente gráfica se muestran los valores percentiles de dióxido de azufre a
través de los meses, en la estación CDAY.

!~ r - - :---:--::-----.--.-.--.~------:--~~--:-------'------------:--- ~.--~-------.--.---:--.-.-/~-j

40
35
:¡ 30 ·
,s; 25
~ 20
15]
;¿
.• >~ ~ .,.~
~ -~ ... ! ~ ~~ ....
....
10 ·
5
O
F;:~·- -':- -·!=·- ~j-~
t_----- _______ a....:..:_ --_'a_n
. ~
.. ; .". ~
___

ABR. MAY. JUN. .AA. AGO. SEP. OCT. NOV. DIC.


Mes
-+- Pere. 5 ·· .. -Pere. 25 ~ Pere. 50 ---Pere. 75 - - Pere. 95 --- Pere. 99

Gráfica de valores percentiles mensuales para dióxido de azufre, S02,


en la estación CDAV
Analizando los valores percentiles de la gráfica, abril presenta los menores valores
de S02, mientras en diciembre se observan los mayores valores.

8.6 Contaminación del aire en Ciudad de México


Este Ítem muestra información gráfica de calidad de aire en Ciudad de México, los
cuales fueron monitoreados por el SIMAT, Sistema de Monitoreo Atmosférico de
Ciudad de México, y presentados en su página de Internet (www.sma.df.gob.mxIsimat!
pnindicadores.htm), monitoreados en el período 1996 a 2005 (hasta julio).
Una de las labores del Sistema de Monitoreo Atmosférico (SIMAT) es informar
oportunamente el estado de la calidad del aire para proteger la salud de los habitantes
de la zona metropolitana del valle de México.
El SIMAT tiene un boletín informativo de los eventos extraordinarios del incremento
de las concentraciones de PMJO y S02, principalmente. El boletín se emite cuando en
determinada hora yen cualquier estación de monitoreo, las concentraciones horarias
de PM JO o S02 son mayores o iguales a 300 ~g/m3 o 0,200 ppm, respectivamente.
A continuación se observan las gráficas de diferentes parámetros analizados en
Ciudad de México.

224 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 8 - CALIDAD DE AIRE

• Material particulado, PM 10
A continuación se observa la gráfica de los valores promedios diarios de partículas
menores de 10 micrómetros (PMIO), monitoreada entre 1995 a 2005 (fuente: www.
sma.df.gob.mxIsimatlpnindicadores.htm).

1995 1996 1997 1996 1999 2000 2001 2002 2003 2004 2005
Ano
c:::::::J Dlas arriba del valor limite -+- Percentil 90

Gráfica de promedios diarios de partículas menores de 10 micrómetros


(PM¡oJ, 1995 -julio 2005
Se puede observar que el número máximo de días por encima del límite de PM 10 se
presentó en 1996; entre 1995 a 1998 se dieron los valores más elevados del número
de días por encima de la norma. Sin embargo, a partir de 1998, estos valores bajan
considerablemente encontrándose valores bajos en los años de 1998 y 2005.
A continuación se muestra la gráfica de los valores promedios diarios de partículas
menores a 10 micrómetros (PM 10), monitoreada de 1995 a 2005 (fuente: www.sma.
df.gob.mxIsimatlpnindicadores.htm).
En el diagrama de cajas se observan los valores mínimos y máximos, así como los
valores percentiles 25, 50, 75 Y 90.

1995 1996 1997 1998 1999 2000 2001 2002 200] 2004 2005

::K P~entil7S _ Mblmo • Percentlt 90 t::JPercentll so ~ Mlnlmo + Pertentll25

Gráfica de promedios diarios de partículas menores de 10 micrómetros


(PM¡oJ, 1995 -julio 2005

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 225


VIVIANA VARGAS FRANCO

Se puede analizar que la mayor dispersión de los valores promedios diarios de PM 1O,
se dan entre 1997 y 2003. En el percentil 90 se puede observar que entre 1995 y
1998 se evidencian las mayores concentraciones promedio de PM 10, mientras que
entre 1999 y 2005 estos valores son menores.
A continuación se observa la gráfica del comportamiento típico diario de partículas
menores de 10 micrómetros (PMIO), monitoreada de 1995 a 2005, donde se
evidencia la tendencia anual cada 24 horas (fuente: www.sma.df.gob.mxlsimat/
pnindicadores.htm).

120

-¡lOO
~ 80- ··
c
~ 60

i...
~
40

t..l 20

0+1-'--r-.-'-'--r-r~~r-r-.-'--r-r~~--r-r-.-'-'--r~~

1 2 3 4 S 6 7 8 9 10 11 12 13 14 1 S 16 17 18 19 20 21 22 23 24
Hora
-+- 1995 1996 -4- 1997 ~ 1998 --*-1999 -+- 1000

1001 -+- 1001 -+-- 1003 -'*- 1004 Julio 1005

Gráfica del comportamiento típico diario de partículas menores de 10


micrómetros (PMJO), 1995 -julio 2005
Se puede observar que a través de los años el comportamiento típico diario de PM 1O
sigue la misma tendencia; valores relativamente bajos hasta las primeras seis horas,
valores altos entre las 8 horas y las 11 horas, nuevamente disminución entre las 13
horas y las 16 horas y aumento entre las 19 horas y las 20 horas.
A continuación se presenta la gráfica del valor máximo maximorum de concentraciones
horarias de partículas menores de 10 micrómetros (PMIO), monitoreada de 1995 a
2005 (fuente: www.sma.df.gob.mxIsimat/pnindicadores.htrn).

226 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 8 - CALIDAD DE AIRE

1400
1233
')' 1200
's:
~1000
721 7+4
i 800
......•
"~ 600
763
670
i 400
~
1: .. .. ..
a 200

o
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005

Año

Gráfica del máximo maximorum de concentraciones horarias de


partículas menores a 10 micrómetros (PMJO), 1995, julio 2005
Entre 1997 a 2000 se evidencian valores más altos del valor máximo de PM lO, pero
a partir de 2001 los valores máximos empiezan a disminuir y permanecer estables
a través de los años.
A continuación se observa la gráfica del promedio anual de concentraciones de
partículas menores de 10 micrómetros (PM 1o), monitoreada de 1995 a 2005 (fuente:
www.sma.df.gob.mxlsimatlpnindicadores.htm).

'" lO

1 '0
..... 0
1: 50
60
SI . 1$

57
51

5'
~ .0
1 30
~ 20
a
1:
lO
O
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005

Año

Gráfica del promedio anual de concentraciones horarias de partículas


menores a 10 micrómetros (PM¡oJ, 1986, julio 2005
En la gráfica se puede analizar que el promedio anual de concentración de PM 1O
muestra sus concentraciones máximas entre 1995 y 1999, a partir del 2000 el valor
de concentración promedio disminuye y evidencia un incremento en el año 2005
(valor estimado).
A continuación se observa la gráfica de los valores máximos diarios de ozono entre
1986 a 2005. Se ilustran los diagramas de cajas y alambres, evidenciando los valores
máximos y mínimos y los valores percentiles del 25, 50, 75 Y 90% (fuente: www.
sma.df.gob.mxlsimatlpnindicadores.htm).

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 227


VIVIANA VARGAS FRANCO

0,500

0,400

i'
~ 0,300

· ~llilIl!· ~tt· ~· ~ · 1 · 1 · ~· ~!~· ·~


:~
~ 0200
"~ '

a 0,100

0,000 i ¡ i i i I i i i i I j , i i I i i i

1~1~1~1~1~~ 1~1~1~1~1~1_1~1~~~1~=~~

Ano
)K P~rcenlil 7S - Máximo _ Perunlll 90 - Percenta SO _ MI"I",o • Percentlllj

Gráfica de máximos diarios de ozono (03), 1986 - julio 2005


En general los valores máximos de ozono mostraron gran dispersión entre 1986 a
1992, a partir de lo cual la dispersión disminuye paulatinamente hasta el año 2005.
Los valores más altos de los valores máximos se dan hasta 1992, a partir de lo cual
disminuyen.

• Ozono, 03
A continuación se muestra la gráfica de los valores máximos diarios de ozono, desde
el año de 1986 a 2005 (fuente: www.sma.df.gob.mxlsimatlpnindicadores.htm).

0,350 380

0,300
300

i' 0,250
240
~
" 0,200
~
:§ ~ 180
-lI
e

!
~ 0,150

0,100

0,050
• 120

80
~
¡

0,000 IL.iIII,L..II,L.., • • ,¡.....,,¡,i',i 1,'- ¡,I 1,1 1,1.....01,1 j,l J,I 1,1 J ,L..l ,L......I,I."""",I,L '"', - 1
1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005

~ orllS""ib. dtl ViI/or límite ..... ProMedio, rop JO • Puc.",iI 90


Mo

Gráfica de máximos diarios de ozono (03) 1986 -julio 2005


Se puede analizar que los valores máximos diarios de ozono mantienen la misma
tendencia entre el valor promedio y el percentil 90. Los valores más altos se dan en

228 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

1986 Yentre 1990 a 1993 . A partir de 1993 los valores inician un descenso paulatino
hasta e12005 (valor estimado).
A continuación se expone la gráfica del comportamiento típico diario de ozono, por años,
durante las horas del día (fuente: www.sma.df.gob.mxJsimatlpnindicadores.htm).

0,150

,19",
-.-""
____ '989
..
0,120
-+-,-
--m,
1• 0•090
- -1"1
1993
m,
~ ... 40 1995

.
~ ~
_ _ _ 1997
/996
~ 0.060 _ _ _ 1998

a -+-1000
/999

0,030 ...... - . _ ........... . lOO'


_ _ _ 1001
--+- 100J
--1004
•• Jul. 1005

1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Gráfica del comportamiento típico diario del ozono (Oj), 1986 -julio 2005
Se puede observar que a través de los años el comportamiento típico diario de ozono
sigue la misma tendencia, es decir, valores relativamente bajos hasta las primeras
diez horas, altos entre las 11 horas y las 16 horas y nuevamente disminución a partir
de las 18 horas, aproximadamente.
A continuación se muestra la gráfica de los valores maXlmo maximorum de
concentraciones horarias de ozono, monitoreada de 1995 a 2005 (fuente: www.sma.
df.gob.mxJsimatlpnindicadores.htm).

0 ,000

O,soo
0,500 ,j''''
i'
.. " 0,475

:~
W
0,400

0,300
---- "-
D,·U1 0,40<4 e,¡" ,0
.. • O,H9


0,323
~18 • . jfZl
• . .. 0,2804
'

a~.'
0 .312 0,307 0 ,226

0 ,200
0,282 0,271
-.---.
0,222

0,100

o ,OOO-l-_ -_ _- _ _- _ _- _ _- _ _- _ -_ _- _ _- __

,- = - -
-
_
~
~ ,~ ~ ,~ ~ ,~ ,~ ,~ ~ ~ ~ ,~ ,~ ~ ~ ~

Mo

Gráfica de máximo maximorum de concentraciones horarias de ozono


(03), 1986 - julio 2005
Se puede observar que los valores máximos maximorum son más elevados en el
periodo de 1986 a 1992, a partir de este ultimo año los niveles empiezan a disminuir,
pero lentamente, hasta el 2005.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 229


VIVIANA VARGAS FRANCO

• Dióxido de azufre, SD2


A continuación se observa la gráfica de los valores promedios diarios de dióxido de
azufre (S02), monitoreada entre 1995 y 2005 (fuente: www.sma.df.gob.mxIsimat/
pnindicadores.htm).

0.200 30

25
O.lSO
i' ~
~
20
e
:~ ~
0.100 15 2
~
e
~ .1
<3•
~

.
10
O.OSO
-,

0,000 Ir I i " J. I " I i I r:J v I


1~ lW ~~~ ~ 1m ~~~ l~lm l~ lm ~~ =~ ~ ~

Ano
¡¡;:::::::::t mllS arribll dld Wllor lI"u'u -e Peru ntll 90

Grijica de promedios diarios de dióxido de azufre (SOj, 1986 -julio 2005

Se puede observar que el número máximo de días por encima del límite de S02, se
dio en 1992; entre 1986 a 1998 se encuentran los valores más elevados del número
de días por encima de la norma. Sin embargo, a partir de 1993 estos valores bajan
considerablemente con pocos datos por encima de la norma en el 2000 y 2001. El
percentil 90 permite analizar cómo los niveles de concentración descienden a partir
del año 1992, mostrando valores altos nuevamente en los años 2000 y 200 l.
A continuación se ilustra la gráfica de los valores promedios diarios de dióxido de
azufre (S02), monitoreado entre 1995 y 2005 (fuente: www.sma.df.gob.mxIsimat/
pnindicadores.htm).

0.3DO 1

1
""
O.2!lO

0.200 ; T
¡
I 1 1

- rI II71 Y5! f l I ¡ ~ ~ =111 II


] ::: lATJI Tl AT
0,000 ----,.--r-....,...--...-r---~

1966 1967 1966 1969 1900

X
1991

"na,,'" 7J
1992

-
1993 1994

MbJ_
¡ r ---r---r--- - . , . - - , - - - r

• ~tU H
1995

_
1996 1997

hr«,,1IJ s,
.-'-

1996 1999 2000 2001

- Mútl_ +
'---,.~

hrft,.tI/ U
-r-
2003 2004 2005
No

Grijica de promedios diarios de dióxido de azufre (SOj, 1986 -julio 2005

230 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 8 - CALIDAD DE AIRE

Se puede analizar que la mayor dispersión de los valores promedios diarios de SOz se
dan entre 1986 y 1992. A partir del año 1993 , los valores medio, máximo y mínimo
de los valores promedio de S02 empiezan a descender, excepto para el año 2001 ,
cuando se observa la mayor dispersión de la base de datos analizada.
A continuación se muestra la gráfica de los valores promedios diarios de dióxido de
azufre (S02), monitoreado entre 1995 y 2005 (fuente: www.sma.df.gob.mx/simat/
pnindicadores.htm).

-~ ~ ,..

· ,""
· ,...

...
-:r- IHI
--.. - '''1
- -,"" ...
.•

."'-
I PlJ
''''
m,
,,,,
· '06',.... ,
~,,,,

~ ,

- t " - l00J
- - J()(U
O,!XXl +--~~~~~~~~~~_~ _ _ ~~~ __ ~_~ _ _ --I -JllI.lfJO$
1 2 3 .. 5 e 7 8 9 10 11 12 13 '4 15 16 17 18 19 20 21 22 23 24
Hora

Gráfica del comportamiento típico diario del dióx ido de azufre (SO]),
1986 - julio 2005
Se puede observar que a través de los años el comportamiento típico diario del
dióxido de azufre sigue la misma tendencia, es decir, valores relativamente bajos hasta
las primeras ocho horas, valores altos entre las 9 horas y las 11 horas y nuevamente
disminución a partir de las 14 horas, aproximadamente.
A continuación se muestra la gráfica de los valores máximo maximorum de
concentración horaria de dióxido de azufre (S02), monitoreado de 1995 a 2005.
(fuente: www.sma.df.gob.mxJsimat/pnindicadores.htrn).

CI.IIIII
o,lIIO

ICI.IIIII
t 0,110
o,..z ~o.. . . .
0,41

i 0.0 0,4'1 0,412 . 0,33 1


. 0,340
..
.
, " '.
.
0.325. -.
~ •.276 '6
~ 0.300
0,286 0,283
~ 0,200 -0,250

0,100

1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Mo

Gráfica del máximo maximorum de concentraciones horarias de dióxido


de azufre (SO]) , 1986 - julio 2005

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 231


VI VI ANA VARGAS FRAN CO

Se puede observar en general que los valores máximos maximorum tienden a


disminuir a partir de 1986, con el valor más bajo en 1997 y el valor más alto en
1986.
A continuación se muestra la gráfica de los valores promedios anuales de la
concentración horaria de dióxido de azufre (S02), monitoreado entre 1995 y 2005 .
(fuente: www.sma.df.gob.mx/simat/pnindicadores.htrn).

0,060
0,052 o,~" , 0,056

0,050 0,0..6 .-~ .....


• ,..,.- 0,052
l' 0,047 , 0,045
~ 0,040

Q,i
~

~ 0,030
g

. --
0,020
S
..... .--- -
--- ....
0,018
0,020 ...... 0,016 0,016
~

13 0,010
---
0,017
0,014
0,Q1.

~ 0,0'4
...... 0,012 0,011

0,0 12 0,012

O,CXXl -~-~--r-~-~--r--'--~--r--'--"'---r--'--"'---r-~-~--r--,-----l
+-1

1986 1967 1968 1969 1990 1991 1992 1993 1994 1995 1996 1997 1996 1999 200l 2001 2002 2003 2004 2005
Mo

Gráfica del promedio anual de concentraciones horarias de dióxido


de azufre (SO:¿), 1986 - julio 2005

En la gráfica se puede analizar que el promedio anual de concentración de S02


genera sus concentraciones máximas entre 1986 y 1992, a partir de 1993 el valor
de concentración promedio disminuye.

232 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO

9
Calidad de agua en una
fuente superficial

Este capítulo muestra un manejo descriptivo de datos relacionados con el estudio


de la calidad de agua del río Cauca en su paso por el departamento del Valle del
Cauca, en dos variables: oxígeno disuelto (OD) y demanda bioquímica de oxígeno
(DBO). Los datos fueron monitoreados por la Corporación Autónoma Regional del
Valle del Cauca (CVC).
La cuenca hidrográfica del río Cauca ocupa dentro del contexto colombiano un
lugar estratégico; en ella se localiza la industria azucarera, la mayor parte de la zona
cafetera, las zonas de desarrollo minero y agropecuario, y un sector significativo de
la industria manufacturera del occidente colombiano. Aquí se encuentran ubicadas
dos de las ciudades más pobladas del país, tres consideradas intermedias y cinco
que superan los 100.000 habitantes. La intensa utilización de la cuenca, asociada
al desarrollo industrial del sector y el crecimiento poblacional, hace que se deba
considerar como factor importante el estudio permanente de la calidad del agua del
río Cauca, para un mejor aprovechamiento y planificación de este recurso hídrico
en la región.
El río Cauca es uno de los ríos más importantes del país, tiene una longitud total de
1.350 km, una cuenca hidrográfica de aproximadamente 63 .300 km 2 y brinda grandes
beneficios a cerca de 183 municipios, localizados en los departamentos que recorre,
permitiendo contabilizar aproximadamente diez millones de habitantes, es decir, el
25% de la población colombiana (Vélez, 2003).

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 233


VIVIANA VARGAS FRANCO

El río Cauca es aprovechado de manera relativamente intensa para numerosos


propósitos: generación de energía, extracción de materiales del lecho, captación
de agua para consumo humano, riego, industria, pesca, recreación y como fuente
receptora de vertimientos de aguas residuales industriales yaguas residuales de
algunos de los municipios que se encuentran en su cuenca. Sin embargo, el manejo
y las intervenciones sobre el río Cauca y sus ríos tributarios no han sido los más
apropiados, originando serios problemas ambientales (Vélez, 2003).
Uno de los principales problemas de la calidad del agua del río Cauca es el agotamiento
del oxígeno disuelto, como una consecuencia de las múltiples descargas de aguas
residuales domésticas e industriales que se vierten a su cuenca. Por esta razón, la
CVC desde su creación ha venido realizando grandes esfuerzos en generación de
políticas, planes y proyectos para el mejoramiento de la calidad del agua del río y
el control de los vertimientos; es así como la CVC ha implementado un programa
de monitoreo sobre el río Cauca y sus ríos tributarios, con 19 estaciones en el
departamento del Valle del Cauca, el cual se ilustra en la Figura 9.1

I
ESTACICN AbKlsa(Km)
1. Ante. Suarez 1.8
2. Ante. Ovejas 3.1
3. Antes TITTlt>. 24.1
... Paso de III Belsa 27." ""-"'"
5. P. .o de III Bol.. 78.9
6. Puente Hormiguero 113.5
7. Antes Navarro 127.7
8. Juanc:hlto 139.3
9. PISO del Comercio 1.....6
10. Puerto lsaacs 155.5
11 . Paso de la Torre 170.8
12. Vljes 181 .8
13. Yotoco 211 .8
14. Medi8CIIl'lOll 220.9
15. Puente RIofrio 284.8
16. Pueril Guayabal 347.0
17. Puente La VIctoria 369.6
18. An.calO 418.5
-
Front....
d ... Cuenea
o 25 50
19. Puente La VrginJa .....7 km

Figura 9.1 Estaciones de monitoreo sobre el río Cauea (Vélez, 2003).


A continuación se describen conceptualmente los parámetros analizados en este
capítulo.

234 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 9 - CALIDAD DE AGUA

• Demanda bioquímica de oxígeno (DBD5J


Este parámetro es una medida aproximada de la cantidad de materia orgánica
degradable bioquímicamente, presente en una muestra de agua, y se define como la
cantidad de oxígeno requerida por microorganismos aerobios para oxidar la materia
orgánica hasta formas inorgánicas estables, en un período de cinco días a 20°C. Si
la materia orgánica se encuentra en gran cantidad, los microorganismos necesitarán
también gran cantidad de oxígeno para estabilizar esa materia, lo cual indicaría una
alta demanda bioquímica de oxígeno.
La DBO determina la cantidad de oxígeno requerida por la biota del sistema
para oxidar completamente la materia orgánica biológicamente degradable. Esta
cantidad corresponde a la suma del oxígeno consumido por: las bacterias (en su
proceso de síntesis y respiración a medida que utilizan el sustrato), los consumidores
(protozoarios cuando ingieren las bacterias como fuente de energía para realizar
los procesos de crecimiento y respiración) y los procesos de autodestrucción de la
biomasa, creada en los dos procesos anteriores.
La DBO, al igual que la demanda química de oxígeno (DQO), es usada para medir el
grado de polución de las aguas residuales, la cual se basa en el principio químico que
en medio ácido, agentes oxidantes fuertes, pueden oxidar con muy pocas excepciones
la materia orgánica presente, transformándola en dióxido de carbono yagua. Por
lo que los valores de la DQO serán siempre mayores que los de la DBO para una
misma muestra, y esta diferencia puede hacerse más grande, cuanto más resistentes
a la degradación biológica sean los materiales orgánicos existentes .

•, Oxígeno disuelto (00)


El oxígeno es esencial para las diferentes formas de vida acuática y tiene influencia
en la mayoría de los procesos químicos y biológicos que ocurren dentro de un cuerpo
de agua. La concentración de OD en el agua varía de acuerdo con la temperatura,
la salinidad, la turbulencia, la actividad fotosintética de algas y plantas y la presión
atmosférica. Vertimientos de aguas residuales ricos en materia orgánica y nutrientes
traen consigo una disminución del OD, debido al incremento de la actividad microbial,
vía respiración, que ocurre en la degradación de la materia orgánica.
En los desechos líquidos el oxígeno disuelto es el factor que determina si los cambios
biológicos son efectuados por organismos aeróbicos o anaeróbicos. Los primeros
usan el oxígeno para la oxidación de la materia orgánica e inorgánica y originan
productos finales inocuos, mientras que los últimos efectúan tales oxidaciones a
través de la reducción de ciertas sales inorgánicas y los productos finales son a
menudo perjudiciales.
La concentración de oxígeno en el agua es vital, tanto para organismos animales como
para los vegetales. Influye particularmente en el metabolismo de los microorganismos

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 235


VIVIANA VARGAS FRANCO

(bacterias) que causan la descomposición de los contaminantes en el agua. Dicha


descomposición aerobia de los contaminantes en el agua consume oxígeno y
una reducción de la concentración normal de oxígeno es, pues, un indicador de
contaminación o presencia de sustancias consumidoras de oxígeno.
La cantidad de oxígeno disuelto es un factor importante para determinar el tipo
de organismos que viven en el agua, puesto que algunos necesitan elevadas
concentraciones de oxígeno disuelto para sobrevivir, mientras que otros son más
tolerantes a concentraciones fluctuantes o bajas. La reducción en las cantidades
de oxígeno disuelto, además de afectar directamente la respiración de organismos
acuáticos, puede incrementar la toxicidad de agentes venenosos, como sales de cobre,
zinc, plomo y fenoles, que son muy frecuentes en aguas residuales industriales.
La Tabla 9.1 muestra el rango admisible en algunos parámetros fisicoquímicos y
bacteriológicos para calidad de agua.
Tabla 9.1 Marco legal para el análisis de parámetros físico-químicos y
bacteriológicos (Colombia).
Parámetro Unidad Norma Rango Admisible Uso del racurso
pH Unidades Ac. 14 de la CVC/1976 6·9
Temperatura oC Ac. 14 de la CVC/1976 ::s 30
Oxígeno disuelto mg/l Ac. 14 de la CVC/1976 >4
DBO mgtl RAS/199B ::s 6 Diversos Usos
000 mgtl RASl199B ::s 6
Color (UPC) RAS/199B ::s 75
Turbiedad (UNT) RAS/199B ::s 150
Sólidos Totales mgtl Dec,4751199B ::s 1000
Dureza mg/l Dec.475/199B ::s 160
Tratabilidad Convencional
Nitratos mg/l Dec.4751199B ::s 10
para Agua Potable
Nitritos mg/l Dec,4 751199B ::sI
Sulfatos mg/l Dec.1594/19B4 ::s 400
Cadmio mg/l Dec.1594/19B4 ::s 0,01
Níquel mgtl Dec.1594119B4 ::s 0,2
Plomo mgtl Dec.1594/19B4 ::s 5,0 Agrícola
Zinc mgtl Dec.1594/19B4 ::s 2,0
Cobre mgtl Dec.1594/19B4 ::s 0,2
Cromo mg/l Ac. 14 de la CVC/1976 ::s 0,05 Diversos Usos
Cloruros mg/l Dec.1594/19B4 ::s 250
Hierro mg/l Dec.1594/1984 ::s 5 Agrícola
Manganeso mg/l Dec.1594119B4 ::s 0,2
Coliformes Totales NMP/100 mi Dec.1594119B4 ::s 4000 Tratabilidad Convencional
Coliformes Fecales NMP/100 mi Dec.1594/19B4 ::s 2000 para Agua Potable
Fuente : RAS: Reglamento del Sector de Agua Potable y Saneamiento.

236 ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPSS


CAPiTULO 9 - CALIDAD DE AGUA

9.1 Estadísticas descriptivas


Se muestran a continuación las estadísticas descriptivas para los parámetros demanda
bioquímica de oxígeno y oxígeno disuelto, analizados en las diferentes estaciones
monitoreadas del río Cauca, en el Valle del Cauca.

• Demanda bioquímica de oxígeno (OBO;


En la siguiente tabla se observan estadísticas descriptivas para la variable demanda
bioquímica de oxígeno (DBO), en las estaciones monitoreadas del río Cauca en el
Valle del Cauca.
Tabla de estadísticas descriptivas para demanda bioquímica de oxígeno (OBO)

Medidas de tendencia central Medidas de dispersión

~
MIdiI DmiIci6n
Minino MIdiI Milimo Madi MedíIIII Rango 'llrilnzl Coef. di
llImtricI EstindIr
Img/I) ImII/II Img/I) ImgIIl ImII/II Img/I) lmgII¡2 Vllilci6n1'lo1
EstICián ImgIIl ImgII)

1. A. Suárez 0.10 1.88 7.80 0.60 1.40 1.38 7,70 2.28 1.51 80.5%

2. A. Ovejas 0.10 1.51 7.00 1.20 1.20 1.11 6.90 1.39 1.18 78.2%

3. A. Timba 0.10 1.46 4,70 0,70 1.15 1.19 4.60 0.83 0.91 62.4%

4. P. Balsa 0.20 1.55 4.80 0.90 1.30 1.25 4.60 1.04 1.02 65.7%

5. P. Bolsa 0.10 1.94 5.30 1.90 1.90 1.49 5.20 1.54 1.24 63.8%

6. Hormiguero 0.20 2.18 6.30 2.50 2.00 1,78 6.10 1.64 1.28 58,7%

7. A. Navarro 0.60 2.64 13.50 2.10 2.30 2.27 12.90 3.23 1.80 68.1%

8. Juanchito 0.30 2.48 5.70 2.20 2.25 2.20 5.40 1.32 1.15 46.2%

9. P. Comercio 0.60 4.61 18.40 4.20 3.80 3.93 17.80 8.76 2.96 64.2%

10. Pto. Isaacs 1.30 4.44 16,70 2.80 3.72 3.96 15.40 6.29 2.51 56.6%

11. P. La Torre 0.77 5.05 14.80 3.00 4.48 4.43 14.03 7.42 2.72 53.9%

12. Vijes 0.86 6.40 18.50 5.30 5.15 5.33 17.64 16.64 4.08 63,7%

13. Votoco 0.80 5.08 16.50 2.80 4.10 4.15 15,70 11.58 3.40 66.9%

14. Mediacanoa 1.20 4.77 13.20 2.00 3.95 4.04 12.00 8.23 2.87 60.1%

15. Pte. Riofrío 0.68 4,79 14.60 1.90 3.80 3,75 13.92 11.42 3.38 70.5%

16. Pte. Guayabal 0.85 4.16 13.20 3.80 3,71 3.45 12.35 7.10 2.66 64.0%

17. La Victoria 0.50 3.53 11.60 2.50 3.05 2.99 11.10 4.56 2.14 60.4%

18. Anacaro 0.70 3.85 13.90 1.80 2.64 3.06 13.20 8.10 2.85 74.0%

19. Pte. Virginia 1.12 3.36 10.80 2.40 2.60 2.94 9.68 4.07 2.02 60.0%

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 237


VIVIANA VARGAS FRANCO

Considerando el marco legal para el análisis de parámetros físico-químicos y


bacteriológicos, se observa que en el valor medio de DBO las estaciones monitoreadas
cumplen la norma admisible, menor que 6 mgll, excepto la estación Vijes donde el
valor medio es de 6,4 mgll. Sin embargo, en los valores máximos todas las estaciones
superan el valor admisible de DBO, excepto las estaciones: Antes Suárez, Paso de
la Balsa, Paso de la Bolsa y Juanchito. Los valores más críticos se dan en el tramo
Paso del Comercio a la estación Yotoco. Así mismo, en este tramo se observa la
mayor variación del conjunto de datos, evidenciándose esta situación con las medidas
de dispersión; rango y desviación estándar.
El coeficiente de variación es un indicador de la relación relativa entre la desviación
estándar y la media y permite analizar en forma porcentual la relación entre estas
dos medidas. Analizando el coeficiente de variación para la DBO se puede observar
que este valor es alto en cada una de las estaciones evaluadas, con un valor mínimo
de 46,2% en la estación Juanchito y valor máximo de 80,5% en la estación Antes
Suárez. Las estaciones con mayores valores en el coeficiente de variación son: Antes
Suárez y Antes Ovejas, con valores de 80,5% y 78,2%, respectivamente.

• Oxígeno disuelto (00)


En la tabla de estadísticas descriptivas para la variable oxígeno disuelto (00), en las
estaciones monitoreadas, se puede evidenciar que considerando un valor admisible
de oxígeno disuelto mayor a 4 mg/l, para diversos usos, se da que el río Cauca en su
paso por el Valle del Cauca cumple este criterio en el valor medio hasta la estación
Puente del Comercio.
A partir de la estación Puente del Comercio los valores medios de oxígeno disuelto
disminuyen considerablemente, encontrándose valores de 1,51 mgll en la estación de
Yotoco y de 1,65 mgll en la estación Media Canoa. Así mismo y de forma dramática,
los valores mínimos en las estaciones evaluadas no superan la norma admisible
(>4 mgll), alcanzándose valores mínimos entre 0,1 mgll y 0,2 mg/l, en el tramo Paso
de la Torre a Mediacanoa.
En cuanto a variación, en el tramo Antes Timba a Paso del Comercio, se encuentran
coeficientes menores al 30%, es decir, los datos varían relativamente poco en relación
con el valor de la media, mientras en el tramo Paso de la Torre a Mediacanoa se dan
coeficientes de variación en el rango de 54% a 70%, indicando una gran dispersión
del conjunto de datos, respecto al valor medio de oxígeno disuelto.

238 ESTAOrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPiTULO 9 - CALIDAD DE AGUA

Tabla de estadísticas descriptivas para oxígeno disuelto 1001

.....
Medidas de tandencil cantral Medida de dispersión

.... .... ... .... ....


~ ... CIII.•

Estación
lq.4) .... .... .... .... ...
lIbiIIII
s.itricI "-" VIriIIII
..,; ...
E.-.. VIridt
111

1. A. Suárez 0.70 4.64 8.00 4.80 4,70 4.20 7.30 3.19 1,79 38%

2. A. Ovejas 0.90 5.09 8.00 6.20 5.30 4.74 7.10 2.57 1.60 32%

3. A. Timba 0,70 6.23 7.91 7.20 6.45 5.92 7.21 1.80 1.34 22%

4. P. Balsa 1.80 6.28 8.00 7.20 6.60 6. " 6.40 1.43 1.19 19%

5. P. Bolsa 0.40 5.95 7.27 6.40 6.30 5.71 6.87 1.38 1.17 20%

6. Hormiguero 1.60 5,76 7.80 6.10 5.96 5.60 6.20 1.19 1.09 19%

7. A. Navarro 0.80 5.52 7.50 5.90 5.90 5.31 6,70 1.38 1.17 21%

8. Juanchito 3.10 5.19 8.20 5.30 5.30 5.12 5.10 0,76 0.87 17%

9. P. Comercio 1.20 4.50 8.10 4.20 4.60 4.30 6.90 1.47 1.21 27%

10. Plo. Isaacs 0.50 3.55 5.80 3.00 3,70 3.26 5.30 1.55 1.24 35%

". P. La Torre 0.10 2.14 6.30 0.20 2.12 1.49 6.20 2.14 1.46 69%

12. Viies 0.20 1,71 4.60 0,70 1.60 1.29 4.40 1.44 1.20 70%

13. Voloco 0.20 1.51 4.30 1.20 1.35 1.22 4.10 0.92 0.96 64%

14. Mediacanoa 0.10 1.65 4.10 1.30 1.50 1.39 4.00 0.81 0.90 54%

15. PIe. Riofrlo 0.60 2.21 4.30 2.10 2.15 2.05 3.70 0.67 0.82 37%

16. PIe. Guayabal 0.30 2.40 4.60 2.40 2.40 2.23 4.30 0.66 0.81 34%

17. La Victoria 0,70 2.75 5.00 3.10 2.80 2.65 4.30 0.49 0.70 25%

18. Anacaro 1.20 2.92 6.40 3.20 2.85 2.84 5.20 0.51 0,71 24%

19. Pte. Virginia 2.20 3.55 6.00 3.80 3.60 3.48 3.80 0.49 0,70 20%

9.2 Presentación gráfica


En este ítem se observan diversos tipos de gráficas que permiten analizar la tendencia
de la demanda bioquímica de oxígeno y oxígeno disuelto. Se analizan gráficas de
valores máximos, mínimos, medios y gráficas de series de tiempo a través de los
años y meses.

• Demanda bioquímica de oxígeno (DBO)


A través de la gráfica de valores mínimos, máximos y media se puede evidenciar que
las estaciones monitoreadas cumplen con el valor admisible de 6 mg/l en los valores

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 239


VIVIANA VARGAS FRANCO

mínimos y medios de DBO, excepto en la estación Vijes. Sin embargo, los valores
máximos superan el valor admisible en los siguientes tramos: Antes Suárez a Antes
Ovejas, Hormiguero a Antes Navarro, Paso del Comercio a Puente La Virginia, es
decir, cerca del 85% de las estaciones evaluadas no cumplen la norma de DBO en
los valores máximos, aunque el 95% sí la cumple en el valor medio.

34.0 100
r-
eoo
18,0
r-
¡ 500

:!
HIlo, AbrJsib/~

Q 12,0
~ <:)1
T ~ ~
..
6.0
-r .

. .,
~.~lI¡I -t· 4 ~. -i. ~ 11. I~
~. _.~ I 1'-. ~ I ~
200

lOO
o
.. U.
0,0
l:!oc s ;:¡
~ .,~
~;:¡
e
:¡:;¡ e
::¡
¡: e
O
tl lo¡

~
l:l
¡¡¡ ~ ~ ..
e ...
;:¡ ~ e ~
~
..,~ ~
e ...:
e
1>

:::
~
~~ ~ ~ ~
le ~
~ ..
~ ili
~
~;: ~
.., ~
...: ...: '" '" .. .., 8 ~ e
~ '" Estación
'" ~ ~
1>

.
~
~
.
~

- D80 • CAUDA L

Gráfica de mínimos, máximos y valores medios para demanda


bioquímica de oxígeno
Los valores más elevados de DBO se encuentran en las estaciones Paso del Comercio
y Vijes, con valores superiores a 18 mgll, los valores máximos por debajo de 6 mgll
se dan en el tramo Antes Timba a Paso de la Bolsa, y la estación Juanchito, y en
estas estaciones es donde se cumple con el valor admisible de DBO, en los valores
mínimos, medio y los valores máximos.
La tendencia general de DBO es tener valores bajos hasta la estación Hormiguero, y
a partir de ahí se inicia un ascenso de los valores máximos hasta la estación Yotoco,
luego bajan los niveles hasta Puente La Virginia, pero sin alcanzar los valores
admisibles.
En la gráfica no se evidencia una relación directa entre los niveles de caudal y los
valores de DBO en las estaciones evaluadas, pues los niveles de caudal medio tienden
a aumentar a través de las estaciones, no siendo esta la tendencia del valor medio o
el valor máximo de la DBO.
A continuación se observa la gráfica de series de tiempo para la DBO, desde el año
1984 al año 2002, en cinco estaciones monitoreadas sobre el río Cauca, donde se
evidencia que las estaciones Paso de la Balsa y Juanchito tienen, a través de los años,
valores menores al valor admisible.

240 ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS


CAPITULO 9 - CALIDAD DE AGUA

La estación Puente La Virginia evidencia hasta el año 1994 valores por debajo de la
norma y valores superiores al valor admisible en 1994, 1995, 1997 Y 2000.

11 ~----------------------------------------------------------~
1 .. • . -. • • ~ "'lo ~ ••

12 .' . ............... ..

10 ,,- .......,.Oo ..

1964 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

- - P. Balsa - - JMandilo P. de La Torre - - Pte. Riofrlo - - Pte. Lu Virginia

Gráfica de series de tiempo para DEO en estaciones sobre el río


Cauca
La estación Puente Riofrío tiene valores menores al valor admisible hasta el año
1994, a partir de esta fecha tienden a incrementar los valores, alcanzando máximos
superiores a 14 mg/l en 1997 y superiores a 12 mg/l en 2001 . En 1998 y 1999 bajan
los niveles.
La estación Paso de la Torre tiene un comportamiento estable, con valores menores
al valor admisible, hasta 1995, excepto en 1985 y 1992. En el período 1996 a 2002
se observan valores superiores al valor admisible.
La siguiente gráfica muestra la relación espacio-temporal de la variable DBO,
donde se relacionan las estaciones (numeradas), los meses del año (numerados) y
los valores de DBO.

Gráfica espacio-temporal para demanda bioquímica de oxígeno

ESTADIs TICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 241


VIVIANA VARGAS FRANCO

Se puede evidenciar que en las primeras estaciones, desde Antes Suárez hasta
Juanchito, los valores de DBO son menores al valor admisible de 6 mgll, en cada
uno de los meses del año. Sin embargo, en las estaciones centrales se observan los
mayores niveles de DBO, es decir, entre Puente del Comercio y La Victoria, los
valores de DBO se incrementan considerablemente con valores máximos en los meses
de enero a marzo, disminuyendo entre los meses de abril a mayo e incrementándose
nuevamente hasta el mes de diciembre donde alcanza valores máximos.
La DBO vuelve a mostrar valores bajos en las últimas estaciones monitoreadas, es
decir, en el tramo Anacaro a Puente La Virginia, donde la tendencia es a generar
niveles bajos de DBO. En general los meses de marzo, abril y mayo muestran
los niveles más bajos, incrementándose hasta llegar a los valores máximos en
diciembre.

• Oxígeno disuelto (00)


En la gráfica de valores mínimos, máximos y media se puede evidenciar que en el
primer tramo de monitoreo del río, desde Antes Suárez a Paso del Comercio, el valor
medio de OD cumple con el valor admisible, pero en este tramo el valor mínimo no
cumple con el valor deseado de OD.

tU

1,0
11 • __ -- -
.,.. ""'" -.¡ fIIMr -
..,
500

11,0
i"""Q I '1 rI " 11 l. 11 ~
r

~
~
300
!~

l.
4,0
~II~ ~~ ~
~- ""' 11
2,0
~~

L..
1.-11--1 ~ . '"11 -
111 JI •• 200

100

0,0 ., . ...;:¡ ..
::::: eus: .e
;:¡ e e e ::¡ ¡; e
~ ~ tl
~2 ~ ~ ~
e~
~:¡
~
::
.. ...
~
:li ~ ~ ;:¡ ~
~
~ >:
U
~
;;S
es:: u
., '~"
'..."
e
... ...
I ~
... ...~ 8.. ~ ª
Estación
.. ~
~
:1; ~
:li
::!'"
..

~
..::!
. OD • CAUDAL

Gráfica de mínimos, máximos y valores medios para oxígeno disuelto


Entre la estación Paso del Comercio a Puente La Virginia la situación del río se
vuelve crítica, pues el valor medio siempre está por debajo del valor deseable y sus
valores mínimos también están en esta condición, siendo el tramo más crítico desde
Paso de La Torre a Puente Guayabal.

242 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 9 - CALIDAD DE AGUA

Gráficamente se evidencia una relación inversa entre los niveles medios de OD y los
valores medios de caudal, pues en el tramo Antes Suárez a Puente del Comercio los
valores medios de OD tienen tendencia hacia valores bajos y los valores medios de
caudal tienen tendencia a incrementarse, mientras que en el tramo Puerto Isaacs a
Puente La Virginias los valores medios de caudal tienden a incrementarse y los valores
medios de OD muestran fluctuación con tendencia a tomar valores mínimos.
En la siguiente gráfica se observan los valores máximos, mínimos y medios de
oxígeno disuelto por mes en cuatro estaciones.

~
7.00 1
6.001
I
9.00 , - - - - - - - - - - - - - - - - - - , - - - - - - - - - : - - - - - ; - - . . . . . . . . ,

8.00

¡I
! s.OO ¡ 1
~ 4.00 + -~+_++=H_++--_+;;;.-.~+'_+_"".......,¡"..,j._=r-+.r..___iI_+_=____'lI....-++.....;¡+_+.=f1
1 -

Q 3.00 ~
2 .00~
1.00 !
: -~--~-'--~-~--~-~-_--'--_-_-_--~-_l
0 .00 1--
ENE"O FEIRUO MA"ZO AUI.. IoI"YO JlHO

Mes
---+- A. Slldr~z ---+- Hor".¡g,,~ro --... - Plo. ISQQCS --+- Pte Virginia

Gráfica de valores mínimos, máximos y medios mensuales para oxígeno


disuelto
En la estación Antes Suárez los valores medios de OD cumplen la norma admisible,
pero solo hasta agosto, incluyendo diciembre, y de septiembre a noviembre el valor
medio está por debajo de 4 mgll. Sin embargo, en los valores mínimos esta estación
tiene valores admisibles sólo en enero, abril y julio.
En la estación Hormiguero en general se cumple con la norma admisible de OD, en
los valores medios, máximos y mínimos, excepto en los valores mínimos en febrero,
marzo, septiembre y noviembre, mientras en la estación Puerto Isaacs se observa que
sólo en enero se cumplen con los valores deseados de oxígeno disuelto (> 4 mgll),
tanto en el valor medio como en los valores máximos y mínimos. En los otros meses
los valores medios en general son menores a 4 mgll con valores demasiado bajos,
menores a 1 mg/l, en marzo y agosto.
En la estación Puente La Virginia los meses donde se observan valores medios
deseados de oxígeno disuelto son enero y abril; en el resto de meses los valores
medios y mínimos son menores a 4 mg/l. En enero, febrero, abril, mayo, noviembre
y diciembre los valores máximos son menores a 4 mgll, considerándose esto como
una situación crítica.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 243


VIVIANA VARGAS FRANCO

La siguiente gráfica muestra la serie de tiempo para oxígeno disuelto desde el año
1984 al año 2002 en cinco estaciones monitoreadas sobre el río Cauca.

IJ I :.._.;.".,.¡.
8
7 ~ .

j: }oC: ". l }L"


§
"'-
4
3
1 1. ,::A Vv ).',
. \:. Jl' rl _ )( _
\ y v
v I I .. t 'N~ . }cf ' \ Pi "
'é V

o I F' ív
1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 19971998 1999 200 2001 200

- - P . Balsa ----Jllanchilo - -P. de La Torre - - PIe Riofrio - - Pte La IIirginia

Gráfica de series de tiempo para oxígeno disuelto en estaciones sobre


el río Cauca
De las estaciones graficadas, las estaciones Paso de la Balsa y Juanchito tienen en
general valores admisibles de OD (> 4 mg/l), excepto en los años 1987 y 1995 para
Paso de la Balsa y en los años 1996 y 1998 para la estación Juanchito.
Las estaciones Paso de la Torre, Puente Riofrío y Puente La Virginia en general
muestran valores por debajo del valor admisible de OD, excepto en 1989 y 1991
para la estación Paso de la Torre y en 1985, 1989 Y 2000 para Puente la Virginia.
La siguiente gráfica muestra la relación espacio-temporal de la variable OD, donde
se relacionan las estaciones (numeradas), los meses del año (numerados) y los
valores de OD.
8,00

6 ,00

i'6
o 4,00
á;
.2'
el
2,00

0,00

~ i

Gráfica espacio-temporal para oxígeno disuelto

244 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 9 - CALIDAD DE AGUA

Se puede evidenciar que en las primeras estaciones, desde Antes Suárez hasta Juanchito,
los valores de OD son mayores al valor admisible de 4 mg/l, en cada uno de los meses
del año. Sin embargo, en las estaciones centrales se observan los menores niveles
de OD; entre Puente del Comercio y La Victoria los valores de OD disminuyeron
considerablemente, con valores mínimos en los meses de enero a marzo.
La OD vuelve a generar valores altos en las últimas estaciones monitoreadas, es
decir, en el tramo Anacaro a Puente La Virginia, donde la tendencia es a evidenciar
niveles altos de OD.

9.3 Histogramas
En este ítem se muestran gráficas de histogramas para algunas estaciones de muestreo
sobre el río Cauca en la variable oxígeno disuelto. A continuación se observan
histogramas en las estaciones Antes Ovejas, Paso de la Balsa y Hormiguero.
ESTACIÓN: 2,00 Antes Ovejas Estación: 4,00 Paso de la Balsa
16 , - - - - - - - - - - , JO

12
20

10
/ \
1\

~
1\ /)mI. típ. · ',19
Medj. - 6J
h-L N - 61,OO

1,0 1,5 ¡O u 3.0 3.5 Oj o~ ~o ~5 lO 1.5 7,0 7,5 lO u ¡O ¡5 3.0 3,5 0,0 O~ ~O 5,5 6.D 6~ 7,0 7~ lO
Oxigeno disuelto Oxígeno disuelto

Estación: 6,00 Hormiguero


JO, - - - - - - - - ,

20

0""/1p. · /.1I8
Me¡¡. - j.7
.L.J.,__ :;.¡..,.J.........,................,..L.,...l...J..,.J N - 71.OII

1.52.02,53,03,5 4,0 4,55,05,56.06.51,07.58,0


Oxígeno disuelto

Gráfica de histogramas en estaciones de monitoreo sobre el río Cauca


para oxígeno disuelto.

ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS 245


VI VI ANA VARGAS FRANCO

La distribución de frecuencias en la estación Antes Ovejas, para OD, se encuentra


en el rango de 1 mg/l a 8 mg/l, evidenciando sus frecuencias máximas entre 5,0 mg/l
y 6,0 mg/l y mínimas en datos menores a 3,0 mg/l. También se puede analizar que
el 28,3% de los datos fueron menores a 4,0 mg/l y el 71,6% cumplieron la norma
admisible, es decir, valores > 4 mg/l. La media en esta estación fue de 5,1 mg/l,
con una desviación estándar de 1,6 mg/l. La forma de la distribución se asemeja a
la curva normal.
En la estación Paso de la Balsa se observa la distribución de frecuencias en
el rango de 1,5 mg/l a 8,0 mg/l, con frecuencias máximas entre 6,5 mg/l y 7,5
mg/l y mínimas entre 1,5 mg/l y 5,0 mg/l, obteniéndose que el 6% de los datos
toman valores menores que 4,0 mg/l y el 94% cumple el valor admisible (> 4,0
mg/l). La media en esta estación fue de 6,3 mg/l, con una desviación estándar
de 1,2 mg/l. La forma de la distribución es asimétrica con sesgo hacia la margen
izquierda.
La distribución de frecuencias en la estación Hormiguero se encuentra en el
rango de 1,5 mg/l a 8 mg/l, con frecuencias máximas entre 6,0 mg/l y 6,5 mg/l
y frecuencias mínimas en los rangos de 1,5 mg/l a 4,5 mg/l y entre 7,0 mg/l y
8,0 mg/l. También se puede analizar que el 9% de los datos fueron menores que
4,0 mg/I y el 91 ,0% cumplieron la norma admisible, es decir, valores > 4 mg/l.
La media en esta estación fue de 5,7 mg/l, con una desviación estándar de 1,08
mg/l. La forma de la distribución es relativamente simétrica, asemejándose a una
distribución normal.
A continuación se muestran los histogramas en oxígeno disuelto para las estaciones
Puerto Isaacs, Vijes y Mediacanoa.

246 ESTAD ISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPfTULO 9 - CALIDAD DE AGUA

Estación: 10,00 Puerto [saaes Estación: /2,00 Vijes


12 30 ,--- ----------,
r-
~ r- \ -r-
10

/,
r-
\
~
20

_1 \
--'
10

[}/ ~ O"', IÍp. = 1,35 Desv. típ. = / ,1/


1- Mtdi. . 3,4 Mt dill = /,6
N -76,OO
.1-.,-..........L..,-.............................-L...,.....l-,.....l-,.-L..,~ N - 71,00
0.0 .5 1,01.52,02,5 3,03,54,04,55,05,56,0 0,0 ,5 1,0 1.5 2.0 2.5 3,0 3,5 4.0 4,5
Oxígeno disuelto Oxígeno disuelto

Estación: 14,00 Mediaeanoa


30 , - - - - - - - - - - - - - ,

20

10

[7 O.... 1ÍJ!, - ,69


Mt dill = /,6

0,0 ,5 1,0 1,5 2.0 2,5 3,0 3,5 4,0


Oxígeno disuelto

Gráfica de histogramas en estaciones de monitoreo sobre el río Cauca


para ox ígeno disuelto

En la estación Puerto Isaacs la distribución de frecuencias se da en el rango entre


mg/l y 6,0 mg/l, con frecuencias máximas entre 3,0 mg/l y 5.0 mg/l y frecuencias
°
°
mínimas entre mg/l y 1,5 mg/l y entre 5,5 mg/l y 6,0 mg/l. También se evidencia
que e145% de los datos, en esta estación, cumple los valores admisibles para OD (>4
mg/l), mientras que el 55% de los datos toma valores menores a 4,0 mg/l. El valor
de la media en esta estación fue de 3,4 mg/l y la desviación estándar de 1,4 mg/l. La
forma de la distribución puede considerarse cercana a una curva normal.

ESTADfsTICA DESCRIPTIVA PARA INGENI ERfA AMBIENTAL CON SPSS 247


VIVIANA VARGAS FRANCO

La distribución de frecuencias en la estación Vijes se observa en el rango de Omg/l a


4,5 mg/l, con frecuencias máximas entre 0,5 mg/l y 3,0 mg/l y mínimas entre 3,5 mg/l
y 4,5 mg/l. En esta estación sólo el 7% de los datos cumple los valores admisibles
para OD (>4 mg/l), mientras que el 97% de los datos toma valores menores a 4,0
mg/l. El valor de la media fue de 1,6 mg/l, con una desviación estándar de 1,21
mg/l. La forma de la distribución es relativamente simétrica, asemejándose a una
distribución normal.
En la estación Mediacanoa la distribución de frecuencias se da en el rango entre O
mg/l y 4,0 mg/l, dando sus frecuencias máximas entre 0,5 mg/l y 2,5 mg/l y mínimas
entre 3,0 mg/l y 4,0 mg/l. En esta estación, en forma dramática, el 97% de los datos
no cumple los valores admisibles para OD (>4 mg/l), es decir, los datos analizados
toman valores menores a 4,0 mg/l. El valor de la media en esta estación fue de 1,6
mg/1, con una desviación estándar de 1,21 mg/l. La forma de la distribución es
relativamente simétrica y se asemeja a la curva normal.

9.4 Tablas cruzadas


Considerando rangos de calidad de agua para oxígeno disuelto y demanda bioquímica
de oxígeno, se muestran a continuación tablas de contingencia para las estaciones
Antes Suárez, Juanchito y Vijes.
A continuación se observa la tabla de contingencia entre rangos de DBO y OD, en
la estación Antes Suárez.

Tabla de contingencia ORO * Oxígeno disuelto 8


Oxigeno disuelto
Total
[0·2.51 (2.5·3.51 (3.5-5.51 5.5·8.01
OBO (0·2.01 Recuento 5 B 17 14 44
% de OBO 11.4% 18,2% 38,6% 31,8% 100,0%
% de Oxígeno disuelto 62,5% 80,0% 70,8% 66.7% 69,8%
(2.0·3.01 Recuento 1 2 2 5 10
% de OBO 10,0% 20,0% 20,0% 50,0% 100,0%
% de Oxígeno disuelto 12,5% 20,0% 8,3% 23.8% 15,9%
(3.0·5.01 Recuento 2 O 3 O 5
% de OBO 40,0% ,0% 60,0% ,0% 100,0%
% de Oxígeno disuelto 25,0% ,0% 12,5% ,0% 7,9%
>5.0 Recuento O O 2 2 4
% de OBO ,0% ,0% 50,0% 50,0% 100,0%
% de Oxígeno disuelto ,0% ,0% 8,3% 9,5% 6,3%
Total Recuento 8 10 24 21 63
% de OBO 12,7% 15,9% 38,1% 33,3% 100,0%
% de Oxígeno disuelto 100,0% 100,0% 100,0% 100,0% 100.0%
a. Estación - Antes Suárez

248 ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPSS


CAPITULO 9- CALIDAD DE AGUA

En esta estación se puede apreciar que el 69,8% de los datos de DBO se encuentran
en el rango O mg/l a 2,0 mg/l y el 15,9% se dan en el rango de 2,0 mg/l a 3,0 mg/l,
es decir, en estos dos rangos se halla el 85,7% de los datos de DBO.
Para el oxígeno disuelto, el 33,3% de los datos se encuentra en el rango 5,5 mg/l a
8,0 mg/l y e138,1 % en el rango 3,5 mg/l a 5,5 mg/l, es decir, en estos dos rangos se
encuentra el 71,4% de los datos de OD.
Cuando el oxígeno disuelto se encuentra entre 5,5 mg/l y 8,0 mg/l; la DBO toma
valores entre O mg/l y 2,0 mg/l; el 66,7% de las veces y entre 2,0 y 3,0 mg/l el
23,8%.
Cuando la DBO se halla en el rango Omg/l a 2,0 mg/l; el 11,4% de los datos de OD
se encuentra entre O mg/l y 2,5 mg/l y el 18,2% de los datos se da entre 2,5 mg/l y
3,5 mg/l.
Del total de datos analizados, el 22% se hallan entre 5,5 mg/l a 8,0 mg/l de OD y entre
Omg/l y 2,0 mg/l de DBO, simultáneamente. El 27% de los datos se encuentra entre
3,5 mg/l y 5,5 mg/l de OD y entre Omg/l y 2,0 mg/l de DBO, simultáneamente.
En esta tabla se puede evidenciar que valores menores de DBO están asociados a valores
altos de OD, valores altos de DBO repercuten en una disminución de la OD.
La siguiente tabla muestra el cruce entre oxígeno disuelto y DBO, en la estación
Juanchito.
Tabla de contingencia oBO * Oxigeno disuelto 8

Oxigeno disuelto
Total
(2.5·3.51 (3.5·5.51 (5.5·8.01
OBO [0·2.01 Recuento O 20 11 31
%de OBO ,0% 64,5% 35,5% 100,0%
%de Oxigeno disuelto ,0% 39,2% 44,0% 39,2%
(2.0·3.01 Recuento 1 17 6 24
%de OBO 4,2% 70,8% 25,0% 100,0%
%de Oxígeno disuelto 33,3% 33,3% 24,0% 30.4%
(3.0·5.01 Recuento 2 13 8 23
%de OBO 8.7% 56,5% 34,8% 100,0%
%de Oxigeno disuelto 66.7% 25,5% 32,0% 29,1%
>5.0 Recuento O 1 O 1
%de OBO ,0% 100,0% ,0% 100,0%
%de Oxigeno disuelto ,0% 2,0% ,0% 1,3%
Total Recuento 3 51 25 79
%de OBO 3,8% 64,6% 31,6% 100,0%
%de Oxígeno disuelto 100,0% 100,0% 100,0% 100,0%

a. Estación - Juanchito

ESTADisTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 249


VIVIANA VARGAS FRANCO

En esta estación, el 39,2% de los datos de DBO se encuentra en el rango de O mg/l


a 2,0 mg/I, el 30,4% en el rango de 2,0 mg/I y 3,0 rng/I y el 29,1 % entre 3,0 rng/I y
5,0 mg/l, es decir, en estos tres intervalos se da el 98,7% de los datos de DBO.
Para el OD, el 31,6% de los datos se da en el rango 5,5 mg/l y 8,0 mg/I y el 64,6%
entre 3,5 rng/l a 5,5 rng/I, es decir, en estos dos rangos se halla el 96,2% de los datos
deOD.

Cuando el OD se encuentra entre 3,5 rng/ I y 5,5 mg/I; el 39,2% de los datos de DBO
se halla entre O mg/I a 2,0 mg/I; el 33,3% entre 2,0 mg/I a 3,0 mg/I y el 25,5% entre
3,0 mg/I a 5,0 mg/l.
Cuando la DBO se da entre 3,0 mg/I y 5,0 mg/I; el OD se halla entre 2,5 mg/l y 3,5
mg/I el 8,7% de las veces; el 56,5% se da entre 3,5 mg/l y 5,5 mg/l y el 34,8% entre
5,5 mg/l y 8,0 mg/l de OD.
Del total de datos analizados, el 25,3% de los datos está entre 3,5 mg/l y 5,5 mg/l de OD
y entre Omg/l a 2,0 mg/l de DBO, simultáneamente. El 16,5% de los datos se da entre
3,5 mg/l y 5,5 mg/l de OD y entre 3,0 mg/l y 5,0 mg/l de DBO, simultáneamente.
A continuación se muestra la tabla de contingencia entre rangos de DBO y oxígeno
disuelto, en la estación Vijes.
Tabla de contingencia DBO • Oxigeno disuelto·
Oxigeno disuelto
Total
[0·2.51 (2.5-3.51 (3.5·5.51
oBo [0·2.01 Recuento 2 1 O 3
%de OBo 66.7% 33,3% ,0% 100,0%
%de Oxigeno disuelto 3,6% 10,0% ,0% 4,2%
(2.0·3.01 Recuento 5 2 3 10
%de OBO 50,0% 20,0% 30,0% 100,0%
%de Oxígeno disuelto 9,1% 20,0% 42,9% 13,9%
(3.0·5.0%1 Recuento 11 5 2 18
%de OBO 61.1% 27,8% 11,1% 100,0%
%de Oxígeno disuelto 20,0% 50,0% 28,6% 25,0%
>5.0 Recuento 37 2 2 41
%de OBO 90,2% 4,9% 4,9% 100,0%
%de Oxígeno disuelto 67,3% 20.0% 28,6% 56,9%
Total Recuento 55 10 7 72
%de OBo 76.4% 13,9% 9.7% 100,0%
%de Oxígeno disuelto 100,0% 100,0% 100,0% 100,0%
a. Estación - Vijes

En esta estación el 4,2% de los datos de DBO se dan entre O mg/l y 2,0 mg/l, el
13,9% entre 2,0 mg/l y 3,0 mg/I y el 25,0% entre 3,0 mg/l y 5,0 mg/l, es decir, en
estos tres intervalos se halla e143,1 % de los datos de DBO.

250 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO 9 - CALIDAD DE AGUA

En OD, el 76,4% de los datos se encuentra en el rango mgll a 2,5 mg/l, el 13,9% °
entre 2,5 mgll y 3,5 mgll y el 9,7% entre 3,5 mgll y 5,5 mgll.
Cuando el OD se halla entre 2,5 mgll y 3,5 mg/l; el 10% de los datos de DBO está
°
en el rango de mg/l a 2,0 mgll; el 20% entre 2,0 mg/l y 3,0 mg/l y el 50% entre
3,0 mg/l a 5,0 mgll.
Cuando la DBO se da entre 3,0 mg/l y 5,0 mgll; el OD se halla entre mg/l y 2,5 °
mgll e161, 1% de las veces; entre 2,5 mgll y 3,5 mg/l el 27,8% Y el 11,1 % entre 3,5
y 5,5 mg/l de OD.

Del total de datos analizados, el 51,4 % de los datos se da entre mg/l y 2,5 °
mg/l de OD y > 5,0 mg/l de DBO, simultáneamente. El 15,3% de los datos
°
se ubica entre mg/l y 2,5 mg/l de OD y entre 3,0 mg/l y 5,0 mg/l de DBO,
simultáneamente.

9.5 Frecuencias acumuladas


A continuación se observan las gráficas de frecuencias acumuladas para oxígeno
disuelto en las estaciones Antes Suárez, Paso de la Balsa y Juanchito.

J",ndita
,.,. ,.,. ,.,.
7i-' 7
7 / 1/
V /
~
I
I
/
/ 1/
V
dI A
~
l
'"0,0 4,0 lO '" 0,0 l,O 40 1,0 '" 0,0 l,O ..o 1,0

00 00 00
Gráfica de frecuencias acumuladas en oxígeno disuelto, en las estaciones
Antes Suárez, Paso de la Balsa y Juanchito
De la gráfica se puede analizar que en la estación Antes Suárez alrededor del 43% de
los datos toma valores menores a 4,0 mgll, es decir, el 57% cumplió el valor admisible.
En la estación Paso de la Balsa alrededor del 5% de los datos son menores a 4 mg/l,
y el 95% de los datos cumple el valor admisible. En la estación Juanchito alrededor
del 12% muestra valores menores a 4 mgll y el 88% toma valores admisibles. Lo

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 251


VIVIANA VARGAS FRANCO

anterior evidencia que en estas estaciones se tienen pocas frecuencias en datos


menores o iguales a 4 mg/l, que es el estado deseable del río.
La siguiente gráfica ilustra las frecuencias acumuladas de las estaciones Vijes,
Mediacanoa y Puente Guayabal.

''''''
JlijtS

10'"'
- - - - - - -_.-
M t djfl(llffHI

..
"
PUtnl, GII.)'ab.J

,,. ,. .
,
.¡.
t.
~
oS-
E
~
~
".
~
!!" ".

,.. ,,. ,,.

,. ,. ,.
,,' 20
" 00
',' " " 00
" " "
00
." 00 00

Gráfica de frecuencias acumuladas en oxígeno disuelto en las estaciones


Vijes, Mediacanoa y Puente Guayabal
En las estaciones Antes Suárez, Paso de la Balsa y Juanchito se dan sus mayores
frecuencias en valores menores a 4,0 mg/l, pues cerca del 98% de los datos toman
valores menores a 4 mg/l, considerándose esta situación bastante crítica en el río.

9.6 Percentiles
Este ítem muestra el análisis de los valores percentiles para oxígeno disuelto y
demanda bioquímica de oxígeno.

• Oxígeno disuelto
En la siguiente tabla se muestran los valores percentiles de OD en las diversas
estaciones monitoreadas sobre el río Cauca en el Valle del Cauca.

252 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 9 - CALIDAD DE AGUA

Tabla de percentiles para oxígeno disuelto en estaciones del río Cauca

00
Parcantil ParcantM Parcantil Parcantil P8rcantil
Mediana
05 25 75 95 99
Estación Antes Suáraz 1,3 3,5 4,7 5,8 7,5 8,0
Antes Ovejas 1.8 4,1 5,3 6,1 7,5 8,0
Antes Timba 4,3 6,0 6,5 7,1 7.4 7,9
Paso de la Balsa 4,1 5,7 6,6 7,1 7,6 8,0
Paso de la Bolsa 3,8 5,7 6,3 6,7 7,1 7,3
Hormiguero 3,3 5,5 6,0 6.4 6,7 7,8
Antes Navarro 1.7 5,2 5,9 6,2 6,5 7,5
Juanchito 3,7 4,7 5,3 5,7 6,3 8,0
Paso del Comercio 1,9 3,6 4,6 5,3 5,9 8,0
Puerto Isaacs ,8 2.7 3,7 4,6 5,3 5,8
Paso de la Torra ,1 ,7 2,0 3,0 4,6 6,3
Vijes ,2 ,6 1.4 2.4 4,0 4,6
Yotoco ,2 ,8 1,3 1.8 3,5 4,3
Mediacanoa ,3 1,0 1.5 2,0 3,7 4,1
Puente Riofrlo ,9 1,6 2,2 2.7 3,6 4,3
Puente Guayabal 1,0 1.8 2.4 2,8 3,6 4,6
Puente La Victoria 1,7 2,3 2,8 3,1 3,8 5,0
Anacaro 2,1 2,5 2,8 3,2 3,9 6.4
Puente La Virginia 2.4 3,1 3,6 3,9 4,5 6,0

De la tabla se puede analizar que en la estación Antes Suárez el 50% de los datos son
menores o iguales que 4,7 mg/l; el 75% son menores o iguales a 5,8 mg/l; el 95%
son menores o iguales a 7,5 mg/l y el 99% son menores o iguales a 8 mg/l.
En la estación Paso de la Bolsa el 50% de los datos son menores o iguales a 6,3 mg/l;
el 75% son menores o iguales a 6,7 mg/l; el 95% menores o iguales a 7,1 mg/l y el
99% son menores o iguales a 7,3 mg/l.
En la estación Paso de la Torre el 50% de los datos son menores o iguales a 2,0 mg/l;
el 75% son menores o iguales a 3,0 mg/l; el 95% son menores o iguales a 4,6 mg/l
y el 99% son menores o iguales a 6,3 mg/l.
En la estación Yotoco el 50% de los datos son menores o iguales a 1,3 mg/l; el 75%
menores o iguales a 1,8 mg/l; e195% menores o iguales a 3,5 mg/l y el 99% menores
o iguales a 4,3 mg/l.
Los percentiles en forma gráfica se observan a continuación.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 253


VIVIANA VARGAS FRANCO

, OI
.... .r ....
Valdr Gd",i;ible

.=......
~ .~

. . =::.:=::::. 'l- .: .. , ... ~. .. ... ,.~~. ~. I


4~ jJ~~ . . . . .~ - - ~ : - - -~- :_~: :

~ ~ ~ .~ . ... :;: ::¡ ~ ~ .


O e e
e ~ t3 e tl ~
~ "u ~
t;j ~ ::;J ~ ~ ~
oc <:;
u .~
~
~
::!i ~
e ~ ~
~ ;:s
...'" ...'" ... '" '" "~ ... ...::!i
e ~ ¡: ~ ::!i ~
~ ~ ~ ~ ..., s::
~ \,)

~ ~ "~ .I:! ~
~ '" '"
ESTACIÓN

--+-- Pe re. 5 - P e T e. 25 --"--Perc. SO - - * - Perc . 7 5 _ PeTe. 95 ----- PeTe . 99

Gráfica de valores percentiles para oxígeno disuelto en estaciones del


río Cauca
Analizando en general los valores percentiles se tiene que las estaciones con mejor
reporte de datos en OD son Antes Timba y Paso de la Balsa, pues sólo e15% (percentil
05) de sus datos son menores o iguales a 4,3 mg/l y 4,1 mg/l, respectivamente. Le
siguen las estaciones Antes Ovejas y Juanchito, pues e125% de los datos son menores
a 4.1 mg/l y 4,7 mg/l, respectivamente.
Las estaciones con valores críticos se encuentran en el tramo Vijes a Puente Guayabal,
pues el 99% de los datos (percentil 99) son menores o iguales a 4,6 mg/l. Otras
estaciones con datos críticos son Paso de la Torre, considerando que el 95% de los
datos son menores a 4,6 mg/l y la estación Puerto Isaacs, pues el 75% de los datos
son menores a 4,6 mg/l, similarmente la estación Paso del Comercio, con el 50%
de los datos menores de 4,6 mg/l.
A continuación se observa la tabla de valores percentiles de DBO en las estaciones
monitoreadas sobre el río Cauca. De la tabla se puede deducir que en la estación
Antes Timba se observa que el 50% de los datos toman valores menores o iguales
a 1,2 mg/l; el 75% son menores o iguales a 2,0 mg/l; e195% son menores o iguales
a 2,9 mg/l y el 99% datos menores o iguales a 4,7 mg/l.

254 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 9 - CALIDAD DE AGUA

Tabla de percentiles para demanda bioquímica de 00 en estaciones sobre el río Cauca


080
Percentil Percentil Percentil Percentil Percentil
Mediana
05 25 75 95 99
Estación Antes Suárez .4 ,9 1.4 2.4 5,1 7,8
Antes Ovejas ,2 ,8 1,2 2,1 3.7 7,0
Antes Timba ,3 ,8 1,2 2,0 2,9 4.7
Paso de la Balsa ,3 ,9 1.3 1,9 3,6 4,8
Paso de la Bolsa ,3 1.1 1,9 2,5 4,9 5,3
Hormiguero ,3 1,3 2,0 2,8 4,8 6,3
Antes Navarro 1,0 1,8 2,3 3,1 6,0 15,1
Juanchito ,8 1.6 2,3 3,2 4.4 5.7
Paso del Comercio 1,5 2,8 3,8 5.4 9,0 15,9
Puerto Isaacs 1,9 3,0 3,9 5.4 10,1 16.7
Paso de la Torre 1,9 3,2 4,6 6,6 10,9 14,8
Vijes 2,5 3.4 5,2 9,0 15.7 18,5
Yotoco 1,6 2.7 4,1 6,8 10,5 16,5
Mediacanoa 1,5 2.7 4,1 5.7 10,8 13,2
Puente Riofrío 1,3 2,0 3,8 6,3 11,2 14,6
Puente Guayabal 1.2 2,3 3.7 5,2 9,3 13,2
Puente La Victoria 1.1 2,2 3,1 4,6 9,8 11,6
Anacaro 1,3 1,8 2.7 5,5 10,1 13,9
Puente La Virginia 1,5 2,2 2,6 4,2 B.4 10,8

En la estación Hormiguero el 50% de los datos son menores o iguales a 2,0 mgll;
el 75% son menores o iguales a 2,8 mg/l; el 95% menores o iguales a 4,8 mg/l y el
99% son menores o iguales a 6,3 mg/1. En la estación Vijes el 50% de los datos
son menores o iguales a 5,2 mgll; el 75% son menores o iguales a 9 mgll; el 95%
son menores o iguales a 15,7 mgll y el 99% son menores o iguales a 18,5 mg/1. Los
percentiles en forma gráfica se muestran a continuación.

4
2
.... . ...
o
!:! g ;:¡
~
.~
Q

!:l'"
Q
:::¡ ~ § tJ ':::¡" ::¡
s: ~ ~iJ'"
Q ....
;:¡ '1
Q

'"
'1
~
~ ~ ~ ~
;:¡'" :::: iJ
;:¡ Q
::l ~ :::
"..;
Q
"
:lO
~...
~
Q
¡¡¡ ;:¡ ~ l!!
'"
..;
..;
'" '"
I ~
..;
~
<.;;

'"
.
¡:! ::¡
'"
'1
~ ~ "
~
;;:
::¡ " "~
.
ESTACIÓN
~Perc. 5 -----Perc. 25 --+-Perc. 50 - - Pe re. 75 -+-Perc. 95 - - - Pe re. 99

Gráfica de valores percentiles para DBO en estaciones del río Cauca

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 255


VIVIANA VARGAS FRANCO

Analizando en general los valores percentiles para DBO, se da que las estaciones con
mejor desempeño son: Antes Timba, Paso de la Balsa, Paso de la Bolsa, Hormiguero
y Juanchito, pues el 99% de los datos son menores o iguales a 4,7, 4,8, 5,3 , 6,3 Y
5,7 mg/l, respectivamente.
Le siguen las estaciones Antes Suárez, Antes Ovejas y Antes Navarro, debido a que
el 95% de los datos son menores o iguales a 5,1, 3,7 Y 6,0 mg/l, respectivamente.
Las estaciones con valores críticos en DBO son Paso de la Torre, Vijes y Yotoco, debido
a que el 50% de los datos son menores a 4,6, 5,2 Y 4,1 mg/l, respectivamente.
De los resultados descriptivos desarrollados en este capítulo, la presentación gráfica
de los datos y consideraciones de carácter técnico se pueden generar los siguientes
análisis generales:
En el tramo Antes Suárez a río Ovejas se dan aumentos leves en la concentración
de oxígeno disuelto y una disminución leve de la demanda bioquímica de oxígeno;
el río en este tramo inicia un proceso de recuperación, recibiendo una reaireación
que es utilizada para la degradación de la materia orgánica.
En el tramo Antes río Ovejas a Hormiguero el río recibe aguas de tres ríos afluentes :
río Ovejas, río Timba y río Palo, aumentando considerablemente los niveles de
caudal del río Cauca, lo cual permite una estabilización de la demanda bioquímica
de oxígeno y el incremento en la concentración de oxígeno disuelto, considerando
que los ríos Timba y Ovejas aportan un caudal importante con altas concentraciones
de oxígeno disuelto y valores bajos de demanda bioquímica de oxígeno.
En el tramo Hormiguero a Vijes se observa la mayor contaminación del río por
materia orgánica, debido a que en este tramo recibe las descargas de la ciudad de
Cali, Palmira y el corredor industrial Cali-Yumbo, donde se encuentra gran parte
de los ingenios azucareros, la mayoría de las industrias de producción de pulpa de
papel, industrias productoras de químicos y la principal destilería del departamento
del Valle del Cauca. En este tramo se dan constantemente valores bajos de oxígeno
disuelto y un incremento progresivo de la demanda bioquímica de oxígeno.
En el tramo Vijes a Mediacanoa se tiene la condición más crítica a nivel de
concentración de oxígeno disuelto, pues en general se encuentra entre 1 mg/l y 2 mg/l.
En este sector hay una fuerte exigencia en la demanda bioquímica de oxígeno. La
contaminación en este sector es aportada por los municipios de El Cerrito, Guacarí
y Yotoco. (Vélez, 2003).
En el tramo Mediacanoa a La Virginia el río muestra una marcada recuperación, pues
la carga contaminante es menor y esto posibilita la auto-recuperación de la calidad de
agua. En este sector se observan descargas de aguas residuales e industriales, debido a
los ingenios, beneficiaderos de café e industrias alimenticias, así como de los municipios
de Buga, Tuluá, Riofrío, Bugalagrande, Cartago y Caicedonia. (Vélez, 2003).

256 ESTADIsTICA DESCRIPTIVA PARA ING ENIER IA AMBIENTAL CON SPSS


CAPíTULO

10
Instrucciones en SPSS

En este capítulo se presentan los procesos básicos para el uso del programa estadístico
SPSS (Statistical Package for the Social Sciences), en su versión 11.5, para el
sistema operacional Windows (Las nuevas versiones tienen los mismos procesos
para la estadística descriptiva que los presentados en este libro). SPSS es uno de los
programas más comúnmente utilizados para el análisis estadístico de datos. Entre sus
ventajas se encuentran: cubre un amplio rango de los análisis más comunes y gráficos
estadísticos, los datos pueden ser grabados en SPSS o pueden ser importados de
otros programas, como Excel. Los resultados del análisis de datos están claramente
estructurados en un archivo de salida, en el cual se pueden realizar modificaciones
y pueden ser editados en el procesador de texto Word (Microsoft). '
Para ingresar al programa SPSS en el menú de inicio se debe seleccionar:
Programas>SPSS for Windows>SPSS 11 .5 para Windows, o simplemente dé
doble clic en el icono de SPSS si este se encuentra instalado en el escritorio, SPSS
automáticamente abrirá una hoja vacía: "Sin titulo - SPSS para Windows Editor
de datos". Para finalizar el programa SPSS se debe seleccionar Archivo>Salir, de
la barra del menú o clic en el botón X, en la parte superior de la esquina derecha
de Windows.

10.1 Ingresando los datos a SPSS


El editor de datos abre automáticamente cuando se inicia una sesión SPSS y contiene una
hoja electrónica para introducir, editar y mostrar el contenido de un archivo de datos.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 257


VIVIANA VARGAS FRANCO

Las filas en el editor de datos de la hoja electrónica son observaciones o casos y


las columnas variables. La línea superior de las filas contiene el nombre de las
variables, mientras que la columna izquierda se refiere al número de la secuencia
de las observaciones o medidas, tal como se ilustra a continuación.

• Para definir las variables de la barra de menú se debe seleccionar Datos>Definir


propiedades de variables ... o pulsando doble clic en la celda "varOOOOl" en
la línea superior de las filas, donde se define el nombre de la variable 1; en la
siguiente columna, en "var00002", se puede definir el nombre de la segunda
variable y así sucesivamente hasta completar las variables del estudio. El nombre
de cada variable debe iniciar con una letra, con máximo ocho caracteres y puede
ser alfanumérico. El nombre no debe contener espacios en blanco, pero pueden
ser usados caracteres especiales.
• En la caja: Definir propiedades de las variables de clic en Etiqueta, y en la
ventana abierta "Definir etiqueta", tipear el nombre completo de la variable o un
nombre más extendido del tipeado en "var00002". Aquí se permiten espacios y
no existe una longitud máxima.
• Mientras la caja Definir propiedades de las variables está abierta, es útil también
seleccionar el tipo apropiado de cada variable, seleccionando Tipo; ésta ofrece
una lista de diferentes posibilidades (numérica, fecha, científica, dólares, notación
etc.). Indique el número de decimales en la instrucción Ancho, y pulse clic

258 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 10 - INSTRUCCIONES EN SPSS

en continuar. Dé la Medida (escala, ordinal, nominal) y dé clic en aceptar. A


continuación se observa la caja de definir variable:

LiIIe di v.-... ...... VlrilbleeclUlt J""bo<-j, EIiquM Jn.biedICl


s... 101 .. v.... NiYeldemecida "'JE-IC-ala--iJ~ s.... " T~ JNl.IIlbia:iJ [

V"'Iin~ r-- Ancho:¡r- oea.n..: r


-@ NIade . . . . . . a le ..... o edflelat. Puede allá v..... 1bajo.
R,,~v

1
CeIÑIiMID
r
........
r
........ 1
v...
35.00
EIIIpá
I ~;I
,
2 r 1 42.00 I

3 r 1 65.00
4 1 72,00

J
5 1 75,00
6 1 100,00
7 1 105.00

c==-:u
e 1 120,00
9 1 190.00 ~,
-

[~;.:::'- . ---A
-o-Ir.-v=-d
AcepW Pega! , R~ I CenceIIr I .. I

10.2 Importando archivos de Excel


Si los datos se encuentran almacenados en un archivo de Excel, donde las variables
están por columnas y las observaciones por filas, es posible trasladar estos datos
al editor de datos de SPSS. Para realizar el traslado del archivo se deben seguir los
pasos que se presentan a continuación; ilustrados con las variables; turbiedad y
sólidos suspendidos.
Abra el archivo de Excel que contiene los datos a ser trasladados a SPSS .
.............
o .~:.~=
-....-_- .....
A_a _ .1l,.,Jll.'
,
1_ ·GII._ .. 10 ... " ....... c .... ·.... . . .. ....... o f ":1
1

...
f'KM
04-......... ,
..

_...,5...
i
........ ~
e
71 00
, " te t l ¡ íi ti •

... c:::::J
07• ...,.... ' 12.. '''00
_ .00
8UlO
".00
,.o. '''00
100.0 '0000
,to.O .... 00
MO • .7100
• >0. .....00
,oe. 17800

_........
70. '2000
•••
12&0
1t00
'3)00
'''00
32.

.,.2.•••.
OlOO
..00
123.00
. . . 00
" .00
37.0 7>00
"00

_..... . . ,___...-.___....l..._....l..._.-.í..._¡.I___ ...L..._~_~_~


I .tfl
.. UO • • Otllróll . . ... . a. . . .. a .lil .

ESTAD ISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 259


VIVIANA VARGAS FRANCO

Señale los datos de las variables que se van a procesar y dé clic en el icono de
copiar, en este caso turbiedad y sólidos suspendidos,

.. 1<4 ... I !.-!I


.~
I

~ -
¡- 1- f
+-
+

t
i
'Ir

Inicie el programa SPSS y posiciónese en la primera columna y primera fila, es


decir, la celda Al, Y seleccione Edición> Pegar.

·1
-+¡ ,
, 1 t - t
~
~

i ~ l- :
- 1-' t .~
- ~ ¡-
j-
-
tt
-r- -+----1--+ -¡--i -t-. --i-- t
t -~ -~
-t--- "'.- r-T-Y- -1- ---¡- -
t ~

¡-
L
1-
t
j f" 1-1¡
~- J
~ '.-
l tt -..j:
+ -.
-:
_.
-
t
1 f j: ¡ r
+ ¡
--+-
t

.
+ -.
f - .. -+. f
~
i
.tj
t
; ~
-; ~
- r ~
+
,
j

.t
I ~

f. t . ~ - +-
~

r j • ~ +
~

1 1t.___ t
1"
f
f l-
.---t" -, - t

.ffI

• Los datos de las variables turbiedad y sólidos se copiarán en el editor de datos


de SPSS. Para cambiar el nombre de las variables se debe habilitar la "pestaña";

260 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPfTULO 10 - INSTRUCCIONES EN SPSS

vista de variables, que está ubicada en la parte inferior de la pantalla. También


se puede realizar ubicándose en la fila superior de cada variable.

_..
.....
.....
.......
"" '
'''00
\CIt_
.00
"08

ItSOi!!
__
11000

U).ao
:
).l.
1100
...
.00
14000
"00
114(1)
Inoo ! , ¡
:::! .
.....
j t ~
¡ +
t
i
+
" I
rt
t
.
t

j
t +
+
+
!
¡ i-

•.
¡
t ..
t t f
~;;;;;¡¡!'r-~:::::::::----~=:l:'
t¡ ,.•• 1-
¡ ~ t +
.~
--
Vista de variables

Se desplegará la pantalla que presenta la descripción de variables, el nombre, el


tipo, la longitud, el número de decimales, la etiqueta, valores especiales, valores
perdidos, columnas, el tipo de alineación y el tipo de medida.

Campos que deben ser diligenciados de acuerdo con el contexto del estudio.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 261


VIVIANA VARGAS FRANCO

f
,.,
~
I
I
f
I
+
I
¡

I
,.
f

En el ejemplo específico, el editor de datos en SPSS quedará definido de


la siguiente forma, quedando definidas las variables para el procesamiento
estadístico.

,., ,'" ,¡", ,..- X


""*- Nd6a ....... t....r- ,..., ~ -..... _ _ ,

'*lliIlaJ!!J ~1 ~·I.S · ..II~I.f!I {lrol.E!J_lrtI ~ __ ~_ I


~ -..... .--_.- ':42 - I
~ I lÓIIdOe 1 \W - I ----;;;- I ~ ~ I ~ ---;;;--- ~ r ----;;;- ,.!
I

t:j
t
n
- 3IlO
~I
7~r
\46
SII5 I
I
I
I
I
I I
¡
'!l -- ¡

~
35
65 136
. t----- -
121 IliOi - 1
~
1CX) 1901 i ¡!...
- m""'---2Ii81 I
I
6SO
Dl
978 1 I
!!l * 1 I I
I
~
105 \10

~ - 1$
te
\20
99 t -- f---._-.- - ... _ ...... f------- --_ ..._. ....+--
lA 125 \33
W 85 UO I ,
I \6
,.-
32 53
-_ - --u-r·--
R
I
I
\
I
-85 -
e -,
54
129 ,
---+-_. ..
I _. __ .
-t-
,
...
I
~ 51 1M I j I
2t
iliJ\-.-~ .:--...1
-_._-
11 73
- _.
.-- -- -
1
- .. ~.
" -_~_I
-
I
-
~
I
1
, .:r
262 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPfTULO 10 - INSTRUCCIONES EN SPSS

10.3 Estadísticas descriptivas


Las estadísticas descriptivas que permite calcular directamente SPSS son: media,
suma, desviación estándar, máximo, mínimo, varianza, amplitud (rango), coeficiente
de curtosis, coeficiente de asimetría y error típico de la media. El proceso del cálculo
se ilustrará con el ejemplo de la evaluación de cinco filtros gruesos, presentado en
el capítulo 7.
• En la barra de menú de SPSS seleccione: Analizar>Estadísticos Descriptivos>
Descriptivos ... , en este momento se despliega el cuadro de diálogo
Descriptivos.

c~.. mecIas
Modelo lneaI generlll
Modelos mixtos
Coneledones
R~
lOQlnNl
CIesflc..
RldJcdán de datos
Esealas
PruIbas no perllll6b1ces
Series teqIorlles
~
RespJeStes ~
AnilsIs de valores penIcIos •••

• Seleccione del lado izquierdo del cuadro de diálogo las variables a las cuales desea
calcularles estadísticas descriptivas y páselas alIado derecho (Variables) mediante
el botón que se encuentra en el medio de las dos subventanas. Para seleccionar
las estadísticas descriptivas que desea calcular, dé un dic en Opciones.
_.
-~ - - - - ---- .._------- _. ---- - - --~ ~

~I ~ ~I

~feche
Acepte! I
$llIInIgas3 F>.\lII I
1lIInI~
.leII\IghnJ
Rttttbletll! I
""",gh3 Ctn:ei« I
$""",gcb
~ I

~SJ>

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 263


VIVIANA VARGAS FRANCO

Seleccione las estadísticas descriptivas que desea calcular y dé un clic en


Continuar, volverá al cuadro de diálogo Descriptivos. Una vez esté seguro de
que las variables deseadas están en el lado derecho de la ventana, dé un clic en
Aceptar.

'~~·P~-Pki¡;~~"::, ..",.__..,_ ~
~ Meóa ~ SI.IlIa {anna}
Dispersión
~ Minino
~I
~ Oesv. típica

~ Varaanza ~ Mmoo
AjWa I
~ An1*ud ~ E.T. meáa

~= Orden de "'-Iz1IICi6n
~ Asineb ía

(O LAta de vllrietlles
r AlabéIico
r MediIIIs éIICendenIes
r Meóas d.cendrri1llS

Una vez haya hecho clic en Aceptar se abrirá una nueva ventana, la cual contendrá
el resultado de los procedimientos realizados en la sesión de trabajo. Esta nueva
ventana, que se visualiza, es independiente del editor de datos de SPSS y se llama
Visor SPSS, donde se presentan los resultados de los procesos estadísticos. Los
resultados presentados en la ventana Visor de SPSS se pueden trasladar a un
editor de texto, como Word, mediante el proceso de señalar, copiar y pegar.
1·:..tC!~I I~S l _Vl ~L~!!>.>. _ _ _ _~ •____________ ......_ ._~ ... ~ ....... . ~.,:...,JI¡I'

fII . . . . . .to ......

264 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 10 - INSTRUCCIONES EN SPSS

Con el proceso presentado anteriormente no es posible calcular algunas medidas


descriptivas como la mediana y la moda. A continuación se presenta el procedimiento
para el cálculo de estas estadísticas descriptivas a través de tablas personalizadas.
En la barra de menú de SPSS vaya a Analizar> Tablas> Tablas Personalizadas... ,
en este momento se despliega el cuadro de diálogo Tablas Personalizadas.

_ _ os
r_bóooc.... .
r_ _ ..... ..

~ .....
Corn0iecJ0005

LoghNI
Tata;do , ~~ .. .
Tata; do freo..oerOas. ••

00sl1Ul'
Rll<UxJOO do datos

PruIIbas no paraméblc.as

..
boIrpJraIos
SuperviYenda
~ ~
- . . . de valores " " ' _. ..

En el cuadro de diálogo Tablas Personalizadas encontrará al lado izquierdo la


lista de variables disponibles en la ventana del Editor de datos de SPSS; aliado
derecho (en blanco) se encuentra la ventana donde se realizará el diseño de la
tabla. "Arrastre" al cuadro blanco en el área de columnas, las variables a las
cuales desea calcular las estadísticas descriptivas.

r~ _......
_".. .
~:' ...

~
~ I I_I
' frJwU._

.
, fuh3 111ti11

,:~==.
J
~ ~~
............
" -'-
f---
¡ Sñ _

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 265


VI VI ANA VARGAS FRANCO

Una vez que ha pasado las variables, dé clic en el lado derecho del mouse y en
el menú que se despliega elija Seleccionar todas las variables de columna.
~.;~------- -- .-_. -- ---_.._.- -- ,. ~~:

rat:la I Tilulo.l Eotod;,I=docon• .,I.1 Opc:ion.. 1


VCli"bIes
. ,~ [fIiiI No'l11Ii I!I Cq¡¡p&" lOe-
,cIo lclol cw.,..,.,
, lecho {l • .•.
'nteg,od .
'fl¡o¡3 11g." EJtacktoos de r~ ...
, Igac Ilgac) CeteQOf_ '1 tot_
'.
,t¡tm3IL
Inl:ercm¡bl.Y flM y 't'arWJIes de cdurrna
'¡g,:!{lgh3)
, Igds 1I¡¡dol
5clew""or to<b, la5 v.y\,ble5 de 'lo
:M\,(,IU...-I;t:;¡dasles:"."tl..:, Je<,;It~
' ,emlguJ. .
',emlgac . OeshacerAf\adr ",anlJbMs
' _Ig""'- No so puede rt;)ebr

.-
. _ A>

Cat.,gol iu
Cort.
Copiar
etn+x
ctrI+C

r~--
l'<9flI' etn+_
{vtJIWIe do Eimin. 5..-
~
t-bitrar nOrrOre de VoIY!abIe
<ti Mostrar eti~ de varl.!bje
----~:~~ ~~:!"~~:.~::~_._--_._~;..... ~I
D~nr -------------. E~"li<osde,.......nl -------------~

Nl ~,tMliWcQl: de ,~me. .. PoIIcOl. CoIurmas .,.. r Oeu. P01ieión de cete{)Off."

~ ~eQo , ¡ a ~ YlQtale. Ongon' Yan""', do colJrrna

• Una vez que se han seleccionado las variables en el área de diseño de la tabla,
vaya al cuadro Definir (parte inferior izquierda) y localice el cursor sobre
Estadísticos de resumen y dé un clic; inmediatamente se desplegará la ventana
donde podrá seleccionar las diferentes estadísticas que desea calcular. Sólo debe
buscar y seleccionar de la lista Estadísticos la estadística de preferencia, luego
pasarla al cuadro Visualización mediante la flecha que se encuentra en medio
de las dos subventanas. Cuando haya terminado de seleccionar las estadísticas,
dé un clic en Aplicar a selección, entonces volverá a la ventana de diseño de la
tabla personalizada.
~blC'~ d.:- C''X «I ~,....~~~, ~. I
V",ioble seleccionada: IM úl~ v",iabl.. )
e-tadi,licos; Vtluahzación;
Pe,C<II"II199 .:
.¡z.
Eno'lÍpicode lameóa - . I~'~" I ~~ I'''''''''''''ICO
Detv. típica A. ••

Suma
N total
• I AplicO! ••elección I ApliC<ll ~ lodo Cenor
J~..J

266 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 10 - INSTRUCCIONES EN SPSS

• Finalmente, seleccione Filas en el subcuadro Posición del cuadro Estadísticos


de resumen, y dé un dic en Aceptar.
- - -- ------_. -------_. --
~~r!.~ p.~~~!1~~~~fi ~,~
-~ -- ,.. ,..., ---~

I Tílubal Etladí.~do"""'_1 0_1


TaIJia
lIa_

' do{dol
. I
IIiI NOIft\II I!I e_ .,
¡¡¡<+........
Iñ 14M
'' nle!ilod
lecho!"'...
1IIIo"ld 190t3 IIIIC I~ Iv
' 1ga<311g.. Mido r.."!I''W'VY'I I'N'ln....n IIm'I M ""mM N
'fooc~gocl nnnn..nn
Mldono (1'111'1)'1'", r,'l1'lJ'1'l N HY\.ftl n
" !fTnl{f.
' tg\l{lgh3)
Modo rlflmm rI'lI\I\.nn fYTl'\/Wl mm.m ro

' ip(lgijo] Mioimo """V1f\ rrtrln,nn flf'n1 '"' r.nfY\.tYl no


'ICITlIgo.1.. Mlnmo r.",vY' ~ nnr, ....,..,J'JfI tYlt'l'\.ff'l
"
'-'goc ... M
~

~'~~':' . ü:

Cágoff.:

F ~
M:4I4I""

Oefol¡
-

~ j;1I1d1111C01 d........... ,

SIi Cd;eg",¡", y M'oIeo


Ettadl*ot da M.WHn
PtJoiaón:

Origen V<>rIoI:II .. do ,<+.. .....


. r O....
.
Po' lClon da cotooor f••·
Ptr defecto
S

..
I AcOlIta I~ Rec\otNc. l CoraIa I~
A

Aparecerá la ventana del Visor SPSS con los resultados de la tabla personalizada
disefiada, tal como se presenta a continuación.

+ Tablas personallzactas

".dl.
M.atana
",",GRIIO
13,50
48,00
.......
12,4!i
',00
."'"
11 ,14
,.......
18,00
21 ,19
11,00
'GHl
13,20
9,45
'ODa
10,!;1
14,00
.oo,
.......
.Ini~
" .00
5'0,00
17,00
14.00
115,00
2,00
" ,00
170,00
3,80
17.00
130,00
'.90
'8.00
",00
>,"
18.00
140,00
2,"
Vartanza 5190,08 139,66 342,18 256,57 100,02 228,31
Desvl.clónlipltl 16.(}g 11 .82 18.50 '6.02 10.00 15."
Rango otdlnol 56:J,oo 11:J,OO 186,20 '26,10 70,2iI 1:J7,40

ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 267


VIVIANA VARGAS FRANCO

10.4 Histograma
Para realizar el histograma en SPSS se deben seguir los siguientes pasos:
En la pantalla de Editor de datos de SPSS vaya a Gráficos y seleccione
Histograma .

En el cuadro de diálogo pase la variable, a la que desea construirle el histograma,


al subcuadro Variable (usando la flecha) , señale la opción Mostrar curva normal
y dé un c1ic en Aceptar. En la ventana de salida de SPSS se muestra el histograma,
alIado derecho del gráfico se muestra la desviación típica, la media y el numero
de datos de la variable .

• 'lislogrilITla '!
" " ~I "'l " J ",j"j ~t ~ ~II~
.¡.t ',-:j ¡:.JW ~, ;>,
~ oo ~,
-
[!]• Vm:
1. .
.1 "'- s-. .,~o
~ Iecha a~
~ iga13
I
~ I w
~~ ... ~ PInia - - _ . - - f Ret!#m l I
<t> 1gm.1 l' r lJlalal~~bde: :
D

('..miv l
<i> ¡gu
<i> i!Ps j -=:J ~
~ 1fJIÍOlI3 ~\
~~ ~.;<t."'i\'¿~~';;:''i,"
~ oet#A3 ~ IiMosil.amraNi T... ·I

268 ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPITULO 10 - INSTRUCCIONES EN SPSS

• Para editar el gráfico dé doble clic sobre el gráfico, aparecerá una ventana de
edición llamada Editor de gráficos de SPSS; en esta ventana podrá editar el
nombre de los ejes, el tamaño de la fuente y el número de decimales de los
ejes.

ArthJvo EdId6n v. ~rie DINIIo Series ~ AnIb. GrMlcol ?

!!l C]b llll I .J _1-1 " H · lcol"'l T jAlhlij" l.nJ LlT


120.,-----------,

100

BO

60

40

20

INTEGRAD

• Para editar cualquier elemento del gráfico dé doble clic sobre el componente que
desea modificar, aparecerá el cuadro de diálogo correspondiente. Por ejemplo, si
se desea modificar el eje X, el cuadro de diálogo que aparecerá es llamado Eje
de intervalo, como se muestra en la figura; en este cuadro se puede modificar
el título del eje, los intervalos y el formato de las etiquetas. Si da un clic en
Etiquetas aparecerá un nuevo cuadro de diálogo donde se puede modificar el
número de etiquetas, el tipo, el número de decimales, el factor de escala del eje
y la orientación de las etiquetas.
,-
fje Ge;~leIVa, ~_
Mcnb. --
('" T..... I.. ~
--
Ic..a-I
r~ c..do r
M..oao _ _
dirJJOIat
",p«.~_
c:..c.r. 1
...... 1
~T~~----------------~
~ P.no..... ('" fWngo

eir... decíIn*..
rS _ _ d e _
r
Eíomc>Io
_____123f~

Fottorde -
0rie!Ucí6rc
r-
1 _ :::J

ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 269


VIVIANA VARGAS FRANCO

10.5 Gráfico de frecuencias acumuladas


• En el Editor de datos de SPSS vaya a Gráficos> Interactivos> Histograma, como
se muestra en la figura. Aparecerá el cuadro de diálogo Crear Histograma .

aarr.,....
.......
-".......,
",
!Í'ooao",

LheM~ .•,

"'.....
Dlet;J'nas.c......
ISarrasde.-ror .. ,

• En el eje vertical pase del lado izquierdo la variable Porcentaje ($pct) y en el


eje horizontal pase la variable a la cual desea graficar la ojiva o distribución de
frecuencias acumulada, seleccione en la parte inferior Histograma acumulado,
como se muestra en la figura.
- -
{ I cal 1"~hH~' <tnlr1 X

AtiQnor-IH...ogr.... 1ll\_1 0_1


~ R~o[Scow> , ..... L C_2.o . '
'[eIol
I , p.e"'1
r JI> 1Po",..... ($pcI1
, FGAC[lgaccatl
, FGAS3 [1_3cat1
, [lgos3J
,
,
,
FGOS (lgc:I>caIl
(lgdal
FGH3 [lgI>3caIl
I 1'['_1 1_
, [Id'll V_doI"."..
, FGHM3 (lgIwn3c:.

I
,[I~
, (int_ad1
'",_odoI r.....,.
'11-_1
,

, (,-g0s31

"'----
, (,-gdol
'('~I
, ("•.",.....31

Acepo- ~
R_ _
C"",*-

-
270 ESTAD fsTI CA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
CAPITULO 10 . INSTRUCCIONES EN SPSS

Dé un dic en Aceptar, el gráfico se mostrará en la ventana de salida.

10.6 Gráficos en tres dimensiones


• En el Editor de datos de SPSS vaya a Gráficos>Interactivos>Diagrama de
dispersión , como se muestra en la figura. Aparecerá el cuadro de diálogo Crear
Diagrama de dispersión.

_
~

~_
.....
Al. . ,••
....
-..
""0.....
~
----1
~. . o.c""
..,..dI.-ror ...
"
-_
o.._docojo. .•
a.r.. di.,..,.,
...

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 271


VIVIANA VARGAS FRANCO

Pase las variables que desea graficar del lado izquierdo a cada uno de los cuadros
marcados como ejes, como se muestra en la figura, luego en la pestaña ajuste
verifique que el Método sea Suavizador, en la opción Kernel que por defecto
utiliza la distribución normal; puede elegir también la distribución uniforme.
x

,,--- U:!fB5
" , .., J.J .. , , ~ ... (

_-\_1'_ ......1'_1_1
"c.o_
" ............
,~
1.
(7oolodl
1.c.~)D-

-
_ - - \ ' -......IT_I_I

1- :::1
,~­
,~,

,c.o._.
,~­
, DeO_
,[---
,c.o.v-..
....
v. . . . .~~_________
_ .. _ . - XI
......
X2~
JOF""
11 u.. .. _~ .... een ...................
:::J

'* 1 ~
''000_
,DIOI<b>I
E'"
000 .........
,--- v_. _------
-,
'_-11_
,_ _1
'_1 ~~

,--
~,tb60' ~

,,--
'f......,.._ _ ...
i

--- r """",»

,." ....
r

---- ----- r_

- _ 1_1 c-Io I _
-- -
• Dé un clic en Aceptar y el gráfico en tres dimensiones aparecerá en la ventana
de resultados.

, •. ·u·~u:'''r:)·~ " ... {." ): .... , .. ~ X


_ _ .... _ _ _ I;t_~SoIW5 ........ 1

IOIlg lallll ~!!l.:J .1bl.l~ Al..!.J; - ---


~ .!.I..:.I _
~'
t:llCI
____
~I c;;.-
¡1 ~I
o
I

'-
s-¡
--
0 i0II>-

o
o

~'- = - __
~""
_. ~~ --7'
.... ..
,---

272 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPITULO 10 - INSTRUCCIONES EN SPSS

10.7 Gráficos de barras en tres dimensiones


En el Editor de datos de SPSS vaya a Gráficos>Interactivos>Barras como se
muestra en la figura. Aparecerá el cuadro de diálogo Crear gráfico de barras.

:::: -I _ =~·
...... ..

=~'--.... . ___· . ÑM6.

~_ ~ l -·.¡'ii'---¡¡;;"I----¡,.-I
o..ar- . .....
a.r.,de fITrtII •••

• Señale las variables que desea graficar y páselas alIado izquierdo, a cada uno de
los cuadros marcados como ejes, como se muestra en la figura.
---------------------------------------------
".11',1""
(ff"U r.',l111IJ di' IX

Ao9* "ariIIIIM 10_ cW ",Míco'" 10M.. J a............ 1T,..... , o~ 1

I fP tPor--.t.,¡" ($pct)
lJO!O FGH3 (fgh3cal)
..........

- 1, IrQgID ",,-..J -
V .......... ~ ---

Color; I Al ~ :1
Eodo: I a. ÁpIIf ·1
...-------
V.w.IHcW......, - - - --

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 273


VIVIANA VARGAS FRANCO

Dé un clic en Aceptar y el gráfico en tres dimensiones aparecerá en la ventana


de resultados.

10.8 Gráfico de tallos y hojas


• En el Editor de datos de SPSSvaya aAnalizar>Estadísticos descriptivos>Explorar,
como se muestra en la figura. Aparecerá el cuadro de diálogo Explorar.

-=---
--
_ _ _ JI

COn_
.....,
."'- 7$

-
_ _ dodotoo
deofk. n
!lO
!lO
65
n
n
5.t
69
75
79
E8
69
li6
65
69
!i6
51
81

274 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPiTULO 10 - INSTRUCCIONES EN SPSS

En el cuadro de diálogo, pase las variables al subcuadro Dependientes; en la


opción Mostrar sefiale la subopción Gráficos. Dé un clic en el botón Gráficos y
sefiale Tallo y hojas, como se muestra en la figura .

• l ltpluf<H

[!]
F.clofea;
R_I
--
"-
rx

I
I
_.- j[-
ro

C~ __
N.... delot'..."'.......
ro---.......
P T.... """"
rHto!otJ.....
J
leomru. l
~I
Alu!al
...- 11
Cancellt

. ,I:l
[!] r GI_ con l>IUIboo do .......,¡,jod
Oiopoqo6n por rweI"", pruebe do u......- - - - ,
[!] ro
E_Ioo ..... _
r '"
r_r
¡ M08Ib. - --
E"",,_r.G'lficooj E ,- 1 G,Mioot... 0_
Irr T,wI_.
'1 norm3dor
P"'..- JlOll""'.... ::::J
j
Dé un clic en Aceptar y el gráfico de tallo y hojas para cada variable aparecerá
en la ventana de resultados.

P'GA.S3 Scem-and-Lea:f P lot

Frequeney Su., Laaf

,00 o
33,00 o 2222222333333333
63,00 o 4 4 44444444444444444455555555555
16,00 o 66666666667777777777777
21,00
2,00
o
,
8e8e8lS8IS8i9;9

13 , 00 1 223333
21,00 1144444555S55
18,00 1 66666711
11S,OO 1 8e81S999i
8,00 0111
6,00 233
4,00
7,00
4,00
6,00 011
2,00 2
10,00 lxeremes ( > -33)

Se"", wideh: 10,0


E.ch leaf: 2 cuel") " 1

Al: 17 •
Aii:;

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 275


VIVIANA VARGAS FRANCO

10.9 Gráfico de cajas y alambres


En el Editor de datos de SPSS vaya a Gráficos>Diagramas de cajas.

,.
12

..
111
111

12

..,.
12
54

"-j
.,
0,0

,,»
",Q ~
83,1.
~:[ -:
19

u "747 1 - 55"

"'1 ..56
'.' n.!
:~~ :~1'

• En el cuadro de diálogo Diagramas de caja, elija la opción Simple; en la opción


Los datos del gráfico son, elegir Resúmenes para grupos de casos si va a graficar
una sola variable, y Resúmenes para distintas variables si va a graficar varias
variables; luego dé clic en Definir, pase al sub cuadro Las cajas representan: las
variables que desea graficar y dé un clic en Aceptar y el gráfico aparecerá en la
ventana de resultados de SPSS.

...~-.
I h.U~1 ,1111,' .. d" , -1)" X • lb 1,'111111' ,l. , q' q'"I'I., H, '11111, 111' I',H , ,11 ·,,,11\ 111 X

1M
-·1
Ii!3s. c-I
I
, Ooh
~_od
IoNI

1 10<03
~Iooc ~

~--- ~I
~"""3
~ ...... ¡I' [D
~~
~fQhl
~1gcIo
A.....' . '
c.-I

l
~~
~-'913
~
I

I '"-~-- ~- -.J
('"1'1.......... " " ' . _ ... _ ,*_"'1." QJ [_100._ _ [ 5 ]
~FGAS31fooo3

¡;~"",........-
l. .
. --- <l>FGHN3_¡" • 't --

:::
. :::

276 ESTAOrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPíTULO 10 - INSTRUCCIONES EN SPSS

10.10 Percentiles
En la barra menú de SPSS vaya a Analizar>Tablas>Tablas Personalizadas... ,
en este momento se despliega el cuadro de diálogo Tablas Personalizadas.

c"
Arctlyo Etklón Ver Datos Transformar l:.. Gráftc:os lJ:ldades "'ertana 1

~ IiiIJ~ ~ ~~ ~ ~J r,¡
Informes • ~J
Estadstlcos deSCr1JtIvos • .,
11:<10 ~2
do fecha
COrroarar medas • ConjJntos: de res:¡luest:as mút~les ... h
Modelo ..... a1 general •
~
62.00 03-MAR·91 Tobl.. b...., ... ..
1 Modelos mIXtos • Toblo> Qoneroie,,,.
2 63.00 Q4·MAR·91 CorrelacIOnes •
~
Tabl.. de res¡>.Jest .. .rul~, ...
3 63.00 Q4·MAR·91 Regre<lón • T1IblllS de frecueflClllS. ,.
4 63.00 Q4·MAR·91 Le>;¡Iineal • 1m
5 64.00 05-MAR·91 Clad'lcar •O 5.10 2,80 2,60
6 64.00 05·MAR·91 Reducción d. dotas •O 5.40 3.40 700
7 64.00 05-MAR·91
Escalas •O 6,70 4.10 5,60
8 65.00 ffi-MAR·91
Pruebas no p«Sl'IIétn::-,s •O 17.00 9,60 8,80
ffi-MAR·9 1
5e!1.. temporole< •
9 65.00 S4Jer""-'enda • OO 16.00 7,60 8,50
6)0
10
11
65.00
66.00
ffi-MAR·91
07·MAR-91
R.spuO<t .. .rullples
An~sl s die valor.s percldas •..
•O 15.00
12.00
6,90
4,60 8,!ll
1? ~h nn n7.MJl.Q.Ql n 7htl A An "lq('!

• En el cuadro de diálogo Tablas Personalizadas encontrará al lado izquierdo la


lista de variables disponibles en la ventana del Editor de datos de SPSS; alIado
derecho (en blanco) se encuentra la ventana donde se realizará el diseño de la
tabla. Arrastre al cuadro blanco en el área de columnas las variables a las cuales
desea calcular las estadísticas descriptivas.

;:;~~;I:;;:;;;:';-;~.~~~~Ji1I~I ·
. --I - -'" Opciono.1
--
,"ec. . ..
T<SbI. Tltuloo l Etladr.lCO.d.con~asI.1
VeriabiM IHiiI N~ l!l CoaPo ~ CaQ<OO

11. ...
( ¡jOIUf""" I
,".."ocI. ~

"ga. 3[f" ..
'fgac[f_J
' fr;r.m3 (I. .. ¡
'frN[fr;J13J I
' fgrJ. (lgrJoJ
, •.mg>a3 ...
, •.m~
I".m<twn··
,
~

;
--'"
. ff
Celegorlet
5a. C4Ir:QoIId <
r'-"
.~

[Derri'
~ ~*I.dído:l de lettrne
I [E~r'~M '~~
PO$IC16n: CoI~ ~

IOMI P~on de calegorí


.
Por defecto
¡p Si J;ate.gofl~ y tot'*f Oogen: i. ~

/>.oefiOl 1.. Pegar I ResI<SbIeceIl Cancel .. I A¡.udo


I
h

ESTADISTICA DESCRIPTI VA PARA IN GENIER IA AMBIENTA L CON SPSS 277


VIVIANA VARGAS FRANCO

Una vez que ha pasado las variables, dé clic en el lado derecho del mouse y en
el menú que se despliega, elija Seleccionar todas las variables de columna.

~ I.!,.!:~!~cl.~ 't~~""~~_""_,,_f!' ~I~


hblo !TfU>s1Elladl_ de """oale l Op""..... 1
11• ..,100 .. ~I!!ICqp. ~ ~
,~ 00 1001
~fOCMP...
1I11 Cokrme.
.
I
~¡",eg.d
19<i
~fgas311g Estld'lticm de resl,lYl .... . ,
"ocio
~fgac [f¡¡acJ ,.atev~las '1 h.~.s ..
~tojlm3~. _.1'"'1'1 fin I nnnn" lrtertombio! f"'~ '1 ... ,y¡~es de colanne
~4to3 ~gh31
Seitcclor'l&r todas 1M \f.m~s de ti.l
~fv:I'UgdoJ
~_.,.tJ ..
~I"""'C ~Mo"y_s

~I""r/lm _ ' I~ No se puede ,«te! ~


'"' lb • I....!!!!!II u.
cort...
~ C«egorf""
a rl+X
I Cop .... Orl+'

~
"'~
{vaIitJbIe'*' I
""o«
Elri"l.
Ctrl+v
5up<
• .".¡.¡ I Mostrar l"IOn"II:n de Yaflable
" MO$trar etl!JJeta de va~
~. ~~.:TI~.-!- ... :-~ ... _-'"':":. !",.;".~ ... _. :_ 1i 3
Defri,------..., Eotodlttioo,de_
~¡ ..d l _ ' d . _ .. PooicOl: CciJoM.. r ~ I P""''''d.. ~''og"".,
ti ~oI.egcAl".,..tot.elt:~ Ongon VftlOe, de "'...... o>or d""',o

I Ac:ep'" ! ~ Aestobleceo! e....,.. ! ~

• Cuando se han seleccionado las variables, en el área de disefio de la tabla, diríjase


al cuadro Definir (parte inferior izquierda) y localice el cursor sobre Estadísticos
de resumen y dé un cHc. Se desplegará la ventana donde podrá seleccionar las
diferentes estadísticas que desea calcular. Sólo debe buscar y seleccionar del
cuadro Estadísticos los percentiles que desee calcular, las opciones que aparecen
son percentil 5, 25 , 75 , 95 Y 99, recuerde que la mediana es el percentil 50,
luego páselos al cuadro Visualización. Cuando haya terminado de seleccionar
las estadísticas, dé un clic en Aplicar a todo. Volverá a la ventana de disefio de
la tabla personalizada.

fstd,hs1iros de resumen : VdlidbJes de es, di" 'X

Variable ~ fgac
E$ladralicot: ViaAaizaci6n;
Moda E....tIatic:o EIiauet.
1"1 .. '
~ ; I t"" I
1~
,'l
Percerd05
• 1P!ryri25
f'ercentj
f'ercentj
05
25
...
Rango MIKianI MIKianI ~- ....
Error Hpóco de la me<ia Percenti 75
D~.tr~
,. ._ ~

ApIicer a . .ci6n J Apiear a todo c.n. A¡Iuda

278 ESTADrSTICA D ESCRIPTIVA PARA ING ENIERrA AMBI ENTAL CON SPSS
CAPITULO 10 - INSTRU CCIONES EN SPSS

Finalmente, seleccione Filas en el subcuadro Posición del cuadro Estadísticos


de resumen, dé un clic en Aceptar.

v_ .. l1li-- 18,--.. ~c..

,-,..
'do(dol

''o*"pAL
..
1'"

I
I
Igool
~~".

19tw3 ldl3 lude


I
'Igoolll!l .. _os ryn¡n mm" rftY1.n nrror."
, Igoc Ifgocl
.....,.,'" ...., ....
'1fIrtaJ,-._
'1dl311oJ>31
_25
-..
'I'mJ'
on-n,
...... n
q-rr¡n
"""" '"1"1"
'1gdr1lgdaJ
_1'5 fTIIJ"I..fI ~ rTau1 r<rroI.

,---
,.....,...
'ftlOIIDorl.-
.. ... .
". ,::; .¡:
:
CoIogaoíc

..
~
~
--'01

N.tt-._-¡
Doh - - - - - - - - ¡

t«e!P ar, .
J

• Inmediatamente aparecerá la ventana del visor de SPSS con los resultados de la


tabla personalizada diseñada .

.... '** _ ..... "- ...... ~ ...... 'SfIUa ___ l'


._-
-ilI¡Ulollllll ~ !!I.::J ~ ~-~
- _. -- "_.- ----

--
..!.I.!.J.!l.:.J d!2J ~ ~
I!IT-::-
_1
_..
+ TIIIIIIIs persofMIIzadas

.60S

-
fGOSJ f~ FGfO

_:15
_15
U
-..
.~

'U
5.1
U
11~
71~
)~

,.,..-
U
..
l.f
,~

,."

<t r--l • ¡ ...-..J;

ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 279


VIVIANA VARGAS FRANC O

10.11 Tablas cruzadas o distribución de frecuencias con dos variables


Para realizar el cruce de variables cuantitativas en SPSS es necesario convertir estas
a nuevas variables que son categóricas. Para eso se deben recodificar las variables
a partir de los rangos deseados.
• En el Editor de datos de SPSS vaya a Transformar>Recodificar>En distintas
variables, como se muestra en la figura. Este procedimiento crea una nueva
variable, esta nueva variable será categórica y las categorías corresponderán a
los intervalos escogidos para la variable cuantitativa.

emt... _ _ _ . .•
~ •• T'¡":J •

1Isignar._
~--- ...

I ~I ~-
_; a ca5D5•• •
~""""a
oeor_~ . ....
-.....,wIores ...........

• En el cuadro de diálogo seleccione la variable y pásela al subcuadro Varo


numérica ... Varo de resultado; en el subcuadro Variable de resultado introduzca
el nombre de la nueva variable y la etiqueta, dé un clic en Cambiar. Luego dé
un c1ic en la opción Valores antiguos y nuevos ... , en este momento aparecerá
un cuadro de diálogo, con dos subcuadros: Valor antiguo y Valor nuevo.
• En las diferentes opciones de Rango se introducen los valores correspondientes a
los intervalos en que se va a clasificar la variable cuantitativa y en Valor nuevo/
Valor se asigna la categoría correspondiente, como se muestra en la figura,
luego dé un c1ic en Añadir. Una vez que haya establecido las categorías, dé un
clic en Continuar, inmediatamente regresará al cuadro Recodificar en distintas
variables ; dé un clic en Aceptar. En el Editor de datos de SPSS debe aparecer la
nueva variable creada. Repita este procedimiento con cada una de las variables
cuantitativas que desea cruzar.

280 ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPiTULO 10 - INSTRUCCIONES EN SPSS

. ... : - , l' TI' ' J '

GJ
....

v. ........ v... __

-......--- --
);.

¡;¡;;;;- ....... ,
~
'.~

- --
r_¡-
r _ ...._
I \ ' \, " " "

r ................. _
~
I

---,..... - . .-
r _~
".

c-_ _r-
, \ \

...
. ,. x

¡ - - ¡ - - C!J ....
r "-P ... tS!I -41
~ JI' .. l
1""- ¡-- ~
~ "'41'1,...-H1 ...
.!J r t.._. _ _ _
--,- 1 "-
¡;¡¡--_oI_ r
r T..... _ _ r ",-""""
.. I ...... ,~n" , c.. I ~
- 1- 1 ... '

Si requiere que en la Tabla cruzada generada por SPSS aparezcan los intervalos
y no las categorías, puede ir al Editor de datos de SPSS, y en la pestaña Vista
de variables (parte inferior derecha del editor) seleccionar las nuevas variables
creadas y asignar etiquetas, como se muestra en la figura.

MnQuno
v.ort'!S ~ ..
Oancha
~

Ningwlo 10 Oancha
Ningwlo Ninguno 8 o...ct..
5 Ninguno Ninguno 8 o.ndwo
- ----- Ningwlo Ninguno 8 Oe\'tCha
MnQuno Ninguno 8 o.ndwo
Tm-~'-
2.OO-~r Ningwlo Ninguno 8 Oincha
lOO-wmr MnQuno Ninguno 8 o...ct..
4,OO-"!!5Il-1~
NInguno Ninguno 8 o.ndwo
Ningwlo Ninguno 8 Oatac:No
MnQuno Ninguno 8 ~
lbIMirico 8 2 Ningwlo Ninguno 8 0IIrec:ha
l'bMnco 8 2 Ningwlo Ninguno 8 o.ndwo
lIbnénco B 2 Inlegrldo CatelNíjUño ¡Ninguno B o...ct..
llUnérico B 2 FGAS3 Cllleg Ninguno Ninguno 8 o.ndwo
I'bnérico 8 2 FGHI/D Categ MnQuno Ninguno 8 ~
lbIMirico 8 2 FGH) Categon Ningwlo Ninguno 8 Dancha
tUMnco 8 2 FGAC Categor MnQuno Ninguno 8 Oincha

•.1
l<f;~¡¡¡;c¡ediiiii$A\II$"" "" I/IlI""M ',.-------,1 ~ ... __________________

En la barra de menú de SPSS vaya a Analizar>estadísticos Descriptivos>Tablas


de contingencia. .. , en este momento se despliega el cuadro de diálogo Tablas de
Contingencia. Seleccione del lado izquierdo del cuadro de diálogo, las variables
para las cuales se calculará, una en el subcuadro Filas y otra en Columnas. Si
selecciona más de una variable en alguno de los cuadros, SPSS calculará tablas
cruzadas (2x2) para cada par de variables.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 281


VIVIANA VARGAS FRANCO

, , - - - - - - - - - - - - - - - - - - - - - - - -, r - - - - - -- -- -----------~

• (<l "' ~ 1I~ Ijtl"rn>,f'l"J X


Ta b las de co ntingencia' Most rdl e n IdS c X
~,... 2 .... -1
~_ r:o ¡;¡; ......." - i
~ I ~ , c~1
4> ¡,;a
.... P e+! 1 FlecuenciMl
¡;¡ Observedas
~
-#_íl
::::::, WJ ,.
;::"""""'Riiil• • • c..-I
r
Cancela¡ I
r
Esperadas
~-a¡.) c.. 1 0.1
~ Ayuda I
:="-
~FOHl_'
--.::J r¡----- -' !~~
Porcen.jes- ResidJos,- - - - - - ,
'*""""-". O ¡;¡ FI. r No,,",icodos
r Iob".bpilicoróet-. . . . . . . .
¡;¡ CokJmna r T~icodos
r ~&eIM r ToI" r Ti:lificodos caregijo.
~'·..-I~~

Para obtener porcentajes por columna, fila y total; estadísticos de tablas de


contingencia, gráficos y elegir la fonna en que las categorías se presentan en la
tabla, puede seleccionar alguna de las opciones que aparecen en la parte inferior
del cuadro de diálogo. Dé un clic en Casillas. Elija los Porcentajes que aparecerán
en la tabla cruzada (contingencia) y dé un clic en Continuar, volverá al cuadro
de diálogo Tablas de Contingencia. Luego dé un clic en Aceptar.

t; R'-'~ Ul1drJO~ J V l~O( !,IJI\\ _ 1<" 'x


Arctwa Edd6n Y« lnMrta fa1Mto Ar'Iabar Gráflcot: l..ddedet: 'nntM'lll 1

~1 1iJ 1.I[lI~~.:.:J CJlhl"I~~...!J


"1.1~ .r.:Íl I ~11:}1~ rr
m¡::-
- @l.........,.

...
"d ..
R..... men
Tablas de contingencia

FMItm6n de4 lI(oc. .Nnltnlo de k) .. eal4)1


... ¡

,_""o CatOS
V'lIdo. PercUdas Total
N Porc.nh', N Porcant. I N Portlntll'.
1nt8lJrada C¡tegorlca
.. FOAS3 Coalegorlca 294 I 100,Oc;l, I O I ,0'- mi 100,0'-

Tabla de condnuenda •• ~ CaI\IgOI'ka • fGASJ Careaorb


F0AS3 CatQDOrlca
10-5) lS-l0) (10-20) [20-30) .J
htsg,ada 10-20) Recu9nto O O O
cm gorlca " el; Int&g~d¡
100.0'- ,0'1'0 ,0'1'0 ,0'1'0
CaltcMca
"el; FOA83 Ca1;gOrlCa 12,2'- ,0'- ,0'- ,0'-
120-'0) Recuento 4s 54 3 O
'1> 1Io&lT'ohQf'Oa
Cafegorlc. 45.1'- 51 ,4'- 2,8'1'0 ,0'-
~ de FGAS3 Cateaorlca 849'- 588'1'0 J,8'- 0'1'0 ~
'1 > • ~ "'P<ii-¡flMY*Mb Jld'AnnwwNin
~

El programa estadístico SPSS es uno de los más utilizados para el procesamiento de


datos, tiene amplia utilización en áreas como ciencias experimentales, ciencias de
la salud, ingenierías, finanzas y economía, entre otras. Es uno de los paquetes más
extensos y potentes del mercado debido a su gran variedad y velocidad de procesos
en bases de datos de gran tamaño y la amplia gama de salidas y presentaciones
gráficas que proporciona (Visauta, 2002).

282 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


CAPíTULO

11
Gráficas en Excel

Para la presentación de algunas gráficas del conjunto de datos y de las medidas de


tendencia central y de dispersión, se escogió el software Excel, debido a que SPSS
presenta limitaciones cuando se necesita realizar gráficos personalizados.
En este capítulo se muestran los pasos para construir diversas gráficas utilizadas
en los capítulos anteriores. Las palabras en negrilla son instrucciones de Excel y
deben ser escritas con la misma sintaxis. Los comandos en Excel se pueden escribir
con mayúscula o minúscula; en este caso se escribirán en mayúscula para resaltar
la instrucción.
Para la realización de gráficos se deben introducir los datos de las variables de interés
en la hoja de cálculo con formato numérico. En el presente ejemplo se tienen seis
series de datos que corresponden a valores de turbiedad en diferentes sistemas de
pretratamiento: integrada, FGAS3, FGAC, FGHM3, FGH3 YFGDS3 (Ver ilustración
en la página siguiente).

11.1 Gráfico para la media, desviación estándar y el máximo


• Diríjase a la última fila, donde termina la serie de datos, para calcular la media,
la desviación estándar y el máximo, en cada sistema de filtración gruesa.
Seleccione una casilla donde desee que aparezca el valor de la media, escriba
=PROMEDIO(rango); esta función calculará la media para la serie de datos.

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 283


VIVIANA VARGAS FRANCO

f --tii---- fE~-lrm~~-fG~--TGfm_ -~H3-pfuS3---L----- •


r 62 0;._91 23,0 •• 8,1 9~ .p 3~
.!J
5
63
63
04-",..-91
()4·fw1lit·91
32,0
22,0
~
4,1
8,0
6,1
9)
8,0
.~
4,0
t'.. 5p
4p
6 63 04·Ma,-91 26,0 3..9 5,1 6,8 3$J 3,4
T 6' 05-"'ar-91 25,0 2,6 5,0 5,1 2~ 2~
e 64 ()5.M.,.9, 25,0 3.4 8.6 5,.4 3A 7 JJ
9- 6' 05-_91 84,0 ." _pp 6,7 ' .1 51>
JQ.. 65 06-",..91 6Jo O 12.0 17 P o.-1JJl _,_ ~,6 L B~
" 65 (6.M8f-91 33.0 8.3 15JJ 16,0 7S 8.5
12 65 (B..M.,..91 29.0 7.B 8.9 ISD 6.9 62
13- 66 07.....-91 '5,0 5,5 11 .0 12P ',6 8~
14 66 07-"'0<-91 30,0 'fJ 6,1 7,6 'fJ 3~
15 66 07·M;u·91 26,0 4,4 6.2 3,9 7P 4,4
16 67 (11.",,,-91 ' 8,0 5.0 ;!Jp 8.0 '.0 5,6
17 67 C8-Mw-91 SO,O 13.0 17.0 14,0 5,5 14.0
lB 67 (B-Mar-Sl JEi.Q 9,6 17,0 16,0 6.2 8,8
19 6B 09-"'..-91 31'p 6.9 9.5 9~ _ 6J j 5,,6
:l!L 6B 09-_91 27,0 6.0 12.0 9Jl ' 5 ,1 _ 57
21 69 10-....-91 28.0 5,5 12.0 6,7 , .0 43

,-
22 70 11· ....-91 12'.0 7) 16.0 14)) 5) 62
n 70 11-"'..-91 240.0 7" 22.0 17 P 6)) 8,1
!J!r~~-=zt!í¡il1~J ,

En rango debe escribir la ubicación donde se encuentra la serie de datos a


la que se quiere calcular la media. En el ejemplo, la función específica es:
=PROMEDIO(C3:C299). El rango se puede seleccionar a través de señalar el
conjunto de datos con el "mouse" o ratón, luego presione enter y el resultado de
la fórmula aparecerá en la casilla seleccionada. El proceso se puede copiar, con
la instrucción copiar, señalando la celda donde se quiere calcular el promedio y
la instrucción pegar, tal como se presenta en la siguiente pantalla.

PaI<D/ll1.
A B
'- - OO- - FÉctiA-
;w 191 IIhM91
2!11 192 I I .Ju~91
E ' 192 I I .Ju~91
:BJ 192 1 1 .Ju ~9 1
291 193 12.Ju~9 1
,292 193__ J 2~!,!:91
293 194 13-Ju ~9 1
294 194 13-M91
~ 195 - ""4-PJ?;u~:-';9:;"-1-- -
296 195 14-Ju~9 i
'B1

El cálculo de la desviación estándar se realiza con la instrucción =DESVEST(rango),


donde el rango incluye el conjunto de datos a procesar; en este caso la instrucción
seleccionando el rango queda definida como DESVEST(C3:C296). La instrucción
se copia para las otras columnas generando la siguiente pantalla.

284 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS


CAPITULO 11 • GRÁFICAS EN EXCEL

~
""'"
~ Anal
.....CfNTL :do....'!<3·c296)
A B
--------------
O E F
--------
G H
1 DO FECHA INTEGRADA FGAS3 FGAC FGHM] FGH3 FGosa
lf!l 191 l().Jul-91 40.0 47 13.0 6.5 6 .0 7.5
B 192 11.Ju1.91 34.0 3p 9 .4 7p 5p 6.8
2li9 192 11.Jul-91 56 .0 4S 15 .0 9.5 5S 7 .1
200 192 11.Jul-91 55 .0 4J1 17 .0 10.0 5p 62
291 193 12.Jul-91 66 .0 4A 9,6 9S 6p 710
292 193 12.Ju1-91 26 .0 4.0 6,9 7.5 6.0 6p
293 194 13.Jul-91 26.0 4.0 9J1 7S 5p 6,9
294 194 13.Ju1-91 26 .0 4p 9 J1 6Jl 6.2 6 Jl
295 195 U .Jul-91 21.0 4.' 9p 6.7 6J1 7 .1
296 195 1 ~Jul.91 17 41 6 6 6 .2 6,9
m
2!18 736 12.4 21.7 21.2 13.3 16.5
=deS'lllst¡c3 c296)
3D

El cálculo del valor máximo se realiza a través de la instrucción =MAX(rango).


En este caso la instrucción se convierte en =MAX(C3:C296) y se copia en forma
similar a las anteriores instrucciones, generando las siguientes pantallas:

.. •
,~t! _~..,ort.
'( \.J:'!I..Q.. """ ' A L'!I'AI\. .10:. ..... ..... ... ~ "" . c',," ¡ ¡¡¡¡ dilO. ,.. , ,.:d m".,.... :t&
. """ ' 1'0 .II...L..L ~..:.~ ;;:;t~ , ... _ .. *....If. • -iJ. -, "'- ..JI!'
PEMCDfT1L ~ -maxl'c3
~1 .....G2~ _ F
· F~ I F~
A B . . . . . . . . E ..
1 DO FEC ...... INTEGRADA FGAS3 FGAC FGH\13
7Hl 191 10.Ju1-91 _ 4il1l - 47 130 8.5 6 7Ji
l1.Jú-¡¡¡¡
:~
2BB 192 3,6 94 7 ,6 5 6.0
2BB 192 ll -Ju~91 45 15 9.5 5 71

I :~~~~-r ~t··
29D 192 4.8 17 5
291""' 193 44 9 \ºf- 6
8.2
7A
292 '*1--l. 1~.:-!~'91 26l! 40 6 7:' 6 8.Ii
m 194 13-1u1-91 26l! 4l! 9 7:, 5 6,9
294 194 I 13-Ju1-91 2sl! 4 .6 9.8 8l! 6.2 . 8Jl
295
296.
195
195
l ~ul-91
1 4.Ju~91
;;g 4 .4
41
9.6
8 .6
87
8l!
6.0
62
7.1
6.9
297
29B 73,6 12.4 21.7 21.2 13.3 ~6.5

;.
:rn l _.x 761
<30296)
11.8 18.5 16,0 10,0 I 15.1

I!!I ¡'lk."",Jl tI-.: . 1

'fl Olio cr
....
yi';lI,It.lt ,,ut¡.e,,1>-:l'J'A
".....
n , ,Q11:J . Jl.. ~ ~ LLII¡, i&· ""J-"1.,.,. -
....- ! -
.
Esot.VMI cnort.e

. (" •. EiIH \ E • j 1 ~ 11 f1lI lIS I!I ,..... .~


.... · 1• • l N 1 1. . 1Et.J 3I ¡;;,
=W\X(C3 C296)
.... ,- c: .:,,: - ~ :ti: I.ID · x · ! .
.
_
C3XJ
A B .;·<e o E F G H
1 ()() fECHA lN1EGRAIlA FGAS3 f GAC FGH\13 fGH3 J FGIlS3
7fIl 191 IQ.JuI91 4IJl! 47 13l! 8 ,5 6 7,5
~. 192
2e9 192
J 11..w91
11·JW.!I1
34 11 3.6 9.4 7¡; 5~ 6.11
7,1

I
56l! 4.5 '5.0 9 .S S.5
~ 192 l1.JW.Sl 56l! 4 .0 17.0 10l! Sp 92
291 193 1:¡.,u.91 t 66 l! 44 9.6 9 :' 6.6 7 ,1
~ 193 12-Ju191 2611 411 6)1
193 194 1 ~1 2611 4.0 9 J1
7 .5
7.5
611
Si> t 6.6
6,9
:294 194 lJ..U.91 2611 4.6 9.0 8 Jl 6,2 9Jl
295 195 1~ 21 11 ¡ 4 .4 . 9~ 81 6 .11 . ~ 7,1
296 195 1 ~1 1711 41 8p 8 Jl 62 6,9
:Hl .
2!18 -. 73,6 12,4 2V 21.2 13,3 16.5 1
=.
:Jl1
,O-Uc"'OII_
tolú....
76 1
!BlJl
11 .8
11511
18.5
170l!
16.0
1:JJl!
10.0
81l! !
15.1
141lJl
í

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 285


VIVIANA VARGAS FRANCO

Para realizar la gráfica del promedio, la desviación estándar y el valor máximo,

se activa el icono de Asistente para gráfico ID en la barra de herramientas,

tal como se presenta a continuación.

• Entonces aparece el primero de cuatro cuadros de diálogo en el asistente. En


este paso se debe seleccionar Tipos personalizados, el tipo de gráfico Líneas y
columnas 2. Haga c1ic en Siguiente y aparecerá la ventana datos de origen, tal
como se presenta a continuación:

- .
~1!!Ut.11t:!!~s.:!:"~ ~d~1 (l~r~E) r1flE2.~~¡~
~~ -
!!!:tl!1.L!!12J. I~~!1~:M!<........ "~'"'>... 7<"'''''''''''''''''' l •• ,....,
~. ~
><~ ..~ ~

lJ,l (""""""91' "',00

I lit¡ «ros
lJ,l c"""',en~ I'I)JIO

..
(OOm!s y .."" ",00

"'
~ L..... coiaidos
IáL..... ",dos ejes
~~ I_ k~ n;_
~ L..... sua,;UIdos ....
10,00 ~ r.i"
'CAl' !'CAe

,....
40,(10

f
IIt L..... ycoUmos I
~GP'·,t;DI ....
~ Logorbn<o
----------=--=..
-'i~e:dl"''' de<do
, OOelHcbporelyslJ/llo
I
~;:::::;;:;:::;;;::;::=;::=~
M

Ci!i!:J~
1- ~ ~.br.. :
M&xino

.....-biedadl$E$300: jH$300

. ®¡ruqacb
B6tUo< del ojo de ,atogoñas (Xl: [.....-biedadl$f$1 :$1$1
del '"'l\l'ldo ele de catogorios (lI): --; L:III-'

I en"" 1 ~ISI¡""1. > I~ IC.r<""I~~~

En Datos de origen señale cada una de las series y en Nombre señale la casilla
que contiene el nombre Media y el Máximo; asígnele a cada uno sus Valores
correspondientes y en Rótulos del eje de categorías (x) señale el rango donde se
encuentran los nombres de las variables (pretratamientos).

286 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


C A PITULO 11 - GRÁFICAS EN EXCEL

Rótulos de eje de
Nombre Valores
Categorias (x)

Una vez seleccionados los datos de origen, dé dic en Finalizar.

A B o E F G H I
-¡--FECHA- DO INTEGRADA FGAS3 FGAC FGHM3 FGH3 FGDS3
293 13-Jul·91 194 28.00 4.60 9.ao 8.00 6.20 8.00
294 14-)ul·91 195 21.00 4.40 9.60 8,70 6.ao 7,10
295 U ·Jul·91 195 17 .00 4,10 8,60 8.00 6.20 6,90
29§.
297
medll 73,56 12,.5 21,19 13,26 16,1;1
299 m.,uma 5Ill,00 115.00 130,00 81,00 1~,oo
iiif deSVIaClon 76 11 1602 1000 15,11
301
iif 1eo,00
180.00
303
ii¡- 140.00
120,00

~
305 100,00
iis
307
iia
309
.
&O,()()
SOllO
,()()
20,00
ollO
-+-,",><>no

31ii' FOAS3 FO"", FOH<l FOH3


311
312

Con doble dic sobre las barras se desplegará el cuadro de diálogo Formato
de serie de datos ; dé un dic en la pestaña Barras de error Y; seleccione en
el subcuadro Presentar>Por exceso y en Personalizada:+ señale el rango
donde se encuentran los valores de la desviación estándar para las variables
(pretratamientos ).

ESTADIsTICA DESCRIPTIVA PARA INGENI ERIA AMBIENTA L CON SPSS 287


VIVIANA VARGAS FRANCO

~~·~~d~~~~i~ ·"d-~~--~·t:;~--··-··_~--··"'·~··-~'==>::=::::::=:':' ~I

Tr_

,.f,r-e-s:entar - - · - -------=il
rn . [¡JO
O
AnIb<>s
,cuantíe a. erNlf
~aIar fijo,

O PQrt:Enta)e'
O t ! e S - _:
O finr tt>;co
[5
15
[1
.:
..•
Por "".-. Por doRdo NilQul!>

@ Peo<notMda:+ 1- -ItD$Z! fiil


1 tiQ

~ I c:..nc..er

Dé un clic en Aceptar y el gráfico le mostrará las barras de error que corresponden


a cada una de las desviaciones estándar de las variables (pretratamientos), tal
como se presenta a continuación:

50 ~----------------~----------------------------~ 180
40 150
120
30
90
20
60
10 30
O O
FGAS3 FGAC FGHM3 FGH3

1- Media -+-Máximo I
11.2 Gráfico para media, máximo y mínimo
Calcule la media, el máximo y el mínimo para cada variable, como se indicó en
el procedimiento anterior. Adicionalmente, calcule la distancia desde la media
hasta el valor máximo y la distancia desde el valor mínimo hasta la media para
cada variable. Para esto debe restar al máximo el valor de la media, este valor será
el que aparecerá en el gráfico como el máximo, seguidamente reste a la media el
valor mínimo.

288 ESTAD fsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


CAPrTULO 11 - GRÁFICAS EN EXCEL

1 ____ EtofJ6W\1lpnsoJlU . '[ _ ti x


" 1 ,.. . 1.1 ~ ~I& }~ a. 'o 'l. " ....... '.~ r . l ,-¡
l.\ I Ia .cl~!I
JI'owI -1 10 ·I .L _,L" [-:~ cJat' 1-"'-... .. ........'l" • . .&... . ,i!!!I
I'IRCDITI. _ =DDHIBl
A B e E F G H 1

Haga clic en el icono Asistente para gráficos l O e n la barra de

herramientas,
Seleccione el tipo de gráfico Líneas como se muestra en la figura, dé clic en
Siguiente,

Tilos estándar ~s personalizados

T de Míen:
lIi CoUmas
=: a..rrM
~~~........................~.
~ CiraJar
It¿:Xl'(~)
lIIfII iwas
@ AnIos

*
~~
R.<IdíoI

~ lk6bujas

F~--~ -"""'' '


Pr~ para VflIIlllU8Stra

ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 289


VIVIANA VARGAS FRANCO

• En Rango de datos seleccione el rango donde se encuentran los valores


correspondientes a la media de cada variable; en la pestafia Serie en Rótulos del
eje de categorías (x) , sefiale el rango donde se encuentran los nombres de las
variables (pretratamientos); escriba el nombre de la serie en la casilla Nombre
como se muestra en la figura, dé un clic en Finalizar. El gráfico aparecerá en la
hoja de cálculo.

~;;~~,, - :i'i~l ~~ ~.~


Rangodedltos ~ R.-o:Ict.datos I Sena

1__ *...11 1-""1

a...... dodoloo,
Series:Wt:
1_
®~
oc_
..-....,.. Ji]
- ,.,;¡,¡- - - - - -

.....-0_,...,..

c_
&_dolojodo_(X), ~~l : tH.l

Ic"- I~~~ 1 1~~1 (NIr. I

En el gráfico dé doble clic sobre la línea y se despliega el cuadro de diálogo


Formato de serie de datos; en la pestafia Tramas seleccione la opción Ninguna
para Línea, luego vaya a la pestafia Barra de error y, seleccione en el sub cuadro
Presentar>Ambas; en Personalizada:+ el rango de datos correspondiente a los
valores de la distancia de la media al máximo y en Personalizada:- el rango de
datos para la distancia del valor mínimo a la media. Dé un clic en Aceptar.

!lm!~~!~_,._,'fi

T,_

o~
®~
., Mwoda.
0.....-
0 '"'""
--
n_ 1 Qo 1 .... do .... ' 1_"_1 OoW>do"'_

[!JCh]O
I- .
0- ,0 - - Par.allO Pw *'-ID ......

- 1- - 11 , ~ r-c-i::Jt:--"" <~dtti~

g,Iar, I~.=
- =:.:: ~ .... 1- Olelar"'" ~
c:....1
_.
O~:
-. I • "P>' • OQoMOón-.w,
0 __ E=tI
'-o ~­ 1_ [:JI '"
0_ ® - - : + I-
_1_--
,"

!Si:] 1 .....·11.:.- 1

290 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON spsS


CAPfTULO 11 - GRÁFICAS EN EXCEL

• A continuación aparecerá el gráfico que representa la media, y las líneas del


mínimo y del máximo para cada variable.

180 ~------------------------~
150 '---~---ir-""""----------- __'"
120 -b-~----~~~~--~------+--i
90 +-~----+-~~~--~----~~ l. Medial
60
30 +--+----~-----±---~r_---~~

o ~~----~~--..~----~~~
FGAS3 FGAC FGHM3 FGH3 FGDS3

11.3 Gráfico de series de tiempo


El gráfico de series de tiempo consiste en graficar los valores de la variable en el eje
y versus los intervalos de tiempo en el eje X.

• Haga clic en el icono Asistente para gráficos ID en la barra de

herramientas.
Seleccione el tipo de gráfico XY (Dispersión) y el subtipo de gráfico Dispersión
con puntos de datos conectados por líneas sin marcadores de datos, como se
muestra en la figura, dé un clic en Siguiente; en Rango de datos seleccione el
rango correspondiente a la serie de datos; este rango debe incluir, además, una
variable que serán los valores del eje X, que para el ejemplo es el día de operación
(DO), los datos de turbiedad (eje Y) de las variables (pretratamientos) con sus
respectivos nombres. Dé un clic en Finalizar .

...........,..
,

-......... \, .
.
\

"",..
11 .,. ,~, <Jo J .1 1
t \ • .,. ,

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ --1
, ,. - .. 1M ...

ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 291


VIVIANA VARGAS FRANCO

• En este momento aparecerá en la hoja de cálculo el siguiente gráfico.

180 -
160
140 • F GAS3
120 •
F GAC
100
80 i F GHM
60 I I F GH3
40 111, II I 1 FGDS3
20 - • ;.., Aul/\ 1:. .H I 1
o ~J~~"'~
o 50 100 150 200 250

• Para observar mejor el comportamiento de las series, se puede editar el gráfico


para que la escala del eje Y se muestre en escala logarítmica; además, puede elegir
mostrar la leyenda en la parte inferior del gráfico. Para mostrar la leyenda dé clic
derecho del mouse y en el menú que se despliega elija Opciones de gráfico, en
el cuadro de diálogo en la pestaña Leyenda, seleccione Abajo en Ubicación y
dé un clic en Aceptar.

~Ó"J'.IÁ!;.o(..."';:·,,¡j 'f' u'.-.U


!lII::. "'~ . - ~~.. !D'b _~.
!.J~:'"
~~dt~~tlfli2"":=::===--==-Jl~
~ If-l • • • ~ "1~¡~~.;. ~
,pe ....... ..

,~_·_-JA;·_··-=t~i--'-- ''P1IM''(I'~
(..
4,_
~.'r
~~
\T
VI:.
.........

¡iijj ':
JI' ~
TF

'"
,-~
.:u.
' IlO
W.
'"
O
fF
..
~
. '--t-
: ';"..1.: o" • ¡.~ t _"_'::::~_
I,_:..
n ( •• ' .., ,.. :ni
ir

...."
llf
.tr

H
~_c;c;;;;7'iV
t-
• Para editar el formato de los ejes dé doble clic sobre el eje que necesita editar;
para el eje Yen Escala seleccione la opción Escala logarítmica. Para el eje X,
puede cambiar los valores máximo y mínimo del eje; para este ejemplo el día de
operación mínimo es 50, por lo que podemos escribir en valor mínimo 50 para
que los valores del eje X empiecen en 50 y no en cero.

292 ESTADIsTICA DESCRIPTI VA PARA ING ENI ERIA AMBIEN TAL CON SPSS
CAPiTULO 11 - GRÁFICAS EN EXCEL

-
~·J'!P.!PJI·..:.J·J:;:''-'~''''''H ..... _~.....to:,....._ _ ..~...._~ ~
.
~~~~:.::.=:::::,-f!
~

_:
~dIII ...

........"'.
..... L"""'*-I_IAftociín !
dt v.onas (Y) Aut_
~ Escol.
~doI*de"GOI"CS()O
I ...rte I ""-o I _Ión I

~
/J M<>mo:
-IrQ: 1:00 . ] Mi:ono.: 250
El tridad ........ :
~::::J ~ UnldodmaJ""' :
~ li*Iod me",, :
SO
I.tidodnUI(J"': 1'0 ] lO
E}6o. vafores(X) /J Ejc de """,.. ('1)
gUli..- !
io I g'\2OM: 150 I
lJ'*Iede:s cID ..... .,d6n: !ffrQ&Al4 ...~ i!3 Moltr(l' r~ de trldades: ¡;.dodesdovisuoliz";';": I ~". .~ _ . rótUode..-.dollos

~~i<Ío~"-E€ IJ EsulaPlriab
f'J ..,.,.., Ofden~ D "-"onor_~
r:J ti. de yalorfl 00 0'UZ8 en '1lla mixno (] §e cM wkres (Y) cruI!a en VoIbr Ñ*'O

"'...... I ca-aIor I I
- 1I C........
I

• Una vez editado el gráfico, quedará ~omo se muestra en la siguiente figura.

1~ .-----------------------------------------

100 ~------------------+-------------------

1 +-----~------~--------------r_------------~
50 75 100 125 150 175 200

FGAS3 FGAC FGHM3 FGH3

Excel es una poderosa herramienta para organizar y procesar datos, principalmente


numéricos. La hoja electrónica o de cálculo, estructurada como tabla de filas
y columnas, permite elaborar de forma fácil diversos procesos y gráficas
estadísticas.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 293


CAPiTULO 11 - GRÁFICAS EN EXCEL

-
~·J'!P.!PJI·..:.J·J:;:''-'~''''''H ..... _~.....to:,....._ _ ..~...._~ ~
.
~~~~:.::.=:::::,-f!
~

_:
~dIII ...

........"'.
..... L"""'*-I_IAftociín !
dt v.onas (Y) Aut_
~ Escol.
~doI*de"GOI"CS()O
I ...rte I ""-o I _Ión I

~
/J M<>mo:
-IrQ: 1:00 . ] Mi:ono.: 250
El tridad ........ :
~::::J ~ UnldodmaJ""' :
~ li*Iod me",, :
SO
I.tidodnUI(J"': 1'0 ] lO
E}6o. vafores(X) /J Ejc de """,.. ('1)
gUli..- !
io I g'\2OM: 150 I
lJ'*Iede:s cID ..... .,d6n: !ffrQ&Al4 ...~ i!3 Moltr(l' r~ de trldades: ¡;.dodesdovisuoliz";';": I ~". .~ _ . rótUode..-.dollos

~~i<Ío~"-E€ IJ EsulaPlriab
f'J ..,.,.., Ofden~ D "-"onor_~
r:J ti. de yalorfl 00 0'UZ8 en '1lla mixno (] §e cM wkres (Y) cruI!a en VoIbr Ñ*'O

"'...... I ca-aIor I I
- 1I C........
I

• Una vez editado el gráfico, quedará ~omo se muestra en la siguiente figura.

1~ .-----------------------------------------

100 ~------------------+-------------------

1 +-----~------~--------------r_------------~
50 75 100 125 150 175 200

FGAS3 FGAC FGHM3 FGH3

Excel es una poderosa herramienta para organizar y procesar datos, principalmente


numéricos. La hoja electrónica o de cálculo, estructurada como tabla de filas
y columnas, permite elaborar de forma fácil diversos procesos y gráficas
estadísticas.

ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 293


Bibliografía

Ander-Egg, Ezequiel (1992). Técnicas de Investigación Social. Editorial


HVMANITAS . Buenos Aires.
Behar G. Roberto y Grima, C. Pere (2004).55 respuestas a dudas típicas de estadística.
Ediciones Díaz de Santos S.A. España.
Behar G. Roberto, Yepes A. Mario (1996). Estadística. Un Enfoque Descriptivo.
Universidad del Valle. Facultad de Ingeniería. Departamento de Producción
e Investigación de Operaciones. Colombia.
Berthouex, Paul Mac. Brown, C. Linfield (1994). Statistics for Environmental
Engineers. Lewis Publishers. USA.
Bunge, Mario. La ciencia, su método y su filosofía. Orión Editores Ltda.
Colombia.
Cardona, P., J.N. (1994). Comparación de Diferentes Velocidades de Filtración en
Cinco Alternativas de Pretratamiento para Sistemas de Abastecimiento de
Agua. Tesis de Pregrado. Universidad del Valle. Cali-Colombia.
Cinara - IRC (1989). Proyecto Integrado de Investigación y Demostración en
Filtración Lenta en Arena. Informe final. Versión resumida. Universidad
del Valle. Cali. Colombia.

ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 295


VIV IANA VARGAS FRANCO

Chao, L. Lincoln (1980). Estadística para las Ciencias Administrativas. McGraw-


Hill. México.
Craun, F. Gunther (1993). Safety of Water Desinfection: Balancing Chemical &
Microbial Risks. ILSI Press. Washington D.C.
Davies, L. Owen (1995). Métodos Estadísticos aplicados a la Investigación y a la
Producción. Con especial referencia a la industria química. Aguilar S.A. de
Ediciones. España.
Freund, John E. y Walpole, Roland E. (1990). Estadística Matemática con Aplicaciones.
Cuarta edición. Prentice-Hall Hispanoamericana, S.A. México.
Fernández, Humberto P. (1990). Cómo Investigar. Metodología de la Investigación.
Editorial Espiga Dorada. Bogotá.
Galvis, C., G. (1999). Development and Evaluation ofMultistage Filtration Plants.
An Innovative, Robust and Efficient Water Treatment Technology. Thesis of
Doctor ofPhilosophy (Ph.D.). University ofSurrey, United Kingdom.
Gómez, R. Francisco (1993). Estadística Metodológica. Teoría Completa y Ejercicios
Resueltos y Explicados. Ediciones Fragor. Venezuela.
Iversen, G.T. and Norpoth, H. (1982). Analysis ofVariance. Sage University Paper
series on Quantitative Applications in the Social Sciences. Beverly Hill.
Sage Pubns.
Kuehl, O. Robert (2001). Diseño de Experimentos. Principios estadísticos para el
diseño y análisis de investigaciones. Thompson Learning. México, D. F.
Marín, Rodrigo R. (1992). Estadísticas sobre el recurso agua en Colombia. Ministerio
de Agricultura. Instituto Colombiano de Hidrología, Meteorología y
Adecuación de Tierras. Santafé de Bogotá.
Mason, Robert D., Lind, A. Doglas (1995). Estadística para Administración y
Economía. Alfaomega Grupo Editor, S.A. México. D.F.
Mendenhall, W.; Scheafer L., R.; Wackerly D., D. (1986). Estadística Matemática con
Aplicaciones. Grupo Editorial Iberoamérica. México, D. F.
Milewski, Emil G. (1991). The Essentials of Statistics I. Research and Education
Association. Piscataway, New Yersey. USA.
Mondragón. L.A. (1996). Plan Estratégico del Sector de Agua Potable y Saneamiento
Básico. Diagnóstico y Bases Técnicas para la orientación del Sector.
Conferencia Internacional de Mejoramiento de la Calidad de l Agua.
CINARA. Santiago de Cali.

296 ESTAOlsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS


BIBLlOOGRAFrA

Ostle, Bernard (1992). Estadística Aplicada. Limusa. Grupo Noriega Editores.


México.
Pagano, R. Robert (1999). Estadística para las Ciencias del Comportamiento. Quinta
Edición. Internacional Thomson Editores. México.
Portus G. , L. (2001). Curso Práctico de Estadística. Segunda edición. McGraw Hill.
Colombia.
Quiroga, Francisco. Programa Académico de la Asignatura Disefio de Experimentos.
Universidad del Valle - Cali - Colombia.
Rincón A Luis Alberto (1995). Modelos de Regresión. Desarrollo y aplicación con
computador. Universidad Nacional de Colombia. Sede Palmira.
Sabino, Carlos A. (1989). El Proceso de Investigación. El Cid Editor. Bogotá-
Colombia.
Sabino, Carlos A . (1996). Los Caminos de la Ciencia. Panamericana Editorial.
Bogotá-Colombia.
Spiegel, Murray R. (1970). Teoría y Problemas de Estadística. McGraw-Hill.
México. D.F.
Vargas, F. , V. (1996). Modelo de Decisión para la Selección de un Sistema de
Tratamiento de Agua con Tecnología por Filtración en Múltiples Etapas,
FiME. Tesis de MSc. Universidad del Valle. Cali-Colombia.
Vargas, F., V. (2002). Modelos de Disefio Experimental para la Comparación de Filtros
Gruesos para Potabilización de Agua por Tecnología FiME. Universidad
Nacional de Colombia. Simposio de Estadística. Bogotá-Colombia.
V élez, C. ; Galvis, A ; Duque, A ; Restrepo, G. (2003). La Modelación Matemática en
el Estudio de la Calidad del Agua del Río Cauca. Antecedentes y Perspectivas.
Seminario de Hidro-informática. AGUA2003. Instituto Cinara - Universidad
del Valle. Cartagena de Indias. Colombia.
Villegas G. , Carlos (1981). Fred aprende estadística básica. Editorial Trillas S. A ,
México. México. D.F.
Visauta, V. Bienvenido (2002). Análisis Estadístico con SPSS para Windows.
Volumen 1. Estadística Básica. Segunda edición. McGraw Hill, Espafia.
Vischer, 1. T. (1996). Tendencias en la Política del Sector de Agua y Saneamiento
en Proceso de Cambio. Conferencia Internacional de Mejoramiento de la
Calidad de Agua. CINARA. Universidad del Valle. Santiago de Cali.

ESTAD rSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 297


VIVIANA VARGAS FRANCO

Walpole, E.,R. Y Myers, H., R. (2000). Probabilidad y Estadística. McGraw-Hill.


Cuarta Edición. México. D.F.
WHO (1993). Guidelines for Drinking-Water Quality. Volume 1. Recomendations.
Geneva.
y áfiez, 2001. Conferencia en el marco de la semana de la Estadística. Universidad
del Valle - Cali - Colombia.

Referencias URL
http://escuela.med.puc.cl
htpp://www.uaq.mx/matematicas/estadísticas.html
htpp://www.dagmacali.gov.co
htpp://www.sma.df.gob.mx/simatlpnindicadores.html

298 ESTADrSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


VIVIANA VARGAS FRANCO

Walpole, E.,R. Y Myers, H., R. (2000). Probabilidad y Estadística. McGraw-Hill.


Cuarta Edición. México. D.F.
WHO (1993). Guidelines for Drinking-Water Quality. Volume 1. Recomendations.
Geneva.
y áfiez, 2001. Conferencia en el marco de la semana de la Estadística. Universidad
del Valle - Cali - Colombia.

Referencias URL
http://escuela.med.puc.cl
htpp://www.uaq.mx/matematicas/estadísticas.html
htpp://www.dagmacali.gov.co
htpp://www.sma.df.gob.mx/simatlpnindicadores.html

298 ESTADrSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


'STrr""
9 789583 393198

S-ar putea să vă placă și