Apuntes Estadística

Estadística.
IParte Conceptos Básicos

I CONCEPTOS BÁSICOS DE ESTADÍSTICA
La estadística
Es considerada por algunos autores como “una rama de la matemática que se ocupa de la
recolección, clasificación e interpretación de datos” (Enciclopedia Barda Educativa, 2009, p629).
Y para otros es una ciencia “que se puede considerar como la aplicación del método científico en
el análisis de datos numéricos con el fin de tomar decisiones racionales” (Anderson, Sweeney, y
Williams, 1982. p7) o “una ciencia que estudia la interpretación de datos numéricos” (Garzo, y
García, 1988. p5), sin embargo hay quienes prefieren no encasillarla como una rama o ciencia y la
definen como un arte o un método “conjunto de métodos (metodología) que trata de la
recolección, presentación y agrupación de los datos, así como del análisis, interpretación,
proyección e inferencia de ellos”.(Sote, 2005, p.13)
Aunque existen diferencias en la manera como se puede definir la estadística, todos los autores
coinciden en que “consiste en reunir, recolectar e interpretar datos”. Este aspecto en común se
da precisamente porque la estadística tiene esa finalidad, es decir que se utiliza con ese
propósito.
La estadística es fundamental para la investigación, para el análisis de datos, con el fin de

obtener resultados que sirvan como información para determinadas situaciones. Estos métodos
estadísticos no se limitan, ya que los mismos pueden ser aplicados a cualquier campo que se
desee estudiar. A pesar que la estadística ésta íntimamente relacionada con la matemática
también tiene su utilidad para el ámbito social. Y en base a los estudios que se quieran realizar
se debe hacer una diferenciación entre los tipos de estadísticas.
La estadística tiene su clasificación:
Estadística
Descriptiva Inferencial.
La Estadística Descriptiva “es una gran parte de la estadística que se dedica a analizar y
representar los datos. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la
población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio
calculando una serie de medidas de tendencia central, para ver en qué medida los datos se
agrupan o dispersan en torno a un valor central” (Enciclopedia Libre Wikipedia (2010. Parr.1)).
Berenson y Leving (1982) la definen “como los métodos que implican la recolección, presentación
y caracterización de un conjunto de datos a fin de descubrir en la forma apropiada las diversas
características de ese conjunto de datos” (p10). Y la Estadística Inferencial “es el proceso por el
cual se deducen (infieren) propiedades o características de una población a partir de una muestra
significativa” (Katherine, (2008. Parr.1)) y nuevamente Berenson, y Leving (1982) puntualizan
que son los “métodos que posibilitan la estimación de una característica de una población o la
toma de decisiones concerniente a una población, tan solo con base en los resultados de un
muestreo” (p10).
En resumen se puede decir que la descriptiva como su palabra lo indica se ocupa de la
descripción de un conjunto de observaciones y la inferencial va más allá porque hace
generalizaciones a partir de una muestra.
Asimismo como existe la clasificación de la estadística, también se hallan diferentes Escalas de
Mediciones que son una sucesión de medidas que permiten establecer datos en orden jerárquico.
Estas pueden ser clasificadas de acuerdo a una degradación de las características de las variables
como: La ordinal, la nominal, de intervalo y de razón. La Enciclopedia Libre Wikipedia las define
de la siguiente manera:
 Medida Ordinal: El nivel ordinal describe las variables a lo largo de un continuo sobre el que se
pueden ordenar los valores. En este caso las variables no sólo se asignan a grupos sino que
además pueden establecerse relaciones de mayor que, menor que o igual que, entre los
elementos. En este caso las variables no sólo se asignan a grupos sino que además pueden
establecerse relaciones de mayor que, menor que o igual que, entre los elementos. Las variables
de este tipo además de nombrar se considera el asignar un orden a los datos. Esto implica que un
número de mayor cantidad tiene un más alto grado de atributo medido en comparación con un
número menor, pero las diferencias entre rangos pueden no ser iguales. En esta clasificación, los
números asignados a los objetos representan el orden o rango de las entidades medidas.
 Medida Nominal (también categórica o discreta): El nivel nominal de medición, de la palabra
latina nomún (nombre) describe variables de naturaleza categórica que difieren en calidad más
que en cantidad (Salkind, 1998: 113). Ante las observaciones que se realizan de la realidad, es
posible asignar cada una de ellas exclusivamente a una categoría o grupo. Cada grupo o categoría
se denomina con un nombre o número de forma arbitraria, es decir, que se etiqueta en función
de los deseos o conveniencia del investigador. Este nivel de medición es exclusivamente
cualitativo y sus variables son por lo tanto cualitativas. En este tipo de medidas, se asignan
nombres o etiquetas a los objetos. Esta escala comprende variables categóricas que se identifican
por atributos o cualidades. Las variables de este tipo nombran e identifican distintas categorías
sin seguir un orden. El concepto nominal sugiere su uso que es etiquetar o nombrar. El uso de un
número es para identificar. Un número no tiene mayor valor que otro.
 Medida de Intervalo o Intervalar (Continua) El nivel de intervalo procede del latín interval lun
(espacio entre dos paredes). Este nivel integra las variables que pueden establecer intervalos
iguales entre sus valores. Las variables del nivel de intervalos permiten determinar la diferencia
entre puntos a lo largo del mismo continuo. Las operaciones posibles son todas las de escalas
anteriores, más la suma y la resta.
En este tipo de medida, los números asignados a los objetos tienen todas las características de las
medidas ordinales, y además las diferencias entre medidas representan intervalos equivalentes.
Esto es, las diferencias entre una par arbitrario de medidas puede compararse de manera
significativa. Estas variables nombran, ordenan y presentan igualdad de magnitud.
• Medida de Razón o Racional (Continua) El nivel de razón, cuya denominación procede del latín
ratio (cálculo), integra aquellas variables con intervalos iguales pueden situar un cero absoluto.
Estas variables nombran orden, presentan intervalos iguales y el cero significa ausencia de la
característica. El cero absoluto supone identificar una posición de ausencia total del rasgo o
fenómeno. (2010. Parr9)
Para manejar con total precisión las escalas de medidas es importante tener presente que: “los
datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos
o numéricos… Los datos cuantitativos emplean la escala de medición de intervalo o de razón. Una
variable cualitativa es la que tiene datos cualitativos y una variable cuantitativa contiene datos
cuantitativos”. (Berenson y Leving, 1982, p.7).
Como se puede observar las variables estadísticas pueden ser continuas o discretas. En palabras
de Sote (2005) las discretas “se asocia con que solo puede tomar valores enteros o con todo
aquello que se pueda contar…, pero nunca podrán tomar valores fraccionarios.” Y las continuas
“son las que pueden tomar valores enteros como fraccionarios… Se asocia precisamente con todo
aquello que se pueda medir más que contar” (p.18).
Sumando a todo lo anterior es necesario hablar sobre otros conceptos básicos indispensables para
la realización de cualquier estudio o para la comprensión del tema en general: estos son
Universo, población, muestra, unidad estadística, dato, parámetro, y muestreo.
Población o Universo: se define “como todo conjunto o grupo de individuos, cosas u objetos con
ciertos atributos comunes” (Sote, 2005, p.17), y Quintero citando a Pardo, y Díaz (2002),
proponen la siguiente definición: “Una población (o universo) es un conjunto de elementos
(sujetos, objetos, entidades abstractas, etc.) que poseen una o más características específicas en
común.”(Quintero, Héctor (S.F. Parr5))
Cabe destacar que para Sote, la población equivale al Universo, o en otras palabras nos habla de
ambos bajo una misma conceptualización, cuando otros los definen por separado. El Universo “es
el conjunto de sujetos o elementos que tienen una característica común, observable y
susceptible de ser medida. Población es conjunto de todas las mediciones u observaciones hechas
sobre una o varias de las características de los elementos del universo”. (Quintero, Héctor (S.F.
Parra.6).
Sí se toman en cuenta los 2 conceptos (población y universo) se puede apreciar que son muy
parecidos y la población pasa a hacer esencial ya que de ella se extraen las observaciones hacer
estudiadas.
En el caso de la Muestra, no ocurren tantas discrepancias en su conceptualización, ya que tanto

Sweeney, Anderson y Williams (2005) como otros autores Garzo y García (1988) coinciden en
definirla como “el sub- conjunto de la población” (p.10), porque la muestra es seleccionada o
extraída de la población, pasa hacer una parte de ella.
Además existen otros términos que son incluidos como conceptos básicos en el área de estadística
y que se mencionaran a continuación:
Unidad Estadística “Se llama unidad estadística o individuo a cada uno de los elementos que
componen la población estadística. El individuo es un ente observable que no tiene por qué ser
una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto”. (Conceptos Básicos de
Estadística (S.F. Parr.2))
Dato Estadístico (VARIABLES): Los datos son agrupaciones de cualquier número de observaciones
relacionadas.
Para que se considere un dato estadístico debe tener 2 características:
• Que sean comparables entre sí.

• Que tengan alguna relación. (Carlos Pérez (2008. Parra.18))
Parámetro este término puede tener mucho significados pero en la rama de la estadística se
trata de una “función definida sobre valores numéricos de una población, como la media
aritmética, una proporción o su desviación típica.” (Enciclopedia Libre Wikipedia (2010. Parr.2)).
Muestreo según Castro Gabriela (2006) en su monografía Muestreo Estadístico plasma que “es un
procedimiento por el que se ingresan los valores verdaderos de una población a través de la
experiencia obtenida con una muestra”. (Parr.2)
Este procedimiento arroja resultados que se pueden utilizar para concluir un determinado estudio
X de población, al igual las técnicas selectivas que se requieren para dicho estudio de acuerdo a
lo que se va a evaluar. También permite una reducción considerable de los costos materiales del
estudio, una mayor rapidez en la obtención de la información y el logro de resultados con
máxima calidad. (Castro, Gabriela (2006. Parra.3)).
Entre Las Técnicas de Selección de Muestreo Estadístico tenemos:
Muestreo Aleatorio Simple: Es aquel en que cada elemento de la población tiene la misma
probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es
aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple.
Muestreo Sistemático: Es la elección de una muestra a partir de los elementos de una lista según
un orden determinado, o recorriendo la lista a partir de un número aleatorio determinado.
Muestreo Estratificado: Consiste en la división previa de la población de estudio en grupos o

clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos
estratos se le asignaría una cuota que determinaría el número de miembros del mismo que
compondrán la muestra.
Muestreo por Conglomerados: Cuando la población se encuentra dividida, de manera natural, en

grupos que se suponen que contienen toda la variabilidad de la población, es decir, la
representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de
estos grupos o conglomerados para la realización del estudio.
Publicado por Diana Angulo en 13:00
Enviar por correo electrónico Escribe un blogCompartir con TwitterCompartir con
FacebookCompartir en Pinterest
Estadistica. IIParte Representación de Datos

II REPRESENTACIÓN Y ORGANIZACIÓN DE DATOS
Teniendo especificados los conceptos esenciales (ya mencionados) a la hora de un estudio

estadístico, cabe resaltar que partiendo de ellos y aplicando los métodos adecuados la
información allí obtenida se platea de manera resumida y para que esto suceda se utilizan las
llamadas Tablas de Distribución de Frecuencias (frecuencia absoluta, frecuencia relativa,
frecuencia porcentual…) que bien podría ser para datos agrupados o no, así como los diversos
gráficos estadísticos los cuales ayudan a que los resultados puedan interpretarse y sean
fácilmente entendibles.
Frecuencias. Tipos de Frecuencias.
Frecuencia simple (fi): número de veces que se repite un dato en una distribución o en un
conjunto de observaciones.
Frecuencia acumulada (Fi): representa la suma de cada una de las frecuencias simples.
Frecuencia relativa (ni): es el resultado de dividir cada frecuencia absoluta entre el número el
total de datos observados. Al final de la suma este dará 1.
Si se trabaja con datos agrupados su denominación es diferente puesto que se trabajaría con
intervalos. Se expresa así:
• Frecuencia absoluta del intervalo.
• Frecuencia relativa del intervalo.
• Frecuencia acumulada del intervalo.
Cuando se habla de datos no agrupados se hace alusión a los datos que se encuentran colocados
uno a uno, sin agrupar y por lo general se empieza por el más pequeño.
Veamos en el cuadro los conceptos definidos:

Tabla con un grupo de edades
9 20 23 22
32 30 24 25
18 20 33 24
18 20 34 22
24 22 18 19
EDADES FRECUENCIA SIMPLE FRECUENCIA ACUMULADA FRECUENCIA RELATIVA
18 3 3 0.12
19 3 6 0.12
20 4 10 0.16
22 5 15 0.2
23 5 20 0.2
24 5 25 0.2
TOTAL 1
TABLA DE FRECUENCIAS DE LAS EDADES
Las Tablas de Distribución de Frecuencias o las conocidas también como Distribución de

Frecuencia, se utilizan para presentar datos observados en los estudios que se realizan,
“estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones
correspondientes a cada clase” (Ávila, Héctor, (2006. Parra. 3). Según Ávila Héctor (2006) utilizar
este sistema de ordenación ayudará a facilitar “la realización de un mejor análisis e
interpretación de las características que describen y que no son evidentes en el conjunto de
datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de
investigación” (parra.3)
Estas Tablas se clasifican en simple y de entrada doble:
• Tablas de Clasificación Simple:
“Es una tabla que se construye con base en los siguientes datos: clase o variable (valores
numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia”
(Ávila, Héctor, (2006. Parra. 4)
• Tablas de Clasificación de Doble Entrada
Llamadas también Tablas de Contingencia son tablas de “datos referentes a dos variables,
formada, en las cabeceras de las filas, por las categorías o valores de una variable y en las de las
columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o número de
elementos que reúnen a la vez las dos categorías o valores de las dos variables que se cruzan en
cada casilla”. (Edelmira (2009. Parra.1))
A partir de las Tablas de Distribución se puede utilizar el otro sistema de ordenamiento como son
los Gráficos Estadísticos, estos ayudan a facilitar “la lectura e interpretación de las variables
medidas”. (Ávila, Héctor (2006. Parra. 12)
• Diagrama de Barras Simples y Compuestas
También llamadas Diagrama o Gráfico de barras “es una representación gráfica de una tabla de
frecuencias o frecuencias relativas” (el eje de las Y o mejor conocido como el de las ordenadas)
“y las diversas clases de datos son asignados sobre el otro de los ejes” (en el eje de las X, el de
las abscisas). (Cristensen (1990. pág.35)
“Dispositivo para presentar los datos que han sido resumidos en una distribución de frecuencias,
distribución de frecuencias relativas o frecuencias porcentuales…”
Ambas conceptualizaciones nos hablan sobre lo qué es un gráfico de barras, sin embargo la 1era
definición señala detalles importantes de donde ubicar los datos al momento de la construcción
de una gráfica, por el contrario la 2da definición se ajusta más a los que se señalaba en la parte
anterior con respecto a que las gráficas son esenciales para presentar los datos de manera
resumida.
Asimismo las gráficas de barras pueden ser simples o compuestas de la diferencia entre ellas se
encuentra en que la última incluye en el mismo diagrama dos o más variables que en el caso de la
simple (la primera).
• Diagrama de Sectores Circulares:
Estadistica. III. Estadistica Descriptiva

III. ESTADÍSTICA DESCRIPTIVA
En la estadística descriptiva podemos apreciar diferentes medidas que se utilizan a la hora de

realizar una investigación científica, entre las cuales tenemos: las medidas de posición central,
las medidas de posición no central, la variabilidad y las medidas de forma, que a continuación se
presentará su utilidad y respectiva formula.
Las medidas de posición son: la moda, la mediana y la media aritmética.
La moda viene hacer el dato que se repite el mayor número de veces en una distribución o el que
tiene mayor frecuencia. La mediana es el dato que ocupa una posición central, el que se
encuentra en la mitad. Y la media aritmética, también llamada por otros como el promedio se
podría definir como el resultado obtenido de la suma de los datos y dividido entre el mismo
número de ellos.
Aunque cabe resaltar que Giménez incluye dentro de estas medidas de tendencia central a el
centro recorrido. Él mismo lo señala de esta manera “el centro recorrido es el punto medio de la
distribución. Es una medida estrictamente posicional” (p.406), esta es una clasificación muy
particular, además la mayoría de los autores nos mencionan al anterior bajo el nombre de punto
medio.
Para tener otro punto de vista la Enciclopedia Aula-Matemática (1998) menciona a las medidas de
tendencia central de la siguiente manera: “las más importantes son seis: moda, media, mediana,
media geométrica, media armónica, y media cuadrática (P.331)
Recibe el nombre de moda el valor que presenta mayor frecuencia absoluta en el conjunto de las
observaciones. La mediana el valor que ocupa el lugar central de todas las observaciones
realizadas y en el caso de la media aritmética de una distribución de datos, el cociente de la
suma de los valores de los datos entre el número de los mismos (Enciclopedia Aula Matemática
(1998. P.332))
Con esto se puede apreciar que se toman en cuenta seis medidas de posición cuando Giménez
solo hace referencia a cuatro (media, mediana, moda y centro recorrido).
Se puede decir que La moda, la media aritmética y la mediana son las tres medidas más
utilizadas a la hora de trabajar con datos estadísticos, por ende son las más comunes, es
importante agregar que estas tres tienen aspectos muy específicos y esenciales a la hora de su
utilización. En el caso de la moda se puede dar que en una distribución no se encuentre un dato
con mayor frecuencia o por el contrario se presenten dos o más datos que coincidan con la misma
frecuencia (dos modas seria bimodal. Tres modas: trimodal y así sucesivamente). Con la mediana
ocurre que si el número de datos es un número impar, el dato que se encuentre en el centro será
fácilmente la mediana y si no se tendrá que buscar el valor que se ubique en el medio de los
datos centrales para poder decir que ese es la mediana. Para esto se emplean formulas que
ayudan en el procedimiento.
Sobre todo habría que tener presente que cuando se trabaja con las tres últimas ya mencionadas
(moda, mediana y media) su cálculo será diferente si se trata de datos agrupados o no y el mejor
ejemplo para esto es la media aritmética.
Gráfica 8: Formulas de Medidas Posición central

Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
MODA MEDIANA
es la semisuma de las frecuencias absolutas.
Li-1 es el límite inferior de la clase donde se encuentra .
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
MEDIA ARITMÉTICA
Tomada de: http://www.vitutor.net/1/estadistica.html
A lo anterior debemos agregar Las Medidas de Posición no Central, a manera de estudiar con
mayor profundidad los datos.
De esto Giménez nos comenta que “el conocimiento de las medidas de posición de una
distribución de frecuencias no es suficiente para tener una idea apropiada de la distribución. Es
necesario saber como se reparten los datos alrededor de la medida de posición que se haya
calculado” (p.409).
Las medidas de no posición o de posición no central son aquellas que se pueden expresar en
porcentajes e indican en cuantas partes se puede dividir una distribución. La idea de estas
medidas es ordenar los datos de tal manera que queden distribuidos en un número de partes
iguales. Entre estas medidas tenemos a los cuantiles y estos a su vez se dividen en: cuartiles,
deciles, percentiles y quintiles. Cada uno de ellos se denota con las siguientes letras
respectivamente: (Q), (D), (P), y (K).
De lo anterior podría expresarse de esta manera en forma resumida:

Cuartiles: dividen en cuatro partes 25%
Percentiles: dividen en 100 partes 1%
Deciles: dividen en 10 partes 10%
Quintiles: dividen en 5 partes 20%
Para sustentar y dar una explicación diferente, veremos como La Enciclopedia Libre Wikipedia
(2010) define las medidas de posición no central:
Las medidas de posición no central permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre las medidas de posición no central más
importantes están los cuantiles que son aquellos valores de la variable, que ordenados de menor
a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el
mismo número de frecuencia.
• Los Cuartiles, que dividen a la distribución en cuatro partes;

• Los Quintiles, que dividen a la distribución en cinco partes;
• Los Deciles, que dividen a la distribución en diez partes;
• Los Percentiles, que dividen a la distribución en cien partes.
Cuartiles
Dados una serie de valores X1,X2,X3 ...Xn ordenados en forma creciente, definimos:
• Primer cuartil (Q1) como la mediana de la primera mitad de valores;
• Segundo cuartil (Q2) como la propia mediana de la serie;
• Tercer cuartil (Q3) como la mediana de la segunda mitad de valores.
La diferencia entre el tercer cuartil y el primero se conoce como rango intercuartil.
En estadística descriptiva los Cuartiles son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes porcentualmente iguales.
Quintiles
• Se representan con la letra K.
• Es el primer quintil. Separa a la muestra dejando el 20% de los datos a su izquierda.
• Es el segundo quintil. Es el valor que indica que el 40% de los datos son menores.
• Es el tercer quintil. Indica que el 60% de los datos son menores que él.
• Es el cuarto quintil. Separa al 80% de los datos del otro 20%.
Percentiles
Es cada uno de los 99 segmentos que tomamos al dividir una muestra o un conjunto de elementos
ordenados por cien partes de igual frecuencia.
• Se representan con la letra P.
• Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores
menores que él y el 100-i % restante son mayores.
Los cuantiles al igual que las medidas de posición a la hora de calcularlas dependerán de si los
datos se encuentran agrupadas o no.
Dentro de la estadística descriptiva también encontramos a Las Medidas de Variabilidad o de

Dispersión. Aquí tenemos al rango, varianza, desviación típica y coeficiente de variación. Sin
embargo, estas pueden ser llamadas de forma distinta dependiendo del o los autores. En esencia
las definiciones suelen ser la misma, muy a pesar de que el término que se utilice para
nombrarlas sea diferente. Por ejemplo:
Rango: (o recorrido estadístico) al intervalo de menor tamaño que contiene a los datos; es
calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con
los datos. Permite obtener una idea de la dispersión de los datos.
R = x(k) − x(1)
Amplitud: mide la distancia que separa a la observación de mayor valor de la de menor valor en
el conjunto de observaciones. (Enciclopedia libre Wikipedia (2010.Pág.1).
Giménez no nos habla de rango y tampoco de amplitud sino de Recorrido y al respecto afirma
“esta medida no proporciona mucha información pero da una idea de la magnitud de la
dispersión”. (p. 411). Asimismo coincide con Navarro al hablar de variancia y no varianza.
Variancia: Según la Academia y según Fernando Navarro, parece pues que hay que decir y escribir
variancia cuando nos referimos a la media aritmética de los cuadrados de las desviaciones
respecto de la media (en inglés y en francés, variance).
Varianza: (que suele representarse como σ2) de una variable aleatoria es una medida de su
dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a
su media.
Desviación tipo: es la raíz cuadrada de la varianza.
Desviación estándar: es una medida de centralización o dispersión para variables de razón (ratio
o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza.
Coeficiente de variación: división de la desviación tipo y la media aritmética, multiplicado por

100, ya que se expresa en porcentaje.
En relación al Gráfico Circular, diagrama de sectores o de pastel según dependiendo el nombre
que el autor le dé, se trata en esencia de lo mismo, un círculo dividido en sectores y cada uno de
ellos representa las frecuencias bien sea absolutas o relativas.
“Consiste en dividir un círculo en tantos sectores como valores de la variable. La amplitud de
cada sector debe ser proporcional a la frecuencia del valor correspondiente” (Enciclopedia Libre
Wikipedia (2010. Parra. 4))
• Histograma:
“Es una representación gráfica de una tabla de frecuencias, este muestra datos cuantitativos. Los
intervalos de clases, que pueden ser o no pueden ser iguales, están marcados sobre el eje
horizontal. Las frecuencias relativos son marcados sobre el eje vertical”.
Según Gutiérrez (1998) “El histograma “... es una gráfica de barras que permite describir el
comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión””
(Ávila, Héctor (2006. Parra.13)).
• En base a esto, del histograma se origina el Polígono de Frecuencia porque “es una forma
geométrica obtenida de segmentos de recta que une los puntos medios de intervalo de clase
adyacentes en un histograma”
• OJIVA PORCENTUAL
Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual
de cada valor en una distribución de frecuencias.
Estos son algunos de los gráficos más utilizados, existen muchos más que también se pueden
emplear. Como pudimos apreciar gracias a Howard B. que el uso de un gráfico va a depender de
se trabaja con datos cuantitativos o cualitativos, esto es importante destacarlo ya que es unos de
los pocos autores que hacen la aclaración.
Por otra parte al momento de hacer una investigación o si se quiere un estudio detallado no solo
la estadística nos proporciona el uso de las tablas y gráficos, pues también los datos los podemos
encontrar en formas o expresiones numéricas. En este caso se puede hablar de medidas de
posición central o mejor conocida como medidas de tendencia central como lo menciona
Giménez “…porque indican hacia que posición tienen tendencia los datos a agruparse” (p.405).
Hay que resaltar que Sote (2005) en su libro hace una clasificación de las medidas de dispersión
de la siguiente manera: medidas de dispersión absoluta (varianza y desviación típica) y medidas
de dispersión relativas. De esto podría decirse que:
Desde punto de vista la Enciclopedia Aula (1998) nos aclara que entre las medidas de dispersión
“las más características son: amplitud, desviación media, desviación tipo, varianza, coeficiente
de variación, coeficiente de disimetría, cuartilas, decilas y centilas”. (p333).
Aquí podemos apreciar que aparecen más medidas de las que anteriormente habíamos
mencionado y además incluye entre ellas a las cuartilas, decilas y centilas, lo cual es muy
inusual. Asimismo pocos autores consideran a la desviación media a la hora de enumerar las
medidas de variabilidad, siendo la enciclopedia citada una de las pocas, si comparamos con los
demás textos que se encuentran en la bibliografía. Aunque Sweeney y otros, aclaran lo de la
desviación al momento de definir la varianza. Este aspecto es prácticamente obligatorio porque
no podrá encontrase esta ultima si no se calcula antes las desviaciones. También estos autores
son claros a la hora de hablar de la designación de las formulas:
en la mayoría de las aplicaciones estadísticas los datos analizados son una muestra. Cuando
calculamos la varianza de la muestra, nos interesa utilizarla para estimar la varianza de la
población. Por este motivo, la varianza muestral o varianza de la muestra, representada por s, se
define como sigue:
Esto es importante ya que en casos se emplea la formula si tomar en cuenta si se está trabajando
con muestra o población.
Cabe acotar que estas medias tienen algo característico y es que para calcularse todas primero se
debe empezar por determinar las desviaciones (diferencia entre el valor y la media), para luego
si proceder con el cálculo de la varianza, teniendo este resultado se podrá seguir con la
desviación tipo y para finalizar con el coeficiente de variación . Por ende cada una de estas
medidas depende de la otra para obtenerse.
También encontramos las Medidas de Forma que “Son indicadores estadísticos que permiten
identificar si una distribución de frecuencia presenta uniformidad” (Quesada, Víctor y Vergara,
Juan (2007. Cap. 7 Parra.3)), en base a esto, las medidas de forma permite evidenciar si una
distribución frecuencia o tablas de frecuencia poseen características especiales como “simetría,
asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo
particular de distribución” (Quesada, Víctor y Vergara, Juan (2007. Cap. 7Parra.1))
Estas medidas son importantes para determinar el comportamiento de los datos y establecer que
herramientas se deben utilizar para el análisis estadístico de una investigación.
Medidas de Forma
Coeficiente de Asimetría:
Distribución de Simetría: Simetría proviene del griego: Sun= CON y Metrón= MEDIDA, esto sugiere
a la idea que una persona, objeto, figura o cosa presente medida, armonía, belleza,
proporcionalidad, con respecto a un plano de referencia, que en estadística el patrón de
referencia es la ordenada máxima correspondiente al Polígono de Frecuencia Absolutas que
resulta de graficar una Distribución de Frecuencias.
Según los autores Quesada y Vergara (2007) muestran que:

Al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son
iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados
es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).
Distribución Uniforme: Las frecuencias tienen todas las mismas alturas.
Distribución Triangular: Los datos se distribuyen dando forma a un triangulo.
Distribución Binomial Simétrica: Presenta simetría con dos modas. (Cap.7.1.1)
Distribución de Asimetría: los indicadores de Asimetría permiten conocer el grado de distorsión
de un polígono de Frecuencia Absoluta, al observar hacia donde se encuentran mayormente
ubicados los datos de una serie.
Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al
dividir la distribución de frecuencia por la mediana.
Distribución Sesgada hacia la Izquierda: Los datos se concentran hacia la izquierda de la
distribución.
Distribución Sesgada hacia la Derecha: Los datos se concentran hacia la derecha de la
distribución.
Distribución asimétrica: No presenta uniformidad en la distribución de los datos. (Quesada y
Vergara (2007. Cap. 7.1.2))
Como podemos observar en la imagen la Distribución Simétrica en sus áreas son iguales, en la
Distribución sesgada a la derecha es porque los datos se concentra a la derecha y por ende, es
positiva y en la distribución sesgada a la izquierda se concentra en el área izquierda y será
negativo.
Kurtosis (Curtosis) o Apuntamiento:

“Es la medida que se hace del grado de pico”… “La curvas tienen un mismo rango o intervalo, es
decir podemos decir que tienen la misma dispersión, ambas son simétricas, sin embargo no tienen
el mismo grado de Curtosis” (Blog spot de Estadística (2010. Parra.1))
De esta manera este concepto nos da la idea que Kurtosis es el grado de apuntamiento o picudez
que presenta una curva simétrica (Polígonos de Frecuencias Absoluta).
La Kurtosis es el cuarto recurso para describir una Distribución de Frecuencias (las tres anteriores
son: los promedios, la dispersión o variabilidad y la asimetría), usándose para mostrar el grado de
concentración (curva con gran apuntamiento de los datos o dispersos o descentralizados (curva
achatada). (Sote, Armando (2005. Pag.128)).
Al igual que la Asimetría, la Kurtosis posee diferentes tipos según como los datos que se repiten
se encuentran ubicados en la tendencia central o la frecuencia con la que dichos valores se
repiten, estos son: mesocurtica, platicurticas y Leptacurtica.
En el Blog Estadístico (2010) lo define de la siguiente manera:

La palabra MESOCURTICA proviene del griego MESO= mitad y la palabra LECTOCURTICA el
gramema lecto de origen griego= esbelto y por su parte la palabra PLATICURTICA se compone de
platos, también palabra de origen griego cuyo significado es ancho o pleno.
En una mesocurtosis observamos que las frecuencias pueden ser simétricas, es decir que hay
datos que se repiten con mayor frecuencia pero que los datos extremos su disminución es gradual
y equitativa. No así cuando observamos una curva platicurticas es indicativo de que la frecuencia
entre todos los datos es muy similar. (Parra.5)
Lo dicho anteriormente lo podemos observar en la gráfica que se presenta a continuación. De

esta manera podemos observar mejor el comportamiento de los distintos valores dentro de la
estadística.
lunes, 31 de enero de 2011
Estadística IV Parte. Analisis de Correlación Lineal Y Regresión Simple

IV- ANALISIS DE CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
Análisis de Correlación y Regresión Lineal Simple
En los procedimientos tanto de correlación como de regresión a pesar que se calculan de manera
diferente o que responden a diferentes formulas tienen un punto en común y es que en ambos se
emplean con la finalidad de conocer la relación que se puede dar entre dos o más variables. Por
ello aquí se debe tomar en cuenta y tener muy claro los diferentes tipos de variables.
Las variables como su nombre lo indican van hacer lo que va a variar, lo que se va a someter a
estudio.
Variables dependientes: Son las variables de respuesta que se observan en el estudio y que
podrían estar influenciadas por los valores de las variables independientes. En la página
electrónica Enciclopedia libre 2010 cita a Hayman (1974.Pág, 69) la define como propiedad o
característica que se trata de cambiar mediante la manipulación de la variable independiente. La
variable dependiente es el factor que es observado y medido para determinar el efecto de la
variable independiente.
Variables independientes: aquélla que es manipulada por el investigador en un experimento con

el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. A la variable
independiente también se la conoce como variable explicativa, y mientras que a la variable
dependiente se la conoce como variable explicada.
Aunque para otros autores como Sote (2005) existen:
De acuerdo al número de variables será:
CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN
Coeficiente de Correlación
Después de describir las diferentes variables, hablaremos del Coeficiente de Correlación, puesto
que el coeficiente va hacer un valor que indicara la relación existente entre dos variables.
Para Sote (2005), el coeficiente de correlación (r) se define como un “indicador estadístico que
nos permite conocer el grado de relación, asociación o dependencia que pueda existir entre dos o
más variables”. (p. 360)
Y agrega lo siguiente:
Clasificación de la correlación: de acuerdo al número de variables consideradas en el estudio.
Correlación simple: cuando estudia la posible relación entre dos variables.
Correlación múltiple: cuando analiza la asociación o dependencia de más de dos variables.
Correlación rectilínea o lineal: cuando los datos presenten una tendencia de línea recta.
Correlación curvilínea: la variable presenta una tendencia distinta a la línea recta. (p.233)
Bajo otro punto de vista, veamos cómo se clasifica la correlación.
TIPOS DE CORRELACIÓN
La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas

y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
1. Correlación simple: se estudia la dependencia únicamente entre dos variables
2. Correlación múltiple: se estudia la dependencia entre más de 2 variables
3. Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en
el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
1. Relación directa entre las variables: un aumento en la variable independiente implica un
aumento en la variable dependiente.
2. Relación inversa entre las variables: un aumento en la variable independiente implica una
disminución en la variable dependiente. (Aula Fácil (S/F. Parra. 1))
Esta clasificación es muy parecida a la que hace Sote, sin embargo en esta última se incluye la
correlación parcial. Aquí es importante mencionar que el autor (Sote) nos habla de clasificación y
además hace alusión a los tipos de correlación, haciendo una diferenciación entre lo que es la
clasificación y los tipos, lo cual no lo hace el anterior, pues al hablar de tipos de correlación
menciona a la clasificación.
Tipos de correlación: correlación positiva, correlación negativa e incorrelación.
Los tipos de correlación que pueden presentarse son:
Correlación positiva o directamente proporcional r = (+).

Nos indica que al modificarse en promedio una variable en un sentido, la otra lo hace en la misma
dirección….
Correlación negativa o inversamente proporcional r = (-).

Nos muestra que al cambiar una variable en una determinada dirección (en promedio), la otra lo
hace en sentido contrario u opuesto….
Incorrelación r = 0
Cuando la obtención de dicho indicador “r” sea exactamente igual a cero, se dice que no existe
alguna relación, asociación o dependencia entre las variables estudiadas, siendo por tanto ellas,
variables correlacionadas o faltes de alguna dependencia lineal. (Sote (2005. Pág. 239-240)).
Ahora bien, entre los coeficientes de correlación tenemos:
El coeficiente de correlación de Pearson y el de Spearman.

Sustentando esto:
Coeficientes de correlación:
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los
datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por
Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus
desviaciones estándar. Otros coeficientes son:
• Coeficiente de correlación de Spearman
• Correlación canónica.
Coeficiente de correlación de Pearson

En estadística, el coeficiente de correlación de Pearson es un índice que mide la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.
El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente
donde σXY es la covarianza de (X,Y) y σX y σY las desviaciones típicas de las distribuciones

marginales. (Enciclopedia Libre Wikipedia (2010). Parra.1)).
Coeficiente de correlación de Spearman
En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación

(la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los
datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos
son pocos, se puede ignorar tal circunstancia
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de

Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0
cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de
correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.
(Enciclopedia Libre Wikipedia (2010. Parra. 1))
De esta forma podemos observar cómo se orienta la aplicación de cada uno de estos viendo que
el primero toma en cuenta dos variables aleatorias cuantitativas y el segundo entre dos variables
aleatorias continuas.
Regresión Lineal
Otro procedimiento estadístico es el análisis de regresión lineal al igual que en el caso de la

correlación lineal, este trabaja con variables “en la terminología de la regresión, la variable que
se va a predecir se llama variable dependiente. Las o las variables que se usan para predecir el
valor de la variable dependiente se llaman variables independientes”. (Sweeney y otros (2005.
Pág. 539)).
Y además nos expone puntualmente que “donde intervienen una variable independiente y una
variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se
llama regresión simple”. (Sweeney y otros (2005. Pág. 539)).
Según la Enciclopedia Libre Wikipedia (2010) expone lo siguiente:

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la
relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio
ε. Este modelo puede ser expresado como:
donde β0 es la intersección o término "constante", las son los parámetros respectivos a cada
variable independiente, y p es el número de parámetros independientes a tener en cuenta en la
regresión. La regresión lineal puede ser contrastada con la regresión no lineal. (Parra.1)
Al igual que el coeficiente de correlación, la regresión lineal, posee o se clasifica en diferentes

modelos según los parámetros que se tenga, entre los cuales podemos mencionar:
Regresión lineal simple: Sólo se maneja una variable independiente, por lo que sólo cuenta con
dos parámetros. Son de la forma:
6
donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo que (media
cero, varianza constante e igual a un σ y con ).
Análisis
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se
obtiene:[5]
Derivando respecto a y e igualando a cero, se obtiene:[5]
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución
para ambos parámetros:[4]
La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará

en β1.
Regresión lineal múltiple La regresión lineal nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o más variables y nos
permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose
Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las
variables puedan relacionarse matemáticamente en función de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:
[6]
donde es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que
(media cero, varianza constante e igual a un σ y con ).
Rectas de regresión Las rectas de regresión son las rectas que mejor se ajustan a la nube de
puntos (o también llamado diagrama de dispersión) generada por una distribución binomial.
Matemáticamente, son posibles dos rectas de máximo ajuste:[7]
• La recta de regresión de Y sobre X:
• La recta de regresión de X sobre Y:
La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el
ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el
modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará
de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no
serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de
regresión se intersecan en un punto llamado centro de gravedad de la distribución. (Enciclopedia
Libre Wikipedia (2010. Parra.9))
Notando lo anterior se puede concluir con las palabras de Garzo (1988) explicando que “en la
estadística descriptiva tratábamos de regresar la posible relación lineal entre las observaciones
muéstrales de dos características, mientras que ahora tratamos de expresar la posible relación
lineal entre dos características en toda la población. (Pág.161) De esta manera, explicando que
se hace en la Regresión Lineal.

Apuntes Estadística

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Apuntes Estadística

Încărcat de

Drepturi de autor:

Formate disponibile

Estadística.

IParte Conceptos Básicos

La estadística es fundamental para la investigación, para el análisis de datos, con el fin de

La estadística tiene su clasificación:

En el caso de la Muestra, no ocurren tantas discrepancias en su conceptualización, ya que tanto

Para que se considere un dato estadístico debe tener 2 características:

• Que sean comparables entre sí.

Entre Las Técnicas de Selección de Muestreo Estadístico tenemos:

Muestreo Estratificado: Consiste en la división previa de la población de estudio en grupos o

Muestreo por Conglomerados: Cuando la población se encuentra dividida, de manera natural, en

Estadistica. IIParte Representación de Datos

Teniendo especificados los conceptos esenciales (ya mencionados) a la hora de un estudio

Frecuencias. Tipos de Frecuencias.

Veamos en el cuadro los conceptos definidos:

TABLA DE FRECUENCIAS DE LAS EDADES

Las Tablas de Distribución de Frecuencias o las conocidas también como Distribución de

Estas Tablas se clasifican en simple y de entrada doble:

• Tablas de Clasificación Simple:

• Tablas de Clasificación de Doble Entrada

• Diagrama de Barras Simples y Compuestas

• Diagrama de Sectores Circulares:

Estadistica. III. Estadistica Descriptiva

En la estadística descriptiva podemos apreciar diferentes medidas que se utilizan a la hora de

Las medidas de posición son: la moda, la mediana y la media aritmética.

Gráfica 8: Formulas de Medidas Posición central

Tomada de: http://www.vitutor.net/1/estadistica.html

De lo anterior podría expresarse de esta manera en forma resumida:

• Los Cuartiles, que dividen a la distribución en cuatro partes;

La diferencia entre el tercer cuartil y el primero se conoce como rango intercuartil.

Dentro de la estadística descriptiva también encontramos a Las Medidas de Variabilidad o de

Desviación tipo: es la raíz cuadrada de la varianza.

Coeficiente de variación: división de la desviación tipo y la media aritmética, multiplicado por

Según los autores Quesada y Vergara (2007) muestran que:

Kurtosis (Curtosis) o Apuntamiento:

En el Blog Estadístico (2010) lo define de la siguiente manera:

Lo dicho anteriormente lo podemos observar en la gráfica que se presenta a continuación. De

Estadística IV Parte. Analisis de Correlación Lineal Y Regresión Simple

Análisis de Correlación y Regresión Lineal Simple

Variables independientes: aquélla que es manipulada por el investigador en un experimento con

CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN

Clasificación de la correlación: de acuerdo al número de variables consideradas en el estudio.

Correlación simple: cuando estudia la posible relación entre dos variables.

Correlación múltiple: cuando analiza la asociación o dependencia de más de dos variables.

Bajo otro punto de vista, veamos cómo se clasifica la correlación.

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas

Tipos de correlación: correlación positiva, correlación negativa e incorrelación.

Los tipos de correlación que pueden presentarse son:

Correlación positiva o directamente proporcional r = (+).

Correlación negativa o inversamente proporcional r = (-).

Ahora bien, entre los coeficientes de correlación tenemos:

El coeficiente de correlación de Pearson y el de Spearman.

Coeficiente de correlación de Pearson

donde σXY es la covarianza de (X,Y) y σX y σY las desviaciones típicas de las distribuciones

Coeficiente de correlación de Spearman

En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de

Otro procedimiento estadístico es el análisis de regresión lineal al igual que en el caso de la

Según la Enciclopedia Libre Wikipedia (2010) expone lo siguiente:

Al igual que el coeficiente de correlación, la regresión lineal, posee o se clasifica en diferentes

Derivando respecto a y e igualando a cero, se obtiene:[5]

La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará

• La recta de regresión de X sobre Y: