Documente Academic
Documente Profesional
Documente Cultură
1. INTRODUCCIÓN
Debemos diferenciar entre dos tipos de estadísticas:
2. LA INVESTIGACIÓN EN PSICOLOGÍA
El método científico
Características
Fases
Estadística descriptiva
Procedimientos
(no entro en detalle porque dice que los veremos en profundidad en los siguientes temas)
Estadística Inferencial
Se realizan inferencias acerca de una población basándose en los datos obtenidos a partir
de una muestra.
Conceptos importantes
Parámetro: Es una propiedad descriptiva (una medida) de una población. (para una
encuesta electoral queremos conocer el porcentaje de la población que respondería “Sí” a
favor de una ley; ese “sí” sería el parámetro en este caso)
Estadístico: Es una propiedad descriptiva (una medida) de una muestra. (es el porcentaje
de la muestra que responde sí).
Las conclusiones obtenidas de una muestra solo servirán para el total de una población si
la muestra es representativa. Para asegurarnos que la muestra es representativa se
utilizan métodos de muestreo probabilístico.
Si queremos saber qué porcentaje de hombres españoles se declaran seguidores del Real
Madrid y la muestra que escogemos está formada por mujeres, los resultados que
obtengamos no van a ser representativos.
Por lo tanto…
Según las relaciones que puedan verificarse empíricamente entre las modalidades de las
características, distinguimos 4 tipos de escalas:
1) Escala Nominal
Ejemplo: Católicos practicantes (1) frente a católicos no practicantes (2). No tiene sentido
hacer relaciones como 1+1=2. Esta escala solo nos dice si un sujeto es diferente o igual a
otro.
2) Escala Ordinal
Como su propio nombre indica, aparte de decirnos la igualdad o la diferenciación, también
nos indica el orden de las posiciones de lo que está clasificado. Nos permite establecer
relaciones del tipo “mayor que” o “menor que”.
Ejemplo: Estatus socioconómico, bajo (1), medio (2), alto (3). Los números no solo indican
diferencia de modalidades sino también orden entre ellas.
3) Escala de intervalo
4) Escala de razón
Además de todas las características de las 3 escalas diferentes, supera a las demás en
que se puede establecer un punto de origen verdadero de valor 0 (a diferencia del 0
arbitrario de la escala de intervalo). Es lo que se conoce como valor absoluto.
En la página 25 del libro tenemos un cuadro resumen que explica todo lo anterior de
manera bastante esquemática.
Según el nivel de medición tenemos tantas variables como escalas (variable nominal,
ordinal, de intervalo, de razón).
Tipos de variables
B) Ordinal (Cuasicuantitativa)
Xi siendo i = 1,2,3 …n
6. DISTRIBUCIÓN DE FRECUENCIAS
Funciones:
En este punto es necesario leer y comprender los gráficos de las páginas 29 y 30. Son tan
sencillos que ni siquiera es necesario sacar la calculadora. De momento lo que explica se
comprende con la sola lectura. Ya tendremos tiempo de que todo se complique.
Conceptos
Frecuencia absoluta (ni): Número de veces que se repite cada uno de los valores de una
variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n)
Proporción o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada valor
de la variable (ni) y el número total de observaciones (n). pi = ni /n
Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100
Frecuencia absoluta acumulada (na): Número de veces que se repita cada modalidad o
cualquiera de las modalidades inferiores.
Análisis de Datos
CAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Más conceptos
Obviamente al establecer intervalos siempre se pierde información. Por lo tanto hay que
buscar equilibrio entre la precisión que buscamos y lo cómodo que sea trabajar con esos
datos (si no estableciésemos intervalos podríamos encontrarnos con tablas de 100 filas)
Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber
personas con 35,5 años. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre de
limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los
límites verdaderos son (25,5-35,5) y (35,5-45,5). El límite superior exacto del primer
intervalo (35,5) coincide con el límite inferior exacto del siguiente (35,5)
Límite exacto = Valor informado (el que nos han dado) +- 0,5 x I
Punto Medio: Es la semisuma del límite superior e inferior del intervalo. Se calcula a
través de los límites informados o de los límites exactos.
El libro asume que hemos nacido con el concepto de la “semisuma” escrito en nuestros
genes ya que no explica en qué consiste. Quizá soy la única persona a la que no le han
otorgado este don de la naturaleza, pero lo explicaré por si hay alguien más en mi
situación:
Con un poco de sentido común el punto medio se haya sumando los dos valores del
intervalo y dividiendo el resultado entre 2
Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia nula.
Ejemplo de edad: (76 años o más)
Análisis de Datos
CAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
7. REPRESENTACIONES GRÁFICAS
Imprescindible acompañar estos apuntes con el libro para comprender los conceptos
gráficos.
a) Diagrama de barras
b) Diagrama de sectores
c) Pictograma
- Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al
valor que representan.
d) Histograma (parecido al diagrama de barras pero no hay espacio entre los rectángulos)
e) Polígono de frecuencias
- La forma que obtenemos es una línea poligonal cuya figura se obtiene a partir de
una diagrama de barras o de un histograma.
- También se puede utilizar en frecuencias acumuladas (figura página 41)
- Los datos se organizan en una tabla de doble entrada. Se sitúan los valores de una
variable en las filas y los valores de la otra variable en las columnas.
- Una vez construida la tabla, se procede a dibujar los gráficos por columnas
- Una variable se sitúa en el eje X y la otra en el eje Y. Para cada par de datos se
localiza la intersección entre ambas variables y se marca con un punto.
- Es una manera rápida de hallar relaciones lineales entre las dos variables.
a) Tendencia central
b) Variabilidad
c) Asimetría o sesgo (con calma que es muy fácil pero cuesta un poco de entender al
principio)
Se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo
de la tendencia central.
Análisis de Datos
CAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS
Diremos que una distribución será simétrica cuando al dividirla en dos a la altura de la
media, las dos mitades se superponen. Si esto no ocurre decimos que se produce
asimetría. Hay dos tipos de asimetría:
1) La media aritmética
- Es la más utilizada
- Es el valor central alrededor del cual están la mayoría de las observaciones
- Sólo puede calcularse para variables cuantitativas (números)
Se calcula sumando todos los valores de la variable divididos por el número total de
observaciones.
_
X = Σ Xi / n
_
X = Media aritmética
∑ = Símbolo sumatorio (indica que se están sumando todas las X que hay)
Xi= Valor que toma la variable u observación del sujeto i
n = Número total de observaciones
En realidad da igual cual de los dos procedimientos escojamos, ya que ante una misma
distribución de frecuencias el resultado va a ser el mismo aunque se haga por la fórmula
de frecuencias absolutas o mediante la fórmula de frecuencias relativas. Recordemos que
pi = ni / n (esto lo vimos en el primer tema)
Con tanta letra esto suena un poco dificil pero básicamente explica que si cada uno de
los valores antiguos (X) lo multiplicamos por un número cualquiera y le sumamos otro
número, obtenemos nuevos valores (Y) pero con la misma proporción anterior. Es decir,
si tenemos dos valores: X=4 y X=8 y los multiplicamos por 10, tendremos Y=40 y Y=80,
pero la proporción se sigue manteniendo, el segundo valor sigue siendo el doble que el
primero. El libro pone el ejemplo (pág 63) más extenso con el ejercicio pero la idea básica
es esta.
b) Puede que a la hora de tomar los datos nos encontremos con valores muy extremos
(asimétricos), en ese caso debemos valorar si son errores, entonces deberemos
eliminarlos para realizar la media. Pero si por el contrario estos valores extremos son
importantes para nuestro estudio, deberemos escoger otros índices de medición, como
por ejemplo la mediana que veremos a continuación.
2) La mediana
La Mediana de una variable X, representada por Md, se define como el valor de la variable
que divide la distribución de frecuencias en dos partes iguales, conteniendo cada una el
50% de las observaciones.
Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que se
encuentra la mediana se llama Intervalo crítico y se corresponde con aquel en el que la
frecuencia absoluta acumulada na es igual o superior a n/2.
Md = Li + ( n/2 - nd ) I
nc
En la página 68 hay un ejemplo numérico para hallar la mediana resuelto de dos maneras
diferentes. La primera manera consiste simplemente en aplicar la fórmula, hacerlo paso por
paso y comprendiendo qué es cada cosa es bastante sencillo. La segunda manera
consiste en una regla de tres. Los dos procedimientos dan el mismo resultado.
Casos especiales (pág 69-71) Si hemos entendido el caso anterior, esto es más de lo
mismo pero con un par de puntualizaciones)
A) Cuando se trata de una distribución de frecuencias pero los datos no están agrupados
en intervalos. Como los datos son unitarios, la amplitud (I) será = 1
Es prácticamente lo mismo que el ejemplo anterior pero con I = 1
Distribución amodal = cuando no hay moda ya que todos los valores tienen la misma
frecuencia absoluta.
Análisis de Datos
CAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN
- En primer lugar probaremos con la media aritmética (menos en los casos en que
la distribución sea muy asimétrica, o el nivel de medida sea nominal u ordinal, o
existan datos agrupados en intervalos con intervalos abiertos.
2. MEDIDAS DE POSICIÓN
La medida de tendencia central buscaba un indicador para representar a un conjunto de
datos. En cambio, las medidas de posición buscan un indicador para representar a un
sujeto o a un dato en particular.
Percentiles
También llamados “centiles”, son los 99 valores de la variable que dividen en 100 partes
iguales la distribución de frecuencias.
En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta
razón el percentil lo calcularemos a partir de las fórmulas para la mediana.
Utilizaremos la misma fórmula que la mediana pero sustituyendo nk/100 en lugar de n/2
Pk = Li + ( nk/100 - nd ) I
nc
Ejemplo numérico en la página 78. Tenemos que tener en cuenta que lo primero que hay
que hacer es hallar el intervalo crítico mediante la fórmula (nk/100) a diferencia de cómo lo
hallábamos para la mediana que era mediante la fórmula (n/2)
Aparte de hallar el valor de los percentiles, también puede ocurrir que ya tengamos un
valor y queramos saber qué posición ocupa ese valor en la distribución (es como lo de
antes pero al revés, es decir, antes tenía una posición y quería hallar un valor. Ahora tengo
un valor y quiero hallar una posición. Por lo tanto la fórmula cambia un poco.
k= (Pk - Li ) nc / I + nd . 100
Cuartiles y deciles
Primer Cuartil (Q1) = Deja por debajo de sí al 25% y por encima al 75% (Q1 = P25)
Segundo Cuartil (Q2) = Deja por debajo de sí al 50% y por encima al 50% (Q2 = P50 = Md)
Tercer Cuartil (Q3) = Deja por debajo de sí al 75% y por encima al 25% (Q3 = P75)
Por lo tanto como cada cuartil se corresponde con un percentil, utilizaremos las fórmulas
de los percentiles para hallar cada cuartil.
1. INTRODUCCIÓN
En el tema 1 veíamos que la distribución de frecuencias tiene tres propiedades: tendencia
central, variabilidad y asimetría. Las medidas de tendencia central las hemos visto en el
tema 2, ahora vamos a ver las medidas de las otras dos propiedades (variabilidad y
asimetría).
2. MEDIDAS DE VARIABILIDAD
- Los que miden el grado en que las puntuaciones se asemejan o diferencian entre
sí: Amplitud total o rango y amplitud semi-intercuartil
- Los que la dispersión de mide con respecto a alguna medida de tendencia central
como la media aritmética: Varianza y desviación típica.
AT = Xmax – Xmin
Sin embargo esta medida sólo aporta datos de los valores extremos, pero no nos dice la
poca o mucha dispersión que pueda existir en el resto de valores.
Por lo tanto:
_
DM = Σ IXi - XI / n
El libro dice que este índice se utiliza muy poco en la actualidad y que apenas existen
técnicas estadísticas basadas en este índice. Sin embargo conviene que lo estudiemos en
profundidad no vaya a ser que en los próximos años se convierta en una herramienta
completamente fundamental y necesaria para desarrollar la profesión de psicólogo.
_
S 2
x = (ΣX i / n) – X2
2
Aunque supongo que a estas alturas todo el mundo lo sabrá, pero estas fórmulas están en
la Addenda y nos dejan tenerla con nosotros durante el examen.
_
2
S2x = Σni (Xi - X) / n (para frecuencias absolutas)
_
S 2
x = Σni X i / n) – X2 (para frecuencias absolutas)
2
Sx =
∑ (X i − X) 2
n
- Para calcularlas
€ las dos requieren la utilización de todas las puntuaciones de la
distribución.
- Las dos miden la variabilidad de los datos con respecto a la media aritmética, por lo
que sólo deben aplicarse si estamos utilizando la media como medida central
- Siempre son iguales o mayores que 0.
- Si a una variable X se le suma o resta una constante a, la varianza y desviación
típica de la variable original no se ven afectadas y siguen siendo las mismas. En
cambio, cuando multiplicamos los valores de X por una constante b, la varianza
queda multiplicada por la constante al cuadrado y la desviación típica por el valor
absoluto de dicha constante.
_
2
S2n-1 = Σ (Xi - X) / n - 1
Al igual que ocurría con la varianza normal, en la cuasivarianza también podemos medir la
cuasidesviación típica que es la raiz cuadrada de la cuasivarianza (fórmula en 101)
S 2
=
∑ (X i − X) 2
n−1
n −1
Coeficiente de variación
€
Se trata de un índice de variabilidad relativa que no depende de las unidades de medida.
_
CV = (SX/X) 100
Cuidado con el ejemplo 3.5 de la página 102, ya que hay una errata que me ha hecho
perder unos cuantos minutos de más (como si me sobraran) En concreto en el enunciado
dice …y una varianza de 17,3, esto está mal, la varianza es de 16.
Análisis de Datos
CAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA
Como hemos dicho antes, este índice se utiliza cuando la distribución es muy asimétrica .
Q = Q – Q1 / 2 = P75 – P25 / 2
_
AS= X - Mo / Sx
Ejemplo 3.7 en la página 106. Debemos recordar cómo se obteníamos la moda, (Mo),
cuando los datos están agrupados en intervalos, la moda es el punto medio del intervalo
modal. Y el intervalo modal es el intervalo con la frecuencia máxima, es decir, aquel donde
ni es mayor.
4. PUNTUACIONES TÍPICAS
Hasta ahora hemos visto puntuaciones directas (nota de un sujeto en un test), sin
embargo estas puntuaciones nos dan poca información ya que no sabemos si se trata de
un valor alto o bajo, ya que esto depende del promedio del grupo.
- Su media es cero:
_
x= 0
S 2x = S 2x
Sin embargo, dos puntuaciones diferenciales idénticas pueden tener un significado muy
diferente en función de la media y de la varianza de las distribuciones de las que proceden.
Para solucionar este problema tenemos las puntuaciones típicas que nos permiten no
sólo comparar las puntuaciones de un sujeto en dos variables distintas sino también
comparar dos sujetos distintos en dos pruebas o variables distintas.
_
zx = x / S x = X – X / S x
- Su media es cero:
_
zx = 0/nsx = 0
- Su varianza es igual a 1
S2zx = 1
1. INTRODUCCIÓN
Este tema se centra en el estudio conjunto de dos variables.
- Tabla de datos
- Tabla de contingencia
- Diagrama de barras
- Tabla de diferencias entre frecuencias empíricas y teóricas
- Calculo de coeficiente X2
- Cálculo del coeficiente de contingencia
Además…
2. CONCEPTOS PREVIOS
Asociación y/o relación entre dos variables: Dos variables están relacionadas entre sí
cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra
variable.
Recordamos que la variable cualitativa era aquella que estaba medida en una escala
nominal o de clasificación (tema 1). Además pueden ser:
Cuando se dispone de los datos de dos variables cualitativas para todos los sujetos de una
muestra, se puede elaborar la Tabla de contingencia y su correspondiente diagrama de
barras (página 125). Los datos de esta tabla son las frecuencias empíricas u observadas y
se representan por (ne)
Ahora tenemos que construir una nueva tabla con las frecuencias teóricas (nt). Para ello
utilizaremos la fórmula:
Totalfila _ x _ totalcolumna
Frecuencia teórica = nt =
n
€
€
Análisis de Datos
CAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES
Una vez creada esta segunda tabla (página 126) tenemos que crear una tercera tabla que
muestra las diferencias entre la tabla 1 y la tabla 2. Es decir, la tabla de diferencias entre
las frecuencias empíricas menos las frecuencias teóricas. (página 127)
- Es importante quedarnos con el dato de que la suma de las filas y las columnas de
esta tercera tabla siempre es igual a 0, si sale otra cosa es que algo hemos hecho
mal.
Una vez que tenemos la tabla debemos interpretarla: La interpretación que hace el libro se
basa en analizar los valores positivos (8) como fuente de información. (parece ser que los
valores negativos no nos aportan información) .Así tenemos un 8 en Sí-V y en No-M. Por lo
tanto concluiremos que los varones tienen mayor tendencia a padecer estrés (Sí-V) y las
mujeres tiene menos tendencia a padecer estrés (No-M).
Y ahora…
Calculamos un estadístico X2
(n e − n t ) 2
Estadístico X2 = ∑ n
t
ne = frecuencia empírica
nt = frecuencia teórica
€
Para calcular el estadístico no hace falta información nueva, ya que extraemos todos los
números de las tablas anteriores.
Sin embargo este estadístico nos da poca información porque desconocemos su límite
superior. Sólo sabemos que si nos da valor 0 no hay relación entre las dos variables. Sin
embargo si nos da un valor cualquiera como por ejemplo 10,78 (página 128) no sabemos
que interpretar ya que el límite podría ser 20, 50 , 100 etc y lo desconocemos. Para
resolver este problema se calcula algo que sí que sabemos sus límites y es el índice o
Coeficiente de Contingencia, C. (da valores entre 0 y 1)
X2
Coeficiente de contingencia = C =
X2 + n
Además del Coeficiente de Contingencia tenemos también que calcular su máximo (para
posteriormente poder comparar uno con otro
€ )
k −1
Cmáx =
k
k = Número de filas y número de columnas (en el ejemplo que vamos a ver a continuación
K=2 porque tenemos mismo número de filas (2) que de columnas (2)
€
Análisis de Datos
CAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES
También tenemos el ejemplo de tablas con distinto número de filas y columnas, por lo tanto
no podremos calcular el Cmáx. Y la información la extraeremos directamente de C (ejemplo
página 129-130) En este ejemplo el procedimiento para calcular las tablas es el mismo que
el explicado en la primera parte, la única diferencia es cuando llegamos a C ya que no
podemos calcular su Cmáx.
Para concluir:
- Cuando utilicemos C para comparar la relación entre dos variables cuyos datos
tenemos en dos tablas de contingencia diferentes, tenemos que vigilar que tienen el
mismo número de filas y de columnas. De lo contrario los valores de C no permiten
una comparación válida.
- Cuando existe un valor elevado de C, no podemos afirmar con rotundidad que una
de las variables es causa de la otra, ya que puede haber una tercera variable que
está relacionando a ambas.
Una vez realizado el diagrama y tan sólo observándolo, podemos decir que existe una
relación lineal en las variables X e Y. Es decir, a valores mayores de X corresponderán
valores mayores de Y y viceversa.
Una vez llegados a este punto calculamos 2 índices que nos permiten ponerle números a
todo esto que llevamos analizado:
Análisis de Datos
CAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES
Covarianza = SXY =
∑X Y i i
− XY
n
En el ejemplo de la página 134 observamos que la covarianza da 6,4 (signo positivo) por lo
tanto se cumple la relación lineal directa que ya habíamos observado en el diagrama de
dispersión.
SXY
rXY =
SX SY
Página 137 y 138: Ejemplos de diagramas de dispersión y nubes de puntos con sus
correspondientes explicaciones.
Caso A
Caso B
Caso C
Caso D
¿pero qué pasa cuando tenemos valores intermedios como por ejemplo 0,55?
En ese caso no podemos afirmar que ese valor indica correlación alta o baja ya que
dependerá del tipo de datos que estemos analizando
- Será baja si se trata de dos tests similares que estemos aplicando a los mismos
sujetos o si tenemos pocos sujetos
- Será alta si se trata de tests bastante diferenciados o si tenemos muchos sujetos.
4. REGRESIÓN LINEAL
Cuando existe relación lineal podemos utilizar la recta de regresión para efectuar
pronósticos de los valores de una variable a partir de otra variable.
Y = a + bX
Análisis de Datos
CAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES
Para hallar la recta tenemos que calcular a y b con las siguientes fórmulas:
n ∑ (XY ) − ∑ X ∑Y
b=
n ∑ X 2 − (∑ X ) 2
a = Y − bX
€
La recta pasa por el punto X,Y . Las puntuaciones obtenidas mediante la recta de
€
regresión las denominaremos puntuaciones pronosticadas.
€ € €
Análisis de Datos
CAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD
1. INTRODUCCIÓN
En cualquier investigación es importante poder generalizar o inferir nuestros resultados a
un colectivo mucho más amplio al que hemos denominado población. Por esta razón
estudiamos la probablidad.
2. CONCEPTOS PREVIOS
Experimento aleatorio (3 características):
A=4
B=2,4,6 (número par)
C=3,6 (múltiplo de 3)
€
Análisis de Datos
CAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD
A = 1,2,3,5,6
€
Unión, Intersección y complementario se pueden representar gráficamente mediante los
diagrámas de Venn. (pág 160).
€
3. DEFINICIÓN DE PROBABILIDAD
3 tipos de definiciones
nA
P(A) = lim
n →∞ n
0 ≤ P(A) ≤ 1
P(E) = 1
P(A) = 1− (A)
€
Análisis de Datos
CAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD
4. PROBABILIDAD CONDICIONADA
Dos sucesos, A y B, son dependientes cuando la probabilidad de A está condicionada al
suceso B.
P(A ∩ B)
P(A /B) = (siempre que P(B) no sea 0)
P(B)
P(A ∩ B)
P(A /B) = (siempre que P(A) no sea 0)
P(B)
€
Si los sucesos A y B son independientes: P(A/B) = P(A) y P(B/A)=P(B)
P(A ∩ B) = P(A) ⋅ P(A /B) esto se conoce como la regla o teorema del producto
€
Todo esto se ejemplifica en los ejercicios pág 167-172: Son bastante sencillos pero hay
€ que verlos con calma.
P(A) − P(B / A)
Otra forma de expresar el Teorema de Bayes: P(A /B) =
P(B)
€
Tema 6
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
Una variable aleatoria es una función que asigna un número real, y sólo uno, a cada uno de
los resultados de un experimento aleatorio. Las variables aleatorias se representan por letras
mayúsculas de nuestro alfabeto latino y utilizaremos las minúsculas con subíndices, para los
valores concretos de las variables.
Las variables aleatorias pueden ser discretas o continuas. Discreta cuando la variable sólo
puede tomar un conjunto infinito y numerable de valores (los números naturales) o finito de
valores (número de sucesos). Y continua cuando puede tomar infinitos valores o un
conjunto de valores no numerable.
Función de probabilidad:
f(x) = P (X=x)
Ejemplo:
E x P
⊕ ⊕ ⊕ x1 = 0 1/8 = 0,125
⊕ ⊕
x2 = 1
⊕ ⊕ 3/8 = 0,375
⊕ ⊕
⊕
x3 = 2
⊕ 3/8 = 0,375
⊕
x4 = 3 1/8 = 0,125
Donde:
x 0 1 2 3
f(x) 0,125 0,375 0,375 0,125
x ϵ X f(x) > 0
∑ f(x) = f(x1)+f(x2)+...+f(xn) = 1
Función de distribución:
F(x) = P (X < x)
De la misma forma:
F(x) = P (X < x) = f(x1)+f(x2)+...+f(x)
F(3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) =
f(0) + f(1) + f(2) + f(3)= 0,125 + 0,375 + 0,375 +0,125 = 1
1. Todos los valores que toma la función de distribución de probabilidad son positivos o
nulos:
x F(x) > 0
2. F(x) es nula, vale 0, para todo valor inferior al menor valor de la variable aleatoria,
x1:
F(x) = 0 si x < x1
3. F(x) es igual a uno para todo valor igual o superior al mayor valor de la variable
aleatoria, llamando a éste “xk”:
F(x) = 1 si x > xk
4. La función F(x) es no decreciente ya que es una acumulación o suma de
probabilidades que son siempre positivas o nulas.
La media, μ, de una variable aleatoria discreta X viene definida por la siguiente expresión:
μ = ∑ x.f(x)
Ejemplo:
x f(x) x.f(x)
0 0,125 0,000
1 0,375 0,375
2 0,375 0,750
3 0,125 0,375
1,5
σ2 = ∑ (x – μ)2. f(x)
Para algunas distribuciones discretas se emplean una serie de tablas que facilitan su
aplicación a unos problemas en concreto.
En Ciencias Sociales y de la Salud se trabajan con variables que toman sólo dos valores
(dicotómicas 1 – 0); En este caso se utiliza la distribución binomial.
La distribución binomial:
Ejemplo:
Si tiramos tres veces la moneda al aire y definimos X como el número de caras, esta
variable seguirá los parámetros n = 3 y p = 0,5. Lo mismo que B(3; 0,5).
1. Función de probabilidad:
n
f(x) = P(X = x) = x p xq n-x
2. Función de distribución:
n
F(x) = P (X < x) =∑ x p x q n-x
3. Media: μ = np
4. Varianza : σ 2 = npq;
puesto que:
3 3-0
3 3!
f(0) = P(X = 0) = 0 .0,5 0 .0,5 = 0 .1.0,5 3 = .1.0,125= 1.1.0,125 = 0,125
0!.3!
3 1 3-1 3 3!
f(1) = P(X = 1) = 1 .0,5 .0,5 = 1 .0,5.0,5 2 = .0,5.0,25 = 3.0,5.0,25 = 0,375
1!.3!
μ = np = 3.0,5 = 1,5
σ 2 = npq = 3.0,5.0,5 = 0,75
La distribución normal:
Características y propiedades:
Aquí se restan las probabilidades que dejan por debajo de sí las dos puntuaciones típicas.
Cuando las distribuciones binomiales superan sus valores de 20, se puede aproximar a la
binomial normal. Teniendo una variable X, con distribución binomial, su media es μ = np y
su desviación típica σ = npq. Podemos realizar:
(x–0,5) - μ x-μ (x+0,5) - μ
P(X = x) = P < <
σ σ σ
(x-0,5) - np (x+0,5) - np
P(X = x) = P <z<
npq npq
Ejemplo:
Tiramos 20 veces una moneda al aire; ¿cuál es la probabilidad de que salgan 12 caras?
Tenemos que número de caras x = 12, con números de intentos n = 20 y p = 0,5. Mirando
en la tabla I el valor de la probabilidad de éxito es 0,1201.
Ahora calculamos la media y la desviación típica:
Sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo utilizar las
puntuaciones discretas como continuas.
En la distribución de Chi cuadrado de Pearson una variable X con distribución X21, X22, ..., X2n
pasa a ser X = X2n. Su media y varianza valdrán μ = n y, σ2 = 2n.
Esta distribución se usa para contrastar si la distribución de una variable se ajusta a una
distribución determinada.
Entre sus propiedades señalamos:
Ejemplo:
2
En una variable con 5 grados de libertad, X X 5 , el valor 11,07 deja por debajo de sí
una proporción de 0,95, representándose de la siguiente manera: 0,95X25 = 11,07.
Ahora si quisiéramos calcular P (X > 11,07):
Para definir estas distribuciones,al igual que hemos hecho con el Chi Cuadrado,
emplearemos otras distribuciones. X
Teniendo dos variables X e Y con una distribución (0,1) y X2n . La variable aleatoria T=
sigue una distribución “t”con n grados de libertad y se expresa: T tn. Y/n
n 2
Su media siempre vale 0 y su varianza σ 2 = . n
n -2
Una distribución “t” es el cociente entre una variable N(0,1) y la raíz cuadrada de X
dividida por sus grados de libertad.
Sus características son:
Se caracteriza por:
Ejemplo:
A) Calcular P(X<3,33);
buscamos el valor de 5 grados de libertad en el numerador y 10 grados en el denominador
en la tabla VII, donde se encuentra el valor3,33. Observamos que se corresponde con una
probabilidad de 0,95; por tanto 3,33 se corresponde con el percentil 95.
1 1
F = =
0,05 5,10 F
1-0,05 10,5
F
0,95 10,5
Conceptos previos
Población y muestra:
Muestreo:
Inferencia estadística
Estimación de la media
n n
La forma de la distribución original de la media se parece a una
distribución normal aunque la distribución original de la variable en la
población no es normal.
Dado el muestreo aleatorio simple:
• Si la distribución de X en la población es normal con media μ y
desviación típica σ, entonces la distribución muestral de la X es
normal σ
μ,
n
Distribución muestral
Población Muestra
de la media
ΣX ΣX µx = µ
Media μ= X=
N n
Estimación de la proporción
π (1 - π)
Varianza σ2 = π (1 - π) S2 = P (1 - P) σ2p =
n
σp = π (1 - π)
Desviación típica n
σ = π (1 - π) S = P (1 - P) Error típico de la
proporción
Intervalos de confianza
Concepto
Los límites inferior (Li) y superior (Ls) se obtienen a partir del Emáx:
L i = X – Emáx // Li = X – z1- α/2 σ
n
L s = X + Emáx // L s = X+ z1- α/2 σ
n
Tamaño de la muestra
Aplicaciones
Ʌ Ʌ
• Muestreo aleatorio simple. L i = X – z1- α/2 Sx L s = X + z1- α/2 Sx
• σ desconocida. z1- α/2 → Tabla IV
• Distribución normal o no normal con n > Ʌ Sn-1
30 (aprox. a la normal). Sx = n
Sn-1 es la cuasidesviación típica calculada en la muestra.
donde:
• z1-α/2 es función del nivel de confianza 1 – α (tabla IV).
• π(1-π) es el error típico de la proporción: σp.
n
• π es la proporción de la población que no es conocida.
• n es el tamaño de la muestra y se debe cumplir nπ(1-π) > 5 para la
aproximación a la normal.