Sunteți pe pagina 1din 44

Seminario-Taller

R y NOCIONES DE ESTADISTICA

ING. FREDDY VARGAS.


ING. JAIME E. FUENTES MARÍN.
SEMINARIO
R y NOCIONES DE STADÍSTICA

Objetivo
Al finalizar el seminario, cada participante
comprenderá la importancia de la herramienta
R y el ámbito de la estadística en el mundo
real.
ESTADÍSTICA DESCRIPTIVA

 Realiza el estudio sobre la población completa,


observando una característica de la misma y
calculando unos parámetros que den información
global de toda la población.
ESTADISTICA INFERENCIAL

 Realiza el estudio descriptivo sobre un subconjunto


de la población llamado muestra y, posteriormente,
extiende los resultados obtenidos a toda la población.
Población, Muestra y Datos
POBLACIÓN
SONDEO

TOTAL HIPOTÉTICO
DE LOS DATOS MUESTREO
DE LOS CASOS

CENSO
INVESTIGACIÓN CUANTITATIVA

SONDEO

Investigación cuantitativa muy superficial que nos ayuda a recopilar datos


preliminares que podrían ser importantes antes del muestreo.

El sondeo maneja un nivel de confianza de 1 a 84% razón por la cual no tiene


significancia, sus resultados se representan estadísticamente.
INVESTIGACIÓN CUANTITATIVA

MUESTREO

Investigación cuantitativa que nos ofrece resultados efectivos mediante los


cuales podemos calificar a proyectos si son viables o no, en el área de
investigación y desarrollo.

El muestreo debe manejar un nivel de confianza de 90 a 99% para su mayor


efectividad, razón por la cual si tiene significancia y sus resultados se
representan estadísticamente.

Según el nivel de confianza y margen de error de la investigación se determina


el costo de la misma.
INVESTIGACIÓN CUANTITATIVA

CENSO
El censo es la investigación cuantitativa con resultados más efectivos y
totalmente confiables en el área de investigación y desarrollo.

El censo obligatoriamente debe manejar un nivel de confianza de 99,1 a 99,99%,


razón por la cual si tiene significancia y sus resultados son los más efectivos y
confiables entre los métodos de investigación cuantitativa, sus resultados se
representan estadísticamente.

Esta es una de las investigaciones mas costosas.


Población

 Definición: Es un conjunto de todos los posibles


individuos, personas, objetos o mediciones de interés
estadístico.
 Ejemplo:
 TSA en las estaciones costeras del país
 AUV en America
 `El número de fallas o errores en un monitoreo
Muestra

 Definición: Es una porción o parte de una población


de interés
 Ejemplo:
 TSA q pertenecen a la estación de Guayaquil
 AUV que pertenecen a INOCAR.
 El número de fallas o errores en las primeros 50m de un
monitoreo
LA MUESTRA

Ventajas del Muestreo

•Costo Reducido: Si los datos se obtienen únicamente de una


pequeña fracción del total, los gastos son menores que los que
realizará si se lleva a cabo un censo completo.
•Mayor Rapidez: Los datos pueden ser recolectados y
resumidos más rápidamente con una muestra que con una
numeración completa.
•Más Posibilidades: Para obtener la información en ciertos tipos
de encuesta es necesario utilizar los servicios de personal
altamente calificado o un equipo muy especializado.
•Mayor Exactitud: Al reducir el volumen de trabajo se puede
emplear, personal más capacitado y someterlo a una
capacitación intensiva, es más fácil así supervisar
cuidadosamente el trabajo de campo y el procesamiento de los
resultados, de esta forma se minimizaría errores.
LA MUESTRA

Requisitos de una buena muestra


LA MUESTRA

Sesgo y sus efectos

Los errores de medición y las no respuestas pueden producir


sesgos en los números que se calculan a partir de los datos:

•Preguntas mal redactadas.


•Los entrevistados tienen información imprecisa
•No regresan el cuestionario, ausencia de respuestas.
REPRESENTATIVIDAD DE LA MUESTRA

La fórmula cambia en función del universo:

 Universo Infinito. Mayor o Igual a 500 000.

n = Z2 p q
e2

 Universo Finito. Menor a 500 000.

n= Z2 p q N
e2 (N-1) + Z2 p q
REPRESENTATIVIDAD DE LA MUESTRA

 El nivel de confianza hay que expresarlo en valor de Z.


 90% de confianza = 1.65 (valor Z).
 95% de confianza = 1.96 (valor Z).
 99% de confianza = 2.58 (valor Z).

 Los parámetros a analizar son:


 N = Tamaño de la población.
 n = Tamaño de la muestra.
 Z2 = Nivel del confianza. (valor z)
 e2 = % de error.
 p = 50%.
 q = 50%
SOLUCION DE LA MUESTRA

De 600.000 datos la muestra es con un 95% de confianza


y 5% de margen de error:

n = Z2 p q
e2

n= 1.962 x 0.50 x 0.50 = 384 datos


0.052
SOLUCION DE LA MUESTRA

De 50.000 datos, la es con un 84,1% de confianza y 7% de margen


de error, suponiendo que hay previos estudio del tema con 0.80

n= Z2 p q N
e2 (N-1) + Z2 p q

n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos


0.052 x (50.000-1) + 1.962 x 0.50 x 0.50
Razones para estudiar muestras en lugar
de poblaciones

 Ahorrar tiempo. Estudiar a menos individuos es evidente


que lleva menos tiempo.
 Como consecuencia del punto anterior ahorraremos costos.
 Estudiar la totalidad de los datos globales con una
característica determinada en muchas ocasiones puede ser
una tarea inaccesible o imposible de realizar.
 Aumentar la calidad del estudio. Al disponer de más tiempo
y recursos, las observaciones y mediciones realizadas a un
reducido número de individuos pueden ser más exactas y
plurales que si las tuviésemos que realizar a una población.
 La selección de muestras específicas nos permitirá reducir
la heterogeneidad de una población al indicar los criterios
de inclusión y/o exclusión
Datos

 Definición: Son los hechos que describen sucesos


y entidades.
 A un hecho simple se le denomina "data-ítem" o
elemento de dato.
 Los datos son comunicados por varios tipos de
símbolos tales como las letras del alfabeto,
números, movimientos de labios,
puntos y rayas, señales con la mano, dibujos, etc.
Estos símbolos se pueden ordenar y reordenar de
forma utilizable y se les denomina información
TIPOS DE DATOS
Datos

Cualitativos o Cuantitativos o
de Atributos numéricos

Discretos Continuos
Ejemplos:
•Tipos de imágenes •# de Variables •Serie de datos de TSM
satelitales •Cantidad de •Mediciones de variables en
•Tipo de Sensores embarcaciones para monitoreo
monitoreo
•Regiones •Pronósticos de lluvias
•Cantidad de Datos
01/07/1998
02/07/1998
03/07/1998
26,93
25
27
COMPORTAMIENTO DE
04/07/1998
05/07/1998
06/07/1998
26,6
26,46
25,46
UNA MUESTRA
07/07/1998 27,06
08/07/1998 27,06
09/07/1998 24,76
10/07/1998 24,93
11/07/1998 27,53
12/07/1998 26,66 28
13/07/1998 25,66
27.5
14/07/1998 26,53
27
15/07/1998 26,3
26.5
16/07/1998 26,26
26
17/07/1998 27,46
18/07/1998 25,83
25.5
19/07/1998 25,46 25
20/07/1998 26,66 24.5
21/07/1998 26,5 24
22/07/1998 25,16 23.5
23/07/1998 25,43 23

7/17/1998
7/9/1998
7/7/1998

7/25/1998
7/3/1998

7/13/1998

7/27/1998

7/31/1998
7/19/1998

7/23/1998

7/29/1998
7/1/1998

7/5/1998

7/11/1998

7/15/1998

7/21/1998
24/07/1998 25,9
25/07/1998 26,13
26/07/1998 26,13
27/07/1998 25,9
28/07/1998 25,36
29/07/1998 24,8
30/07/1998 27,2
31/07/1998 25,43
PASOS EN UN ESTUDIO ESTADISTICO

 Plantear hipótesis sobre una población


 Las temperaturas tienen “más bajas en época húmeda”
que en época seca
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
PASOS EN UN ESTUDIO ESTADISTICO

 Recoger los datos (muestreo) „


 ¿Estratificado? ¿Sistemáticamente?
 Describir (resumir) los datos obtenidos †
 tiempo medio de baja en temperaturas y no
(estadísticos)
 †% de bajas por temperatura y presión atmosférica
(frecuencias), gráficos,...
REFERENCIAS

 Conceptos de Estadística
 http://tarwi.lamolina.edu.pe/~fmendiburu/index-
filer/academic/Estadistica/parte1.pdf
 http://www.mat.uda.cl/hsalinas/cursos/2011/2do/clase1.p
df
R es un lenguaje interpretado (como Java) y no
compilado (como C, C++, Fortran, Pascal, . . . ), lo
cual significa que los comandos escritos en el
teclado son ejecutados directamente sin
necesidad de construir ejecutables.

Rstudio
• Es un entorno de desarrollo integrado (IDE)
para R
• Es software libre
• Es sencillo e intuitivo, para proporcionar un
entorno amigable.
Interfaz de RStudio
Introducción a RStudio
Introducción a RStudio
Objetos en R
R tiene cinco clases de objetos básicos:
 Character
 Numeric
 Integer
 Complex
 Logical (TRUE/FALSE)

El objeto más común es un vector. Un vector solo puede


contener objetos de la misma clase. Se puede crear un vector
vacío utilizando la función vector().

Las listas son vectores con objetos de distinta clase. Por eso son
muy utilizadas.
Estructuras de datos en R

 Vectores
 Valores faltantes
 Factores
 Factores ordenados
 Matrices y arrays
 Listas
 Data Frames
Asignación de valores

x=1# con el = se asignan valores a las variables los cuales pueden numéricos,
alfanumericos, etc.
print(x)# la función print nos muestra los que esta almacenado en la variable x
saludo="hola"# cuando se usa valores que no son numéricos es necesarios colocarlos
entre "" para almacenarlos
z=1:20# crea un vector con una secuencia de números enteros del 1 al 20
Y=c(1,2,3,4,5,6)# el comando c() sirve para crear vectores los cuales pueden contener
valores enteros, lógicos, carácter, y complejos
Y# muestra los valores almacenados en esta variables que acabamos de crear
m=vector("complex",length=5)
m #muestra el valor almacenado en la variable m
Asignación de valores

y=0:5 # creamos un vector con valores numéricos desde 0 hasta 5


class(y) # el comando class nos muestra el tipo de objetos que almacenamos en y
y # muestra el valor almacenado en la variable o vector y

El simbolo de 2ptos, situado entre 2 números, constituye un vector de modo sencillo


REPRESENTATIVIDAD DE LA MUESTRA

 El nivel de confianza hay que expresarlo en valor de Z.


 90% de confianza = 1.65 (valor Z).
 95% de confianza = 1.96 (valor Z).
 99% de confianza = 2.58 (valor Z).

 Los parámetros a analizar son:


 N = Tamaño de la población.
 n = Tamaño de la muestra.
 Z2 = Nivel del confianza. (valor z)
 e2 = % de error.
 p = 50%.
 q = 50%
SOLUCION DE LA MUESTRA

De 50.000 datos, la es con un 90,0% de confianza y 7% de margen


de error, suponiendo que hay previos estudio del tema con 0.80

n= Z2 p q N
e2 (N-1) + Z2 p q

n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos


0.052 x (50.000-1) + 1.962 x 0.50 x 0.50
Asignación de valores
En caso de valores alfa numéricos, los elementos van entre comillas dobles“”

nombre.mes=c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","
Septiembre","Octubre","Noviembre","Diciembre") # creamos un vector con valores
alfanumericos desde Enero hasta Diciembre
nombre.mes[c(1,4,6,8)] el comando c() sirve para crear vector
Estructuras de datos en R
 Vectores
Se puede construir un vector de tipo numérico, lógico o carácter.
Ejemplos de vectores son:

c(1,5,3,2) #Crea un vector numérico de 4 elementos


c(T,F,T,T,F) #Crea un vector lógico de 5 elementos
c(“Esmeraldas”,“Manta”,“La Libertad”,“Pto Bolivar”) #Crea un vector de
4 cadenas de caracteres
Estructuras de datos en R
 Vectores
La letra c significa “concadenar”, por lo que vamos a crear y a
concadenar 2 vectores:

La primera orden crea un vector formado por


los números 1,3,5 y lo asigna a la variable x. El
operador de asignación se escribe <- , o =.

x=c(1,3,5) #Crea un vector numérico de 3 elementos impares


y=c(2,4,6) #Crea un vector numérico de 3 elementos pares
c(x,y) #Concadena 2 vectores numéricos de 6 cadenas de caracteres
Estructuras de datos en R
Extracción de elementos de un vector
1. Especificar los índices de los elementos a extraer:

x=c(18,11,12,10,7,6,17)
x[c(1,3,6)]
[1] 18 12 6 La orden anterior extrae los elementos 1, 3 y 6 del vector.

Un número negativo precediendo al índice significa exclusión. Con el vector x creado


anteriormente:

x[-3]
[1] 18 11 10 7 6 17
x[-c(1,2)]
[1] 12 10 7 6 17
Estructuras de datos en R

Extracción de elementos de un vector


2. Especificar una condición lógica. En el caso del vector x creado arriba:

x>10
[1] TRUE TRUE TRUE FALSE FALSE FALSE TRUE

x[x>10]
[1] 18 11 12 17
Generar un Script
Generar un Script
Estructuras de datos en R

Extracción de elementos de un vector


3. En el caso de un vector de variables, podemos utilizar los nombres de las
variables para extraer los elementos:

A=1 En el ejemplo precedente, creamos tres variables A, B y C con los


B=3 valores 1, 3 y 5 respectivamente.
C=5 A continuación creamos un vector y formado por dichas
y=c(A,B,C) variables, y después extraemos el valor referenciado por la
y variable B.
[1] 1 3 5
Es decir el valor referenciado por la variable B es el 3 en
y[B] donde me indica y[B] que es lo mismo que decir y[3] eso es
[1] 5 que busque en el vector el valor que se encuentra en el tercer
puesto, ese valor es el 5
Taller
Crear un Script con nombre Talle1, en el codigo fuente generar un vector
que contenga los registos siguientes de Temperatura en °C.
 35
 21
 27
 25
 27
 NaN

 28
 NaN

a. Presentar solo los valores numéricos


b. Extraer los NaN y espacio en blanco
c. Mostrar si los valores son mayores a 25 °C

S-ar putea să vă placă și