Seminario - Nociones Estadistica2 Clase 2

Seminario-Taller
R y NOCIONES DE ESTADISTICA
ING. FREDDY VARGAS.

ING. JAIME E. FUENTES MARÍN.
SEMINARIO
R y NOCIONES DE STADÍSTICA
Objetivo
Al finalizar el seminario, cada participante
comprenderá la importancia de la herramienta
R y el ámbito de la estadística en el mundo
real.
ESTADÍSTICA DESCRIPTIVA
 Realiza el estudio sobre la población completa,

observando una característica de la misma y
calculando unos parámetros que den información
global de toda la población.
ESTADISTICA INFERENCIAL
 Realiza el estudio descriptivo sobre un subconjunto

de la población llamado muestra y, posteriormente,
extiende los resultados obtenidos a toda la población.
Población, Muestra y Datos
POBLACIÓN
SONDEO
TOTAL HIPOTÉTICO
DE LOS DATOS MUESTREO
DE LOS CASOS
CENSO
INVESTIGACIÓN CUANTITATIVA
SONDEO
Investigación cuantitativa muy superficial que nos ayuda a recopilar datos

preliminares que podrían ser importantes antes del muestreo.
El sondeo maneja un nivel de confianza de 1 a 84% razón por la cual no tiene

significancia, sus resultados se representan estadísticamente.
MUESTREO
Investigación cuantitativa que nos ofrece resultados efectivos mediante los

cuales podemos calificar a proyectos si son viables o no, en el área de
investigación y desarrollo.
El muestreo debe manejar un nivel de confianza de 90 a 99% para su mayor

efectividad, razón por la cual si tiene significancia y sus resultados se
representan estadísticamente.
Según el nivel de confianza y margen de error de la investigación se determina

el costo de la misma.
CENSO
El censo es la investigación cuantitativa con resultados más efectivos y
totalmente confiables en el área de investigación y desarrollo.
El censo obligatoriamente debe manejar un nivel de confianza de 99,1 a 99,99%,

razón por la cual si tiene significancia y sus resultados son los más efectivos y
confiables entre los métodos de investigación cuantitativa, sus resultados se
representan estadísticamente.
Esta es una de las investigaciones mas costosas.

Población
 Definición: Es un conjunto de todos los posibles

individuos, personas, objetos o mediciones de interés
estadístico.
 Ejemplo:
 TSA en las estaciones costeras del país
 AUV en America
 `El número de fallas o errores en un monitoreo
Muestra
 Definición: Es una porción o parte de una población

de interés
 Ejemplo:
 TSA q pertenecen a la estación de Guayaquil
 AUV que pertenecen a INOCAR.
 El número de fallas o errores en las primeros 50m de un
monitoreo
LA MUESTRA
Ventajas del Muestreo
•Costo Reducido: Si los datos se obtienen únicamente de una

pequeña fracción del total, los gastos son menores que los que
realizará si se lleva a cabo un censo completo.
•Mayor Rapidez: Los datos pueden ser recolectados y
resumidos más rápidamente con una muestra que con una
numeración completa.
•Más Posibilidades: Para obtener la información en ciertos tipos
de encuesta es necesario utilizar los servicios de personal
altamente calificado o un equipo muy especializado.
•Mayor Exactitud: Al reducir el volumen de trabajo se puede
emplear, personal más capacitado y someterlo a una
capacitación intensiva, es más fácil así supervisar
cuidadosamente el trabajo de campo y el procesamiento de los
resultados, de esta forma se minimizaría errores.
LA MUESTRA
Requisitos de una buena muestra

LA MUESTRA
Sesgo y sus efectos
Los errores de medición y las no respuestas pueden producir

sesgos en los números que se calculan a partir de los datos:
•Preguntas mal redactadas.

•Los entrevistados tienen información imprecisa
•No regresan el cuestionario, ausencia de respuestas.
REPRESENTATIVIDAD DE LA MUESTRA
La fórmula cambia en función del universo:
 Universo Infinito. Mayor o Igual a 500 000.
n = Z2 p q
e2
 Universo Finito. Menor a 500 000.
n= Z2 p q N
e2 (N-1) + Z2 p q
 El nivel de confianza hay que expresarlo en valor de Z.

 90% de confianza = 1.65 (valor Z).
 Los parámetros a analizar son:

 N = Tamaño de la población.
 n = Tamaño de la muestra.
 Z2 = Nivel del confianza. (valor z)
 e2 = % de error.
 p = 50%.
 q = 50%
SOLUCION DE LA MUESTRA
De 600.000 datos la muestra es con un 95% de confianza

y 5% de margen de error:
n = Z2 p q
e2
n= 1.962 x 0.50 x 0.50 = 384 datos

0.052
De 50.000 datos, la es con un 84,1% de confianza y 7% de margen

de error, suponiendo que hay previos estudio del tema con 0.80
n= Z2 p q N
e2 (N-1) + Z2 p q
n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos

0.052 x (50.000-1) + 1.962 x 0.50 x 0.50
Razones para estudiar muestras en lugar
de poblaciones
 Ahorrar tiempo. Estudiar a menos individuos es evidente

que lleva menos tiempo.
 Como consecuencia del punto anterior ahorraremos costos.
 Estudiar la totalidad de los datos globales con una
característica determinada en muchas ocasiones puede ser
una tarea inaccesible o imposible de realizar.
 Aumentar la calidad del estudio. Al disponer de más tiempo
y recursos, las observaciones y mediciones realizadas a un
reducido número de individuos pueden ser más exactas y
plurales que si las tuviésemos que realizar a una población.
 La selección de muestras específicas nos permitirá reducir
la heterogeneidad de una población al indicar los criterios
de inclusión y/o exclusión
Datos
 Definición: Son los hechos que describen sucesos

y entidades.
 A un hecho simple se le denomina "data-ítem" o
elemento de dato.
 Los datos son comunicados por varios tipos de
símbolos tales como las letras del alfabeto,
números, movimientos de labios,
puntos y rayas, señales con la mano, dibujos, etc.
Estos símbolos se pueden ordenar y reordenar de
forma utilizable y se les denomina información
TIPOS DE DATOS
Datos
Cualitativos o Cuantitativos o
de Atributos numéricos
Discretos Continuos
Ejemplos:
•Tipos de imágenes •# de Variables •Serie de datos de TSM
satelitales •Cantidad de •Mediciones de variables en
•Tipo de Sensores embarcaciones para monitoreo
monitoreo
•Regiones •Pronósticos de lluvias
•Cantidad de Datos
01/07/1998
02/07/1998
03/07/1998
26,93
25
27
COMPORTAMIENTO DE
04/07/1998
05/07/1998
06/07/1998
26,6
26,46
25,46
UNA MUESTRA
07/07/1998 27,06
08/07/1998 27,06
09/07/1998 24,76
10/07/1998 24,93
11/07/1998 27,53
12/07/1998 26,66 28
13/07/1998 25,66
27.5
14/07/1998 26,53
27
15/07/1998 26,3
26.5
16/07/1998 26,26
26
17/07/1998 27,46
18/07/1998 25,83
25.5
19/07/1998 25,46 25
20/07/1998 26,66 24.5
21/07/1998 26,5 24
22/07/1998 25,16 23.5
23/07/1998 25,43 23
7/17/1998
7/9/1998
7/7/1998
7/25/1998
7/3/1998
7/13/1998
7/27/1998
7/31/1998
7/19/1998
7/23/1998
7/29/1998
7/1/1998
7/5/1998
7/11/1998
7/15/1998
7/21/1998
24/07/1998 25,9
25/07/1998 26,13
26/07/1998 26,13
27/07/1998 25,9
28/07/1998 25,36
29/07/1998 24,8
30/07/1998 27,2
31/07/1998 25,43
PASOS EN UN ESTUDIO ESTADISTICO
 Plantear hipótesis sobre una población

 Las temperaturas tienen “más bajas en época húmeda”
que en época seca
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
PASOS EN UN ESTUDIO ESTADISTICO
 Recoger los datos (muestreo) „

 ¿Estratificado? ¿Sistemáticamente?
 Describir (resumir) los datos obtenidos †
 tiempo medio de baja en temperaturas y no
(estadísticos)
 †% de bajas por temperatura y presión atmosférica
(frecuencias), gráficos,...
REFERENCIAS
 Conceptos de Estadística
 http://tarwi.lamolina.edu.pe/~fmendiburu/index-
filer/academic/Estadistica/parte1.pdf
 http://www.mat.uda.cl/hsalinas/cursos/2011/2do/clase1.p
df
R es un lenguaje interpretado (como Java) y no
compilado (como C, C++, Fortran, Pascal, . . . ), lo
cual significa que los comandos escritos en el
teclado son ejecutados directamente sin
necesidad de construir ejecutables.
Rstudio
• Es un entorno de desarrollo integrado (IDE)
para R
• Es software libre
• Es sencillo e intuitivo, para proporcionar un
entorno amigable.
Interfaz de RStudio
Introducción a RStudio
Introducción a RStudio
Objetos en R
R tiene cinco clases de objetos básicos:
 Character
 Numeric
 Integer
 Complex
 Logical (TRUE/FALSE)
El objeto más común es un vector. Un vector solo puede

contener objetos de la misma clase. Se puede crear un vector
vacío utilizando la función vector().
Las listas son vectores con objetos de distinta clase. Por eso son
muy utilizadas.
Estructuras de datos en R
 Vectores
 Valores faltantes
 Factores
 Factores ordenados
 Matrices y arrays
 Listas
 Data Frames
Asignación de valores
x=1# con el = se asignan valores a las variables los cuales pueden numéricos,
alfanumericos, etc.
print(x)# la función print nos muestra los que esta almacenado en la variable x
saludo="hola"# cuando se usa valores que no son numéricos es necesarios colocarlos
entre "" para almacenarlos
z=1:20# crea un vector con una secuencia de números enteros del 1 al 20
Y=c(1,2,3,4,5,6)# el comando c() sirve para crear vectores los cuales pueden contener
valores enteros, lógicos, carácter, y complejos
Y# muestra los valores almacenados en esta variables que acabamos de crear
m=vector("complex",length=5)
m #muestra el valor almacenado en la variable m
y=0:5 # creamos un vector con valores numéricos desde 0 hasta 5

class(y) # el comando class nos muestra el tipo de objetos que almacenamos en y
y # muestra el valor almacenado en la variable o vector y
El simbolo de 2ptos, situado entre 2 números, constituye un vector de modo sencillo

 El nivel de confianza hay que expresarlo en valor de Z.

 Los parámetros a analizar son:

 N = Tamaño de la población.
 n = Tamaño de la muestra.
 Z2 = Nivel del confianza. (valor z)
 e2 = % de error.
 p = 50%.
 q = 50%
De 50.000 datos, la es con un 90,0% de confianza y 7% de margen

de error, suponiendo que hay previos estudio del tema con 0.80
n= Z2 p q N
e2 (N-1) + Z2 p q
n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos

0.052 x (50.000-1) + 1.962 x 0.50 x 0.50
En caso de valores alfa numéricos, los elementos van entre comillas dobles“”
nombre.mes=c("Enero","Febrero","Marzo","Abril","Mayo","Junio","Julio","Agosto","
Septiembre","Octubre","Noviembre","Diciembre") # creamos un vector con valores
alfanumericos desde Enero hasta Diciembre
nombre.mes[c(1,4,6,8)] el comando c() sirve para crear vector
 Vectores
Se puede construir un vector de tipo numérico, lógico o carácter.
Ejemplos de vectores son:
c(1,5,3,2) #Crea un vector numérico de 4 elementos

c(T,F,T,T,F) #Crea un vector lógico de 5 elementos
c(“Esmeraldas”,“Manta”,“La Libertad”,“Pto Bolivar”) #Crea un vector de
4 cadenas de caracteres
 Vectores
La letra c significa “concadenar”, por lo que vamos a crear y a
concadenar 2 vectores:
La primera orden crea un vector formado por

los números 1,3,5 y lo asigna a la variable x. El
operador de asignación se escribe <- , o =.
x=c(1,3,5) #Crea un vector numérico de 3 elementos impares

y=c(2,4,6) #Crea un vector numérico de 3 elementos pares
c(x,y) #Concadena 2 vectores numéricos de 6 cadenas de caracteres
Extracción de elementos de un vector
1. Especificar los índices de los elementos a extraer:
x=c(18,11,12,10,7,6,17)
x[c(1,3,6)]
[1] 18 12 6 La orden anterior extrae los elementos 1, 3 y 6 del vector.
Un número negativo precediendo al índice significa exclusión. Con el vector x creado

anteriormente:
x[-3]
[1] 18 11 10 7 6 17
x[-c(1,2)]
[1] 12 10 7 6 17

2. Especificar una condición lógica. En el caso del vector x creado arriba:
x>10
[1] TRUE TRUE TRUE FALSE FALSE FALSE TRUE
x[x>10]
[1] 18 11 12 17
Generar un Script
Generar un Script

3. En el caso de un vector de variables, podemos utilizar los nombres de las
variables para extraer los elementos:
A=1 En el ejemplo precedente, creamos tres variables A, B y C con los

B=3 valores 1, 3 y 5 respectivamente.
C=5 A continuación creamos un vector y formado por dichas
y=c(A,B,C) variables, y después extraemos el valor referenciado por la
y variable B.
[1] 1 3 5
Es decir el valor referenciado por la variable B es el 3 en
y[B] donde me indica y[B] que es lo mismo que decir y[3] eso es
[1] 5 que busque en el vector el valor que se encuentra en el tercer
puesto, ese valor es el 5
Taller
Crear un Script con nombre Talle1, en el codigo fuente generar un vector
que contenga los registos siguientes de Temperatura en °C.
 35
 21
 27
 25
 27
 NaN

 28
 NaN
a. Presentar solo los valores numéricos

b. Extraer los NaN y espacio en blanco
c. Mostrar si los valores son mayores a 25 °C

Seminario - Nociones Estadistica2 Clase 2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Seminario - Nociones Estadistica2 Clase 2

Încărcat de

Drepturi de autor:

Formate disponibile

Seminario-Taller

ING. FREDDY VARGAS.

 Realiza el estudio sobre la población completa,

 Realiza el estudio descriptivo sobre un subconjunto

Investigación cuantitativa muy superficial que nos ayuda a recopilar datos

El sondeo maneja un nivel de confianza de 1 a 84% razón por la cual no tiene

Investigación cuantitativa que nos ofrece resultados efectivos mediante los

El muestreo debe manejar un nivel de confianza de 90 a 99% para su mayor

Según el nivel de confianza y margen de error de la investigación se determina

El censo obligatoriamente debe manejar un nivel de confianza de 99,1 a 99,99%,

Esta es una de las investigaciones mas costosas.

 Definición: Es un conjunto de todos los posibles

 Definición: Es una porción o parte de una población

Ventajas del Muestreo

•Costo Reducido: Si los datos se obtienen únicamente de una

Requisitos de una buena muestra

Sesgo y sus efectos

Los errores de medición y las no respuestas pueden producir

•Preguntas mal redactadas.

La fórmula cambia en función del universo:

 Universo Infinito. Mayor o Igual a 500 000.

 Universo Finito. Menor a 500 000.

 El nivel de confianza hay que expresarlo en valor de Z.

 Los parámetros a analizar son:

De 600.000 datos la muestra es con un 95% de confianza

n= 1.962 x 0.50 x 0.50 = 384 datos

De 50.000 datos, la es con un 84,1% de confianza y 7% de margen

n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos

 Ahorrar tiempo. Estudiar a menos individuos es evidente

 Definición: Son los hechos que describen sucesos

 Plantear hipótesis sobre una población

 Recoger los datos (muestreo) „

El objeto más común es un vector. Un vector solo puede

y=0:5 # creamos un vector con valores numéricos desde 0 hasta 5

El simbolo de 2ptos, situado entre 2 números, constituye un vector de modo sencillo

 El nivel de confianza hay que expresarlo en valor de Z.

 Los parámetros a analizar son:

De 50.000 datos, la es con un 90,0% de confianza y 7% de margen

n= 1.962 x 0.50 x 0.50 x 50.000 = 381 datos

c(1,5,3,2) #Crea un vector numérico de 4 elementos

La primera orden crea un vector formado por

x=c(1,3,5) #Crea un vector numérico de 3 elementos impares

Un número negativo precediendo al índice significa exclusión. Con el vector x creado

Extracción de elementos de un vector

Extracción de elementos de un vector

A=1 En el ejemplo precedente, creamos tres variables A, B y C con los

a. Presentar solo los valores numéricos

S-ar putea să vă placă și