Documente Academic
Documente Profesional
Documente Cultură
Características de Python
Código abierto - gratis para instalar
Comunidad en línea
Utilizaremos Spyder
como entorno de
programación
Conceptos Básicos
Listas
Strings
Tuplas
Diccionarios
Estructuras de Control
Librerías
Listas
La lista se puede definir indicando sus valores separados por comas
Listas
La lista se puede definir indicando sus valores separados por comas
import pandas as pd
import os
os.chdir('../Datos//’)
datos = pd.read_csv('Globos.csv')
# -- METADATOS –
print(datos.describe())
01_leerArch_Globos.py
Cómo leer un archivo csv Globos_nros.csv
import pandas as pd
import os
os.chdir('../Datos//’)
datos = pd.read_csv('Globos_nros.csv')
# -- METADATOS –
print(datos.describe()) Si hay atributos
numéricos, por
defecto no muestra
los cualitativos
Describe() 01_leerArch_Globos_nros.py
import pandas as pd
import numpy as np
import os
os.chdir('../Datos//')
datos = pd.read_csv('Globos_nros.csv')
# Si hay atrib.numéricos, muestra sólo esos
print(datos.describe())
# Sólo los atributos categóricos
print(datos.describe(include=[np.object]))
# Sólo atributos numéricos
print(datos.describe(include=[np.number]))
# Todos los atributos
print(datos.describe(include='all'))
Ejercicio Premios.csv
weblidi.info.unlp.edu.ar/catedras/MD_SI/
Ejercicio Premios.csv
El archivo Premios.csv contiene 178 premios otorgados
weblidi.info.unlp.edu.ar/catedras/MD_SI/
Cómo leer un archivo csv 01_LeerArchivo.py
import pandas as pd
import numpy as np
import os
os.chdir('../Datos//')
nomArch = 'Premios.csv'
with open(nomArch, 'rb') as f:
result = chardet.detect(f.read())
print(datos.describe())
print('\n')
print(datos['genre1'].describe()) 01_LeerArchivo.py
Diagramas de Caja - Premios
plt.figure()
barras = pd.value_counts(datos['genre1'])
plt.pie(barras,labels=barras.index)
plt.title('Género')
Diagrama de dispersión 01_Diag_Dispersion.py
plt.scatter(datos['duration'], datos['nominations'])
plt.ylabel('Nominations')
plt.xlabel('Duration')
Relación de Atributos
Cuando de trabaja con atributos numéricos resulta de interés medir la
correlación lineal entre ellos.
El coeficiente de correlación lineal entre dos atributos numéricos es un
valor entre -1 y 1 que indica cuán “alineados” están los valores de
ambas variables.
Coeficiente de correlación lineal
Correlación Positiva Correlación Negativa
Coeficiente de correlación lineal
El coeficiente de correlación valdrá 0 cuando no haya ningún tipo de
relación lineal entre las variables.
Note que esto no implica que sean independientes (podrían tener otro
tipo de relación)
Coeficiente de correlación lineal
Dados dos atributos 𝐴 y 𝐵 el coeficiente de correlación lineal entre
ellos se calcula de la siguiente forma
𝐶𝑜𝑣(𝐴, 𝐵)
𝐶𝑜𝑟𝑟 𝐴, 𝐵 =
𝜎𝐴 𝜎𝐵
𝐶𝑜𝑣 𝐴, 𝐵 = 𝑎𝑖 − 𝜇𝐴 𝑏𝑖 − 𝜇𝐵 /𝑁
𝑖=1
𝜎𝐴 = 𝑎𝑖 − 𝜇 𝐴 2 /𝑁
𝐼=1
Coeficiente de correlación lineal
INTERPRETACION
Si 0.5≤ abs(Corr(A,B)) < 0.8 se dice que A y B tienen una
correlación lineal débil.
Si abs(Corr(A,B)) > 0.8 se dice que A y B tienen una correlación
lineal fuerte
Si abs(Corr(A,B))<0.5 se dice que A y B no están correlacionados
linealmente. Esto NO implica que son independientes, sólo que entre
ambos no hay una correlación lineal.
Matriz de correlación lineal
Es una matriz simétrica cuyas filas y columnas corresponden los
atributos numéricos y sus elementos son los coeficientes de correlación
correspondientes a cada par.
Nótese que los atributos deben ser numéricos para poder calcular la
correlación entre ellos.
Nota: Si son categóricos y se utiliza el operador “Correlation matrix” de
Rapid Miner se aplicará automáticamente una numerización de entero único.
Matriz de correlación 01_Correlacion.py
Datos2 = datos[['Year','Age','nominations’,\
'rating','duration']]
print(datos2.corr())
sns.heatmap(datos2.corr(), square=True, annot=True)
Matriz de correlación