Documente Academic
Documente Profesional
Documente Cultură
empresas de TI a encontrar os
melhores candidatos, cruzando
datasets do GitHub e
StackOverflow
CIN - UFPE
Aluno: Matheus de Souza Lins
Orientador: Vinicius Cardoso Garcia
Avaliador: Leandro Maciel Almeida
Roadmap
1. Apresentação Pessoal
2. Motivação
3. Cenário de dados atualmente
4. O problema
5. Metodologia usada
6. Obtenção dos dados
7. Solução
8. Trabalhos Futuros
Quem sou eu
● Graduando em Sistemas de
Informação
● Analista de Sistemas no
Serasa Consumidor
● Um grande entusiasta Python
e Iniciante na área de Data
Science
Matheus Lins
Motivação
Motivação
Imagem ilustrativa
Cenário de dados atualmente
Cenário de dados atualmente
Number of social network users worldwide
from 2010 to 2021 (in billions) ● Crescente números de
usuários da Internet
● Quantidade de dados é
gigante
Fonte: Statista
https://www.statista.com/statistics/278414/number-of-worldwide-social-
network-users/
Cenário de dados atualmente
Number of monthly active Facebook users
worldwide as of 3rd quarter 2018 (in millions)
● Crescimento de usuários do
Facebook a cada 3 meses de
2008 a 2018
https://www.statista.com/statistics/264810/number-of-monthly-active-
facebook-users-worldwide/
Cenário de dados atualmente
Number of monthly active Instagram users
from January 2013 to June 2018 (in millions)
● Crescimento mensal do
Instagram de 2013 a 2018
https://www.statista.com/statistics/253577/number-of-monthly-active-
instagram-users/
Cenário de dados atualmente
How Much Data is Created on the
Internet Each Day?
Fonte: MicroFocus
https://blog.microfocus.com/how-much-data-is-created-on-the-internet-
each-day/
Cenário de dados atualmente
Limpa Nome - A plataforma digital de
negociação de dívidas do Serasa Consumidor
https://epocanegocios.globo.com/Inspiracao/Carreira/not
icia/2015/05/como-uma-contratacao-errada-afeta- http://www.administradores.com.br/artigos/carreira/profissionais-de-ti-os-
empresa.html desafios-na-contratacao/72795/
https://www.cio.com/article/3279767/hiring-and-staffing/10-most-difficult-it-jobs-for-employers-to-fill.html
O Problema O custo real de contratar a pessoa errada. Uma
pesquisa realizada pela National Business Research
Institute em 2016.
https://www.stackoverflowbusiness.com/blog/4-ways-tech-recruiters-should-
use-github-to-evaluate-developers
No GitHub Dados do GitHub 2018:
https://octoverse.github.com/
● 31 Milhões de Desenvolvedores
● 2,1 Milhões de Organizações
● 96 Milhões de Repositórios
● 200 Milhões de Pull Requests
No Stackoverflow
https://stackoverflow.com/jobs
Metodologia Usada
Metodologia Usada
OSEMN Pipeline O - Obtaining our data (Obter os dados)
https://towardsdatascience.com/a-beginners-guide-to-the-data-science-pipeline-
a4904b2d8ad3
Obtenção de Dados
Do GitHub GitHub Developer
https://developer.github.com/
https://developer.github.com/v3/
Do Stackoverflow
import re O StackOveflow não possui uma API
especificamente para os Jobs. Então,
import os
class StackOverflowSpider(Spider):
name = 'stkflow'
city = None
distance = None
job = None
1 N
GitHub User Has Repository
Modelo Entidade
Relacionamento que
gera suas respectivas
tabelas
Job Offer
Exploração dos dados
Exploração dos dados - Baseado em Métricas
Do GitHub Do Stackoverflow
Passo a Passo
1. Aplicação de uma rede neural para uma melhor dedução dos números finais.
2. Aplicação de um algoritmo de linguagem natural na descrição dos jobs.
3. Criação de gráficos para facilitar o entendimento dos números
4. Criação da área do recrutador técnico na plataforma
Obrigado! Dúvidas?