Realmente precisamos de big data?
Álvaro Justen
15 junho de 2019 - Curitiba/PR
$ whoami
Turicas, prazer! =)
Sigam-me os bons:
“
Restringir acesso a dados públicos é elitizar a democracia.
”
Curso para 3.000+ jornalistas
O que é big data?
“
Big data is a field that treats ways to analyze, systematically
extract information from, or otherwise deal with data sets that
are too large or complex to be dealt with by traditional
data-processing application software.
”
-- Wikipedia
## Programas tradicionais de processamento de dados
- Não é só o Excel!
- Sistemas de gestão de bancos de dados:
- SQLite
- PostgreSQL
- MySQL
- MongoDB
- Riak
- Oracle
- ...
- Sistemas "não tradicionais" já conseguem gerenciar gigabytes de dados facilmente
# Não abrir no Excel não significa ser big data!
# Qual o tamanho dos dados?
Dados Abertos
“
Dados abertos são dados que podem ser livremente usados,
reutilizados e redistribuídos por qualquer pessoa -
sujeitos, no máximo, à exigência de atribuição da fonte e
compartilhamento pelas mesmas regras.
”
-- OpenData
Handbook (definição de Open Definition)
Mais detalhes:
## Tamanho de alguns datasets
- Salários dos magistrados
- 500k registros
- 250 MB
- Candidaturas (1996-2018)
- 2,9M registros
- 2 GB
- Filiações partidárias
- 23M registros
- 7,25 GB
## Tamanho de alguns datasets (2)
- Empresas brasileiras
- 40M registros
- 12 GB
- Sócios das empresas
- 18M registros
- 3,7 GB
- Gastos diretos Gov Federal
- 92M registros
- 70 GB
## O que significa, então, big data?
- Abre no Excel. Definitivamente não!
- São 10GB! Não.
- Mais de 100GB! Também não.
- 1TB! Ainda não!
- Mais de 2TB. **Talvez**.
# Mas só falam de big data...
Companies don't need bigdata
They need right data
hbr.org
## Preciso de big data para machine learning?
- Não!
- Para deep learning: talvez.
# O que dá pra fazer sem big data?
## Conclusões
- Big data **não é** o que muitos pensam
- **Poucas empresas** realmente precisam nesse momento
- Existem **aplicações incríveis** fora do big data
- **Não sou contra** big data