Realmente precisamos de big data?


Álvaro Justen


Encontro GEDAI

15 junho de 2019 - Curitiba/PR

$ whoami

Turicas, prazer! =)

Sigam-me os bons:

{twitter,
github,
youtube,
slideshare,
instagram}
/turicas

turicas@brasil.io

Brasil.IO

“ Restringir acesso a dados públicos é elitizar a democracia. ”
Logo Brasil.IO

Curso para 3.000+ jornalistas

Foto curso Python Knight Center

O que é big data?

“ Big data is a field that treats ways to analyze, systematically extract information from, or otherwise deal with data sets that are too large or complex to be dealt with by traditional data-processing application software. ”
-- Wikipedia
## Programas tradicionais de processamento de dados - Não é só o Excel! - Sistemas de gestão de bancos de dados: - SQLite - PostgreSQL - MySQL - MongoDB - Riak - Oracle - ... - Sistemas "não tradicionais" já conseguem gerenciar gigabytes de dados facilmente
# Não abrir no Excel não significa ser big data!
# Qual o tamanho dos dados?

Dados Abertos

Dados abertos são dados que podem ser livremente usados, reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras. ”
-- OpenData Handbook (definição de Open Definition)


Mais detalhes:

## Tamanho de alguns datasets - Salários dos magistrados - 500k registros - 250 MB - Candidaturas (1996-2018) - 2,9M registros - 2 GB - Filiações partidárias - 23M registros - 7,25 GB
## Tamanho de alguns datasets (2) - Empresas brasileiras - 40M registros - 12 GB - Sócios das empresas - 18M registros - 3,7 GB - Gastos diretos Gov Federal - 92M registros - 70 GB
## O que significa, então, big data? - Abre no Excel. Definitivamente não! - São 10GB! Não. - Mais de 100GB! Também não. - 1TB! Ainda não! - Mais de 2TB. **Talvez**.
# Mas só falam de big data...

Startup Bullshit

DON'T BELIEVE THE HYPE


southpark.cc.com

Companies don't need bigdata

They need right data


hbr.org

E agora?

LGPD só faz sentido com big data?


twitter.com/turicas/status/1139512328590962688
## Preciso de big data para machine learning? - Não! - Para deep learning: talvez.
# O que dá pra fazer sem big data?

Supremo em Números


EMAp/Escola de Direito FGV
fgv.br/supremoemnumeros

(em conjunto com Giulliana Biaconi, para generonumero.media)
Leia a matéria

Rua: substantivo (ainda) masculino


(em conjunto com Natália Mazotte, para generonumero.media)
youtu.be/7yQ8U2tFFq4

(em conjunto com Adriano Belisário, para apublica.org)
Acesse a matéria
## Conclusões - Big data **não é** o que muitos pensam - **Poucas empresas** realmente precisam nesse momento - Existem **aplicações incríveis** fora do big data - **Não sou contra** big data

Obrigado pela atenção (:


{twitter,
github,
youtube,
slideshare,
instagram}
/turicas

turicas@brasil.io