Dados Abertos Acessíveis com Python, rows e Brasil.IO


Turicas aka Álvaro Justen


29 de outubro de 2019

$ whoami

Turicas, prazer! =)

Sigam-me os bons:

{twitter,
github,
youtube,
slideshare,
instagram}
/turicas

turicas@brasil.io

## Agenda - Dados abertos - O que são - Aplicações - Problemas - Ferramentas para trabalhar com dados - Python - rows - Brasil.IO

Slides em:
bit.ly/turicas-edd

Software Livre & Python

(desde 2004/2005)

       

Dados Abertos

Dados abertos são dados que podem ser livremente usados, reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras. ”
-- OpenData Handbook (definição de Open Definition)


Mais detalhes:


(em conjunto com Juan Torres, para correio24horas.com.br)
Acesse a matéria

(em conjunto com Giulliana Biaconi, para generonumero.media)
Leia a matéria

(em conjunto com Adriano Belisário, para apublica.org)
Acesse a matéria

Data Pipeline


schoolofdata.org/methodology

Maior parte do tempo dos projetos de análise de dados:

Dado pago! (???)

Estrelando: Receita Federal

Tweet de Turicas
https://twitter.com/turicas/status/1019272233095745537

Lentidão ao baixar (ETA: 4d)

Estrelando: Receita Federal


twitter.com/turicas/status/1114185311372873729

Formato Proprietário

Estrelando: Receita Federal

Dado disperso e não padronizado

Estrelando: Conselho Nacional de Justiça

Tweet de Turicas

Formato não estruturado

Estrelando: INEMA/BA

## Qualidade dos Dados ![](images/5-star-steps.png) [5stardata.info](http://5stardata.info/)
## Problemas de Usabilidade de Dados - **Formato** (qualidade técnica) - Exemplo: Boletim de balneabilidade em PDF (INEMA/BA) - **Dispersão** - Exemplo: Filiações partidárias em 945 ZIPs com CSVs (TSE) - **Quantidade** de dados - Exemplo: 18 milhões de sócios (RFB) - **Domínio** da área - Exemplo: o que é unidade eleitoral? (TSE)
## Soluções - **Educação tecnológica** - Do-it-yourself - Interdisciplinaridade - **Libertação de dados** - Dados menos dispersos - Formato aberto - **Melhorar ferramentas** - Software livre - **Pressão por dados melhores** - Dar visibilidade aos problemas - Usar a LAI

Educação Tecnológica

Curso Gratuito (3.200+ alunos)

Foto curso Python Knight Center
Acesse o material

Educação Tecnológica [2]

Curso Gratuito (4.300+ alunos)

Foto curso Jornalismo de Dados
Acesse o material

Python!


Acesse a matéria

Melhorar ferramentas

rows convert arquivo.pdf arquivo.csv Biblioteca rows convertendo PDF para CSV
github.com/turicas/balneabilidade-brasil
## Outros exemplos - `rows print ...` - `rows schema brasil.csv` - `rows query ...` - `rows pgimport ...` - `rows pgexport ...`
## Usablidade Libertação de dados resolve: - [x] Formato - [x] Dispersão - [ ] Quantidade de dados - [ ] Domínio da área

Brasil.IO

O Brasil em dados libertos

Logo Brasil.IO

Exemplos:

Brasil.IO - Usando a API

Veja o código para baixar os sócios data uma lista de CNPJs
## Tecnologias utilizadas - Captura, normalização e limpeza: - [Python3](https://www.python.org/) - [scrapy](https://scrapy.org) - [rows](https://github.com/turicas/rows) - Backend: - [Python3](https://www.python.org/) - [Django](https://www.djangoproject.com/) - [PostgreSQL](https://www.postgresql.org/) - [Neo4J](https://neo4j.com/) (em breve AgensGraph) - Servidores: OVH Canadá - PaaS: dokku
## Contribua com o Brasil.IO! ### [brasil.io/colabore](https://brasil.io/colabore) - Sugerindo novos *datasets* - Melhorando os scripts de coleta já existentes - Criando novos scripts de coleta - Publicando tutoriais no [blog.brasil.io](https://blog.brasil.io/) - **Doando** no [apoia.se/brasilio](https://apoia.se/brasilio)

CODA.BR 2019

CODA.BR 2019
23 e 24 de novembro, São Paulo/SP
coda.escoladedados.org

Dúvidas?

“ Restringir acesso a dados públicos é elitizar a democracia. ”
-- Manifesto Brasil.IO

{twitter,
github,
youtube,
slideshare,
instagram}
/turicas

turicas@brasil.io

Slides em:
bit.ly/turicas-edd