PyPLN: Processamento de linguagem natural com Python

Álvaro Justen aka Turicas

8º Encontro da Comunidade Brasileira de Python
Rio de Janeiro
24/11/2012

Álvaro Justen, prazer!

{twitter.com, github.com, youtube.com}/turicas
turicas.info
alvaro.justen@fgv.br

emap.fgv.br
github.com/NAMD

www.CursoDeArduino.com.br

Roteiro

PLN/NLP - Natural Language Processing
NLTK
PyPLN
- Arquitetura
- pypelinin
- Demonstração
- Futuro

Vocês...

Python?
NLP?
NLTK?

Processamento de Linguagem Natural

Inteligência artificial/linguística
Interação computador ↔ linguagem natural
Problemas a serem resolvidos:
- Marcação morfossintática
- Extração de entidades nomeadas
- Resolução de correferências

Processamento de Linguagem Natural [2]

Problemas a serem resolvidos: (continuação)
- Análise de discurso
- Tradução automática
- Geração de linguagem natural
- ...

NLTK

Natural Language ToolKit
Python! \o/
Fácil (NLTK book)
nltk.org
github.com/ntlk

Talk is cheap, show me the code!

Linus Torvalds

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good.""" #42
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

Em Inglês é "fácil"
Em Português é "fácil" (quer ver?)
Já pensou em Alemão?
E para frases?

>>> tagged = nltk.pos_tag(tokens)
>>> tagged
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'),
 ('Thursday', 'NNP'), ('morning', 'NN'), ('Arthur', 'NNP'),
 ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'),
 ('good', 'JJ'), ('.', '.')]

Part-of-speech tagging
Marcador treinado (corpora marcados)

>>> entities = nltk.chunk.ne_chunk(tagged)
>>> entities
Tree('S', [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'),
           ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'),
       Tree('PERSON', [('Arthur', 'NNP')]),
           ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'),
           ('very', 'RB'), ('good', 'JJ'), ('.', '.')])

Semântica
Ontologias

Processamento de Linguagem Natural [3]

Muitos problemas a serem resolvidos para um mesmo documento
E se você possuir muitos documentos?
E se você quiser relacionar as análises dos documentos?
E se você não puder esperar?

Concebido e iniciado por Flávio Codeço Coelho e Renato Rocha Souza
Financiado pelo Núcleo de Análise e Modelagem de Dados / EMAp / FGV
Atualmente desenvolvido por fccoelho, flavioamieiro, rrsouza e turicas
Arcabouço para todos projetos do NAMD

PyPLN: o que é?

Plataforma para processamento distribuído de linguagem natural
Nossa abordagem: distribuição massiva de jobs
Software livre (GPLv3)
Escrito em Python
github.com/NAMD/pypln
pypln.org
@pypln

pypelinin

Biblioteca (Python + ZeroMQ)
Spinoff do PyPLN
Gerencia distribuição de pipelines em um cluster
pypelin.in
Utilizada em outros projetos do NAMD
- Ótimo ambiente interdisciplinar para colaboração

pypelinin - Representação de uma pipeline

Pipeline = grafo direcionado acíclico (DAG)
Dependências de jobs representada por dicionário (hash table)

# coding: utf-8

from pypelinin import Job, Pipeline


pipeline = {Job('Extractor'): Job('Tokenizer'),
            Job('Tokenizer'): (Job('POS'), Job('FreqDist')),
            (Job('POS'), Job('FreqDist')): Job('Statistics')}

Entendeu ou quer que eu desenhe?

>>> with open('pipeline.dot', 'w') as dot_file:
...     dot_file.write(pipeline.to_dot())

$ dot -Tpng -opipeline.png pipeline.dot # graphviz rules

PyPLN: Exemplo de worker

# coding: utf-8

from pypelinin import Worker

from nltk import word_tokenize, sent_tokenize


class Tokenizer(Worker):
    requires = ['text']

    def process(self, document):
        text = document['text']
        tokens = word_tokenize(text)
        sentences = []
        for sentence in sent_tokenize(text):
            sentences.append(word_tokenize(sentence))
        return {'tokens': tokens, 'sentences': sentences}

pypelinin - Store

De onde os dados serão recuperados?
Onde os dados serão gravados?
Show me the code

PyPLN: Futuro

Análises a nível de corpus
Mais (e melhores) visualizações
Integração com o Palavras
- Regras versus estatísticos
Disponibilização de corpora marcados
Otimização de workers

PyPLN: Processamento de linguagem natural com Python

Álvaro Justen, prazer!

Roteiro

Vocês...

Processamento de Linguagem Natural

Processamento de Linguagem Natural [2]

NLTK

Processamento de Linguagem Natural [3]

PyPLN: o que é?

PyPLN: #comofaz?

PyPLN: arquitetura

pypelinin

pypelinin - Representação de uma pipeline

Entendeu ou quer que eu desenhe?

PyPLN: Exemplo de worker

pypelinin - Store

PyPLN: Futuro