Python: tudo o que voc� j� deveria saber sobre Unicode

�lvaro Justen aka Turicas

8� encontro da Comunidade Python Brasileira
Rio de Janeiro
23/11/2012

Agora vocês...

Quem já desenvolve software em Python?
Quem sabe lidar com problemas de codificação de caracteres?
Quem tem acentos no nome (em qualquer um deles)?

Tudo começou com um ônibus...

Mas eu aprendi a não usar mais acentos nessa empresa!

Porém os erros continuaram acontecendo... :-/

Nem as URLs passaram desapercebidas...

Nem as URLs passaram desapercebidas... [2]

Unicode Consortium

unicode.org
Tabela-referência de símbolos
1.114.112 code points:
- 249.763 (22,4%) assigned
- 864.349 (77,6%) unassigned
Regras para propriedades dos caracteres, normalização, decomposição etc.

Ian Albert: impressão da tabela Unicode

Unicode [2]

Para "materializar": usar algum encoding!
Serializar/desserializar
Recomendado: UTF-8 (Unicode Transformation Format, 8-bit variable length)
Por que existem encodings diferentes?

Como resolver isso?

Sabendo o encoding da informação recebida
Explicitando o encoding da informação enviada
Regras de ouro:
- Decoding o mais rápido possível
- Trabalhe sempre com a representação em Unicode
- Encoding o mais tarde possível

.encode/.decode

Python 2!

.encode: unicode → str
.decode: str → unicode

Entendendo o que está codificado

Python 2!

>>> nome = 'álvaro'
>>> nome2 = u'álvaro'

>>> print len(nome), type(nome)
>>> print nome[0], nome[1]
>>> print len(nome2), type(nome2)
>>> print nome2[0], nome2[1]

>>> print nome == nome2
>>> print nome.decode('utf-8') == nome2

>>> print nome.upper(), type(nome.upper())
>>> maiusculo = nome.decode('utf-8').upper()
>>> print maiusculo, type(maiusculo)

ASCII

128 símbolos
000-031: caracteres de controle
048-057: 0-9
065-090: A-Z
097-122: a-z
Não existe: áàãâä ç ć ...

ASCII [2]

Imprimindo toda a tabela:

>>> for numero in range(128):
...    print numero, chr(numero), ord(chr(numero))

Codificando o 'á':

>>> print 'á'.decode('utf-8').encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe1' in position 0: ordinal not in range(128)

UTF-8

Unicode Transformation Format 8
Robert Pike e Kenneth Thompson
1.992
RFC 3629

UTF-8 [2]

Variable-length, 1-4 bytes
Compatível binário com ASCII
Representa toda a tabela Unicode
BOM desabilitado por padrão no Python (Byte-Order-Marker, byte-endianness detection) -- UTF-16 e 32 possuem
UTF-32 é mais rápido, mas mais espaçoso

Tabelas incompatíveis

Binariamente e em tamanho

Tabela 1
Símbolo	Código
A	1
B	2
C	3
D	4

Tabela 2
Símbolo	Código
A	4
B	3
C	2
D	1
E	5

>>> print 'python'.decode('utf-8').encode('ascii')
>>> print 'abcdefghijklmnopqrstuvwxyz'.decode('cp1140')
>>> print 'abcdefghijklmnopqrstuvwxyz'.decode('rot13')
>>> print 'abcdefghijklmnopqrstuvwxyz'.encode('base64')

Tabelas incompatíveis [2]

>>> print chr(226).decode('iso-8859-15')
â
>>> print chr(226).decode('iso-8859-7')
β
>>> print chr(226).decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in 
  File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 0: unexpected end of data

Fazendo slugs direito

Resolvendo:

>>> from unicodedata import normalize
>>> new_string = normalize('NFKD', u'Álvaro')
>>> print new_string.encode('ascii', 'ignore')
Alvaro

Entendendo:

>>> print type(new_string), len(new_string)
<type 'unicode'> 7
>>> print new_string.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in 
UnicodeEncodeError: 'ascii' codec can't encode character u'\u0301' in position 1: ordinal not in range(128)

Fazendo slugs direito [2]

Parâmetro `'errors'`:

>>> print new_string.encode('ascii', 'replace') # default: 'strict'
A?lvaro
>>> print new_string.encode('ascii', 'xmlcharrefreplace')
A&#769;lvaro
>>> print new_string.encode('ascii', 'backslashreplace')
A\u0301lvaro

base64: encodando encodados

aka "ASCII armor"

>>> u'Álvaro'
u'\xc1lvaro'
>>> u'Álvaro'.encode('utf-8').encode('base64')
'w4FsdmFybw==\n'
>>> 'w4FsdmFybw=='.decode('base64')
'\xc3\x81lvaro'
>>> 'w4FsdmFybw=='.decode('base64').decode('utf8')
u'\xc1lvaro'

Cuidado com a Apple!

>>> eh = unichr(0x0065) + \
         unichr(0x0301)
>>> eh2 = unichr(0x00e9)
>>> print eh, eh2
>>> print eh == eh2 # WTF?
>>> print eh.encode('utf8')
>>> print eh2.encode('utf8')
>>> # composed
>>> print normalize('NFC', eh)
>>> print normalize('NFC', eh2)
>>> # decomposed
>>> print normalize('NFKD', eh)
>>> print normalize('NFKD', eh2)

E no Python 3? #F7U13

Python 2:

>>> len('álvaro')
7
>>> len(u'álvaro')
6

Python 3:
```
>>> len('álvaro')
6
```
WHY? :-/
unicode → str
str → bytes
```
álvaro = 'pythonista' # works! \o/
```

Dicas

Use as regras de ouro!
Faça testes de codificação
Verifique o fallback da fonte (lembra da Laís?)
- Free/open-source Unicode fonts
Verifique se você pode representar o símbolo que você precisa na codificação desejada
- Nem todos encodings têm compatibilidade binária (nem entre si, nem com ASCII)!
GNU/Linux (X.org): Ctrl + Shift + u + codepoint

Dicas [2]

Verifique qual encoding você recebeu
- A biblioteca chardet pode ajudar
Explicite qual o encoding você está usando
- Não imprima objetos unicode (print usa sys.stdout.encoding quando recebe objeto unicode)
- Use o header # coding: ... (PEP-0263)
- Não misture encodings
- Use codecs.open (Python 2)
Frameworks/bibliotecas deveriam fazer o trabalho sujo

Dicas [3]

Navegue na tabela, conheça os metadados:

>>> print unicodedata.name(u'Á')
LATIN CAPITAL LETTER A WITH ACUTE
>>> nome = unicodedata.name(u'Á')
>>> simbolo = unicodedata.lookup(nome)
>>> print simbolo, type(simbolo)
Á <type 'unicode'>
>>> print u'\N{LATIN CAPITAL LETTER A WITH ACUTE}'
Á

Conheça os módulos encodings e codecs (biblioteca padrão)
Use a representação em Unicode (u'\u03b2')

Curso online - PyCursos + PingMind

pingmind.com.br/python-unicode

Python: tudo o que voc� j� deveria saber sobre Unicode

Álvaro Justen, prazer!

Agora vocês...

Tudo começou com um ônibus...

Porém os erros continuaram acontecendo... :-/

E não só comigo...

Erros em todos os lugares

Até no Facebook!

Nem as URLs passaram desapercebidas...

Nem as URLs passaram desapercebidas... [2]

Unicode Consortium

Ian Albert: impressão da tabela Unicode

Unicode [2]

Como resolver isso?

.encode/.decode

Python 2!

Entendendo o que está codificado

Python 2!

ASCII

ASCII [2]

UTF-8

UTF-8 [2]

Tabelas incompatíveis

Binariamente e em tamanho

Tabelas incompatíveis [2]

Fazendo slugs direito

Fazendo slugs direito [2]

Parâmetro `'errors'`:

base64: encodando encodados

aka "ASCII armor"

Cuidado com a Apple!

E no Python 3? #F7U13

Dicas

Dicas [2]

Dicas [3]

Referências

Curso online - PyCursos + PingMind

Python: tudo o que voc� j� deveria saber sobre Unicode

Álvaro Justen, prazer!

Agora vocês...

Tudo começou com um ônibus...

Porém os erros continuaram acontecendo... :-/

E não só comigo...

Erros em todos os lugares

Até no Facebook!

Nem as URLs passaram desapercebidas...

Nem as URLs passaram desapercebidas... [2]

Unicode Consortium

Ian Albert: impressão da tabela Unicode

Unicode [2]

Como resolver isso?

.encode/.decode

Python 2!

Entendendo o que está codificado

Python 2!

ASCII

ASCII [2]

UTF-8

UTF-8 [2]

Tabelas incompatíveis

Binariamente e em tamanho

Tabelas incompatíveis [2]

Fazendo slugs direito

Fazendo slugs direito [2]

Parâmetro 'errors':

base64: encodando encodados

aka "ASCII armor"

Cuidado com a Apple!

E no Python 3? #F7U13

Dicas

Dicas [2]

Dicas [3]

Referências

Curso online - PyCursos + PingMind

Parâmetro `'errors'`: