BERTimbau NER - Brazilian Addresses (v8)
Modelo BERT para reconhecimento de entidades nomeadas (NER) em enderecos brasileiros, fine-tunado a partir do BERTimbau Base.
Entidades reconhecidas
| Tag | Descricao | Exemplo |
|---|---|---|
RUA |
Logradouro | Rua Augusta, Avenida Paulista, Travessa Acalanto |
NUMERO |
Numero | 123, S/N, N 209 |
BAIRRO |
Bairro | Jardim Santana, Centro, Harmonia |
CIDADE |
Cidade | Sao Paulo, Campinas, Salvador |
ESTADO |
Estado (UF) | SP, RJ, BA, RS |
CEP |
Codigo postal | 01404-001, 92320-750 |
COMPLEMENTO |
Complemento | BL 601, AP 302, ap 851 torre 8 |
REFERENCIA |
Ponto de referencia | EM FRENTE AO MERCADO LECO, OFICINA PAULO FREIRE |
Formatos suportados
O modelo foi treinado com 21 variacoes de escrita realistas, cobrindo:
- Formato padrao:
Rua Nome 123, Bairro, Cidade - UF - Maiusculo:
RUA DOUTOR MATTOS 373 BAIRRO CENTRO CIDADE RIO BONITO/ RJ - CIDADE/UF primeiro:
PIRACICABA/SP, RUA ALFREDO GUEDES, 1687, BAIRRO ALTO - Campos com labels:
Estrada dos Bandeirantes NUMERO: 1430 ; Bairro: Taquara - Complemento inline:
ap 851 torre 8, CEP 92035-012 - Referencia comercial:
...CAMPINAS - SP. POSTO IPIRANGA - Estilo Brasilia:
QN 5 LT 12, PLANO DIRETOR SUL, PALMAS - TO - Rural:
ESTRADA MUNICIPAL KM 5, ZONA RURAL, SANTA MARIA - RS - Minusculo com barras:
rua barao sao Francisco 178 /andarai / rio de janeiro -rj - CEP como campo:
CEP:77025185 Cidade:Palmas Rua:ARSE 140
Dados de treino
O modelo foi treinado com dados de enderecos extraidos do OpenStreetMap (Overpass API), cobrindo 134.114 enderecos reais de 50+ cidades brasileiras. Os dados foram convertidos para formato NER (tokens + BIO tags) com 21 variacoes de escrita, resultando em ~238k amostras de treino.
Fonte: OpenStreetMap (https://www.openstreetmap.org) - dados sob licenca ODbL.
Metricas
| Metrica | Valor |
|---|---|
| Eval F1 | 0.9992 |
| Eval Precision | 0.9988 |
| Eval Recall | 0.9994 |
| Test F1 (held-out) | 0.9991 |
Uso
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
model_name = "ottema/bert-ner-addresses-brazil-v8"
ner = pipeline("token-classification", model=model_name, aggregation_strategy="simple")
endereco = "RUA DOUTOR MATTOS 373 BAIRRO CENTRO CIDADE RIO BONITO/ RJ"
tokens = endereco.split()
resultado = ner(tokens)
for entity in resultado:
print(f"{entity['entity_group']}: {entity['word']}")
Treinamento
- Base: neuralmind/bert-base-portuguese-cased
- Epochs: 4
- Learning rate: 2e-5
- Batch size: 16
- Dropout: 0.2
- Weight decay: 0.05
- Label smoothing: 0.1
- Early stopping: patience=2
- FP16: sim
Licenca
Este modelo e os dados de treino sao derivados do OpenStreetMap, licenciados sob a Open Database License (ODbL). O modelo BERT base e o BERTimbau sao licenciados sob Apache 2.0.
- Downloads last month
- 56
Model tree for ottema/bert-addresses-brazil
Base model
neuralmind/bert-base-portuguese-cased