BERTimbau NER - Brazilian Addresses (v8)

Modelo BERT para reconhecimento de entidades nomeadas (NER) em enderecos brasileiros, fine-tunado a partir do BERTimbau Base.

Entidades reconhecidas

Tag Descricao Exemplo
RUA Logradouro Rua Augusta, Avenida Paulista, Travessa Acalanto
NUMERO Numero 123, S/N, N 209
BAIRRO Bairro Jardim Santana, Centro, Harmonia
CIDADE Cidade Sao Paulo, Campinas, Salvador
ESTADO Estado (UF) SP, RJ, BA, RS
CEP Codigo postal 01404-001, 92320-750
COMPLEMENTO Complemento BL 601, AP 302, ap 851 torre 8
REFERENCIA Ponto de referencia EM FRENTE AO MERCADO LECO, OFICINA PAULO FREIRE

Formatos suportados

O modelo foi treinado com 21 variacoes de escrita realistas, cobrindo:

  • Formato padrao: Rua Nome 123, Bairro, Cidade - UF
  • Maiusculo: RUA DOUTOR MATTOS 373 BAIRRO CENTRO CIDADE RIO BONITO/ RJ
  • CIDADE/UF primeiro: PIRACICABA/SP, RUA ALFREDO GUEDES, 1687, BAIRRO ALTO
  • Campos com labels: Estrada dos Bandeirantes NUMERO: 1430 ; Bairro: Taquara
  • Complemento inline: ap 851 torre 8, CEP 92035-012
  • Referencia comercial: ...CAMPINAS - SP. POSTO IPIRANGA
  • Estilo Brasilia: QN 5 LT 12, PLANO DIRETOR SUL, PALMAS - TO
  • Rural: ESTRADA MUNICIPAL KM 5, ZONA RURAL, SANTA MARIA - RS
  • Minusculo com barras: rua barao sao Francisco 178 /andarai / rio de janeiro -rj
  • CEP como campo: CEP:77025185 Cidade:Palmas Rua:ARSE 140

Dados de treino

O modelo foi treinado com dados de enderecos extraidos do OpenStreetMap (Overpass API), cobrindo 134.114 enderecos reais de 50+ cidades brasileiras. Os dados foram convertidos para formato NER (tokens + BIO tags) com 21 variacoes de escrita, resultando em ~238k amostras de treino.

Fonte: OpenStreetMap (https://www.openstreetmap.org) - dados sob licenca ODbL.

Metricas

Metrica Valor
Eval F1 0.9992
Eval Precision 0.9988
Eval Recall 0.9994
Test F1 (held-out) 0.9991

Uso

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

model_name = "ottema/bert-ner-addresses-brazil-v8"
ner = pipeline("token-classification", model=model_name, aggregation_strategy="simple")

endereco = "RUA DOUTOR MATTOS 373 BAIRRO CENTRO CIDADE RIO BONITO/ RJ"
tokens = endereco.split()
resultado = ner(tokens)

for entity in resultado:
    print(f"{entity['entity_group']}: {entity['word']}")

Treinamento

  • Base: neuralmind/bert-base-portuguese-cased
  • Epochs: 4
  • Learning rate: 2e-5
  • Batch size: 16
  • Dropout: 0.2
  • Weight decay: 0.05
  • Label smoothing: 0.1
  • Early stopping: patience=2
  • FP16: sim

Licenca

Este modelo e os dados de treino sao derivados do OpenStreetMap, licenciados sob a Open Database License (ODbL). O modelo BERT base e o BERTimbau sao licenciados sob Apache 2.0.

Downloads last month
56
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ottema/bert-addresses-brazil

Finetuned
(202)
this model