OniT Enterprises · IA & Inteligência de notícias
Timor Media Monitor
Uma plataforma de inteligência de notícias em 4 línguas para Timor-Leste — 100+ fontes, briefings traduzidos por IA, e pesquisa por entidade, construída para embaixadas, ONG, jornalistas e a comunidade diplomática.

Porque é que isto existe
Timor-Leste publica notícias em quatro línguas e quase ninguém fora do país consegue ler todas. O tétum é o alvo mais difícil — os motores comerciais (Google Translate, DeepL) não o cobrem bem. As missões diplomáticas, as agências doadoras, a imprensa estrangeira e as grandes ONG ficam presas a contratar leitores locais, a perder contexto por completo, ou a depender de feeds traduzidos de PR que chegam 24–48 horas atrasados e perdem o debate vernáculo. O TMM fecha essa lacuna.
O que entregámos
Ingestão multi-fonte
100+ fontes timorenses e regionais — Tatoli, Independente, GMN, Tempo Semanal, TLNA, Diariu Nasional, mais publicações regionais em PT, EN e ID. RSS quando há, scraping quando não.
Tétum ↔ Inglês ↔ PT ↔ ID
Tradução em tempo real entre as quatro línguas de trabalho de Timor-Leste, apoiada pelo nosso pipeline de Tetun MT em tetumdili.com. Sem dependência de fornecedor, sem preço por carácter.
Sínteses de nível IA
Cada notícia é resumida pelo Claude com um prompt sensível ao domínio — geopolítica, energia, pescas, justiça, saúde pública, educação. O output é confrontado contra a citação da fonte.
Pesquisa por entidade
Seguir um Ministro, um Ministério, uma empresa ou um tema em todas as publicações de TL ao mesmo tempo. Construído para embaixadas, agências doadoras e jornalistas que precisam de sinal e não de ruído.
A parte mais difícil: tradução de tétum
O tétum é uma língua de poucos recursos. Não há um corpus Wikipedia do tamanho do português, nem um dataset de corpus paralelo do tamanho do indonésio. Os modelos MT prontos caem em transliteração latina ou em adivinhação. Resolvemos isto a construir o nosso próprio pipeline em tetumdili.com — um sistema de tradução fundamentado em glossário que combina o raciocínio do Claude com um corpus de tétum com 17 mil entradas e uma passagem de lint que apanha os erros mais comuns de tradução automática (falsos cognatos do português, clíticos perdidos, construções decalcadas do inglês). É usado dentro do TMM e está disponível de forma independente como tradutor público gratuito.
Arquitectura, num parágrafo
Um crawler agendado bate em cada fonte na sua própria cadência (RSS, sitemap ou scraping) e empurra os novos itens para uma fila em Postgres. Um pool de workers traduz cada item através do tetumdili.com para as outras três línguas de trabalho, executa uma passagem de síntese do Claude com um prompt sensível ao domínio, e indexa as entidades (pessoas, ministérios, lugares, empresas) num grafo pesquisável. O frontend é um dashboard em Next.js com feeds por entidade, troca rápida de língua e pesquisas guardadas. Tudo a correr na mesma fleet Hetzner que o resto da OniT.
Para quem é
- Missões diplomáticas a seguir o discurso político sobre energia, pescas e adesão à ASEAN.
- Agências de desenvolvimento (ONU, DFAT, MDF, Asia Foundation, UE) a seguir os seus indicadores sectoriais em tempo real.
- Imprensa estrangeira que precisa de material de origem em língua materna traduzido com rapidez e fiabilidade.
- ONG e sociedade civil a seguir cobertura de accountability e direitos humanos em publicações em tétum.
O que vem a seguir
Acesso público em beta a utilizadores institucionais verificados em 2026. Camada paga para embaixadas e equipas de compliance corporativo em 2027. Abrir o tradutor em tetumdili.com mais a programadores (já temos uma versão pública gratuita — o próximo passo é uma API documentada para trabalhos em lote).
Stack