O Google Tradutor ficou ainda mais poderoso com a atualização anunciada nesta quinta-feira, 27 de junho de 2024. A plataforma agora oferece suporte a mais 110 idiomas, incluindo o tão aguardado cantonês. Essa expansão foi possível graças ao modelo de linguagem PaLM 2, que facilitou a inclusão dessas novas opções de tradução no serviço do Google.
Com essa atualização, o Google Tradutor amplia suas capacidades, permitindo traduções em línguas que estavam quase extintas e atendendo a uma grande quantidade de falantes que antes não podiam usar o serviço em sua língua nativa.
A empresa destaca que os novos idiomas adicionados representam mais de 614 milhões de falantes, abrangendo cerca de 8% da população mundial que anteriormente não era contemplada.
“Algumas dessas línguas são amplamente faladas, com mais de 100 milhões de falantes”, explica Isaac Caswell, engenheiro sênior da equipe do Google Tradutor. “Outras são usadas por pequenas comunidades indígenas e algumas quase não têm falantes nativos, mas estão sendo revitalizadas ativamente”.
A empresa também observou que cerca de um quarto dos novos idiomas vem da África, incluindo Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof. E outro destaque vai ao fato do Google Tradutor passar a ser capaz de distinguir as variantes do português de Portugal e do Brasil.
Embora o Google não tenha divulgado a lista completa dos 110 idiomas incluídos, alguns deles já foram revelados, como o cantonês, um dos mais solicitados pelos usuários. A implementação do cantonês foi um desafio devido à sua sobreposição com o mandarim na escrita, o que dificulta a coleta de dados e o treinamento do modelo.
Por enquanto, a atualização ainda não está disponível para todos, sendo necessário aguardar a conclusão do processo de liberação.
Confira a lista parcial oferecida pelo Google:
- Afar: língua tonal falada no Djibuti, na Eritreia e na Etiópia;
- Cantonês: dialeto chinês falado em Cantão e em outras localidades;
- Manx: língua celta da Ilha de Man que quase foi extinta com a morte do seu último falante nativo em 1974;
- NKo: forma padronizada das línguas mandês da África Ocidental que unifica muitos dialetos em um idioma comum, cujo alfabeto único foi inventado em 1949;
- Punjabi (Shahmukhi): variedade do punjabi escrito na escrita perso-árabe (Shahmukhi) e é a língua mais falada no Paquistão;
- Tamazight (Amazigh): língua berbere falada no Norte da África (escrita latina e Tifinagh suportadas pelo Google Tradutor);
- Tok Pisin: língua crioula de base inglesa e a língua franca de Papua Nova Guiné.
Os novos idiomas estarão disponíveis a todos tanto na versão web quanto nos aplicativos para Android e para iOS.
Via Canaltech