Texto Paulo Barbosa
O Instituto Politécnico de Macau (IPM) criou um Laboratório de Tradução Automática Chinês-Português-Inglês em 2016. Mas um sistema deste género demora muitos anos e precisa de uma grande disponibilidade de recursos humanos para ser desenvolvido. As raízes deste laboratório recentemente criado estão na licenciatura em Programação de Computadores do IPM, que foi pioneira no estudo de sistemas de tradução automática em Macau.
Rita Tse, directora da Escola de Administração Pública do IPM, nota que o instituto tem muita experiência na tradução chinês-português. Tem também um trabalho continuado com diversas instituições universitárias em Portugal, entre elas o Instituto Politécnico de Leiria, que tem uma licenciatura em Tradução e Interpretação Português-Chinês e a Universidade de Coimbra, instituição secular com uma profícua história de colaboração com o IPM.
O sistema está a ser utilizado por mais de 10 departamentos governamentais, entre eles a Assembleia Legislativa, os Serviços de Educação e Juventude, de Administração e Função Pública, de Finanças e o Instituto para os Assuntos Municipais. É também usado por estudantes no seu processo de aprendizagem. “Por exemplo, quando os alunos do Instituto Politécnico de Leiria estão aqui, estão a aprender. Estão a tentar refinar a linguagem e as suas capacidades,” refere Rita Tse à MACAU.
O software de tradução usado pelo IPM é baseado em tecnologia neural, a mais utilizada na área da tradução automática, que foi aplicada pela primeira vez pela Google. Esta tecnologia tem como uma das suas características principais traduzir frase por frase, em vez de palavra por palavra. Isto significa que pode “aprender” e adaptar-se às necessidades do utilizador.
Sobre o grau de fiabilidade do sistema, a directora da Escola de Administração Pública do IPM fala em 85 por cento considerando o documento total e a formatação. “Mas se os utilizadores adaptarem a sua base de dados do sistema de tradução, pode ser mais fiável. Refiro-me aos 85 por cento quando começam a usar o sistema sem nenhuma base de dados própria. Diria que, se os utilizadores tiverem a sua base de dados mais o nosso software, podemos dizer que o rigor do sistema pode chegar a 95 por cento, mas nunca podemos dizer ao certo,” complementa.
Ajuda preciosa para tradutores
Gaspar Zhang, coordenador do Centro Pedagógico e Científico da Língua Portuguesa (CPCLP) do IPM, diz que a intenção do sistema, por agora, não é substituir tradutores e intérpretes, mas antes “aliviar a sua carga de trabalho”. As opiniões recebidas por parte dos utilizadores têm sido muito positivas, conta Zhang à MACAU. “O sistema foi inicialmente pensado para o governo. Por exemplo, na AL eles têm muitos documentos a traduzir. Com este sistema, trabalhamos 80 a 90 por cento do texto, o que facilita muito.”
Questionada sobre se há intenção de comercializar o software, que não está disponível online em fonte aberta, Rita Tse explica que o IPM é uma instituição pública e não tem, de momento, interesse em disponibilizar o programa no mercado comercial. “Este é um sistema que providenciamos à comunidade. Todos nós obtemos o nosso financiamento do governo de Macau. O que queremos é melhorar o nível de tradução entre o chinês e o português. Neste momento, não temos intenção comercial.”
Neste aspecto há um contraste com a Universidade de Macau (UM), que pretende comercializar o seu sistema, para além de já ter disponibilizado online parte do software de tradução para qualquer utilizador e não só para departamentos governamentais. “Estamos abertos a diferentes opções, mais o nosso enfoque está em tentar ajudar o governo. Não somos como uma companhia privada que está a vender software. Estamos a desenvolver um projecto com o objectivo de fazer serviço comunitário”, insiste Rita Tse
Adaptado a Macau
Além de diferenças em termos de base de dados, Zhang e Tse explicam que o que afasta o sistema do IPM de programas globais de tradução, como o Google Translate, é a sua adaptabilidade ao mercado local.
O popular programa da Google fazia uma tradução que começava por chinês, depois ia a inglês e só depois a português. “Era por isso que as traduções davam resultados um pouco estranhos. Eles têm estado a tentar melhorar no sentido da tradução directa. Mas nós fazemos sempre traduções directas, dada a rica cultura que temos em Macau, com a cultura portuguesa e muitos tradutores disponíveis”, diz Tse. O IPM tem estado a apostar no português europeu, continua. “Ao ir ao Google, a diferença que encontra é que eles fornecerão uma tradução em português do Brasil. Outra discrepância é que nós estamos focados na lei local e na informação local, que vem maioritariamente do governo”, complementa Rita Tse.
Como resultado, o software de tradução do IPM tem uma base de dados mais especializada em Macau. “Quando fazemos traduções de documentos locais, trata-se de lei de Macau. Há um grande grau de rigor na terminologia”, segundo a directora da Escola de Administração Pública. “Ora, quando se vai ao Google para traduzir a lei de Macau ou outros documentos, aparecerá uma tradução com o português do Brasil.”
Reconhecimento de voz
O IPM está paralelamente a trabalhar num sistema de reconhecimento automático de tradução de voz. O centro tem estado a construir uma base de dados áudio, embora seja reconhecidamente mais complexo chegar a um grau de fiabilidade razoável com sistemas de voz. Segundo os seus responsáveis, o CPCLP já atingiu bons resultados e espera disponibilizar o sistema que desenvolveu a departamentos governamentais muito em breve. Estes sistemas podem ser úteis em Macau para reuniões onde estejam presentes falantes de chinês e português.
O IPM também espera que os programas de tradução que está a desenvolver sejam úteis para a área da Grande Baía, onde várias universidades estão integradas na “Language Big Data Alliance”, de que o instituto faz parte. “Em Hong Kong, em Zhuhai, no Interior do País temos muitos estudantes a aprender português”, comenta Tse. Este sistema pode ser usado nas áreas da linguagem e ciência computacional para pesquisar como melhorar o sistema de voz e as traduções. “Em termos linguísticos, os estudantes podem aprender como fazer as traduções melhor. Mas a colaboração com a China neste momento está centrada em fazer melhor pesquisa juntos.”
Outros potenciais beneficiados com o sistema são os países de língua portuguesa. “O sistema pode também ser usado em Portugal ou noutros sítios, porque pode traduzir documentos em chinês para português,” de acordo com Rita Tse, que acrescenta que no momento há cerca de 200 pessoas a colaborarem com o Laboratório de Tradução Automática Chinês-Português-Inglês.
“Estamos a falar de tecnologia, inovação. Com este laboratório esperamos apoiar a estratégia da Grande Baía. O Presidente Xi Jinping disse que precisamos de ter aqui [nesta área] um centro de inovação e tecnologia, por isso vejo grande valor nisto”, remata Rita Tse.
Forte aposta da UM
Também a Universidade de Macau tem apostado fortemente no desenvolvimento de programas de tradução automática. Esta área de investigação começou a ser desenvolvida na maior instituição terciária de Macau em 1998 e o primeiro dicionário digital foi lançado no ano seguinte. “Fomos os primeiros a desenvolver um dicionário digital e também os primeiros a desenvolver uma máquina de tradução de chinês para português. Fomos precoces no desenvolvimento desse tipo de sistemas”, diz à MACAU Derek Wong, professor do Departamento de Ciências Computacionais da Faculdade de Ciência e Tecnologia da UM, que coordena o laboratório onde é feita a pesquisa em termos de processamento de linguagem e de software de tradução automática.
Wong está a trabalhar em software de tradução há mais de 20 anos, durante os quais a UM desenvolveu vários sistemas, entre os quais a primeira máquina de tradução português-chinês, que vai agora na sua terceira versão.
Desenvolveu também o “Um2T”, um sistema interactivo de tradução baseado em tecnologia neural, que está disponível online. Também abertos a qualquer internauta estão um sistema de conjugação verbal e uma plataforma para a aprendizagem da língua portuguesa com mais de mil acessos diários, de acordo com dados da UM.
Sistema inovador
O que é considerado por Wong como o mais inovador de todos os sistemas em estudo é o “Computer Aided Translation” (UM-CAT), disponível online em versão beta. “O governo e a universidade estão a encorajar-nos a lançar a pesquisa que temos e colocá-la à disposição da comunidade. Estamos a planear vender o software”, diz Derek Wong, que caracteriza o novo sistema como inovador e pensa colocá-lo no mercado ainda este ano.
“Tradução online hoje em dia significa que o utilizador faz cópia do texto que quer ver traduzido e é feita uma tradução automática. O que estiver errado não é modificável [sem intervenção humana]. Mas este sistema tem uma forma mais exequível de fazer isso”, descreve o coordenador.
O sistema está disponível em três línguas (chinês, português e inglês). Muitos académicos e estudantes estiveram envolvidos no seu desenvolvimento no passado, mas neste momento está a ser desenvolvido por seis doutorandos e cinco estudantes de mestrado, para além de dois professores e o próprio Wong. Um estudante do mestrado da área dos estudos portugueses também colabora.
Comparando com sistemas utilizados universalmente, como o Google Translate, a diferença é que neste a pós-edição é feita no próprio sistema, que assim aprende com erros anteriores.
O UM-CAT funciona com base em conceitos como inteligência artificial e trabalho cooperativo (“Project Management System”), o que significa que cada tradução é transformada num projecto onde podem intervir vários tradutores ao mesmo tempo, facilitando a tradução em termos de fiabilidade e rapidez.
“Pode-se criar um grupo de tradutores para um projecto, entregando a cada um deles diferentes tarefas no processo de tradução, com prazos para finalizar. O documento pode ser dividido em secções e pode haver um tradutor mais sénior que conclua e valide todo o processo”, descreve Wong.
Uma outra vantagem é que o sistema é capaz de preservar na íntegra o formato do documento original que se pretende traduzir. Isto quer dizer quer se o texto tiver entretítulos ou tabelas, isso será preservado no texto traduzido.
“O facto de o sistema ter memória é muito importante. Todas as traduções já concluídas são guardadas para uso futuro. Ao fazer uma tradução muito parecida, o sistema vai alertá-lo”, diz Wong. Por outras palavras, o sistema da UM aprende com o utilizador e adapta-se às suas necessidades, poupando tempo no processo de tradução.
Mais fiabilidade em inglês
A fiabilidade de um software de tradução automática está sempre dependente da complexidade dos documentos que se pretendem traduzir, sendo mais difícil traduzir um texto altamente subjectivo, como um poema, ou um texto que utiliza linguagem especializada, como um acórdão jurídico.
Há ainda outras questões familiares a qualquer tradutor, como a proximidade formal entre cada idioma que se está a traduzir. “Dizemos que o chinês é uma língua livre de morfologia. Não temos mudanças morfológicas explícitas na língua chinesa. Mas ao traduzir para português há grandes diferenças, porque o português é muito rico em mudanças morfológicas”, explica Derek Wong, notando que em línguas sem tantas mudanças morfológicas, como o inglês, as traduções automáticas tendem a ser mais fidedignas.
O professor reconhece que a fiabilidade da tradução de chinês para inglês é maior do que para português. “Há mais pessoas envolvidas [nos sistemas de tradução automática] nessas duas línguas, o que significa que há mais recursos digitais para chinês e inglês quando comparado com o português. Na altura em que começámos não tínhamos quaisquer recursos”, conta. Entretanto, tem havido colaboração com o Departamento de Português da UM para aumentar a base de dados de documentos disponíveis na língua de Camões. Foi dessa forma colaborativa que foi criado um dicionário bilingue e feita a análise morfológica das palavras, conta Derek Wong.
O académico acrescenta que a UM, pela sua dimensão e pelo facto de ter um Departamento de Português, tem a capacidade para desenvolver internamente estes sistemas, o que não acontece com outras instituições universitárias em Macau.
“A máquina de tradução é baseada na base de dados que temos, ou seja, no tipo de dados com que alimentamos o sistema e o sistema irá melhorar naquilo que consideramos mais importante. O nosso software stá mais focado em Macau e nos documentos locais. Por exemplo, para traduzir o nome de departamentos ou ruas locais, iremos fazer muito melhor do que outros sistemas online disponíveis”, diz Wong.
Pesquisas premiadas
A equipa do laboratório de tradução automática da UM já ganhou vários prémios, entre os quais um segundo lugar nos Prémios de Ciência e Tecnologia de Macau para um projecto que analisava as tecnologias usadas em sistemas de tradução português-chinês e as aplicações desses sistemas. No ano passado, os sistemas de tradução neural criados no laboratório também foram reconhecidos num evento para sistemas de tradução inglês-chinês organizado pela 13.ª edição do Seminário sobre Máquinas de Tradução na China.
App “Diz lá” para ajudar turistas e estudantes
O Laboratório de Tradução Automática Chinês-Português-Inglês do IPM desenvolveu uma aplicação do telemóvel de auto-aprendizagem, o “Diz lá!”, para que os falantes de chinês possam aprender português ou ter auxílio quando estão a interagir com falantes do português. Aquando do lançamento da aplicação em 2018, o secretário para os Assuntos Sociais e Cultura, Alexis Tam, disse que Macau se colocava sempre na linha da frente relativamente do desenvolvimento e utilização de novos instrumentos para aprendizagem de línguas. “A lacuna da falta de comunicação entre o chinês e o português no telemóvel fica resolvida graças ao esforço envidado pelo IPM.” A aplicação inclui a função “comunicação”, que é particularmente útil para turistas e, de momento, só está disponível de chinês para português, embora os responsáveis pelo laboratório admitam disponibilizá-la em português. A função inclui aproximadamente mil frases de diálogos em diferentes cenas da vida quotidiana. Já a função “palavra do dia” escolhe aleatoriamente uma palavra, fornecendo a sua pronúncia nativa, e o seu significado em chinês e em português. A aplicação inclui também um conjugador, que mostra a conjugação de cerca de 15 mil verbos em diferentes tempos. “É uma aplicação que pode ajudar turistas chineses que vão visitar países de língua portuguesa, mas também estudantes ou qualquer pessoa que possa estar interessada em estudar a língua portuguesa, ou refrescar os seus conhecimentos”, descreve. Para o futuro, o IPM espera continuar a desenvolver a aplicação, acrescentando mais funções.
Pesquisa traz vantagens pedagógicas à Universidade de Macau
Derek Wong explica que o sistema de tradução é apenas parte da pesquisa feita pelo do Departamento de Ciências Computacionais da Faculdade de Ciência e Tecnologia da UM. Há outro tipo de projectos já em aplicação, como o analisador morfológico e aplicações de e-learning, que visam ensinar português aos estudantes da UM. Há também exercícios gramaticais que são adaptados às necessidades de professores e alunos: “Usamos o computador para automaticamente gerar um conjunto de exercícios. O professor verifica e escolhe os que interessam. Por exemplo, há estudantes que demonstram que já dominam uma certa forma verbal, portanto o computador propõe outro tipo de exercícios mais difíceis. Mas há outros estudantes que estão a repetir um determinado erro, portanto nesse caso trata-se de identificar o erro e encontrar exercícios muito semelhantes para reforçar essa aprendizagem.” Estas ferramentas informáticas estão a ser usadas para ensinar a língua portuguesa. “Neste momento, Macau, o governo e a nossa universidade estão muito centrados no ensino do português, portanto esse é o nosso objectivo.”