Tecnología -
Traducción automática
500.000 frases en euskera y castellano hacia la traducción automática
EiTB, MondragonLingua y Vicomtech-IK4 han generado su primer corpus bilingüe de noticias en euskera y castellano.
EITB.EUS
Euskaraz irakurri: 500.000 esaldi euskaraz eta gaztelaniaz, itzulpen automatikora bidean
Euskal Irrati Telebista (EiTB), MondragonLingua y Vicomtech-IK4 han compartido un corpus de más de medio millón de frases, y avanzan en la traducción automática del euskera.
Con este desarrollo, las tres organizaciones generan su primer corpus bilingüe de noticias en euskera y castellano. Este será un recurso esencial para el desarrollo de sistemas de traducción automática entre los dos idiomas.
La diversidad de los temas que componen el corpus de noticias, y su propio volumen, permitirán un aumento significativo de la calidad de la traducción automática del euskera. Consta de más de medio millón de pares de frases en los dos idiomas, cubriendo temas de política nacional e internacional, cultura y deportes, entre otros.
El recurso ha sido creado con métodos innovadores de búsqueda automática de frases similares en las noticias de los dos idiomas y ha sido desarrollado en el marco de proyectos de I+D financiados por el Departamento de Competitividad y Desarrollo del Gobierno Vasco (Programas GAITEK y HAZITEK). Asimismo, cabe destacar que el corpus generado se ha compartido en la red europea de recursos lingüísticos META-SHARE.
MondragonLingua, EiTB y Vicomtech-IK4 tienen particular interés en compartir este resultado con la comunidad para impulsar la investigación y el desarrollo relativos a la traducción automática del euskera.