Proxecto de innovación 2022

Creación dun modelo de linguaxe adestrado previamente mediante técnicas de auto atención, co obxectivo de explorar arquitecturas que permitan o seu uso en solucións de procesamento da linguaxe natural en galego tanto na docencia como na contorna empresarial.

Este proxecto pretende levar a cabo a creación duns modelos de linguaxe da lingua galega mediante técnicas de aprendizaxe profunda e auto atención, co fin de crear modelos máis complexos para a creación de solucións a tarefas tales como “respostas a preguntas” previa presentación dun texto, resumos de textos, clasificación de textos e sistemas conversacionais en galego. Todo iso permitiría experimentar a automatización de tarefas docentes ou empresariais como avaliacións automáticas do alumnado, respostas a dúbidas sobre un texto, clasificación de textos cos seus resumos e creación de entes conversacionais útiles tanto para a docencia como para a contorna empresarial.

Progreso

Temos 10 GiB!

Recolección de textos en galego para a creación dun corpus: common crawl

100%

Recolección de textos en galego para a creación dun corpus: DOG

100%

Entrenamento dos modelos: small, medium, large, xlarge

Small

Qué é un modelo de linguaxe?

Dentro da IA, unha das áreas de máis avance e futuro é o procesamento da linguaxe natural (en diante PLN). O PLN é a rama da IA enfocada na comprensión da linguaxe humana por parte das máquinas.

Co PLN, as máquinas analizan a linguaxe humana, interprétana e dan significado para que poida ser utilizada de maneira práctica. Usando PLN podemos facer tarefas como o resumo automático de textos, a tradución de idiomas, a extracción de relacións, análises de sentimento de textos, o recoñecemento da fala e a clasificación de artigos por temáticas, entre outros.

Os modelos da linguaxe son redes neuronais artificiais de gran tamaño, capaces de analizar inxentes volumes de texto escrito para aprender a estrutura coa que se presentan as palabras dun determinado idioma. Con este preadestramento, convértense en modelos xerais que se poden readestrar con fins, xa sexa para resolver unha tarefa concreta de PLN ou para adaptalo á terminoloxía dun dominio en concreto.

Cales son os obxectivos do proxecto de innovación?

Globais

  • Xeración de innovación: o proxecto pretende crear a semente de solucións de intelixencia artificial aplicada á empresa na cidade da Coruña, sen limitarse exclusivamente ao territorio ou ao tipo de destinatario destas tecnoloxías.
  • Transferencia tecnolóxica: situar a Formación Profesional como ponte entre a universidade e as empresas, mediante a creación de proxectos como este, con continuidade no futuro, e a súa integración en “A Cidade dás TIC”, como beneficiario de espazos e recursos.
  • Inserción laboral: O alumnado dos cursos de especialización de “Intelixencia Artificial e Big Data” da nosa Comunidade, terán acceso ao uso desta tecnoloxía para a realización de modelos máis específicos e experimentar con esta tecnoloxía.

Cales son os obxectivos do proxecto de innovación?

Específicos

  • Crear un gran corpus en galego que poida ser usado por outras entidades científicas ou empresariais.
  • Crear un conxunto de modelos adestrados previamente da lingua galega, susceptibles de ser usados como etapa de preprocesamento para outros modelos máis concretos de PLN. Crearanse polo menos tres versións correspondente a tres tamaños distintos, de menor a maior, co ánimo de seren usadas en tres ambientes de computación diferentes.
  • A nosa lingua necesita dar un salto cualitativo dende o concepto de “lingua en vías de desaparición” a “lingua propia representativa dunha cultura moderna”. O galego está entre as 21 linguas europeas en perigo de extinción dixital segundo Meta-Net, a rede de excelencia europea da que forma parte o Grupo de Tecnoloxías Multimedia da Universidade de Vigo.
    Un estudo realizado con motivo do Día das Linguas denuncia que a maioría de linguas europeas (21 de 30 analizadas, un 70%) ten poucas probabilidades de sobrevivir na era dixital, entre elas o galego.

Quenes son os membros e colaboradores do proxecto?

Entidade
IES Fernando Wirtz Suárez Líderazgo do proxecto
Equipo informático
CIFP Ucha Piñeiro Membro do proxecto
Equipo lingüístico
IBERLEY S.L. Membro do proxecto
Soporte tecnolóxico e documental
Universidade da Coruña Asesoramento

Contacto

Pode colaborar o o proxecto facilitando textos en galego en formato ASCII (ou Unicode), PDF ou mesmo imaxes de obras completas en lingua galega.

Para poñerse en contacto cos membros do proxecto, enche o seguinte formulario.

Non se gardará ningunha información deste formulario. Limitarase a enviar un email ao coordinador do proxecto.