Creación dun modelo de linguaxe adestrado previamente mediante técnicas de auto atención, co obxectivo de explorar arquitecturas que permitan o seu uso en solucións de procesamento da linguaxe natural en galego tanto na docencia como na contorna empresarial.
Este proxecto pretende levar a cabo a creación duns modelos de linguaxe da lingua galega mediante técnicas de aprendizaxe profunda e auto atención, co fin de crear modelos máis complexos para a creación de solucións a tarefas tales como “respostas a preguntas” previa presentación dun texto, resumos de textos, clasificación de textos e sistemas conversacionais en galego. Todo iso permitiría experimentar a automatización de tarefas docentes ou empresariais como avaliacións automáticas do alumnado, respostas a dúbidas sobre un texto, clasificación de textos cos seus resumos e creación de entes conversacionais útiles tanto para a docencia como para a contorna empresarial.
Obxectivo: 10 GiB
Recolección de textos en galego para a creación dun corpus: common crawl
Recolección de textos en galego para a creación dun corpus: DOG
Entrenamento do modelo de proba no CESGA
Dentro da IA, unha das áreas de máis avance e futuro é o procesamento da linguaxe natural (en diante PLN). O PLN é a rama da IA enfocada na comprensión da linguaxe humana por parte das máquinas.
Co PLN, as máquinas analizan a linguaxe humana, interprétana e dan significado para que poida ser utilizada de maneira práctica. Usando PLN podemos facer tarefas como o resumo automático de textos, a tradución de idiomas, a extracción de relacións, análises de sentimento de textos, o recoñecemento da fala e a clasificación de artigos por temáticas, entre outros.
Os modelos da linguaxe son redes neuronais artificiais de gran tamaño, capaces de analizar inxentes volumes de texto escrito para aprender a estrutura coa que se presentan as palabras dun determinado idioma. Con este preadestramento, convértense en modelos xerais que se poden readestrar con fins, xa sexa para resolver unha tarefa concreta de PLN ou para adaptalo á terminoloxía dun dominio en concreto.
Entidade | |
---|---|
IES Fernando Wirtz Suárez | Líderazgo do proxecto Equipo informático |
CIFP Ucha Piñeiro | Membro do proxecto Equipo lingüístico |
IBERLEY S.L. | Membro do proxecto Soporte tecnolóxico e documental |
Universidade da Coruña | Asesoramento |
Pode colaborar o o proxecto facilitando textos en galego en formato ASCII (ou Unicode), PDF ou mesmo imaxes de obras completas en lingua galega.
Para poñerse en contacto cos membros do proxecto, enche o seguinte formulario.