¿Qué es TERESIA?
- Un punto de encuentro (metabuscador) para las terminologías en español –con perspectiva panhispánica- como respuesta a la dispersión de las terminologías ya existentes de los ámbitos especializados y a la necesidad de disponer de terminologías validadas y de calidad en español
- Un portal de tecnologías de Inteligencia Artificial a disposición de organismos e instituciones con la finalidad de:
- generar, validar y sancionar nuevas terminologías (que se incorporarán también al metabuscador).
- garantizar la interoperabilidad de recursos existentes
- garantizar la visibilidad de los recursos generados
Además del diseño de estas herramientas en abierto el equipo de TERESIA
- creará un corpus de literatura científica producida en España y América Latina, mayoritariamente en español pero con producción en otras lenguas, entre ellas las cooficiales.
- diseñará una metodología de extracción de información de corpus de literatura científica en español y en las lenguas cooficiales del Estado mediante técnicas de IA que permita extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.
- generará un enorme conjunto de datos terminológicos abiertos, siguiendo principios FAIR.
- favorecerá la interacción con comunidades de expertos de los diferentes ámbitos de especialidad para implicarlos en los procesos de validación.
¿Por qué trabajar en la terminología en español? Aplicaciones de TERESIA
Identificar términos de una especialidad implica determinar la forma de una palabra para un significado concreto en un campo científico. Sin términos asentados o validados no existe no existe un vocabulario fiable, armonizado o normalizado para la disciplina científica. Solo mediante ese vocabulario normalizado que es la terminología en una lengua se pueden:
- organizar grandes volúmenes de texto existentes en las bases de datos y sistemas de información.
- indizar automáticamente documentos pues las técnicas que lo permiten necesitan de terminologías validadas.
- visibilizar con ello la producción científica generada en español, al poderse describir adecuadamente los ingentes volúmenes de información científica y volcarlos a la red en formato de web de datos.
- realizar búsquedas semánticas de documentos relacionados por el tema, tanto en el mismo idioma -utilizando terminología en español-, como en otros –utilizando terminologías multilingües conectadas con técnicas de la web de datos. Las búsquedas eficientes de información científica dependen de la existencia de terminologías en los distintos idiomas.
- servir de base a la traducción automática y a la humana, aportando eficiencia y garantizando precisión en las equivalencias que se hacen entre los términos y conceptos de un idioma a otro.
- incorporar correctamente el lenguaje de cada disciplina científica a los modelos de lenguaje, que aprenderán a hablar mejor de ciencia en español.
- favorecer una enseñanza rigurosa del español técnico.
- favorecer el uso adecuado del lenguaje científico en la comunicación y divulgación de la ciencia.
TERESIA es un proyecto de nueva generación en el ámbito de la terminología, que reúne las siguientes características:
- infraestructura digital interoperable de terminología en español completa, validada y actualizada.
- basada en modelos de lenguaje y aprendizaje profundo y en el trabajo cualitativo de especialistas en distintos ámbitos.
- combina el intelecto de los humanos y la potencia de las máquinas.
- desarrollada según principios de la Ciencia Abierta
- diseñada con perspectiva panhispánica y con aplicaciones previstas que permiten prever un alto impacto en algunas comunidades profesionales: traducción, aprendizaje del español, difusión, descubribilidad y visibilidad de los contenidos científicos en español, participación en infraestructuras digitales e interconexión con recursos científicos multilingües, entre otros.
- vocación de apertura del proyecto a un ámbito transnacional a medida que crezca y se consolide.
- asentada en los valores del multilingüismo en la comunicación científica.
Es un proyecto ambicioso que requiere del trabajo interdisciplinar y de la colaboración interinstitucional. Esta propuesta ha sido desarrollada por un consorcio del que forman parte:
- Plataforma Temática Interdisciplinar ES CIENCIA, Consejo Superior de Investigaciones Científicas (CSIC).Institución coordinadora del proyecto.
- Dirección General de Traducción de la Comisión Europea (DGT).
- Instituto Cervantes (IC).
- Asociación Española de Terminología (AETER).
- Ontology Engineering Group (OEG). Universidad Politécnica de Madrid (UPM).
- Natural Language Processing for Biomedical Information Analysis (NLP4BIA). Barcelona Supercomputing Center (BSC).
- Real Academia de Ingeniería (RAI).