Ministerio de Ciencia, Innovación y Universidades. III. Otras disposiciones. Convenios. (BOE-A-2025-12053)
Resolución de 3 de junio de 2025, del Consorcio Barcelona Supercomputing Center-Centro Nacional de Supercomputación, por la que se publica el Convenio con las entidades participantes para la realización de actuaciones ligadas al desarrollo del Plan Nacional de Tecnologías del Lenguaje y del Ecosistema Empresarial de las Tecnologías del Lenguaje, en el marco de la Estrategia de Inteligencia Artificial 2024 y el Plan de Recuperación, Transformación y Resiliencia -financiado por la Unión Europea- Next Generation EU.
34 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOLETÍN OFICIAL DEL ESTADO
Núm. 143
Sábado 14 de junio de 2025
Sec. III. Pág. 78502
idiomas, a partir de sus scripts/protocolos de acceso y descarga a las diferentes fuentes
de datos (repositorios de datos de voz):
– BSC: castellano y catalán.
– UPV/EHU: castellano y euskera.
– USC: castellano y gallego.
– CENID: castellano y valenciano y para los dominios turístico y el de la propiedad
intelectual.
Actividad 1.7
Pipeline de preproceso de datos de voz.
Se desarrollan herramientas de preproceso de voz con el objetivo de disponer de
datos de entrenamiento, especialmente datos alineados texto/voz para:
– BSC: castellano y catalán.
– UPV/EHU: euskera.
– USC: gallego.
Actividad 1.8 Dataset de alineamiento. Los datos de alineamiento son la última fase
después de los datos de pre-entrenamiento y de instrucción.
Corpus de alineamiento con anotaciones de preferencias sobre las respuestas para
acercarlas a las preferencias humanas en:
–
–
–
–
–
BSC: castellano y catalán.
UPV/EHU: castellano y euskera.
USC: castellano y gallego.
CENID: castellano y valenciano.
UJA: castellano.
Actividad 1.9 Generación de datos (sintéticos) para corpus paralelos (Traducción
Automática) incluyendo adaptación a dominio.
Desarrollo de corpus paralelos con datos sintéticos en dominios concretos para
entrenamiento de modelos de TA en:
– BSC: inglés, castellano, chino y catalán.
– UPV/EHU: inglés, castellano y euskeraUSC: inglés, castellano y gallego.
– CENID: inglés, castellano y valencianoUJA: inglés y castellano.
Actividad 1.10 Generación de corpus de dominio (legal, médico, científico...). Estos
corpus sirven como base para el entrenamiento de modelos discriminativos de dominio
contemplados en la resolución anterior (21 de diciembre de 2023) así como para los
nuevos SLMs generativos de dominio contemplados en la actividad 2.5.
– BSC: corpus de dominio legal, médico, y científico en castellano.
– UPV/EHU: corpus de dominio de noticias, legal/administrativo y científico
procesado y con sus correspondientes metadatosUSC: corpus de noticias, cultura y
legal/administrativo.
– CENID: corpus de dominio turístico y de la propiedad intelectual procesado y con
sus correspondientes metadatos UJA: dominio legal-administrativo, patrimonio-cultural y
biosanitario procesado y con sus correspondientes metadatos.
Iniciativa 2).
Desarrollo de modelos de propósito general (LLM).
Actividad 2.2 Modelo autosupervisado de voz tipo wavLM (o equivalente) Ibérico en
mínimo 4 idiomas. Entrenado en MN5 por el BSC con la aportación de datos de
UPV/EHU, USC y CENID en las respectivas lenguas.
cve: BOE-A-2025-12053
Verificable en https://www.boe.es
Generación y proceso de datos de dominio en cada una de las lenguas:
Núm. 143
Sábado 14 de junio de 2025
Sec. III. Pág. 78502
idiomas, a partir de sus scripts/protocolos de acceso y descarga a las diferentes fuentes
de datos (repositorios de datos de voz):
– BSC: castellano y catalán.
– UPV/EHU: castellano y euskera.
– USC: castellano y gallego.
– CENID: castellano y valenciano y para los dominios turístico y el de la propiedad
intelectual.
Actividad 1.7
Pipeline de preproceso de datos de voz.
Se desarrollan herramientas de preproceso de voz con el objetivo de disponer de
datos de entrenamiento, especialmente datos alineados texto/voz para:
– BSC: castellano y catalán.
– UPV/EHU: euskera.
– USC: gallego.
Actividad 1.8 Dataset de alineamiento. Los datos de alineamiento son la última fase
después de los datos de pre-entrenamiento y de instrucción.
Corpus de alineamiento con anotaciones de preferencias sobre las respuestas para
acercarlas a las preferencias humanas en:
–
–
–
–
–
BSC: castellano y catalán.
UPV/EHU: castellano y euskera.
USC: castellano y gallego.
CENID: castellano y valenciano.
UJA: castellano.
Actividad 1.9 Generación de datos (sintéticos) para corpus paralelos (Traducción
Automática) incluyendo adaptación a dominio.
Desarrollo de corpus paralelos con datos sintéticos en dominios concretos para
entrenamiento de modelos de TA en:
– BSC: inglés, castellano, chino y catalán.
– UPV/EHU: inglés, castellano y euskeraUSC: inglés, castellano y gallego.
– CENID: inglés, castellano y valencianoUJA: inglés y castellano.
Actividad 1.10 Generación de corpus de dominio (legal, médico, científico...). Estos
corpus sirven como base para el entrenamiento de modelos discriminativos de dominio
contemplados en la resolución anterior (21 de diciembre de 2023) así como para los
nuevos SLMs generativos de dominio contemplados en la actividad 2.5.
– BSC: corpus de dominio legal, médico, y científico en castellano.
– UPV/EHU: corpus de dominio de noticias, legal/administrativo y científico
procesado y con sus correspondientes metadatosUSC: corpus de noticias, cultura y
legal/administrativo.
– CENID: corpus de dominio turístico y de la propiedad intelectual procesado y con
sus correspondientes metadatos UJA: dominio legal-administrativo, patrimonio-cultural y
biosanitario procesado y con sus correspondientes metadatos.
Iniciativa 2).
Desarrollo de modelos de propósito general (LLM).
Actividad 2.2 Modelo autosupervisado de voz tipo wavLM (o equivalente) Ibérico en
mínimo 4 idiomas. Entrenado en MN5 por el BSC con la aportación de datos de
UPV/EHU, USC y CENID en las respectivas lenguas.
cve: BOE-A-2025-12053
Verificable en https://www.boe.es
Generación y proceso de datos de dominio en cada una de las lenguas: