Ministerio de Ciencia, Innovación y Universidades. III. Otras disposiciones. Convenios. (BOE-A-2025-12053)
Resolución de 3 de junio de 2025, del Consorcio Barcelona Supercomputing Center-Centro Nacional de Supercomputación, por la que se publica el Convenio con las entidades participantes para la realización de actuaciones ligadas al desarrollo del Plan Nacional de Tecnologías del Lenguaje y del Ecosistema Empresarial de las Tecnologías del Lenguaje, en el marco de la Estrategia de Inteligencia Artificial 2024 y el Plan de Recuperación, Transformación y Resiliencia -financiado por la Unión Europea- Next Generation EU.
34 páginas totales
Página
Zahoribo únicamente muestra información pública que han sido publicada previamente por organismos oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
Cualquier dato, sea personal o no, ya está disponible en internet y con acceso público antes de estar en Zahoribo. Si lo ves aquí primero es simple casualidad.
No ocultamos, cambiamos o tergiversamos la información, simplemente somos un altavoz organizado de los boletines oficiales de España.
BOLETÍN OFICIAL DEL ESTADO
Núm. 143
Sábado 14 de junio de 2025
Actividad 2.9
Sec. III. Pág. 78504
Generación de datasets para tareas discriminativas.
Diseño y desarrollo de datasets de tareas discriminativas para las diferentes lenguas:
– BSC: al menos tres dataset para tareas discriminativas de impacto en castellano o
catalán.
– UPV/EHU: al menos tres dataset para tareas discriminativas de impacto en
castellano y euskera.
– USC: al menos tres dataset para tareas discriminativas de impacto en castellano y
gallego.
– CENID: al menos tres dataset para tareas discriminativas de impacto en castellano
y valenciano, tales como detección de fraude, detección de marcas falsas y detección de
lenguaje claro.
– UJA: al menos tres dataset para tareas discriminativas de impacto en castellano,
por ejemplo: detección lenguaje ofensivo, detección de trastornos mentales, tratamiento
de subjetividad.
Iniciativa 3). Desarrollo y puesta a disposición pública de un marco de evaluación
de modelos.
Actividad 3.1 Creación datasets de evaluación e integración en frameworks de
referencia, así como en la plataforma de benchmarking. La evaluación incluye no sólo
performance, sino también aspectos de sesgo y toxicidad entre otros.
El BSC según la actividad 3.2 coordinará y hará el seguimiento de la creación
datasets de evaluación e integración en frameworks de referencia, así como en la
plataforma de benchmarking.
El resto de las entidades, llevarán a cabo el diseño y desarrollo de datasets de
evaluación que permita comparar las capacidades y rendimiento (benchmarking) de los
distintos modelos de lenguaje, TA y de voz (síntesis y reconocimiento). Los datasets
deben contemplar distintas métricas de evaluación de modelos de lenguaje, modelos de
TA y también de reconocimiento y síntesis de voz. No sólo medirán la capacidad de los
modelos sino también aspectos de eficiencia temporal y energética, sesgo, veracidad y
toxicidad entre otros. Integración en marcos de referencia (frameworks) así como en la
plataforma pública de evaluación del rendimiento (benchmarking) de los distintos
modelos de lenguaje, en las distintas lenguas:
– UPV/EHU: al menos tres datasets para tareas de evaluación en castellano y
euskera.
– USC: al menos tres datasets para tareas de evaluación en castellano y gallego.
– CENID: al menos tres datasets para tareas de evaluación en castellano y
valenciano.
– UJA: al menos tres datasets para tareas de evaluación en castellano.
El BSC será el encargado de la coordinación de esta iniciativa. Además de las
actividades que se describen a continuación, estará en continuo contacto con el personal
responsable a cargo de cada nodo territorial. Realizará reuniones regulares con el
objetivo de realizar el seguimiento técnico de las actividades y aplicar las medidas
adecuadas, en caso necesario, para mitigar cualquier riesgo que pueda surgir durante la
ejecución de la actuación.
Actividad 5.1 Convocatorias de acceso a recursos computacionales para el
desarrollo de pruebas de concepto en IA/TL.
cve: BOE-A-2025-12053
Verificable en https://www.boe.es
Iniciativa 5). Red territorial de equipos de colaboración técnica en IA/TL y acceso al
entorno seguro pre-comercial.
Núm. 143
Sábado 14 de junio de 2025
Actividad 2.9
Sec. III. Pág. 78504
Generación de datasets para tareas discriminativas.
Diseño y desarrollo de datasets de tareas discriminativas para las diferentes lenguas:
– BSC: al menos tres dataset para tareas discriminativas de impacto en castellano o
catalán.
– UPV/EHU: al menos tres dataset para tareas discriminativas de impacto en
castellano y euskera.
– USC: al menos tres dataset para tareas discriminativas de impacto en castellano y
gallego.
– CENID: al menos tres dataset para tareas discriminativas de impacto en castellano
y valenciano, tales como detección de fraude, detección de marcas falsas y detección de
lenguaje claro.
– UJA: al menos tres dataset para tareas discriminativas de impacto en castellano,
por ejemplo: detección lenguaje ofensivo, detección de trastornos mentales, tratamiento
de subjetividad.
Iniciativa 3). Desarrollo y puesta a disposición pública de un marco de evaluación
de modelos.
Actividad 3.1 Creación datasets de evaluación e integración en frameworks de
referencia, así como en la plataforma de benchmarking. La evaluación incluye no sólo
performance, sino también aspectos de sesgo y toxicidad entre otros.
El BSC según la actividad 3.2 coordinará y hará el seguimiento de la creación
datasets de evaluación e integración en frameworks de referencia, así como en la
plataforma de benchmarking.
El resto de las entidades, llevarán a cabo el diseño y desarrollo de datasets de
evaluación que permita comparar las capacidades y rendimiento (benchmarking) de los
distintos modelos de lenguaje, TA y de voz (síntesis y reconocimiento). Los datasets
deben contemplar distintas métricas de evaluación de modelos de lenguaje, modelos de
TA y también de reconocimiento y síntesis de voz. No sólo medirán la capacidad de los
modelos sino también aspectos de eficiencia temporal y energética, sesgo, veracidad y
toxicidad entre otros. Integración en marcos de referencia (frameworks) así como en la
plataforma pública de evaluación del rendimiento (benchmarking) de los distintos
modelos de lenguaje, en las distintas lenguas:
– UPV/EHU: al menos tres datasets para tareas de evaluación en castellano y
euskera.
– USC: al menos tres datasets para tareas de evaluación en castellano y gallego.
– CENID: al menos tres datasets para tareas de evaluación en castellano y
valenciano.
– UJA: al menos tres datasets para tareas de evaluación en castellano.
El BSC será el encargado de la coordinación de esta iniciativa. Además de las
actividades que se describen a continuación, estará en continuo contacto con el personal
responsable a cargo de cada nodo territorial. Realizará reuniones regulares con el
objetivo de realizar el seguimiento técnico de las actividades y aplicar las medidas
adecuadas, en caso necesario, para mitigar cualquier riesgo que pueda surgir durante la
ejecución de la actuación.
Actividad 5.1 Convocatorias de acceso a recursos computacionales para el
desarrollo de pruebas de concepto en IA/TL.
cve: BOE-A-2025-12053
Verificable en https://www.boe.es
Iniciativa 5). Red territorial de equipos de colaboración técnica en IA/TL y acceso al
entorno seguro pre-comercial.