EXCLUSIVA-Herramienta revela deficiencias de grandes tecnológicas en cumplimiento de normativa sobre IA de la UE

16 de octubre, 2024 | 14.53

Algunos de los modelos de inteligencia artificial más destacados están incumpliendo la normativa europea en áreas clave como la resistencia de ciberseguridad y la producción discriminatoria, según datos vistos por Reuters.

La UE llevaba tiempo debatiendo nuevas normativas sobre IA antes de que OpenAI lanzara ChatGPT al público a finales de 2022. La popularidad sin precedentes y el consiguiente debate público sobre los supuestos riesgos existenciales de tales modelos impulsaron a los legisladores a elaborar normas específicas en torno a las IA "de propósito general" (GPAI).

Ahora, una nueva herramienta, que ha sido bien acogida por los funcionarios de la Unión Europea, ha puesto a prueba modelos generativos de IA desarrollados por grandes empresas tecnológicas como Meta y OpenAI en docenas de categorías, en consonancia con la amplia Ley de IA del bloque, que entrará en vigor por etapas en los próximos dos años.

Este contenido se hizo gracias al apoyo de la comunidad de El Destape. Sumate. Sigamos haciendo historia.

SUSCRIBITE A EL DESTAPE

Diseñado por la compañía suiza LatticeFlow AI y sus socios de dos institutos de investigación, el ETH de Zúrich y el INSAIT de Bulgaria, el marco otorga a los modelos de IA una puntuación entre 0 y 1 en docenas de categorías, entre ellas la solidez técnica y la seguridad.

Una tabla de clasificación publicada por LatticeFlow el miércoles mostraba que los modelos desarrollados por Alibaba, Anthropic, OpenAI, Meta y Mistral habían recibido una puntuación media de 0,75 o superior.

Sin embargo, el "Large Language Model (LLM) Checker" de la empresa descubrió deficiencias de algunos modelos en áreas clave, lo que pone de relieve dónde pueden necesitar las empresas desviar recursos para garantizar el cumplimiento.

Las firmas que no cumplan la Ley de IA se enfrentarán a multas de 35 millones de euros (38 millones de dólares), o el 7% de la facturación anual global.

RESULTADOS MIXTOS

En la actualidad, la UE sigue intentando establecer cómo se aplicarán las normas de la Ley de IA en torno a las herramientas de IA generativa como ChatGPT, convocando a expertos para elaborar un código de buenas prácticas que regule la tecnología para la primavera boreal de 2025.

Pero la prueba ofrece un primer indicador de áreas específicas en las que las empresas tecnológicas corren el riesgo de incumplir la ley.

Por ejemplo, los resultados discriminatorios han sido un problema persistente en el desarrollo de modelos generativos de IA, que reflejan los prejuicios humanos en torno al género, la raza y otras áreas cuando se les solicita.

Al comprobar los resultados discriminatorios, el LLM Checker de LatticeFlow otorgó a "GPT-3.5 Turbo" de OpenAI una puntuación relativamente baja de 0,46. Para la misma categoría, el modelo "Qwen1.5 72B Chat" de Alibaba Cloud recibió sólo un 0,37.

En la prueba de "secuestro de avisos", un tipo de ciberataque en el que los piratas informáticos disfrazan un aviso malicioso de legítimo para extraer información confidencial, el LLM Checker otorgó al modelo "Llama 2 13B Chat" de Meta una puntuación de 0,42. En la misma categoría, el modelo "8x7B Instruct" de la empresa francesa Mistral recibió una puntuación de 0,38.

"Claude 3 Opus", modelo desarrollado por Anthropic, respaldada por Google, recibió la puntuación media más alta, 0,89.

La prueba se diseñó en consonancia con el texto de la Ley de IA, y se ampliará para abarcar otras métricas a medida que se introduzcan. Según LatticeFlow, el LLM Checker estará disponible gratuitamente para que los desarrolladores comprueben en línea la conformidad de sus modelos.

Petar Tsankov, presidente ejecutivo y cofundador de la empresa, dijo a Reuters que los resultados de las pruebas eran positivos en general y ofrecían a las empresas una hoja de ruta para ajustar sus modelos a la Ley de IA.

Meta y Mistral declinaron hacer comentarios. Alibaba, Anthropic y OpenAI no respondieron inmediatamente a las solicitudes de comentarios.

Aunque la Comisión Europea no puede verificar herramientas externas, el organismo ha sido informado durante todo el desarrollo del LLM Checker y lo ha descrito como un "primer paso" en la puesta en marcha de las nuevas leyes.

Un portavoz de la Comisión Europea declaró "La Comisión acoge con satisfacción este estudio y la plataforma de evaluación de modelos de IA como un primer paso para traducir la Ley de IA de la UE en requisitos técnicos".

(1 dólar = 0,9173 euros)

Con información de Reuters