Varias empresas de IA evaden norma web para recoger datos de sitios de editores, dice empresa de licencias

21 de junio, 2024 | 12.43

Múltiples empresas de inteligencia artificial están eludiendo un estándar web común utilizado por los editores para bloquear la recogida de datos de sus contenidos para su uso en sistemas de IA generativa, informó a los editores la empresa emergente de licencias de contenidos TollBit.

La carta a los editores, vista por Reuters el viernes, en la que no se nombra a las empresas de IA ni a los editores afectados, se conoce en medio de una disputa pública entre la startup de búsqueda de IA Perplexity y el medio de comunicación Forbes sobre el mismo estándar web y un debate más amplio entre las empresas tecnológicas y de medios de comunicación sobre el valor del contenido en la era de la IA generativa.

Forbes acusó públicamente a Perplexity de plagiar sus artículos de investigación en resúmenes generados por IA sin citar a Forbes ni pedirle permiso.

Este contenido se hizo gracias al apoyo de la comunidad de El Destape. Sumate. Sigamos haciendo historia.

SUSCRIBITE A EL DESTAPE

Una investigación de Wired publicada esta semana descubrió que Perplexity probablemente eludía los esfuerzos por bloquear su rastreador web a través del Protocolo de Exclusión de Robots, o "robots.txt", un estándar ampliamente aceptado para determinar qué partes de un sitio pueden rastrearse.

Perplexity declinó una solicitud de Reuters para comentar la disputa.

TollBit, una empresa emergente, se está posicionando como intermediaria entre empresas de inteligencia artificial ávidas de contenidos y editores dispuestos a firmar acuerdos de licencia con ellas.

La empresa rastrea el tráfico de IA a los sitios web de los editores y utiliza análisis para ayudar a ambas partes a llegar a un acuerdo sobre las tarifas a pagar por el uso de diferentes tipos de contenidos.

Según la carta de TollBit, Perplexity no es el único infractor que parece ignorar el archivo robots.txt.

TollBit afirma que sus análisis indican que "numerosos" agentes de AI se saltan el protocolo, una herramienta estándar utilizada por los editores para indicar qué partes de su sitio pueden ser rastreadas.

"Lo que esto significa en términos prácticos es que los agentes de IA de múltiples fuentes (no sólo una empresa) están optando por saltarse el protocolo robots.txt para recoger contenido de los sitios", escribió TollBit. "Cuantos más registros de editores ingerimos, más emerge este patrón".

"Robots.txt" se ha convertido en una herramienta clave que los editores han utilizado para impedir que las empresas tecnológicas recojan sus contenidos de forma gratuita para su uso en sistemas de IA generativa, que pueden imitar la creatividad humana y resumir artículos al instante.

Las empresas de IA utilizan los contenidos tanto para entrenar sus algoritmos como para generar resúmenes de información en tiempo real.

Algunos editores, entre ellos el New York Times, han demandado a las empresas de IA por infracción de los derechos de autor en relación con esos usos. Otros están firmando acuerdos de licencia con las empresas de IA abiertas a pagar por los contenidos, aunque las partes discrepan a menudo sobre el valor de los materiales. Muchos desarrolladores de IA sostienen que no han infringido ninguna ley al acceder a ellos gratuitamente.

Thomson Reuters, propietaria de Reuters News, es una de las empresas que han llegado a acuerdos de licencia de contenidos informativos para su uso por modelos de inteligencia artificial.

Con información de Reuters