Meta reconoce que entrena su inteligencia artificial con material presuntamente pirata
Una de las principales polémicas en torno a la inteligencia artificial es la presunta violación de derechos de autor y de licencias de código abierto por parte de las empresas, ya que estas están tomando muchísimo material, procedente de sitios de todo tipo, para entrenar sus modelos. Debido a lo cantoso que llega a ser el asunto, Meta (antes Facebook matriz) ha terminado reconociendo que ha empleado el conjunto de datos (dataset) Books3, que opera de forma supuestamente pirata, para entrenar sus modelos de inteligencia artificial.
Profundizando en el dato de la polémica, Meta ha reconocido que ha empleado Books3 para entrenar sus modelos de lenguaje grande (LLM) Llama 1 y Llama 2. Books3, por su parte, se compone de una colección en texto plano de más de 195.000 libros que ocupan un total aproximado de 37 gigabytes y fue creado un investigador llamado Shawn Presser con el propósito de proporcionar material que sirviera como fuente de datos para mejorar los algoritmos de aprendizaje de automático.
Dicho de forma más llana, Meta está entrenando sus LLM con material protegido con derechos de autor por el que no ha pagado ni ha pedido permiso. Esto recuerda al caso de la demanda del The New York Times contra Microsoft y OpenAI, siendo esto lo explicado por el conocido periódico estadounidense: “A través del Bing Chat de Microsoft (recientemente renombrado Copilot) y el ChatGPT de OpenAI, los demandados buscan aprovecharse de la enorme inversión de The New York Times en su periodismo, usándolo para construir productos sustitutivos sin permiso ni pago. Usar el contenido del Times sin pago para crear productos que sustituyen al Times y le roban audiencia”.
Que Meta haya reconocido que entrena sus LLM con material presuntamente pirata no es un ataque de honestidad, sino que deriva de una demanda que un grupo de autores ha interpuesto contra el gigante detrás de Facebook, WhatsApp e Instagram. La corporación se ha dirigido a algunos de esos autores, entre ellos Sarah Silverman y Richard Kadrey, para reconocer los hechos.
Que un contenido esté disponible de cara al público no quiere decir que sea de dominio público ni que pueda ser usado por cualquiera bajo cualquier condición, ni siquiera que sea legal viendo lo extendido de la piratería en Internet, aunque esto último, desde algunos frentes, da para un debate más complejo de lo que aparenta. Sin embargo, con el tema de la inteligencia artificial no estamos hablando del ocio de un particular en la intimidad de su hogar, sino de empresas que hacen dinero, directa o indirectamente, tomando material protegido con derechos de autor sin permiso o quebrantando licencias de código abierto.
¿Hemos dicho antes código abierto? Sí, ya que Microsoft, GitHub y OpenAI fueron demandadas en otoño de 2022 por violar licencias y derechos de autor con GitHub Copilot. Según la versión del demandante, Matthew Butterick, las tres compañías han violado un total de once licencias de código abierto, entre ellas MIT, GPL y Apache 2, que precisan la atribución del nombre y los derechos de autor.
Veremos cómo acaban estos procesos legales y el debate que se ha generado en torno a la utilización de material protegido con derechos de autor para entrenar los modelos relacionados con la inteligencia artificial. Dejando de lado las regulaciones que está impulsando la Unión Europea, es posible que en buena parte del mundo tomen como referencia una sentencia de la Corte Suprema de Estados Unidos para su proceder en torno a la inteligencia artificial.