Implicaciones legales del web scraping en el entrenamiento de modelos de inteligencia artificial generativa

Legal implications of web scraping in the training of generative artificial intelligence models

Contenido principal del artículo

Juan Manuel Pacheco Chaparro
Laura Barrero Ramírez

Resumen

El web scraping es una técnica que se usa para recopilar datos en Internet y almacenarlos en una base de datos. Ese proceso se usa, entre otras cosas, para entrenar modelos de inteligencia artificial generativa y ha generado controversia alrededor del mundo debido a sus riesgos legales. En este artículo se analizará la viabilidad legal del uso de técnicas de web scraping y se abordarán tensiones relacionadas con asuntos contractuales de los términos de servicio de las páginas web, los riesgos legales que se desprenden de estas técnicas y, en particular, del uso de obras protegidas en el entrenamiento de modelos de inteligencia artificial generativa, de protección de datos personales y de implicaciones penales; las licencias open source, open access y de Creative Commons, así como también los datos de dominio público y en cabeza del Estado colombiano. Este artículo pretende ser un marco teórico inicial para la discusión del web scraping en modelos de inteligencia artificial generativa, dado que, a la fecha de elaboración de este artículo, el desarrollo normativo y jurisprudencial sobre este tema es aún incipiente.

Palabras clave:

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Referencias (VER)

Andersen v. Stability AI Ltd, U.S. District Court for the Northern District of California, n.° 3:23-cv-00201.

Associated Press. “AP, OpenAI agree to share select news content and technology in new collaboration”. Comunicado de prensa. 2023.

Bale, Ajay, Naveen Ghorpade, S. S. Rohith Kamalesh, R. Rohith y S. Rohan. “Web Scraping Approaches and their Performance on Modern Websites”. Coimbatore, India: Proceedings of the Third International Conference on Electronics and Sustainable Communication Systems, 2022.

Brittain, Blake. “Lawsuits accuse AI content creators of misusing copyrighted work”. Reuters, 2023.

Brittain, Blake. “OpenAI hit with new lawsuits from news outlets over AI training”. 2024.

Centro Nacional de Desarrollo Curricular en Sistemas no Propietarios. “Las licencias Creative Commons: qué son, por qué utilizarlas y cómo hacerlo”. 2021.

Concord Music Group Inc v. Anthropic PBC, U.S. District Court for the Middle District of Tennessee, n.° 3:23-cv-01092.

Corte Constitucional. Sentencia SU139 de 2021, 14 de mayo de 2021, M.P. Jorge Enrique Ibáñez Najar.

Corte Constitucional. Sentencia T-020 de 2014, 27 de enero de 2014. M.P. Luis Guillermo Guerrero Pérez. Creative Commons. “CC0”.

Creative Commons. “Who we are”.

David, Emilia. “Microsoft invokes VCRs in motion to dismiss the New York Times’ AI lawsuit”. 2024.

De Frutos, Rahn. “Excepciones y limitaciones al derecho de autor en Colombia: propuestas legislativas”. 2014.

Dirección Nacional de Derechos de Autor. Resolución 11 de 2017.

Doe et al v. GitHub, Inc. et al, U.S. District Court for the Northern District of California, n.° 4:22-cv-06823 (N.D. Cal. Nov 03, 2022).

Hacker, Philipp. “A legal framework for AI training data—from firs tprinciples to the Artificial Intelligence Act”. 2020.

hiQ Labs, Inc. v. LinkedIn Corporation, U.S. Court of Appeals for the Ninth Circuit.

Kroto, Vlad, Leigh Redd y Leiser Silva. “Tutorial: Legality and Ethics of Web Scraping”. Communications of the Association for Information Systems, 2020.

Lofti, Chaimaa, Swetha Srinivasan, Myriam Ertz y Imen Latrous. Web scraping techniques and applications: A literature review. SCRS Conference Proceedings on Intelligent Systems, pp. 381-394.

Margini, Thomas y Diane Peters. “Creative Commons Licenses: Empowering Open Access”. 2016.

Meta Platforms, Inc. v. Bright Data Ltd., U.S. District Court for the Northern District of California, n.° 3:23-cv-00077-EMC.

Metke, Ricardo. Lecciones de propiedad industrial (III). Baker & McKenzie, 2006.

Nazemian et al v Nvidia Corp, U.S. District Court, Northern District of California, n.° 24-01454.

New York Times Co v Microsoft Corp et al, U.S. District Court for the Southern District of New York, n.° 23-11195.

OpenAI. “GPT-4 Technical Report”. Computation and Language (cs.CL). Nueva York: Cornell University, 2023. DOI: arXiv:2303.08774 [cs.CL]. OpenAI. “GPTBot”. 2023.

Opendatasoft. “Open Data”.

Opendatasoft. “What is open data - Practical Guide”.

Open Knowledge foundation. “What is Open Data?”.

Originality.ai. “Websites that have blocked OpenAI’s GPTBot CCBot Anthropic Google Extended - 1000 Website Study”. 2024.

Patern, Tatjana y Layna Deneen. “AI Threats Emerge in Music Publishers’ Battle with Big Tech”. 2024.

Perez, Sarah. “Court rules in favor of a web scraper, Bright Data, which Meta had used and then sued”. TechCrunch. 2024.

Perez, Sarah. “Meta drops lawsuit against web-scraping firm Bright Data that sold millions of Instagram records”. TechCrunch. 2024.

Rajko M. Terzic´ y N. Majstorovic´ Milosav. “Open Data Concept, Its Application and Experiences” Belgrado, Serbia: Vojnotehnicˇki Glasnik / Military Technical Courier, 2019.

Raw Story Media v. OpenAI Inc, U.S. District Court for the Southern District of New York, No. 1:24-cv-01514

Ríos Ruiz, W. R. “Aspectos legales del software libre o de código abierto (open source)”. Revista la Propiedad Inmaterial, (2003), 41-60.

Rubin, Aaron y Jackie Li. “Court discovers rare and elusive ‘enforceable browsewrap’”. JDSupra. 2020.

Sala de Casación Penal. Corte Suprema de Justicia. Sentencia SP592-2022, 2 de marzo de 2022 M.P. Diego Eugenio Corredor Beltrán.

Sala de Casación Penal. Corte Suprema de Justicia. Sentencia SP2699-2023, 3 de agosto de 2023 M.P. Fernando León Bolaños Palacios.

Sanabria, Johan. Sector privado y libre competencia: implicaciones jurídicas del web. Bogotá: Universidad Externado de Colombia, 2021.

Schmitz, Christian. “Propiedad intelectual, dominio público y equilibrio de intereses”. Revista Chilena de Derecho 36, n.° 2 (2009).

Sellars, Andrew. Twenty Years of Web Scraping and the Computer Fraud and AbuseAct. Boston: Boston Univeristy School of Law, Scholarly Commons at Boston University School of Law.

Shutterstock. “Shutterstock expands partnership with OpenAI, signis new six-year agreement to provide high-quality training data”. Comunicado de prensa. 2023.

Shutterstock. “Shutterstock partners with OpenAI and leads the way to bring AIGenerated content to all”. Comunicado de prensa. 2022.

St. Laurent, Andrew. “Understanding Open Source and Free Software Licensing”. Sebastopol, USA: O’Reilly Media, Inc. 2004.

Stempel, Jonathan. “Nvidia is sued by authors over AI use of copyrighted works”. 2024.

Suárez, Alberto. Delitos informáticos. “Lecciones de derecho penal: parte especial”. Bogotá: Universidad Externado de Colombia, 2014.

Superintendencia de Industria y Comercio. “Protección de datos personales: aspectos prácticos sobre el derecho de hábeas data”. Superintendencia de Industria y Comercio. Resolución 58834 de 2023.

Telus International. “The essential guide to AI training data”.

The Intercept Media Inc v. OpenAI Inc, U.S. District Court for the Southern District of New York, n.° 1:24-cv-01515.

Tong, Anna, Echo Wang y Martin Coulter. “Exclusive: Reddit in AI content licensing deal with Google”. Reuters. 2024.

UNESCO. “Concepts of openness and open access”. 2015.

US. Copyright Office. “U.S. Copyright Office Fair Use Index”. 2023.

Usma, Fidel. El consentimiento en los contratos en línea B2C y su protección bajo la ley colombiana. Cuadernos de la Maestría en Derecho n.° 5. Bogotá: Universidad Sergio Arboleda.

Vincent, James. “The lawsuit that could rewrite the rules of AI copyright”. Artificial Intelligence, The Verge, 2022.

Walsh, Kat. “Understanding Cc Licenses And Generative Ai”, 2023.

Whittaker, Zack. “Web scraping is legal, US appeals court reaffirms”. TechCrunch 2022.

Zhao, Bo. “Web Scraping”. Encyclopedia of Big Data. DOI: 10.1007/978-3-319-32001-4_483-1

Citado por