Headline: Reddit Hits Back — Sues AI Startup Perplexity and Data Scrapers for “Industrial-Scale” Theft

Headline: Reddit Hits Back — Sues AI Startup Perplexity and Data Scrapers for “Industrial-Scale” Theft


In a landmark move that could reshape the boundaries of AI data use, Reddit, Inc. has filed a federal lawsuit in New York against Perplexity AI and three data-scraping firms — SerpApi (Texas), Oxylabs UAB (Lithuania), and AWMProxy (Russia). The company accuses them of illegally harvesting massive volumes of Reddit content to train artificial intelligence models without authorization.
According to the court filing, Reddit claims the defendants engaged in an “industrial-scale data laundering operation” that violated the platform’s rules and protections. The alleged scraping activity bypassed Reddit’s CAPTCHA barriers, rate limits, and “robots.txt” file directives, allowing the companies to collect user posts and comments from Google search results and Reddit’s site directly.
The complaint further states that Reddit sent Perplexity a cease-and-desist notice in May 2024, warning the AI company to stop using its data. However, the platform later observed a “40-fold increase” in Reddit-sourced content being cited in Perplexity search results — suggesting that scraping continued despite the legal warning. Reddit likened the practice to “would-be bank robbers who, unable to break into the vault, break into the armored truck instead.”
For Reddit, the lawsuit is more than a question of lost data — it’s about asserting control over one of the internet’s most valuable resources: community-generated knowledge. With millions of active users posting discussions daily, Reddit’s database of human conversation has become a goldmine for AI companies looking to improve their chatbots and search tools.
The company has already signed legitimate licensing deals with major AI developers such as OpenAI and Google, securing millions in revenue for data partnerships. In contrast, Reddit argues that the unauthorized scraping by Perplexity and its partners bypasses fair compensation, undermines the rights of content creators, and threatens the integrity of its business model.
In response to the accusations, Perplexity stated it “will always fight vigorously for users’ rights to freely and fairly access public knowledge.” The AI company claims it has not yet been formally served with the lawsuit and denies wrongdoing. SerpApi has also said it plans to contest the allegations, while Oxylabs and AWMProxy have not publicly commented.
Legal analysts say the case could become a major test of how far data-scraping rights extend in the AI age. While the U.S. courts have previously ruled on scraping disputes — such as the hiQ Labs vs. LinkedIn case — Reddit’s lawsuit adds new complexity by connecting scraping to large-scale AI training and commercial data resale.
Ben Lee, Reddit’s Chief Legal Officer, emphasized that the lawsuit “is about protecting the rights of the communities and creators whose work powers the next generation of AI.” He said Reddit intends not only to recover damages but also to seek a permanent injunction to stop further scraping and use of its data by the defendants.
The outcome could have far-reaching consequences for both tech platforms and AI developers. If Reddit wins, it could pave the way for stricter licensing frameworks, pushing AI companies to pay for the data they use — much like music or media licensing. Conversely, a ruling in favor of Perplexity could reinforce the argument that publicly available online content remains open for fair use in AI research and development.
For now, Reddit’s legal strike signals a growing divide between content platforms and AI firms eager to train on the internet’s collective knowledge. As the AI industry booms, the battle over who owns — and profits from — that knowledge is only just beginning.


Titular: Reddit Contraataca — Demanda a la Startup de IA Perplexity y a Empresas de Raspado de Datos por “Robo a Escala Industrial”
En un movimiento histórico que podría redefinir los límites del uso de datos en la era de la inteligencia artificial, Reddit, Inc. presentó una demanda federal en Nueva York contra Perplexity AI y tres empresas dedicadas al raspado masivo de datos: SerpApi (Texas), Oxylabs UAB (Lituania) y AWMProxy (Rusia). La compañía los acusa de haber extraído ilegalmente enormes volúmenes de contenido de Reddit para entrenar modelos de inteligencia artificial sin autorización.
Según la demanda, Reddit sostiene que los acusados participaron en una “operación de lavado de datos a escala industrial” que violó las reglas y protecciones de la plataforma. Las actividades de raspado presuntamente eludieron los sistemas de verificación CAPTCHA, los límites de acceso y las directrices del archivo “robots.txt”, permitiendo recopilar publicaciones y comentarios de usuarios tanto del propio sitio como a través de resultados de búsqueda en Google.
El documento judicial también afirma que Reddit envió una carta de cese y desistimiento a Perplexity en mayo de 2024, advirtiendo a la empresa de IA que dejara de utilizar sus datos. Sin embargo, la plataforma observó posteriormente un “aumento de 40 veces” en las citas de contenido de Reddit dentro de los resultados de búsqueda de Perplexity, lo que sugiere que el uso no autorizado continuó pese a la advertencia. Reddit comparó la práctica con “ladrones que, al no poder abrir la bóveda, deciden robar el camión blindado”.
Para Reddit, la demanda va más allá de una simple disputa sobre datos: busca reafirmar el control sobre uno de los recursos más valiosos de Internet —el conocimiento generado por las comunidades de usuarios—. Con millones de personas publicando debates y opiniones a diario, el archivo de conversaciones humanas de Reddit se ha convertido en una mina de oro para las empresas de inteligencia artificial que buscan mejorar sus chatbots y motores de búsqueda.
La compañía ya ha firmado acuerdos legítimos de licencia con desarrolladores de IA como OpenAI y Google, asegurando ingresos millonarios por la cesión de su base de datos. En contraste, Reddit argumenta que el raspado no autorizado por parte de Perplexity y sus socios evita la compensación justa, viola los derechos de los creadores de contenido y pone en riesgo la integridad de su modelo de negocio.
Perplexity respondió afirmando que “luchará enérgicamente por el derecho de los usuarios a acceder libre y justamente al conocimiento público”. La empresa asegura que aún no ha sido notificada formalmente de la demanda y niega las acusaciones. SerpApi también declaró que planea impugnar los señalamientos, mientras que Oxylabs y AWMProxy no han emitido comentarios públicos.
Expertos legales señalan que este caso podría convertirse en un precedente clave para definir hasta dónde llega el derecho al raspado de datos en la era de la IA. Si bien tribunales estadounidenses ya han abordado disputas similares —como el caso hiQ Labs vs. LinkedIn—, la demanda de Reddit introduce un nuevo matiz al vincular el raspado con el entrenamiento de modelos de inteligencia artificial y la reventa comercial de información.
Ben Lee, Director Legal de Reddit, subrayó que la acción judicial “busca proteger los derechos de las comunidades y creadores cuyo trabajo impulsa la próxima generación de IA”. Añadió que la compañía pretende no solo recuperar daños económicos, sino también obtener una orden judicial que detenga de forma permanente el uso y extracción de sus datos por parte de los acusados.
El resultado de esta disputa podría tener repercusiones significativas tanto para las plataformas digitales como para los desarrolladores de inteligencia artificial. Si Reddit gana, podría sentar las bases de un marco de licencias más estricto, obligando a las empresas de IA a pagar por los datos que utilizan, al igual que ocurre con la música o los contenidos audiovisuales. En cambio, si Perplexity prevalece, podría reforzar el argumento de que el contenido disponible públicamente en Internet puede considerarse de uso legítimo para la investigación y el desarrollo de IA.
Por ahora, el golpe legal de Reddit marca una creciente tensión entre las plataformas que albergan contenido generado por usuarios y las empresas tecnológicas deseosas de aprovechar ese conocimiento para entrenar sus modelos. A medida que la industria de la IA sigue creciendo, la batalla por quién posee —y quién se beneficia de— los datos del mundo digital apenas comienza.

https://www.socialmediatoday.com/news/reddit-launches-legal-action-against-ai-data-scrapers/803572/?utm_source=chatgpt.com
Publicado:

Noticias relacionadas

Contacto

Suscríbete y no te pierdas ninguna novedad.

    All Content © 2025 Ecuausa