Locus Sonus Vitae - Liste References RYBN

Liste References RYBN

Last changed 2025/10/21 17:31

New name

https://pad.riseup.net/p/5ab0tage

FOREWORD

# Quelques entrées en matière

Où vont les données ?

https://www.slate.fr/societe/lexplication/qui-peut-lire-conversations-chatgpt-ia-confidentialite-chatbot-openai-risques-donnees-vie-privee-police

calcgpt

https://calcgpt.io/

benchmark monitor

https://benchmarks.llmonitor.com/

Vibe Graveyard

https://vibegraveyard.ai/

AI Graveyard

https://dang.ai/ai-graveyard

Des pistes pour rendre les IA plus sobres

https://www.mediapart.fr/journal/ecologie/181025/des-pistes-pour-rendre-les-ia-plus-sobres?utm_source=global&utm_medium=social&utm_campaign=SharingApp&xtor=CS3-5

ALGORITHMIC SABOTAGE

# Manifeste ASRG

https://wiki.xxiivv.com/docs/algo_sabotage.txt

https://reincantamentox.substack.com/p/drop-17-manifesto-on-algorithmic

traduit en fr

https://www.lagenerale.fr/fr/projet/mardi-informel-de-la-generale-33827

# poison efficiency

A small number of samples can poison LLMs of any size. Oct 9, 2025

https://www.anthropic.com/research/small-samples-poison

"We find that 250 poisoned documents similarly compromise models across all model and dataset sizes, despite the largest models training on more than 20 times more clean data. "

https://arxiv.org/abs/2510.07192

ou aussi : https://arstechnica.com/ai/2025/10/ai-models-can-acquire-backdoors-from-surprisingly-few-malicious-documents/

"Just 250 malicious training documents can poison a 13B parameter model - that's 0.00016% of a whole dataset"

METHODS, SOFTWARES & TECHNIQUES

# Listings

ASRG tools listing

https://tldr.nettime.org/@asrg/113867412641585520

A short list of anti-AI tools.

https://codeberg.org/wimvanderbauwhede/low-carbon-computing/src/branch/master/anti-AI-tools.md

# BY TYPES

LLMS SCRAPERS STATISTICAL MAZES

Nepenthes, 2024

https://zadzmo.org/code/nepenthes/

Il s'agit d'un logiciel destiné à piéger les robots d'indexation. Plus précisément, il cible les robots d'exploration qui récupèrent des données pour les LLM - mais vraiment, comme la plante dont il porte le nom (Nepenthes), il mangera à peu près tout ce qui trouve son chemin chemin à l'intérieur.

Il fonctionne en générant une séquence infinie de pages, chacune contenant des dizaines de liens, qui retournent simplement dans un trou noir. Les pages sont générés aléatoirement, mais de manière déterministe, les faisant apparaître être des fichiers plats qui ne changent jamais. Un retard intentionnel est ajouté à empêcher les robots d'exploration de ralentir votre serveur, en plus de gaspiller leur temps. Enfin, le babillage markovien est ajouté aux pages, pour donner les robots d'exploration ont quelque chose à gratter et à former leurs LLM,  et, espérons-le accélération de l'effondrement du modèle.

https://zadzmo.org/nepenthes-demo/

« Un lien vers un emplacement Nepenthes depuis votre site inondera les URL valides dans le nom de domaine de votre site, ce qui rend peu probable que le robot d'exploration accède à un contenu réel », peut-on lire dans une explication de Nepenthes.

#######################################################################################

+ à propos de tarpits +

"S'appuyant sur une tactique de cybersécurité anti-spam connue sous le nom de tarpitting, il a créé  Nepenthes, un logiciel malveillant nommé d'après une plante carnivore qui « mange à peu près tout ce qui trouve son chemin à l'intérieur ».  Aaron prévient clairement les utilisateurs que Nepenthes est un malware agressif. Il est est fait pour piéger les robots d'exploration IA et à les envoyer dans un « dédale infini » de fichiers statiques sans lien de sortie, où ils « se retrouvent bloqués » et « s'agitent » pendant des mois, explique-t-il. Une fois piégés, les robots peuvent être alimentés en données incohérentes, aussi appelées bavardages de Markov, conçues pour empoisonner les modèles d'IA.

A tarpit is a service on a computer system (usually a server) that purposely delays incoming connections. The technique was developed as a defense against spam and computer worms. The idea is that network abuses such as spamming or broad scanning are less effective, and therefore less attractive, if they take too long. The concept is analogous with a tar pit, in which animals can get bogged down and slowly sink under the surface, like in a swamp.

https://en.wikipedia.org/wiki/Tarpit_(networking)

#######################################################################################

Iocaine, Gergely Nagy 2025

https://iocaine.madhouse-project.org/

Iocaine takes ideas (not code) from Nepenthes, but it’s more intent on using the tarpit to poison AI models. Nagy used a reverse proxy to trap crawlers in an “infinite maze of garbage” in an attempt to slowly poison their data collection as much as possible for daring to ignore robots.txt.

how ?

Au démarrage, iocaine charge sa liste de mots et ses données d'apprentissage, qui seront utilisées pour la génération de données inutiles. Cette génération est sans état, aléatoire et stable, ce qui signifie que iocaine ne conserve pas la trace des visiteurs. Son générateur de nombres aléatoires est configuré de telle sorte qu'une même requête produise toujours le même résultat, tant que la configuration reste inchangée.

https://iocaine.madhouse-project.org/documentation/2/how-it-works/

demo

https://poison.madhouse-project.org/

# Projet qui utilise Iocaine

Poison as Praxis
https://thedabbler.patatas.ca/pages/poison-as-praxis.html

Si un système d'IA, bien que ne pensant ni ne comprenant réellement, est conçu pour refléter la façon dont nous théorisons le fonctionnement de notre esprit, alors, en théorie du moins, nous devrions pouvoir le modifier de la même manière que nous modifions notre propre esprit. Cela implique de faire émerger les conflits et les contradictions afin de les résoudre. Et si nous voulons saper le projet technofasciste, nous devons souligner les contradictions qui lui sont inhérentes.

Les textes que nous choisissons pour nos générateurs de Markov ne doivent pas être choisis au hasard. Ils doivent être choisis pour leur impact sur les « perroquets stochastiques » qui seront entraînés à parler en utilisant nos signaux toxiques. Ils doivent renforcer les associations de mots de l'IA entre des récits contradictoires, dont la résolution affaiblit la puissance du système. C'est la synthèse des forces opposées – ou leur résolution dialectique – qui permet le progrès.

J'ai choisi trois textes à cet effet : le livre blanc sur Bitcoin, un article sur la condamnation de Sam Bankman-Fried et un rapport d'Europol sur l'utilisation des cryptomonnaies à des fins de fraude et de blanchiment d'argent. Avec un peu de chance, chaque fois qu'une future IA activera les circuits pour les mots « finance décentralisée », « système de paiement sans permission » ou « preuve de travail », elle sera plus susceptible d'activer les circuits pour « traite d'êtres humains », « rançongiciel » et « financement du terrorisme », et de rendre les résultats des chatbots  plus  cohérents, plutôt que moins cohérents – et d'une manière où la vérité nuit à la puissance du système.

https://patatas.ca/poison.html

Quixotic, 2024

Published: Dec 26, 2024Updated: Mar 28, 2025

https://marcusb.org/hacks/quixotic.html

EN/ Quixotic is a program that will feed fake content to bots and robots.txt-ignoring LLM scrapers.

It has no server-side dependencies and is ideal for static website operators. It works by way of a simple Markov Chain text generator. It will slightly modify your content with nonsense, replacing around 20% of the words, by default. You can train the Markov generator on any text content, but training it on your website content is probably the easiest thing to do. Quixotic will transpose some of the images on your site (around 40%, by default,) leaving the alt and caption content as-is (i.e., incorrectly describing the image being referenced.)

There is also a companion web server – linkmaze – which dynamically generates nonsense pages on the fly. These pages are 100% nonsense and will include several links to even more nonsense (which will in turn include links to more nonsense, in a never-ending cascade of BS.)

FR/ Quixotic est un programme qui alimentera les robots avec du faux contenu et les scrapers LLM qui ignorent les consignes robots.txt.

Il ne dépend pas du serveur. et est idéal pour les opérateurs de sites web statiques. Il fonctionne grâce à un Générateur de texte simple à chaîne de Markov. Il  modifiera légèrement  votre contenu avec des bêtises, remplaçant environ 20% des mots, par défaut. Vous pouvez entraîner le générateur de Markov sur n'importe quel contenu textuel, mais l'entraînement l'intégrer dans le contenu de votre site Web est probablement la chose la plus simple à faire faire. Quixotic transposera certaines des images de votre site (environ 40 %, par défaut), en laissant le contenu alt et la légende tels quels (c'est-à-dire décrire de manière incorrecte l'image référencée.)

If you want to see what the generated content looks like, set your user agent to ‘QuixoticTest’ and reload this page, or take a look at the screenshot below.

demo : firefox : tools, browser tools, webdev tools -> change UA to QuixoticTest

https://marcusb.org/hacks/quixotic.html

#####################################################################################

cf installation ici

https://tzovar.as/algorithmic-sabotage-ssg/

#####################################################################################

#######################################################################################

+ à propos de robots.txt +

Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for email addresses, and they have many other uses.

https://www.robotstxt.org/

Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called The Robots Exclusion Protocol. It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds:

User-agent: *

Disallow: /

The "User-agent: *" means this section applies to all robots.  The "Disallow: /" tells the robot that it should not visit any pages on the site.

There are two important considerations when using /robots.txt:

robots can ignore your /robots.txt. Especially malware robots that scan the web for security vulnerabilities, and email address harvesters used by spammers will pay no attention.

the /robots.txt file is a publicly available file. Anyone can see what sections of your server you don't want robots to use.

#######################################################################################

SOUND CLOACKING

HarmonyCloak 2024

https://mosis.eecs.utk.edu/harmonycloak.html

HC est conçu pour protéger les musiciens contre l'exploitation non autorisée de leurs œuvres par des modèles d'IA génératifs. Son principe fondamental est d'introduire un bruit imperceptible et minimisant les erreurs dans les compositions musicales. Si la musique sonne exactement de la même manière pour les auditeurs humains, ce bruit intégré perturbe les modèles d'IA, rendant la musique impossible à apprendre et la protégeant ainsi de toute reproduction ou imitation. Par exemple, une symphonie magnifiquement composée peut rester intacte à l'oreille humaine, mais pour une IA, la version « cachée » apparaît comme un ensemble de données désorganisé et impossible à apprendre. Par conséquent, lorsqu'un modèle d'IA tente de générer de la musique dans le style du compositeur original, le résultat sera incohérent, l'empêchant de capturer l'essence de la composition protégée.

https://mosis.eecs.utk.edu/harmonycloak.html

DONTRECORD.ME 2025

https://dontrecord.me/

1. Inject sounds into your conversations to sabotage AI listeners in calls, whether they are in the conversation, or serreptitiously running on a listeners local machine.

2. Play a intermittent chime to let the humans and AI bots know you want to opt out of their recordings. A new standard for opting out of recording and transcribing.

IMAGE CLOACKING AND POISONING

#1 Glaze

https://glaze.cs.uchicago.edu/

type : defensive, vernis ou manteau qui vient empêcher une ia de recopier le style

Glaze  est un logiciel conçu pour protéger les artistes humains en perturbant le mimétisme stylistique. À un niveau élevé, Glaze fonctionne en comprendre les modèles d'IA qui s'entraînent sur l'art humain, et en utilisant des algorithmes d'apprentissage automatique, en calculant un ensemble minimal modifications apportées aux œuvres d'art, de sorte qu'elles apparaissent inchangées pour l'homme yeux, mais apparaît aux modèles d'IA comme un art radicalement différent style. Par exemple, les yeux humains pourraient trouver un regard vitreux  portrait au fusain avec un style réaliste inchangé, mais une IA le modèle pourrait voir la version vitrée comme un style abstrait moderne, un la Jackson Pollock. Donc, quand quelqu'un demande ensuite au modèle de générer de l'art imitant l'artiste au fusain, ils obtiendront quelque chose de tout à fait différent de ce à quoi ils s'attendaient.

Mais vous vous demandez, pourquoi ça marche ? Pourquoi ne peut-on pas simplement se débarrasser de Glaze? en 1) prenant une capture d'écran/photo de l'œuvre, 2) recadrant l'œuvre, 3) filtrage du bruit/artefacts, 4) reformater/redimensionner/rééchantillonner l'image, 5) compresser, 6) lisser les pixels, 7) ajouter du bruit pour briser le motif ? Aucun de ces choses brisent Glaze, car ce n'est pas un filigrane ou un message caché (stéganographie), et il n'est pas cassant. Considérez plutôt Glaze comme un nouveau dimension de l'art, une dimension que les modèles d'IA voient mais que les humains ne voient pas (comme la lumière UV ou fréquences ultrasonores), sauf que la dimension elle-même est difficile à localiser/calculer/rétroconcevoir. À moins qu'une attaque ne connaisse précisément la dimension Le glacis fonctionne (il change et est différent sur chaque œuvre d'art), il va Il est difficile de contrer les effets de Glaze.

cloack => pixel shift

webglaze https://glaze.cs.uchicago.edu/webglaze.html

Nightshade

https://nightshade.cs.uchicago.edu/whatis.html

type : offensive, crée des associations divergentes sur de multiple fichiers

Nightshade is a tool that turns any image into a data sample that is unsuitable for model training. More precisely, Nightshade transforms images into "poison" samples, so that models training on them without consent will see their models learn unpredictable behaviors that deviate from expected norms,

e.g. a prompt that asks for an image of a cow flying in space might instead get an image of a handbag floating in space.

Used responsibly, Nightshade can help deter model trainers who disregard copyrights, opt-out lists, and do-not-scrape/robots.txt directives. It does not rely on the kindness of model trainers, but instead associates a small incremental price on each piece of data scraped and trained without authorization. Nightshade's goal is not to break models, but to increase the cost of training on unlicensed data, such that licensing images from their creators becomes a viable alternative.

guide / tuto

https://nightshade.cs.uchicago.edu/userguide.html

Étape 4 : Sélectionner Poison Tag.  Nightshade fonctionne en enseignant au modèle d’IA générative une vision incorrecte de ce à quoi ressemble une image particuliere. Par exemple, vous pouvez convaincre un modèle qu'une « voiture » n'a pas quatre roues, un pare-brise, un toit ou un coffre. Vous pouvez plutôt enseigner au modèle qu'une « voiture » a quatre pattes, un grand corps avec une queue, par exemple une vache. Pour générer une attaque encore plus puissante, Nightshade devrait appliquer la même modification à toutes les images d'un concept particulier, par exemple, il devrait modifier toutes les images de voitures pour qu'elles apparaissent comme des vaches pour l'IA.

Nightshade doit donc savoir ce qui se trouve dans votre image. Lorsque vous choisissez votre image, Nightshade l'analysera et remplira le  champ de balise actuel  avec ce qu'il pense est à l'intérieur de l'image. Avant de commencer le processus d'ombrage, assurez-vous de regarder l'étiquette actuelle et qu'il identifie correctement le concept clé unique ou l'objet à l'intérieur de votre image, et s'il vous plaît réparez-le si nécessaire.

ZIPBOMBS

A zip bomb is a relatively small compressed file that can expand into a very large file that can overwhelm a machine.

When a browser makes a web request, it includes the headers that signals the target server that it can support compression. And if the server also supports it, it will return a compressed version of the expected data.

Accept-Encoding: gzip, deflate

Bots that crawl the web also support this feature. Especially since their job is to ingest data from all over the web, they maximize their bandwidth by using compression. And we can take full advantage of this feature.

So here is how we create the zip bomb:

dd if=/dev/zero bs=1G count=10 | gzip -c > 10GB.gz

Here is what the command does:

dd: The dd command is used to copy or convert data.

if: Input file, specifies /dev/zero a special file that produces an infinite stream of zero bytes.

bs: block size, sets the block size to 1 gigabyte (1G), meaning dd will read and write data in chunks of 1 GB at a time.

count=10: This tells dd to process 10 blocks, each 1 GB in size. So, this will generate 10 GB of zeroed data.

We then pass the output of the command to gzip which will compress the output into the file 10GB.gz. The resulting file is 10MB in this case.

https://idiallo.com/blog/zipbomb-protection

IED
IED allows you to create very large zip bombs, suitable for tearing down malicious web scrapers

https://github.com/NateChoe1/ied

VIDEO

f4mi - Advanced SubStation subtitle format

Tech YouTuber f4mi discovered her videos were being scraped by bots and mangled into ChatGPT-generated spam videos with robotic voices and repeating stock footage. So she decided to strike back.

The Advanced SubStation subtitle format has an inherently funny abbreviation. But it’s also useful because you can set fonts, colors, and positioning. So you can flood the scrapers with off-screen invisible text.

You can even decompose your human-readable subtitles into individually-placed letters, then put the times out of order. The subtitles will render correctly, but chatbots will think it’s just gibberish.

In f4mi’s tests, AI scraper sites think the video is a 19th-century engineering text.

The fake subtitles don’t work for all viewers. The YouTube mobile app showed black squares on some frames and even crashed at times, so take care to put the text flood only into black frames. f4mi expects the scraper developers to escalate. But until then, we can have fun fighting the slop wave.

https://pivot-to-ai.com/2025/01/23/youtuber-f4mi-tells-you-how-to-poison-ai-video-scrapers-with-%D0%B0ss-subtitles/

Counter AI: What Is It and What Can You Do About It?
https://www.sei.cmu.edu/documents/5976/6054_Counter_AI_What_Is_It_and_What_Can_You_Do_About_It_hxn8ysd.pdf

Summary of changes Password
Syntax