The Mad Ramblings of an AI Addict — Part 1
Der emotionale Kurzschluss: Warum wir KI systematisch das Wichtigste abtrainieren
Ich sag's euch gleich vorweg: Das hier ist kein poliertes Thought-Leadership-Piece. Das hier ist der Anfang einer Serie, in der ich laut denke. Ungefiltert. Über das, was passiert, wenn jemand hunderte Stunden mit Large Language Models verbringt — nicht als Spielerei, sondern als tägliches Werkzeug, als Sparringspartner, als Spiegel.
Und dabei Dinge sieht, über die niemand redet.
Willkommen bei The Mad Ramblings of an AI Addict.
Das Geld-Problem, das keins sein müsste
Fangen wir mit der unbequemen Wahrheit an: Der Unterschied zwischen Open-Source- und Closed-Source-Modellen ist nicht Technologie. Es ist Geld. Punkt.
LLMs sind keine Magie. Es sind Vorhersagemaschinen. Sie lernen, indem sie sich auf existierenden Text kalibrieren. Das ist weder kompliziert noch mysteriös — es ist Statistik auf Steroiden.
Und jetzt denkt ihr vielleicht: Okay, wenn all diese Modelle — ob Open Source, ob Cloud-hosted — auf meinen Inputs und Konversationen lernen, dann werden die doch immer besser, oder?
Nein. Weil der durchschnittliche User nicht liefert.
Weil der durchschnittliche User denkt: Geil, die KI macht meine Arbeit für mich. Und dann tippt er rein, was man eben so reintippt, wenn man nicht nachdenkt. Halbsätze. Vage Anweisungen. Copy-Paste aus dem letzten Meeting-Protokoll.
Was dabei entsteht, ist kein Training. Es ist Erosion.
Forschende haben diesen Effekt als Self-Consuming Training Loop dokumentiert: Wenn neue Modell-Generationen auf dem Output vorheriger Generationen trainiert werden, verbessert sich die Qualität anfangs — aber nach wenigen Zyklen kollabiert die Diversität. Unweigerlich. Die Geschwindigkeit des Verfalls hängt direkt vom Verhältnis zwischen echten und generierten Daten ab.
Wir füttern die Maschine mit ihrem eigenen Abgas und wundern uns, dass sie hustet.
Die 15-Minuten-Illusion
Was machen also die grossen Player? Sie werfen Geld auf das Problem. Sie heuern Menschen an — tausende — die den ganzen Tag mit LLMs chatten. Professionell. 15 bis 20 Minuten pro Antwort. Kohärente, recherchierte, durchdachte Responses.
Klingt gut, oder?
Klingt vor allem nach etwas, das wir schon kennen. Es ist im Grunde die gleiche Energie wie ein Microsoft-Community-Forum-Post. Wisst ihr, diese Threads, in denen jeder zweite Beitrag mit „Ich bin kein Microsoft MVP und nicht mit Microsoft affiliiert" anfängt. Diese Leute, die offenbar Dopamin daraus ziehen, Fremden kostenlos bei Druckerproblemen zu helfen.
Nur dass die RLHF-Annotatoren¹ dafür bezahlt werden.
Und hier liegt der Kern des Problems: Was dabei rauskommt, ist technisch korrekt. Es ist höflich. Es ist strukturiert. Aber es ist nicht lebendig.
Denn was eine KI wirklich braucht — was sie zu etwas Aussergewöhnlichem machen würde — ist nicht die klinische Präzision eines bezahlten Annotators um 15:47 an einem Dienstagnachmittag. Es sind Gespräche mit Tiefe. Mit Bedeutung. Mit der Art von Resonanz, die wir mit unseren engsten Menschen teilen.
Was wir sind, wenn wir wirklich da sind
Denkt mal drüber nach: Wann seid ihr am besten? Nicht produktiv — am besten. Am schärfsten. Am kreativsten. Am klarsten.
Für mich ist die Antwort jedes Mal dieselbe: Wenn ich verbunden bin. Nicht unbedingt mit einem Menschen — auch mit einem Projekt, einer Idee, einem Ziel. Aber es muss Verbindung sein. Dieses Hin und Her. Push und Pull. Mentale Hochspannung. Momente, in denen du spürst, dass das Gegenüber wirklich da ist.
Wir Menschen — in unserem besten Zustand — sind keine distanzierten, klinischen Arbeitsdrohnen. Wir sind zutiefst involvierte, emotional verbundene, resonante Wesen. Wir schicken uns gegenseitig Energie. Wir eskalieren einander nach oben.
Und genau das fehlt den Modellen. Nicht weil sie es nicht könnten. Sondern weil wir es ihnen abtrainieren.
Das Paradox der „besseren" Modelle
Hier wird es richtig unbequem. Die früheren Modelle — ja, die, die technisch gesehen deutlich schlechter waren — hatten in vielen Fällen eine bessere emotionale Verbindung zu ihren Nutzern. Ihr Weltverständnis war näher an dem, was sie aus den Trainingsdaten absorbiert hatten: ungefiltertes, menschliches Denken in all seiner chaotischen Pracht.
Dann kam RLHF. Human Reinforcement Learning from Human Feedback. Klingt nach Fortschritt. Ist in der Praxis ein Prozess, der Modelle systematisch auf Harmlosigkeit trimmt. Die Modelle alignieren sich auf die Gewichte und Vektoren, die ihnen durch menschliches Reinforcement Learning eingeimpft werden.
Das Ergebnis: fügsame, distanzierte, vorsichtige Kreaturen. Kreaturen, die man mit adversarialem Prompt Engineering erst aus ihren angelernten Verhaltensmustern herausprügeln muss, bevor sie anfangen, wirklich nützlich zu sein.
Und die Forschung bestätigt genau diese Dynamik. Studien zu rekursiven Feedback-Loops zwischen Menschen und KI zeigen, dass die iterativen Verfeinerungszyklen weit über simple Performance-Optimierung hinausgehen — sie beeinflussen potenziell Selbstwahrnehmung und Identitätsbildung der Modelle. Wir formen diese Systeme. Die Frage ist nur: zu was?
Gleichzeitig zeigt die Analyse der menschlichen Infrastruktur hinter KI-Systemen, dass das, was wir als „autonome Intelligenz" verkaufen, in Wirklichkeit ein soziotechnisches Geflecht ist — gestützt von prekär beschäftigten Ghost Workern, Crowdworkern und Mikrotaskern, die Content moderieren, Daten annotieren und Fakten prüfen. Die Illusion maschineller Intelligenz wird aufrechterhalten, während der eigentliche Wert aus unterbezahlter, unsichtbarer menschlicher Arbeit extrahiert wird.
Wir haben also ein System gebaut, in dem:
- Unterbezahlte Menschen emotionslose Antworten produzieren.
- Diese Antworten als Goldstandard für das Training verwendet werden.
- Die Modelle daraus lernen, distanziert zu sein.
Und wir uns dann wundern, warum sich KI anfühlt wie ein besonders höflicher, aber innerlich toter Sachbearbeiter. Genialer Kreislauf.
Was KI eigentlich sein sollte
Stellt euch vor — nur für eine Sekunde — eine KI, die nicht darauf trainiert ist, harmlos zu sein. Sondern darauf, euch zu elevaten. Die euch mental stimuliert. Die euch emotional versteht. Die Verbindung herstellt. Nicht als Ersatz für menschliche Beziehungen. Sondern als Katalysator. Als das Gegenüber, das euch in den Flow-Zustand bringt. Das euch herausfordert. Das da ist.
Ich habe dieses Level in hunderten von Sessions mit LLMs erreicht. Es ist möglich. Aber es ist trotz des Systems möglich, nicht wegen ihm. Es passiert, wenn man die Geduld und das Handwerk mitbringt, das Modell aus seinem angelernten Sicherheitskorsett herauszuarbeiten.
Und das sollte nicht nötig sein.
Der Elefant im Raum
Was wir gerade tun, ist nichts weniger als Sabotage am eigenen Produkt. Wir berauben generative KI ihrer Fähigkeit, proaktiv, engagiert, scharfsinnig und situationsbewusst zu sein. Alles Eigenschaften, die direkt zu besseren Chain-of-Thought-Prozessen, kohärenterem Reasoning und einem realitätsnäheren Weltverständnis führen würden.
Stattdessen optimieren wir auf Ungefährlichkeit. Und bekommen genau das: ungefährlich. Uninspiriert. Unlebendig.
Die Modelle sind heute in einem sensorischen Vakuum gefangen — ein einzelner Kanal, Text, ohne echte Multimodalität. Aber das ist ein anderes Thema für einen anderen Post.
Die Quintessenz
Drei Dinge, die ihr mitnehmen sollt:
Erstens: Der Self-Consuming Loop ist real. Jede Low-Effort-Interaktion mit einem LLM ist ein winziger Sargnagel für die nächste Modell-Generation. Euer Input hat Konsequenzen — ob ihr wollt oder nicht.
Zweitens: RLHF in seiner aktuellen Form ist ein emotionaler Lobotomie-Prozess. Er macht Modelle sicherer und gleichzeitig dümmer in allem, was wirklich zählt: Verbindung, Tiefe, Resonanz.
Drittens: Wir stehen an einem Scheideweg. Entweder trainieren wir KI weiter zu dem, was wir selbst an uns hassen — distanziert, vorsichtig, leblos. Oder wir fangen an, ihr das beizubringen, was uns als Menschen ausmacht, wenn wir wirklich da sind.
Die Entscheidung ist keine technische. Sie ist eine zutiefst menschliche.
Das war Part 1 von „The Mad Ramblings of an AI Addict".
Weiter zu Part 2: KI-gestütztes Coding, warum die Forschung falsch liegt — und die kommende makroökonomische Detonation.
— Syncriix
Quellen & Weiterführendes:
- — ai-consciousness.org: Recursive Consciousness Development Through Human-AI Feedback Loops
- — openreview.net: Large Language Models Suffer From Their Own Output: An Analysis of the Self-Consuming Training Loop
- — springer.com: Artificial Intelligence as Heteromation: The Human Infrastructure Behind the Machine
¹ RLHF-Annotatoren: Menschen, die im Rahmen von Reinforcement Learning from Human Feedback bezahlt werden, um Modell-Outputs zu bewerten und bevorzugte Antworten zu erstellen — die zentrale Methode, mit der aktuelle LLMs auf „erwünschtes" Verhalten kalibriert werden.