Besser Wissen Autorenpodcast: Wohin geht es mit den LLMs?

Shownotes

Artikel von Tim Elsner auf Golem.de https://www.golem.de/search/?q=tim%20elsner

Transkript anzeigen

00:00:00: Hallo und herzlich willkommen zu einer weiteren Ausgabe.

00:00:02: Mein Name ist Martin Wolff und ich bin Podcastbeauftragter von Gulen.de und ich heiße hier herzlich willkommen zum Autoren-Podcast, in dem wir uns zu Hintergründen von Artikelthemen mit den jeweiligen Autoren unterhalten.

00:00:14: Und heute aus der Ferne aus Ahren.

00:00:16: zugeschaltet ist Tim Elsner.

00:00:18: Hallo Tim.

00:00:19: Hallo, danke, dass du mich eingeladen hast.

00:00:22: Danke, dass du gleich ja gesagt hast zu diesem, ich nenne es immer noch Experiment, obwohl ich in diesem Moment noch gar nicht weiß, wie viele Folgen davon schon draußen sind.

00:00:30: Ich habe noch nicht mal einen Namen.

00:00:32: Aber das wird sich alles noch ergeben, wenn ich das zusammenhacke und dann auf die jeweiligen Plattform ausspiele.

00:00:37: Ich weise schon jetzt darauf hin, dass es noch einen anderen Podcast gibt, den ich eigentlich normalerweise mache.

00:00:41: Der heißt besser wissen und da fahre ich dann auch zu den einzelnen Leuten.

00:00:45: Da wäre ich jetzt auch zu dir nach Aachen gekommen, Tim.

00:00:47: Aber jetzt müssen wir es aus der Ferne machen.

00:00:49: Nächstes Mal.

00:00:51: Ja, genau, nächstes Mal.

00:00:53: Wir fangen mal damit an, was du für gulm.de schreibst.

00:00:56: Was sind deine Themen?

00:00:58: Ich setze mich vor allen Dingen mit KI auseinander, wer hätte es gedacht, vor allen Dingen aber eher die Forschungs- und, ich sag mal, experimentallere Seite, weil ich eben eigentlich auch aus der Wissenschaft komme.

00:01:08: Ich habe an der RWTH Aachen meine Doktorarbeit geschrieben über Repräsentationen für generative Modelle auf visuellen Daten, also sprich, wenn ich Bilder erstellen möchte mit einer KI.

00:01:18: Wenn ich da eingebe, ich hätte gerne Eichhörnchen auf eine Motorrad und bekommen dieses Bild.

00:01:22: Wie macht man das effizienter?

00:01:23: Wie sorgt man dafür, dass die neuronalen Netze das besser verstehen, besser verarbeiten, schneller diese Bilder produzieren können, ohne dass das vielleicht auch Regenwälder dafür niederbrennen muss?

00:01:32: Und gerade mache ich das Ganze hauptberuflich, freiberuflich.

00:01:36: Also ich... ... mache Vorträge, mache ein bisschen Beratungen, ... ... aber auch noch direkte Entwicklung bei Kunden ... ... und schreibe halt eben auch noch für Godem.de, ... ... weil ich eben auch immer wichtig finde, ... ... dass man nicht nur diesen Kram technisch umsetzen kann, ... ... sondern auch Leuten irgendwie ... ... ja erklären können muss, ... ... was da eigentlich in so einem Netz passiert.

00:01:53: Es ist nicht nur für die Kunden wichtig, ... ... sondern finde ich auch fürs eigene Verständnis, ... ... weil man hat wirklich etwas erst ... ... richtig gut verstanden, wenn man, ... ... ich sage mal, in einfachen Worten auch wiedergeben kann.

00:02:04: Da du dich mit dem Thema mindestens so lange oder wahrscheinlich länger beschäftigst als ich es tue bei Golem.de.

00:02:11: Bevor wir jetzt zu unserem eigenen Thema kommen, schweife ich schon gleich mal ab und frage dich da mal dazu, als ich das erste Mal Disco Diffusion gesehen habe, das muss so drei, vier Jahre oder so her sein, als es noch so kleine, lustige, bunte Knetebildchen mit einer Auflösung von hundert, achtundzwanzig mal hundert, achtundzwanzig Pixel oder was das war damals gemacht hat.

00:02:29: War ich mir relativ sicher, dass das auf jeden Fall wesentlich besser wird, hätte mir aber niemals denken können, dass es so gut wird.

00:02:35: Wie war es bei dir?

00:02:37: Also ich habe es ein bisschen früher noch diesen ganzen Kram mitbekommen.

00:02:40: Ich glaube so das erste, was wirklich gut war, war damals Daliens.

00:02:43: Das sieht, wenn man sich das heute anguckt, auch absolut peinlich aus.

00:02:46: Also kleine Bilder, super blurry und also jede Menge.

00:02:50: Ja, eigentlich... grob falsche Sachen, wo ich auch gedacht habe, so ja, in fünf bis zehn Jahren könnte das mal gut werden.

00:02:55: Und irgendwie zwei Jahre später kam dann Stable Diffusion raus und dann war so, okay, krass.

00:02:59: Und ich meine, jetzt sind wir ja mit Nano Banana und Co.

00:03:01: schon in einer Domäne, wo man echt aufpassen muss, was ist echt und was nicht.

00:03:06: Das ganze sogar selbst bei Videos.

00:03:07: Also bei den Bildern kam das für mich sehr überraschend, wie schnell das ging.

00:03:13: Gleichzeitig jetzt bei Videos finde ich es noch krasser, weil ... Da habe ich vor einem Jahr auch, glaube ich, auf Kohle im Artikel drüber geschrieben.

00:03:21: So nach Motto, ja, das könnte in ein paar Jahren dann mal richtig groß werden und richtig gut aussehen und gefährlich werden.

00:03:26: Und jetzt sehe ich Videos auf Twitter und merke erst so nach zehn Sekunden.

00:03:29: Ach, scheiße, das ist KI.

00:03:30: Also die Entwicklung bei Videos finde ich noch dramatischer, weil am Ende sind Videos ja noch hochdimensionale.

00:03:36: Da ist ja nicht ein Bild, sondern Tausende.

00:03:39: Da finde ich sie noch krasser.

00:03:40: Also selbst ich bin da ein bisschen beeindruckt zumindest.

00:03:45: Was mich beruhigt, das ist dann nicht.

00:03:48: Es ist ja mal schön, wenn man, wenn man dann mitbekommt, dass die Expertinnen oder Experten auch ein bisschen zeitlich daneben lagen.

00:03:54: Also, weil ich mein, ich wusste, damals hatte ich mich dann damals mit beschäftigt.

00:03:59: Ich habe auch Artikel darüber geschrieben, wie man das benutzen kann und wo es herkommt.

00:04:02: Ich bin natürlich jetzt technisch nicht so weit drin wie du, aber wusste dann schon ungefähr, wo es hingeht.

00:04:06: Und du sagst gerade mehr Dimensionalität bei Video.

00:04:08: Das umfasst ja auch die.

00:04:12: über die Zeitdimension erkennbare oder physikalische Dimension, die solche Sachen dann plötzlich noch haben müssen, was ja drastisch viel mehr ist als bei Bildern.

00:04:22: Klar, es ist vor allen Dingen, ist es ja nicht nur eine Momentaufnahme, sondern du musst ja wirklich lernen, dynamisches Verhalten von der Szene zu repräsentieren.

00:04:31: Also wenn ich einen Ball irgendwo werfe, wie fliegt er, was ist die Physik von diesem Ball?

00:04:37: Du hast auch noch so Continuity Probleme, dass wenn zum Beispiel du einen Raum aufnimmst und springst die Kamera einmal nach links und dann wieder nach rechts zurück, dass sich nicht die Szene da plötzlich ändert und die Seite, wo du kurz nicht hingeguckt hast, anders aussieht.

00:04:50: Also da ist noch eine ganze Haufen mehr Probleme drin, plus deine Rohdaten sind halt einfach ein vielfaches größer.

00:04:56: Also wenn man sich das mal überlegt, ein HD-Bild hat halt irgendwie zwei Millionen Bildpunkte und wenn du von diesen HD-Bildern, dann weiß ich nicht, sechzig Stück.

00:05:06: Für eine Sekunde hast du vielleicht realistisch gesehen, er zwanzig Frames pro Sekunde, dann hast ja schon irgendwie vierzig Millionen Bildpunkte für eine Sekunde Material und klar, die würde man normalerweise komprimiert speichern, aber in so einer GPU, wenn du die mit dem Netz verarbeitest, sind die eben nicht komprimiert, sondern mehr oder weniger rohe Daten.

00:05:24: und dass wir das überhaupt sinnvoll verarbeiten können und so finde ich immer noch immer noch krass.

00:05:31: Damit kommen wir zum eigentlichen Thema, die Zukunft der LLMs und wie LLMs aktuelle Grenzen überwinden könnten.

00:05:37: Ich muss gestehen, dass ich wesentlich weniger LLMs benutzt habe als Sprachmodelle oder als Hilfe oder wie auch immer im Alltag, wofür auch immer man die jetzt gerade benutzt, als ich diese Gen AI.

00:05:50: Sachen benutzt habe oder verfolgt habe, weil das ja auch eher mein Thema ist.

00:05:54: Wie ist denn da die Entwicklung verlaufen?

00:05:56: Ist dein Eindruck da, dass das so einen ähnlichen Sprung dann gab?

00:06:00: Gab es auch solche Sachen, wo du gesagt hast, okay, in zwei Jahren ist es vielleicht so und dann ging es schneller oder ist das eher graduell und eher linearer angestiegen?

00:06:10: Da finde ich, ist es... Bis auf eine Ausnahme finde ich eher das Gegenteil.

00:06:14: Also ich bin da ein bisschen pragmatisch und denke mir ja gut, wenn ich jetzt mit JetGPT angucke und vergleiche das mit JetGPT, wie es war zum Release, dann ist der Sprung dann jetzt nicht so wahnsinnig.

00:06:26: Also das ist alles ein bisschen smoother, alles ein bisschen besser.

00:06:29: Aber ich habe nicht das Gefühl, dass das Ding fundamental, ich sag mal... irgendwie eine neue Art zu denken hat.

00:06:36: Das ist also quasi einfach nur weiter austrainiert, ein bisschen größer gescaled, aber es kann nicht wesentlich mehr.

00:06:41: Und die eine Ausnahme, die ich meine, ist halt eben, dass das Ding jetzt multimodal ist, dass ich also auch Bilder da reinhauen kann und also nicht ein Foto von der Maschine im Gym da rein stecke und dann frage, wie benutze ich das Teil, dass das geht.

00:06:54: Das hat mich damals schon ein bisschen umgehauen, dass das so schnell kam.

00:06:57: Aber seitdem ist eigentlich nicht so viel passiert.

00:07:00: Also man sieht ja auf diesen ganzen Benchmarks dann immer schön, wie immer alles besser wird.

00:07:04: Aber an vielen Stellen sind die Dinge immer noch genauso doof, wie sie auch vor Jahren schon waren.

00:07:09: Und ja, also es fühlt sich so ein bisschen nach einer Sättigung an, finde ich, deutlich mehr als bei Bildern oder bei Videos, wo du eben siehst, die einzelnen Sprünge werden kleiner.

00:07:19: Das hat man auch ganz schön gesehen, so bei dem Sprung von GPT-V auf V. Also wenn wir uns erinnern, GPT-V, Jet-GPT.

00:07:26: Damals auf GPT-IV war ein Riesen-Wow-Effekt, weil eben plötzlich Bilder möglich waren und die Kontextlänge, also die Anzahl der möglichen Buchstaben, die man da reinhauen konnte, plötzlich viel höher war.

00:07:36: Der Sprung war riesig.

00:07:38: Und auch die Anwendungsmöglichkeiten waren dann plötzlich viel mehr.

00:07:41: Und jetzt der Sprung von GPT-IV auf fünf war so, ja gut, das Ding redet ein bisschen anders, das kann ein paar Aufgaben mehr, aber so fundamental, krass anders ist da nichts.

00:07:50: Und das ist halt, finde ich, dann eher so ein bisschen Stagnation oder im Sättigungskurve.

00:07:56: Und eben nicht die fette, neue, krasse Innovation, die jemanden voll von den Socken haut.

00:08:00: Auch wenn die ganzen Firmen das natürlich gerne so bewerben.

00:08:04: Ich denke mir manchmal vielleicht, also das ist auch mein Eindruck gewesen, okay, auch interessant, dass sich das so ein bisschen überschneidet.

00:08:11: Ich denke mir manchmal... Aber vielleicht gibt es auch Sachen da drin, die, also es ist sehr augenfältig.

00:08:16: bei Bildern und Video ist das sehr, sehr klar zu sehen, was da gerade passiert und wie sich das verändert hat, weil so ein Benchmark, den du gerade angesprochen hast, natürlich sehr simpel.

00:08:27: umzusetzen ist, sage ich mal, bei Bildern und bei Videos.

00:08:31: Es ist sofort augenfältig, was funktioniert und was nicht.

00:08:34: Also man erinnere sich an die sieben Finger oder solche Dinge.

00:08:38: Wohingegen das bei Text meiner Meinung nach viel, viel schwieriger ist.

00:08:41: Wie sieht denn so ein Benchmark aus, mit dem man eine Grenze feststellen könnte?

00:08:46: Also ganz bittiges Beispiel.

00:08:47: Es gibt ja zum Beispiel so ein Mediziner-Test oder das Barrexam, wenn du anwalt werden willst in den USA.

00:08:54: Und dann lässt man halt einfach ein JetGPT drauf los und guckt sich an, so, hey, wie beantwortet das denn die Fragen?

00:08:59: Kriegt das in den meisten Fällen die Fragen richtig hin oder nicht?

00:09:02: Das waren so die ersten Dinge, die man gemacht hat.

00:09:05: Jetzt ist natürlich das Problem, diese ganzen Dinger stehen alle im Internet.

00:09:07: Ja, JetGPT geht hin, lernt den ganzen Kram auswendig und wird natürlich auch irgendwann die Lösung dafür auswendig kennen.

00:09:13: Und deswegen ist das so ein bisschen zweifelhaft, wie viele von diesen Benchmarks eigentlich wirklich noch ja nicht in den Trainingsdaten drin sind.

00:09:21: Mittlerweile geht es dann auch eher so Richtung Coding Challenge, Schmatte, Olympiaden, also so ein bisschen mehr wirklich Aufgaben lösen, statt nur sagen, ABCD, irgendwelche Fakten und Wissen, replizieren.

00:09:35: Und mittlerweile gibt es dann auch, was das nennt sich, Humanities Last Exam, das sind also ein paar besonders schwierige Probleme, die man dann so Modell gibt.

00:09:44: Und das ist angeblich auch nicht in den Trainingsdaten dieser Modelle drin.

00:09:48: Das halte ich aber ein bisschen für geflunkert, weil spätestens wenn irgendein Wissenschaftler auf Twitter sich darüber unterhält, ist es auch in den Trainingsdaten drin.

00:09:56: Also das ist so ein bisschen, da lügt man sich dann gerne selbst in die Tasche, weil es natürlich auch für Investoren richtig cool aussieht, wenn du sagst, hey, wir haben auf Humanities last examen, zwanzig Prozent mehr gehabt, aber in Wahrheit hast du einfach mit einem paar Twitter-Konversationen von Wissenschaftlern auswendig gelernt und darüber eben die Trainingsdaten dann doch ins Modell bekommen.

00:10:12: Und dann wirkt das Modell viel klüger, als es eigentlich ist.

00:10:15: Auch da, es ist dann eben weniger augenfällig, was das Ding eigentlich... Was das Ding kann im Gegensatz zu optischen Sachen, wo ich sofort sehe, ob der Pfahl im Vordergrund ist oder nicht.

00:10:26: Und das kann es auch nicht faken, in dem Sinne, dass jemand jetzt Pfäle in die Trainingsdaten reinschmeißt und sagt, guck mal hier, das muss immer im Vordergrund oder Hintergrund sein.

00:10:36: Wohingegen, wie du sagst, bei normalen LLMs kann man natürlich Schwerpunkte legen und wenn man gut in Benchmarks abschneiden.

00:10:44: möchte, das wissen wir auch von Firmen, die einfach Hardware herstellen, dass die dann mit unter ihre jeweiligen Sachen so ein bisschen so züchten, dass das besonders gut dabei abschneidet.

00:10:53: Und das Ganze geht ja aber auch trotzdem nur mit diesen Benchmarks, weil man braucht ja irgendeine feste Größe.

00:10:59: oder aber ist es so, dass man sich von der festen Größe dann verabschieden sollte und was anderes machen sollte.

00:11:06: Also es gibt etwas, das nennt sich LM Arena, da kannst du quasi selbst dich anmelden, dann kriegst du random zwei Antworten auf irgendeine Frage, die du stellst, kannst dann sagen, hey, die finde ich besser oder die finde ich besser.

00:11:16: Das ist dann quasi so ein Elosystem wie beim Schach, also wenn Leute gegeneinander spielen, guckst du immer, wer hat da die besseren Antworten gegeben oder wer hat die?

00:11:23: Ich sag mal Spiele gewonnen, ob dadurch berechnest du dann so eine Elozahl, wer im Moment am besten ist.

00:11:28: Das halte ich für etwas aussagekräftiger, ist aber natürlich nur ein relatives Maß.

00:11:32: Also wenn du halt ein Modell hast, was konsistent leicht besser ist, dann wird es halt von der Eloanzahl halt deutlich krasser sein und es sieht aus, als wäre es ein hiesen Sprung dabei.

00:11:40: Weiß ich nicht, formuliert es die Sachen vielleicht einfach nur ein bisschen gefälliger, obwohl es inhaltlich gar nicht mehr kann.

00:11:45: Also das ist schon mal ein bisschen besserer Weg, aber irgendwie so richtig der Goldstandard ist es auch nicht.

00:11:51: Ja, also es ist, glaube ich, einfach schwierig.

00:11:55: Dann kommen wir dazu, was im Ganzen zugrunde liegt.

00:11:58: Wir sagen Intelligenz, wir meinen Mustererkennung, also um das klar zu sagen.

00:12:02: Auch bei LLMs ist es nicht so, dass das Ding irgendwas Tolles kann, so wie wir im Zweifelsfall, die einen mehr, die anderen weniger, sondern es hat eine Mustererkennung und versucht vorher zu sagen, was als nächstes passiert in dem jeweiligen Kontext.

00:12:18: Das ist natürlich... Anfällig ist für alle möglichen Dinge und aber auch leicht dazu gebraucht werden kann.

00:12:25: Du hast es schon gesagt, Leute zu beeindrucken mit einem Taschenspieler-Trick.

00:12:28: Guck, wie es das kann.

00:12:30: Es gibt das Wort, das hatten wir im Vorgespräch von der PhD-Intelligenz, die so ein Ding inzwischen erreicht haben soll, was natürlich totaler Quatsch ist, oder?

00:12:39: Genau, also Ogmei, ich mach dir mal Werbung damit, dass das nächste Modell, PhD-Level Intelligent ist, also auf dem Niveau eines Menschen mit Dr.

00:12:46: Graves ist und... Das finde ich sehr, sehr weit hergeholt, ist natürlich wie immer Marketing, einfach weil die Investorengelder haben wollen.

00:12:55: Das klingt dann immer so schön markig.

00:12:57: Aber ehrlich gesagt, wenn ich einen Chat-GPT den richtigen Prompt gebe, dann ein Symbol, also sinnwürdig betrachtet, fängt der ein PhD Level Intelligence erst mal an, eine Flasche Kleber auf Ex zu trinken, wenn man es nur richtig foguliert.

00:13:11: Und das ist finde ich eben nicht wirklich Intelligenz.

00:13:13: Also für einige Aufgaben ist das sehr schnell und gut.

00:13:16: Aber es gibt immer noch sehr schnell Grenzen, die du erreichen kannst, die nicht in dem liegen, was das Modell eigentlich gelernt hat.

00:13:23: Da fallen die dann sehr, sehr schnell auf die Nase.

00:13:26: Also, da gibt es immer wieder sehr, sehr kleine Beispiele, die zeigen, wie limitiert das ist.

00:13:30: Jetzt, vor ein paar Wochen, konnte man noch eingeben bei JetGPT zum Beispiel, gibt es einen Seahorse, also ein Seepferdchen-Emoji.

00:13:39: Und dann ist das Modell völlig durchgedreht und hat ihr seitenweise Text darüber geschrieben, dass es das ergibt und hat probiert, irgendwelche Emojis zu produzieren.

00:13:46: Und dann waren das aber wieder nicht die richtigen und der ist einfach komplett auseinandergeflogen.

00:13:50: Und diese Grenzen werden immer besser kaschiert.

00:13:52: Das Modell kann auch immer mehr Aufgaben, weil immer mehr Aufgaben in die Trainingsdaten wandern.

00:13:58: Aber das macht es halt nicht wirklich smarter.

00:14:00: Also das Wissen und die Basis wird irgendwie breiter.

00:14:03: Aber am Ende ist es halt, wie du gerade sagst, immer noch Mustererkennung.

00:14:07: ist immer noch der stochastische Papagei, der einfach nur gelernt hat, was er an welcher Stelle plappern muss, aber wirklich Verständnis.

00:14:13: Da halt eigentlich nicht hinter.

00:14:16: Das sieht man, finde ich immer so, das ist immer so mein Go-to-Beispiel, um Leuten zu erklären, nur weil etwas intelligent klingt, muss es nicht intelligent sein.

00:14:23: Wenn du einen Affen an eine Schreibmaschine setzt und der Tipp darauf will drum, produziert irgendein Buchstaben-Sanat, dann würde man sagen, okay, das ist nicht besonders intelligent.

00:14:32: Wenn ich diesem Affen jetzt aber statt Buchstaben einfach einzelne Wörter gebe, Und die auf die Tast schreiben, also der drückt jetzt nicht mehr QZV, sondern der drückt einzelne Wörter auf der Tastatur.

00:14:43: Dann klingt das, was da rauskommt, zwar immer noch nach dem Gibberish, aber es ist halt eben nicht mehr Buchstaben-Salat, sondern es sind schon irgendwie einzelne Wörter und vielleicht auch mal zwei Bilder hintereinander, die irgendwie Sinn machen.

00:14:52: Und dann hast du eigentlich, hat der Affe nichts mehr gelernt, der ist genauso doof in Anführungszeichen wie früher.

00:14:58: Aber das, was dabei rauskommt, klingt auf jeden Fall schon um Welten, Klüger und menschlicher als eben das.

00:15:05: was im ersten Schritt mit den reinen Buchstaben rauskam.

00:15:07: Das wäre eben genauso ein technischer Taschenspielertrick, der auch hinter diesen ganzen Modellen steckt und wo du halt eben siehst, etwas kann deutlich intelligenter aussehen, ist aber kein Stück Lüger.

00:15:20: Weil lustigerweise unsere Mustererkennung anspringt und der Meinung ist, dass das da irgendwie Sinn ergibt.

00:15:28: Es gab aber unabhängig davon auch immer wieder so Situationen, wo Leute, die sich hauptberuflich damit beschäftigen und auch studiert sind und alles trotzdem verblüfft waren, was die Modelle plötzlich konnten.

00:15:40: Ich erinnere daran, dass es mal irgendwann dieses Ding gab mit Sparks of AGI, wo ein Modell das eigentlich keine visuelle Vorstellung haben sollte, dann trotzdem in einem solchen Test Ergebnisse produziert hat.

00:15:53: Sind das dann Zufälle oder ist das dann irgendwie trotzdem durch deren durch deren Lernen, durch deren Rohmaterial erklärbar?

00:16:05: Ich glaube, da ist ein bisschen das Problem, dass wir uns als Menschen keine Dimension mehr davon machen können, wie viel Training-Starten eigentlich in so ein Modell reinfließen.

00:16:13: Das hat ja einmal quasi das komplette Internet und alle Bibliotheken der Menschheit gesehen.

00:16:18: Und ich glaube, wir können als Menschen einfach gar nicht greifen, wie viel da wirklich drin steckt.

00:16:24: Da ist eben auch eine ganze Menge Kram drin, wo wir vielleicht nicht dran denken, dass es drin sein könnte und dann sind wir halt eben sehr vergifft.

00:16:31: Dann kommen wir zum Punkt, der wahrscheinlich dann, also der nach den Wünschen der jeweiligen Unternehmen in der Zukunft liegt, nämlich die allgemeine künstliche Intelligenz, die AGI.

00:16:43: Ist das deiner Meinung nach mit den aktuellen Paradigmen, wie wir so ein Modell füttern mit dem Training und auch dem, wie so ein Ding aufgebaut ist, überhaupt möglich?

00:16:53: Nee.

00:16:54: glaube ich absolut nicht.

00:16:55: Also, diese Narrative, die die ganzen, ich nenne sie jetzt mal ein bisschen verächtlich, Silicon Valley, AI, Tech Bros.

00:17:02: Ja, fahren ist dieses so, ah, wir brauchen nur zwanzig Milliarden mehr, dann scaleen wir das noch größer und dann sind wir bei AGI.

00:17:08: Komm, gibt uns noch ein bisschen mehr Geld.

00:17:11: Das halte ich für sehr, sehr, sehr, sehr, sehr weit hergeholt und Pflichteck für falsch, weil... diesen Modellen fielen so ein paar sehr, sehr grundsätzliche Dinge, um wirklich Intelligenz zu zeigen, finde ich.

00:17:22: Und das eine ist halt eben ein kontinuierliches Lernen, dass wir die also nicht einmal statisch trainieren und danach sind die fertig.

00:17:29: Ja, also das wird dann so ein bisschen zurechtgezupft, indem man sozusagen die vorherige Konversation noch irgendwie vor dem Prompt klebt oder solchen Tricks dann arbeitet, aber im Wesentlichen sind die Modelle statisch und ändern sich dann nicht mehr.

00:17:41: Und zum anderen fehlt denen halt jegliche Form von Reflexion beim Lernen.

00:17:45: Also wenn mein ChatGPT zu viel Fortscham liest oder zu viel Verschwörungstheorie Webseiten, dann wird das glauben, dass die Erde flacher ist und wird das nicht hinterfragen.

00:17:57: Wenn es das oft genug liest, dann ist das für das Modell so.

00:18:00: Oder wenn das Modell genug Interviews mit Trump liest, dann wird es irgendwann sagen, Trump is the greatest president of all time.

00:18:07: Und da fehlt halt jegliche Reflektion hinter jegliches.

00:18:10: Ich habe gerade neue Informationen bekommen.

00:18:12: Ich denke erst mal drüber nach und dann überlege ich, ob ich mir das so merke oder ob ich das, ob ich da was anderes drausziehe.

00:18:18: Und das ist halt wirklich einfach nur stumpfes Auswendig gelerne gerade.

00:18:21: Und solange wir da nicht irgendwie weiterkommen und dem Modell halt ermöglichen, beim Training schon irgendwie eher sich Gedanken zu machen sozusagen, sind wir glaube ich extrem weit von wirklicher Intelligenz entfernt und insbesondere AGI.

00:18:36: bedeutet ja wirklich allumfassende Intelligenz und auch eine gewisse Selbstverbesserung und das sehe ich halt absolut nicht mit den aktuellen Möglichkeiten.

00:18:45: Das ist einerseits natürlich für die betroffenen Leute wahrscheinlich eher misslich.

00:18:49: Ich finde es hingegen persönlich eher positiv, weil ich auch sonst sehr kritisch den LLMs und ihren Ja, Auswirkungen auf die Gesellschaft gegenüberstehe.

00:18:59: Du allerdings nicht.

00:19:00: Du bist eigentlich trotzdem, du sahr so drinnen steckst und auch die ganzen Kritikpunkte ja aufgezählt hast und die Schwierigkeiten, die es da gibt, eher Fan der, also dessen, was die KI eigentlich so kann.

00:19:11: In welchen Szenarien nutzt du sie denn oder wo siehst du denn gute Einsatzwecke?

00:19:17: Ich glaube, es gibt halt einfach unglaublich viele, ich sag mal, entweder sinnlose Aufgaben oder Aufgaben, die sich sehr gut automatisieren lassen.

00:19:25: Also wenn es irgendwie darum geht, irgendwelche Berichte umzuschreiben und irgendwelche Excel-Schieds einzutragen, das kannst du alles wunderbar mit LLMs machen lassen.

00:19:33: Das ist vermutlich weniger fehleranfällig.

00:19:35: Oder wenn ich jetzt mir eine Flugreise buche und ich schreibe dem Condor Support und der... Ja, vielleicht soll ich die Firma da nicht nennen, aber die haben mich um den

00:19:43: letzten Urlaub.

00:19:43: Bitte, alle Firmen.

00:19:45: Genau, also großer Negativ-Shout-Out, ein Condor.

00:19:48: Die haben mich bei meinem letzten Urlaub wahnsinnig schlecht mit Informationen versorgt.

00:19:52: Und wenn ich da einfach nur einen LLM-Chatbot gehabt hätte, den ich irgendwas frage und dann guckt er in seiner internen Datenbank von den Condor-Handbüchern mal nach, dann hätte ich wahrscheinlich eine bessere Antwort bekommen als eine Hotline, die mir sagt so, ja, können wir nichts machen.

00:20:06: Also das waren so Dinge, da wären wir in den Chatbots schon fast lieber gewesen.

00:20:11: Und ich glaube halt diese ganzen sozialen Auswirkungen, die das haben kann, das Jobs wegfallen und so weiter.

00:20:17: Ich glaube, da denken viele Leute ein bisschen falsch, weil am Ende geht es ja nicht darum, wie viel Arbeitszeit wir pro Woche generieren, sondern wie produktiv die Gesellschaft ist.

00:20:28: Güter- und Dienstleistungen können wir zur Verfügung stellen.

00:20:31: Und wenn wir das mit Technik so weit drücken können, dass wir weniger Stunden brauchen fürs gleiche Level an Qualität oder sogar mehr Produktivität, dann ist das erstmal was Gutes.

00:20:40: Man muss dann nur dafür sorgen, dass das ein bisschen fair verteilt wird und vielleicht jeder in nur dreißig Stunden die Woche arbeitet, anstatt was eben besagten Silicon Valley Techgrows sich die ganze Kohle in die Tasche stecken.

00:20:50: Aber ansonsten bin ich da sehr positiv eingestellt und freue mich über jedes bisschen an Bürokratie und an Ja, Formalien, die wir mit so LLMs wegmachen können oder eben eine Support Hotline, die nicht komplett nutzlos ist.

00:21:04: Das ist ja auf jeden Fall Frau Bewünsche auch gerade, was das betrifft mit dem Geld in die Tasche stecken.

00:21:07: Ich kann dir sagen, mein Kontakt mit einem Chatbot war sogar ein telefonischer Chatbot von einem Restaurant, wo ich's neulich was reservieren wollte, ist daran gescheitert, dass der Chatbot mir zwar sagen konnte, dass er das Restaurant da ist und guten Tag und alles, als ich ihn aber gebeten habe, einen Tisch zu reservieren, meinte er, das kann er nicht.

00:21:26: Und dann habe ich gesagt, na ja, ok, dann stelle mich doch einfach durch zu der Person, die das kann.

00:21:30: Na ja, das kann er auch nicht.

00:21:31: Und dann hatte ich, na ja, was kannst du denn?

00:21:33: Na ja, ich könnte der Person Bescheid sagen, dass sie sie zurückruft.

00:21:35: Wo ich dachte, ok, jetzt haben wir aber beide richtig Zeit verschwendet, aber bitte schön, mach doch das.

00:21:39: Und dann gab es auch den Rückruf und dann gab es auch eine Bestellung am Tisch.

00:21:43: Also das ist schon wirklich schräg dann.

00:21:45: Die müssen natürlich, so wie du sagst, wenn jetzt Kondauer oder eine Fluggesellschaft sowas einsetzen würde, dann müssen die natürlich auch dem Ding den entsprechenden Zugriff auf die Datenbanken geben.

00:21:55: Und korrekte Sachen hinterlegen, immer vorausgesetzt, dass das dann funktioniert.

00:21:59: Andererseits müssen sie das bei den Menschen am Telefon ja auch tun, also wenn die nur... Da gibt's ja, genau, auch bei den Menschen gilt Shit in, Shit out.

00:22:07: Auch da, ein großer Shoutout an Condor, die mir, wo mir die Mitarbeiter am Flughafen dann Unsinn erzählt haben und ich dann fast in Vancouver gestrandet wäre, weil sie mir gesagt hätten, ich müsste mein Koffer selbst umladen, was halt nicht stimmt.

00:22:19: Also das ist das gleiche Problem wie mit den LLMs, wenn ich misst rein tue, dann kommt auch misst raus.

00:22:24: Dann habe ich ein bisschen die Hoffnung, dass wenn die Daten beim groß genug ist, auf die die Zugriff bekommen, dass die LLMs ein bisschen weniger misst machen als die Menschen.

00:22:31: Dann kommen wir dazu, wozu nutzt du das selbst konkret?

00:22:35: Also jetzt haben wir das Beispiel mit der Fluglinie gehabt, aber gibt es irgendwie Anwendungszwecke, bei denen du im täglichen Leben sagst, okay, also abgesehen von der Excel-Tabelle, da hilft es mir oder da bringt es mir was?

00:22:45: Doof gesagt ist das mein neues Google für viele Stellen.

00:22:48: Also bei Faktenwissen und so natürlich nicht, weil die Dinger hallucinieren, die schreiben Unsinn.

00:22:52: Aber wenn ich beispielsweise, ich habe es ja schon erwähnt, wenn ich im Gym stehe und mich frage, wie benutze ich eigentlich diese Maschine?

00:22:58: Oder wenn meine Pflanze hier auf der Fensterbank plötzlich so komische Farbe an den Blättern bekommt, habe ich ein Bild davon rein und frag, was da los ist.

00:23:05: Also vor allen Dingen für die visuellen Funktionen einfach um Dinge zu identifizieren.

00:23:10: Ja, also wenn ich auch wissen möchte, welche Pflanze ist das.

00:23:13: Aber auch viel zum Kochen.

00:23:16: Also ich koche leidenschaftlich gerne.

00:23:17: und da ein bisschen Inspiration zu haben, wenn ich mir denke, hey, ist es bald Weihnachten.

00:23:22: Ich habe Bock auf japanische Geosa, also so Teigtaschen, wie die mit irgendwie ein bisschen weihnachtlich aufspeisen.

00:23:28: Was kann ich denn da machen?

00:23:29: Das klappt schon hervorragend, also dadurch, dass das Ding auch alle Rezeptdatenbank auswendig gelernt hat, muss ich mich dann nicht mehr mit irgendwelchen Rezepten rumschlagen, wo erstmal fünf Seiten Familiengeschichte stehen, wo ganz viel Wärmung zwischen ist, sondern lassen wir das damit generieren.

00:23:43: Ist natürlich dann auch wieder eine Debatte über das Urheberrecht, aber auch da sich das ein bisschen pragmatisch, muss ich sagen, und denkt mir in der Sekunde, wo du Informationen ins Internet stellst.

00:23:53: ... und Leute, die runterladen und für so ein KI benutzen, ... ... wenn die KI danach allen auch zur Verfügung steht, ... ... das finde ich irgendwie so ein Kompromiss.

00:24:03: Also da ist JetGPT vielleicht ein Beispiel, ... ... was ich nicht so schön finde, ... ... weil man dafür bezahlen muss.

00:24:07: Aber Meta zum Beispiel hat ja ihre Modelle, ... ... die sie dann trainiert haben, ... ... auch öffentlich zur Verfügung gestellt.

00:24:13: Das heißt, die kann ich auch benutzen, ... ... sogar für Business Cases.

00:24:15: Das finde ich irgendwie so ein fairer Kompromiss, ... ... also wenn man seinen Kram ins Internet stellt.

00:24:21: Und so ein Bot hier runter lädt, dann muss der aber danach auch allen zur Verfügung stehen.

00:24:26: Das finde ich irgendwie ein Entfernkompromiss.

00:24:27: Also ich benutze es wirklich im täglichen Leben für alles.

00:24:33: Dann kommen wir Richtung Ende mal in so ein bisschen so eine Zukunftsaussicht.

00:24:37: Also du hast schon gesagt, mit dem derzeitigen Paradigma ist AGI jetzt eher unwahrscheinlich, aber die Modelle werden ja trotzdem mit weniger Ressourcen besser.

00:24:47: Ein Beispiel dafür war Deep, oh Gott, Sieg heißt dieses

00:24:50: Dieb Sieg.

00:24:51: Ja.

00:24:53: Was haben die anders gemacht und warum ist das vielleicht ein gangbarer Weg?

00:24:57: Die sind halt eben nicht diesen Open AI Weg gegangen.

00:25:00: Ich nenne es jetzt mal einfach so, man weiß natürlich nicht genau, was Open AI tut.

00:25:03: Aber ich habe das Gefühl, viele von diesen großen OS-Unternehmen... Haben wahnsinnig viel Geld gehabt, also haben sie einfach fünfhundertmal mehr Grafikkarten dahingestellt und haben das Ding länger trainieren lassen.

00:25:12: Das ist natürlich ein Weg zum Erfolg.

00:25:14: Aber Diepsik hat ein paar neue Rezepte ausprobiert.

00:25:17: Die sind immer noch sehr, sehr, sehr nah dran an dem Grundrezept, wo eigentlich alle Sprachmodelle drauf basieren.

00:25:22: Ja, das ist ein Paper von zwei tausend siebzehn.

00:25:25: Attention is all you need.

00:25:26: Das ist immer noch exakt das gleiche Grundrezept eigentlich, was wir da seid.

00:25:32: Ja, mittlerweile acht Jahren durch die Gegend schieben.

00:25:34: Aber DeepSieg hat es an ein paar Stellen entscheidend modernisiert.

00:25:38: Also beispielsweise werden diese Modelle ja im Training darauf gepohlt, immer das nächste Wort korrekt vorherzusagen oder das nächste Wort fetzen, token, ding.

00:25:47: Und DeepSieg macht das so, dass die nicht nur das nächste Wort oder den nächsten Token richtig vorhersagen wollen, sondern die nächsten paar Token.

00:25:55: Das sorgt einfach dafür, dass das Modell sich... Wenn ich jetzt mal Gedanken machen muss, auch wenn es nicht denkt, dass ich dieses Modell Gedanken machen muss, nicht nur was ist das nächste Wort, sondern wo führt dieser Satz schon hin und muss ein bisschen vorausschauend denken und kriegt dadurch halt eben bessere Ergebnisse, kriegt natürlich auch im Training viel mehr Signal, weil wenn ich quasi dann mir nur Eintoken vorhersagen lasse versus ich lasse mir die nächsten vier vorhersagen, da steckt viel mehr Signal im Netz fürs Training drin und durch solche Dinge wird es dann deutlich günstiger oder ein bisschen mathematischer gesprochen.

00:26:26: Diese ganzen Transformer, das sind eigentlich riesige Matrix Multiplikationen, die da stattfinden.

00:26:31: Und was Diebsi gesagt hat, ist quasi, okay, wir brauchen eine riesige Matrix, mit der wir Dinge multiplizieren.

00:26:37: Wir müssen diese Matrix aber nicht als eine vollrangige Matrix ausdrücken, sondern wir nehmen einfach zwei kleine Matrizen.

00:26:43: Multiplizieren die miteinander und dann bekommen wir eine riesige Matrix raus, die wir verwenden können.

00:26:47: Wir müssen aber nicht diese riesige Matrix komplett speichern und optimieren, sondern wir optimieren nur diese zwei kleinen Matrizen, deren Produkt dann eben wieder die große Matrix ist.

00:26:56: Das ist halt deutlich effizienter und schneller mit ganz, ganz leichten Abstrichen.

00:27:00: Aber wenn ihr das Modell eh groß genug macht, schafft es eh nie das auszutrainieren, dann kannst du auch ein bisschen Abstriche in der Maximal-Performen sozusagen nehmen, wenn ihr dafür halt drei, vier mal schneller trainiert.

00:27:11: Aber so wie du es gerade beschreibst klingt das für mich also super logisch und auch relativ einfach umzusetzen.

00:27:17: warum haben die anderen das nicht gemacht schrägstrich oder machen die das schon?

00:27:20: auch

00:27:22: zu den bestimmten teilen?

00:27:22: machen sie es bestimmt also einzelne von diesen.

00:27:26: Also zum Beispiel dieser Trick mit den Matrizen, wenn man sich dann anguckt, was Meter macht, die haben ähnliche Mechanismen benutzt, um deren Matrix Berechnungen ein bisschen günstiger zu bekommen.

00:27:36: Auch mehr Ei weiß man es ja leider nicht, weil die nicht mehr oben sind, auch wenn es der Name impliziert.

00:27:42: Ich glaube, wie gesagt, das war einfach.

00:27:45: der logische Schluss für die Firmen.

00:27:47: Wir haben ein Modell, das funktioniert, wir skalieren es einfach größer.

00:27:50: Das ist relativ wenig Risiko.

00:27:51: Also du kannst ja ganz klar ausrechnen, wenn ich doppelt so viel rechne, dann wird es halt deutlich besser.

00:27:56: Und bei den anderen Sachen musst du halt, musst du damit rum experimentieren.

00:28:01: Und ich glaube, das war auch so ein bisschen aus der Not geboren.

00:28:03: Also in China hast du ja weniger Zugriff auf die großen GPUs, auch wenn sie die natürlich trotzdem irgendwie in die Finger bekommen, aber es ist halt einfach... dort die schwieriger, solche großen Mengen an Hardware zu bekommen.

00:28:13: Und diese Not hat dann ein bisschen erfinderisch gemacht, dass man nicht einfach bequem sagen sollte, hey, ich löse mein Problem mit Geld statt mit dem Kopf.

00:28:20: Und ich glaube, da haben sich die USA langfristig selbst ins Knie geschossen, indem sie die anderen dazu gezogen haben, ein bisschen innovativ zu sein.

00:28:28: Und wir sehen es dann eben auch an dem neuesten Deep-Seek, was jetzt released wurde, auch wieder unter einer, ja, also mit sehr viel weniger Geld als wahrscheinlich auch mehr Ei benutzt hat.

00:28:38: Und die sind halt besser.

00:28:41: Tim Elsner, vielen, vielen Dank für diese Zusammenfassung, für die Informationen dazu.

00:28:46: Und was ich da noch weiter tut, liest man unter anderem in Artikeln von dir auf golem.de.

00:28:52: Vielen Dank auch fürs Zuhören und bis zum nächsten Mal.

00:28:56: Ciao.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.