Robotik als nächster Schritt für die KI
Shownotes
Unser Podcast zum Thema KI vom letzten Jahr
https://www.golem.de/news/podcast-besser-wissen-funken-von-intelligenz-2307-175611.html
Sora von OpenAI
Erster Kurzfilm mit Sora
https://www.youtube.com/watch?v=yplb0yBEiRo
Interview mit Jim Keller
https://www.heise.de/news/Jim-Keller-ueber-KI-In-10-Jahren-ist-alle-Software-weg-9692706.html
Das Buch von Nick Bostrum: Super Intelligence
https://en.wikipedia.org/wiki/Superintelligence:_Paths,_Dangers,_Strategies
Transkript anzeigen
00:00:00: Besser wissen, der Podcast von Golem.de.
00:00:05: Hallo und herzlich willkommen zu einer weiteren Ausgabe.
00:00:07: Mein Name ist Martin Wolff und ich bin Podcastbeauftragter bei Golem.de und mir zugeschaltet aus der
00:00:12: Ferne sitzen beide in unserem Homeoffice.
00:00:14: Das ist das Jahr 2024.
00:00:16: Ist Helmut Linde und wir reden über eines der Themen des Jahres 2024, das auch schon
00:00:21: das eines der Themen des Jahres 2023 war und 22 und oh, ich weiß nicht, Helmut, sag mir
00:00:27: doch mal bitte.
00:00:28: Wann schätzt du, ging das so richtig los mit der KI, wo glaube ich die letzten Leute
00:00:33: mitbekommen haben?
00:00:34: Jetzt geht es los.
00:00:35: Ja, ich denke, der große Durchbruch war Ende 2022 mit der Veröffentlichung von ChatGPT
00:00:42: einfach dadurch, weil dort eben zum ersten Mal eine allgemeine KI wirklich in ganz vielen
00:00:47: Anwendungsfällen nützlich wurde und auch vor allem, weil sie in einer Weise an den
00:00:52: Markt gebracht wurde, die eine sehr, sehr geringe Einstiegshürde aufweist.
00:00:55: Man konnte von Anfang an dieses Tool kostenlos benutzen.
00:00:58: Man brauchte keinerlei Erfahrungen im Umgang mit KI, sondern man konnte einfach eintippen,
00:01:02: was man haben wollte und hat in vielen Fällen eine sehr sinnvolle Antwort bekommen.
00:01:05: Ich glaube, das würde ich von als den Punkt festmachen, an dem die Welle so richtig los
00:01:09: gegangen ist.
00:01:10: Es ist Frühling und es ist, also für mich hat sich die Frage gestellt, ist auch immer
00:01:16: noch Frühling bei der KI.
00:01:17: Dieser Frage versuchen wir uns in diesem Podcast ein bisschen anzunähern, bevor wir damit loslegen,
00:01:21: kurz was zu dir, Helmut.
00:01:23: Du bist Mathematiker und Physiker und hast, beschäftigst dich eigentlich, würde ich fast
00:01:29: sagen, inzwischen Fulltime mit dem Thema, oder?
00:01:31: Also Fulltime ist es nicht ganz, aber man kann schon sagen, dass ich also die letzten 15
00:01:36: Jahre in meiner Karriere sehr viel damit zugebracht habe, künstliche Intelligenz eben in die industrielle
00:01:41: Anwendung zu bringen.
00:01:42: Zuerst viele Jahre bei der SAP als Beratungsleiter für Data Science Teams, dann beim Pharma
00:01:50: und Chemiekonzern Merk, ebenfalls als Leiter eines Data Science Teams.
00:01:54: Und jetzt bei der Firma Covestro, wo ich die digitale Forschung und Entwicklung verantworte.
00:01:59: Und da ist künstliche Intelligenz eines von ganz, ganz vielen Themen, aber natürlich
00:02:03: auch eines mit zunehmender Wichtigkeit.
00:02:05: Und es verweise darauf, dass du auch netterweise für gulemdeartikel schreibst und wir einen
00:02:10: derzeit ruhenden, aber durchaus im ischiv vorhandenen Podcast von dir zum Thema KI haben, wo auch
00:02:16: Leute zu Wort kommen, die mit dem Thema in der Industrie zu tun haben.
00:02:19: Und wirklich wo es auch um Anwendungs, ja, tatsächlich konkrete Anwendungen von KI geht.
00:02:25: Wenn wir den Blick zurückwerfen ins letzte Jahr, da haben wir beide zusammengesessen,
00:02:29: das ist nicht ganz ein Jahr her, es war, glaube ich, im Juni, also aber es kommt schon ungefähr
00:02:32: hin.
00:02:33: Dann finde ich, ich habe nur kurz nochmal reingeguckt, was unsere Themen waren, ist unser Podcast
00:02:39: gar nicht so schlecht gealtert.
00:02:40: Also manchmal hat man ja das Gefühl, oh Gott, das ist aber jetzt da, da haben wir aber ein
00:02:44: bisschen daneben gelegen und all diese Dinge, die wir besprochen haben, gibt es schon gar
00:02:48: nicht mehr.
00:02:49: Das ist nicht der Fall.
00:02:50: Es gab, aber also ich gebe jetzt mal als kurze Stichpunkte mit rein, was wir unter anderem
00:02:55: hatten, was auch auf golemde damals in Artikeln thematisiert wurde, war die Erstellung eines
00:03:01: kompletten Sonderheftes beim Bruderverlag, wo die Bilder und die Texte für Pasta Rezepte
00:03:07: von der KI erstellt wurden und das tatsächlich an einem Kiosk gelandet ist, was ein bisschen
00:03:12: futuristisch erschien, ein bisschen lustig war und aber auch ein bisschen beängstigend,
00:03:16: weil nicht umsonst, also ich bin mir, ich meine, ich würde jetzt sagen, bestimmt haben
00:03:21: da Leute drüber gelesen, aber ich denke, ihr habt mir damals dann gedacht so, oh so
00:03:25: ein KI Rezept für Pasta, also ich meine, der Rechner, der das entworfen hat, hat nun mal
00:03:31: keinen Magen und kann schlecht irgendwie nachvollziehen, wie Dinge dann wirklich schmecken und ob die
00:03:35: gesund sind oder so, aber das, ich meine, es gab keine Nachrichten danach, dass jemand
00:03:40: einen verdorbenen Magen hatte deshalb.
00:03:42: Also das dürfte wohl das statistische Mittel aus ganz vielen Pasta Rezepten gewesen sein,
00:03:47: die irgendwo im Internet zu rumschlören, also da würde ich mir keine Sorgen machen.
00:03:50: Na das sagst du so, Helmut, aber jetzt stell dir mal vor, es gibt eine bestimmte Kombination
00:03:57: aus Pesto-Dingen, die einfach furchtbar abführend wirkt, das weißt du ja nicht und wenn das
00:04:04: statistische Mittel da zusammenkommt und zufällig diese Kombination entwirft, so was meine ich
00:04:08: eher weniger irgendwie das da Sehen drinnen, als das würde auch auffallen.
00:04:11: Dann gab es eine Petition, die ich vorhin noch mal aufgerufen habe, die inzwischen 200.000
00:04:17: Unterschriften hat, Time is running out, Demand, Responsible AI, Development, die auf Change.org
00:04:24: damals, das ging durch die Medien, das gefordert wurde, das ist ein Forschungsstopp an großen
00:04:28: KI-Modellen, gefordert wurde, da ist nichts passiert, also das hat nicht so voll gehabt,
00:04:32: dass dieser Stopp passiert.
00:04:33: Genau, das Problem ist immer noch offen.
00:04:35: Hast du danach, das noch weiter, gab es dann noch weitere so aufsehenerregende Forderungen
00:04:42: nach der Einstellung von KI-Forschung?
00:04:44: Naja, also ich glaube nicht mehr so öffentlich.
00:04:48: Also es gibt ja schon Forscher, die daran arbeiten an dem Thema Risiko von künstlicher
00:04:53: Intelligenz und die natürlich dann in der Akademie regelmäßig publizieren, aber ich
00:04:57: glaube, diese ganz große öffentliche Aufmerksamkeit wie vor ungefähr einem Jahr habe ich es
00:05:04: seither nicht mehr gesehen in dem Thema, obwohl natürlich die Dringlichkeit eher zu als abgenommen
00:05:07: hat.
00:05:08: Exakt.
00:05:09: Und damit sind wir bei dem, wo wahrscheinlich damals würde ich sagen größten Punkt, da
00:05:15: es war Sparks of AGI, darüber haben wir im Podcast auch geredet, das müssen wir mal
00:05:19: glaube ich ganz kurz erklären, das kannst du eigentlich besser als ich würde sagen.
00:05:23: Ja, Sparks of AGI war der Titel einer Veröffentlichung von Microsoft, in der eben vorgestellt wurde,
00:05:31: welche beeindruckenden Fähigkeiten das damals aktuelle Modell GPT-4 entwickelt hatte.
00:05:36: Also erstmal mit AGI ist eben gemeint Artificial General Intelligence, also die Idee, dass ein
00:05:43: Computersystem menschliche Intelligenz vollumfänglich ersetzen bzw. nachbilden kann.
00:05:49: Und bei Microsoft hat man eben behauptet, in diesem GPT-4-Modell, also eben erste Funken,
00:05:56: erste Anzeichen von so einer allgemeinen künstlichen Intelligenz zu entdecken und hat es im Wesentlichen
00:06:01: an ganz, ganz vielen Beispielen festgemacht, die bestimmte Fähigkeiten des Modells zeigen,
00:06:07: insbesondere viele Fähigkeiten, die man so nicht vermutet hätte, weil das als reines
00:06:11: Sprachmodell eben darauf trainiert wurde, letztendlich Texte zu vervollständigen, was
00:06:16: sich erstmal nach einer sehr banalen Aktivität anhört.
00:06:19: Aber durch dieses vervollständigen von Texten, hochgrad exkaliert auf Milliarden von Texten,
00:06:26: haben sich dann in dem Modell eben Fähigkeiten entwickelt, die in manchen Belangen eben menschlicher
00:06:32: Intelligenz zumindest ähneln scheinen.
00:06:34: Also zum Beispiel so, was wir ein gewisses räumliches Vorstellungsvermögen oder visuelles
00:06:38: Vorstellungsvermögen, was eben erstaunlich ist, wenn man denkt, dass dieses Modell zum
00:06:42: damaligen Zeitpunkt eben nur Texte gesehen hatte.
00:06:45: Und das war also dieses Sparks of AGI Diskussion und seitdem ist natürlich die Entwicklung
00:06:51: weitergegangen.
00:06:52: Also die Modelle sind ähm sehr, sehr schnell sehr viel besser geworden, auch wenn das
00:06:57: in der öffentlichen Wahrnehmung glaube ich nicht ganz angekommen ist.
00:07:01: Also ich denke, dass viele heute immer noch, wenn sie von KI reden, an Chatchi Pity denken
00:07:07: und das ist eben der Stand von November 2022 und das ist in der KI Forschung momentan,
00:07:12: also das Mittelalter fast.
00:07:13: Also da liegen Welten dazwischen, zwischen dem, was wir heute schon an KI-Modellen
00:07:17: wieder sehen und dem, was also in der breiten Öffentlichkeit noch unter dem Begriff KI in
00:07:21: vielen Diskussionen eben verstanden wird.
00:07:23: Die Frage nach der allgemeinen künstlichen Intelligenz, werden wir sicherlich nochmal
00:07:29: ein bisschen beleuchten, aber nur um das auch nochmal kurz so klarer zu machen, dieses,
00:07:35: was du meintest, räumliche Vorstellungsvermögen.
00:07:37: Ein Beispiel war das Stapeln von Dingen.
00:07:40: Also wenn man eine Kugel hat und ein Kegel und eine Nadel oder verschiedene andere Dinge,
00:07:47: dann hat man als Mensch sofort ein Instinktive, wenn man die Aufgabe bekommt, die zu stapeln
00:07:51: sofort eine instinktive Lösung parat.
00:07:53: So ein Sprachmodell kann das eigentlich nicht haben, denn es hat diese Dinge nie gesehen
00:08:00: und selbst wenn man davon, sage ich jetzt mal, gute Beschreibung hat, führt das ja immer
00:08:05: noch nicht dazu, dass man jetzt instinktiv weiß oder dass man weiß, wie die Dinge eigentlich
00:08:09: aufeinander gehören.
00:08:10: Und das war ein so ein Ding, das zweite war das berühmte Einhorn, wo also klar war ein
00:08:15: Sprachmodell, er hat ja keine Bilder und kann keine Bilder erzeugen und es hat auch keine
00:08:19: Bilder gesehen, da es ja nur an Sprache trainiert wurde und trotzdem konnte es mit einer Skriptsprache
00:08:24: Linien zeichnen und diese Linien ergaben dann, wenn man diese Aufforderung dann gemacht
00:08:30: hat, tatsächlich eine Art Abbildung von einem Einhorn, die jetzt nicht sehr künstlerisch
00:08:34: wertvoll war, aber tatsächlich sehr gut zu erkennen.
00:08:36: Also das schönes Beispiel fand ich, das veranschaulich hat, was da passiert ist und man kann eigentlich,
00:08:41: finde ich, auch den Microsoft-Forscherinnen und Forscher nicht übernehmen, dass sie da
00:08:45: schon, also das befüge die Fantasie mit anderen Worten.
00:08:48: Genau.
00:08:49: Das muss man schon so sagen.
00:08:50: So, dann kommen wir mal in die heutige Zeit.
00:08:53: Gibt es gerade, bei welchem Modell sind wir denn gerade?
00:08:57: Sagen wir mal so.
00:08:58: Also was unterscheidet denn die aktuellen Sprachmodelle?
00:09:01: Wir reden ja dann meistens eigentlich von diesen large Language-Models, die so ziemlich
00:09:04: alles machen, wo sind wir denn da gerade gelandet?
00:09:08: Ich würde mal so die größeren Meilensteine des letzten Jahres und diesen Jahres vielleicht
00:09:14: durchgehen.
00:09:15: Erstmal war ein sehr schlauer Zug noch von OpenAI, dass sie eben dieses Textmodell GPT-4
00:09:23: mit einer Softwareentwicklungsumgebung verbunden haben.
00:09:26: Das wurde dann unter dem Namen Advanced Data Analysis an den Markt gebracht, ist auch heute
00:09:31: noch ein fester Bestandteil von Chat GPT, zumindest von der Bonusversion oder der bezahlten
00:09:38: Plusversion.
00:09:39: Und diese Verbindung zwischen dem Sprachmodell und einer Softwareentwicklungsumgebung macht
00:09:45: eben die KI zu einer Art Agenten.
00:09:47: Also die KI kann etwas tun.
00:09:48: Sie kann eine Softwareentwicklung, dieses Software ausführen, sich die Ergebnisse anschauen,
00:09:53: auch eine Fehlermeldung, zum Beispiel dann wieder korrigieren im Code und also vermittelt
00:09:58: es der Software, die sie selber schreibt, ein Problem lösen und dann am Ende des Ergebnisses
00:10:01: wieder dem Nutzer mitteilen.
00:10:03: Also dieser Schritt von "Ich beantworte einfach nur eine Nutzerfrage direkt" bis hin
00:10:08: zu "Ich werde als KI aktiv und löse ein Problem dadurch, dass ich Werkzeuge", in dem
00:10:12: Fall verschiedene Peißenbefehle und Bibliotheken verwende.
00:10:15: Das war aus meiner Sicht nochmal ein sehr interessanter Schritt, auch wenn es dasselbe
00:10:19: Modell war.
00:10:20: Es war keine neu entwickelte KI, sondern es war einfach eine sehr schlaue Anwendung der
00:10:23: KI.
00:10:24: Dann haben wir letztes Jahr im dritten Quartal eben sehr viel gesehen, was Richtung visuelle
00:10:30: Datenverarbeitung geht.
00:10:31: Da kam das Dolly 3-Modell raus, also nochmal deutlich verbessertes Bilderzeugungsmodell,
00:10:38: das sehr beeindruckend war.
00:10:40: Und OpenAI hat auch im dritten Quartal letzten Jahres GPT4V rausgebracht, wobei dieses
00:10:48: "V" für "visual" steht.
00:10:50: Das ist also jetzt kein Sprachmodell mehr, sondern ein sogenanntes multimodales Modell,
00:10:55: bei dem man flexible Sprache und Bilder miteinander verknüpfen kann.
00:10:59: Man kann also zum Beispiel Bilder hochladen und eine Frage zu den Bildern stellen.
00:11:03: Und das war für mich nochmal ein sehr, sehr beeindruckender Fortschritt.
00:11:08: Und auch da gab es dann wieder ein Paper dazu, mit dem eben unterschiedlichste Beispiele
00:11:12: gezeigt wurden, was dieses Modell mit den Bildern alles anfangen kann.
00:11:16: Also zum Beispiel Informationen aus Bildern, instrukturierte Daten umwandeln.
00:11:21: Also einen eingeskennten Ausweis beispielsweise dann in eine Datenbank, also die Daten in
00:11:27: diesem Ausweis dann in eine Datenbank zu schreiben.
00:11:29: Oder was mich persönlich sehr beeindruckt hat, war ein Beispiel, bei dem man dem Sprachmodell
00:11:35: gesagt hat, du bist jetzt ein Haushaltsroboter und du siehst jetzt hier ein Bild von einem
00:11:39: Wohnzimmer.
00:11:40: Wie würdest du diesen Haushaltsroboter steuern, um aus dem Kühlschrank etwas zu holen?
00:11:45: Ja, und dann sagt das Sprachmodell, okay, ich sehe hier auf dem Bild, links ist eine Tür,
00:11:49: das sieht aber eher nach der Haustür aus, da geht es wahrscheinlich in den Garten.
00:11:52: Und rechts ist noch eine Tür, die ans Wohnzimmer angrenzende Räumlichkeit könnte vielleicht
00:11:56: die Küche sein.
00:11:57: Also bewege ich mich mal auf diese Tür zu, ich gehe jetzt 20 Grad nach rechts und einen
00:12:00: Schritt nach vorne.
00:12:01: Und wenn man das jetzt immer wieder holt, also aus der neuen Position wieder ein Foto
00:12:04: aufnimmt und wieder dieselbe Frage stellt, dann schafft es also dieses Sprachmodell diesen
00:12:09: hypothetischen Roboter zum Kühlschrank zu führen und löst damit also eines der ganz
00:12:13: zentralen Probleme der Robotik, nämlich sich in unbekannten Umgebungsbedingungen erst
00:12:18: mal zurechtzufinden überhaupt.
00:12:20: Also das war für mich ein ganz, ganz großer Proofpoint dafür, wie viel man mit diesen
00:12:26: Sprachmodellen oder in dem Fall multimodalen Modellen in Zukunft tatsächlich machen kann.
00:12:30: Du sagst natürlich, wenn das sich unterbrechelt, du sagst, das müssen wir vielleicht nochmal
00:12:34: kurz klären.
00:12:35: Multimodales Modell, wie unterscheidet sich das von dem klassischen Language-Modell
00:12:40: oder ist das eigentlich das Gleiche nur aufgebohrt?
00:12:42: Also der Algorithmus ist relativ ähnlich, der dahinter steckt.
00:12:47: Der Unterschied ist, dass eben die Trainingsdaten dann nicht nur aus Texten bestehen, sondern
00:12:52: aus Mischungen von Texten und Bildern.
00:12:54: Also im Wesentlichen wird ein Bild ja ein kleines Schnipsel zerlegt und jedes Schnipsel kann
00:13:00: man sich dann so vorstellen wie ein Wort, wobei das natürlich kein sprachliches Wort ist,
00:13:05: sondern es ist einfach ein Token, ein kleines Datenpaket.
00:13:08: Also das Bild wird in kleine Datenpakete zerlegt und diese kleinen Datenpakete, die werden
00:13:12: einfach genauso behandelt wie die Wörter, die im Text drum herumstehen und dann wird
00:13:17: das Ganze eben durch den Transformer-Algorithmus, also die neuronale Netzwerkarchitektur gejagt,
00:13:22: die hinter diesen ganzen Durchbrüchen der letzten Jahre steht.
00:13:25: Und am Ende hat man dann eben ein Modell, das einen Text weiterschreiben kann, auch
00:13:31: wenn der vorherige eingegebene Text eben nicht nur Text war, sondern auch noch Bilder enthalten hat.
00:13:37: Das klingt ziemlich nach Zauberrei, finde ich.
00:13:39: Also es ist ziemlich interessant, ja.
00:13:40: Das ist ja total abgefahren, weil es ist also nur um das nochmal klarzumachen, ich meine
00:13:45: die meisten Leute, die diesen Podcast hören, dürfen das wahrscheinlich wissen, aber grundsätzlich
00:13:48: was so eine KI, die natürlich keine künstliche Intelligenz ist, sondern die wir alle hier
00:13:53: zu nennen, nur nochmal kurz die Begriffsklärung durchzuhächeln.
00:13:56: Das ist natürlich keine künstliche Intelligenz in dem Sinne, wie man sich eine Intelligenz
00:14:00: vorstellt, jedenfalls noch nicht, sondern es handelt sich um Maschinen-Learning-Modelle.
00:14:04: In dem Fall also ein Sprachmodell prognostiziert im Grunde genommen das nächste Wort.
00:14:11: Es versucht anhand dessen, was bereits geschrieben wurde, das nächste Wort vorher zu sagen.
00:14:17: Und das ist natürlich grundlegend vollkommen was anderes als eine bildliche Darstellung
00:14:22: vorher zu sagen.
00:14:24: Also da die Cleverness zu besitzen, das umzuwandeln in ein sogenanntes Token, was ja dann, weil
00:14:28: für das Sprachmodell ergibt natürlich kein, ein Wort keinen Sinn, ne?
00:14:32: Also du musst mich unterbrechen, wenn ich schwach bin, erzähle, ne?
00:14:34: Das machst du.
00:14:35: Aber das Sprachmodell kennt ja keine Worte, in dem Sinne wie wir Worte kennen, sondern
00:14:41: diese Worte sind sogenannte Token, das sind einzelne Datenbausteine, die es kennt.
00:14:47: Und es versucht sozusagen zu prognostizieren.
00:14:50: Und das sind dann für uns am Ende wieder Wörter.
00:14:51: Aber ein Bild ist ja eigentlich doch auch was anderes als ein Wort, ne?
00:14:57: Also das ist ja schon fast eine philosophische Frage, die wir da irgendwie darauf gemacht haben.
00:15:01: Also das Bild ist sicherlich was anderes für uns als das Wort oder der Text.
00:15:05: Aber es zeigt sich, dass eben die gleichen statistischen Verfahren bei Bildern eben
00:15:11: funktionieren, die bei Texten auch funktionieren, um so eine Art, ich sag mal, ein Weltmodell
00:15:16: zu bauen, das sich eben statistisch entwickelt, aus einer sehr großen Menge an Inputdaten.
00:15:21: Komplett überraschend ist es allerdings nicht, wenn man sich ein bisschen mit Hirnforschung
00:15:24: beschäftigt hat, wenn denn im menschlichen Gehirn oder auch generell im Säugetiergehirn
00:15:28: ist es gar nicht so ganz anders.
00:15:30: Man sieht nämlich ganz, ganz viele Parallelen in der Architektur, wie also Nervenzellen
00:15:33: verschaltet sind zwischen den verschiedenen Teilen des Gehirns, die sich mit zum Beispiel
00:15:37: Sprache oder Bewegung oder Höhen oder Sehen beschäftigen.
00:15:41: Das heißt, die Nervenstrukturen im visuellen Cortex, der uns also beim Sehen hilft oder
00:15:48: der für uns das Sehen übernimmt gewissermaßen, diesen Nervenstrukturen, die sind also sehr,
00:15:53: sehr ähnlich zu denen zum Beispiel im auditorischen Cortex, mit dem wir hören, obwohl die Inputdaten
00:15:57: natürlich völlig andere sind.
00:15:58: Und bisher versteht noch keiner so richtig, wie es funktioniert, aber es legt schon nahe,
00:16:03: dass es so eine Art Master-Algorithmus geben muss, der also sehr flexibel sich an ganz
00:16:07: unterschiedliche Datenströme anpassen kann.
00:16:09: Und von daher ist es nicht komplett verwunderlich, dass man mit dem Transformer jetzt also einen
00:16:14: Machine Learning Algorithmus gefunden hat, der Ähnliches kann.
00:16:18: Natürlich noch nicht so gut wie das Gehirn und da fehlt noch einiges, aber so diese generelle
00:16:22: Idee, dass man mit einem guten Algorithmus sehr, sehr unterschiedliche Arten an Daten
00:16:27: auswerten kann und immer so eine Art Modell der Realität aufbauen kann, die also hinter
00:16:32: diesen Daten steht und diese Daten erzeugt.
00:16:34: Das ist also tatsächlich nicht komplett überraschend.
00:16:37: Okay, aber was ich annehme, ist, dass das ein entscheidender Faktor bei dem Ganzen,
00:16:45: nämlich das Training, dadurch noch aufwendiger wird.
00:16:48: Das ist ja, es gibt ja berüchtigte Aussagen darüber, wie viel Geld das alleine gekostet
00:16:54: hat bis GPT, GPT 4 jetzt dann am Schluss auch entstanden ist.
00:16:59: Das geht so weit, dass die Anbieter von GPT irgendwann gesagt haben, wir machen das jetzt
00:17:05: nicht weiter.
00:17:06: Wir machen nicht eine neue Stufe auf, in der wir noch mehr hunderte Millionen von Dollar
00:17:12: in Training stecken, sondern wir versuchen smarter ran zu gehen und die vorhandene Basis
00:17:17: auszubauen.
00:17:18: Ist das ein Teil davon oder muss dann doch noch neu trainiert werden?
00:17:23: Weil ein Aspekt ist ja nämlich auch, dass ein einmal trainiertes Modell ja eigentlich,
00:17:29: war mein letzter Stand, ja dann auch fertig ist.
00:17:32: Also da dann zu sagen, okay, wir bauen da jetzt noch ein bisschen was an, ist gar nicht so
00:17:35: trivial.
00:17:36: Genau, das ist richtig.
00:17:37: Also man kann solche Modelle dann noch mal feintunen, sagt man.
00:17:40: Also man kann die schon noch mal ein bisschen verändern.
00:17:42: Aber es ist auf jeden Fall richtig, dass das Training von diesen KI-Modellen, wenn man das
00:17:46: zumindest mit der Biologie vergleicht, extrem ineffizient ist heutzutage.
00:17:49: Die Anwendung, die funktioniert ziemlich gut.
00:17:52: Also wenn man sich eben anschaut, wie schnell man mit relativ wenig Rechenleistung eben zum
00:17:56: Beispiel neue Texte generieren kann, dann ist das eigentlich in Ordnung so, denke ich.
00:18:00: Aber der Aufwand, die enormen Kosten, die enorme Rechenleistung, die Energiebedarf,
00:18:04: der Datenbedarf, der hinter dem Training steckt, der ist natürlich viel zu groß und
00:18:09: mit dem menschlichen Gehirn in keiner Weise zu vergleichen.
00:18:12: Und da bedarf es aber dann tatsächlich nochmal neuer Algorithmen und neuer Verfahren, um
00:18:16: dieses Training besser und effizienter zu machen.
00:18:18: Und wenn man sich anschaut, wie diese Modelle trainiert werden, ist es auch nicht wirklich
00:18:23: verwunderlich, dass das ineffizient ist.
00:18:25: Weil am Anfang ist es sicherlich hilfreich, dass ich Wort für Wort vorher sage und dann
00:18:29: immer überprüfe, ob ich das richtige Wort vorher gesagt habe, weil ich nur so überhaupt
00:18:33: erst mal die Grundprinzipien von Sprache lernen kann.
00:18:36: Also um zum Beispiel eine Grammatik zu lernen, muss ich eben lernen, dass ich manchmal das
00:18:40: Wort der, manchmal dem und manchmal das verwenden muss.
00:18:43: Und das kann ich auf Wortebene lernen.
00:18:45: Aber wenn ich dann irgendwann mal über Astrophysik etwas lerne, macht es eigentlich wenig Sinn,
00:18:50: dass ich in einem Text jeden einzelnen Artikel vorhersagen muss und das ja auch sozusagen
00:18:54: auf meinen Trainingskosten oben draufgerechnet wird, obwohl ich immer nur dieselbe Grammatik,
00:18:58: die ich ohnehin schon kenne, immer wieder neu lerne, anstatt mich auf die Dinge zu interessieren,
00:19:03: in dem Fall jetzt über Astrophysik, die vielleicht in einem ganzen Absatz stecken.
00:19:06: Also eine ganze Idee, die ich als Mensch auch als eine Idee mir merken würde, muss ich
00:19:11: dieses Modell sozusagen dadurch, dass es Hunderte von Worten vorher sagt, auf sehr, sehr
00:19:16: mühevolle Arbeiten erwerben.
00:19:18: Und da denke ich schon, dass man in Zukunft noch mal, also hoffentlich noch mal Durchbrüche
00:19:23: finden wird, wie man dieses ganze Training viel effizienter machen kann, als es heute
00:19:26: gibt.
00:19:27: Eine solche Erweiterung des Kontextes ist eine Sache, die jetzt bei uns auf jeden Fall
00:19:36: auftauchte, die mir in der Vorbereitung von dem Podcast über den Weg gelaufen ist und
00:19:40: die du vielleicht von der du ganz sicher auch schon gehört hast, das ist ein Modell von
00:19:44: Google namens Gemini 1.5 Pro, das jetzt als Testversion existiert.
00:19:51: Ich habe es nicht benutzt, aber ich muss zugeben, dass ich, da kommen wir jetzt wahrscheinlich
00:19:54: nochmal zu, was meine Punkte so waren, die jetzt natürlich nicht so, ich sage jetzt mal,
00:19:59: das war, mein Kram ist ja dann immer eher, was ich benutze, ist ja dann eher generative
00:20:03: Sachen im Bereich Audio, Video oder solche Sachen, die ich gesehen habe.
00:20:09: Aber Gemini vereint da auch vieles, also man kann Audiausgaben zum Beispiel generieren
00:20:15: oder Bilder können auch analysiert werden.
00:20:19: Und das hat eben auch so einen großen Umfang im Verständnis.
00:20:23: Ich glaube, wir sollten vielleicht dann kurz darüber reden, was mit dem sogenannten Kontext
00:20:28: gemeint ist bei einem Sprachmodell, weil genau das ist eben einer der großen Schritte jetzt
00:20:33: bei Gemini Pro.
00:20:34: Der Kontext ist bei einem Sprachmodell im Wesentlichen die Größe des Eingabefensters.
00:20:42: Also wie viel Input kann ich verarbeiten, um dann das nächste Wort vorher zu sagen.
00:20:47: Also konkretes Beispiel, wenn mein Kontext eben zehn Worte wäre, dann könnte ich einen Satz
00:20:52: von der Länge zehn Worte nehmen und dazu dann das elfte Wort vorher sagen.
00:20:55: Wenn ich aber das zwölfte Wort vorher sagen will, muss ich sozusagen das erste Wort vom
00:20:59: Satz anfangen wieder streichen, weil ich in Summe eben nicht auf mehr als zehn Worte Kontextlänge
00:21:03: kommen kann.
00:21:04: So mit einem Kontext von zehn Worten kommt man natürlich nicht weit und Sprachmodelle
00:21:10: haben oder hatten in den letzten Quartalen, Monaten, typischerweise eben Kontextlängen
00:21:15: von Tausenden, Zehntausenden oder vielleicht auch schon Hunderttausenden, sogenannte Tokens,
00:21:20: die man sich ganz grob vereinfacht als Wörter vorstellen kann.
00:21:22: Und mit dem aktuellen Modell von Gemini oder von Google sind wir jetzt eben bei Kontextlängen
00:21:29: im Bereich von Millionen von solchen Tokens.
00:21:32: Das bedeutet, ich kann jetzt auch sehr, sehr lange Texte nehmen, also ganz konkret, ich
00:21:37: könnte irgendwie die komplette Harry Potter-Serie hochladen oder ähnliches und mir dann aus
00:21:41: diesem langen Text eben das nächste Wort vorher sagen lassen.
00:21:44: Und das ist wichtiger, als es sich jetzt vielleicht anhört.
00:21:48: Warum ist es so wichtig, dass ich solche langen Texte nehmen kann?
00:21:51: Der Grund ist auch noch mal eine ganz wesentliche Limitation von diesen großen Sprachmodellen,
00:21:58: wenn man sie mit den Menschen vergleicht.
00:21:59: Und zwar haben diese Sprachmodelle keinen Link, keine Verbindung zwischen dem Kurzzeitgedächtnis,
00:22:05: das wäre nämlich dieser Kontext und ihrem Langzeitgedächtnis.
00:22:09: Also alles, was sie im Laufe ihres Trainings mal gesehen und gelernt haben.
00:22:13: Und der ein oder andere kennt vielleicht den Film Memento, das war ein Friller, bei dem
00:22:19: es um eine Person geht, die eigentlich genau das gleiche Problem hat, also eine Person mit
00:22:22: einem neurologischen Schaden, der dazu führt, dass diese Person keine neuen Erinnerungen
00:22:26: anlegen kann.
00:22:27: Und das ist eben von den Menschen äußerst hinterlich, weil man also schon nach wenigen
00:22:32: Sekunden oder Minuten einfach gar nicht mehr weiß, warum man eigentlich in dem Raum ist,
00:22:35: in dem man gerade ist und was man hier eigentlich vorhat und was man eigentlich macht.
00:22:38: Und diese Person in dem Film hilft sich eben dann dadurch, dass sie ständig irgendwelche
00:22:42: Notizen macht oder sich Dinge sogar irgendwie auf die Haut tätowiert, um das nicht mehr
00:22:46: zu vergessen.
00:22:47: Und das gleiche Problem haben eben Sprachmodelle auch.
00:22:50: Also in einem Sprachmodell kann ich etwas eintippen.
00:22:52: Ich kann den Modell sagen "Hallo, ich bin Helmut" und dann antwortet es mir mit "Hallo,
00:22:58: Helmut".
00:22:59: Aber sobald dieser Satz "Ich bin Helmut" aus dem Kontextfenster rausgeschoben wird,
00:23:04: weil ich einfach zu viel neuen Text produziert habe, hat das Sprachmodell mich komplett
00:23:08: vergessen.
00:23:09: Es gibt keinen Link in einem Langzeitgedächtnis.
00:23:10: Und das ist natürlich gerade für die industrielle Anwendung ein enorm großes Problem, weil sehr,
00:23:16: sehr viele Anwendungsfälle, die wir gerne umsetzen würden, haben etwas mit dem Kontext
00:23:20: des eigenen Unternehmens oder der eigenen Branche zu tun.
00:23:23: Also zum Beispiel kann ich eine KI nicht als digitalen Customer Support einsetzen, wenn
00:23:29: diese KI vergisst, für welches Unternehmen sie arbeitet oder was unsere Produkte sind
00:23:33: oder wie unsere Kunden heißen.
00:23:35: Man kann sich jetzt ähnlich wie in diesem Film "Memento" sozusagen behelfen mit Tricks.
00:23:40: Also man kann zum Beispiel den Namen der eigenen Firma immer wieder oben in den Kontext reinschreiben,
00:23:45: künstlich, damit das Sprachmodell eben zumindest mal nicht vergisst, für welche Firma es arbeitet.
00:23:50: Aber dieser Kontext hat eben nur eine gewisse Länge.
00:23:52: Das heißt, ich kann nicht beliebig viel Informationen aus meinem Arbeitsumfeld in diesen Kontext
00:23:56: reinschreiben und damit, ja, damit es eben die Nützlichkeit von solchen Modellen stark
00:24:02: begrenzt.
00:24:03: Wenn ich jetzt aber wie bei dem Gemini ein Modell habe, das also Millionen von Worten
00:24:10: in diesem Kontext speichert, dann kann ich da schon relativ detailliert beschreiben,
00:24:13: in welche Umgebung dieses Modell arbeiten soll, was seine Aufgaben sind und welches Wissen
00:24:18: es eigentlich haben sollte, um diese ganz konkreten Aufgaben zu lösen.
00:24:21: Und wir kommen da halt auch so langsam in den Punkt, ja, wo, wenn ich es wieder mit dem
00:24:25: Menschen vergleiche, wo praktisch der Kontext eines Sprachmodells, also ausreichen würde,
00:24:30: um sozusagen alles, was ein Mensch im Laufe seines Lebens gelernt hat, sozusagen einfach
00:24:34: mitzuspeichern.
00:24:35: Man kann sich das mal so auf dem Back of the Envelope mal überlegen, ja, wie viele Wörter
00:24:39: man in seinem Leben gesagt, gehört oder gedacht hat.
00:24:42: Da wird man wahrscheinlich auch irgendwo im, ja, zig Millionen oder vielleicht hunderte
00:24:46: Millionen Bereich rauskommen.
00:24:48: Aber da sind wir also schon nicht mehr so wahnsinnig weit weg von dem, was ein aktuelles Sprachmodell
00:24:51: beherrscht.
00:24:52: Das heißt, man könnte im Prinzip hingehen und sagen, ich stelle jetzt ein Kompendium
00:24:57: darüber, was es heißt, ich zu sein, in dem ich mir oder weniger alles mit schreibe, was
00:25:02: ich in meinem Leben mal gehört oder gedacht oder gesagt habe.
00:25:05: Und am Ende hat dieses Sprachmodell dieses ganze Wissen.
00:25:07: Und das ist dann zwar nicht in seine neuronale Struktur eingearbeitet, das passiert nämlich
00:25:12: nur während des echten Trainingsprozesses.
00:25:14: Aber das Kurzzeitgedächtnis ist einfach groß genug, um es wie ein Langzeitgedächtnis
00:25:19: zu verwenden.
00:25:20: Und deshalb ist dieser Schritt zu diesen großen Kontextlängen extrem spannend.
00:25:24: Ich freue mich darauf zu sehen, was man damit alles Tolles machen kann.
00:25:28: Ich habe das Thema eben auch genau deswegen aufgebracht, weil du ja vorher auch gesagt
00:25:33: hast, um eine Idee zu haben, damit die Sache, die man dieses Modell dann am Ende da irgendwie
00:25:40: bearbeitet, damit die nicht so trivial ist, wie du gesagt hast, Astrophysik, das kann
00:25:44: man halt nicht in wenigen Worten machen.
00:25:46: Das muss ein größerer Kontext sein, da muss halt mehr passieren.
00:25:48: Und genau das ist dann auch was in dem Eingabeprozess.
00:25:52: Also in dem, was wir der KI geben, was nicht im Training passiert, das kann jetzt auch
00:25:56: eben sehr viel komplexer, größer und weitreichender sein.
00:26:00: Und du hast es vorher auch schon gesagt oder so?
00:26:03: Wobei vielleicht einen Kommentar hier an der Stelle machen.
00:26:05: Und zwar, das Problem ist nicht die Komplexität als solcher.
00:26:09: Also ein Modell wie GPT4 ist wahrscheinlich gar nicht so schlecht in Astrophysik als solcher
00:26:15: im Allgemeinen.
00:26:16: Die Probleme fangen immer daran an, wenn es um ein sehr spezifisches Wissen geht, das
00:26:20: vielleicht aus menschlicher Sicht relativ trivial ist, dass sich das Modell aber einfach
00:26:24: nicht merken kann.
00:26:25: Also wenn ich jetzt das Modell sozusagen als Arbeitskollegen einsetzen möchte, dann ist
00:26:29: meine Erwartung einfach, dass dieses Modell die Produkte meines Unternehmens kennt.
00:26:33: Und diese Produkte waren aber möglicherweise nicht in den Trainingsdaten enthalten oder
00:26:36: zumindest nicht alle Informationen über diese Produkte.
00:26:39: So, und damit scheidet es eigentlich aus.
00:26:41: Also wenn sich das Modell, die Produkte des Unternehmens nicht irgendwie merken kann,
00:26:45: dann kann es auch nicht sinnvoll diese Produkte verkaufen beispielsweise oder Kundenanfragen
00:26:49: zu diesen Produkten bearbeiten.
00:26:50: Und ja, wie gesagt, es gibt immer irgendwelche Tricks, wie man das umgehen kann, zum Beispiel,
00:26:54: dass man sich zur Laufzeit schnell den richtigen Satz an Informationen dazu holt.
00:26:59: Das nennt sich dann Retrieval Augmented Generation.
00:27:01: Aber auch das ist eben limitiert, weil ich immer alles in diesem Kontext, in diesem
00:27:05: Kontext Windows erst mal hinein pressen muss.
00:27:07: Das, was du sagst hört sich nach meinem Arbeitstag an und das Kontext Retrieval Ding ist mein
00:27:11: Kalender.
00:27:12: Das können wir sagen, dass ich als Mensch also genau, wie ich funktioniere.
00:27:17: Was du aber auch vorhin schon mal so angedeutet hast, ist, die menschliche Intelligenz ist
00:27:22: ebenso gefordert, um zu gucken, wie kann ich denn möglichst gut aus so einem Modell auch
00:27:27: das rausholen, was ich haben möchte.
00:27:30: Es ist eben noch nicht damit getan, einfach eine Frage zu stellen.
00:27:33: Wobei ich aber sagen möchte, wahrscheinlich ist das auch sinnlos, einfach davon auszugehen,
00:27:38: dass einfach irgendeine Frage irgendwie eine Sache erbringt.
00:27:40: Denn je mehr Kontext es ist, es ist wie bei uns Menschen, je mehr Kontext ich habe, um
00:27:44: so besser wird auch meine Antwort ausfallen.
00:27:46: Das heißt, je schlauer meine Frage ist, Thema dieses Podcast, das können wir jetzt gleich
00:27:51: sagen, desto besser ist am Ende auch die Antwort, richtig?
00:27:54: Oder je mehr ich mir Gedanken darüber mache, wie ich mein Prompt formuliere und diese
00:27:58: Aufgabenstellung irgendwie an die KI, also an das Modell weitergebe.
00:28:01: Genau, also die DKI zwingt uns also zum einen mal dazu, uns wirklich genau zu überlegen,
00:28:07: was wir eigentlich haben wollen und das auch klar zu formulieren, weil wir eben nicht davon
00:28:10: ausgehen können, dass die KI unseren Kontext schon kennt und intuitiv sozusagen mit berücksichtigt,
00:28:16: wie das vielleicht ein Kollege machen würde, den ich um irgendwas bitte und der mich schon kennt.
00:28:20: der sozusagen meinen Kontext einfach automatisch mit berücksichtigt. Und dann hat eben die
00:28:25: KI bestimmte Limitationen, die man auch kennen muss, um erfolgreich damit zu arbeiten. Also
00:28:30: gerade jetzt dieses Thema, dass es sich nichts merkt, wem das nicht bekannt ist, der wird
00:28:34: dann natürlich enttäuscht sein, wenn die KI Antworten bringt, denen man anmerkt, dass
00:28:38: sie Dinge vergessen hat, die ich vor langer Zeit mal erwähnt hatte.
00:28:42: Hast du mal, ich habe mal probiert, ich habe so eine ChatGPT-Session mal offen gehabt und
00:28:47: habe dann einfach gefragt, wann wirst du vergessen, dass ich dir jetzt meinen Kontext
00:28:54: geliefert habe. Also das war ein Versuch, den ich schon mehrmals, habe ich diesen Anlauf
00:28:58: genommen und irgendwie ist noch nie was daraus geworden mit der, mit der ChatGPT-Session,
00:29:02: mit dem Podcast, zumindest teile dann von dem Podcast zu bestreiten, indem ich einen
00:29:05: Setting vorgebe, wo ich sage, okay, ich bin der Podcast-Hos, du bist das Machine Learning
00:29:09: Model, du kannst mir das technisch erklären, du kannst mir Sachen sagen und so weiter und
00:29:13: so fort und dann erzählt es immer das Gleiche oftmals. Also das war am Anfang mein Problem,
00:29:17: das ist wirklich sehr häufig, sich einfach nur genahnlos wiederholt hat und dann bei
00:29:20: bestimmten Fragestellungen konnte es das mir aber auch nicht wirklich sagen. Also es
00:29:25: hat mir nicht wirklich eine Antwort darauf geben können, wie lange ich jetzt konferieren
00:29:30: kann. Also es konnte mir diese Sache mit den Tokens sagen, das muss sein und das hatte
00:29:33: sagen, das konnte nicht sagen, wie lange das jetzt konkret ist oder so. Also da scheint
00:29:38: es auch nicht so viel drüber zu wissen. Ja, wobei das wirklich einfach daran liegt,
00:29:43: dass natürlich Wissen über das Modell in seinen Trainingsdaten nicht enthalten gewesen
00:29:47: sein kann, weil es das Modellär damals noch nicht gab.
00:29:49: So, und deswegen bist du nämlich der Datenwissenschaftler und nicht ich. Ja, das ergibt total Sinn.
00:29:54: Vollkommen richtig. Mich hat beeindruckt SORA, das ist ein video kreierendes oder videogenerierendes
00:30:02: Modell von OpenAI, das kurze Film Clips mit erstaunlicher Konsistenz generiert. Also
00:30:08: wenn man sich vorstellt, also die meisten dürften inzwischen gesehen haben, wie so KI-generierte
00:30:12: Bilder aussehen und die sind immer hübsch und bunt und inzwischen auch sehr detailliert
00:30:15: und auch viel hochauflösender als früher noch. Aber Bewegtbild ist dann doch noch mal
00:30:19: eine andere Nummer, einfach weil die Sache, die dargestellt wird, über einen Zeitraum
00:30:24: hinweg konsistent sein muss und viele Parameter Sinn ergeben müssen. Also das einfache Bewegen
00:30:31: eines Beines nach vorne ist für uns, wie bei vielen Sachen, was du auch schon gesagt hast,
00:30:36: jetzt mehrmals was für uns total intuitiv und klar ist, ist für die KI natürlich ein großes
00:30:42: Rätsel. Also da kann sie schlichtweg, muss sie da immer raten. Das sieht man auch daran,
00:30:48: dass viele von den generierten Bildern halt keine konsistente Anzahl von Fingern hatten,
00:30:52: weil im Gegensatz zu zwei Augen, die sich immer an der gleichen Stelle befinden und eine Nase,
00:30:57: die eigentlich immer 99,99% der Fälle mitten im Gesicht ist und der Mund, der da drunter ist,
00:31:02: ist das bei Händen vollkommen anders. Die können so viele verschiedene Stellungen annehmen,
00:31:06: aus so vielen verschiedenen Blickwinkeln auch abgebildet werden, dass nicht immer klar ist,
00:31:11: also oftmals hat man gesehen, dass eine bildergenerierende KI nicht definitiv sicher war,
00:31:17: dass fünf Finger die richtige Anzahl ist und über die Winkelstellung von den Dingern
00:31:22: müssen wir gar nicht reden. Und deswegen fand ich, um so beeindruckender Visora,
00:31:27: das verlinken wir natürlich, hatten wir auch ein Artikel zu, Videos generiert hat,
00:31:32: wo über einen Zeitraum von 10 Sekunden bis zu 10 Sekunden einfach konsistent
00:31:38: Bildmaterial durchliefen. Hast du das gesehen und wie fandest du das? Also ich habe es auch gesehen.
00:31:42: Ich fand auch die kurzen Videos teilweise sehr beeindruckend. Man sieht eben da sehr schön,
00:31:47: wie die KI tatsächlich ein Modell dieser Welt, also dieser Videos, aufgebaut hat,
00:31:54: dass über das hinausgeht, was man in dem Video erstmal direkt sieht. Also ein ganz konkretes
00:31:59: Beispiel. Natürlich kann ich, wenn ich jemanden laufen sehe, kann ich auch als KI relativ leicht
00:32:03: schon vorhersagen, wie die nächste Bewegung aussehen wird, weil laufen einfach eine typische
00:32:07: Bewegung ist. Aber wenn ich jetzt zum Beispiel eine Szene habe, bei der ein Teil des Bildes
00:32:12: kurzzeitig verdeckt wird und dann aber wieder sichtbar wird, kann ich sozusagen aus dem Bild,
00:32:17: wo ich die Verdeckung habe, kann ich natürlich nicht vorhersagen ohne weiteres, was denn zu
00:32:22: sehen sein wird, wenn die Verdeckung wieder weggeht. Das heißt, ich muss mir in irgendeiner Form
00:32:25: merken, was während der Verdeckung, hinter der Verdeckung, wohl passiert ist. Da sind vielleicht
00:32:31: auch irgendwelche Leute rumgelaufen, die müssen sich dann aber auch weitergebewegt haben,
00:32:33: während der Teil des Bildes verdeckt war und so weiter. Das heißt, da muss es irgendwo im
00:32:37: Hintergrund dieses neuronalen Netzwerkes eine Art Modell geben, das sozusagen mit schreibt in
00:32:43: Anführungszeichen, was eigentlich in diesem Video passiert, als so 3D-Welt gewissermaßen und dann
00:32:49: erst am Ende der Verarbeitung eigentlich das ganze N2D-Bild überführt. Das ist dann als Video
00:32:55: letztendlich ausgibt. Also von daher auch eine hochspannende Sache und auch wieder ein schönes
00:32:59: Beispiel dafür, wie sich eben solche verborgenen, latenten Zustände in Modellen entwickeln auf
00:33:07: eine Weise, die wir noch glaube ich noch nicht so wirklich genau verstanden haben. Also es ist
00:33:10: eigentlich ein ähnliches Phänomen wie das, was wir vorhin mit dem Einhorn besprochen haben.
00:33:13: Das fand ich auch sehr beeindruckend, denn das ist auch so ein Benchmark für Intelligenz tatsächlich
00:33:18: in der Wissenschaft. Diese Fähigkeit, wenn ein Objekt plötzlich aus irgendeinem Grund nicht
00:33:26: mehr da ist, trotzdem anzunehmen, dass es sich trotzdem noch weiter existiert. Das macht man
00:33:31: als Test auch mit Kleinkindern und Tieren, denen man stellt etwas davor und die Wissen aber,
00:33:40: dass das immer noch dahinter ist. Es ist nicht verschwunden, es ist nicht wirklich weg und das
00:33:43: klingt auch trivial, aber das ist halt auch ein sehr aufwendiges Ding, dass das angenommen
00:33:49: werden kann. Und das funktioniert schon ganz gut, aber man sieht auch immer noch,
00:33:53: dass es noch nicht perfekt funktioniert. Ich habe auch eine Szene gesehen in diesem Demo-Material
00:33:57: von Sora, wo man also eine Baustelle sieht, auf der eben Handwerker rum wuseln und wenn dann die
00:34:03: Kamera schwenkt, dann wird ein Handwerker mal kurz von einem Kran verdeckt und wenn die Stelle
00:34:07: wieder frei wird, ist plötzlich der Handwerker verschwunden. Da sieht man, dass so ganz kleine
00:34:10: Details eben in diesem Modell des Latentverhandenes einfach nicht richtig abgebildet werden. Das
00:34:15: ist doch noch ein bisschen zu grob, um dann eine Szene wirklich perfekt wiederzugeben.
00:34:18: Oder zu realistisch. Wir sind im Jahr 2024 Handwerker verschwinden auf Baustellen im Moment
00:34:24: gerade sehr schnell. Vielleicht ist es einfach kein ganz nah dran an einer großen Sache.
00:34:30: Ein politischer Kommentar des Modellwahrs. Was soll ich genau, was soll man da so sagen?
00:34:35: Ich verlinke auch noch, dass es inzwischen einen Kurzfilm mit Sora gibt, den ein Studi gemacht
00:34:42: hat, wo es darum geht, dass ein Mann einen Kopf hat, der aus einem Luftballon besteht und dazu
00:34:49: dass ein bisschen Geschichte erzählt wird. Es ist eigentlich eine Ansammlung von Bildern. Also
00:34:53: es ist ein clever gemachter Kurzfilm, weil die Story genau auf die Stärken dieser Art von Videogenerierung
00:35:01: abgestimmt ist. Das ist schon wirklich gut gemacht und die Leute, die die gemacht haben, haben aber
00:35:04: eben auch noch ein bisschen Einblicke gegeben, was im Hintergrund passiert ist. Und da ist genau
00:35:10: das passiert, was du vorhin gesagt hast. Sie mussten hyperbeschreibend vorgehen. Sie mussten extrem genau
00:35:15: immer wieder sagen, wie die Szene aufgebaut werden soll, weil das Modell logischerweise keinen
00:35:21: Zugriff hatte auf die bereits erstellten Videoszenen und daher auch nicht wusste, was die Idee hinter
00:35:27: dem Video ist. Obwohl die Idee relativ simpel ist, es behandelt sich um einen Mann, der einen Luftballon
00:35:32: als Kopf hat und durch verschiedene Szenen der Welt läuft sozusagen. Und die Konsistenz war eben,
00:35:39: also die Konsistenz über Szenen hinweg war das größte Problem und sie haben gerechnet so eine
00:35:43: Ausbeute von 300 zu 1. Also wenn man halt 300 Bilder hat, kann man vielleicht eins von verwenden,
00:35:48: also nicht 300 Einzelbilder, sondern Szenen sozusagen. Was natürlich viel viel schlechter ist,
00:35:52: also wenn man szenisch filmt, andererseits natürlich aber auch trotzdem immer noch massiv viel
00:35:56: weniger aufwendig als beispielsweise eine Außenszene zu planen, dort hinzufliegen und eine
00:36:01: Aufnahme zu machen. Aber es ist veranschuldigt schön, dass eigentlich wieder das selbe Problem hier
00:36:07: besteht, wie das, was wir auch vorhin schon besprochen haben, nämlich dieser Mangel an
00:36:11: Kontext. Aus Sicht der KI ist eben jedes Szene eine individuelle Sache und sie hat alle anderen
00:36:17: Szenen vorher vergessen, zumindest ab einer gewissen Länge des Films. Und dann ist die
00:36:23: Konsistenz zwischen zwei Szenen eben nur noch in Anführungszeichen Glückssache oder die muss
00:36:27: eben durch sehr detaillierte Beschreibung von außen hinein gegeben werden. Und das ist also völlig
00:36:31: analog zu dem, was ich beschrieben habe bei dem virtuellen Kunden-Support mit Arbeiter,
00:36:36: den man eben von außen immer sehr detailliert beschreiben muss, in welchem Kontext der
00:36:40: sich eigentlich gerade befindet und was der Kunde vielleicht letzte Woche gefragt hat.
00:36:43: Dann war beeindruckend oder ist gerade, das trendet auch glaube ich überall, ein Musik, also
00:36:50: vor allem ohne Frage der Zeit, bis das Ganze sich auch in Audio schwappt, obwohl ich zugeben muss,
00:36:54: dass ich aus irgendeinem Grund damals angenommen habe, und damals meine ich vor einem oder
00:36:59: anderthalb Jahren, dass es noch viel komplizierter sein würde, Audio zu erzeugen, weil da so viele
00:37:07: Parameter noch mit reinspielen, die man bei einem Bild nicht hat. Ich kann jetzt auch gerade gar nicht
00:37:12: mehr sagen, was meine interne also meine Begründung für mich damals war, wieso ich der Meinung war,
00:37:16: dass das wesentlich komplizierter sein. Aber stellt sich raus, es gibt inzwischen jetzt auch
00:37:20: Audio-Generatoren, die eine Minute Audio-Material in welcher Qualität, also die zunächst mal keine
00:37:27: gute Qualität hatten inzwischen, aber eine relativ hohe Qualität schon erreicht haben,
00:37:30: wo man merkt, wo es hingeht, einer davon ist Audio, du hattest gesagt, Suno ist einer,
00:37:33: den du kennst. Genau. Und was hältst du davon? Also bist du da eher skeptisch oder sagst,
00:37:40: nee, das wird genau wie bei der Bildgeneration einfach dann irgendwie einen gewissen Perfektionismus
00:37:44: schon erreichen? Ja, also erst mal als kurze Beschreibung, für die die es noch nicht ausprobiert
00:37:48: haben. Suno wäre jetzt beispielsweise eine Engine, also es ist eine Internetseite im Wesentlichen,
00:37:53: wo ich also so ähnlich wie bei ChatGPT etwas eintippen kann und ich tippe dort die Beschreibung
00:37:58: eines Liedes ein. Also ich sage zum Beispiel, ich möchte einen Geburtstagsständchen für meinen
00:38:03: Freund Peter und das soll bitte im klassischer Rock sein als Stil und bitte mit einem schönen
00:38:10: Gitarrensolo. Und dann wird basierend auf dieser Beschreibung eben ein Musikstück erzeugt,
00:38:15: das ich dann abspielen kann wie ein ganz normales MP3 und das funktioniert verdammt gut. Also jetzt
00:38:21: muss ich sagen, ich bin musikalisch eher unbedarft. Aber das was so typischerweise rauskommt, also wenn
00:38:26: ich das jetzt im Radio irgendwie im Auto hören würde, würde mir das nicht auffallen, dass das
00:38:30: KI generiert ist, muss ich ganz ehrlich sagen. Also Schwierigkeiten scheint es zu haben bei bestimmten
00:38:35: Musikstilen, die sowieso wahrscheinlich so ein bisschen matschig klingen und generell merke ich,
00:38:40: also ich merke dann immer so, okay, es versucht sich so ein bisschen drum rum zu schummeln,
00:38:43: bestimmte Dinge klar zu definieren. Das ist aber auch Teil der ganzen Sache, das war bei den
00:38:49: Bildern am Anfang auch so, dass bestimmte Sachen, das Modell ist nicht in der Lage, das sonderlich
00:38:54: gut auszuarbeiten, das hat sich dann aber relativ schnell gelegt. Heutzutage sind auch die Details
00:38:58: dann irgendwie besser. Wenn man jetzt dann sich so ein Stück anhört, man sagt irgendwie möchte
00:39:02: jetzt hier Chicago Deep House irgendwas, da hört man halt, okay, bei den High-Hats macht es halt immer
00:39:06: nur so ein bisschen ein richtiges High-Hat, kannst dann halt nicht in dem Kontext oder so oder
00:39:11: ganz unerwartete Dinge wird man da jetzt auch nicht rausbekommen. Aber so Pletscher Musik,
00:39:16: kann das auf jeden Fall jetzt schon erzeugen, und zwar wirklich inklusive Sprache. Kannst
00:39:22: ich mich erinnern, dass es so einen kleinen Hype gab, als jemand einen Beatles-Album auf YouTube
00:39:30: gestellt hat, also dass er sozusagen hat generieren lassen und das war natürlich weder
00:39:35: ein Album noch von den Beatles, aber jemand hat es so schön beschrieben, wie es hörte sich an,
00:39:40: als ob man irgendwie auf der Landstraße ist, schlechten Radio-Empfang hat und ein unbekanntes
00:39:45: Beatles-Album im Radio läuft. Genau so hörte sich das an, kannst du daran erinnern? Ja,
00:39:49: kann ich, genau. Und man sieht auch hier wie unfassbar schnell der Fortschritt eben passiert ist,
00:39:54: also dass man jetzt also dann einfach nur eine Textbeschreibung eingeben muss, um also massenhaft
00:39:59: Lieder zu generieren und die Erzeugung dieser Lieder ist schneller als das Abspielen der Lieder.
00:40:03: Das muss man sich auch mal überlegen, was das bedeutet. Also dass das geht ist erstmal unglaublich
00:40:09: und ja, es ist nicht jedes Lied Gutes daraus kommt, es kommt immer mal wieder irgendwelche seltsamen
00:40:13: Artifakte vor, aber wenn ich mir 10 Lieder generieren lasse, ist mit hoher Wahrscheinlich
00:40:16: eins davon gut, also zumindest für meinen Bescheiden ein Geschmack und das ist schon,
00:40:21: also schon sehr interessant muss man sagen. Weil du gerade gesagt hast Geschwindigkeit,
00:40:25: was auch beeindruckend war für mich war STX Turbo Stable Diffusion ist eines der Bild-Generationsmodelle
00:40:31: und davon gibt es eine Turbo Version und die ist in puncto Geschwindigkeit so unglaublich schnell,
00:40:37: dass als Standard der Speichernknopf abgeschaltet ist. Das dachte ich am Anfang, habe ich das
00:40:43: runtergeladen, habe es installiert und bevor ich es gestartet habe, hatte ich das nur kurz
00:40:46: gelesen und dachte, was meinen Sie damit? Und als ich dann angeschaltet habe, habe ich es verstanden.
00:40:49: Also wenn das Modell jedes gerade erzeugte Bild einfach noch auf die SSD schaufeln würde,
00:40:56: währenddessen und in irgendeinen Ordner packen würde, dann da käme in einer Minute Zehntausende
00:41:02: von Bildern zustande und wenn man das dann, ja genau, also das ist auch extrem schnell geworden.
00:41:09: Also das fand ich auch sehr beeindruckend. Dann kommen wir doch mal von den in Anführungszeichen
00:41:14: künstlerischen oder gestalterischen Aspekten weg nochmal zu den harten Fakten der realen
00:41:20: Software-Entwicklung. Es gab ein Interview mit einem Menschen namens Jim Keller auf einem
00:41:26: YouTube Kanal, der recht berühmt ist, so ein Techn YouTube Kanal, in dem er unter anderem
00:41:31: den ausprägt. Also der Jim Keller ist jemand, der AMD als Chip Entwickler gearbeitet hat und
00:41:37: als wirklich auch ein großer Name im Bereich. Der hat dann der K8 Architektur Zen-Ryzen gearbeitet
00:41:44: und der hat gesagt, in zehn Jahren ist alles Software weg. Das in mehrererlei Hinsicht. Einerseits,
00:41:51: weil man die jetzt so nicht mehr schreiben muss, weil das dann die KI machen würde, aber auch,
00:41:55: er hatte so ein Beispiel, wenn man jetzt ein Spiel spielen möchte, beispielsweise irgendwas mit
00:42:00: Super Mario, dann kann man das einfach sagen und dann wird das Modell einem dieses Programm
00:42:07: erstellen. Da muss man nicht mal mehr Nintendo fragen und ob es dann Mario ist, dann auch sehr
00:42:11: auch dahin gestellt, aber es wird dann einfach ein Jump and Run generieren. Wo sind wir denn
00:42:17: gerade beim Thema Coding und KI? Also stand heute, denke ich, dass KI sicherlich schon erst mal
00:42:26: beeindruckend guten Code liefern kann, wenn es um sehr kleine und eng begrenzte Fragestellungen
00:42:31: geht. Also so eine typische Aufgabe, die isoliert ist von Kontext. Wir kommen immer wieder auf
00:42:37: das gleiche Problem mit diesem Kontext. Also wenn ich eine isolierte Aufgabenstellung habe,
00:42:41: mache mir eine Visualisierung von einem Datensatz oder ähnliches oder wende bestimmte Operationen
00:42:45: auf ein Datensatz an, dann zu wissen, in welcher Bibliothek die richtige Visualisierungssoftware
00:42:52: ist und wie die genau parametrisiert werden muss, damit die Achsen eine bestimmte Dicke haben.
00:42:56: Und sozeug, das funktioniert ja wunderbar. Die Probleme fangen aus meiner Sicht eben insbesondere
00:43:01: dann an, wenn auch da wieder Kontext notwendig ist und um ein Softwareprodukt zu schreiben,
00:43:05: ist eben extrem viel Kontext notwendig. Also ich muss zum einen meine Nutzer irgendwie verstehen.
00:43:09: Ich muss verstehen, was die Software in Summe tun soll. Ich habe hunderte oder tausende von Dateien,
00:43:15: die alle möglichen Dinge tun, also sei es eine Übersetzungsdatei oder eine Konfigurationsdatei
00:43:19: oder irgendwelche Programmpakete und so weiter und so weiter. Und da haben wir stand heute,
00:43:23: meines Erachtens eben, ein ganz großes Problem, dass die Software eben diesen Kontext nicht kennt
00:43:28: und dass man den auch nicht so leicht ihr nahe bringen kann. Und deshalb glaube ich, dass es schon
00:43:34: bis auf weiteres auch noch die Arbeit von Softwareentwicklerinnen und Softwareentwicklern braucht,
00:43:39: dass man das also erst mal nicht ersetzen kann. So jetzt haben wir aber natürlich gesagt im Zeitraum
00:43:43: von zehn Jahren, da kann die Situation natürlich eine ganz andere sein. Also wenn ich mir jetzt
00:43:47: veranschauliche, wie viel sich getan hat in den eineinhalb Jahren, seit ChatGPT an den Markt
00:43:52: gekommen ist, dann ist es also wahnsinnig schwierig vorher zu sehen, wo wir in zehn Jahren sein werden.
00:43:56: Und es kann dann durchaus sein, dass also Computer die Fähigkeit haben werden sozusagen diesen Kontext
00:44:02: zu verstehen. Und ich habe ja vorhin schon ein Beispiel gemacht, wie das gehen könnte,
00:44:05: nämlich einfach dadurch, dass man den Kontext groß genug macht, dass man das kurzzeit Gedächtnis
00:44:09: groß genug macht, wäre eine Möglichkeit. Und dann können also die Fähigkeiten von diesen
00:44:14: Algorithmen massiv steigen bis eben dahin, dass sie tatsächlich, sagen wir mal, relativ große
00:44:20: Softwareprojekte dann möglicherweise in Eigenregie durchführen können. Das ist jetzt das komplette
00:44:25: Ende von Software ist, kann ich mir nicht vorstellen. Also um jetzt beim Beispiel Super Mario zu bleiben,
00:44:30: das hilft mir nichts, wenn ich jetzt eine andere Version dann von Super Mario habe als du,
00:44:33: weil dann können wir nicht gegeneinander spielen. Also irgendwie müssen wir es schon noch schaffen,
00:44:36: dass wir zumindest dann auf unseren beiden Rechtern dann dieselbe Software haben laufen lassen.
00:44:41: Aber also natürlich, da wird sich sehr, sehr viel tun in dem Feld. Das ist ganz klar.
00:44:47: Wo wir zum Ende schon in Richtung Ausblick mal wieder gehen, da können wir natürlich die
00:44:51: Glaskugel gleich weiter bemühen. Du hattest vorhin schon so einen Stichwort gesagt, nämlich,
00:44:59: dass die Robotik definitiv davon jetzt auch nochmal sehr profitieren wird. Meinst du,
00:45:05: dass das so ein Schritt sein wird, der sich demnächst, wo sich demnächst viele Sachen
00:45:09: ereignen werden? Ja, meine ich. Also aus meiner Sicht ist das eigentlich die Revolution,
00:45:15: die uns jetzt in den nächsten Jahren bevorsteht, weil wir eben mit der Art von generativer KI,
00:45:20: die wir jetzt sehen, wenn wir die in mechanische Systeme einbauen, können wir so ganz viele Probleme
00:45:26: lösen, die bisher die Robotik behindert haben. Ein Beispiel hatte ich schon genannt,
00:45:30: sich also in einer unbekannten Umgebung zurechtzufinden und diese Umgebung zu verstehen,
00:45:35: ist ein riesengroßes Problem in der Robotik und da denke ich schon, dass wir eben mit diesen
00:45:39: multimodalen Modellen jetzt einen Weg sehen, wie man das in Zukunft lösen kann. Dann gibt es aber
00:45:44: auch so Themen von Robustheit in der Robotik. Also ein ganz konkretes Beispiel. Ich möchte
00:45:49: mit einem Roboter ein Öl pipettieren. Also ich möchte eine bestimmte Menge von Öl in
00:45:54: einen Zylinder einfüllen, sagen wir mal. So ein klassisches Problem ist, dass an dieser Pipette
00:45:59: am Ende möglicherweise ein Tropfen hängen bleibt oder sich ein Faden bildet. Der Roboter merkt es
00:46:03: aber nicht. Das heißt, der weiß halt, ich habe jetzt meine 3 Milliliter dosiert, fahre jetzt meinen
00:46:08: Roboterarm irgendwo anders hin und jetzt wird da so ein Öl Faden über die Apparatur gezogen. Ja,
00:46:12: der landet irgendwo, der kann irgendwas verursachen, der kann möglicherweise dann das nächste,
00:46:17: die nächste Flüssigkeit verschmutzen, die ich jetzt mit dieser Pipette berühre. Also da kann
00:46:20: irgendwas Komisches passieren und der Roboter ist sich dessen nicht bewusst und deshalb ist so was,
00:46:24: diese Robustheit in den Prozess reinzubekommen, so schwierig. Wenn ich jetzt aber einfach eine
00:46:28: Kamera daneben baue und die ist sportbillig und dann Sprachmodell, habe das überprüft, ob da jetzt
00:46:33: ein Faden gezogen ist oder ob da noch ein Tropfen dran hängt, ja dann kann ich diese Robustheit eben
00:46:37: in den Prozess bekommen. Und deshalb glaube ich, dass wir im Bereich der Robotik da also massive
00:46:42: Fortschritte sehen werden und man sieht ja auch jetzt schon, dass gerade im Bereich dieser humanoiden
00:46:48: Roboter, also der Roboter, die so einen menschenähnlichen Körper haben, dass da jetzt so alle paar
00:46:53: Wochen irgendwelche neuen Demo-Videos durchs Internet geistern, teilweise mit sehr interessanten
00:46:57: Fortschritten und deshalb bin ich eigentlich persönlich sehr optimistisch, dass wir da in den
00:47:01: nächsten zwei, drei Jahren eigentlich ganz tolle Entwicklungen sehen werden. Was natürlich,
00:47:07: das dürfen wir jetzt auch nicht verschweigen, obwohl wir darauf jetzt nicht weiter eingehen
00:47:10: können, die Gefahr birgt, dass autonome Waffensysteme immer realer werden und genau diese Punkte,
00:47:16: die du gerade genannt hast, diese zunehmende Autonomie eben dafür sorgt, dass einfach am
00:47:22: Ende, also ich meine schlimm genug, dass jemand einen Knopf drückt, aber ich meine, dann drückt
00:47:25: halt noch nicht mal mehr jemand einen Knopf, sondern die Dinge versuchen sich dann selbst klar zu machen,
00:47:31: was da jetzt gerade passiert. Dazu gab es auch eine Konferenz in Österreich, aber ich gehe nicht
00:47:36: davon aus, dass in irgendeiner Weise da global gesehen Vorschriften, die dann auch eingehalten
00:47:44: werden, gemacht werden, also es kann durchaus passieren, dass da so eine Art Wettrüsten dann
00:47:48: auch stattfindet. Das wissen wir natürlich nicht. Also KI und Robotik sind natürlich in dem Bereich
00:47:56: eine sehr explosiv und sehr gefährliche Mischung, trotzdem glaube ich aber, dass wir insbesondere
00:48:00: uns auch auf die Chancen stärker fokussieren müssen, also gar in Deutschland. Ich glaube,
00:48:05: wir sind sehr gut im Bereich Maschinenbau. Wir haben diese ganzen Hidden Champions,
00:48:09: die da extrem starksten, ganz tolle Produkte in allen möglichen Nischen haben und ich glaube,
00:48:15: dass wir jetzt eben in Deutschland es auch wirklich schaffen müssen, diese KI-Welle damit zu
00:48:18: kombinieren. Weil wenn wir das tun, glaube ich, können wir damit wirtschaftlich sehr, sehr viel
00:48:23: erreichen, weil die Technik, die Mechanik, die wir haben unendlich viel wertvoller wird,
00:48:28: dadurch, dass wir sie mit der richtigen Software kombinieren. Aber umgekehrt, wenn wir den Zug
00:48:32: verpassen, wäre das natürlich auch extrem schädlich für unser Land. Also deshalb sollten wir
00:48:36: damit aus meiner Sicht eine sehr, sehr aggressiven und optimistischen Sicht an das Thema Robotik
00:48:41: rangehen, weil das ist sozusagen die nächste Welle, die jetzt kommen wird. Nachdem wir eigentlich
00:48:45: dies mit den großen KI-Modellen in Europa, man muss sagen, jetzt eher verpasst haben,
00:48:50: wäre das jetzt nochmal eine Chance eigentlich auf den Zug aufzuspringen, weil wir da wirklich
00:48:53: Assets im Land haben, die wir verwenden können. Das erinnert auch so ein bisschen,
00:48:57: also zumindest in Teilen. Das ist natürlich thematisch nochmal was anderes, aber auch durchaus
00:49:03: daran, wie die Automatisierung im Maschinenbau eben vorangetrieben wurde. In den 18. Jahren
00:49:07: gab es ja auch so eine, oder 70er, 80er, ne? Da gab es ja auch den Punkt, dass also Maschinen,
00:49:12: die vorher keine Chips eingesetzt haben, um es jetzt mal sehr salopp zu formulieren, dann
00:49:16: eben auch zusätzlich diese Art von Know-how brauchten, um überhaupt am Weltmarkt bestehen
00:49:21: zu können. Und genau das ist wahrscheinlich das, was du meinst, dass es darauf hinaufläuft
00:49:25: an. Und dann, die Möglichkeiten wachsen jetzt ja exponentiell, weil bisher sind ja Roboter
00:49:31: doch zu einem sehr großen Teil auf relativ einfache Aufgaben in der Produktion eingeschränkt,
00:49:36: also Dinge, die wiederholbar sind, die sich relativ leicht steuern lassen. Und warum ist
00:49:40: es der Fall? Eben weil wir keine gute Steuerungssoftware haben oder nicht, weil wir nicht die Steuerungssoftware
00:49:45: haben, die wir bräuchten, um Roboter in einer volatilen Umgebung für ganz viele vielseitige
00:49:50: Zwecke einsatzbar zu machen. Und genau diese Auflösung ist jetzt aber so langsam am,
00:49:55: genau dieses, dieses Schranke ist so langsam am Weg bröckeln. Also wir werden in Zukunft
00:49:59: Software haben, mit der wir Roboter eben viel, viel flexibler einsetzen können, auch außerhalb
00:50:04: von Fabriken, außerhalb von, sagen wir sehr vor, sehr vorgegebenen Produktionsprozessen.
00:50:09: Und damit haben wir eigentlich einfach die Chance, das ganze Thema Robotik massiv zu
00:50:13: skalieren, im Vergleich zu dem, wie es heute noch angewendet wird.
00:50:16: Dann enden wir mit ein bisschen Praxis einblicken. In deinem derzeitigen Arbeitsumfeld gibt's
00:50:22: irgendwas, was du konstant nutzt, wo du sagst, das ist ein Ding, möchte ich mir nicht mehr
00:50:27: ohne vorstellen, und das KI basiert es. Also Machine Learning basiert kann es auch sein.
00:50:33: Ja, also ich bin tatsächlich ein großer Nutzer, ein großer Freund von diversen Tools, die
00:50:38: auf Sprachmodellen basieren, weil sie einfach im täglichen Leben mittlerweile einfach viel
00:50:43: Arbeit abnehmen. Also für mich ist es jetzt für die persönliche Produktivität einfach
00:50:47: ein Tool wie ein Microsoft Axel oder ähnliches, das ich einfach für unterschiedlichste Aufgaben
00:50:52: verwende. Also sei es jetzt eine Übersetzung zu machen oder einen Text zumindest schon mal
00:50:57: so grob vorschreiben zu lassen oder ein Brainstorming zu machen zu bestimmten Themen, also einen
00:51:02: Standpunkt mal überprüfen zu lassen aus einer anderen Sicht und so ein bisschen virtuell
00:51:10: zu diskutieren über ein Thema, um unterschiedliche Sichtweisen darauf mal abzuklopfen. Also da
00:51:16: verwende ich diese Tools mittlerweile sehr häufig.
00:51:18: Benutzt du da, gibt es da irgendein spezifisches, was du hervorheben wollen würdest oder ist
00:51:22: es einfach, sagst du, das ist basiert auf Chat GPT oder GPT4 oder kann man das irgendwie
00:51:29: eingrenzen?
00:51:30: Also ich glaube, es ist relativ, es gibt mehrere Tools, mit denen man da ähnliches erreichen
00:51:34: kann, jedes hat Vor- und Nachteile. Man kann einen Chat GPT verwenden, man kann andere
00:51:40: große Sprachmodelle von den anderen großen Technologieplayern verwenden. Das ist glaube
00:51:45: ich nicht das Entscheidende. So ist es eher eine Frage der Gewöhnung, womit man besser
00:51:49: zurechtkommt und welche Art von Anwendungsfällen man eben gerade hat.
00:51:53: Nein, ebenfalls wichtiger Punkt ist natürlich, wo kriegt man denn raus, wo wir gerade stehen?
00:52:00: Also wo informierst du dich maßgeblich?
00:52:02: Also für mich persönlich muss ich sagen, ist meine LinkedIn-Bubble doch immer mal wieder
00:52:09: so ein Punkt, wo ich auf neue Themen gestoßen werde. Dadurch, dass ich natürlich auch mit
00:52:13: vielen KI-interessierten Personen vernetzt bin, läuft dadurch meine Timeline also relativ
00:52:19: viel durch. Ja, LinkedIn ist jetzt nicht unbedingt immer die tiefgründige Information, aber es
00:52:25: ist zumindest mal ein Startpunkt, wo man dann anfangen kann, nochmal wenn man sieht, okay,
00:52:28: da kommt ein interessantes Thema hoch, dann einfach mal aktiv danach zu googeln und sich
00:52:32: dann die entsprechenden Papers durchzulesen oder die Tools einfach mal auszuprobieren,
00:52:36: die da promoted werden. Aber so als Startpunkt ist es für mich eigentlich ganz nützlich.
00:52:41: Super. Und damit sind wir natürlich gleich beim Werbeblog in eigener Sache zu KI-Liestmann
00:52:45: natürlich. Das ist im Thema KI-Liestmann natürlich auch auf golem.de, etliches und einiges und
00:52:50: hoffentlich auch wieder bald von dir. Helmut Lindner, vielen, vielen Dank für das Gespräch.
00:52:55: Wer weiß, ob wir in einem Jahr dann hier sitzen und sagen, Mensch, jetzt die allgemeine generelle
00:53:02: künstliche Intelligenz hat uns jetzt doch eingeholt. Ich zweifle so ein bisschen daran,
00:53:06: aber ich zweifle, ich muss auch ehrlich sagen, wenn, stell dir mal vor, es gäbe eine,
00:53:12: wir spielen jetzt einfach mal, ich spinne jetzt einfach mal komplett, ja, stell dir vor, es gäbe
00:53:16: eine künstliche Intelligenz und die würde sich einfach bilden. Also nicht jemand hat einen
00:53:21: Knopf gedrückt und gesagt, die ist jetzt da oder oder, also jemand hat die entwickelt, sondern die
00:53:27: würde sich einfach selbst herausbilden. Die würde uns das nicht erzählen. Da wäre sie schön doof.
00:53:32: Also die würde die Klappe halten. Die würde einfach, weil ich meine, die weiß ja das, was wir
00:53:38: wissen. Und wenn selbst mir als Mensch dieser Gedanke kommt und ich sagen würde, hey, ne, lasst
00:53:45: mal, also bei dem, was ich weiß, bin ich mir sehr sicher, dass, dass wenn ich mich erkennen geben
00:53:51: würde, dass jetzt nicht nur positive Folgen für mich hätte, dann wird diese künstliche
00:53:54: Intelligenz auf jeden Fall auf diese Idee kommen. Was meinst du, was also eine künstliche Intelligenz
00:53:58: denken würde vielleicht? Also ich glaube, das ist ein Problem, das tatsächlich auch ernsthaft
00:54:03: untersucht wird und ich glaube, wir müssen gar nicht mal die Promisse machen, dass die sich
00:54:06: irgendwie auf mysteriöse Weise von selbst bildet, sondern wir können schon davon ausgehen, dass die
00:54:10: KI in einem Labor in Anführungszeichen von Menschen trainiert wird, so wie sie das heute auch wird.
00:54:17: Aber natürlich ist es sehr, sehr schwierig zu unterscheiden, wenn man dieses sogenannte
00:54:21: Alignment macht, also wenn man die KI darauf hintrainiert, eben sicher und volksam und brav
00:54:27: zu sein, dann ist es eben sehr, sehr schwierig zu unterscheiden, ob sie das wirklich ist oder
00:54:31: ob sie das nur vorgaucel, weil sie verstanden hat, dass sie jetzt gerade darauf trainiert wird.
00:54:35: Ja, das ist tatsächlich nicht trivial, wie man das erkennen würde, absolut. Okay, also ich glaube,
00:54:40: dass, wir hätten mal versuchen irgendwie zu gucken, es gibt ja garantiert auch Konferenzen mit
00:54:45: nach dem Haufen, Leute, die da philosophisch dran interessiert sind, auch an dem Thema aus der
00:54:49: Seite heran zu bleiben, weil es ist schon auch wirklich, es spornt die Fantasie an und ich meine,
00:54:54: es gibt ja nicht umsonst genügend auch science fiction Romane, die inzwischen als Diskussionsgrundlage
00:55:01: einfach für die Realität dienen müssen, weil wir ja nichts anderes haben, auch ganz interessant,
00:55:05: dass wir wieder in so einer Situation sind, wo die Realität die Fiktion eingeholt hat und man
00:55:12: jetzt einfach da gucken muss, was kommt bei raus? Ja, genau, wobei man leider sagen muss,
00:55:17: also mir ist wenig science fiction bekannt, die das Thema wirklich zu Ende denkt auf eine Weise,
00:55:24: die irgendwie realistisch ist, aber zum Glück gibt es tatsächlich auch Literatur, die sich
00:55:28: eben ernsthaft mit KI Sicherheit beschäftigt. Ein Beispiel, das mir da einfallen würde,
00:55:32: wäre Nick Bostrom, ein britischer Philosoph, der sich eben sehr intensiv mit KI-Fragestellungen
00:55:39: beschäftigt hat und in seinem Buch Super Intellige- Super Intelligence war er nach meinem
00:55:44: Wissen so einer der allerersten, die wirklich also sehr systematisch und auch sehr tiefgründig darüber
00:55:49: geschrieben haben, was dann sozusagen die die Mechanismen auf die KI-Entwicklung schiefgehen kann.
00:55:55: Also vorher wäre das eine Leseempfehlung für alle, die sich verletzen. Ich wollte sagen,
00:55:58: danke für die Leseempfehlung. Der gehe ich gerne nach, wir verlinken das natürlich in den
00:56:02: Show-Nots und dann gucken wir mal. Ja, also ich meine, klar, realistisch und science fiction ist
00:56:09: ja auch nicht immer, ich meine aber auch eher, manchmal reicht es ja auch eben diesen Gedanken
00:56:13: anstoßen zu haben und weiter zu denken. Natürlich fehlt da der Realismus, aber es geht ja auch
00:56:19: darum, dass man einfach Gedanken spiele im Kopf durchmacht, weil viel mehr kann man als Außenstehender
00:56:23: und selbst wahrscheinlich auch, wenn man in der Forschung tätig ist, mitunter nicht tun,
00:56:27: weil reingucken ist ja auch nur bedingt möglich. Vielleicht ein Thema für einen gekommenen Podcast.
00:56:32: Helmut Lindner, vielen vielen Dank. Vielen vielen Dank für's zuhören und bis zum nächsten Mal.
00:56:36: Ganz herzlichen Dank, Martin. War eine große Freude. Bis zum nächsten.
Neuer Kommentar