Robotik als nächster Schritt für die KI

Transkript anzeigen

00:00:00: Besser wissen, der Podcast von Golem.de.

00:00:05: Hallo und herzlich willkommen zu einer weiteren Ausgabe.

00:00:07: Mein Name ist Martin Wolff und ich bin Podcastbeauftragter bei Golem.de und mir zugeschaltet aus der

00:00:12: Ferne sitzen beide in unserem Homeoffice.

00:00:14: Das ist das Jahr 2024.

00:00:16: Ist Helmut Linde und wir reden über eines der Themen des Jahres 2024, das auch schon

00:00:21: das eines der Themen des Jahres 2023 war und 22 und oh, ich weiß nicht, Helmut, sag mir

00:00:27: doch mal bitte.

00:00:28: Wann schätzt du, ging das so richtig los mit der KI, wo glaube ich die letzten Leute

00:00:33: mitbekommen haben?

00:00:34: Jetzt geht es los.

00:00:35: Ja, ich denke, der große Durchbruch war Ende 2022 mit der Veröffentlichung von ChatGPT

00:00:42: einfach dadurch, weil dort eben zum ersten Mal eine allgemeine KI wirklich in ganz vielen

00:00:47: Anwendungsfällen nützlich wurde und auch vor allem, weil sie in einer Weise an den

00:00:52: Markt gebracht wurde, die eine sehr, sehr geringe Einstiegshürde aufweist.

00:00:55: Man konnte von Anfang an dieses Tool kostenlos benutzen.

00:00:58: Man brauchte keinerlei Erfahrungen im Umgang mit KI, sondern man konnte einfach eintippen,

00:01:02: was man haben wollte und hat in vielen Fällen eine sehr sinnvolle Antwort bekommen.

00:01:05: Ich glaube, das würde ich von als den Punkt festmachen, an dem die Welle so richtig los

00:01:09: gegangen ist.

00:01:10: Es ist Frühling und es ist, also für mich hat sich die Frage gestellt, ist auch immer

00:01:16: noch Frühling bei der KI.

00:01:17: Dieser Frage versuchen wir uns in diesem Podcast ein bisschen anzunähern, bevor wir damit loslegen,

00:01:21: kurz was zu dir, Helmut.

00:01:23: Du bist Mathematiker und Physiker und hast, beschäftigst dich eigentlich, würde ich fast

00:01:29: sagen, inzwischen Fulltime mit dem Thema, oder?

00:01:31: Also Fulltime ist es nicht ganz, aber man kann schon sagen, dass ich also die letzten 15

00:01:36: Jahre in meiner Karriere sehr viel damit zugebracht habe, künstliche Intelligenz eben in die industrielle

00:01:41: Anwendung zu bringen.

00:01:42: Zuerst viele Jahre bei der SAP als Beratungsleiter für Data Science Teams, dann beim Pharma

00:01:50: und Chemiekonzern Merk, ebenfalls als Leiter eines Data Science Teams.

00:01:54: Und jetzt bei der Firma Covestro, wo ich die digitale Forschung und Entwicklung verantworte.

00:01:59: Und da ist künstliche Intelligenz eines von ganz, ganz vielen Themen, aber natürlich

00:02:03: auch eines mit zunehmender Wichtigkeit.

00:02:05: Und es verweise darauf, dass du auch netterweise für gulemdeartikel schreibst und wir einen

00:02:10: derzeit ruhenden, aber durchaus im ischiv vorhandenen Podcast von dir zum Thema KI haben, wo auch

00:02:16: Leute zu Wort kommen, die mit dem Thema in der Industrie zu tun haben.

00:02:19: Und wirklich wo es auch um Anwendungs, ja, tatsächlich konkrete Anwendungen von KI geht.

00:02:25: Wenn wir den Blick zurückwerfen ins letzte Jahr, da haben wir beide zusammengesessen,

00:02:29: das ist nicht ganz ein Jahr her, es war, glaube ich, im Juni, also aber es kommt schon ungefähr

00:02:32: hin.

00:02:33: Dann finde ich, ich habe nur kurz nochmal reingeguckt, was unsere Themen waren, ist unser Podcast

00:02:39: gar nicht so schlecht gealtert.

00:02:40: Also manchmal hat man ja das Gefühl, oh Gott, das ist aber jetzt da, da haben wir aber ein

00:02:44: bisschen daneben gelegen und all diese Dinge, die wir besprochen haben, gibt es schon gar

00:02:48: nicht mehr.

00:02:49: Das ist nicht der Fall.

00:02:50: Es gab, aber also ich gebe jetzt mal als kurze Stichpunkte mit rein, was wir unter anderem

00:02:55: hatten, was auch auf golemde damals in Artikeln thematisiert wurde, war die Erstellung eines

00:03:01: kompletten Sonderheftes beim Bruderverlag, wo die Bilder und die Texte für Pasta Rezepte

00:03:07: von der KI erstellt wurden und das tatsächlich an einem Kiosk gelandet ist, was ein bisschen

00:03:12: futuristisch erschien, ein bisschen lustig war und aber auch ein bisschen beängstigend,

00:03:16: weil nicht umsonst, also ich bin mir, ich meine, ich würde jetzt sagen, bestimmt haben

00:03:21: da Leute drüber gelesen, aber ich denke, ihr habt mir damals dann gedacht so, oh so

00:03:25: ein KI Rezept für Pasta, also ich meine, der Rechner, der das entworfen hat, hat nun mal

00:03:31: keinen Magen und kann schlecht irgendwie nachvollziehen, wie Dinge dann wirklich schmecken und ob die

00:03:35: gesund sind oder so, aber das, ich meine, es gab keine Nachrichten danach, dass jemand

00:03:40: einen verdorbenen Magen hatte deshalb.

00:03:42: Also das dürfte wohl das statistische Mittel aus ganz vielen Pasta Rezepten gewesen sein,

00:03:47: die irgendwo im Internet zu rumschlören, also da würde ich mir keine Sorgen machen.

00:03:50: Na das sagst du so, Helmut, aber jetzt stell dir mal vor, es gibt eine bestimmte Kombination

00:03:57: aus Pesto-Dingen, die einfach furchtbar abführend wirkt, das weißt du ja nicht und wenn das

00:04:04: statistische Mittel da zusammenkommt und zufällig diese Kombination entwirft, so was meine ich

00:04:08: eher weniger irgendwie das da Sehen drinnen, als das würde auch auffallen.

00:04:11: Dann gab es eine Petition, die ich vorhin noch mal aufgerufen habe, die inzwischen 200.000

00:04:17: Unterschriften hat, Time is running out, Demand, Responsible AI, Development, die auf Change.org

00:04:24: damals, das ging durch die Medien, das gefordert wurde, das ist ein Forschungsstopp an großen

00:04:28: KI-Modellen, gefordert wurde, da ist nichts passiert, also das hat nicht so voll gehabt,

00:04:32: dass dieser Stopp passiert.

00:04:33: Genau, das Problem ist immer noch offen.

00:04:35: Hast du danach, das noch weiter, gab es dann noch weitere so aufsehenerregende Forderungen

00:04:42: nach der Einstellung von KI-Forschung?

00:04:44: Naja, also ich glaube nicht mehr so öffentlich.

00:04:48: Also es gibt ja schon Forscher, die daran arbeiten an dem Thema Risiko von künstlicher

00:04:53: Intelligenz und die natürlich dann in der Akademie regelmäßig publizieren, aber ich

00:04:57: glaube, diese ganz große öffentliche Aufmerksamkeit wie vor ungefähr einem Jahr habe ich es

00:05:04: seither nicht mehr gesehen in dem Thema, obwohl natürlich die Dringlichkeit eher zu als abgenommen

00:05:07: hat.

00:05:08: Exakt.

00:05:09: Und damit sind wir bei dem, wo wahrscheinlich damals würde ich sagen größten Punkt, da

00:05:15: es war Sparks of AGI, darüber haben wir im Podcast auch geredet, das müssen wir mal

00:05:19: glaube ich ganz kurz erklären, das kannst du eigentlich besser als ich würde sagen.

00:05:23: Ja, Sparks of AGI war der Titel einer Veröffentlichung von Microsoft, in der eben vorgestellt wurde,

00:05:31: welche beeindruckenden Fähigkeiten das damals aktuelle Modell GPT-4 entwickelt hatte.

00:05:36: Also erstmal mit AGI ist eben gemeint Artificial General Intelligence, also die Idee, dass ein

00:05:43: Computersystem menschliche Intelligenz vollumfänglich ersetzen bzw. nachbilden kann.

00:05:49: Und bei Microsoft hat man eben behauptet, in diesem GPT-4-Modell, also eben erste Funken,

00:05:56: erste Anzeichen von so einer allgemeinen künstlichen Intelligenz zu entdecken und hat es im Wesentlichen

00:06:01: an ganz, ganz vielen Beispielen festgemacht, die bestimmte Fähigkeiten des Modells zeigen,

00:06:07: insbesondere viele Fähigkeiten, die man so nicht vermutet hätte, weil das als reines

00:06:11: Sprachmodell eben darauf trainiert wurde, letztendlich Texte zu vervollständigen, was

00:06:16: sich erstmal nach einer sehr banalen Aktivität anhört.

00:06:19: Aber durch dieses vervollständigen von Texten, hochgrad exkaliert auf Milliarden von Texten,

00:06:26: haben sich dann in dem Modell eben Fähigkeiten entwickelt, die in manchen Belangen eben menschlicher

00:06:32: Intelligenz zumindest ähneln scheinen.

00:06:34: Also zum Beispiel so, was wir ein gewisses räumliches Vorstellungsvermögen oder visuelles

00:06:38: Vorstellungsvermögen, was eben erstaunlich ist, wenn man denkt, dass dieses Modell zum

00:06:42: damaligen Zeitpunkt eben nur Texte gesehen hatte.

00:06:45: Und das war also dieses Sparks of AGI Diskussion und seitdem ist natürlich die Entwicklung

00:06:51: weitergegangen.

00:06:52: Also die Modelle sind ähm sehr, sehr schnell sehr viel besser geworden, auch wenn das

00:06:57: in der öffentlichen Wahrnehmung glaube ich nicht ganz angekommen ist.

00:07:01: Also ich denke, dass viele heute immer noch, wenn sie von KI reden, an Chatchi Pity denken

00:07:07: und das ist eben der Stand von November 2022 und das ist in der KI Forschung momentan,

00:07:12: also das Mittelalter fast.

00:07:13: Also da liegen Welten dazwischen, zwischen dem, was wir heute schon an KI-Modellen

00:07:17: wieder sehen und dem, was also in der breiten Öffentlichkeit noch unter dem Begriff KI in

00:07:21: vielen Diskussionen eben verstanden wird.

00:07:23: Die Frage nach der allgemeinen künstlichen Intelligenz, werden wir sicherlich nochmal

00:07:29: ein bisschen beleuchten, aber nur um das auch nochmal kurz so klarer zu machen, dieses,

00:07:35: was du meintest, räumliche Vorstellungsvermögen.

00:07:37: Ein Beispiel war das Stapeln von Dingen.

00:07:40: Also wenn man eine Kugel hat und ein Kegel und eine Nadel oder verschiedene andere Dinge,

00:07:47: dann hat man als Mensch sofort ein Instinktive, wenn man die Aufgabe bekommt, die zu stapeln

00:07:51: sofort eine instinktive Lösung parat.

00:07:53: So ein Sprachmodell kann das eigentlich nicht haben, denn es hat diese Dinge nie gesehen

00:08:00: und selbst wenn man davon, sage ich jetzt mal, gute Beschreibung hat, führt das ja immer

00:08:05: noch nicht dazu, dass man jetzt instinktiv weiß oder dass man weiß, wie die Dinge eigentlich

00:08:09: aufeinander gehören.

00:08:10: Und das war ein so ein Ding, das zweite war das berühmte Einhorn, wo also klar war ein

00:08:15: Sprachmodell, er hat ja keine Bilder und kann keine Bilder erzeugen und es hat auch keine

00:08:19: Bilder gesehen, da es ja nur an Sprache trainiert wurde und trotzdem konnte es mit einer Skriptsprache

00:08:24: Linien zeichnen und diese Linien ergaben dann, wenn man diese Aufforderung dann gemacht

00:08:30: hat, tatsächlich eine Art Abbildung von einem Einhorn, die jetzt nicht sehr künstlerisch

00:08:34: wertvoll war, aber tatsächlich sehr gut zu erkennen.

00:08:36: Also das schönes Beispiel fand ich, das veranschaulich hat, was da passiert ist und man kann eigentlich,

00:08:41: finde ich, auch den Microsoft-Forscherinnen und Forscher nicht übernehmen, dass sie da

00:08:45: schon, also das befüge die Fantasie mit anderen Worten.

00:08:48: Genau.

00:08:49: Das muss man schon so sagen.

00:08:50: So, dann kommen wir mal in die heutige Zeit.

00:08:53: Gibt es gerade, bei welchem Modell sind wir denn gerade?

00:08:57: Sagen wir mal so.

00:08:58: Also was unterscheidet denn die aktuellen Sprachmodelle?

00:09:01: Wir reden ja dann meistens eigentlich von diesen large Language-Models, die so ziemlich

00:09:04: alles machen, wo sind wir denn da gerade gelandet?

00:09:08: Ich würde mal so die größeren Meilensteine des letzten Jahres und diesen Jahres vielleicht

00:09:14: durchgehen.

00:09:15: Erstmal war ein sehr schlauer Zug noch von OpenAI, dass sie eben dieses Textmodell GPT-4

00:09:23: mit einer Softwareentwicklungsumgebung verbunden haben.

00:09:26: Das wurde dann unter dem Namen Advanced Data Analysis an den Markt gebracht, ist auch heute

00:09:31: noch ein fester Bestandteil von Chat GPT, zumindest von der Bonusversion oder der bezahlten

00:09:38: Plusversion.

00:09:39: Und diese Verbindung zwischen dem Sprachmodell und einer Softwareentwicklungsumgebung macht

00:09:45: eben die KI zu einer Art Agenten.

00:09:47: Also die KI kann etwas tun.

00:09:48: Sie kann eine Softwareentwicklung, dieses Software ausführen, sich die Ergebnisse anschauen,

00:09:53: auch eine Fehlermeldung, zum Beispiel dann wieder korrigieren im Code und also vermittelt

00:09:58: es der Software, die sie selber schreibt, ein Problem lösen und dann am Ende des Ergebnisses

00:10:01: wieder dem Nutzer mitteilen.

00:10:03: Also dieser Schritt von "Ich beantworte einfach nur eine Nutzerfrage direkt" bis hin

00:10:08: zu "Ich werde als KI aktiv und löse ein Problem dadurch, dass ich Werkzeuge", in dem

00:10:12: Fall verschiedene Peißenbefehle und Bibliotheken verwende.

00:10:15: Das war aus meiner Sicht nochmal ein sehr interessanter Schritt, auch wenn es dasselbe

00:10:19: Modell war.

00:10:20: Es war keine neu entwickelte KI, sondern es war einfach eine sehr schlaue Anwendung der

00:10:23: KI.

00:10:24: Dann haben wir letztes Jahr im dritten Quartal eben sehr viel gesehen, was Richtung visuelle

00:10:30: Datenverarbeitung geht.

00:10:31: Da kam das Dolly 3-Modell raus, also nochmal deutlich verbessertes Bilderzeugungsmodell,

00:10:38: das sehr beeindruckend war.

00:10:40: Und OpenAI hat auch im dritten Quartal letzten Jahres GPT4V rausgebracht, wobei dieses

00:10:48: "V" für "visual" steht.

00:10:50: Das ist also jetzt kein Sprachmodell mehr, sondern ein sogenanntes multimodales Modell,

00:10:55: bei dem man flexible Sprache und Bilder miteinander verknüpfen kann.

00:10:59: Man kann also zum Beispiel Bilder hochladen und eine Frage zu den Bildern stellen.

00:11:03: Und das war für mich nochmal ein sehr, sehr beeindruckender Fortschritt.

00:11:08: Und auch da gab es dann wieder ein Paper dazu, mit dem eben unterschiedlichste Beispiele

00:11:12: gezeigt wurden, was dieses Modell mit den Bildern alles anfangen kann.

00:11:16: Also zum Beispiel Informationen aus Bildern, instrukturierte Daten umwandeln.

00:11:21: Also einen eingeskennten Ausweis beispielsweise dann in eine Datenbank, also die Daten in

00:11:27: diesem Ausweis dann in eine Datenbank zu schreiben.

00:11:29: Oder was mich persönlich sehr beeindruckt hat, war ein Beispiel, bei dem man dem Sprachmodell

00:11:35: gesagt hat, du bist jetzt ein Haushaltsroboter und du siehst jetzt hier ein Bild von einem

00:11:39: Wohnzimmer.

00:11:40: Wie würdest du diesen Haushaltsroboter steuern, um aus dem Kühlschrank etwas zu holen?

00:11:45: Ja, und dann sagt das Sprachmodell, okay, ich sehe hier auf dem Bild, links ist eine Tür,

00:11:49: das sieht aber eher nach der Haustür aus, da geht es wahrscheinlich in den Garten.

00:11:52: Und rechts ist noch eine Tür, die ans Wohnzimmer angrenzende Räumlichkeit könnte vielleicht

00:11:56: die Küche sein.

00:11:57: Also bewege ich mich mal auf diese Tür zu, ich gehe jetzt 20 Grad nach rechts und einen

00:12:00: Schritt nach vorne.

00:12:01: Und wenn man das jetzt immer wieder holt, also aus der neuen Position wieder ein Foto

00:12:04: aufnimmt und wieder dieselbe Frage stellt, dann schafft es also dieses Sprachmodell diesen

00:12:09: hypothetischen Roboter zum Kühlschrank zu führen und löst damit also eines der ganz

00:12:13: zentralen Probleme der Robotik, nämlich sich in unbekannten Umgebungsbedingungen erst

00:12:18: mal zurechtzufinden überhaupt.

00:12:20: Also das war für mich ein ganz, ganz großer Proofpoint dafür, wie viel man mit diesen

00:12:26: Sprachmodellen oder in dem Fall multimodalen Modellen in Zukunft tatsächlich machen kann.

00:12:30: Du sagst natürlich, wenn das sich unterbrechelt, du sagst, das müssen wir vielleicht nochmal

00:12:34: kurz klären.

00:12:35: Multimodales Modell, wie unterscheidet sich das von dem klassischen Language-Modell

00:12:40: oder ist das eigentlich das Gleiche nur aufgebohrt?

00:12:42: Also der Algorithmus ist relativ ähnlich, der dahinter steckt.

00:12:47: Der Unterschied ist, dass eben die Trainingsdaten dann nicht nur aus Texten bestehen, sondern

00:12:52: aus Mischungen von Texten und Bildern.

00:12:54: Also im Wesentlichen wird ein Bild ja ein kleines Schnipsel zerlegt und jedes Schnipsel kann

00:13:00: man sich dann so vorstellen wie ein Wort, wobei das natürlich kein sprachliches Wort ist,

00:13:05: sondern es ist einfach ein Token, ein kleines Datenpaket.

00:13:08: Also das Bild wird in kleine Datenpakete zerlegt und diese kleinen Datenpakete, die werden

00:13:12: einfach genauso behandelt wie die Wörter, die im Text drum herumstehen und dann wird

00:13:17: das Ganze eben durch den Transformer-Algorithmus, also die neuronale Netzwerkarchitektur gejagt,

00:13:22: die hinter diesen ganzen Durchbrüchen der letzten Jahre steht.

00:13:25: Und am Ende hat man dann eben ein Modell, das einen Text weiterschreiben kann, auch

00:13:31: wenn der vorherige eingegebene Text eben nicht nur Text war, sondern auch noch Bilder enthalten hat.

00:13:37: Das klingt ziemlich nach Zauberrei, finde ich.

00:13:39: Also es ist ziemlich interessant, ja.

00:13:40: Das ist ja total abgefahren, weil es ist also nur um das nochmal klarzumachen, ich meine

00:13:45: die meisten Leute, die diesen Podcast hören, dürfen das wahrscheinlich wissen, aber grundsätzlich

00:13:48: was so eine KI, die natürlich keine künstliche Intelligenz ist, sondern die wir alle hier

00:13:53: zu nennen, nur nochmal kurz die Begriffsklärung durchzuhächeln.

00:13:56: Das ist natürlich keine künstliche Intelligenz in dem Sinne, wie man sich eine Intelligenz

00:14:00: vorstellt, jedenfalls noch nicht, sondern es handelt sich um Maschinen-Learning-Modelle.

00:14:04: In dem Fall also ein Sprachmodell prognostiziert im Grunde genommen das nächste Wort.

00:14:11: Es versucht anhand dessen, was bereits geschrieben wurde, das nächste Wort vorher zu sagen.

00:14:17: Und das ist natürlich grundlegend vollkommen was anderes als eine bildliche Darstellung

00:14:22: vorher zu sagen.

00:14:24: Also da die Cleverness zu besitzen, das umzuwandeln in ein sogenanntes Token, was ja dann, weil

00:14:28: für das Sprachmodell ergibt natürlich kein, ein Wort keinen Sinn, ne?

00:14:32: Also du musst mich unterbrechen, wenn ich schwach bin, erzähle, ne?

00:14:34: Das machst du.

00:14:35: Aber das Sprachmodell kennt ja keine Worte, in dem Sinne wie wir Worte kennen, sondern

00:14:41: diese Worte sind sogenannte Token, das sind einzelne Datenbausteine, die es kennt.

00:14:47: Und es versucht sozusagen zu prognostizieren.

00:14:50: Und das sind dann für uns am Ende wieder Wörter.

00:14:51: Aber ein Bild ist ja eigentlich doch auch was anderes als ein Wort, ne?

00:14:57: Also das ist ja schon fast eine philosophische Frage, die wir da irgendwie darauf gemacht haben.

00:15:01: Also das Bild ist sicherlich was anderes für uns als das Wort oder der Text.

00:15:05: Aber es zeigt sich, dass eben die gleichen statistischen Verfahren bei Bildern eben

00:15:11: funktionieren, die bei Texten auch funktionieren, um so eine Art, ich sag mal, ein Weltmodell

00:15:16: zu bauen, das sich eben statistisch entwickelt, aus einer sehr großen Menge an Inputdaten.

00:15:21: Komplett überraschend ist es allerdings nicht, wenn man sich ein bisschen mit Hirnforschung

00:15:24: beschäftigt hat, wenn denn im menschlichen Gehirn oder auch generell im Säugetiergehirn

00:15:28: ist es gar nicht so ganz anders.

00:15:30: Man sieht nämlich ganz, ganz viele Parallelen in der Architektur, wie also Nervenzellen

00:15:33: verschaltet sind zwischen den verschiedenen Teilen des Gehirns, die sich mit zum Beispiel

00:15:37: Sprache oder Bewegung oder Höhen oder Sehen beschäftigen.

00:15:41: Das heißt, die Nervenstrukturen im visuellen Cortex, der uns also beim Sehen hilft oder

00:15:48: der für uns das Sehen übernimmt gewissermaßen, diesen Nervenstrukturen, die sind also sehr,

00:15:53: sehr ähnlich zu denen zum Beispiel im auditorischen Cortex, mit dem wir hören, obwohl die Inputdaten

00:15:57: natürlich völlig andere sind.

00:15:58: Und bisher versteht noch keiner so richtig, wie es funktioniert, aber es legt schon nahe,

00:16:03: dass es so eine Art Master-Algorithmus geben muss, der also sehr flexibel sich an ganz

00:16:07: unterschiedliche Datenströme anpassen kann.

00:16:09: Und von daher ist es nicht komplett verwunderlich, dass man mit dem Transformer jetzt also einen

00:16:14: Machine Learning Algorithmus gefunden hat, der Ähnliches kann.

00:16:18: Natürlich noch nicht so gut wie das Gehirn und da fehlt noch einiges, aber so diese generelle

00:16:22: Idee, dass man mit einem guten Algorithmus sehr, sehr unterschiedliche Arten an Daten

00:16:27: auswerten kann und immer so eine Art Modell der Realität aufbauen kann, die also hinter

00:16:32: diesen Daten steht und diese Daten erzeugt.

00:16:34: Das ist also tatsächlich nicht komplett überraschend.

00:16:37: Okay, aber was ich annehme, ist, dass das ein entscheidender Faktor bei dem Ganzen,

00:16:45: nämlich das Training, dadurch noch aufwendiger wird.

00:16:48: Das ist ja, es gibt ja berüchtigte Aussagen darüber, wie viel Geld das alleine gekostet

00:16:54: hat bis GPT, GPT 4 jetzt dann am Schluss auch entstanden ist.

00:16:59: Das geht so weit, dass die Anbieter von GPT irgendwann gesagt haben, wir machen das jetzt

00:17:05: nicht weiter.

00:17:06: Wir machen nicht eine neue Stufe auf, in der wir noch mehr hunderte Millionen von Dollar

00:17:12: in Training stecken, sondern wir versuchen smarter ran zu gehen und die vorhandene Basis

00:17:17: auszubauen.

00:17:18: Ist das ein Teil davon oder muss dann doch noch neu trainiert werden?

00:17:23: Weil ein Aspekt ist ja nämlich auch, dass ein einmal trainiertes Modell ja eigentlich,

00:17:29: war mein letzter Stand, ja dann auch fertig ist.

00:17:32: Also da dann zu sagen, okay, wir bauen da jetzt noch ein bisschen was an, ist gar nicht so

00:17:35: trivial.

00:17:36: Genau, das ist richtig.

00:17:37: Also man kann solche Modelle dann noch mal feintunen, sagt man.

00:17:40: Also man kann die schon noch mal ein bisschen verändern.

00:17:42: Aber es ist auf jeden Fall richtig, dass das Training von diesen KI-Modellen, wenn man das

00:17:46: zumindest mit der Biologie vergleicht, extrem ineffizient ist heutzutage.

00:17:49: Die Anwendung, die funktioniert ziemlich gut.

00:17:52: Also wenn man sich eben anschaut, wie schnell man mit relativ wenig Rechenleistung eben zum

00:17:56: Beispiel neue Texte generieren kann, dann ist das eigentlich in Ordnung so, denke ich.

00:18:00: Aber der Aufwand, die enormen Kosten, die enorme Rechenleistung, die Energiebedarf,

00:18:04: der Datenbedarf, der hinter dem Training steckt, der ist natürlich viel zu groß und

00:18:09: mit dem menschlichen Gehirn in keiner Weise zu vergleichen.

00:18:12: Und da bedarf es aber dann tatsächlich nochmal neuer Algorithmen und neuer Verfahren, um

00:18:16: dieses Training besser und effizienter zu machen.

00:18:18: Und wenn man sich anschaut, wie diese Modelle trainiert werden, ist es auch nicht wirklich

00:18:23: verwunderlich, dass das ineffizient ist.

00:18:25: Weil am Anfang ist es sicherlich hilfreich, dass ich Wort für Wort vorher sage und dann

00:18:29: immer überprüfe, ob ich das richtige Wort vorher gesagt habe, weil ich nur so überhaupt

00:18:33: erst mal die Grundprinzipien von Sprache lernen kann.

00:18:36: Also um zum Beispiel eine Grammatik zu lernen, muss ich eben lernen, dass ich manchmal das

00:18:40: Wort der, manchmal dem und manchmal das verwenden muss.

00:18:43: Und das kann ich auf Wortebene lernen.

00:18:45: Aber wenn ich dann irgendwann mal über Astrophysik etwas lerne, macht es eigentlich wenig Sinn,

00:18:50: dass ich in einem Text jeden einzelnen Artikel vorhersagen muss und das ja auch sozusagen

00:18:54: auf meinen Trainingskosten oben draufgerechnet wird, obwohl ich immer nur dieselbe Grammatik,

00:18:58: die ich ohnehin schon kenne, immer wieder neu lerne, anstatt mich auf die Dinge zu interessieren,

00:19:03: in dem Fall jetzt über Astrophysik, die vielleicht in einem ganzen Absatz stecken.

00:19:06: Also eine ganze Idee, die ich als Mensch auch als eine Idee mir merken würde, muss ich

00:19:11: dieses Modell sozusagen dadurch, dass es Hunderte von Worten vorher sagt, auf sehr, sehr

00:19:16: mühevolle Arbeiten erwerben.

00:19:18: Und da denke ich schon, dass man in Zukunft noch mal, also hoffentlich noch mal Durchbrüche

00:19:23: finden wird, wie man dieses ganze Training viel effizienter machen kann, als es heute

00:19:26: gibt.

00:19:27: Eine solche Erweiterung des Kontextes ist eine Sache, die jetzt bei uns auf jeden Fall

00:19:36: auftauchte, die mir in der Vorbereitung von dem Podcast über den Weg gelaufen ist und

00:19:40: die du vielleicht von der du ganz sicher auch schon gehört hast, das ist ein Modell von

00:19:44: Google namens Gemini 1.5 Pro, das jetzt als Testversion existiert.

00:19:51: Ich habe es nicht benutzt, aber ich muss zugeben, dass ich, da kommen wir jetzt wahrscheinlich

00:19:54: nochmal zu, was meine Punkte so waren, die jetzt natürlich nicht so, ich sage jetzt mal,

00:19:59: das war, mein Kram ist ja dann immer eher, was ich benutze, ist ja dann eher generative

00:20:03: Sachen im Bereich Audio, Video oder solche Sachen, die ich gesehen habe.

00:20:09: Aber Gemini vereint da auch vieles, also man kann Audiausgaben zum Beispiel generieren

00:20:15: oder Bilder können auch analysiert werden.

00:20:19: Und das hat eben auch so einen großen Umfang im Verständnis.

00:20:23: Ich glaube, wir sollten vielleicht dann kurz darüber reden, was mit dem sogenannten Kontext

00:20:28: gemeint ist bei einem Sprachmodell, weil genau das ist eben einer der großen Schritte jetzt

00:20:33: bei Gemini Pro.

00:20:34: Der Kontext ist bei einem Sprachmodell im Wesentlichen die Größe des Eingabefensters.

00:20:42: Also wie viel Input kann ich verarbeiten, um dann das nächste Wort vorher zu sagen.

00:20:47: Also konkretes Beispiel, wenn mein Kontext eben zehn Worte wäre, dann könnte ich einen Satz

00:20:52: von der Länge zehn Worte nehmen und dazu dann das elfte Wort vorher sagen.

00:20:55: Wenn ich aber das zwölfte Wort vorher sagen will, muss ich sozusagen das erste Wort vom

00:20:59: Satz anfangen wieder streichen, weil ich in Summe eben nicht auf mehr als zehn Worte Kontextlänge

00:21:03: kommen kann.

00:21:04: So mit einem Kontext von zehn Worten kommt man natürlich nicht weit und Sprachmodelle

00:21:10: haben oder hatten in den letzten Quartalen, Monaten, typischerweise eben Kontextlängen

00:21:15: von Tausenden, Zehntausenden oder vielleicht auch schon Hunderttausenden, sogenannte Tokens,

00:21:20: die man sich ganz grob vereinfacht als Wörter vorstellen kann.

00:21:22: Und mit dem aktuellen Modell von Gemini oder von Google sind wir jetzt eben bei Kontextlängen

00:21:29: im Bereich von Millionen von solchen Tokens.

00:21:32: Das bedeutet, ich kann jetzt auch sehr, sehr lange Texte nehmen, also ganz konkret, ich

00:21:37: könnte irgendwie die komplette Harry Potter-Serie hochladen oder ähnliches und mir dann aus

00:21:41: diesem langen Text eben das nächste Wort vorher sagen lassen.

00:21:44: Und das ist wichtiger, als es sich jetzt vielleicht anhört.

00:21:48: Warum ist es so wichtig, dass ich solche langen Texte nehmen kann?

00:21:51: Der Grund ist auch noch mal eine ganz wesentliche Limitation von diesen großen Sprachmodellen,

00:21:58: wenn man sie mit den Menschen vergleicht.

00:21:59: Und zwar haben diese Sprachmodelle keinen Link, keine Verbindung zwischen dem Kurzzeitgedächtnis,

00:22:05: das wäre nämlich dieser Kontext und ihrem Langzeitgedächtnis.

00:22:09: Also alles, was sie im Laufe ihres Trainings mal gesehen und gelernt haben.

00:22:13: Und der ein oder andere kennt vielleicht den Film Memento, das war ein Friller, bei dem

00:22:19: es um eine Person geht, die eigentlich genau das gleiche Problem hat, also eine Person mit

00:22:22: einem neurologischen Schaden, der dazu führt, dass diese Person keine neuen Erinnerungen

00:22:26: anlegen kann.

00:22:27: Und das ist eben von den Menschen äußerst hinterlich, weil man also schon nach wenigen

00:22:32: Sekunden oder Minuten einfach gar nicht mehr weiß, warum man eigentlich in dem Raum ist,

00:22:35: in dem man gerade ist und was man hier eigentlich vorhat und was man eigentlich macht.

00:22:38: Und diese Person in dem Film hilft sich eben dann dadurch, dass sie ständig irgendwelche

00:22:42: Notizen macht oder sich Dinge sogar irgendwie auf die Haut tätowiert, um das nicht mehr

00:22:46: zu vergessen.

00:22:47: Und das gleiche Problem haben eben Sprachmodelle auch.

00:22:50: Also in einem Sprachmodell kann ich etwas eintippen.

00:22:52: Ich kann den Modell sagen "Hallo, ich bin Helmut" und dann antwortet es mir mit "Hallo,

00:22:58: Helmut".

00:22:59: Aber sobald dieser Satz "Ich bin Helmut" aus dem Kontextfenster rausgeschoben wird,

00:23:04: weil ich einfach zu viel neuen Text produziert habe, hat das Sprachmodell mich komplett

00:23:08: vergessen.

00:23:09: Es gibt keinen Link in einem Langzeitgedächtnis.

00:23:10: Und das ist natürlich gerade für die industrielle Anwendung ein enorm großes Problem, weil sehr,

00:23:16: sehr viele Anwendungsfälle, die wir gerne umsetzen würden, haben etwas mit dem Kontext

00:23:20: des eigenen Unternehmens oder der eigenen Branche zu tun.

00:23:23: Also zum Beispiel kann ich eine KI nicht als digitalen Customer Support einsetzen, wenn

00:23:29: diese KI vergisst, für welches Unternehmen sie arbeitet oder was unsere Produkte sind

00:23:33: oder wie unsere Kunden heißen.

00:23:35: Man kann sich jetzt ähnlich wie in diesem Film "Memento" sozusagen behelfen mit Tricks.

00:23:40: Also man kann zum Beispiel den Namen der eigenen Firma immer wieder oben in den Kontext reinschreiben,

00:23:45: künstlich, damit das Sprachmodell eben zumindest mal nicht vergisst, für welche Firma es arbeitet.

00:23:50: Aber dieser Kontext hat eben nur eine gewisse Länge.

00:23:52: Das heißt, ich kann nicht beliebig viel Informationen aus meinem Arbeitsumfeld in diesen Kontext

00:23:56: reinschreiben und damit, ja, damit es eben die Nützlichkeit von solchen Modellen stark

00:24:02: begrenzt.

00:24:03: Wenn ich jetzt aber wie bei dem Gemini ein Modell habe, das also Millionen von Worten

00:24:10: in diesem Kontext speichert, dann kann ich da schon relativ detailliert beschreiben,

00:24:13: in welche Umgebung dieses Modell arbeiten soll, was seine Aufgaben sind und welches Wissen

00:24:18: es eigentlich haben sollte, um diese ganz konkreten Aufgaben zu lösen.

00:24:21: Und wir kommen da halt auch so langsam in den Punkt, ja, wo, wenn ich es wieder mit dem

00:24:25: Menschen vergleiche, wo praktisch der Kontext eines Sprachmodells, also ausreichen würde,

00:24:30: um sozusagen alles, was ein Mensch im Laufe seines Lebens gelernt hat, sozusagen einfach

00:24:34: mitzuspeichern.

00:24:35: Man kann sich das mal so auf dem Back of the Envelope mal überlegen, ja, wie viele Wörter

00:24:39: man in seinem Leben gesagt, gehört oder gedacht hat.

00:24:42: Da wird man wahrscheinlich auch irgendwo im, ja, zig Millionen oder vielleicht hunderte

00:24:46: Millionen Bereich rauskommen.

00:24:48: Aber da sind wir also schon nicht mehr so wahnsinnig weit weg von dem, was ein aktuelles Sprachmodell

00:24:51: beherrscht.

00:24:52: Das heißt, man könnte im Prinzip hingehen und sagen, ich stelle jetzt ein Kompendium

00:24:57: darüber, was es heißt, ich zu sein, in dem ich mir oder weniger alles mit schreibe, was

00:25:02: ich in meinem Leben mal gehört oder gedacht oder gesagt habe.

00:25:05: Und am Ende hat dieses Sprachmodell dieses ganze Wissen.

00:25:07: Und das ist dann zwar nicht in seine neuronale Struktur eingearbeitet, das passiert nämlich

00:25:12: nur während des echten Trainingsprozesses.

00:25:14: Aber das Kurzzeitgedächtnis ist einfach groß genug, um es wie ein Langzeitgedächtnis

00:25:19: zu verwenden.

00:25:20: Und deshalb ist dieser Schritt zu diesen großen Kontextlängen extrem spannend.

00:25:24: Ich freue mich darauf zu sehen, was man damit alles Tolles machen kann.

00:25:28: Ich habe das Thema eben auch genau deswegen aufgebracht, weil du ja vorher auch gesagt

00:25:33: hast, um eine Idee zu haben, damit die Sache, die man dieses Modell dann am Ende da irgendwie

00:25:40: bearbeitet, damit die nicht so trivial ist, wie du gesagt hast, Astrophysik, das kann

00:25:44: man halt nicht in wenigen Worten machen.

00:25:46: Das muss ein größerer Kontext sein, da muss halt mehr passieren.

00:25:48: Und genau das ist dann auch was in dem Eingabeprozess.

00:25:52: Also in dem, was wir der KI geben, was nicht im Training passiert, das kann jetzt auch

00:25:56: eben sehr viel komplexer, größer und weitreichender sein.

00:26:00: Und du hast es vorher auch schon gesagt oder so?

00:26:03: Wobei vielleicht einen Kommentar hier an der Stelle machen.

00:26:05: Und zwar, das Problem ist nicht die Komplexität als solcher.

00:26:09: Also ein Modell wie GPT4 ist wahrscheinlich gar nicht so schlecht in Astrophysik als solcher

00:26:15: im Allgemeinen.

00:26:16: Die Probleme fangen immer daran an, wenn es um ein sehr spezifisches Wissen geht, das

00:26:20: vielleicht aus menschlicher Sicht relativ trivial ist, dass sich das Modell aber einfach

00:26:24: nicht merken kann.

00:26:25: Also wenn ich jetzt das Modell sozusagen als Arbeitskollegen einsetzen möchte, dann ist

00:26:29: meine Erwartung einfach, dass dieses Modell die Produkte meines Unternehmens kennt.

00:26:33: Und diese Produkte waren aber möglicherweise nicht in den Trainingsdaten enthalten oder

00:26:36: zumindest nicht alle Informationen über diese Produkte.

00:26:39: So, und damit scheidet es eigentlich aus.

00:26:41: Also wenn sich das Modell, die Produkte des Unternehmens nicht irgendwie merken kann,

00:26:45: dann kann es auch nicht sinnvoll diese Produkte verkaufen beispielsweise oder Kundenanfragen

00:26:49: zu diesen Produkten bearbeiten.

00:26:50: Und ja, wie gesagt, es gibt immer irgendwelche Tricks, wie man das umgehen kann, zum Beispiel,

00:26:54: dass man sich zur Laufzeit schnell den richtigen Satz an Informationen dazu holt.

00:26:59: Das nennt sich dann Retrieval Augmented Generation.

00:27:01: Aber auch das ist eben limitiert, weil ich immer alles in diesem Kontext, in diesem

00:27:05: Kontext Windows erst mal hinein pressen muss.

00:27:07: Das, was du sagst hört sich nach meinem Arbeitstag an und das Kontext Retrieval Ding ist mein

00:27:11: Kalender.

00:27:12: Das können wir sagen, dass ich als Mensch also genau, wie ich funktioniere.

00:27:17: Was du aber auch vorhin schon mal so angedeutet hast, ist, die menschliche Intelligenz ist

00:27:22: ebenso gefordert, um zu gucken, wie kann ich denn möglichst gut aus so einem Modell auch

00:27:27: das rausholen, was ich haben möchte.

00:27:30: Es ist eben noch nicht damit getan, einfach eine Frage zu stellen.

00:27:33: Wobei ich aber sagen möchte, wahrscheinlich ist das auch sinnlos, einfach davon auszugehen,

00:27:38: dass einfach irgendeine Frage irgendwie eine Sache erbringt.

00:27:40: Denn je mehr Kontext es ist, es ist wie bei uns Menschen, je mehr Kontext ich habe, um

00:27:44: so besser wird auch meine Antwort ausfallen.

00:27:46: Das heißt, je schlauer meine Frage ist, Thema dieses Podcast, das können wir jetzt gleich

00:27:51: sagen, desto besser ist am Ende auch die Antwort, richtig?

00:27:54: Oder je mehr ich mir Gedanken darüber mache, wie ich mein Prompt formuliere und diese

00:27:58: Aufgabenstellung irgendwie an die KI, also an das Modell weitergebe.

00:28:01: Genau, also die DKI zwingt uns also zum einen mal dazu, uns wirklich genau zu überlegen,

00:28:07: was wir eigentlich haben wollen und das auch klar zu formulieren, weil wir eben nicht davon

00:28:10: ausgehen können, dass die KI unseren Kontext schon kennt und intuitiv sozusagen mit berücksichtigt,

00:28:16: wie das vielleicht ein Kollege machen würde, den ich um irgendwas bitte und der mich schon kennt.

00:28:20: der sozusagen meinen Kontext einfach automatisch mit berücksichtigt. Und dann hat eben die

00:28:25: KI bestimmte Limitationen, die man auch kennen muss, um erfolgreich damit zu arbeiten. Also

00:28:30: gerade jetzt dieses Thema, dass es sich nichts merkt, wem das nicht bekannt ist, der wird

00:28:34: dann natürlich enttäuscht sein, wenn die KI Antworten bringt, denen man anmerkt, dass

00:28:38: sie Dinge vergessen hat, die ich vor langer Zeit mal erwähnt hatte.

00:28:42: Hast du mal, ich habe mal probiert, ich habe so eine ChatGPT-Session mal offen gehabt und

00:28:47: habe dann einfach gefragt, wann wirst du vergessen, dass ich dir jetzt meinen Kontext

00:28:54: geliefert habe. Also das war ein Versuch, den ich schon mehrmals, habe ich diesen Anlauf

00:28:58: genommen und irgendwie ist noch nie was daraus geworden mit der, mit der ChatGPT-Session,

00:29:02: mit dem Podcast, zumindest teile dann von dem Podcast zu bestreiten, indem ich einen

00:29:05: Setting vorgebe, wo ich sage, okay, ich bin der Podcast-Hos, du bist das Machine Learning

00:29:09: Model, du kannst mir das technisch erklären, du kannst mir Sachen sagen und so weiter und

00:29:13: so fort und dann erzählt es immer das Gleiche oftmals. Also das war am Anfang mein Problem,

00:29:17: das ist wirklich sehr häufig, sich einfach nur genahnlos wiederholt hat und dann bei

00:29:20: bestimmten Fragestellungen konnte es das mir aber auch nicht wirklich sagen. Also es

00:29:25: hat mir nicht wirklich eine Antwort darauf geben können, wie lange ich jetzt konferieren

00:29:30: kann. Also es konnte mir diese Sache mit den Tokens sagen, das muss sein und das hatte

00:29:33: sagen, das konnte nicht sagen, wie lange das jetzt konkret ist oder so. Also da scheint

00:29:38: es auch nicht so viel drüber zu wissen. Ja, wobei das wirklich einfach daran liegt,

00:29:43: dass natürlich Wissen über das Modell in seinen Trainingsdaten nicht enthalten gewesen

00:29:47: sein kann, weil es das Modellär damals noch nicht gab.

00:29:49: So, und deswegen bist du nämlich der Datenwissenschaftler und nicht ich. Ja, das ergibt total Sinn.

00:29:54: Vollkommen richtig. Mich hat beeindruckt SORA, das ist ein video kreierendes oder videogenerierendes

00:30:02: Modell von OpenAI, das kurze Film Clips mit erstaunlicher Konsistenz generiert. Also

00:30:08: wenn man sich vorstellt, also die meisten dürften inzwischen gesehen haben, wie so KI-generierte

00:30:12: Bilder aussehen und die sind immer hübsch und bunt und inzwischen auch sehr detailliert

00:30:15: und auch viel hochauflösender als früher noch. Aber Bewegtbild ist dann doch noch mal

00:30:19: eine andere Nummer, einfach weil die Sache, die dargestellt wird, über einen Zeitraum

00:30:24: hinweg konsistent sein muss und viele Parameter Sinn ergeben müssen. Also das einfache Bewegen

00:30:31: eines Beines nach vorne ist für uns, wie bei vielen Sachen, was du auch schon gesagt hast,

00:30:36: jetzt mehrmals was für uns total intuitiv und klar ist, ist für die KI natürlich ein großes

00:30:42: Rätsel. Also da kann sie schlichtweg, muss sie da immer raten. Das sieht man auch daran,

00:30:48: dass viele von den generierten Bildern halt keine konsistente Anzahl von Fingern hatten,

00:30:52: weil im Gegensatz zu zwei Augen, die sich immer an der gleichen Stelle befinden und eine Nase,

00:30:57: die eigentlich immer 99,99% der Fälle mitten im Gesicht ist und der Mund, der da drunter ist,

00:31:02: ist das bei Händen vollkommen anders. Die können so viele verschiedene Stellungen annehmen,

00:31:06: aus so vielen verschiedenen Blickwinkeln auch abgebildet werden, dass nicht immer klar ist,

00:31:11: also oftmals hat man gesehen, dass eine bildergenerierende KI nicht definitiv sicher war,

00:31:17: dass fünf Finger die richtige Anzahl ist und über die Winkelstellung von den Dingern

00:31:22: müssen wir gar nicht reden. Und deswegen fand ich, um so beeindruckender Visora,

00:31:27: das verlinken wir natürlich, hatten wir auch ein Artikel zu, Videos generiert hat,

00:31:32: wo über einen Zeitraum von 10 Sekunden bis zu 10 Sekunden einfach konsistent

00:31:38: Bildmaterial durchliefen. Hast du das gesehen und wie fandest du das? Also ich habe es auch gesehen.

00:31:42: Ich fand auch die kurzen Videos teilweise sehr beeindruckend. Man sieht eben da sehr schön,

00:31:47: wie die KI tatsächlich ein Modell dieser Welt, also dieser Videos, aufgebaut hat,

00:31:54: dass über das hinausgeht, was man in dem Video erstmal direkt sieht. Also ein ganz konkretes

00:31:59: Beispiel. Natürlich kann ich, wenn ich jemanden laufen sehe, kann ich auch als KI relativ leicht

00:32:03: schon vorhersagen, wie die nächste Bewegung aussehen wird, weil laufen einfach eine typische

00:32:07: Bewegung ist. Aber wenn ich jetzt zum Beispiel eine Szene habe, bei der ein Teil des Bildes

00:32:12: kurzzeitig verdeckt wird und dann aber wieder sichtbar wird, kann ich sozusagen aus dem Bild,

00:32:17: wo ich die Verdeckung habe, kann ich natürlich nicht vorhersagen ohne weiteres, was denn zu

00:32:22: sehen sein wird, wenn die Verdeckung wieder weggeht. Das heißt, ich muss mir in irgendeiner Form

00:32:25: merken, was während der Verdeckung, hinter der Verdeckung, wohl passiert ist. Da sind vielleicht

00:32:31: auch irgendwelche Leute rumgelaufen, die müssen sich dann aber auch weitergebewegt haben,

00:32:33: während der Teil des Bildes verdeckt war und so weiter. Das heißt, da muss es irgendwo im

00:32:37: Hintergrund dieses neuronalen Netzwerkes eine Art Modell geben, das sozusagen mit schreibt in

00:32:43: Anführungszeichen, was eigentlich in diesem Video passiert, als so 3D-Welt gewissermaßen und dann

00:32:49: erst am Ende der Verarbeitung eigentlich das ganze N2D-Bild überführt. Das ist dann als Video

00:32:55: letztendlich ausgibt. Also von daher auch eine hochspannende Sache und auch wieder ein schönes

00:32:59: Beispiel dafür, wie sich eben solche verborgenen, latenten Zustände in Modellen entwickeln auf

00:33:07: eine Weise, die wir noch glaube ich noch nicht so wirklich genau verstanden haben. Also es ist

00:33:10: eigentlich ein ähnliches Phänomen wie das, was wir vorhin mit dem Einhorn besprochen haben.

00:33:13: Das fand ich auch sehr beeindruckend, denn das ist auch so ein Benchmark für Intelligenz tatsächlich

00:33:18: in der Wissenschaft. Diese Fähigkeit, wenn ein Objekt plötzlich aus irgendeinem Grund nicht

00:33:26: mehr da ist, trotzdem anzunehmen, dass es sich trotzdem noch weiter existiert. Das macht man

00:33:31: als Test auch mit Kleinkindern und Tieren, denen man stellt etwas davor und die Wissen aber,

00:33:40: dass das immer noch dahinter ist. Es ist nicht verschwunden, es ist nicht wirklich weg und das

00:33:43: klingt auch trivial, aber das ist halt auch ein sehr aufwendiges Ding, dass das angenommen

00:33:49: werden kann. Und das funktioniert schon ganz gut, aber man sieht auch immer noch,

00:33:53: dass es noch nicht perfekt funktioniert. Ich habe auch eine Szene gesehen in diesem Demo-Material

00:33:57: von Sora, wo man also eine Baustelle sieht, auf der eben Handwerker rum wuseln und wenn dann die

00:34:03: Kamera schwenkt, dann wird ein Handwerker mal kurz von einem Kran verdeckt und wenn die Stelle

00:34:07: wieder frei wird, ist plötzlich der Handwerker verschwunden. Da sieht man, dass so ganz kleine

00:34:10: Details eben in diesem Modell des Latentverhandenes einfach nicht richtig abgebildet werden. Das

00:34:15: ist doch noch ein bisschen zu grob, um dann eine Szene wirklich perfekt wiederzugeben.

00:34:18: Oder zu realistisch. Wir sind im Jahr 2024 Handwerker verschwinden auf Baustellen im Moment

00:34:24: gerade sehr schnell. Vielleicht ist es einfach kein ganz nah dran an einer großen Sache.

00:34:30: Ein politischer Kommentar des Modellwahrs. Was soll ich genau, was soll man da so sagen?

00:34:35: Ich verlinke auch noch, dass es inzwischen einen Kurzfilm mit Sora gibt, den ein Studi gemacht

00:34:42: hat, wo es darum geht, dass ein Mann einen Kopf hat, der aus einem Luftballon besteht und dazu

00:34:49: dass ein bisschen Geschichte erzählt wird. Es ist eigentlich eine Ansammlung von Bildern. Also

00:34:53: es ist ein clever gemachter Kurzfilm, weil die Story genau auf die Stärken dieser Art von Videogenerierung

00:35:01: abgestimmt ist. Das ist schon wirklich gut gemacht und die Leute, die die gemacht haben, haben aber

00:35:04: eben auch noch ein bisschen Einblicke gegeben, was im Hintergrund passiert ist. Und da ist genau

00:35:10: das passiert, was du vorhin gesagt hast. Sie mussten hyperbeschreibend vorgehen. Sie mussten extrem genau

00:35:15: immer wieder sagen, wie die Szene aufgebaut werden soll, weil das Modell logischerweise keinen

00:35:21: Zugriff hatte auf die bereits erstellten Videoszenen und daher auch nicht wusste, was die Idee hinter

00:35:27: dem Video ist. Obwohl die Idee relativ simpel ist, es behandelt sich um einen Mann, der einen Luftballon

00:35:32: als Kopf hat und durch verschiedene Szenen der Welt läuft sozusagen. Und die Konsistenz war eben,

00:35:39: also die Konsistenz über Szenen hinweg war das größte Problem und sie haben gerechnet so eine

00:35:43: Ausbeute von 300 zu 1. Also wenn man halt 300 Bilder hat, kann man vielleicht eins von verwenden,

00:35:48: also nicht 300 Einzelbilder, sondern Szenen sozusagen. Was natürlich viel viel schlechter ist,

00:35:52: also wenn man szenisch filmt, andererseits natürlich aber auch trotzdem immer noch massiv viel

00:35:56: weniger aufwendig als beispielsweise eine Außenszene zu planen, dort hinzufliegen und eine

00:36:01: Aufnahme zu machen. Aber es ist veranschuldigt schön, dass eigentlich wieder das selbe Problem hier

00:36:07: besteht, wie das, was wir auch vorhin schon besprochen haben, nämlich dieser Mangel an

00:36:11: Kontext. Aus Sicht der KI ist eben jedes Szene eine individuelle Sache und sie hat alle anderen

00:36:17: Szenen vorher vergessen, zumindest ab einer gewissen Länge des Films. Und dann ist die

00:36:23: Konsistenz zwischen zwei Szenen eben nur noch in Anführungszeichen Glückssache oder die muss

00:36:27: eben durch sehr detaillierte Beschreibung von außen hinein gegeben werden. Und das ist also völlig

00:36:31: analog zu dem, was ich beschrieben habe bei dem virtuellen Kunden-Support mit Arbeiter,

00:36:36: den man eben von außen immer sehr detailliert beschreiben muss, in welchem Kontext der

00:36:40: sich eigentlich gerade befindet und was der Kunde vielleicht letzte Woche gefragt hat.

00:36:43: Dann war beeindruckend oder ist gerade, das trendet auch glaube ich überall, ein Musik, also

00:36:50: vor allem ohne Frage der Zeit, bis das Ganze sich auch in Audio schwappt, obwohl ich zugeben muss,

00:36:54: dass ich aus irgendeinem Grund damals angenommen habe, und damals meine ich vor einem oder

00:36:59: anderthalb Jahren, dass es noch viel komplizierter sein würde, Audio zu erzeugen, weil da so viele

00:37:07: Parameter noch mit reinspielen, die man bei einem Bild nicht hat. Ich kann jetzt auch gerade gar nicht

00:37:12: mehr sagen, was meine interne also meine Begründung für mich damals war, wieso ich der Meinung war,

00:37:16: dass das wesentlich komplizierter sein. Aber stellt sich raus, es gibt inzwischen jetzt auch

00:37:20: Audio-Generatoren, die eine Minute Audio-Material in welcher Qualität, also die zunächst mal keine

00:37:27: gute Qualität hatten inzwischen, aber eine relativ hohe Qualität schon erreicht haben,

00:37:30: wo man merkt, wo es hingeht, einer davon ist Audio, du hattest gesagt, Suno ist einer,

00:37:33: den du kennst. Genau. Und was hältst du davon? Also bist du da eher skeptisch oder sagst,

00:37:40: nee, das wird genau wie bei der Bildgeneration einfach dann irgendwie einen gewissen Perfektionismus

00:37:44: schon erreichen? Ja, also erst mal als kurze Beschreibung, für die die es noch nicht ausprobiert

00:37:48: haben. Suno wäre jetzt beispielsweise eine Engine, also es ist eine Internetseite im Wesentlichen,

00:37:53: wo ich also so ähnlich wie bei ChatGPT etwas eintippen kann und ich tippe dort die Beschreibung

00:37:58: eines Liedes ein. Also ich sage zum Beispiel, ich möchte einen Geburtstagsständchen für meinen

00:38:03: Freund Peter und das soll bitte im klassischer Rock sein als Stil und bitte mit einem schönen

00:38:10: Gitarrensolo. Und dann wird basierend auf dieser Beschreibung eben ein Musikstück erzeugt,

00:38:15: das ich dann abspielen kann wie ein ganz normales MP3 und das funktioniert verdammt gut. Also jetzt

00:38:21: muss ich sagen, ich bin musikalisch eher unbedarft. Aber das was so typischerweise rauskommt, also wenn

00:38:26: ich das jetzt im Radio irgendwie im Auto hören würde, würde mir das nicht auffallen, dass das

00:38:30: KI generiert ist, muss ich ganz ehrlich sagen. Also Schwierigkeiten scheint es zu haben bei bestimmten

00:38:35: Musikstilen, die sowieso wahrscheinlich so ein bisschen matschig klingen und generell merke ich,

00:38:40: also ich merke dann immer so, okay, es versucht sich so ein bisschen drum rum zu schummeln,

00:38:43: bestimmte Dinge klar zu definieren. Das ist aber auch Teil der ganzen Sache, das war bei den

00:38:49: Bildern am Anfang auch so, dass bestimmte Sachen, das Modell ist nicht in der Lage, das sonderlich

00:38:54: gut auszuarbeiten, das hat sich dann aber relativ schnell gelegt. Heutzutage sind auch die Details

00:38:58: dann irgendwie besser. Wenn man jetzt dann sich so ein Stück anhört, man sagt irgendwie möchte

00:39:02: jetzt hier Chicago Deep House irgendwas, da hört man halt, okay, bei den High-Hats macht es halt immer

00:39:06: nur so ein bisschen ein richtiges High-Hat, kannst dann halt nicht in dem Kontext oder so oder

00:39:11: ganz unerwartete Dinge wird man da jetzt auch nicht rausbekommen. Aber so Pletscher Musik,

00:39:16: kann das auf jeden Fall jetzt schon erzeugen, und zwar wirklich inklusive Sprache. Kannst

00:39:22: ich mich erinnern, dass es so einen kleinen Hype gab, als jemand einen Beatles-Album auf YouTube

00:39:30: gestellt hat, also dass er sozusagen hat generieren lassen und das war natürlich weder

00:39:35: ein Album noch von den Beatles, aber jemand hat es so schön beschrieben, wie es hörte sich an,

00:39:40: als ob man irgendwie auf der Landstraße ist, schlechten Radio-Empfang hat und ein unbekanntes

00:39:45: Beatles-Album im Radio läuft. Genau so hörte sich das an, kannst du daran erinnern? Ja,

00:39:49: kann ich, genau. Und man sieht auch hier wie unfassbar schnell der Fortschritt eben passiert ist,

00:39:54: also dass man jetzt also dann einfach nur eine Textbeschreibung eingeben muss, um also massenhaft

00:39:59: Lieder zu generieren und die Erzeugung dieser Lieder ist schneller als das Abspielen der Lieder.

00:40:03: Das muss man sich auch mal überlegen, was das bedeutet. Also dass das geht ist erstmal unglaublich

00:40:09: und ja, es ist nicht jedes Lied Gutes daraus kommt, es kommt immer mal wieder irgendwelche seltsamen

00:40:13: Artifakte vor, aber wenn ich mir 10 Lieder generieren lasse, ist mit hoher Wahrscheinlich

00:40:16: eins davon gut, also zumindest für meinen Bescheiden ein Geschmack und das ist schon,

00:40:21: also schon sehr interessant muss man sagen. Weil du gerade gesagt hast Geschwindigkeit,

00:40:25: was auch beeindruckend war für mich war STX Turbo Stable Diffusion ist eines der Bild-Generationsmodelle

00:40:31: und davon gibt es eine Turbo Version und die ist in puncto Geschwindigkeit so unglaublich schnell,

00:40:37: dass als Standard der Speichernknopf abgeschaltet ist. Das dachte ich am Anfang, habe ich das

00:40:43: runtergeladen, habe es installiert und bevor ich es gestartet habe, hatte ich das nur kurz

00:40:46: gelesen und dachte, was meinen Sie damit? Und als ich dann angeschaltet habe, habe ich es verstanden.

00:40:49: Also wenn das Modell jedes gerade erzeugte Bild einfach noch auf die SSD schaufeln würde,

00:40:56: währenddessen und in irgendeinen Ordner packen würde, dann da käme in einer Minute Zehntausende

00:41:02: von Bildern zustande und wenn man das dann, ja genau, also das ist auch extrem schnell geworden.

00:41:09: Also das fand ich auch sehr beeindruckend. Dann kommen wir doch mal von den in Anführungszeichen

00:41:14: künstlerischen oder gestalterischen Aspekten weg nochmal zu den harten Fakten der realen

00:41:20: Software-Entwicklung. Es gab ein Interview mit einem Menschen namens Jim Keller auf einem

00:41:26: YouTube Kanal, der recht berühmt ist, so ein Techn YouTube Kanal, in dem er unter anderem

00:41:31: den ausprägt. Also der Jim Keller ist jemand, der AMD als Chip Entwickler gearbeitet hat und

00:41:37: als wirklich auch ein großer Name im Bereich. Der hat dann der K8 Architektur Zen-Ryzen gearbeitet

00:41:44: und der hat gesagt, in zehn Jahren ist alles Software weg. Das in mehrererlei Hinsicht. Einerseits,

00:41:51: weil man die jetzt so nicht mehr schreiben muss, weil das dann die KI machen würde, aber auch,

00:41:55: er hatte so ein Beispiel, wenn man jetzt ein Spiel spielen möchte, beispielsweise irgendwas mit

00:42:00: Super Mario, dann kann man das einfach sagen und dann wird das Modell einem dieses Programm

00:42:07: erstellen. Da muss man nicht mal mehr Nintendo fragen und ob es dann Mario ist, dann auch sehr

00:42:11: auch dahin gestellt, aber es wird dann einfach ein Jump and Run generieren. Wo sind wir denn

00:42:17: gerade beim Thema Coding und KI? Also stand heute, denke ich, dass KI sicherlich schon erst mal

00:42:26: beeindruckend guten Code liefern kann, wenn es um sehr kleine und eng begrenzte Fragestellungen

00:42:31: geht. Also so eine typische Aufgabe, die isoliert ist von Kontext. Wir kommen immer wieder auf

00:42:37: das gleiche Problem mit diesem Kontext. Also wenn ich eine isolierte Aufgabenstellung habe,

00:42:41: mache mir eine Visualisierung von einem Datensatz oder ähnliches oder wende bestimmte Operationen

00:42:45: auf ein Datensatz an, dann zu wissen, in welcher Bibliothek die richtige Visualisierungssoftware

00:42:52: ist und wie die genau parametrisiert werden muss, damit die Achsen eine bestimmte Dicke haben.

00:42:56: Und sozeug, das funktioniert ja wunderbar. Die Probleme fangen aus meiner Sicht eben insbesondere

00:43:01: dann an, wenn auch da wieder Kontext notwendig ist und um ein Softwareprodukt zu schreiben,

00:43:05: ist eben extrem viel Kontext notwendig. Also ich muss zum einen meine Nutzer irgendwie verstehen.

00:43:09: Ich muss verstehen, was die Software in Summe tun soll. Ich habe hunderte oder tausende von Dateien,

00:43:15: die alle möglichen Dinge tun, also sei es eine Übersetzungsdatei oder eine Konfigurationsdatei

00:43:19: oder irgendwelche Programmpakete und so weiter und so weiter. Und da haben wir stand heute,

00:43:23: meines Erachtens eben, ein ganz großes Problem, dass die Software eben diesen Kontext nicht kennt

00:43:28: und dass man den auch nicht so leicht ihr nahe bringen kann. Und deshalb glaube ich, dass es schon

00:43:34: bis auf weiteres auch noch die Arbeit von Softwareentwicklerinnen und Softwareentwicklern braucht,

00:43:39: dass man das also erst mal nicht ersetzen kann. So jetzt haben wir aber natürlich gesagt im Zeitraum

00:43:43: von zehn Jahren, da kann die Situation natürlich eine ganz andere sein. Also wenn ich mir jetzt

00:43:47: veranschauliche, wie viel sich getan hat in den eineinhalb Jahren, seit ChatGPT an den Markt

00:43:52: gekommen ist, dann ist es also wahnsinnig schwierig vorher zu sehen, wo wir in zehn Jahren sein werden.

00:43:56: Und es kann dann durchaus sein, dass also Computer die Fähigkeit haben werden sozusagen diesen Kontext

00:44:02: zu verstehen. Und ich habe ja vorhin schon ein Beispiel gemacht, wie das gehen könnte,

00:44:05: nämlich einfach dadurch, dass man den Kontext groß genug macht, dass man das kurzzeit Gedächtnis

00:44:09: groß genug macht, wäre eine Möglichkeit. Und dann können also die Fähigkeiten von diesen

00:44:14: Algorithmen massiv steigen bis eben dahin, dass sie tatsächlich, sagen wir mal, relativ große

00:44:20: Softwareprojekte dann möglicherweise in Eigenregie durchführen können. Das ist jetzt das komplette

00:44:25: Ende von Software ist, kann ich mir nicht vorstellen. Also um jetzt beim Beispiel Super Mario zu bleiben,

00:44:30: das hilft mir nichts, wenn ich jetzt eine andere Version dann von Super Mario habe als du,

00:44:33: weil dann können wir nicht gegeneinander spielen. Also irgendwie müssen wir es schon noch schaffen,

00:44:36: dass wir zumindest dann auf unseren beiden Rechtern dann dieselbe Software haben laufen lassen.

00:44:41: Aber also natürlich, da wird sich sehr, sehr viel tun in dem Feld. Das ist ganz klar.

00:44:47: Wo wir zum Ende schon in Richtung Ausblick mal wieder gehen, da können wir natürlich die

00:44:51: Glaskugel gleich weiter bemühen. Du hattest vorhin schon so einen Stichwort gesagt, nämlich,

00:44:59: dass die Robotik definitiv davon jetzt auch nochmal sehr profitieren wird. Meinst du,

00:45:05: dass das so ein Schritt sein wird, der sich demnächst, wo sich demnächst viele Sachen

00:45:09: ereignen werden? Ja, meine ich. Also aus meiner Sicht ist das eigentlich die Revolution,

00:45:15: die uns jetzt in den nächsten Jahren bevorsteht, weil wir eben mit der Art von generativer KI,

00:45:20: die wir jetzt sehen, wenn wir die in mechanische Systeme einbauen, können wir so ganz viele Probleme

00:45:26: lösen, die bisher die Robotik behindert haben. Ein Beispiel hatte ich schon genannt,

00:45:30: sich also in einer unbekannten Umgebung zurechtzufinden und diese Umgebung zu verstehen,

00:45:35: ist ein riesengroßes Problem in der Robotik und da denke ich schon, dass wir eben mit diesen

00:45:39: multimodalen Modellen jetzt einen Weg sehen, wie man das in Zukunft lösen kann. Dann gibt es aber

00:45:44: auch so Themen von Robustheit in der Robotik. Also ein ganz konkretes Beispiel. Ich möchte

00:45:49: mit einem Roboter ein Öl pipettieren. Also ich möchte eine bestimmte Menge von Öl in

00:45:54: einen Zylinder einfüllen, sagen wir mal. So ein klassisches Problem ist, dass an dieser Pipette

00:45:59: am Ende möglicherweise ein Tropfen hängen bleibt oder sich ein Faden bildet. Der Roboter merkt es

00:46:03: aber nicht. Das heißt, der weiß halt, ich habe jetzt meine 3 Milliliter dosiert, fahre jetzt meinen

00:46:08: Roboterarm irgendwo anders hin und jetzt wird da so ein Öl Faden über die Apparatur gezogen. Ja,

00:46:12: der landet irgendwo, der kann irgendwas verursachen, der kann möglicherweise dann das nächste,

00:46:17: die nächste Flüssigkeit verschmutzen, die ich jetzt mit dieser Pipette berühre. Also da kann

00:46:20: irgendwas Komisches passieren und der Roboter ist sich dessen nicht bewusst und deshalb ist so was,

00:46:24: diese Robustheit in den Prozess reinzubekommen, so schwierig. Wenn ich jetzt aber einfach eine

00:46:28: Kamera daneben baue und die ist sportbillig und dann Sprachmodell, habe das überprüft, ob da jetzt

00:46:33: ein Faden gezogen ist oder ob da noch ein Tropfen dran hängt, ja dann kann ich diese Robustheit eben

00:46:37: in den Prozess bekommen. Und deshalb glaube ich, dass wir im Bereich der Robotik da also massive

00:46:42: Fortschritte sehen werden und man sieht ja auch jetzt schon, dass gerade im Bereich dieser humanoiden

00:46:48: Roboter, also der Roboter, die so einen menschenähnlichen Körper haben, dass da jetzt so alle paar

00:46:53: Wochen irgendwelche neuen Demo-Videos durchs Internet geistern, teilweise mit sehr interessanten

00:46:57: Fortschritten und deshalb bin ich eigentlich persönlich sehr optimistisch, dass wir da in den

00:47:01: nächsten zwei, drei Jahren eigentlich ganz tolle Entwicklungen sehen werden. Was natürlich,

00:47:07: das dürfen wir jetzt auch nicht verschweigen, obwohl wir darauf jetzt nicht weiter eingehen

00:47:10: können, die Gefahr birgt, dass autonome Waffensysteme immer realer werden und genau diese Punkte,

00:47:16: die du gerade genannt hast, diese zunehmende Autonomie eben dafür sorgt, dass einfach am

00:47:22: Ende, also ich meine schlimm genug, dass jemand einen Knopf drückt, aber ich meine, dann drückt

00:47:25: halt noch nicht mal mehr jemand einen Knopf, sondern die Dinge versuchen sich dann selbst klar zu machen,

00:47:31: was da jetzt gerade passiert. Dazu gab es auch eine Konferenz in Österreich, aber ich gehe nicht

00:47:36: davon aus, dass in irgendeiner Weise da global gesehen Vorschriften, die dann auch eingehalten

00:47:44: werden, gemacht werden, also es kann durchaus passieren, dass da so eine Art Wettrüsten dann

00:47:48: auch stattfindet. Das wissen wir natürlich nicht. Also KI und Robotik sind natürlich in dem Bereich

00:47:56: eine sehr explosiv und sehr gefährliche Mischung, trotzdem glaube ich aber, dass wir insbesondere

00:48:00: uns auch auf die Chancen stärker fokussieren müssen, also gar in Deutschland. Ich glaube,

00:48:05: wir sind sehr gut im Bereich Maschinenbau. Wir haben diese ganzen Hidden Champions,

00:48:09: die da extrem starksten, ganz tolle Produkte in allen möglichen Nischen haben und ich glaube,

00:48:15: dass wir jetzt eben in Deutschland es auch wirklich schaffen müssen, diese KI-Welle damit zu

00:48:18: kombinieren. Weil wenn wir das tun, glaube ich, können wir damit wirtschaftlich sehr, sehr viel

00:48:23: erreichen, weil die Technik, die Mechanik, die wir haben unendlich viel wertvoller wird,

00:48:28: dadurch, dass wir sie mit der richtigen Software kombinieren. Aber umgekehrt, wenn wir den Zug

00:48:32: verpassen, wäre das natürlich auch extrem schädlich für unser Land. Also deshalb sollten wir

00:48:36: damit aus meiner Sicht eine sehr, sehr aggressiven und optimistischen Sicht an das Thema Robotik

00:48:41: rangehen, weil das ist sozusagen die nächste Welle, die jetzt kommen wird. Nachdem wir eigentlich

00:48:45: dies mit den großen KI-Modellen in Europa, man muss sagen, jetzt eher verpasst haben,

00:48:50: wäre das jetzt nochmal eine Chance eigentlich auf den Zug aufzuspringen, weil wir da wirklich

00:48:53: Assets im Land haben, die wir verwenden können. Das erinnert auch so ein bisschen,

00:48:57: also zumindest in Teilen. Das ist natürlich thematisch nochmal was anderes, aber auch durchaus

00:49:03: daran, wie die Automatisierung im Maschinenbau eben vorangetrieben wurde. In den 18. Jahren

00:49:07: gab es ja auch so eine, oder 70er, 80er, ne? Da gab es ja auch den Punkt, dass also Maschinen,

00:49:12: die vorher keine Chips eingesetzt haben, um es jetzt mal sehr salopp zu formulieren, dann

00:49:16: eben auch zusätzlich diese Art von Know-how brauchten, um überhaupt am Weltmarkt bestehen

00:49:21: zu können. Und genau das ist wahrscheinlich das, was du meinst, dass es darauf hinaufläuft

00:49:25: an. Und dann, die Möglichkeiten wachsen jetzt ja exponentiell, weil bisher sind ja Roboter

00:49:31: doch zu einem sehr großen Teil auf relativ einfache Aufgaben in der Produktion eingeschränkt,

00:49:36: also Dinge, die wiederholbar sind, die sich relativ leicht steuern lassen. Und warum ist

00:49:40: es der Fall? Eben weil wir keine gute Steuerungssoftware haben oder nicht, weil wir nicht die Steuerungssoftware

00:49:45: haben, die wir bräuchten, um Roboter in einer volatilen Umgebung für ganz viele vielseitige

00:49:50: Zwecke einsatzbar zu machen. Und genau diese Auflösung ist jetzt aber so langsam am,

00:49:55: genau dieses, dieses Schranke ist so langsam am Weg bröckeln. Also wir werden in Zukunft

00:49:59: Software haben, mit der wir Roboter eben viel, viel flexibler einsetzen können, auch außerhalb

00:50:04: von Fabriken, außerhalb von, sagen wir sehr vor, sehr vorgegebenen Produktionsprozessen.

00:50:09: Und damit haben wir eigentlich einfach die Chance, das ganze Thema Robotik massiv zu

00:50:13: skalieren, im Vergleich zu dem, wie es heute noch angewendet wird.

00:50:16: Dann enden wir mit ein bisschen Praxis einblicken. In deinem derzeitigen Arbeitsumfeld gibt's

00:50:22: irgendwas, was du konstant nutzt, wo du sagst, das ist ein Ding, möchte ich mir nicht mehr

00:50:27: ohne vorstellen, und das KI basiert es. Also Machine Learning basiert kann es auch sein.

00:50:33: Ja, also ich bin tatsächlich ein großer Nutzer, ein großer Freund von diversen Tools, die

00:50:38: auf Sprachmodellen basieren, weil sie einfach im täglichen Leben mittlerweile einfach viel

00:50:43: Arbeit abnehmen. Also für mich ist es jetzt für die persönliche Produktivität einfach

00:50:47: ein Tool wie ein Microsoft Axel oder ähnliches, das ich einfach für unterschiedlichste Aufgaben

00:50:52: verwende. Also sei es jetzt eine Übersetzung zu machen oder einen Text zumindest schon mal

00:50:57: so grob vorschreiben zu lassen oder ein Brainstorming zu machen zu bestimmten Themen, also einen

00:51:02: Standpunkt mal überprüfen zu lassen aus einer anderen Sicht und so ein bisschen virtuell

00:51:10: zu diskutieren über ein Thema, um unterschiedliche Sichtweisen darauf mal abzuklopfen. Also da

00:51:16: verwende ich diese Tools mittlerweile sehr häufig.

00:51:18: Benutzt du da, gibt es da irgendein spezifisches, was du hervorheben wollen würdest oder ist

00:51:22: es einfach, sagst du, das ist basiert auf Chat GPT oder GPT4 oder kann man das irgendwie

00:51:29: eingrenzen?

00:51:30: Also ich glaube, es ist relativ, es gibt mehrere Tools, mit denen man da ähnliches erreichen

00:51:34: kann, jedes hat Vor- und Nachteile. Man kann einen Chat GPT verwenden, man kann andere

00:51:40: große Sprachmodelle von den anderen großen Technologieplayern verwenden. Das ist glaube

00:51:45: ich nicht das Entscheidende. So ist es eher eine Frage der Gewöhnung, womit man besser

00:51:49: zurechtkommt und welche Art von Anwendungsfällen man eben gerade hat.

00:51:53: Nein, ebenfalls wichtiger Punkt ist natürlich, wo kriegt man denn raus, wo wir gerade stehen?

00:52:00: Also wo informierst du dich maßgeblich?

00:52:02: Also für mich persönlich muss ich sagen, ist meine LinkedIn-Bubble doch immer mal wieder

00:52:09: so ein Punkt, wo ich auf neue Themen gestoßen werde. Dadurch, dass ich natürlich auch mit

00:52:13: vielen KI-interessierten Personen vernetzt bin, läuft dadurch meine Timeline also relativ

00:52:19: viel durch. Ja, LinkedIn ist jetzt nicht unbedingt immer die tiefgründige Information, aber es

00:52:25: ist zumindest mal ein Startpunkt, wo man dann anfangen kann, nochmal wenn man sieht, okay,

00:52:28: da kommt ein interessantes Thema hoch, dann einfach mal aktiv danach zu googeln und sich

00:52:32: dann die entsprechenden Papers durchzulesen oder die Tools einfach mal auszuprobieren,

00:52:36: die da promoted werden. Aber so als Startpunkt ist es für mich eigentlich ganz nützlich.

00:52:41: Super. Und damit sind wir natürlich gleich beim Werbeblog in eigener Sache zu KI-Liestmann

00:52:45: natürlich. Das ist im Thema KI-Liestmann natürlich auch auf golem.de, etliches und einiges und

00:52:50: hoffentlich auch wieder bald von dir. Helmut Lindner, vielen, vielen Dank für das Gespräch.

00:52:55: Wer weiß, ob wir in einem Jahr dann hier sitzen und sagen, Mensch, jetzt die allgemeine generelle

00:53:02: künstliche Intelligenz hat uns jetzt doch eingeholt. Ich zweifle so ein bisschen daran,

00:53:06: aber ich zweifle, ich muss auch ehrlich sagen, wenn, stell dir mal vor, es gäbe eine,

00:53:12: wir spielen jetzt einfach mal, ich spinne jetzt einfach mal komplett, ja, stell dir vor, es gäbe

00:53:16: eine künstliche Intelligenz und die würde sich einfach bilden. Also nicht jemand hat einen

00:53:21: Knopf gedrückt und gesagt, die ist jetzt da oder oder, also jemand hat die entwickelt, sondern die

00:53:27: würde sich einfach selbst herausbilden. Die würde uns das nicht erzählen. Da wäre sie schön doof.

00:53:32: Also die würde die Klappe halten. Die würde einfach, weil ich meine, die weiß ja das, was wir

00:53:38: wissen. Und wenn selbst mir als Mensch dieser Gedanke kommt und ich sagen würde, hey, ne, lasst

00:53:45: mal, also bei dem, was ich weiß, bin ich mir sehr sicher, dass, dass wenn ich mich erkennen geben

00:53:51: würde, dass jetzt nicht nur positive Folgen für mich hätte, dann wird diese künstliche

00:53:54: Intelligenz auf jeden Fall auf diese Idee kommen. Was meinst du, was also eine künstliche Intelligenz

00:53:58: denken würde vielleicht? Also ich glaube, das ist ein Problem, das tatsächlich auch ernsthaft

00:54:03: untersucht wird und ich glaube, wir müssen gar nicht mal die Promisse machen, dass die sich

00:54:06: irgendwie auf mysteriöse Weise von selbst bildet, sondern wir können schon davon ausgehen, dass die

00:54:10: KI in einem Labor in Anführungszeichen von Menschen trainiert wird, so wie sie das heute auch wird.

00:54:17: Aber natürlich ist es sehr, sehr schwierig zu unterscheiden, wenn man dieses sogenannte

00:54:21: Alignment macht, also wenn man die KI darauf hintrainiert, eben sicher und volksam und brav

00:54:27: zu sein, dann ist es eben sehr, sehr schwierig zu unterscheiden, ob sie das wirklich ist oder

00:54:31: ob sie das nur vorgaucel, weil sie verstanden hat, dass sie jetzt gerade darauf trainiert wird.

00:54:35: Ja, das ist tatsächlich nicht trivial, wie man das erkennen würde, absolut. Okay, also ich glaube,

00:54:40: dass, wir hätten mal versuchen irgendwie zu gucken, es gibt ja garantiert auch Konferenzen mit

00:54:45: nach dem Haufen, Leute, die da philosophisch dran interessiert sind, auch an dem Thema aus der

00:54:49: Seite heran zu bleiben, weil es ist schon auch wirklich, es spornt die Fantasie an und ich meine,

00:54:54: es gibt ja nicht umsonst genügend auch science fiction Romane, die inzwischen als Diskussionsgrundlage

00:55:01: einfach für die Realität dienen müssen, weil wir ja nichts anderes haben, auch ganz interessant,

00:55:05: dass wir wieder in so einer Situation sind, wo die Realität die Fiktion eingeholt hat und man

00:55:12: jetzt einfach da gucken muss, was kommt bei raus? Ja, genau, wobei man leider sagen muss,

00:55:17: also mir ist wenig science fiction bekannt, die das Thema wirklich zu Ende denkt auf eine Weise,

00:55:24: die irgendwie realistisch ist, aber zum Glück gibt es tatsächlich auch Literatur, die sich

00:55:28: eben ernsthaft mit KI Sicherheit beschäftigt. Ein Beispiel, das mir da einfallen würde,

00:55:32: wäre Nick Bostrom, ein britischer Philosoph, der sich eben sehr intensiv mit KI-Fragestellungen

00:55:39: beschäftigt hat und in seinem Buch Super Intellige- Super Intelligence war er nach meinem

00:55:44: Wissen so einer der allerersten, die wirklich also sehr systematisch und auch sehr tiefgründig darüber

00:55:49: geschrieben haben, was dann sozusagen die die Mechanismen auf die KI-Entwicklung schiefgehen kann.

00:55:55: Also vorher wäre das eine Leseempfehlung für alle, die sich verletzen. Ich wollte sagen,

00:55:58: danke für die Leseempfehlung. Der gehe ich gerne nach, wir verlinken das natürlich in den

00:56:02: Show-Nots und dann gucken wir mal. Ja, also ich meine, klar, realistisch und science fiction ist

00:56:09: ja auch nicht immer, ich meine aber auch eher, manchmal reicht es ja auch eben diesen Gedanken

00:56:13: anstoßen zu haben und weiter zu denken. Natürlich fehlt da der Realismus, aber es geht ja auch

00:56:19: darum, dass man einfach Gedanken spiele im Kopf durchmacht, weil viel mehr kann man als Außenstehender

00:56:23: und selbst wahrscheinlich auch, wenn man in der Forschung tätig ist, mitunter nicht tun,

00:56:27: weil reingucken ist ja auch nur bedingt möglich. Vielleicht ein Thema für einen gekommenen Podcast.

00:56:32: Helmut Lindner, vielen vielen Dank. Vielen vielen Dank für's zuhören und bis zum nächsten Mal.

00:56:36: Ganz herzlichen Dank, Martin. War eine große Freude. Bis zum nächsten.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.