Wie man seine eigene Stimme klont
Shownotes
Shownotes:
Thorstens Artikel auf Golem.de https://www.golem.de/news/machine-learning-die-eigene-stimme-als-tts-modell-2207-164919.html
Zum Ausprobieren des Modells
Piper Hochdeutsch, Emotional und Hessisch https://huggingface.co/spaces/Thorsten-Voice/TTS
Coqui TTS Modelle https://huggingface.co/spaces/Thorsten-Voice/demo
Projektwebseite https://www.thorsten-voice.de/
Github Repo des Projektes https://github.com/thorstenMueller/Thorsten-Voice
Die verwendete Software Coqui TTS und Piper TTS.
Thorsten-Voice Youtube Kanal mit Anleitungen https://www.youtube.com/@ThorstenMueller
Transkript anzeigen
00:00:00: Hallo und herzlich willkommen zu einer weiteren Ausgabe. Mein Name ist Madin Wolf und ich bin Podcastbeauftragter bei Golem.de.
00:00:07: Ja und ich bin hier heute mit Thorsten Müller in einem Hotelzimmer und die Stimme, die gerade durchlief, war natürlich nicht meine Stimme, sondern das ist deine Stimme Thorsten.
00:00:17: Und sie ist auch noch mit einem hessischen Akzent gefärbt, was so ein bisschen Hinweise darauf gibt, wo wir uns befinden.
00:00:23: Wir befinden uns nämlich in Hessen, Darmstadt ist in Hessen, oh Gott, meine Geografie, ich habe es mir auch zur Aufgabe gemacht, jeden Podcast mit irgendwelchen gravierenden Fehlern zu beginnen, die dann die Gäste gerne schnell berichtigen dürfen.
00:00:37: Mal gucken, wie weit wir kommen, bevor mein erster gravierender Fehler auftritt. Wir sind in Darmstadt und es ist eine Zeit, die hier besonders ist.
00:00:45: Ich bin am Bahnhof angekommen und leute mit komischen Kostümen als Einhörner verkleidet oder teilweise recht leicht bekleidet, aber dann immer versichern, dass die dicke Unterhosen drunter haben, liefen wir durch die Gegend.
00:00:56: Heißt es Fastnacht? Ja, Fasching, Karneval, genau. Und du bist mit drin? Ich bin tatsächlich auch mit drin, ja, weil es heute mache ich mal Faschingspause, damit wir uns hier unterhalten können.
00:01:08: Und wir reden gleich über Torstenwolls, aber ich muss trotzdem nochmal fragen. Bei mir ist das wirklich sehr weit weg, weil ich kann mich erinnern, es gibt in Berlin-Brandenburg das Cottbus als Faschingshauptstadt, also Hochburg sozusagen, die das auch lange durchgezogen haben.
00:01:23: Und bei uns ist das überhaupt gar kein Thema. Und hier ist dann wirklich über wie lange geht das und was macht man da?
00:01:30: Ja gut, also ich meine, offiziell fängt ja die fünfte Jahreszeit am 11.11. an, aber so jetzt sag ich mal die letzten Wochen, die sind natürlich schon die Hochphase aus den Faschingssitzungen, Heutrosenmontag, Morgenfaschingsdienstag und am Mittwoch dann, ja, Arsch am Mittwoch.
00:01:46: Und dann kehrt wieder Normalität und Ruhe ein. Also da bin ich ja doppelt dankbar, dass du dir die Zeit genommen hast.
00:01:52: Wir reden heute über das Klonen von Stimmen und die erste Stimme haben wir ja gerade schon gehört. Das ist eine Stimme aus dem Projekt Torstenwolls, das wir natürlich verlinken in den Schonots.
00:02:04: Und warum soll ich das erklären? Was ist Torstenwolls?
00:02:08: Torstenwolls ist ein Projekt, das ich vor ein paar Jahren gestartet habe, also genau genommen 2019, mit eigentlich relativ simplen Idee. Ich habe gesagt, es muss doch eigentlich eine deutschsprachige künstliche, also so Text-to-Speech-TTS-Stimme geben, die in der gewissen Qualität da ist und die eben ohne Cloud-Abhängigkeit funktioniert, sondern indem man auf seinem lokalen PC oder Raspberry Pi oder auf seine lokalen Infrastruktur zu Hause betreiben kann.
00:02:35: Und da war tatsächlich, es war so ein bisschen dünn, das fällt. Also viele Themen bei Text-to-Speech, hast du natürlich die großen Cloud-Anbieter, Google mit ihren Text-to-Speech-Stimmen oder Amazon, die natürlich eine sehr hohe Qualität haben.
00:02:47: Aber da hast du halt immer diese Abhängigkeit. Du kannst keine Applikationen betreiben, die offline funktionieren.
00:02:52: Und das war so die Idee, die ich mit Torsten Wolls versuche, so ein bisschen in diese Lücke zu gehen und zu sagen, ich möchte meine Stimme spenden. Und bevor du was sagst, Martin, ich kenne meine Stimme und es gibt bestimmt deutlich attraktivere Stimmen als meine.
00:03:05: Ich habe halt nur keine andere und deswegen habe ich im Rahmen vom Projekt Torsten Wolls gesagt, ich möchte meine Stimme spenden kostenfrei, damit man darauf eben, ja.
00:03:16: Ich hätte nie, nie hätte ich sowas gesagt und außerdem hast du ja nicht nur die gespillet, sondern auch noch die sehr charmante hessische Variante, die ich beim Anfang gehört habe.
00:03:23: Aber bevor wir weiter zu Torsten Wolls selber kommen, nochmal mir ist eingefallen. Ich musste eine ganze Weile überlegen, wann ich das erste Mal eine synthetische Computerstimme gehört habe.
00:03:33: Und ich bin der Meinung, es muss Ende der 80er gewesen sein auf irgendeinem Commodore Amiga, der, glaube ich, schon mit einem Programm kam im Betriebssystem, mit dem man Sachen vorlesen konnte. Das klang sehr robotisch.
00:03:47: Und das fand ich furchtbar beeindruckend. Kannst du dich erinnern, wann du das erste Mal eine künstliche Stimme oder?
00:03:52: Ich weiß es nicht. Ich kann jetzt kein Jahr oder sowas sagen, aber es ist schon sehr, sehr lange her natürlich. Und diese, wie du sagst, diese robothaften, metallisch klingenden Stimmen.
00:04:01: Gut, ich sage mal jetzt in den 80er, 90er Jahren rum, da war das natürlich komplett beeindruckt. Also, dass es überhaupt möglich war, eine Stimme zu erzeugen, aus heutiger Perspektive, mit einem anderen Qualitätsanspruch vielleicht ein bisschen differenzierter sehen.
00:04:18: Aber wie gesagt, vor einigen Jahrzehnten war das extrem beeindruckend. Ich muss sagen, diese auch aus heutiger Sicht robothaften Stimmen. Aber ich kann jetzt kein Jahreszahl nehmen, wie lange das her ist. Aber schon sehr lange.
00:04:28: Also, ich weiß, das ist eine, weil ich gerade, wir hatten ein Podcast, so 40 Jahre Macintosh und da hatte ich mir das natürlich alles vorher mal so durchgelesen.
00:04:37: Der erste Macintosh hatte bei seiner Vorstellung einen Punkt, mit dem sie da so ein bisschen geprahlt haben, war, dass der sich selber vorstellen konnte.
00:04:44: Auch der hatte schon eine Text-to-Speech-Engine drin, denn das ist, wie das eigentlich genannt wird, also, dass man Texte umwandelt in gesprochene Sprache.
00:04:54: Und das ist tatsächlich, wie gesagt, das war eine ganze Weile lang so ein bisschen, so auch so ein heiliger Graal, weil, also, das ordentlich zu machen vor allem.
00:05:04: Also, einerseits robothaft, klar klingkungisch und so, aber auch, dass es verständlich wird.
00:05:09: Denn menschliche Sprache ist jetzt auch nicht trivial nachzubilden, ne?
00:05:14: Das ist richtig, wenn jetzt kein Linguist, aber natürlich ist es ein komplexes Thema.
00:05:19: Also, die geht ja nicht darum, dass du einfach nur die Buchstaben aneinander reißt, sondern es geht ja darum, dass du auf phonetischem Level sozusagen durchbewegst.
00:05:26: Also, zu gucken, welche Wörter haben, welche phonetische Zusammensetzung und das Ganze dann so ein bisschen zusammenzubringen.
00:05:32: Das ist schon, ich sag's mal, eine Wissenschaft für sich.
00:05:35: Der, du dich gestellt hast. Und dann verweise darauf, es gibt ein Artikel bei gulam.de von Diel, genau.
00:05:42: Also, wo du das auch beschreibst, der Artikel hat die Durchschrift "Die eigene Stimme als TTS-Modell" und das verlinkt man natürlich auch in den Show-Not.
00:05:49: Und da schreibst du aber schon gleich im Tieser, also ich hätte diesen Tieser, ich weiß nicht, ich hätte an diesem Tieser Kritikpunkte.
00:05:56: Da steht dann die Frage, da hat das lange Jahr, braucht man das? Nein.
00:06:00: Also, wenn ich das abgebe, sowas, dann sagt die Textchefin gleich, wieso sollte man das lesen, wenn da schon drin steht, dass man das nicht braucht.
00:06:07: Aber die Leute haben es gelesen und ich denke, man braucht es.
00:06:11: Nämlich, es ist ja so, also das eine ist, das so als irgendwie tolle technische Leistung zu haben oder so, das andere ist,
00:06:19: das ist auch ein großer Punkt bei der Zugänglichkeit.
00:06:22: Also, Texte vorlesen zu lassen, ist ein Barrierefreiheitsmerkmal, das man nicht unterschätzen sollte.
00:06:28: Definitiv, also gerade, wenn du sagst Barrierefreiheit, diese Blind Communities auch oder dieses NVDA, das ist da relativ als Begriff,
00:06:37: also dieses Non-Visual Desktop-XS, natürlich, also du baust extrem gut Barrieren ab, wenn du durch dieses Screenreader, die auf dieser künstlichen Sprachausgabe auch passieren.
00:06:48: Ganz wichtiger Punkt.
00:06:49: Und du hast gesagt, du hast 2019, hast du nachgeguckt und hast überlegt, wer macht sowas und dann gab es keine, die deinen Ansprüchen genügt haben
00:06:59: oder was war der Punkt, wieso du selber dann tätig geworden bist?
00:07:02: Ja, ist aber so, also ich war schon immer fasziniert von der Möglichkeit, dass Menschen mit Technik per Sprache interagieren.
00:07:09: Ich meine, das kam so aus früherer Jugend als kleine Anekdote, da war ich natürlich fasziniert von so Serien, wo das war,
00:07:16: Hollywood Serien wie Nightwider oder Star Trek, Next Generation, das fand ich spannend, dass Menschen mit Sprache oder Technik interagieren.
00:07:23: Und ich habe das auch damals in früherer Jugend versucht zu bauen und bin gnadenlos gescheitert.
00:07:27: Wie hast du es denn versucht zu bauen?
00:07:28: Ich weiß es nicht, ich hatte damals einen alten Rechner mit einem Mikrofon, erstmal versucht, überhaupt Audio aufzunehmen, was schon ein Kunststück war
00:07:35: und habe versucht, diese Audiowellen, diese optische Darstellung von Audio-Signalen, und habe versucht, da irgendetwas rauszuschneiden
00:07:43: und Muster zu erkennen, also A, ich habe es überhaupt von meinem Skilllevel immer sagen würde, nicht hinbekommen,
00:07:50: plus natürlich die Technologie damals auch weitaus weniger fortschrittlich war als heute, und habe das dann natürlich irgendwann auch wieder abgehakt
00:07:59: und bin eigentlich erst wieder darauf gekommen, als ich da Apple mit Siri um die Ecke kam und habe gedacht, wow,
00:08:06: wir kommen in eine Richtung, wo wirklich jetzt, wo sowas realistisch werden könnte.
00:08:09: Und natürlich auch Amazon mit ihrem Smart Speaker war ich total beeindruckt und auch von der Qualität der künstlichen Stimmen.
00:08:17: Also wir reden ja dann nicht mehr von diesem robothaften, mechanischen Klang, wir reden ja wirklich von Stimmen, die du auch verwechseln kannst,
00:08:25: sogar mit wirklich menschlichen, echten Sprechern.
00:08:27: Und da bin ich wieder auf das Thema aufmerksam geworden, hatte nur so ein bisschen die Bedenken, also will ich mir so ein Amazon Smart Speaker holen?
00:08:36: Schön, dass du das Wort nicht sagst, danke dir. Es müsste ich jedes Mal rauspiepen, hatte ich neulich bei dem Kollegen.
00:08:40: Meinem Podcast, danke schön. Bleiben wir dabei.
00:08:43: Genau, ich mache das tatsächlich auch nie bewusst, weil ich immer nicht weiß, ob ich an irgendwelche Geräte so frage.
00:08:47: Es, tun Sie.
00:08:48: Und da kriegen wir einen Riesenhaufen Ärger, deswegen, ich piep die, ich muss die dann rauspiepen.
00:08:51: Es ist schön, dass du es nicht sagst, wenn du am Ende unzufrieden mit diesem Podcast bist, dann sagst du einfach hundertmal hintereinander das böse Wort,
00:08:57: dann muss ich das alles rauspiepen.
00:08:59: Also die Gefahr sehe ich momentan nicht.
00:09:01: Okay, ist klar.
00:09:02: Also jeder weiß natürlich, welchen Markenname oder welches Produkt ich meine.
00:09:07: Und ich hatte da so ein bisschen Datenschutz Bedenken.
00:09:10: Also da gibt es glaube ich keine richtige oder falsche, aber ich glaube, da muss jeder für sich entscheiden, möchte ich mir ein Mikrofon,
00:09:15: was ich sage mal stetig in Kontakt mit Amazon steht und Online-Erfab-Bindung erfordert, möchte ich das haben.
00:09:21: Und da war ich ein bisschen skeptisch und habe gesagt, ich finde die Technologie auf der Ingenieurseite super.
00:09:26: Ich habe aber so leichte Datenschutzaspekte im Hinterkopf, die mir nicht gefallen haben.
00:09:30: Und dann habe ich gesagt, vielleicht gibt es ein Open Source Projekt, was ein bisschen mehr auf Privatsphäre achtet,
00:09:35: was im Prinzip offline laufweg ist, dass ich auch in meinem Router sagen kann, möchte diesen Raspberry Pi oder den Server vom Internet abschotten.
00:09:43: Und bin damals, also 2019, auf ein Projekt oder auf eine Firma Microsoft AI gestoßen.
00:09:50: Das war eine US-Firma so warm, mittlerweile gibt es die nicht mehr.
00:09:53: Die gesagt haben sie bauen sowohl die Software als auch die Hardware für einen Privacy-Aware Voice Assistant.
00:10:00: Und da habe ich gesagt, das musste ausprobieren und habe das auch versucht.
00:10:06: Und muss sagen, also es war dann durchaus eine Serie von Ernüchterungen, die auf mich gewartet haben.
00:10:11: Zum einen, klar man hat gemerkt, es war noch alles in der Entwicklung und es war sehr auf den englischen Sprachraum fokussiert.
00:10:20: Also auf Deutsch brauchte ich jetzt noch nicht wirklich damit arbeiten.
00:10:23: Und was mich wirklich überrascht hat, dafür dass sie geworben haben mit einem Privacy-Aware Voice Assistant,
00:10:30: war das erste, was ich tun musste, mir auf deren Cloud einen Zugang registrieren.
00:10:35: Und ich dachte, das verstehe ich jetzt nicht, das ist auch ein Widerspruch.
00:10:38: Klar, ich habe da ein bisschen nachgeforscht und die Idee war schon, weil die haben für diese Sprachverarbeitenden Komponenten,
00:10:43: also Spracherkennung der Eingangszeit, also dieses Speech-to-Text.
00:10:47: Und auf der Sprachausgabe Seite, das Text-to-Speech, TTS, auch auf Clouddienste gesetzt.
00:10:53: Weil du willst natürlich eine hohe Qualität und da waren natürlich die großen Cloud-Anbieter, liefern halt eine gute Qualität.
00:10:58: Da bist du ganz schnell wieder bei den üblichen Verdächtigen.
00:11:00: Genau, und dann habe ich gefragt, aber warum brauche ich euch dann?
00:11:03: Und die haben im Prinzip so eine Proxieschicht eingezogen.
00:11:06: Das heißt, die haben zwar meine Sprachdaten dann doch an die Cloud-Anbieter gegeben,
00:11:11: haben aber vielleicht meine IP-Adresse rausgefiltert, so dass ein bisschen mehr meine Privatsphäre gewahrt war.
00:11:16: Also die haben so ein bisschen als, ich nenn's mal, Anonymisierungsschicht in der Zwischen fungiert.
00:11:21: Und ich muss sagen, fand ich aber trotzdem ein bisschen schade.
00:11:25: So, dann habe ich versucht, kann ich da auch diese Cloud-basierten Dienste ersetzen.
00:11:29: Und hab dann mir der Sprachausgabe angefangen.
00:11:31: Und war dann, so hat es gesagt, ganz schnell wieder bei der alternative roboterhaft klingende Stimmen.
00:11:37: Also da gibt es z.B. so was wie eSpeak oder Embroller-Stimmen oder auch Pico-Voices.
00:11:43: Also das sind so die klassischen Stimmen, gerade aus dem Linux-Umfeld, die sehr performant sind.
00:11:48: Also gerade auch um Geschwindigkeit, wie bei Screenreadern geht, super.
00:11:52: Aber die, wenn ich sie jetzt mal mit einer Stimme von Amazon oder Google vergleiche,
00:11:56: qualitativ einfach nicht mithalten kann.
00:11:58: Ja, das war dann so ein bisschen der Werdegang und die Idee.
00:12:03: Und da, um diese eine Frage abzurunden, war es tatsächlich so,
00:12:09: dass nach der Ernüchterung, habe ich auf der Microsoft-Seite gesehen,
00:12:13: du kannst auch deine eigene Stimme klonen oder digitalisieren und dafür verwenden.
00:12:18: Jetzt mal unabhängig davon, ob man sich im Alltag mit einem Smart Speaker unterhalten will,
00:12:22: der genauso klickt, wie man selbst.
00:12:23: Aber ich fand das halt super spannend als Thema.
00:12:26: Und war so ein bisschen, naja, ich habe mir das sehr einfach vorgestellt.
00:12:31: Ich dachte super, da hast du bestimmt, nimmst du drei Sätze auf,
00:12:34: da hast du bestimmt eine total tolle, getestete Applikation mit schöner Oberfläche,
00:12:37: drückst zwei Mal aufs Assistent weiter, weiter fertigstellen, holst dir den Tee
00:12:41: und dann hast du die perfekte Stimmklonung.
00:12:43: Und das war 2019 extrem weit weg.
00:12:46: Und ich habe wirklich lernen müssen, also ein Selbstläufer, war das nicht.
00:12:50: Und so viel auch zum Intro von dem Heter, von dem Teezer.
00:12:53: Ich kann mich erinnern, dass das, was du gerade beschrieben hast,
00:12:56: dieses, dass man einfach mal ein paar Sätze einspricht und dann klont ist die Stimme,
00:13:01: habe ich zum ersten Mal gemacht auf Bitten meines Chefredakteurs.
00:13:06: Ich meine 2020 rum, also nicht so viel später.
00:13:11: Und ich musste, es funktionierte auch nur auf Englisch.
00:13:15: Und ich meine, ich musste sowas wie 20 Minuten vorgegebene Texte einsprechen.
00:13:20: Und danach war das Ergebnis okay auf Englisch, aber jetzt auch nicht so wirklich fantastisch.
00:13:27: Ich habe das neulich nochmal gemacht bei einem Dienst,
00:13:30: bei dem ich mich dafür auch anmeld musste, der auch nicht kostenfrei ist
00:13:33: und natürlich auch groß, also alles in der Cloud logischerweise.
00:13:37: Ich glaube, ich habe 30 Sekunden eingesprochen und die Stimme klingt okay.
00:13:44: Also was ich damit sagen will, ist, was ich annehme, was du mir gleich bestätigen
00:13:49: oder verneinen wirst, ist, dass dir die aktuelle Trend mit Mesh- and Learning-Modellen
00:13:56: solche Sachen zu machen, absolut in die Hände gespielt hat, oder?
00:13:59: Definitiv. Also man merkt es auch, klar, die Entwicklung ist,
00:14:02: ich meine, es vergeht ja kaum ein Tag, wo nicht irgendeine Machine Learning, AI, KI, was Neues rauskommt.
00:14:08: Ich meine, das ist ja momentan eigentlich das halb Thema schlechthin.
00:14:10: Das war 2019 noch nicht ganz so ausgeprägt, zumindest nicht im Fokus der Öffentlichkeit.
00:14:16: Und nun mal, weil du sagst, jetzt 30 Sekunden, das ist natürlich schnell mal gemacht,
00:14:22: als ich angefangen habe und mich da versucht habe, mit dieser Microsoft-Dokumentation
00:14:26: so ein bisschen durchzufummeln, war die Empfehlung, nimm 16 Stunden reines Audio auf.
00:14:32: Und das ist jetzt, das macht sie eben mal nicht einem Abend.
00:14:35: Und tatsächlich habe ich für die ersten Versuche, für die ersten Gehversuche, die ich gemacht habe,
00:14:41: in meiner Freizeitabend am Wochenende über Monate aufgenommen.
00:14:46: Und da habe ich auch noch gefühlt, alles falsch gemacht, was man falsch machen konnte,
00:14:50: was, also ich habe viel Lehrgeld bezahlen müssen, weil das war sehr, sehr deprimierend.
00:14:54: Die will ich gleich hören, die Fehler.
00:14:56: Aber eines, was mir da einfällt, ist natürlich, man muss ja darauf hinweisen,
00:15:00: also man kann ja auch nicht einfach los schnattern.
00:15:02: Also ich kann dem Ding nicht einfach irgendwas erzählen,
00:15:04: sondern es müssen Texte sein, deren Textvariante ja auch vorliegt,
00:15:08: damit die KI das Beides übereinbringen kann, also die Machine Learning Algorithmen,
00:15:12: das übereinbringen können.
00:15:13: Aber was sind so Fehler, die du gemacht hast?
00:15:15: Also meine zwei, nennen wir es mal Lieblingsfehler, die ich gemacht habe.
00:15:19: Zum einen stand in der Dokumination "Nimm bitte ein gutes Mikrofon,
00:15:25: schaffe dir ein ruhiges Aufnahmesetab", also kein Lager auf einer Lüfter,
00:15:29: nichts, was irgendwie Brummenträgen, Kühlschrank im Hintergrund, also irgendwas, was Geräusche macht.
00:15:32: Und sprich klar und deutlich, also nuscheln nicht, betonordentlich, so.
00:15:38: Also das waren zwei der Tipps, die man so mitbekommen hat.
00:15:42: Und wie das so war, wenn man, oder bei mir so war, ich war euphorisch, ich wollte auch loslegen
00:15:48: und ich habe das zwar gelesen und auf einmal guckte ich so auf die Ecke und da lag mein altes USB-Headset irgendwo in der Ecke
00:15:54: und ich dachte mir, das ist gut genug und habe das zum Aufnehmen verwendet
00:15:58: und habe natürlich die Aufnahme auch angehört und ich war fest der Meinung, also das ist ja wirklich, vergiss doch mal Radio Station,
00:16:04: also mein altes USB-Headset, das ist das Beste, was du machen kannst.
00:16:08: Also ich war wirklich optimistisch und habe dann auch, glaube, 10.000 Aufnahmen gesporen,
00:16:15: was ja ein immenser Aufwand im Endeffekt war, immer in dem Wissen perfektes Audio Head-Up,
00:16:22: plus ich habe diesen Hinweis sprich klar, deutlich, nuscheln nicht, so ein bisschen übertrieben.
00:16:28: Also nehme mal einen Satz, wie heute scheint die Sonne.
00:16:31: Und ich wollte das so perfekt machen, dass ich gesagt habe, heute scheint die Sonne.
00:16:36: Da war zwar jedes Wort für sich betrachtet sauber ausgesprochen, aber der Sprachfluss, die Natürlichkeit, die war halt weg
00:16:42: und bei Machine Learning ist es ja der Klassiker, Shit in, Shit out.
00:16:47: Also das System lernt ja von dem, was du reingibst.
00:16:49: Und wenn ich natürlich einen unnatürlichen Sprachfluss reingebe, generiert mir das System unnatürlichen Sprachfluss.
00:16:55: Und wie gesagt, damals waren das diese 16 Stunden, solltest du schon mal aufnehmen
00:17:00: und ich hatte dann nach 10.000 Aufnahmen, das waren jetzt noch nicht ganz die 16 Stunden,
00:17:05: aber es war halt schon signifikanter Aufwand, habe ich dann einfach mal gesagt, ich probiere das mal
00:17:09: und habe das dann in so eine KI Magic Box Software da mit Field Trial Error reingepackt
00:17:14: und habe das dann über Tage lief, mein Rechner dann auf 100% CPU und der hat geglüht und hat dann gerechnet
00:17:20: und ich hatte dann auch tatsächlich Ergebnisse bekommen, die klangen nach mir.
00:17:24: Klar, natürlich mit dem Sprachfluss war ich nicht zufrieden, aber also die ersten Ergebnisse, man hat nicht immer rausgehört
00:17:29: und ich habe mich gefreut, aber es war so ein Rauschen drin, teilweise ein Pfeifen, Pieps, also die Qualität an sich war nicht gut.
00:17:36: Und ich wusste nicht, wo ich anslag und habe dann gesagt, ich frag mal in dieser Microsoft Community nach Hilfe,
00:17:42: was habe ich falsch gemacht?
00:17:44: Und da gab es ein paar Erkenntnisse, zum einen habe ich da das erste Mal gemerkt,
00:17:48: oh, es gibt potenziell ein Interesse an einer freien künstlichen deutschen Stimme,
00:17:52: da gab es dann doch viele Leute, die mich angeschrieben haben, ob sie helfen können,
00:17:55: ob sie die Stimme auch öffentlich später sein wird.
00:17:59: Und ich habe auch Beispiele halt reingestellt und dann hat sich tatsächlich jemand bei mir gemeldet,
00:18:05: ein netter Hilfsbreiter im Mann namens Dominic Kreuz, der sagte, schick mir doch mal die Originalaufnahme
00:18:12: oder ein paar der nach Originalaufnahmen, weil er hat gesagt, ich habe ein bisschen Audioexpertise,
00:18:17: vielleicht kann ich gar nicht was raus hören.
00:18:19: Und dann habe ich ihm so vier, fünf Aufnahmen geschickt und dachte, der kann ja nur zurückkommen
00:18:23: und kann sagen, er hat das so gute Aufnahme mich ja noch nie gehört.
00:18:26: Ich war wirklich absolut überzeugt, dass der hat besser geht es eigentlich gar nicht.
00:18:30: Und ich wurde enttäuscht, also der kam zurück und sagte, ich weiß nicht was der O-Ton war,
00:18:36: aber Konsens war, das ist nichts, das ist schrott.
00:18:40: Und ich habe dem nicht geglaubt.
00:18:42: Und ich habe gerade auf meinem, ich habe gesehen, ich habe tausende von Aufnahmen
00:18:46: und jetzt kommt der an und sagt, das ist nichts.
00:18:48: Und er sagte, ja du musstet dir auf Kopfhören anhören und auf maximaler Lautstärke.
00:18:52: Was ist die eigene Stimme auf maximaler Lautstärke, das muss man auch erst mal wollen.
00:18:56: Und ich habe das dann gehört und habe dann auf den Originalaufnahmen dieses Rauschen
00:19:00: und dieses Pfeifen so manchmal gehört, weil war halt billiges USB-Headset.
00:19:04: Und ich wollte mir noch schön lügen und habe gesagt, naja gut, das hörst du ja nur
00:19:09: beim maximaler Lautstärke und eigentlich hörst du das ja gar nicht.
00:19:12: Ja, weil unser Gehirn, schlau ist unser Gehirn, kann natürlich Störgeräusche rausfiltern,
00:19:16: weil das weiß was zur Stimme gehört, die KI nicht, die KI denkt natürlich,
00:19:21: Rauschen und Pfeifen gehört dazu.
00:19:23: Das heißt, das System hat künstlich auch Rauschen und Pfeifen generiert,
00:19:28: weil es ja nichts anderes wissen konnte.
00:19:30: Ich habe, ja, shit in, shit out.
00:19:32: Und das war etwas ernüchternd und deprimierend.
00:19:36: Und dann hat der Dominik gesagt, weißt du was, mit meiner Audioexpertise,
00:19:39: schick mir doch mal deine ganzen Aufnahmen, ich kann ja mal gucken, ob ich ein paar retten kann.
00:19:44: Und das war so das erste Mal, weil ich hatte gesagt, eigentlich hatte ich so ein bisschen,
00:19:49: was die Datenschutz angeht, mit Stimmenverarbeitung und so weiter,
00:19:52: so ein bisschen Bedenken.
00:19:54: Und auf einmal bot mir so ein fremder Mann aus dem Internet an,
00:19:58: schick mir doch mal deine kompletten Aufnahmen und ich gucke mal, was ich tun kann.
00:20:01: Und das war für mich der Punkt, möchte ich das, also möchte ich meine Stimme so weit weggeben.
00:20:05: Das ist eine Entscheidung, ja.
00:20:07: Ich weiß ja nicht, man kennt sich nicht, ich weiß nicht, ob der Jäger dann auch gute Absichten hat.
00:20:13: Glücklicherweise, ich habe das dann getan und wurde da auch belohnt,
00:20:16: also der Dominiker war da extrem hilfreich und hat da auch gut unterstützt und so weiter.
00:20:21: Aber das war so ein bisschen der Anfang.
00:20:24: Plus natürlich auch, dass ich aus dieser ganzen Community gehört habe,
00:20:27: oh, das wäre total schön, wenn wir mal eine weniger roboterhaft klingende Stimme hätten,
00:20:31: die irgendwie auch kostenfreie unter diesem Open Source Gedanken verfügbar ist.
00:20:35: Und da habe ich dann angefangen, tatsächlich mich zu beschäftigen,
00:20:38: will ich meine Stimme wirklich nicht nur für mich, weil es einfach ein cooles Projekt ist,
00:20:42: sondern will ich meine Stimme auch wirklich Open Source spenden.
00:20:47: Weil das ist so ein bisschen, wenn man drüber nachdenkt, so ein bisschen wie früher,
00:20:51: wenn die Leute dachten, so das Foto raubt dir die Seele.
00:20:53: Also ich meine, das ist schon auch so, das ist deine Stimme.
00:20:56: Und als ich meine Stimme da gehört habe und dann kriegte, also ich weiß ganz genau,
00:21:00: dass einer der Aspekte sein würde, dass es gibt die Idee,
00:21:04: dass Golem.de, die auf der Seite veröffentlichten Texte auch mit meiner Stimme vorliest,
00:21:08: also da habe ich jetzt null Bedenken, aber die Sache, das was du gerade beschrieben hast,
00:21:13: ist das, was einem dann durch den Kopf geht.
00:21:15: Das ist schon ein sehr privater Teil von einem auch, diese Stimme, diese eigene Dings.
00:21:20: Und dann können Leute das einfach so benutzen.
00:21:23: Und das wird bei dir definitiv so sein, weil die Variante, die du dann erschaffen hast,
00:21:28: ist öffentlich verfügbar.
00:21:32: Wir packen natürlich den Link in die Show-Notes.
00:21:35: Es gibt bei Huggingface auch eine Version, die einfach online zugreifbar ist.
00:21:40: Also da drückt man halt auf "Schwets los" bzw. wahrscheinlich irgendwas,
00:21:44: was nicht schwetslos ist, sondern nicht die hessische Variante.
00:21:46: Die Hochdeutschige.
00:21:48: Ja, die Hochdeutschige Variante.
00:21:50: Ich habe jetzt die hessische gerade vor mir noch vom Anfang des Podcasts.
00:21:53: Und dann wird das einfach generiert.
00:21:55: Aber der Grundpunkt ist, dass du bei Git Hab, das alles hochgeladen hast.
00:22:01: Und jetzt, also ich will nochmal drauf zurückkommen, was es noch so für Stolpersteine gab,
00:22:07: aber erstmal, vielleicht, wenn ich das jetzt machen möchte.
00:22:10: Ich möchte jetzt dein Modell für irgendwas benutzen.
00:22:13: Wie mache ich das?
00:22:15: Es gibt verschiedene Möglichkeiten tatsächlich.
00:22:17: Also erstmal musst du natürlich überlegen, welche Torsten-Volies-Variante magst du,
00:22:22: ich meine, hessisch, ja?
00:22:24: Na klar, na klar.
00:22:25: Da ist natürlich auch eine Frage.
00:22:27: Ein Leinighaft-Projekt.
00:22:28: Torsten, verstehe die Frage, nicht natürlich hessisch.
00:22:30: Genau, als Alter Südhesse musste sowas bei.
00:22:34: Nein, es ist natürlich klar, dass die meisten TTS-Modelle auch aus dem Torsten-Volies-Projekt können natürlich Hochdeutsch,
00:22:41: weil du dann natürlich die meisten Einsatzmöglichkeiten hast.
00:22:44: Ich habe aber auch emotionale Stimmen gemacht.
00:22:47: Also man kann mich auch schimpfen lassen oder...
00:22:50: Ich weiß nicht, könnte mir ein...
00:22:52: Die wird mit den Smart Speaker zusammenlöten, wo du mich die ganze Zeit anschreist.
00:22:56: Wenn du das...ich kann nicht auch jetzt live im Podcast aufnehmen.
00:22:58: Ich schau' kann sagen, wir können das jetzt aufnehmen, dann habe ich schon mal so einen Vorgeschmack wie mein Smart Speaker.
00:23:03: Ja, ja, denkt man noch drüber nach, ist ja noch ein bisschen.
00:23:06: Aber okay, die sind dann bei GitHub nämlich an oder so verfügbar.
00:23:12: Jetzt, ich kenne das mit den Modellen, wenn ich das bei Bildgenerationen habe,
00:23:16: wie Gigabyteweise Sachen runterladen und dann irgendwelche speziellen magischen Dinge aufsetzen, am besten unter Linux.
00:23:23: Und dann geht das auch irgendwie, wie kompliziert ist das, wenn man das jetzt mit deinem Modell machen möchte?
00:23:28: Tatsächlich ist es jetzt nicht in zwei Klicks erledigt.
00:23:33: Also man muss schon so ein bisschen was machen, aber es ist jetzt auch nicht so komplex wie vielleicht bei anderen Modellen oder bei anderen Systemen.
00:23:40: Deswegen, ich habe auch das X-of-hugging-Face veröffentlicht, damit wenn jetzt jemand sagt, ich möchte eigentlich überhaupt auf meinem PC gar nichts installieren
00:23:47: oder ich will mich da eigentlich gar nicht mit beschäftigen.
00:23:49: Deswegen war es mir wichtig, dass wirklich jemand auch ohne Registrierung oder ohne dass man da irgendwas jetzt machen muss,
00:23:54: einfach Text eingeben kann und wie du sagst, hessisch schwezlos oder den Knopf drückt und dann das Wave-File auch runterladen kann.
00:24:00: Ich habe auf meinem...Achtung, jetzt kommt die schamlose Werbung auf meinem Torsten Voice YouTube-Kanal, natürlich auch Tutorials,
00:24:06: wie man das auf Linux, MacOS, Raspberry Pi und Windows einrichten kann.
00:24:13: Da gibt es im Prinzip eigentlich zwei größere Projekte, die dazu grundeliegen.
00:24:19: Das ist einmal das Projekt Koki AI, Koki TTS, die da eine Software machen, mit der du eben diese Text- und Speech Modelle auch benutzen kannst.
00:24:28: Unter anderem auch Mines oder Piper TTS.
00:24:32: Und das ist ein bisschen einfacher sogar noch von der Handhabung, weil es eben nicht Gigabytes an Download erfordert,
00:24:37: sondern relativ schnell über, zum Beispiel, Windows mit einer extra Datei mehr oder weniger getan ist.
00:24:42: So, wenn man das dann hat, dann kann man einfach seitenweise...
00:24:45: Also ich könnte mir jetzt dann zum Beispiel, wenn ich ein Buch vorgelesen habe, möchte und dann kippe ich einfach den Text da rein
00:24:51: und dann lasse ich das durchlaufen und dann geht das zügig, dass es dann eine Audio-Datei macht
00:24:57: oder ist das abhängig von der Performance des Rechners? Also wie auf meiner Seite sozusagen das tatsächlich lokal laufen lasse, was bedeutet das?
00:25:05: Ja natürlich, also es gibt, also gerade die Piper TTS Modelle gibt es in drei Qualitätsstufen, also von Low, Medium, High.
00:25:13: Je höher ich den Qualitätsanspruch natürlich habe, desto aufwendig ist es in der Erzeugung.
00:25:19: Also schneller Rechner schadet dann natürlich nichts, aber selbst auf dem Raspberry Pi kann ich meine Stimme relativ performant erzeugen.
00:25:27: Also vielleicht als kleiner Hintergrund vielleicht, also auch meine Torsten Woßel ist neben anderen Stimmen, ich werde nicht nur Eigenwerfer machen,
00:25:35: also zum Beispiel innerhalb von dieser Smart-Tools-Software-Home-Assistent verfügbar und in diesem Umfeld willst du natürlich auch schneller anforden.
00:25:42: Also wenn du das jetzt erstmal eine Stunde lang rechnen musst, das macht ja keinen Sinn oder du hast ein Smart-Speaker, den du nach der aktuellen Uhrzeit fragst,
00:25:49: wenn die Erzeugung länger als 60 Sekunden dauert, ist die Antwort ja bei der Definition falsch.
00:25:53: Also nein, also wir reden schon von der relativ performant und wie gesagt auch auf dem Raspberry 3 zum Beispiel, 4E, kannst du schneller als Echtzeit.
00:26:04: Also man redet da auch, um ein bisschen Experten einzuschreuen, mit meinem gefährlichen Halbwissen.
00:26:09: Nein, also es gibt diesen RTF, den Real-Time-Factor, der indiziert so ein bisschen, der gibt Auskunft über die Performance.
00:26:16: Weiß nicht, ob du den kennst, aber im Prinzip ist es ein numerischer Wert, der einfach eine Verhältnismäßigkeit sagt.
00:26:22: Also stell dir vor, du hast eine gesprochene Ansage von 10 Sekunden.
00:26:27: Also du fragst jetzt ein Smart-Speaker, wie wird das Wetter und dann kommt die Temperatur oder du Drehgenschirm brauchst oder so,
00:26:32: und das wäre jetzt so eine 10 Sekunden Audio-Ansage, dann hast du jetzt einen RTF Wert von 1,0, hätte es im Vorfeld auch 10 Sekunden gedauert,
00:26:40: dieses Audio zu erzeugen, bevor es anfängt zu sprechen.
00:26:44: Und das kann schon lange sein.
00:26:46: 10 Sekunden sind extrem lange, ja.
00:26:48: Genau, also ich frage, wie wird das Wetter und dann hast du 10 Sekunden, wo du behandelst.
00:26:51: Ja, da hätte ich jetzt, ich wäre ja davon angehört, dass das Ding abgestürzt ist.
00:26:53: Genau, richtig. Und da ist die, die, die, die, die, die, exzeptet uns natürlich schlecht.
00:26:57: Und deswegen, wenn du jetzt einen RTF Wert von 0,1 hast, wäre das innerhalb von einer Sekunde 10 Sekunden Audio erzeugt.
00:27:04: Das ist dann, wenn du dir ein anderer Haus nummerst.
00:27:06: Wobei man natürlich nicht vergessen darf, dass ja trotzdem im Hintergrund, also du musst ja erstmal Speech to Text bekommen,
00:27:12: dann muss die Anfrage tatsächlich irgendwie bearbeitet werden und sinnvoll was rauskommen.
00:27:16: Also du kommst natürlich nicht bei 0,1 Sekunden dann raus, weil es addiert sich dann schnell auf.
00:27:20: Genau.
00:27:21: Aber 0,1 Sekunden natürlich total super.
00:27:23: Und trotzdem hängt das aber, ich muss so blöd fragen, aber es scheint mir natürlich auch logisch, es hängt von meinem Rechner ab.
00:27:32: Also wenn ich ein leistungsfähigen Rechner habe, geht es schneller, als wenn ich ein leistungsschwächelungsrechner habe.
00:27:37: Ja.
00:27:38: Weil wir kommen jetzt noch dazu, was der eigentliche Hintergrund dann ist zum Thema Performance.
00:27:43: Es ist natürlich das Training dann gewesen, aber bedeutet das, also oder läuft das dann auf der CPU, läuft das auf der Grafikal.
00:27:50: Was ist die Komponente, die bei meinem Rechner dann dafür ausschaggebend ist, wie schnell das geht?
00:27:54: Also zum Training hast du ja gerade kommen wir noch.
00:27:56: Ja.
00:27:57: Beim Training ist es, stand heute ganz klar Richtung GPU.
00:28:01: Bei den Co-Cure Modellen zum Beispiel ist es so, dass GPU auch bevorzugt ist, also das Nvidia-Cuda-Bevorzug ist, also deutlich Performance.
00:28:14: Aber es läuft generell auch auf CPU, aber auch wie der Training, GPU, Laufzeit, CPU völlig okay.
00:28:21: Und da aber dann auch, schnellerer CPU ist besser.
00:28:24: Genau, also je schneller die Hardware, desto schneller natürlich auch das.
00:28:27: Ist es dann auch hier Multi-Strading mehr, mehr, mehr Dingsig oder geht es um Single-Cure Performance?
00:28:33: Jetzt wird es hier sehr technisch.
00:28:34: Das wollte ich gerade sagen, aber da habe ich jetzt kein Test gemacht.
00:28:36: Aber ja, das ist vielleicht eine interessante Frage noch.
00:28:39: Aber dann kommen wir mal zum Trainingaspekt des Ganzen.
00:28:43: Also du hattest dann 10.000 eingesprochene Sätze, viele Stunden Material, das war dann clean, oder zumindest cleaner als zuvor.
00:28:54: Also aus Erfahrung auch durch diesen Podcast.
00:28:58: Kann ich sagen, wenn es halt hin ist, dann gibt es auch nicht wirklich.
00:29:01: Also es gibt da auch nicht das Wunderwerk und selbst die KI.
00:29:04: Ich höre inzwischen, wenn Leute das durch KI Verbesser auf Adobe hat, so ein Ding durchjagen.
00:29:12: Ich höre das inzwischen.
00:29:14: Das ist auch lustig.
00:29:15: Ich finde, das ist total interessant diesen Aspekt, dass du bei den generierten Bildern ist das auch teilweise so.
00:29:23: Ich feststelle, dass ich jetzt als Mensch plötzlich ein instinktives Wissen darüber habe, dass der Kram definitiv durch KI durchgegangen ist.
00:29:34: Gerade bei der Sprache. Ich höre das raus, wenn das durch dieses Ding, durch diesen Voice Stimmverbesserer von Adobe durchgejagt wurde.
00:29:42: Und die Prozent, da kannst du halt Prozentser einstellen, wie viel der von dem neu gerenderten, verbesserten Ton nimmt und wie viel von dem Original nimmt.
00:29:50: Und wenn das über 0,5 ist.
00:29:52: Es hat charakteristische Geräusche drinne, oder eben nicht Geräusche sozusagen, die ich inzwischen höre.
00:30:00: Das fand ich auch lustig, weil ich denke, das wird den Leuten dann irgendwann auch so gehen, dass die Menschen sich auch weiter, das eigene Hör, das Gehirn entwickelt sich weiter.
00:30:11: Wenn du dich darauf konzentrierst, bestimmte Sachen zu erfassen, dann passiert das auch.
00:30:15: Aber okay, also du hattest das Material, du hattest dir dann das Wissen angeeignet?
00:30:22: Also ich meine, dazu müssen wir mal vielleicht dazu kommen, was du eigentlich normalerweise machst.
00:30:26: Also wenn du jetzt, ich sag jetzt mal, in einer völlig artfremden Branche unterwegs wärst, dann wär dir das wahrscheinlich noch ein bisschen schwerer gefallen.
00:30:34: Aber du bist auch mit IT beschäftigt im beruflichen Denkmal.
00:30:37: Genau, ja, ich bin, ich komme im Prinzip aus der Technik in der IT, ob das jetzt Systemadministration ist oder Programmierung.
00:30:43: Das ist doch, ich habe sehr IT-lastigen auch beruflichen Hintergrund.
00:30:47: Also ich bin IT-ler im Prinzip durch und durch.
00:30:49: Okay, ja, was ich schon daran äußert, dass du in deiner Freizeit auch noch weiter daran machst.
00:30:55: Also hat das Kurse-Nehmen-Frage, hat das irgendwie deinen beruflichen, hat das für dich beruflich was geändert?
00:31:00: Oder hast du irgendwie davon profitiert, dass du das dann gemacht hast, dass du gedacht hast, oh guck mal hier, das hilft mir auch?
00:31:04: Nein, also das ist tatsächlich komplett als Hobby und Freizeitprojekt entstanden.
00:31:09: Natürlich, auf der Arbeit wird das auch mal dann thematisiert.
00:31:14: Und wenn man dann so hört, was es da Neues gibt auf dem Gebiet, weil es ist ja, also es ist zwar, finde ich immer noch eine Nische.
00:31:19: Also diese Sprachverarbeitung Text-to-Speech ist natürlich jetzt kein riesen Mainstream-Thema.
00:31:25: Also ja, viele nutzen es, aber ohne zu wissen, dass jemand einen Amazon...
00:31:29: Auf der Macherseite ist das ein Thema, das ist halt klar.
00:31:32: Es ist ein Riesenthema, weil wir es alle...
00:31:34: Man konsumiert es, aber es ist jetzt nicht so im Fokus des Bewusstels, was hinten dran steht.
00:31:39: Insofern ist das natürlich mal ein spannendes Thema, was gibt es da auf diesem Feld Neues in der Mittagspause,
00:31:44: aber es hat jetzt keinen Impact, sag ich mal, auf die eigentlich berufliche Tätigkeit.
00:31:47: So, dann hast du das ganze Material gehabt und einen, wie ich hoffe, halbwegs adäquaten Rechner.
00:31:54: Und hast du das dann da drauf, dann losgeschossen?
00:31:58: Oder was hast du gemacht?
00:31:59: Naja, also ich hatte dadurch, dass ich euphorisch war, sie mein USB-Headset war ja der erste Fehler, den ich, finde ich, Lehrgeld bezahlen durfte.
00:32:06: Ich hatte natürlich auch keinen speziellen Rechner.
00:32:08: Okay, du hast das alles auf ein Amiga versucht.
00:32:10: Genau, ich habe noch...
00:32:11: Okay, das kann ich sehen.
00:32:12: Genau.
00:32:13: Und nach vier Jahren habe ich gedacht, okay, es wäre vielleicht doch ein Headset.
00:32:16: Nein, ich habe tatsächlich...
00:32:18: Ich hatte einen Rechner mit einer Nvidia Grafikkarte und ich habe damals naiverweise gedacht,
00:32:22: mit meinen 4GB Grafikkarten bin ich hier auf dem Feld der König, bis die Realität kam, dachte, bist du nicht.
00:32:28: Und ich hatte dann wirklich auch gespitscht auf CPU, weil der Prozess dieser Tringsprozess, der lief gar nicht los.
00:32:34: Bei 4GB Grafikkspeicher hatte er gesagt, fange ich nicht an und habe dann auf CPU-Konfigurationen gewechselt.
00:32:40: Und ich hatte halt der Rechner lief dann halt Tag und Nacht komplett und der Lüfter hat nur geföhnt.
00:32:45: Und dann, ja, irgendwann tarn da was raus, bis ich dann gemerkt habe, das funktioniert nicht.
00:32:51: Also ich musste dann die Aufnahme auch nochmal neu machen, weil wie du gesagt hast, du kannst ein bisschen was verbessern,
00:32:56: aber retten kannst du es eigentlich nicht.
00:32:58: Und von der schlechten Satzfluss oder Redefluss, den kannst du ja nicht optimieren.
00:33:04: Du kannst vielleicht Rauschen noch rausfällt, aber wenn ich halt blöd betone, betone ich blöd,
00:33:08: da kannst du halt auch nichts ändern.
00:33:09: Das heißt, ich habe dann ein besseres Mikrofon, ich habe mir auch so eine kleine Aufnahmekammer gebastelt
00:33:15: und habe dann wirklich versucht, die Fehler zu vermeiden.
00:33:18: Und da hatten wir damals von Nvidia, die hatten diese Jetzen-Serie, das sind so spezielle kleine Rechner,
00:33:23: die ein relativ gutes Verhältnis haben zwischen Stromverbrauch und Rechenderleistung.
00:33:28: Und da haben wir da so ein Gerät gekauft für dieses spezielle KI-Training und Modelltraining.
00:33:33: Und weil die Frage halt auch mal aufkommt, deswegen frage ich einfach mal,
00:33:37: ob ich das auch mal witzig finde, was da die Annahme ist.
00:33:40: Obwohl ich jetzt dann schon einen speziellen Rechner mir gekauft hatte für KI-Modelltraining,
00:33:46: was würde es nun annehmen, wie lange so ein Rechner 7x24 rund um die Uhr braucht,
00:33:52: um so ein Modell, wie du es jetzt hier zum Beispiel gehört hast,
00:33:55: in hessischer Variante bis so was rauskommt?
00:33:57: Was schätzt denn, wie lang so was rechnet?
00:33:59: Also ich meine, ich bin ja GPU-Verwöhnen.
00:34:06: Also ich habe irgendwie eine 4080, glaube ich, TG-Gabe.
00:34:09: Gut, die ist natürlich auch mein anderer Hausnummer.
00:34:11: Ja, und insofern, ich denke ja dann immer, es ist nicht meine.
00:34:15: Ich habe natürlich gar nichts.
00:34:17: Wir sitzen doch nicht mal in der eigenen Web-Top, doch wahrscheinlich einen von 1997 oder so.
00:34:23: Egal.
00:34:24: Aber also wenn man jetzt eine fette GPU hat und schön mehr Kernrechner,
00:34:30: weiß ich nicht, wenn er dann irgendwas bringt oder so,
00:34:33: und du hast, wie viel hast du jetzt da drin?
00:34:35: Ach so, nee, weißt du was ich sagen würde?
00:34:37: Ich würde sagen, der Prozess ist gar nicht wirklich abgeschlossen,
00:34:41: weil du bestimmst ja, wann der Prozess des Trainings abgeschlossen ist.
00:34:44: Und ja, ich würde sagen, kommt darauf an.
00:34:47: Aber mit dem Hintergrundwissen, ich habe natürlich den Artikel gelesen,
00:34:51: dass du das ja auch so geschrieben hast und dass ich das selber auch weiß.
00:34:55: Ich weiß, dass ich mal ein Training gemacht habe für Deepfakes,
00:34:58: also ich dazu irgendwas schreiben soll.
00:35:00: Ich habe das geschrieben oder ein Video dazu gemacht oder irgendwas.
00:35:04: Und da ging es auch darum, du konntest halt sehen, was er da macht.
00:35:08: Und am Ende hast du gesagt, okay, das reicht für meine Zwecke aus.
00:35:11: Wir lassen das jetzt so und dann ist es fein.
00:35:13: Aber wie würdest du das rausfinden?
00:35:15: Mein Sprachmodell.
00:35:17: Ja gut, am Endeffekt, also es gibt natürlich,
00:35:19: während dieses Training, es gibt so ein Tänzerboard,
00:35:21: also es gibt natürlich grafische Möglichkeiten,
00:35:23: wo du ganz viele Diagramme hast, wo du Leute wahnsinnig gut beeindrucken kannst.
00:35:28: Guck mal, was ich hier für 38 Diagramme habe mit irgendwelchen Kurven.
00:35:32: Und wenn man einer fragt, was heißt das,
00:35:36: würde er sofort merken, dass ich überhaupt keine Ahnung habe,
00:35:38: was die Diagramme bedeuten.
00:35:39: Also heute diesen 38 Diagramm habe ich vielleicht 2, 3.
00:35:42: Verstanden wäre zu viel gesagt, aber ich wusste ungefähr,
00:35:44: wenn der Graf nach unten geht, ist gut.
00:35:46: Am Endeffekt generiert das Training,
00:35:49: aber da kann man so einstellen, dass das Training alle Paar-Tausend-Training-Schritte-Testaufnahmen erzeugt.
00:35:55: Und dann hörst du einfach regelmäßig rein.
00:35:57: Das ist ja cool.
00:35:58: Und dann kannst du dann entscheiden,
00:35:59: wie du sagst, am Endeffekt, das Ding läuft ja ewig,
00:36:02: wenn du es nicht abbrichst.
00:36:03: Und dann hörst du natürlich rein und merkst hoffentlich, wie sich es verbessert.
00:36:07: Dann wird es aber auch mal ein bisschen deprimierend,
00:36:09: weil irgendein Stand vielleicht aus der jüngeren Vergangenheit
00:36:14: war dann in der Einstellung bei einem Wort besser.
00:36:16: Dafür war das andere Wort nicht gut.
00:36:18: Und der nächste dann ist das andere Wort wieder gut
00:36:20: und das andere wieder schlecht.
00:36:22: Das ist wirklich so, da braucht man sehr viel Geduld und immer mal rein.
00:36:25: Und es gibt auch diesen Aspekt, ich weiß nicht, ob der damit reinspielt,
00:36:27: von dem ich mal gehört habe, dass es halt diese Überanpassung gibt,
00:36:29: dass ab einem bestimmten Punkt wird alles ziemlich schlimm.
00:36:32: Also dann kannst du es auch übertreiben.
00:36:34: Also wenn du jetzt sagen würdest, ich lasse es einfach 7 Jahre laufen,
00:36:36: es wird schon irgendwie besser werden, ist nicht der Fall.
00:36:37: Richtig, also das ist dieses Oberfittigen.
00:36:39: Also irgendwann verliert sich das System auch quasi in dem Trainingsprozess selber
00:36:42: und dann wird es komisch.
00:36:44: Aber das siehst du auch dann tatsächlich in diesen Diagrammen,
00:36:46: also auch in diesen zweitheitigen, so halbwegs deuten konnte.
00:36:50: Dann merkst du, wenn er anfängt, dieses Oberfittigen zu laufen.
00:36:53: Aber am Endeffekt, die Tipps waren immer, hörte die Aufnahmen,
00:36:56: also hörte die generierten Beispiele an
00:36:58: und wenn du sagst, jetzt klingt es für mich gut,
00:37:01: dann nimm diesen Checkpunkt sozusagen, diesen Checkpoint
00:37:05: und generier vielleicht auch mal andere Texte
00:37:07: und wenn du das Gefühl hast, jetzt ist gut, dann nimm einfach den.
00:37:10: Jetzt sagen wir nochmal deinen Jetsenrechner in GPU Leistungsdings.
00:37:17: Was war der ungefähr, ist der dann zu vergleichen? 3070?
00:37:21: Nein, der hat im Summe 20 GB Shared Memory,
00:37:25: also der kann auch wirklich entsprechend viel Grafikspeicher verwenden.
00:37:29: Das wird ja in diesen Cuda-Cores gemessen irgendwie.
00:37:32: Ich frage mich, ich glaube jetzt nicht nach einem konkreten Wert.
00:37:34: Also er ist weit unter der Performance, also ich sage so,
00:37:38: der Rechner braucht, wenn er auf Volllast läuft, 30 Watt.
00:37:41: Und da kann es natürlich jetzt 30 70 Watt...
00:37:43: Andererseits ist die, ich merke immer wieder,
00:37:46: auch beim encoding oder so, die Grafikkarten greifen ja dann nicht auf alle Kerne zu
00:37:51: und es ist auch nicht so, dass alles auf allen Kernen läuft.
00:37:53: Also das ist dann klar, die Speicherauslastung ist sehr hoch,
00:37:57: aber die Rechenleistung in bestimmten Bereichen ist gar nicht so hoch.
00:38:01: Das heißt, die ganzen 3D-Kerne, das ist alles vergessen, die brauchst du gar nicht.
00:38:04: Die langweilen sich die ganze Zeit über, während irgendwas anderes halt ziemlich krass durchläuft.
00:38:08: Also so ist mein Erfahrung, wenn man das immer mal aufruft.
00:38:10: Aber ok, dann rate ich jetzt ins Blau und sage 2 Wochen.
00:38:13: Nein, also ich löse es einfach auf und ich kenne auch die ganz viele harte Details nicht.
00:38:17: Also die ersten wirklich brauchbaren Modelle, die raus kamen, waren nach 6 Wochen fertig.
00:38:22: 24 Stunden, aber gut über 30 Watt, finde ich.
00:38:26: Deswegen, es hat einen relativ guten Kompromiss zwischen...
00:38:29: Und du hattest auch keine Eile, also jemand stand hinter dir und hat gesagt,
00:38:32: jetzt werde ich aber auch mal fertig hier.
00:38:33: Richtig, genau, also insofern, aber ja, das ist dann schon,
00:38:36: wenn du dann jeden Tag wieder reinhörst, den Trainingsstand guckst,
00:38:39: was hat sich in den letzten Stunden getan, ist ja auch so zu wissen.
00:38:42: Ja, gut, liebe Zuhörer, liebe Zuhörer, ihr müsst das nicht machen.
00:38:47: Ihr könnt nämlich das Modell herunterladen.
00:38:49: Aber falls ihr es doch machen wollt, gibt es einen Artikel auf golem.de, der verlinkt wird,
00:38:56: wo Thorsten diesen Prozess, also Teile davon, was wir jetzt gerade auch besprochen haben,
00:39:03: nochmal so ein bisschen auseinander klammhüsert und auch Tipps und Tricks fürs selber machen.
00:39:08: Gibt, würdest du das empfehlen, dass man das macht?
00:39:13: Oder wann würdest du empfehlen, dass man das selber macht?
00:39:16: Also natürlich, ich bin der Enthusiast in der Sache, also ich würde das immer empfehlen, das zu machen.
00:39:22: Aber man braucht natürlich auch dafür eine gewisse Leidenschaft,
00:39:25: weil es ist halt nur mein nischen Thema.
00:39:27: Ja, aber wann würde man das machen?
00:39:30: Also, wenn man jetzt zum Beispiel, wie vielleicht in deinem Fall,
00:39:33: wenn jetzt die Chefredaktion sagt, wir würden gern golem.de Artikel per Sprache vertonen,
00:39:39: und wollen natürlich...
00:39:41: Die Chefredaktion sagt, wir würden gern Martin Wolf klonen, beziehungsweise was sie sagen.
00:39:45: Bei uns ist tatsächlich auch der Punkt, ein Kollege, der braucht gerade einen Benchmark für Machine Learning.
00:39:53: Und es wäre natürlich gut, wenn wir einen eigenen Benchmark hätten.
00:39:57: Und da wird, also das ist jetzt so ein bisschen die Idee im Hintergrund, dass wir so ein Training aufsetzen
00:40:04: und das dann immer wieder benutzt werden kann.
00:40:06: Und wir dann anhand dessen sehen verschiedene Sachen vergleichen können,
00:40:10: indem man das dann da reinschmeißt und bestimmte Checkpoints wahrscheinlich abwarten wird.
00:40:13: Keine Ahnung davon.
00:40:14: Ich bin nicht die Person, die das macht.
00:40:16: Das ist hier jemand, der wesentlich mehr Ahnung von so was hat als ich.
00:40:19: Aber ja, dafür wird es wahrscheinlich dann aus sein.
00:40:21: Also da würde es sich lohnen.
00:40:23: Aber wenn man das selber, also als Projekt meinst du, wenn man die Leidenschaft dafür hat,
00:40:28: ist es ein gutes Ding, um sich Machine Learning zu nähern?
00:40:32: Das kommt jetzt auf an, wie bereit man ist, da reinzugehen in die Materie.
00:40:37: Also ich bin auch kein Machine Learning-Expert, schon mal gar nicht.
00:40:41: Aber auch ich bin da sehr überflügt unterwegs.
00:40:43: Also ich könnte die Programme, die diese Machine Learnings machen, nicht selber entwickeln.
00:40:49: Ja, ich gucke mir da auch mal, die sind ja sehr auch peißenbasiert.
00:40:52: Also ich kann da in den Code reingucken und ich kann auch ungefähr verstehen, was da passiert.
00:40:56: Aber ich bin jetzt weit weg davon, deswegen zu Machine Learning-Experten zu werden.
00:41:01: Also du kannst diese Software zum Klonen der Stimme benutzen,
00:41:05: ohne dass du jetzt ein tieferes Verständnis haben musst von Machine Learning.
00:41:09: Aber das ist ja das Föhnleber Open Source.
00:41:11: Du kannst natürlich, wenn du sagst, ich möchte auch verstehen, was da so unter der Haube passiert,
00:41:14: kannst natürlich auch reingucken, was da, was da passiert.
00:41:18: Genau, und du hast gesagt, dass es auch Leute gibt, die sich da durchaus bereit erklären, irgendwie zu helfen.
00:41:24: Wo findet man die?
00:41:25: Die Sprach-Communities, ich finde das ein Beispiel, Piper, wie gesagt, ich hatte ja öfters schon Kokey und Piper erwähnt.
00:41:32: Also fangen wir an mit der Kokey-Community.
00:41:35: Die ist so ein bisschen ein Start-up.
00:41:38: Was erwachsen ist aus Mozilla Forschung und Entwicklung?
00:41:41: Ich kann mich erinnern.
00:41:42: Ich war mit meinen Kollegen für Sebastian Grüner, der auch über diesen Podcast immer mitproduziert.
00:41:47: Er ist ja unser Linux-Kollege.
00:41:48: Und ich war mit dem zusammen bei Mozilla und die haben uns da tolle Sachen mit Sprache präsentiert.
00:41:52: Da hatten wir so einen Blick hinter die Kulissen.
00:41:53: Das war total super.
00:41:54: Und irgendwie eine oder zwei Jahre später meinte er dann, so, mir haben hier alle gefeuert.
00:41:58: Also ich glaube, ja, die haben das aufgelöst.
00:42:01: Genau, ich meine, ich habe jetzt gerade so ein bisschen, also ich will da gerade ein bisschen spannend zu hören,
00:42:09: dass du ja im Prinzip auf der Mozilla Seite das noch mitbekommen hast.
00:42:11: Und ich stand auch damals, das war ja aus 2019, 2020, ich stand mit den Kollegen ja auch über die Community,
00:42:16: über dieses Mozilla-Fohren in Kontakt.
00:42:19: Und dann habe ich auch gehört, die lösen das auf.
00:42:22: Und ich war natürlich erst befassungslos.
00:42:24: Wie kann man denn so ein spannendes Feld auflösen?
00:42:25: Ja, ja, ja, war wir auch.
00:42:26: Ja, und habe aber dann dadurch, dass ich mit den Kollegen so ein bisschen auch im Kontakt stand,
00:42:31: haben die gesagt, entspann dich, wir gründen in Berlin ein Start-up namens Co-Key.
00:42:35: Und wir gehen im Prinzip geschlossen, weiß ich jetzt nicht, aber mit vielen Leuten gehen wir da raus aus Mozilla,
00:42:42: weil die es eben nicht mehr weiter verfolgen und gründen dieses Start-up.
00:42:45: Also genau, das waren hier Fake News, die nicht gefeuert worden wahrscheinlich.
00:42:50: Aber ich kann mich nur erinnern, dass die irgendwie dann da weg waren von Mozilla und meine Assoziation.
00:42:55: Aber ja, die werden das, ja, okay.
00:42:58: Und da war natürlich jetzt, und die haben jetzt auch in den letzten Jahren, finde ich, extrem viel beigetragen zu Open Source und Sprachtechnologie.
00:43:06: Also die haben einen ganz, ganz wertvollen Beitrag geleistet.
00:43:08: Und leider muss man sagen, haben sie jetzt aber auch jetzt in den letzten Monaten angekündigt,
00:43:12: dass sie den Betrieb einstellen.
00:43:15: Ich weiß jetzt, die wirtschaftlichen Hintergründe nicht, aber Co-Key, also der Code und so weiter, ist ja Open Source,
00:43:21: ist natürlich weiterhin da, aber das Unternehmen dahinter gibt es leider nicht mehr.
00:43:28: Das passt natürlich perfekt, Werbeblock in eigener Sache, alles über Co-Key und die, also ich sehe gerade, wir haben dazu nicht.
00:43:38: Das ist das Ende des Werbeblocks.
00:43:40: Und da hat Co-Key bei uns in die Golem.de-Suche eingegeben.
00:43:43: Aber sollte es etwas geben, das berichtenswert ist dann diesmal das natürlich auf Golem.de.
00:43:47: Das war jetzt natürlich super, dass ich das jetzt so gemacht habe, aber da wir in diesem Podcast so wenig schneiden,
00:43:53: werde ich das jetzt auch nicht rausschneiden.
00:43:55: Ja, dazu ließ man natürlich was auf Golem.de, aber was man auf jeden Fall finden kann,
00:43:59: ist von Dielen noch ein Artikel, den ich gerade gesehen habe, Automatisierung von Abläufen, den du für uns geschrieben hast.
00:44:06: Weißt du schon, was du noch schreiben wirst für uns?
00:44:08: Hast du schon eine Idee, was das nächste sein könnte?
00:44:10: Tatsächlich habe ich jetzt kein konkretes Thema, aber noch nichts Buchreifes.
00:44:17: Ich mag natürlich wieder diese Nische über die Erkennung, Spracherzeugung,
00:44:22: aber ich kann jetzt auch nicht, sonst wird wahrscheinlich auch die Chefreaktion irgendwann ein bisschen eintönig,
00:44:28: wenn ich nur über so einen Themengebiet natürlich auch was schreibe.
00:44:31: Aber das ist halt das, wo ich diese Leidenschaft habe und wo ich hoffentlich auch ein bisschen was beitragen kann.
00:44:36: Ich muss übrigens grinsen, als du eben sagtest, sie wollen den Martin Wolf klonen,
00:44:40: sie wollen ja nicht den Torsten, der die Golem-Artikel vorliest, dann lacht ich, guck mal, es steht unentschieden.
00:44:45: Du gewinnst bei der Vertonung deiner Artikel und ich habe offensichtlich mehr Vorteile,
00:44:50: wenn es um Teaser geht, die eigentlich nicht einladen, ein Artikel zu lesen.
00:44:54: Also einigen wir uns da mal auf unentschieden, was wir für den Standing bei der Chefreaktion haben.
00:44:58: Ja, ja. Ich glaube, wir sind, wir're doing good, alle beide denke ich.
00:45:04: Genau, damit würde ich das schon mal beenden und ja, vielleicht gibt es ja in Zukunft eben meine Stimme,
00:45:10: die die Artikel bei Golem.de vorliest, sollte das so sein, dann hängt das ganz mit 100%iger Sicherheit mit Torsten Müller zusammen.
00:45:19: Vielen Dank für das Gespräch, wir verlinken den YouTube-Kanal, wo es ein Tutorial dazu gibt,
00:45:24: ihr verlinkt die Communities, die du gerade erwähnt hast und natürlich auch das Modell auf Huggingface.
00:45:30: Und ich hoffe auch, dass wir nichts vergessen bei diesem ganzen Verlink, bei der ganzen Verlinkerei, wenn wir doch was vergessen.
00:45:36: Dann bitte oder auch Themenvorschläge an podcast@golm.de.
00:45:41: Vielen Dank fürs Zuhören und bis zum nächsten Mal.
Neuer Kommentar