Kommt die europäische Suchmaschine?
Shownotes
Das Projekt https://openwebsearch.eu/
Der Crawler https://openwebsearch.eu/owler/
Der Verein https://opensearchfoundation.org/
Transkript anzeigen
00:00:00: Besser wissen, der Podcast von Golem.de.
00:00:05: Hallo und herzlich willkommen zu einer weiteren Ausgabe. Mein Name ist Martin Wolff und ich
00:00:09: bin Podcastbeauftragter von Golem.de und ich befinde mich heute im Homeoffice. Das war
00:00:13: nicht ganz so geplant. Eigentlich sollte ich im Büro sein, aber das ist nicht schlimm,
00:00:17: weil meine beiden Gäste sind mir ohnehin aus der Ferne zugeschaltet. Michael Granitzer
00:00:22: und Stefan Vogt, beide von der, also arbeiten unter anderem für die Open Search Foundation
00:00:27: und können gleich mal erklären, was sie da machen und ob es jetzt schon gleich was falsch
00:00:30: gesagt haben, aber am Anfang. Aber ich weise jetzt schon mal darauf hin, wir sind uns zugeschaltet
00:00:35: über die Ferne. Das hat leider nicht funktioniert, dass wir uns irgendwo in der Mitte von Deutschland
00:00:39: alle treffen an einem netten Ort und einen Kaffee zusammen trinken. Deswegen trinken
00:00:42: alle ihren Kaffee jeweils separat und das kann natürlich Auswirkungen auf die Tonqualität
00:00:47: haben. Das bitte ich jetzt schon mal zu entschuldigen. Wir fangen mal mit Michael an. Michael, was
00:00:51: machst du denn für die Open Search Foundation?
00:00:54: Ja, ich fange vielleicht damit an, was ich Hauptberuflich mache. Ich habe einen Lehrstuhl
00:00:58: für Data Science an der Universität Passau und beschäftige mich da mit maschinenlernen,
00:01:06: heutzutage sage ich mal, Sprachmodelle dazu und KI und auch mit Information & Tribal, sprich
00:01:13: Websuche und als Mitglied der Open Search Foundation bringe ich mich vor allem auf technischer
00:01:20: Ebene in die Entwicklung eines offenen Webindex ein und diesem wollen wir ja im Rahmen eines
00:01:31: europäischen Forschungsprojektes auch realisieren. Da habe ich wieder den anderen Hut auf. Als
00:01:36: Lehrstuhlin habe ich da die technische Koordination.
00:01:39: Bevor ich das mal nachfrage, wie du dazu gekommen bist, gebe ich es weiter an Stefan. Was machst
00:01:44: du?
00:01:45: Ja, ich habe vor einigen Jahren mit die Open Search Foundation aus der Taufe gehoben,
00:01:54: aber eigentlich auch noch mal einen Schritt zurück. Ich bin seit 25 Jahren Wissenschaftler
00:01:58: am Deutschen Zentrum für die Ust-Auron-Protraum-Fahrt im speziellen im Erdbeobachtungszentrum und
00:02:04: mache in diesem Kontext, also seit Littenbeobachtungen von der Erde und viele europäische Projekte auch
00:02:10: mit den feinen Nationen, internationalen Projekte. Und irgendwann vor etwa zehn Jahren habe ich
00:02:14: mir angefangen, Sorgen zu machen, wie wir den digitalen Raum nutzen und dass wir doch
00:02:18: da eigentlich sehr abhängig sind von einigen wenigen Playern und habe dann angefangen
00:02:24: zu überlegen, was können wir in Europa eigentlich tun, um auch uns den digitalen Raum, so wie
00:02:28: wir eben mit Satelliten in die echte Welt kartieren und anschauen, nicht auch den digitalen
00:02:34: Raum anschauen, nicht dann mit Satelliten, sondern eben mit vielleicht feinen Kräften
00:02:39: durch Rechenzentren und uns vielleicht auch das Web so in Europa besser erschließen
00:02:44: und dadurch, daher haben wir dann über diese Organ-Sedge Foundation gegründet, weil
00:02:49: alle Gespräche so erstmal relativ langsam erschienen und die Bewegung sozusagen nicht
00:02:55: dynamisch genug erschienen, wie gesagt, wir müssen was tun und daher haben wir jetzt die
00:03:00: Organ-Sedge Foundation seit mehr als sechs Jahren nach dem Start in inspirierender Europa
00:03:05: sich eine offene Suchinfrastruktur zu bauen, die unseren Werten, unseren demokratischen
00:03:11: Vorstellungen, auch unser Rechtssystem konform sein soll.
00:03:16: Michael, ich wechsle nochmal zu dir zurück. Du bist so was wie der wissenschaftliche Koordinator
00:03:22: des Projektes und du hast auch schon gesagt, du arbeitest mit Data Science, wie bist du denn
00:03:27: dazu gekommen? Wie wird man so was?
00:03:29: Wissenschaftler.
00:03:30: Ja, aber Wissenschaftler für Data Science.
00:03:31: Ja, ich habe mich schon eigentlich sehr früh nach, also schon vor meiner Matura, ich bin
00:03:40: ja Österreicher und das stimmt heiss, dass ich Abi, vor mir dann Abi schon für künstliche
00:03:45: Intelligenz interessiert und die Frage, wie Intelligenz definiert bzw. wie man Algorithmen
00:03:52: oder kann gegebenenfalls Computersystem entwickeln kann, die Intelligenz sind oder Intelligent
00:03:58: erscheinen und habe dann Informatik studiert, eine spezielle Ausrichtung mit so einem Schwerpunkt
00:04:05: auch in Elektrotechnik und habe dann eben verschiedene Kurse im Bereich Maschinen lernen gehört.
00:04:14: Ich erinnere mich, damals waren wir so drei bis vier Leute im Hörsaal bzw. im Seminarraum
00:04:21: und alle haben hier das schräg angeschaut, was man denn da so macht bei Maschinen lernen,
00:04:27: das war komplett nicht on vogue. Ja, ich habe es trotzdem gemacht und es hat Spaß gemacht,
00:04:34: ich habe mich dann auch da im Geschäft wie man Maschinen lernen für die Verarbeitung
00:04:37: von natürlich sprachlichem Texten und Medien verwenden kann. Das war dann ein Forschungszentrum
00:04:44: in Österreich und schon langsam ist das Thema weiter aufgekommen und heutzutage spricht
00:04:51: jeder darüber und ich halte Kurse vor 400, 500 Leute zum Thema Data Science und Maschinen
00:04:58: lernen. Wobei im Hintergrund ist ja klar, solche Sachen
00:05:02: haben wir auch schon vorher schon eine Rolle gespielt, wenn wir jetzt an die großen Suchmaschinen
00:05:07: denken, zu dem wir gleich noch kommen. Aber Stefan, du hast gerade gesagt, ihr habt vor
00:05:11: sechs Jahren die Open Search Foundation gegründet, aus dem Wunsch heraus, dem der US übermacht
00:05:18: auf dem Markt auch unter anderem der Suche ein bisschen was entgegenzusetzen oder eben
00:05:22: einen europäischen Entwurf zu starten. Ihr habt mir notiert, ihr wart zu elf. Was sind
00:05:27: das für Leute gewesen und wie finden die sich zusammen? Also wie hast du zum Beispiel
00:05:31: Michael gefunden oder Michael euch oder wie ist, wie passiert das, dass man da so eine
00:05:35: Gruppe wird? Ja man fängt irgendwann an mit einem kleinen
00:05:38: Klaren von zwei, drei Leuten sich Gedanken zu machen und ich bin viel als Wissenschaftler
00:05:43: auch in europäischen Fakten rumgekommen und habe mit allmöglichen Leuten gesprochen und
00:05:47: gesagt, wir müssen was tun, wir haben ein Problem, wir sind dazu abhängig. Das ist zu
00:05:52: monopolistisch, das ist so ja ökonomisch getrieben und so weiter und alles so ja, wichtiges
00:05:58: Thema ja hervogt, machen sie mal und das hat mich irgendwann echt frustriert und dann
00:06:04: habe ich gesagt, okay wir müssen was tun und dann habe ich mit Leuten gesprochen letztlich
00:06:10: finde ich es hier bei uns im Familien, im Freundeskreis an. Also man sagt also schön
00:06:15: Founder, Fools and Family, aber letztlich so ging es los. Also wir haben dann hier aus
00:06:22: Bekampelkreis Leute gefunden, die sich mit Kommunikation beschäftigen, wir hatten dann
00:06:27: andere Leute, die zwar nicht mit Technik zu tun hatten, aber sich der Sache ja einfach
00:06:34: verschrieben fühlten, gesagt wir machen damit andere hatten eher Finanz Background, die
00:06:37: nächsten hatten Background in digitalen Marketing, dann haben wir, sind wir mal zum Leiter des
00:06:43: Leitmets Rechenzentrums der Bayerischen Akademie der Wissenschaften hier in München gegangen
00:06:47: und haben denen angesprochen, der hat gleich gesagt ja super Idee, glaube ich nicht dabei
00:06:52: und so hatten wir also dann irgendwann eine Gruppe von elf überzeugten bei Samm, die dann die
00:06:58: Orgenzell Foundation gegründet haben, dann kam man relativ schnell, wurde man dann weiter
00:07:03: gereicht, das Zern, habe ich vorhin zum Hörer gegriffen, damit hätte man die IT-Abteilungen
00:07:07: mehrster für search zuständig, zack, kam ich an einen guten Geist, der gesagt hat ja super
00:07:13: perfekt, machen wir mit und so wurden wir weiter gereicht und hatten dann noch eine Tech-Gruppe
00:07:17: zusammen, irgendwann hat mich dann auch ein Professor aus Österreich angesprochen, gesagt
00:07:21: du Stefan, ich hätte da jemand, den würde ich gerne noch mit dazu nehmen, das ist der
00:07:25: Michael, willst du mal mit denen sprechen?
00:07:28: Soll ich auch klar und so auf einmal mal mal zusammen und hatten praktisch eine Gruppe
00:07:33: von immer, eine immer größer werdende Gruppe von überzeugten Leuten, die da mitwirken,
00:07:39: mit dem was sie in ihrem Forschungszentrum an der Universität auch in ihrem Privatbereich
00:07:45: zur Verfügung haben und so sind die Gewachsenen über die Jahre und jetzt langsam versteht
00:07:51: das auch die große Politik und es kommen die Dinge zusammen.
00:07:56: Michael, das Stefan hat so schön gesagt, da kommt der Prof und sagt Mensch guck mal hier,
00:08:00: da Michael, den könntest du auf jeden Fall gebrauchen, was ich jetzt so vor mir sehe,
00:08:04: ist das Leute, das was ihr jetzt auch gesagt habt, dass der Schwerpunkt schon auch in
00:08:08: Richtung Forschung und so weiter geht, ist es so, dass man wahrscheinlich dann eher ansprechbar
00:08:14: ist oder ist es so, dass man dann eher empfänglich ist für sowas, wenn man aus einem wissenschaftlichen
00:08:19: Kontext kommt und jetzt nicht aus dem Privatwirtschaftlichen, weil ich kann mir vorstellen, also weil die Leute
00:08:23: gegen die, nicht gegen die, aber die im Moment die Übermacht bilden, sind natürlich nicht
00:08:28: aus der Wissenschaft und das sind keine Projekte, die mit Schad-Skeller oder so gefördert wurden,
00:08:32: das sind große Unternehmen oder so, aber ihr seid eben aus einem anderen Hintergrund,
00:08:38: siehst du das so, dass das irgendwas ausmacht, macht das einen Unterschied, hilft das oder
00:08:43: ist das stören, keine Ahnung, wie siehst du das? Also aus meiner Sicht macht es wahrscheinlich
00:08:47: einen Unterschied, nicht notwendigerweise, weil wir ja, ich sage mal, wo wir nicht auch
00:08:54: wirtschaftlich denken oder andere bessere Fähigkeiten haben oder ähnliches, sondern auch,
00:09:04: wenn man meistens auch in der Wissenschaft mit einer offeneren Brille an Dinge herangeht und auch
00:09:12: oft einen Gestaltungswillen einfach hat und Dinge, wenn sie nicht so sind, wie sie es sein
00:09:17: sollen oder wenn man sich denkt, wie sie es sein sollen, dann auch versucht zu hinterfragen und
00:09:22: zu verstehen und gerade dann auch in der Informatik, wo man die Möglichkeit hat, dann auch etwas zu
00:09:29: verändern und bei uns liegt es ja auch quasi als Wissenschaftler in der Natur der Sache oder
00:09:36: im Blut, wenn man so haben will, dass wir dann auch natürlich versuchen, entsprechende Mittel zu
00:09:41: bekommen, dass wir an die Grundlagen gehen und in die Tiefe hinab gehen, um zu verstehen eben,
00:09:49: wie diese Dinge funktionieren und dann kommt bald umweigerlich auch zu Forschungsprojekten,
00:09:54: wo man dann größere Gruppen um sich schaut, die ähnliche Zielverfolgung und ähnliche
00:09:59: Fragestellungen haben und so ergibt dann das eine, das andere. Wenn ich da ergänzen darf,
00:10:03: ich glaube ich auch, dass wir eben auch etwas überworneter denken in der Wissenschaft und
00:10:10: quasi auch Grundsatzprobleme angehen und uns nicht von ökonomischen Übermachtssituationen
00:10:15: zum Beispiel einfach verscheuchen lassen. Es gab vor 15 Jahren einen Ansatz des kommerziell
00:10:21: europäische Alternative zu organisieren zwischen Frankreich und Deutschland, zwei große Projekte,
00:10:27: die auf oberster Ebene eingefädelt wurden und da hat dann die Industrie versucht,
00:10:30: da schnell so auch ihre Dinge durchzusetzen und das scheiterte, na kranios. Und wir haben mit
00:10:36: Überzeugung und ohne jegliches Geld angefangen und haben einfach gesagt, okay, wir müssen was tun.
00:10:41: Und aber durch diesen Spirit-Decke-Wachs, das ist gesagt, komm, wir probieren einfach,
00:10:45: wir machen etwas auf und wir arbeiten uns langsam weiter. Dadurch haben wir einen Ansatz geschaffen,
00:10:53: den man kommerziell nicht schaffen könnte, weil wenn man kommerziell gegen jetzt,
00:10:58: wir arbeiten auch nicht gegen, aber wenn man gegen Google arbeiten wollte finanziell,
00:11:03: da hätte man keine Chance. Die haben 200 Milliarden, einen Umsatz im Jahr und das ist so
00:11:08: nicht zu machen. Aber durch Team Spirit und lasst uns gemeinsam angehen, da kann ich einfach
00:11:16: noch einen ganz frischen Geist in so eine Initiative bringen.
00:11:19: Trotzdem, vielleicht darf ich trotzdem auch noch ergänzen, ich glaube,
00:11:23: das ist kein exklusives Eigenschaft aus der Wissenschaft. Es ist halt so, dass wir mehr
00:11:31: Freiheiten und mehr Zeit haben, uns mit diesen Dingen auch zu beschäftigen. Aber man kann das
00:11:35: auch mit der Open Source Community vergleichen, Leute, die halt nach ihrem Job sich noch mal
00:11:42: hinsetzen und dann noch privat in dem einen oder anderen Softwarepaket oder in einem oder anderen
00:11:48: Library arbeiten, wo man einfach auch, weil man etwas schaffen möchte oder verändern möchte,
00:11:55: einfach noch private Zeit investiert. Ich glaube halt, dass wenn man im Unternehmen selbst ist
00:12:00: oder in Unternehmen selbst ist, dass halt für solche Aktivitäten, die nicht gleich monetär an
00:12:04: Gewinn abwerfen, sondern etwas längerfristig angelegt sein müssen, halt meist relativ wenig
00:12:12: Zeit und Freiheit zur Verfügung steht. Das heißt, die müssen dann alles in der Freizeit machen.
00:12:18: Ich, also auch wenn wir jetzt immer mal, wie wir sagen, immer mal natürlich gegen Google,
00:12:22: aber letztendlich ist es ja auch nicht ganz von der Hand zu weisen, dass das, also das Gegengewicht,
00:12:27: nun mal auch das Wort "gegen" beinhaltet, aber zum Punkt "Gewicht", um überhaupt zu starten,
00:12:32: braucht man eine Art Fahrplan, braucht man irgendwie eine Idee. Stefan, wie startet man so ein Projekt?
00:12:38: Oder was war der Fahrplan? Hat der sich geändert?
00:12:40: Es ist ganz witzig, der Fahrplan hat sich nicht groß geändert. Wir haben, wir haben uns zusammengesetzt
00:12:44: zu dritt, ganz am Anfang, und haben uns mal belegt, was braucht es für so eine Geschichte,
00:12:48: und man kommt dann irgendwann eben drauf, wenn man eine Suchen, Infrastruktur, eine Suchmaschine
00:12:52: aufbauen will, dann braucht man eigentlich einen großen Web-Datentool, diesen Webindex,
00:12:57: den man dann sozusagen verfügbar macht, um dann eben darauf sucht, Dienste entwickeltbar zu machen.
00:13:04: Und wir haben uns aber recht früh schon gesehen, dass wir eben ethische Aspekte anschauen müssen,
00:13:09: rechtliche Aspekte, wir brauchen Kommunikation, wir brauchen die Anwendungsentwicklung,
00:13:15: und so, das haben wir schon relativ früh rausgearbeitet. Das war am Anfang sehr rudimentär,
00:13:20: aber dass sich die Grundsätze sind, sind erhalten. Und natürlich ist jetzt der Fahrplan,
00:13:26: wo es angepasst werden, und natürlich haben wir auch erstmal darauf hinarbeiten müssen,
00:13:29: dass wir überhaupt eine Förderung kriegen, weil ganz in der Freizeit liegensend nicht.
00:13:33: Wir mussten eben schauen, dass wir auch mal Europa inspirieren,
00:13:36: hier so was auszuschreiben. Man kam überhaupt nicht auf die Idee, es gab so kleine Grassroot-Ausschreibungen
00:13:43: für kleine Grassroot-Entwicklungen im Offensorysbereich, aber diese Idee,
00:13:48: mal einen größeren Versuch zu starten, so eine Infrastruktur mal zu demonstrieren,
00:13:53: und so verteiltes Crawling und Indexieren zu machen, da musste auch erstmal Brüssel dazu inspirieren,
00:14:00: und das geschah aber auch, und dann gab es auch eine Ausschreibung, und dann konnten sich
00:14:04: viele Teams beworben, und dann haben wir uns da durchgesetzt und konnten jetzt eben in den letzten
00:14:10: zwei Jahren schon an so einem Index mal arbeiten und machen die jetzt auch in den nächsten Wochen
00:14:16: verfügbar für erste Tests. Und das ist natürlich auch eine gewisse strategische Perspektive,
00:14:23: die wir haben, haben muss und auch eine gewisse Ausdauer an so einem Thema dran zu bleiben.
00:14:28: Aber mich hat es als Naturwissenschaftler und als Mensch und als Bürger einfach gepackt und gesagt,
00:14:33: "Wir müssen was tun", und so sind wir auf diesen Weg gekommen. Aber der Plan hat sich nicht
00:14:37: grundsätzlich geändert, jetzt wird es langsam groß und es muss auch groß werden und es geht uns
00:14:43: immer noch zu langsam in der Politik, aber gerade auch die aktuelle geopolitische Situation,
00:14:50: die wirklich erschütternd ist, was daran ein Bruch entsteht, auch an Konflikt oder an schwierigen
00:15:02: Linien zumindest zwischen Deutschland, Europa und dann eben aber auch den USA, die wecken einigen
00:15:08: Leute auf und bringen Momentum in bestimmte Entwicklungen. Dann kommen wir mal zur Technik und
00:15:15: damit zurück zu Michael. Was ist denn so ein Suchindex und wie macht man den? Und warum,
00:15:22: gleich sind ihn dran noch, kann den nicht einfach jeder so machen? Also ist das irgendwas, was
00:15:26: super kompliziert ist oder so, dass Google das nur kann? Ja, das sind viele Punkte. Beginnen wir
00:15:32: ja vorne. Was ist so ein Suchindex? Ein Suchindex ist quasi ein Index, wie man ihn aus einem Buch
00:15:39: kennt. Man sucht nach gewissen Worten in einem Buch, schlägt dann die Seite nach, in der das Wort
00:15:47: vorkommt und blättert dann dahin und liest sich dann die Seite durch. Genauso funktioniert ja auch ein
00:15:52: Webindex, nur dass es halt nicht Seiten oder ein Buch ist, sondern enorme Anzahl an Webseiten
00:15:59: und eben Worte oder auch Medieninhalte in diese Webseiten und möchte dann halt die Position in
00:16:07: der Seite finden bzw. die Seite selbst. Ein Index ist also eigentlich relativ was Einfaches und
00:16:14: wird auch in sehr sehr vielen Suchanwendungen genutzt. Die Schwierigkeiten eines Webseuches
00:16:20: geht, ist halt, dass es eine enorme Datenmenge von mehreren Betarbeit gibt, die man einfach in
00:16:30: diesen Index aufnehmen muss und auch das Web aus ganz ganz ganz unterschiedlichen Daten selbst
00:16:39: besteht. Von Block über den Newsartikel, über Tabellen von irgendwelchen Bundesländern spielen
00:16:49: oder anderen Fußball spielen oder Sportereignissen bis hin zu Videos und Bildern. Und auch dass
00:16:58: natürlich diese Inhalte verteilt sind im Web und man am Anfang keine Karte hat, wo man denn beginnen
00:17:06: soll, welche Webseiten wichtig sind, woher weniger wichtig sind. Das heißt man braucht
00:17:13: eine relativ große Infrastruktur per se um diese Datenmengen zu verarbeiten und man muss
00:17:20: mal beginnen, Crawler Systeme aufzusetzen, die dann die Links verfolgen, die sich dann nicht
00:17:25: verlaufen, weil sie immer bei den Links in Kreis laufen, die gewisse gefährliche Inhalte
00:17:34: bzw. Inhalte, die nicht adäquat sind, vermeiden oder zum Beispiel wenn man keine Trojaner TAPT
00:17:41: oder ähnliches und auch damit man da entsprechend effizient und skalierbar vorgeht. Das ist
00:17:49: oder die erste technische Schwierigkeit. Die zweite Technische Schwierigkeit ist natürlich
00:17:56: die gesamten Inhalte dann entsprechend vorzuverarbeiten, Rauschen rauszurechnen und nur die relevanten
00:18:06: Inhalte dann zu behalten, also zum Beispiel bei Webseiten, die Navigationsleisten nicht
00:18:10: ab und mit absperren, sondern nur den Haupttext an der Webseite nimmt, gegebenenfalls auch
00:18:15: zwischen den Haupttext und Kommentaren zu unterscheiden und versucht möglichst reine
00:18:22: Daten zu erzeugen und auch diese Daten vielleicht anreichert. Man hat festzustellen, um welche
00:18:27: Personen wird in ein Newsartikel gesprochen oder welche Firmen werden genannt, welche Produkte
00:18:33: werden genannt oder ähnliches und dann im dritten Schritt eben diese Datenstruktur zu
00:18:40: erzeugen, diesen Index selbst zu erzeugen, der dann im einfachsten Fall sagt, welches
00:18:46: Wort in welcher Webseite vorkommt, aber dann auch in viel komplexeren Fällen, dann spricht
00:18:52: man dann auch neuerdings, so was der Wettbeecktungen oder embeddings, versucht die Semantik von
00:19:00: gesamten Wortteilen oder auch Bildteilen oder auch Medienteilen in eine Zahlenkette
00:19:06: zu speichern, die man dann in der Folge für die Suche verwenden kann.
00:19:10: Aber ist nicht, also aus meiner Sicht jetzt gerade auch und aus deinem Bereich, wo sich
00:19:16: so viel getan hat in den letzten Jahren, jetzt eigentlich sowieso ein relativ guter Zeitpunkt,
00:19:21: weil man neue Tools hat und weil sich gerade bei diesem Data-Mining und diesem ganzen
00:19:26: Angesammle von Daten und Auswertung durch KI-Musterfindung und wie es alles heißt, man
00:19:32: da bessere Chancen hat inzwischen?
00:19:35: Ja, ich glaube, dass es derzeit ein zweischnelliges Schwert ist.
00:19:39: Also die Fähigkeit mit Medien, natürlich sprachlichen Text und Bildern zu rechnen,
00:19:46: hat sich massiv verbessert.
00:19:50: Die gesamte Sprachmodelle, aber auch Bildklassifikationen, Bildverarbeitung mit Deep Learning, haben wir
00:20:00: einen enormen Stellenwert oder einen enormen Qualitätssteigerung bekommen.
00:20:04: Der Nachteil ist aber, dass die Platzhirschen da auch schon ihre jetzt schon vorhandenen
00:20:12: Vorteile ausspielen können, nämlich dass du für diese Techniken auch viel, viel mehr
00:20:16: Ressourcen brauchst.
00:20:17: Du brauchst mehr Hardware, du brauchst mehr Speicher, du brauchst auch mehr Skalierbarkeit, um
00:20:24: das großflächig auf alle Webdaten beispielsweise anwenden zu können.
00:20:30: Und diesen Vorsprung muss man auch erst einmal aufholen und diese Skalierung zu erreichen.
00:20:35: Das heißt, das gleiche Problem, was wir vorher hatten mit Infrastrukturen, die Webdaten sammeln
00:20:42: und speichern und dann klassischen Index überführen können, die gleiche Schwierigkeit haben wir
00:20:47: jetzt noch einmal, dass wir auch noch mal zusätzliche Infrastrukturen brauchen, die diese Verarbeitung
00:20:54: der Medien mit die Learning oder Maschinen-Lernverfahren abwichsen können auf dem Skalenniveau, dass
00:21:02: man bei den Labor- und Labor-Arten verarbeitet.
00:21:03: Das heißt, hier ist noch einmal mehr Abstand, was mir in der Sicht hinzugekommen.
00:21:09: Stefan, das hört sich jetzt eher nicht so optimistisch an.
00:21:15: Wie siehst du das?
00:21:17: Wo liegen die Chancen?
00:21:18: Naja, unsere Chance ist eben da, dass wir gesagt haben, ja, wir haben eigentlich Rechenzentren,
00:21:24: ohne Ende in Europa.
00:21:27: Wir haben genügend Rechen-Sensoren und eigentlich, wer einer der Hauptgedankener war, einfach
00:21:32: von unserer Open-Search-Foundation, lasst uns das nicht alleine und für uns mit unseren
00:21:36: Rechenressourcen machen, sondern lasst uns Rechenzentren zusammenschalten.
00:21:40: Lasst uns einfach Leute begeistern, damit zu machen und wir haben mit den ersten Experimenten
00:21:45: einfach angefangen und haben an verschiedenen Stellen dann auch schon mal bestehende Quarter,
00:21:49: die sind ja auch teilweise Open Source, einfach mal loslaufen gelassen und haben geschaut,
00:21:54: wie kriegen wir das über verschiedene Rechenzentren hin?
00:21:56: Dann gab es Probleme mit der Vitalisierung, mit der Vernetzung dieser Rechenzentren und
00:22:01: dann haben wir dann irgendwann das auch wieder sein lassen, die Experimenten und haben dann
00:22:04: nächsten Level geschaffen und das ist auch eine große Kunst, jetzt quasi die Michael
00:22:10: und die ganzen Techniker eben auch meistern, um ihre Rechenzentren zu erzielen.
00:22:13: eben wirklich so eine virtualisierungs-Ebene über Großrechtenzentren verteilt über ganz Europa zu schaffen,
00:22:19: die dann gemeinsam orchestriert, das Web durchcrawled und dann eben vorverarbeitet, indexiert und so weiter.
00:22:26: Aber dieser Gedanke, lasst es nicht alleine machen, sondern schalte einfach Rechenzentren zusammen,
00:22:32: eben auch aus dem öffentlichen Bereich von Forschungszentren, das Zerren, die Geburtstätte des Webs,
00:22:37: hat sofort gesagt, ja, dann machen wir mit, dann helfen wir wieder dieses, ja doch teilweise,
00:22:43: konventionell verunblickte Web wieder ein bisschen zu fixen, wieder ein bisschen zu reparieren.
00:22:47: Und dieser Gedanke, der macht eigentlich sehr viel möglich auf einmal, weil da gibt es kein Limit,
00:22:53: ob wir jetzt im Moment schalten, wir jetzt fünf Rechenzentren zusammen, zwei holen wir gerade noch dazu,
00:22:58: aber ob das dann irgendwann mal zehn oder 15 oder 30 werden, das ist doch schon noch ein riesen Aufwand,
00:23:05: da ist noch viel Engineering, da kann der Michael sich an der Dieb von singen,
00:23:08: aber es ist erst mal konzeptuell, nicht so ein riesen Ding.
00:23:11: Und diese Skalierbarkeit, diesen Riesen plus auf unserer Seite, weil wir eben gleich so arbeiten,
00:23:18: dass wir auch mal eins ausschalten können, dann Rechenzentren und dann weiter ersetzen,
00:23:21: dass wieder dieses Atmen, dieses dynamische Systems, das ist intrinsisch in unserem Gedanken drin.
00:23:27: Und also ein Punkt, jetzt können wir mal zum Positiven, bevor wir die nächste Hürde gleich in Angriff nehmen und darüber reden,
00:23:33: dass ihr wollt diesen Index, wenn er denn erstellt ist, oder in der Form, wie er erstellt wird,
00:23:39: öffentlich zugänglich machen und ihr wollt auch die Algorithmen, die genutzt werden, Open Source stellen.
00:23:45: Und das ist ja auch eine Ansage.
00:23:49: Also bei uns ist das die Grundlage gewesen.
00:23:51: Wir wollen etwas Öffentliches schaffen, wir wollen etwas, was eben transparent ist, was demokratisch auch auditiert werden kann, schaffen.
00:23:59: Und da war sozusagen Open Source und das Ganze offen zu stellen, sofort der Gedanke, das ist eine in das Leben verteidigen Rechnen
00:24:08: und öffentlicher Kuratierung, sozusagen auch unser drittes Standbein eben, die Dinge Open Source zu machen,
00:24:15: dass man praktisch die Algorithmen, die den Index auch prägen und gestalten, praktisch auditieren kann, angucken kann
00:24:22: und dass diese Daten eben nicht einer Firma und damit zum Ausnutzen eines ganzen Monopols zur Verfügung stehen,
00:24:29: sondern eben als öffentliches Gut, das Web ist eh ein öffentliches Gut, das also auch dieser Web Index ein öffentliches Gut wird
00:24:35: und den ganzen Forschern, Innovatoren, Start-ups und Industrie-Playern zu verfügen stehen
00:24:42: und damit eine Vielfalt vom Diensten entstehen kann, die eben umsonst nur wenige oder sogar einzelne Player nur...
00:24:51: Jetzt sagen wir mal, wir haben die recht, die technischen Hürden sind in irgendeiner Form zumindest so machbar,
00:25:00: dann bleibt trotzdem noch ein Punkt, den man oft hört, dass Europa rechtlich schwierig, also sagen wir mal schlechter dasteht,
00:25:09: als mal wegen Kontinenten oder Gegenden, in denen die Regularien nicht so eng gefasst sind.
00:25:13: Also einerseits natürlich, also für mich als EU-Bürger fühle ich mich natürlich besser, wenn ich weiß, okay, da gibt es eine Datenschutzbestimmung
00:25:19: und so weiter, hört sich erstmal gut an mit dem Datenschutz, keine Ahnung, wie ernst das dann genommen wird,
00:25:23: aber zumindest ist die ganze Sache da. Aber für Initiativen und Unternehmen kann sowas ja auch eine Hürde sein.
00:25:29: Ist das so? Also ist das auch für euch?
00:25:32: Das ist so, das ist so und da klagen auch viele drüber, aber genau deswegen braucht Europa auch diesen Web Index,
00:25:37: so muss den dazu packen, zu den Regulatorien, weil, wie unsere europäische Rechtsprechung eben bestimmte Dinge reguliert,
00:25:47: zum Beispiel, dass wenn jemand sagt, er möchte seine Daten nicht für KI genutzt haben, dann muss das auch umgesetzt werden.
00:25:54: Und das machen wir nicht zu 100 Prozent, so vor Ort können wir das mit dem Index regeln, aber wir können in die Richtung kommen.
00:26:01: Das heißt, wir können zum Beispiel jetzt die Webseiten durch Forsten sagen, ja, bitte diesen Teil nicht für KI verwenden,
00:26:08: dann kommt das in den Index und man kann dann entstprechend Webseiten rausfiltern
00:26:13: und dann nur praktisch die Verwenden für KI trainieren, die eben auch das zugelassen haben.
00:26:19: Und so können wir zum Beispiel eben diese reguläre Regulatorie mit umsetzen halten. Michael, willst du das noch ergänzen?
00:26:27: Ja, aber ich glaube, man muss es allgemein ergänzen. Ich glaube, das zeigt auch, also auch mit den Schwierigkeiten,
00:26:33: die wir vorher angesprochen haben und der Übermachtstellung von den Gatekeepers, wie sie jetzt genannt werden,
00:26:41: bedingt es auch, dass wir einen komplett neuen Weg gehen, indem man eben das gesamte Offen transparent und kollaborativ macht,
00:26:49: kollaborativ auf Ebene der Datenzentren, aber auch auf Ebene jener, die diesen Index nutzen wollen
00:26:58: und auch jene, die beitragen wollen, diesen Index zu erstellen, zu bauen.
00:27:04: Das kann man dann nur offen und in einer Gemeinschaft machen und dann bekommt man auch die Unterstützung,
00:27:12: dass man gewisse Inhalte dann eben für Anwendungen wie generative KI oder so verwenden darf.
00:27:19: Ich hatte gerade letzten seine E-Mail, wo jemand geschrieben hat, er blockt normalerweise alle Crawler der Großen,
00:27:27: aber unseren Crawler lässt dadurch, weil er uns einfach auf diese Art und Weise unterstützt.
00:27:32: Und ich glaube, somit ist das Projekt sowohl auf technischer Ebene ein anderer Ansatz,
00:27:37: den wir wählen, um diesen Vorsprung der Großen eben Web zu machen, aber auch in dem, wie wir Web haben wollen,
00:27:48: beziehungsweise wie wir im Web kooperieren wollen, nicht nur in Bezug auf, wer welche Anzeigen wo schaltet,
00:27:56: sondern dass wir auch diesen virtuellen Raum wieder als Gemeinschaft von unterschiedlichsten Organisationen,
00:28:02: privater Ländern, die gewisse Interessen in der virtuellen Welt haben, auch den Raum für uns zu gestalten.
00:28:07: Und ich glaube, da setzen wir einen guten Beitrag und wir wollen das natürlich nicht im rechtsfreien Raum machen,
00:28:15: sondern auch, dass wir diese rechtlichen und ethischen Vorgaben auch entsprechend berücksichtigen.
00:28:21: Ich weiß jetzt darauf hin, wir hatten einen Podcast von nicht so langer Zeit, zu Metagär, zu der letzten deutschen Suchmaschine
00:28:27: und wie da der Kampf irgendwie fast verloren ging und was da jetzt gerade in der Macher ist.
00:28:33: Ein Punkt, der mir da mal aufgefallen ist und der aber sehr entscheidend ist, also ich frage euch das jetzt auf der Ihr seid,
00:28:39: auf der Macher Seite, aber es gibt ja eben auch die Konsumenten und Konsumentinnen Seite, auf der ich natürlich bin.
00:28:45: Und da ist es total wichtig, dass die Leute, die das Ganze nutzen, eben auch eine bewusste Entscheidung treffen.
00:28:52: Zum Beispiel eine bewusste Entscheidung, eine andere Suchmaschine zu benutzen, als die, die so groß ist und so praktisch.
00:28:58: Jetzt ist es aber so, es gibt da zwei Dinge, die mir aufgefallen sind.
00:29:02: Ich würde von euch nur wissen wollen, wie ihr die seht.
00:29:04: Das eine ist, diese große Suchmaschine, nennen wir sie mal Google, ist immer schlechter geworden.
00:29:10: Also für mich, ich finde, dass sie qualitativ in den letzten Jahren so nachgelassen hat, dass ich mir denke, eigentlich finde ich das gar nicht gut.
00:29:17: Also die zeigt mir nicht das an, was ich möchte.
00:29:19: Das Aspekt Nummer eins, der spielt euch natürlich nicht karn.
00:29:21: Aspekt Nummer zwei ist, aber das ganze Leute, auch die ich kenne und aus der jüngeren Generation, obwohl sich das immer so gemein anhört,
00:29:27: dazu Übergangen sind, nur noch kuratierte Inhalte zu konsumieren und überhaupt nicht mehr zu suchen.
00:29:32: Überhaupt das ganze Konzept, so wie ich das Netz benutze oder so und so wie ihr das wahrscheinlich auch macht,
00:29:38: weil wir einfach Teil unseres Tages damit verbringen, nach Dingen zu suchen oder so, dass das ganze Herrscharen von Leuten überhaupt nicht machen.
00:29:45: Fangen wir mit Punkt Nummer eins an, die bewusste Entscheidung dafür eben andere Sachen zu nutzen.
00:29:51: Was ist, was ist der, also ich meine, der Vorteil für euch ist klar, aber seht ihr das kommen, seht ihr das das Leute machen?
00:29:57: Muss ich ganz klar mit Ja beantworten.
00:29:59: Ich glaube auch, die Beobachtung, die du gemacht hast, dass die Dienste immer schlechter werden,
00:30:05: konnte man Studien auch quantitativ zeigen, einfach dadurch, dass viel, viel mehr Werbeinhalte quasi angeboten werden
00:30:15: und das ganze zu sehr kommerzialisiert wird.
00:30:18: Das betrifft natürlich auch die Search Engine Optimization, wo du dann versuchst, deine Inhalte nach oben zu bringen,
00:30:24: ob die jetzt 100 Prozent passen oder nicht, der dir die beste CEO hat gewinnt.
00:30:29: Und ich glaube, diesen Effekt sieht man auch gemeinsam mit dem, dass es immer mehr Daten und immer mehr Informationen gibt.
00:30:38: Die Schwierigkeit, ich habe mit der bewusste Entscheidung treffen, ist ein bisschen, es gibt keine Entscheidungsauswahl.
00:30:45: Wir haben zwei Indizes, das ist Google und Bing, das sind jetzt noch andere entstanden, aber das waren die Hauptindices
00:30:55: und die meisten, die irgendwie eine Alternative anbieten, wie DacDacGo oder Cosia, setzen auf diesen Indices auf.
00:31:03: Das heißt, unter der Haube ist es immer wieder die zwei großen kommerziellen Indices, die man nutzt, die Rankings, die man bekommt
00:31:12: und auch damit verbunden, die Nichtfähigkeit, was auszuwählen, außer das Frontend.
00:31:20: KI wird das Ganze etwas verändern aus meiner Sicht, weil mit KI und der Kombination als Sprachendellen und Suche
00:31:28: dadurch aus neue Ansätze gegangen werden können, aber das ist vielleicht ein Thema, das wir uns später einmal kurz anreisen.
00:31:36: Stefan, deine Einschätzung.
00:31:37: Ja, ich glaube auch, dass Leute, einige Leute, bewusster auswählen, wo sie ihre Informationen herziehen.
00:31:44: Ich habe das vor acht oder zehn Jahren künftig entschieden, acht Jahre, das glaube ich, das jüngst jetzt so.
00:31:48: Jetzt fülle ich mal auf mit allen Google-Diensten. Das ist eine gewisse Übung.
00:31:51: Ich habe aber jegliche Dienste einfach abgeschaltet und habe für mich Alternativen gesucht.
00:31:56: Das war natürlich erst mal ungewöhnlich, als ich dann auf Mittag umgestiegen bin, die Suchmaschine, die du ja auch gerade noch angesprochen hast.
00:32:03: Das war ein bisschen langsamer und das war ein bisschen behäbiger, aber ich habe mich, aber das hat sich irgendwann irgendwann gut angefühlt.
00:32:11: Es sagt, okay, ich finde trotzdem meine Sachen auf den ersten Klick, die ich brauche.
00:32:16: Manchmal ging es auch etwas schwieriger, aber in großen Garns habe ich es getrocknet.
00:32:20: Es ist so, wie wenn du fast Food ist oder wenn du eben bewusst ein bestimmtes Restaurant ist und bestimmte Sachen konsumierst, die vielleicht besser sind oder bio oder vielleicht langsamer dargereicht werden.
00:32:34: Das ist aber eben Qualität.
00:32:37: Und das tun einige, nicht viele, die Digital Natives, die ich teilweise auch als Digital Natives bezeichne, weil sie teilweise auch einfach wirklich das einfach nehmen, was kommt, tun es weniger.
00:32:50: Aber viele tun es auch und wir müssen eben auch dann, wir wollen die Vielfalt schaffen.
00:32:55: Generelle Suchmaschinen wird wahrscheinlich schwierig sein, so schnell heranzukommen, etwas wie Google, aber Spezialsuchmaschinen zu bestimmten Themen, zu wissenschaftlichen Folgestellungen, zu bestimmten Kunstbereichen oder so.
00:33:08: Die werden mehr und mehr entstehen und die werden sehr interessant sein.
00:33:12: Und dann wird dann wieder sagen, irgendwann, du hast mal die und die Suchmaschine ausprobiert, hey, das ist ein total cooles Ding.
00:33:18: Eine tolle User Experience auch in einem bestimmten Thema.
00:33:20: Und das wollen wir praktisch wieder möglich machen.
00:33:23: Und da bin ich zuversichtlich, dass das kommen wird, wenn dieser Index und auch dieses Konzept, dieses offenen Such-Ökosystems in Europa jetzt langsam voran nimmt und entsteht.
00:33:36: Michael, du hast gerade KI nochmal angesprochen und das können wir durchaus vertiefen.
00:33:40: Ich habe als Stichpunkt, ich weiß leider nicht mehr, was ich damit gemeint habe, deswegen stelle ich es jetzt einfach in den Raum und lass es dich erklären.
00:33:46: KI-Training mit EU-Bias hier stehen.
00:33:49: Du meinst EU-Bias?
00:33:51: Entschuldigung, Bias. Ich sage ja, ich habe jetzt Bias, Bias.
00:33:55: Bias sollte man nicht zu nennen, das ist am Nichtsverstandenes oder sehr negativ konnotiertes Konzept.
00:34:01: Ich habe das Lappi da und kurz gefasst, dass das nicht zitiäfisch, das stimmt.
00:34:08: Genau.
00:34:09: KI-Training ist eine spannende Sache, vor allem wenn man denkt, dass die erste Sprachmodelle dadurch entstanden sind, dass es eine kleine NGO in den USA gegeben hat oder gibt,
00:34:22: die sich Common Crawl, die halt das Web gekrawlt haben, und man dann KI-Modelle auf riesengroßen Datenmengen trainiert hat.
00:34:31: Und ich glaube, das ist schon auch wichtig aus europäischer Sicht zu verstehen, dass wir auch aufgrund der Regularien,
00:34:40: und weil wir eigentlich uns nie wirklich getraut haben, sage ich mal, das Web großflächig zu crawlen,
00:34:46: dass wir das auch tun müssen, um die Datengrundlage für KI-Modelle zu schaffen.
00:34:53: Und diese auch kontinuierlich am Laufen zu halten, sodass wenn man KI-Modelle trainiert, dass die auch dann auf den aktuellsten Daten trainiert sind.
00:35:04: Und wenn man sich jetzt überlegt, dass die Trainingsdaten für KI-Modelle eigentlich einen wesentlichen Einfluss haben auf,
00:35:11: wie diese KI-Modelle, sage ich mal, ticken, welchen Bias die haben,
00:35:17: dann muss man sich auch überlegen, dass es vielleicht hilfreich wäre für uns mehr europäische Daten in diese Modelle reinzugeben.
00:35:24: Das heißt, mehr Sprachvielfalt, mehr kulturelle Vielfalt, aber auch unsere Werte und unser Wertesystem da mit abbilden.
00:35:36: Und ich glaube, dass man halt mit sowas wie ein offener Webindex dazu Beiträge liefern kann,
00:35:41: indem man eben einen stärkeren Fokus auf europäische Webdaten sieht, als wie auf Weltweite wird.
00:35:47: Das ist das, ja, das ist, jetzt habe ich auch den Punkt wiedergefunden hier.
00:35:51: Das ist der Punkt, das ist auch, was Stefan Freund meinte, dass dann halt nicht unbedingt Fast Food drin ist,
00:35:56: sondern eben auch mal der französische Wein.
00:35:58: Oder, um es mal so zu sagen, naja, aber im übertragenen Sinne.
00:36:02: Also um es runterzubrechen, dass die Grundlage dafür, was inzwischen ganz vielen Leuten ihre Antworten liefert,
00:36:10: nämlich diese KI-Modelle als Chatbots oder was auch immer, eben auch darauf basieren, was unsere Realität ist
00:36:16: und nicht die, also so wie im Kino, immer alles kalifornische US-Dinge sind, die einem gezeigt werden.
00:36:24: Da mag das okay sein, weil das ist eben meine Wahl, ich gehe in den Filmen und guck mir den an und dann lasse ich da, kann das alles passieren.
00:36:30: Aber wenn das das ganze Leben ist, immer dann verarmt das auch natürlich die eigene Kultur.
00:36:37: Das ist das, was ihr damit sozusagen, dem wollt ihr entgegenwirken, oder?
00:36:42: Genau, den wollen wir entgegenwirken.
00:36:45: Man muss auch bedenken, dass diese Tools, wo man Informationen bezieht, auch einen gewissen Effekt haben.
00:36:50: Es gibt Studie, die zeigt, dass es einen Search Engine Manipulation Effekt gibt,
00:36:56: der, also zumindest in der Studie hat man zeigen können, dass wenn man Rankings von Suchmaschinen entsprechend verändert,
00:37:03: kann man das Wahlverhalten um bis zu 40 Prozent verändern.
00:37:08: Und das ist eine enorme Zahl, zumindest in gewissen demografischen Gruppen.
00:37:11: Und wir machen sehr viel auf Basis dessen, was wir aus dem Internet ziehen.
00:37:14: Wir forchten, wir konsumieren Nachrichten, Kultur.
00:37:20: Wir wählen, also unser ganzes Leben wird eigentlich zunehmend aus den digitalen Raum mit Informationen gespeist
00:37:27: und das hat uns eben auch irgendwann so erschüttert, dass wir gesagt haben, okay, wenn wir nur das Weltbild
00:37:32: und die Sicht auf das zunehmend digitale Leben durch eine Handvoll Hyperscaler gezeigt kriegen,
00:37:41: dann wird es irgendwann einfach gefährlich.
00:37:44: Und wir haben gesehen, dass jetzt zum Gewissen gerade auch, indem wir diesen Hyperscalern so viel macht,
00:37:49: eben auch so viel ökonomische Macht, die dann wiederum jetzt eine Kombination mit der Politik eingeht
00:37:56: und dann hier jetzt im Moment Frontal auf Europa und dann, wenn sich die westliche Weltordnung losgeht,
00:38:01: das ist sehr gefährlich, was wir noch nicht haben.
00:38:06: Vielleicht noch auch, wenn man einfach den Abstand in den Sack,
00:38:09: wir wissen nicht genau, was die Intention der Hyperscaler ist
00:38:12: und nehmen wir halt das "Don't be evil", so wie es mal früher verstanden hat.
00:38:19: Es bleibt trotzdem eine wenigere Vielfalt.
00:38:24: Es bleibt Singularität anstatt Pluralität.
00:38:27: Und ich glaube, genau das ist es, was wir nicht haben wollen.
00:38:30: Wir wollen Wahlentscheidungen haben.
00:38:32: Zumindest wenn wir uns für etwas entscheiden, wollen wir auch die Möglichkeit haben,
00:38:36: dann das entsprechende Produkt zu nehmen.
00:38:38: Niemand wäre damit sofrieden, wenn es nur eine Kaffeesorte im Supermarkt gebe
00:38:42: oder eine Tee-Sorte oder vielleicht zwei oder drei.
00:38:45: Wir wollen da auch die Auswahl haben und so sehe ich das auch in der virtuellen Welt.
00:38:49: Das sind schon schöne Worte, die uns Richtung Ende tragen
00:38:53: und aber konkret noch die Frage, wo seid ihr gerade und was sind die nächsten Schritte?
00:38:59: Technisch sind wir so weit, dass wir die grundlegenden Pipelines, wie wir das nennen,
00:39:05: also die grundlegenden Schritte vom Crawling bis zur Indexerstellung
00:39:10: fertig haben in einer ersten Version
00:39:13: und wir jetzt dann ab eigentlich diesem Monat, also ab Februar 25
00:39:19: mit der täglichen Erstellung von Index Shards, wie wir das nennen,
00:39:24: also Teile vom Index beginnen, die wir dann halt täglich herunternehmen.
00:39:28: Und in seine eigene Anwendung, wie ihre eigene Anwendung integrieren kann.
00:39:33: Und so sind wir dann in der Lage, täglich die Dosis Web an die Anwendungs-
00:39:40: an den Nutzerinnen zu geben, die sie quasi haben oder verarbeiten wollen.
00:39:47: Das geht auch damit einher, dass wir mit Ende März dann einen offenen Index Launch haben,
00:39:53: einen Public Index Launch haben, wo wir dann auf Zuspruch von der Community hoffen,
00:39:57: und auf sehr, sehr viele Leute, die mit unserem Index wunderschöne Anwendungen bauen wollen.
00:40:03: Genau, aber organisatorisch sind wir an einer ganz spannenden Stelle.
00:40:07: Wir haben jetzt genau unser Projekt etwas verlängert, aber wir haben noch ein Jahr Funding.
00:40:11: Und dann geht uns das Funding aus, und zwar in diesen europäischen Projekt,
00:40:18: OpenWebsite.eu, in dem wir das praktisch jetzt pilotieren,
00:40:22: aber auch wie jetzt OpenSource Foundation. Sie sind eine kleine NGO, die zu 100% auf Projektfunding angewiesen ist.
00:40:29: Und das wird dann irgendwann dünn. Und wenn wir wissen, wie lange es braucht,
00:40:33: dass praktisch solche Funding-Töpfe wieder aufgemacht werden, wie man sich bewirbt und so weiter,
00:40:40: ist es sozusagen 5 vor 12, dass wir auch Europa, sagen wir mal, das rüberbringen und Europa versteht,
00:40:49: okay, das ist was, die da bauen ist wichtig, ist gut.
00:40:52: Jetzt wollen wir das bitte auf die nächste Ebene heben und weiter professionellisieren und ausrollen.
00:40:58: Und da kämpfen wir gerade an den verschiedensten Stellen, in den Hauptstädten, in Brüssel, in den Communities,
00:41:07: um dieses Verständnis für das, was wir tun, wirklich so weit zu schärfen, dass eben auch die entsprechenden Töpfe entstehen.
00:41:14: Und deswegen ist es für uns unheimlich wichtig, dass dieses Thema auch multipliziert und verstanden wird,
00:41:19: dass Europa sich da eben auch entsprechend committed und die Fördertöpfe und auf die technisch bestehenden Infrastruktur
00:41:29: kapazitäten öffnet, um unseren Konzept des verteilten Indexieren, des verteilten Rechnens, des verteilenden Suchens zu implementieren.
00:41:38: Und ich hoffe, dass wir durch den Podcast zumindest einen kleinen Anteil daran haben.
00:41:41: Aber ich sage jetzt noch mal schnell, wir verlinken natürlich openwebsarch.eu, also die Webseite, die über das Projekt auch informiert,
00:41:48: wo zum Beispiel auch die Statistiken stehen, wie das 3,1 Milliarden URLs gekrawlt wurden.
00:41:54: Also derzeit steht hier irgendwie.
00:41:56: Aber, Stefan, was ist denn die Möglichkeit, wenn ich jetzt beschließe, okay, ich will mich persönlich mit engagieren?
00:42:03: Was kann ich machen?
00:42:04: Dann kann man sich bei uns melden.
00:42:06: Wir haben eine Community, wie das so schön heißt.
00:42:09: Da gibt es verschiedene Community-Kanäle, in denen man sich engagieren kann.
00:42:14: Wir haben Arbeitsgruppen zu den verschiedensten Fragenstellungen, eben technischer Natur, ethischer Natur, Anwendungsfragen,
00:42:23: aber auch rechtliche Fragen werden in den Arbeitsgruppen bearbeitet.
00:42:27: Auch Literacy, also wird sich auch Bildung rundum suche, wird vermittelt.
00:42:33: Und da kann man uns unterstützen, entweder als Individuum oder auch als Organisation.
00:42:39: Und kann sich da bei uns melden und sich entsprechend ein.
00:42:44: Wunderbar. Michael Granazar, Stefan Vogt.
00:42:47: Haben wir irgendwas gravierendes ausgelassen, bevor ich jetzt Tschüss sage?
00:42:50: Aus meiner Sicht ein großes Danke an euch und euer Team, dafür uns die Möglichkeit zu geben,
00:42:55: dass wir über unser Herzensanliegen hier sprechen durften.
00:42:59: Genau. Und aus meiner Sicht eigentlich nicht viel vergessen, was ich mitgeben möchte zum Schluss ist,
00:43:06: dass diese Internetzuche so ein interdisziplinäres und so ein allgemeines Werkzeug ist für uns alle an den verschiedensten Stellen,
00:43:14: dass wir alle dafür Verantwortung übernehmen sollten und uns alle darum kümmern müssen
00:43:19: und nicht sagen, mach du mal oder ja, wichtig, nee, aber was hab ich damit zu tun,
00:43:24: sondern dass es so interdisziplinär von Technik bis Ethik und zurück, dass es uns alle angeht,
00:43:30: morgens, mittags, abends in der Arbeit und deswegen also, es ist eine gemeinschaftliche, gesellschaftliche Aufgabe
00:43:37: und ich hoffe, dass wir viele Unterstützer finden und das in Zukunft eben etwas europäisch und ja, ethisch und mit unseren Werten gestalten können.
00:43:46: Ja, und wenn wir alle beim Suchen immer mal darüber nachdenken, mit welcher Maschine wir das gerade machen
00:43:51: oder welche Technologie wir gerade nutzen und ich meine, auch wenn es nicht wie bei dir gleich dazu führt,
00:43:55: dass man dann gleich abspringt, aber es hilft ja schon, dass man überhaupt das Problem mal erkennt und mal drüber nachdenkt,
00:44:02: dann ist ja wahrscheinlich auch schon erstmal ein Schritt getan.
00:44:05: Alles darüber, wie die Initiative weitergeht und ob Europa demnächst einen ebenfalls richtig großen Suchindex hat und welche Sachen damit gemacht werden können,
00:44:15: liest man natürlich auf golem.de, das war der Werbeblock in eigener Sache.
00:44:19: Vielen Dank Michael, vielen Dank Stefan, vielen Dank fürs Zuhören und bis zum nächsten Mal.
00:44:24: Danke.
00:44:25: Danke.
Neuer Kommentar