Kommt die europäische Suchmaschine?

Shownotes

Das Projekt https://openwebsearch.eu/

Der Crawler https://openwebsearch.eu/owler/

Der Verein https://opensearchfoundation.org/

Transkript anzeigen

00:00:00: Besser wissen, der Podcast von Golem.de.

00:00:05: Hallo und herzlich willkommen zu einer weiteren Ausgabe. Mein Name ist Martin Wolff und ich

00:00:09: bin Podcastbeauftragter von Golem.de und ich befinde mich heute im Homeoffice. Das war

00:00:13: nicht ganz so geplant. Eigentlich sollte ich im Büro sein, aber das ist nicht schlimm,

00:00:17: weil meine beiden Gäste sind mir ohnehin aus der Ferne zugeschaltet. Michael Granitzer

00:00:22: und Stefan Vogt, beide von der, also arbeiten unter anderem für die Open Search Foundation

00:00:27: und können gleich mal erklären, was sie da machen und ob es jetzt schon gleich was falsch

00:00:30: gesagt haben, aber am Anfang. Aber ich weise jetzt schon mal darauf hin, wir sind uns zugeschaltet

00:00:35: über die Ferne. Das hat leider nicht funktioniert, dass wir uns irgendwo in der Mitte von Deutschland

00:00:39: alle treffen an einem netten Ort und einen Kaffee zusammen trinken. Deswegen trinken

00:00:42: alle ihren Kaffee jeweils separat und das kann natürlich Auswirkungen auf die Tonqualität

00:00:47: haben. Das bitte ich jetzt schon mal zu entschuldigen. Wir fangen mal mit Michael an. Michael, was

00:00:51: machst du denn für die Open Search Foundation?

00:00:54: Ja, ich fange vielleicht damit an, was ich Hauptberuflich mache. Ich habe einen Lehrstuhl

00:00:58: für Data Science an der Universität Passau und beschäftige mich da mit maschinenlernen,

00:01:06: heutzutage sage ich mal, Sprachmodelle dazu und KI und auch mit Information & Tribal, sprich

00:01:13: Websuche und als Mitglied der Open Search Foundation bringe ich mich vor allem auf technischer

00:01:20: Ebene in die Entwicklung eines offenen Webindex ein und diesem wollen wir ja im Rahmen eines

00:01:31: europäischen Forschungsprojektes auch realisieren. Da habe ich wieder den anderen Hut auf. Als

00:01:36: Lehrstuhlin habe ich da die technische Koordination.

00:01:39: Bevor ich das mal nachfrage, wie du dazu gekommen bist, gebe ich es weiter an Stefan. Was machst

00:01:44: du?

00:01:45: Ja, ich habe vor einigen Jahren mit die Open Search Foundation aus der Taufe gehoben,

00:01:54: aber eigentlich auch noch mal einen Schritt zurück. Ich bin seit 25 Jahren Wissenschaftler

00:01:58: am Deutschen Zentrum für die Ust-Auron-Protraum-Fahrt im speziellen im Erdbeobachtungszentrum und

00:02:04: mache in diesem Kontext, also seit Littenbeobachtungen von der Erde und viele europäische Projekte auch

00:02:10: mit den feinen Nationen, internationalen Projekte. Und irgendwann vor etwa zehn Jahren habe ich

00:02:14: mir angefangen, Sorgen zu machen, wie wir den digitalen Raum nutzen und dass wir doch

00:02:18: da eigentlich sehr abhängig sind von einigen wenigen Playern und habe dann angefangen

00:02:24: zu überlegen, was können wir in Europa eigentlich tun, um auch uns den digitalen Raum, so wie

00:02:28: wir eben mit Satelliten in die echte Welt kartieren und anschauen, nicht auch den digitalen

00:02:34: Raum anschauen, nicht dann mit Satelliten, sondern eben mit vielleicht feinen Kräften

00:02:39: durch Rechenzentren und uns vielleicht auch das Web so in Europa besser erschließen

00:02:44: und dadurch, daher haben wir dann über diese Organ-Sedge Foundation gegründet, weil

00:02:49: alle Gespräche so erstmal relativ langsam erschienen und die Bewegung sozusagen nicht

00:02:55: dynamisch genug erschienen, wie gesagt, wir müssen was tun und daher haben wir jetzt die

00:03:00: Organ-Sedge Foundation seit mehr als sechs Jahren nach dem Start in inspirierender Europa

00:03:05: sich eine offene Suchinfrastruktur zu bauen, die unseren Werten, unseren demokratischen

00:03:11: Vorstellungen, auch unser Rechtssystem konform sein soll.

00:03:16: Michael, ich wechsle nochmal zu dir zurück. Du bist so was wie der wissenschaftliche Koordinator

00:03:22: des Projektes und du hast auch schon gesagt, du arbeitest mit Data Science, wie bist du denn

00:03:27: dazu gekommen? Wie wird man so was?

00:03:29: Wissenschaftler.

00:03:30: Ja, aber Wissenschaftler für Data Science.

00:03:31: Ja, ich habe mich schon eigentlich sehr früh nach, also schon vor meiner Matura, ich bin

00:03:40: ja Österreicher und das stimmt heiss, dass ich Abi, vor mir dann Abi schon für künstliche

00:03:45: Intelligenz interessiert und die Frage, wie Intelligenz definiert bzw. wie man Algorithmen

00:03:52: oder kann gegebenenfalls Computersystem entwickeln kann, die Intelligenz sind oder Intelligent

00:03:58: erscheinen und habe dann Informatik studiert, eine spezielle Ausrichtung mit so einem Schwerpunkt

00:04:05: auch in Elektrotechnik und habe dann eben verschiedene Kurse im Bereich Maschinen lernen gehört.

00:04:14: Ich erinnere mich, damals waren wir so drei bis vier Leute im Hörsaal bzw. im Seminarraum

00:04:21: und alle haben hier das schräg angeschaut, was man denn da so macht bei Maschinen lernen,

00:04:27: das war komplett nicht on vogue. Ja, ich habe es trotzdem gemacht und es hat Spaß gemacht,

00:04:34: ich habe mich dann auch da im Geschäft wie man Maschinen lernen für die Verarbeitung

00:04:37: von natürlich sprachlichem Texten und Medien verwenden kann. Das war dann ein Forschungszentrum

00:04:44: in Österreich und schon langsam ist das Thema weiter aufgekommen und heutzutage spricht

00:04:51: jeder darüber und ich halte Kurse vor 400, 500 Leute zum Thema Data Science und Maschinen

00:04:58: lernen. Wobei im Hintergrund ist ja klar, solche Sachen

00:05:02: haben wir auch schon vorher schon eine Rolle gespielt, wenn wir jetzt an die großen Suchmaschinen

00:05:07: denken, zu dem wir gleich noch kommen. Aber Stefan, du hast gerade gesagt, ihr habt vor

00:05:11: sechs Jahren die Open Search Foundation gegründet, aus dem Wunsch heraus, dem der US übermacht

00:05:18: auf dem Markt auch unter anderem der Suche ein bisschen was entgegenzusetzen oder eben

00:05:22: einen europäischen Entwurf zu starten. Ihr habt mir notiert, ihr wart zu elf. Was sind

00:05:27: das für Leute gewesen und wie finden die sich zusammen? Also wie hast du zum Beispiel

00:05:31: Michael gefunden oder Michael euch oder wie ist, wie passiert das, dass man da so eine

00:05:35: Gruppe wird? Ja man fängt irgendwann an mit einem kleinen

00:05:38: Klaren von zwei, drei Leuten sich Gedanken zu machen und ich bin viel als Wissenschaftler

00:05:43: auch in europäischen Fakten rumgekommen und habe mit allmöglichen Leuten gesprochen und

00:05:47: gesagt, wir müssen was tun, wir haben ein Problem, wir sind dazu abhängig. Das ist zu

00:05:52: monopolistisch, das ist so ja ökonomisch getrieben und so weiter und alles so ja, wichtiges

00:05:58: Thema ja hervogt, machen sie mal und das hat mich irgendwann echt frustriert und dann

00:06:04: habe ich gesagt, okay wir müssen was tun und dann habe ich mit Leuten gesprochen letztlich

00:06:10: finde ich es hier bei uns im Familien, im Freundeskreis an. Also man sagt also schön

00:06:15: Founder, Fools and Family, aber letztlich so ging es los. Also wir haben dann hier aus

00:06:22: Bekampelkreis Leute gefunden, die sich mit Kommunikation beschäftigen, wir hatten dann

00:06:27: andere Leute, die zwar nicht mit Technik zu tun hatten, aber sich der Sache ja einfach

00:06:34: verschrieben fühlten, gesagt wir machen damit andere hatten eher Finanz Background, die

00:06:37: nächsten hatten Background in digitalen Marketing, dann haben wir, sind wir mal zum Leiter des

00:06:43: Leitmets Rechenzentrums der Bayerischen Akademie der Wissenschaften hier in München gegangen

00:06:47: und haben denen angesprochen, der hat gleich gesagt ja super Idee, glaube ich nicht dabei

00:06:52: und so hatten wir also dann irgendwann eine Gruppe von elf überzeugten bei Samm, die dann die

00:06:58: Orgenzell Foundation gegründet haben, dann kam man relativ schnell, wurde man dann weiter

00:07:03: gereicht, das Zern, habe ich vorhin zum Hörer gegriffen, damit hätte man die IT-Abteilungen

00:07:07: mehrster für search zuständig, zack, kam ich an einen guten Geist, der gesagt hat ja super

00:07:13: perfekt, machen wir mit und so wurden wir weiter gereicht und hatten dann noch eine Tech-Gruppe

00:07:17: zusammen, irgendwann hat mich dann auch ein Professor aus Österreich angesprochen, gesagt

00:07:21: du Stefan, ich hätte da jemand, den würde ich gerne noch mit dazu nehmen, das ist der

00:07:25: Michael, willst du mal mit denen sprechen?

00:07:28: Soll ich auch klar und so auf einmal mal mal zusammen und hatten praktisch eine Gruppe

00:07:33: von immer, eine immer größer werdende Gruppe von überzeugten Leuten, die da mitwirken,

00:07:39: mit dem was sie in ihrem Forschungszentrum an der Universität auch in ihrem Privatbereich

00:07:45: zur Verfügung haben und so sind die Gewachsenen über die Jahre und jetzt langsam versteht

00:07:51: das auch die große Politik und es kommen die Dinge zusammen.

00:07:56: Michael, das Stefan hat so schön gesagt, da kommt der Prof und sagt Mensch guck mal hier,

00:08:00: da Michael, den könntest du auf jeden Fall gebrauchen, was ich jetzt so vor mir sehe,

00:08:04: ist das Leute, das was ihr jetzt auch gesagt habt, dass der Schwerpunkt schon auch in

00:08:08: Richtung Forschung und so weiter geht, ist es so, dass man wahrscheinlich dann eher ansprechbar

00:08:14: ist oder ist es so, dass man dann eher empfänglich ist für sowas, wenn man aus einem wissenschaftlichen

00:08:19: Kontext kommt und jetzt nicht aus dem Privatwirtschaftlichen, weil ich kann mir vorstellen, also weil die Leute

00:08:23: gegen die, nicht gegen die, aber die im Moment die Übermacht bilden, sind natürlich nicht

00:08:28: aus der Wissenschaft und das sind keine Projekte, die mit Schad-Skeller oder so gefördert wurden,

00:08:32: das sind große Unternehmen oder so, aber ihr seid eben aus einem anderen Hintergrund,

00:08:38: siehst du das so, dass das irgendwas ausmacht, macht das einen Unterschied, hilft das oder

00:08:43: ist das stören, keine Ahnung, wie siehst du das? Also aus meiner Sicht macht es wahrscheinlich

00:08:47: einen Unterschied, nicht notwendigerweise, weil wir ja, ich sage mal, wo wir nicht auch

00:08:54: wirtschaftlich denken oder andere bessere Fähigkeiten haben oder ähnliches, sondern auch,

00:09:04: wenn man meistens auch in der Wissenschaft mit einer offeneren Brille an Dinge herangeht und auch

00:09:12: oft einen Gestaltungswillen einfach hat und Dinge, wenn sie nicht so sind, wie sie es sein

00:09:17: sollen oder wenn man sich denkt, wie sie es sein sollen, dann auch versucht zu hinterfragen und

00:09:22: zu verstehen und gerade dann auch in der Informatik, wo man die Möglichkeit hat, dann auch etwas zu

00:09:29: verändern und bei uns liegt es ja auch quasi als Wissenschaftler in der Natur der Sache oder

00:09:36: im Blut, wenn man so haben will, dass wir dann auch natürlich versuchen, entsprechende Mittel zu

00:09:41: bekommen, dass wir an die Grundlagen gehen und in die Tiefe hinab gehen, um zu verstehen eben,

00:09:49: wie diese Dinge funktionieren und dann kommt bald umweigerlich auch zu Forschungsprojekten,

00:09:54: wo man dann größere Gruppen um sich schaut, die ähnliche Zielverfolgung und ähnliche

00:09:59: Fragestellungen haben und so ergibt dann das eine, das andere. Wenn ich da ergänzen darf,

00:10:03: ich glaube ich auch, dass wir eben auch etwas überworneter denken in der Wissenschaft und

00:10:10: quasi auch Grundsatzprobleme angehen und uns nicht von ökonomischen Übermachtssituationen

00:10:15: zum Beispiel einfach verscheuchen lassen. Es gab vor 15 Jahren einen Ansatz des kommerziell

00:10:21: europäische Alternative zu organisieren zwischen Frankreich und Deutschland, zwei große Projekte,

00:10:27: die auf oberster Ebene eingefädelt wurden und da hat dann die Industrie versucht,

00:10:30: da schnell so auch ihre Dinge durchzusetzen und das scheiterte, na kranios. Und wir haben mit

00:10:36: Überzeugung und ohne jegliches Geld angefangen und haben einfach gesagt, okay, wir müssen was tun.

00:10:41: Und aber durch diesen Spirit-Decke-Wachs, das ist gesagt, komm, wir probieren einfach,

00:10:45: wir machen etwas auf und wir arbeiten uns langsam weiter. Dadurch haben wir einen Ansatz geschaffen,

00:10:53: den man kommerziell nicht schaffen könnte, weil wenn man kommerziell gegen jetzt,

00:10:58: wir arbeiten auch nicht gegen, aber wenn man gegen Google arbeiten wollte finanziell,

00:11:03: da hätte man keine Chance. Die haben 200 Milliarden, einen Umsatz im Jahr und das ist so

00:11:08: nicht zu machen. Aber durch Team Spirit und lasst uns gemeinsam angehen, da kann ich einfach

00:11:16: noch einen ganz frischen Geist in so eine Initiative bringen.

00:11:19: Trotzdem, vielleicht darf ich trotzdem auch noch ergänzen, ich glaube,

00:11:23: das ist kein exklusives Eigenschaft aus der Wissenschaft. Es ist halt so, dass wir mehr

00:11:31: Freiheiten und mehr Zeit haben, uns mit diesen Dingen auch zu beschäftigen. Aber man kann das

00:11:35: auch mit der Open Source Community vergleichen, Leute, die halt nach ihrem Job sich noch mal

00:11:42: hinsetzen und dann noch privat in dem einen oder anderen Softwarepaket oder in einem oder anderen

00:11:48: Library arbeiten, wo man einfach auch, weil man etwas schaffen möchte oder verändern möchte,

00:11:55: einfach noch private Zeit investiert. Ich glaube halt, dass wenn man im Unternehmen selbst ist

00:12:00: oder in Unternehmen selbst ist, dass halt für solche Aktivitäten, die nicht gleich monetär an

00:12:04: Gewinn abwerfen, sondern etwas längerfristig angelegt sein müssen, halt meist relativ wenig

00:12:12: Zeit und Freiheit zur Verfügung steht. Das heißt, die müssen dann alles in der Freizeit machen.

00:12:18: Ich, also auch wenn wir jetzt immer mal, wie wir sagen, immer mal natürlich gegen Google,

00:12:22: aber letztendlich ist es ja auch nicht ganz von der Hand zu weisen, dass das, also das Gegengewicht,

00:12:27: nun mal auch das Wort "gegen" beinhaltet, aber zum Punkt "Gewicht", um überhaupt zu starten,

00:12:32: braucht man eine Art Fahrplan, braucht man irgendwie eine Idee. Stefan, wie startet man so ein Projekt?

00:12:38: Oder was war der Fahrplan? Hat der sich geändert?

00:12:40: Es ist ganz witzig, der Fahrplan hat sich nicht groß geändert. Wir haben, wir haben uns zusammengesetzt

00:12:44: zu dritt, ganz am Anfang, und haben uns mal belegt, was braucht es für so eine Geschichte,

00:12:48: und man kommt dann irgendwann eben drauf, wenn man eine Suchen, Infrastruktur, eine Suchmaschine

00:12:52: aufbauen will, dann braucht man eigentlich einen großen Web-Datentool, diesen Webindex,

00:12:57: den man dann sozusagen verfügbar macht, um dann eben darauf sucht, Dienste entwickeltbar zu machen.

00:13:04: Und wir haben uns aber recht früh schon gesehen, dass wir eben ethische Aspekte anschauen müssen,

00:13:09: rechtliche Aspekte, wir brauchen Kommunikation, wir brauchen die Anwendungsentwicklung,

00:13:15: und so, das haben wir schon relativ früh rausgearbeitet. Das war am Anfang sehr rudimentär,

00:13:20: aber dass sich die Grundsätze sind, sind erhalten. Und natürlich ist jetzt der Fahrplan,

00:13:26: wo es angepasst werden, und natürlich haben wir auch erstmal darauf hinarbeiten müssen,

00:13:29: dass wir überhaupt eine Förderung kriegen, weil ganz in der Freizeit liegensend nicht.

00:13:33: Wir mussten eben schauen, dass wir auch mal Europa inspirieren,

00:13:36: hier so was auszuschreiben. Man kam überhaupt nicht auf die Idee, es gab so kleine Grassroot-Ausschreibungen

00:13:43: für kleine Grassroot-Entwicklungen im Offensorysbereich, aber diese Idee,

00:13:48: mal einen größeren Versuch zu starten, so eine Infrastruktur mal zu demonstrieren,

00:13:53: und so verteiltes Crawling und Indexieren zu machen, da musste auch erstmal Brüssel dazu inspirieren,

00:14:00: und das geschah aber auch, und dann gab es auch eine Ausschreibung, und dann konnten sich

00:14:04: viele Teams beworben, und dann haben wir uns da durchgesetzt und konnten jetzt eben in den letzten

00:14:10: zwei Jahren schon an so einem Index mal arbeiten und machen die jetzt auch in den nächsten Wochen

00:14:16: verfügbar für erste Tests. Und das ist natürlich auch eine gewisse strategische Perspektive,

00:14:23: die wir haben, haben muss und auch eine gewisse Ausdauer an so einem Thema dran zu bleiben.

00:14:28: Aber mich hat es als Naturwissenschaftler und als Mensch und als Bürger einfach gepackt und gesagt,

00:14:33: "Wir müssen was tun", und so sind wir auf diesen Weg gekommen. Aber der Plan hat sich nicht

00:14:37: grundsätzlich geändert, jetzt wird es langsam groß und es muss auch groß werden und es geht uns

00:14:43: immer noch zu langsam in der Politik, aber gerade auch die aktuelle geopolitische Situation,

00:14:50: die wirklich erschütternd ist, was daran ein Bruch entsteht, auch an Konflikt oder an schwierigen

00:15:02: Linien zumindest zwischen Deutschland, Europa und dann eben aber auch den USA, die wecken einigen

00:15:08: Leute auf und bringen Momentum in bestimmte Entwicklungen. Dann kommen wir mal zur Technik und

00:15:15: damit zurück zu Michael. Was ist denn so ein Suchindex und wie macht man den? Und warum,

00:15:22: gleich sind ihn dran noch, kann den nicht einfach jeder so machen? Also ist das irgendwas, was

00:15:26: super kompliziert ist oder so, dass Google das nur kann? Ja, das sind viele Punkte. Beginnen wir

00:15:32: ja vorne. Was ist so ein Suchindex? Ein Suchindex ist quasi ein Index, wie man ihn aus einem Buch

00:15:39: kennt. Man sucht nach gewissen Worten in einem Buch, schlägt dann die Seite nach, in der das Wort

00:15:47: vorkommt und blättert dann dahin und liest sich dann die Seite durch. Genauso funktioniert ja auch ein

00:15:52: Webindex, nur dass es halt nicht Seiten oder ein Buch ist, sondern enorme Anzahl an Webseiten

00:15:59: und eben Worte oder auch Medieninhalte in diese Webseiten und möchte dann halt die Position in

00:16:07: der Seite finden bzw. die Seite selbst. Ein Index ist also eigentlich relativ was Einfaches und

00:16:14: wird auch in sehr sehr vielen Suchanwendungen genutzt. Die Schwierigkeiten eines Webseuches

00:16:20: geht, ist halt, dass es eine enorme Datenmenge von mehreren Betarbeit gibt, die man einfach in

00:16:30: diesen Index aufnehmen muss und auch das Web aus ganz ganz ganz unterschiedlichen Daten selbst

00:16:39: besteht. Von Block über den Newsartikel, über Tabellen von irgendwelchen Bundesländern spielen

00:16:49: oder anderen Fußball spielen oder Sportereignissen bis hin zu Videos und Bildern. Und auch dass

00:16:58: natürlich diese Inhalte verteilt sind im Web und man am Anfang keine Karte hat, wo man denn beginnen

00:17:06: soll, welche Webseiten wichtig sind, woher weniger wichtig sind. Das heißt man braucht

00:17:13: eine relativ große Infrastruktur per se um diese Datenmengen zu verarbeiten und man muss

00:17:20: mal beginnen, Crawler Systeme aufzusetzen, die dann die Links verfolgen, die sich dann nicht

00:17:25: verlaufen, weil sie immer bei den Links in Kreis laufen, die gewisse gefährliche Inhalte

00:17:34: bzw. Inhalte, die nicht adäquat sind, vermeiden oder zum Beispiel wenn man keine Trojaner TAPT

00:17:41: oder ähnliches und auch damit man da entsprechend effizient und skalierbar vorgeht. Das ist

00:17:49: oder die erste technische Schwierigkeit. Die zweite Technische Schwierigkeit ist natürlich

00:17:56: die gesamten Inhalte dann entsprechend vorzuverarbeiten, Rauschen rauszurechnen und nur die relevanten

00:18:06: Inhalte dann zu behalten, also zum Beispiel bei Webseiten, die Navigationsleisten nicht

00:18:10: ab und mit absperren, sondern nur den Haupttext an der Webseite nimmt, gegebenenfalls auch

00:18:15: zwischen den Haupttext und Kommentaren zu unterscheiden und versucht möglichst reine

00:18:22: Daten zu erzeugen und auch diese Daten vielleicht anreichert. Man hat festzustellen, um welche

00:18:27: Personen wird in ein Newsartikel gesprochen oder welche Firmen werden genannt, welche Produkte

00:18:33: werden genannt oder ähnliches und dann im dritten Schritt eben diese Datenstruktur zu

00:18:40: erzeugen, diesen Index selbst zu erzeugen, der dann im einfachsten Fall sagt, welches

00:18:46: Wort in welcher Webseite vorkommt, aber dann auch in viel komplexeren Fällen, dann spricht

00:18:52: man dann auch neuerdings, so was der Wettbeecktungen oder embeddings, versucht die Semantik von

00:19:00: gesamten Wortteilen oder auch Bildteilen oder auch Medienteilen in eine Zahlenkette

00:19:06: zu speichern, die man dann in der Folge für die Suche verwenden kann.

00:19:10: Aber ist nicht, also aus meiner Sicht jetzt gerade auch und aus deinem Bereich, wo sich

00:19:16: so viel getan hat in den letzten Jahren, jetzt eigentlich sowieso ein relativ guter Zeitpunkt,

00:19:21: weil man neue Tools hat und weil sich gerade bei diesem Data-Mining und diesem ganzen

00:19:26: Angesammle von Daten und Auswertung durch KI-Musterfindung und wie es alles heißt, man

00:19:32: da bessere Chancen hat inzwischen?

00:19:35: Ja, ich glaube, dass es derzeit ein zweischnelliges Schwert ist.

00:19:39: Also die Fähigkeit mit Medien, natürlich sprachlichen Text und Bildern zu rechnen,

00:19:46: hat sich massiv verbessert.

00:19:50: Die gesamte Sprachmodelle, aber auch Bildklassifikationen, Bildverarbeitung mit Deep Learning, haben wir

00:20:00: einen enormen Stellenwert oder einen enormen Qualitätssteigerung bekommen.

00:20:04: Der Nachteil ist aber, dass die Platzhirschen da auch schon ihre jetzt schon vorhandenen

00:20:12: Vorteile ausspielen können, nämlich dass du für diese Techniken auch viel, viel mehr

00:20:16: Ressourcen brauchst.

00:20:17: Du brauchst mehr Hardware, du brauchst mehr Speicher, du brauchst auch mehr Skalierbarkeit, um

00:20:24: das großflächig auf alle Webdaten beispielsweise anwenden zu können.

00:20:30: Und diesen Vorsprung muss man auch erst einmal aufholen und diese Skalierung zu erreichen.

00:20:35: Das heißt, das gleiche Problem, was wir vorher hatten mit Infrastrukturen, die Webdaten sammeln

00:20:42: und speichern und dann klassischen Index überführen können, die gleiche Schwierigkeit haben wir

00:20:47: jetzt noch einmal, dass wir auch noch mal zusätzliche Infrastrukturen brauchen, die diese Verarbeitung

00:20:54: der Medien mit die Learning oder Maschinen-Lernverfahren abwichsen können auf dem Skalenniveau, dass

00:21:02: man bei den Labor- und Labor-Arten verarbeitet.

00:21:03: Das heißt, hier ist noch einmal mehr Abstand, was mir in der Sicht hinzugekommen.

00:21:09: Stefan, das hört sich jetzt eher nicht so optimistisch an.

00:21:15: Wie siehst du das?

00:21:17: Wo liegen die Chancen?

00:21:18: Naja, unsere Chance ist eben da, dass wir gesagt haben, ja, wir haben eigentlich Rechenzentren,

00:21:24: ohne Ende in Europa.

00:21:27: Wir haben genügend Rechen-Sensoren und eigentlich, wer einer der Hauptgedankener war, einfach

00:21:32: von unserer Open-Search-Foundation, lasst uns das nicht alleine und für uns mit unseren

00:21:36: Rechenressourcen machen, sondern lasst uns Rechenzentren zusammenschalten.

00:21:40: Lasst uns einfach Leute begeistern, damit zu machen und wir haben mit den ersten Experimenten

00:21:45: einfach angefangen und haben an verschiedenen Stellen dann auch schon mal bestehende Quarter,

00:21:49: die sind ja auch teilweise Open Source, einfach mal loslaufen gelassen und haben geschaut,

00:21:54: wie kriegen wir das über verschiedene Rechenzentren hin?

00:21:56: Dann gab es Probleme mit der Vitalisierung, mit der Vernetzung dieser Rechenzentren und

00:22:01: dann haben wir dann irgendwann das auch wieder sein lassen, die Experimenten und haben dann

00:22:04: nächsten Level geschaffen und das ist auch eine große Kunst, jetzt quasi die Michael

00:22:10: und die ganzen Techniker eben auch meistern, um ihre Rechenzentren zu erzielen.

00:22:13: eben wirklich so eine virtualisierungs-Ebene über Großrechtenzentren verteilt über ganz Europa zu schaffen,

00:22:19: die dann gemeinsam orchestriert, das Web durchcrawled und dann eben vorverarbeitet, indexiert und so weiter.

00:22:26: Aber dieser Gedanke, lasst es nicht alleine machen, sondern schalte einfach Rechenzentren zusammen,

00:22:32: eben auch aus dem öffentlichen Bereich von Forschungszentren, das Zerren, die Geburtstätte des Webs,

00:22:37: hat sofort gesagt, ja, dann machen wir mit, dann helfen wir wieder dieses, ja doch teilweise,

00:22:43: konventionell verunblickte Web wieder ein bisschen zu fixen, wieder ein bisschen zu reparieren.

00:22:47: Und dieser Gedanke, der macht eigentlich sehr viel möglich auf einmal, weil da gibt es kein Limit,

00:22:53: ob wir jetzt im Moment schalten, wir jetzt fünf Rechenzentren zusammen, zwei holen wir gerade noch dazu,

00:22:58: aber ob das dann irgendwann mal zehn oder 15 oder 30 werden, das ist doch schon noch ein riesen Aufwand,

00:23:05: da ist noch viel Engineering, da kann der Michael sich an der Dieb von singen,

00:23:08: aber es ist erst mal konzeptuell, nicht so ein riesen Ding.

00:23:11: Und diese Skalierbarkeit, diesen Riesen plus auf unserer Seite, weil wir eben gleich so arbeiten,

00:23:18: dass wir auch mal eins ausschalten können, dann Rechenzentren und dann weiter ersetzen,

00:23:21: dass wieder dieses Atmen, dieses dynamische Systems, das ist intrinsisch in unserem Gedanken drin.

00:23:27: Und also ein Punkt, jetzt können wir mal zum Positiven, bevor wir die nächste Hürde gleich in Angriff nehmen und darüber reden,

00:23:33: dass ihr wollt diesen Index, wenn er denn erstellt ist, oder in der Form, wie er erstellt wird,

00:23:39: öffentlich zugänglich machen und ihr wollt auch die Algorithmen, die genutzt werden, Open Source stellen.

00:23:45: Und das ist ja auch eine Ansage.

00:23:49: Also bei uns ist das die Grundlage gewesen.

00:23:51: Wir wollen etwas Öffentliches schaffen, wir wollen etwas, was eben transparent ist, was demokratisch auch auditiert werden kann, schaffen.

00:23:59: Und da war sozusagen Open Source und das Ganze offen zu stellen, sofort der Gedanke, das ist eine in das Leben verteidigen Rechnen

00:24:08: und öffentlicher Kuratierung, sozusagen auch unser drittes Standbein eben, die Dinge Open Source zu machen,

00:24:15: dass man praktisch die Algorithmen, die den Index auch prägen und gestalten, praktisch auditieren kann, angucken kann

00:24:22: und dass diese Daten eben nicht einer Firma und damit zum Ausnutzen eines ganzen Monopols zur Verfügung stehen,

00:24:29: sondern eben als öffentliches Gut, das Web ist eh ein öffentliches Gut, das also auch dieser Web Index ein öffentliches Gut wird

00:24:35: und den ganzen Forschern, Innovatoren, Start-ups und Industrie-Playern zu verfügen stehen

00:24:42: und damit eine Vielfalt vom Diensten entstehen kann, die eben umsonst nur wenige oder sogar einzelne Player nur...

00:24:51: Jetzt sagen wir mal, wir haben die recht, die technischen Hürden sind in irgendeiner Form zumindest so machbar,

00:25:00: dann bleibt trotzdem noch ein Punkt, den man oft hört, dass Europa rechtlich schwierig, also sagen wir mal schlechter dasteht,

00:25:09: als mal wegen Kontinenten oder Gegenden, in denen die Regularien nicht so eng gefasst sind.

00:25:13: Also einerseits natürlich, also für mich als EU-Bürger fühle ich mich natürlich besser, wenn ich weiß, okay, da gibt es eine Datenschutzbestimmung

00:25:19: und so weiter, hört sich erstmal gut an mit dem Datenschutz, keine Ahnung, wie ernst das dann genommen wird,

00:25:23: aber zumindest ist die ganze Sache da. Aber für Initiativen und Unternehmen kann sowas ja auch eine Hürde sein.

00:25:29: Ist das so? Also ist das auch für euch?

00:25:32: Das ist so, das ist so und da klagen auch viele drüber, aber genau deswegen braucht Europa auch diesen Web Index,

00:25:37: so muss den dazu packen, zu den Regulatorien, weil, wie unsere europäische Rechtsprechung eben bestimmte Dinge reguliert,

00:25:47: zum Beispiel, dass wenn jemand sagt, er möchte seine Daten nicht für KI genutzt haben, dann muss das auch umgesetzt werden.

00:25:54: Und das machen wir nicht zu 100 Prozent, so vor Ort können wir das mit dem Index regeln, aber wir können in die Richtung kommen.

00:26:01: Das heißt, wir können zum Beispiel jetzt die Webseiten durch Forsten sagen, ja, bitte diesen Teil nicht für KI verwenden,

00:26:08: dann kommt das in den Index und man kann dann entstprechend Webseiten rausfiltern

00:26:13: und dann nur praktisch die Verwenden für KI trainieren, die eben auch das zugelassen haben.

00:26:19: Und so können wir zum Beispiel eben diese reguläre Regulatorie mit umsetzen halten. Michael, willst du das noch ergänzen?

00:26:27: Ja, aber ich glaube, man muss es allgemein ergänzen. Ich glaube, das zeigt auch, also auch mit den Schwierigkeiten,

00:26:33: die wir vorher angesprochen haben und der Übermachtstellung von den Gatekeepers, wie sie jetzt genannt werden,

00:26:41: bedingt es auch, dass wir einen komplett neuen Weg gehen, indem man eben das gesamte Offen transparent und kollaborativ macht,

00:26:49: kollaborativ auf Ebene der Datenzentren, aber auch auf Ebene jener, die diesen Index nutzen wollen

00:26:58: und auch jene, die beitragen wollen, diesen Index zu erstellen, zu bauen.

00:27:04: Das kann man dann nur offen und in einer Gemeinschaft machen und dann bekommt man auch die Unterstützung,

00:27:12: dass man gewisse Inhalte dann eben für Anwendungen wie generative KI oder so verwenden darf.

00:27:19: Ich hatte gerade letzten seine E-Mail, wo jemand geschrieben hat, er blockt normalerweise alle Crawler der Großen,

00:27:27: aber unseren Crawler lässt dadurch, weil er uns einfach auf diese Art und Weise unterstützt.

00:27:32: Und ich glaube, somit ist das Projekt sowohl auf technischer Ebene ein anderer Ansatz,

00:27:37: den wir wählen, um diesen Vorsprung der Großen eben Web zu machen, aber auch in dem, wie wir Web haben wollen,

00:27:48: beziehungsweise wie wir im Web kooperieren wollen, nicht nur in Bezug auf, wer welche Anzeigen wo schaltet,

00:27:56: sondern dass wir auch diesen virtuellen Raum wieder als Gemeinschaft von unterschiedlichsten Organisationen,

00:28:02: privater Ländern, die gewisse Interessen in der virtuellen Welt haben, auch den Raum für uns zu gestalten.

00:28:07: Und ich glaube, da setzen wir einen guten Beitrag und wir wollen das natürlich nicht im rechtsfreien Raum machen,

00:28:15: sondern auch, dass wir diese rechtlichen und ethischen Vorgaben auch entsprechend berücksichtigen.

00:28:21: Ich weiß jetzt darauf hin, wir hatten einen Podcast von nicht so langer Zeit, zu Metagär, zu der letzten deutschen Suchmaschine

00:28:27: und wie da der Kampf irgendwie fast verloren ging und was da jetzt gerade in der Macher ist.

00:28:33: Ein Punkt, der mir da mal aufgefallen ist und der aber sehr entscheidend ist, also ich frage euch das jetzt auf der Ihr seid,

00:28:39: auf der Macher Seite, aber es gibt ja eben auch die Konsumenten und Konsumentinnen Seite, auf der ich natürlich bin.

00:28:45: Und da ist es total wichtig, dass die Leute, die das Ganze nutzen, eben auch eine bewusste Entscheidung treffen.

00:28:52: Zum Beispiel eine bewusste Entscheidung, eine andere Suchmaschine zu benutzen, als die, die so groß ist und so praktisch.

00:28:58: Jetzt ist es aber so, es gibt da zwei Dinge, die mir aufgefallen sind.

00:29:02: Ich würde von euch nur wissen wollen, wie ihr die seht.

00:29:04: Das eine ist, diese große Suchmaschine, nennen wir sie mal Google, ist immer schlechter geworden.

00:29:10: Also für mich, ich finde, dass sie qualitativ in den letzten Jahren so nachgelassen hat, dass ich mir denke, eigentlich finde ich das gar nicht gut.

00:29:17: Also die zeigt mir nicht das an, was ich möchte.

00:29:19: Das Aspekt Nummer eins, der spielt euch natürlich nicht karn.

00:29:21: Aspekt Nummer zwei ist, aber das ganze Leute, auch die ich kenne und aus der jüngeren Generation, obwohl sich das immer so gemein anhört,

00:29:27: dazu Übergangen sind, nur noch kuratierte Inhalte zu konsumieren und überhaupt nicht mehr zu suchen.

00:29:32: Überhaupt das ganze Konzept, so wie ich das Netz benutze oder so und so wie ihr das wahrscheinlich auch macht,

00:29:38: weil wir einfach Teil unseres Tages damit verbringen, nach Dingen zu suchen oder so, dass das ganze Herrscharen von Leuten überhaupt nicht machen.

00:29:45: Fangen wir mit Punkt Nummer eins an, die bewusste Entscheidung dafür eben andere Sachen zu nutzen.

00:29:51: Was ist, was ist der, also ich meine, der Vorteil für euch ist klar, aber seht ihr das kommen, seht ihr das das Leute machen?

00:29:57: Muss ich ganz klar mit Ja beantworten.

00:29:59: Ich glaube auch, die Beobachtung, die du gemacht hast, dass die Dienste immer schlechter werden,

00:30:05: konnte man Studien auch quantitativ zeigen, einfach dadurch, dass viel, viel mehr Werbeinhalte quasi angeboten werden

00:30:15: und das ganze zu sehr kommerzialisiert wird.

00:30:18: Das betrifft natürlich auch die Search Engine Optimization, wo du dann versuchst, deine Inhalte nach oben zu bringen,

00:30:24: ob die jetzt 100 Prozent passen oder nicht, der dir die beste CEO hat gewinnt.

00:30:29: Und ich glaube, diesen Effekt sieht man auch gemeinsam mit dem, dass es immer mehr Daten und immer mehr Informationen gibt.

00:30:38: Die Schwierigkeit, ich habe mit der bewusste Entscheidung treffen, ist ein bisschen, es gibt keine Entscheidungsauswahl.

00:30:45: Wir haben zwei Indizes, das ist Google und Bing, das sind jetzt noch andere entstanden, aber das waren die Hauptindices

00:30:55: und die meisten, die irgendwie eine Alternative anbieten, wie DacDacGo oder Cosia, setzen auf diesen Indices auf.

00:31:03: Das heißt, unter der Haube ist es immer wieder die zwei großen kommerziellen Indices, die man nutzt, die Rankings, die man bekommt

00:31:12: und auch damit verbunden, die Nichtfähigkeit, was auszuwählen, außer das Frontend.

00:31:20: KI wird das Ganze etwas verändern aus meiner Sicht, weil mit KI und der Kombination als Sprachendellen und Suche

00:31:28: dadurch aus neue Ansätze gegangen werden können, aber das ist vielleicht ein Thema, das wir uns später einmal kurz anreisen.

00:31:36: Stefan, deine Einschätzung.

00:31:37: Ja, ich glaube auch, dass Leute, einige Leute, bewusster auswählen, wo sie ihre Informationen herziehen.

00:31:44: Ich habe das vor acht oder zehn Jahren künftig entschieden, acht Jahre, das glaube ich, das jüngst jetzt so.

00:31:48: Jetzt fülle ich mal auf mit allen Google-Diensten. Das ist eine gewisse Übung.

00:31:51: Ich habe aber jegliche Dienste einfach abgeschaltet und habe für mich Alternativen gesucht.

00:31:56: Das war natürlich erst mal ungewöhnlich, als ich dann auf Mittag umgestiegen bin, die Suchmaschine, die du ja auch gerade noch angesprochen hast.

00:32:03: Das war ein bisschen langsamer und das war ein bisschen behäbiger, aber ich habe mich, aber das hat sich irgendwann irgendwann gut angefühlt.

00:32:11: Es sagt, okay, ich finde trotzdem meine Sachen auf den ersten Klick, die ich brauche.

00:32:16: Manchmal ging es auch etwas schwieriger, aber in großen Garns habe ich es getrocknet.

00:32:20: Es ist so, wie wenn du fast Food ist oder wenn du eben bewusst ein bestimmtes Restaurant ist und bestimmte Sachen konsumierst, die vielleicht besser sind oder bio oder vielleicht langsamer dargereicht werden.

00:32:34: Das ist aber eben Qualität.

00:32:37: Und das tun einige, nicht viele, die Digital Natives, die ich teilweise auch als Digital Natives bezeichne, weil sie teilweise auch einfach wirklich das einfach nehmen, was kommt, tun es weniger.

00:32:50: Aber viele tun es auch und wir müssen eben auch dann, wir wollen die Vielfalt schaffen.

00:32:55: Generelle Suchmaschinen wird wahrscheinlich schwierig sein, so schnell heranzukommen, etwas wie Google, aber Spezialsuchmaschinen zu bestimmten Themen, zu wissenschaftlichen Folgestellungen, zu bestimmten Kunstbereichen oder so.

00:33:08: Die werden mehr und mehr entstehen und die werden sehr interessant sein.

00:33:12: Und dann wird dann wieder sagen, irgendwann, du hast mal die und die Suchmaschine ausprobiert, hey, das ist ein total cooles Ding.

00:33:18: Eine tolle User Experience auch in einem bestimmten Thema.

00:33:20: Und das wollen wir praktisch wieder möglich machen.

00:33:23: Und da bin ich zuversichtlich, dass das kommen wird, wenn dieser Index und auch dieses Konzept, dieses offenen Such-Ökosystems in Europa jetzt langsam voran nimmt und entsteht.

00:33:36: Michael, du hast gerade KI nochmal angesprochen und das können wir durchaus vertiefen.

00:33:40: Ich habe als Stichpunkt, ich weiß leider nicht mehr, was ich damit gemeint habe, deswegen stelle ich es jetzt einfach in den Raum und lass es dich erklären.

00:33:46: KI-Training mit EU-Bias hier stehen.

00:33:49: Du meinst EU-Bias?

00:33:51: Entschuldigung, Bias. Ich sage ja, ich habe jetzt Bias, Bias.

00:33:55: Bias sollte man nicht zu nennen, das ist am Nichtsverstandenes oder sehr negativ konnotiertes Konzept.

00:34:01: Ich habe das Lappi da und kurz gefasst, dass das nicht zitiäfisch, das stimmt.

00:34:08: Genau.

00:34:09: KI-Training ist eine spannende Sache, vor allem wenn man denkt, dass die erste Sprachmodelle dadurch entstanden sind, dass es eine kleine NGO in den USA gegeben hat oder gibt,

00:34:22: die sich Common Crawl, die halt das Web gekrawlt haben, und man dann KI-Modelle auf riesengroßen Datenmengen trainiert hat.

00:34:31: Und ich glaube, das ist schon auch wichtig aus europäischer Sicht zu verstehen, dass wir auch aufgrund der Regularien,

00:34:40: und weil wir eigentlich uns nie wirklich getraut haben, sage ich mal, das Web großflächig zu crawlen,

00:34:46: dass wir das auch tun müssen, um die Datengrundlage für KI-Modelle zu schaffen.

00:34:53: Und diese auch kontinuierlich am Laufen zu halten, sodass wenn man KI-Modelle trainiert, dass die auch dann auf den aktuellsten Daten trainiert sind.

00:35:04: Und wenn man sich jetzt überlegt, dass die Trainingsdaten für KI-Modelle eigentlich einen wesentlichen Einfluss haben auf,

00:35:11: wie diese KI-Modelle, sage ich mal, ticken, welchen Bias die haben,

00:35:17: dann muss man sich auch überlegen, dass es vielleicht hilfreich wäre für uns mehr europäische Daten in diese Modelle reinzugeben.

00:35:24: Das heißt, mehr Sprachvielfalt, mehr kulturelle Vielfalt, aber auch unsere Werte und unser Wertesystem da mit abbilden.

00:35:36: Und ich glaube, dass man halt mit sowas wie ein offener Webindex dazu Beiträge liefern kann,

00:35:41: indem man eben einen stärkeren Fokus auf europäische Webdaten sieht, als wie auf Weltweite wird.

00:35:47: Das ist das, ja, das ist, jetzt habe ich auch den Punkt wiedergefunden hier.

00:35:51: Das ist der Punkt, das ist auch, was Stefan Freund meinte, dass dann halt nicht unbedingt Fast Food drin ist,

00:35:56: sondern eben auch mal der französische Wein.

00:35:58: Oder, um es mal so zu sagen, naja, aber im übertragenen Sinne.

00:36:02: Also um es runterzubrechen, dass die Grundlage dafür, was inzwischen ganz vielen Leuten ihre Antworten liefert,

00:36:10: nämlich diese KI-Modelle als Chatbots oder was auch immer, eben auch darauf basieren, was unsere Realität ist

00:36:16: und nicht die, also so wie im Kino, immer alles kalifornische US-Dinge sind, die einem gezeigt werden.

00:36:24: Da mag das okay sein, weil das ist eben meine Wahl, ich gehe in den Filmen und guck mir den an und dann lasse ich da, kann das alles passieren.

00:36:30: Aber wenn das das ganze Leben ist, immer dann verarmt das auch natürlich die eigene Kultur.

00:36:37: Das ist das, was ihr damit sozusagen, dem wollt ihr entgegenwirken, oder?

00:36:42: Genau, den wollen wir entgegenwirken.

00:36:45: Man muss auch bedenken, dass diese Tools, wo man Informationen bezieht, auch einen gewissen Effekt haben.

00:36:50: Es gibt Studie, die zeigt, dass es einen Search Engine Manipulation Effekt gibt,

00:36:56: der, also zumindest in der Studie hat man zeigen können, dass wenn man Rankings von Suchmaschinen entsprechend verändert,

00:37:03: kann man das Wahlverhalten um bis zu 40 Prozent verändern.

00:37:08: Und das ist eine enorme Zahl, zumindest in gewissen demografischen Gruppen.

00:37:11: Und wir machen sehr viel auf Basis dessen, was wir aus dem Internet ziehen.

00:37:14: Wir forchten, wir konsumieren Nachrichten, Kultur.

00:37:20: Wir wählen, also unser ganzes Leben wird eigentlich zunehmend aus den digitalen Raum mit Informationen gespeist

00:37:27: und das hat uns eben auch irgendwann so erschüttert, dass wir gesagt haben, okay, wenn wir nur das Weltbild

00:37:32: und die Sicht auf das zunehmend digitale Leben durch eine Handvoll Hyperscaler gezeigt kriegen,

00:37:41: dann wird es irgendwann einfach gefährlich.

00:37:44: Und wir haben gesehen, dass jetzt zum Gewissen gerade auch, indem wir diesen Hyperscalern so viel macht,

00:37:49: eben auch so viel ökonomische Macht, die dann wiederum jetzt eine Kombination mit der Politik eingeht

00:37:56: und dann hier jetzt im Moment Frontal auf Europa und dann, wenn sich die westliche Weltordnung losgeht,

00:38:01: das ist sehr gefährlich, was wir noch nicht haben.

00:38:06: Vielleicht noch auch, wenn man einfach den Abstand in den Sack,

00:38:09: wir wissen nicht genau, was die Intention der Hyperscaler ist

00:38:12: und nehmen wir halt das "Don't be evil", so wie es mal früher verstanden hat.

00:38:19: Es bleibt trotzdem eine wenigere Vielfalt.

00:38:24: Es bleibt Singularität anstatt Pluralität.

00:38:27: Und ich glaube, genau das ist es, was wir nicht haben wollen.

00:38:30: Wir wollen Wahlentscheidungen haben.

00:38:32: Zumindest wenn wir uns für etwas entscheiden, wollen wir auch die Möglichkeit haben,

00:38:36: dann das entsprechende Produkt zu nehmen.

00:38:38: Niemand wäre damit sofrieden, wenn es nur eine Kaffeesorte im Supermarkt gebe

00:38:42: oder eine Tee-Sorte oder vielleicht zwei oder drei.

00:38:45: Wir wollen da auch die Auswahl haben und so sehe ich das auch in der virtuellen Welt.

00:38:49: Das sind schon schöne Worte, die uns Richtung Ende tragen

00:38:53: und aber konkret noch die Frage, wo seid ihr gerade und was sind die nächsten Schritte?

00:38:59: Technisch sind wir so weit, dass wir die grundlegenden Pipelines, wie wir das nennen,

00:39:05: also die grundlegenden Schritte vom Crawling bis zur Indexerstellung

00:39:10: fertig haben in einer ersten Version

00:39:13: und wir jetzt dann ab eigentlich diesem Monat, also ab Februar 25

00:39:19: mit der täglichen Erstellung von Index Shards, wie wir das nennen,

00:39:24: also Teile vom Index beginnen, die wir dann halt täglich herunternehmen.

00:39:28: Und in seine eigene Anwendung, wie ihre eigene Anwendung integrieren kann.

00:39:33: Und so sind wir dann in der Lage, täglich die Dosis Web an die Anwendungs-

00:39:40: an den Nutzerinnen zu geben, die sie quasi haben oder verarbeiten wollen.

00:39:47: Das geht auch damit einher, dass wir mit Ende März dann einen offenen Index Launch haben,

00:39:53: einen Public Index Launch haben, wo wir dann auf Zuspruch von der Community hoffen,

00:39:57: und auf sehr, sehr viele Leute, die mit unserem Index wunderschöne Anwendungen bauen wollen.

00:40:03: Genau, aber organisatorisch sind wir an einer ganz spannenden Stelle.

00:40:07: Wir haben jetzt genau unser Projekt etwas verlängert, aber wir haben noch ein Jahr Funding.

00:40:11: Und dann geht uns das Funding aus, und zwar in diesen europäischen Projekt,

00:40:18: OpenWebsite.eu, in dem wir das praktisch jetzt pilotieren,

00:40:22: aber auch wie jetzt OpenSource Foundation. Sie sind eine kleine NGO, die zu 100% auf Projektfunding angewiesen ist.

00:40:29: Und das wird dann irgendwann dünn. Und wenn wir wissen, wie lange es braucht,

00:40:33: dass praktisch solche Funding-Töpfe wieder aufgemacht werden, wie man sich bewirbt und so weiter,

00:40:40: ist es sozusagen 5 vor 12, dass wir auch Europa, sagen wir mal, das rüberbringen und Europa versteht,

00:40:49: okay, das ist was, die da bauen ist wichtig, ist gut.

00:40:52: Jetzt wollen wir das bitte auf die nächste Ebene heben und weiter professionellisieren und ausrollen.

00:40:58: Und da kämpfen wir gerade an den verschiedensten Stellen, in den Hauptstädten, in Brüssel, in den Communities,

00:41:07: um dieses Verständnis für das, was wir tun, wirklich so weit zu schärfen, dass eben auch die entsprechenden Töpfe entstehen.

00:41:14: Und deswegen ist es für uns unheimlich wichtig, dass dieses Thema auch multipliziert und verstanden wird,

00:41:19: dass Europa sich da eben auch entsprechend committed und die Fördertöpfe und auf die technisch bestehenden Infrastruktur

00:41:29: kapazitäten öffnet, um unseren Konzept des verteilten Indexieren, des verteilten Rechnens, des verteilenden Suchens zu implementieren.

00:41:38: Und ich hoffe, dass wir durch den Podcast zumindest einen kleinen Anteil daran haben.

00:41:41: Aber ich sage jetzt noch mal schnell, wir verlinken natürlich openwebsarch.eu, also die Webseite, die über das Projekt auch informiert,

00:41:48: wo zum Beispiel auch die Statistiken stehen, wie das 3,1 Milliarden URLs gekrawlt wurden.

00:41:54: Also derzeit steht hier irgendwie.

00:41:56: Aber, Stefan, was ist denn die Möglichkeit, wenn ich jetzt beschließe, okay, ich will mich persönlich mit engagieren?

00:42:03: Was kann ich machen?

00:42:04: Dann kann man sich bei uns melden.

00:42:06: Wir haben eine Community, wie das so schön heißt.

00:42:09: Da gibt es verschiedene Community-Kanäle, in denen man sich engagieren kann.

00:42:14: Wir haben Arbeitsgruppen zu den verschiedensten Fragenstellungen, eben technischer Natur, ethischer Natur, Anwendungsfragen,

00:42:23: aber auch rechtliche Fragen werden in den Arbeitsgruppen bearbeitet.

00:42:27: Auch Literacy, also wird sich auch Bildung rundum suche, wird vermittelt.

00:42:33: Und da kann man uns unterstützen, entweder als Individuum oder auch als Organisation.

00:42:39: Und kann sich da bei uns melden und sich entsprechend ein.

00:42:44: Wunderbar. Michael Granazar, Stefan Vogt.

00:42:47: Haben wir irgendwas gravierendes ausgelassen, bevor ich jetzt Tschüss sage?

00:42:50: Aus meiner Sicht ein großes Danke an euch und euer Team, dafür uns die Möglichkeit zu geben,

00:42:55: dass wir über unser Herzensanliegen hier sprechen durften.

00:42:59: Genau. Und aus meiner Sicht eigentlich nicht viel vergessen, was ich mitgeben möchte zum Schluss ist,

00:43:06: dass diese Internetzuche so ein interdisziplinäres und so ein allgemeines Werkzeug ist für uns alle an den verschiedensten Stellen,

00:43:14: dass wir alle dafür Verantwortung übernehmen sollten und uns alle darum kümmern müssen

00:43:19: und nicht sagen, mach du mal oder ja, wichtig, nee, aber was hab ich damit zu tun,

00:43:24: sondern dass es so interdisziplinär von Technik bis Ethik und zurück, dass es uns alle angeht,

00:43:30: morgens, mittags, abends in der Arbeit und deswegen also, es ist eine gemeinschaftliche, gesellschaftliche Aufgabe

00:43:37: und ich hoffe, dass wir viele Unterstützer finden und das in Zukunft eben etwas europäisch und ja, ethisch und mit unseren Werten gestalten können.

00:43:46: Ja, und wenn wir alle beim Suchen immer mal darüber nachdenken, mit welcher Maschine wir das gerade machen

00:43:51: oder welche Technologie wir gerade nutzen und ich meine, auch wenn es nicht wie bei dir gleich dazu führt,

00:43:55: dass man dann gleich abspringt, aber es hilft ja schon, dass man überhaupt das Problem mal erkennt und mal drüber nachdenkt,

00:44:02: dann ist ja wahrscheinlich auch schon erstmal ein Schritt getan.

00:44:05: Alles darüber, wie die Initiative weitergeht und ob Europa demnächst einen ebenfalls richtig großen Suchindex hat und welche Sachen damit gemacht werden können,

00:44:15: liest man natürlich auf golem.de, das war der Werbeblock in eigener Sache.

00:44:19: Vielen Dank Michael, vielen Dank Stefan, vielen Dank fürs Zuhören und bis zum nächsten Mal.

00:44:24: Danke.

00:44:25: Danke.

Shownotes

Transkript anzeigen

Neuer Kommentar