Die neue Google Dataset Search

Wie ich bereits in meinem Artikel zu filetype: erwähnt habe, hat Google eine neue Datensatz-Suche veröffentlicht und den filetype:csv abgeschafft. Also habe ich mich in die Google Dokumentation begeben um nähere Informationen zu erhalten. Google schreibt dort:

Google möchte das Auffinden von Datensätzen vereinfachen und nutzt daher Schema.org und andere Metadatenstandards, die den Seiten hinzugefügt werden können, die Datensätze beschreiben. Der Zweck dieses Markups besteht darin, das Auffinden von Datensätzen aus Bereichen wie Bio- und Sozialwissenschaften, maschinellem Lernen sowie zivilen und staatlichen Daten zu optimieren. 

https://developers.google.com/search/docs/appearance/structured-data/dataset?hl=de

Nun gut, probieren wir es einmal aus. Ich habe also nach >>password<< gesucht

Der Top Treffer ist gleich eine Datei mit Passwörtern, die man besser niemals verwenden sollte. Natürlich mit alten Bekannten wie „123456“ oder „password“ oder „qwerty“. Google gibt hier jedoch nicht wie früher einfach den Link zu dem Datensatz aus, sondern auch verschiedene Metadaten wie Autoren, Lizenz, textuelle Beschreibung und eine Beschreibung des Aufbaus des Datensatzes:

Letzteres ist jedoch nicht bei jedem Datensatz zu sehen. In der Regel sehen die Datensätze wie folgt aus:

Nach 180 Datensätzen, wird kein neuer Datensatz mehr ausgegeben. Um die Anzahl zu überprüfen habe ich mir die Ergebnisspalte links in ein txt Dokument namens datasetsearch kopiert und folgenden Code in der Bash ausgeführt:

cat datasetsearch | awk '{if(length($0)<2){a++}}END{print a}'

Im awk wird einfach geprüft ob die Länge der Zeile kleiner 2 ist, da manchmal zwischen den Datensätzen ein Zeichen in der zu erwartenden Leerzeile stand. Es ist nur eine Quick and Dirty Prüfung. Vielleicht sind es auch 200 Datensätze. Im Endeffekt gibt es im Internet wahrscheinlich deutlich mehr Ergebnisse zu finden, als Google hier ausgibt. Am Ende der Spalte kommt dann jedenfalls folgender Hinweis – statt einem Link auf eine zweite Ergebnisseite oder dem Hinweis, dass man seine Suche spezifizieren soll, weil es zu viele Treffer gab:

Also habe ich eine neue Suche nach >>password statista<< ausgeführt und diesmal mit meinem Quick and Dirty Skript 170 Ergebnisse gezählt. Somit sollte klar sein, dass Google tatsächlich weit mehr als die oben genannten 180 Datensätze zum Thema Passwort in seinem Index hat.

Google bietet neben dem Suchfeld noch weitere Dropdown-Menüs an um die Daten weiter einzuschränken:

Tja, und das wars dann auch schon. Mehr ist mir noch nicht aufgefallen.

Fazit

Ich kann mir vorstellen, dass die neue Datensatzsuche tatsächlich einen Mehrwert hat, da man eben Einschränkungen auf Nutzungsrechte, Fachgebiet und auch Aktualität treffen kann. In der herkömmlichen Suche wäre das wahrscheinlich auch möglich, aber spätestens bei den Nutzungsrechten bei weitem nicht so einfach. Auch die strukturierte Vorstellung des verlinkten Datensatzes gefällt mir. Als Nachteil empfinde ich, dass man jedes Element einzeln anklicken muss um an die Informationen zu kommen, da war das klassische Runterscrollen doch angenehmer.