Einführung in Suchmaschinen

Suchmaschinen laden das Internet herunter, indexieren es und machen es durchsuchbar. Natürlich gibt es auch Ausnahmen wie you.com, welche bei einigen Abfragen größere Dienste in Echtzeit abfragen. Aber das Grundprinzip ist das Herunterladen und Indexieren. 

Da nun keine Suchmaschine wirklich das komplette Internet in seinem Datenbestand hat, ergeben sich Unterschiede zwischen den einzelnen Suchmaschinen. Und das ist eine wesentliche Erkenntnis, denn es bedeutet, dass es nicht immer ausreicht seine Lieblingssuchmaschine zu nutzen, sondern dass man auch die anderen nutzen sollte. 

1. Was wird nicht indiziert?

Und natürlich stellt sich die Frage, nach welchen Regeln jetzt Inhalte indiziert oder nicht indiziert werden. Zum Teil ist dies sicherlich ein Geschäftsgeheimnis, aber ein paar Gründe sind bekannt:

1.1 Inhalte sind hinter Suchformularen verborgen. Keine Suchmaschine füllt Suchformulare aus

Ob es nun, der Buchkatalog einer Bibliothek oder das Markenregister des DPMA, die Inhalte dieser Datenbanken werden erst über das Ausfüllen eines Suchformulars zugänglich gemacht. Wenn die Seitenbetreiber nicht noch eine alternative,für Suchmaschinen einlesbare Liste anbieten, bleiben die Inhalte dieser Datenbanken den Suchmaschinen verborgen

1.2 Inhalte sind laut robots.txt für die Suchmaschinen ausgeschlossen

Mit der Datei robots.txt, die in das Wurzelverzeichnis eines Webservers gelegt werden kann (http://webserver.test/robots.txt) und die von jedermann öffentlich einsehbar ist, kann ein Webseitenbetreiber beschreiben, welche Inhalte einer Webseite durchsucht werden dürfen und welche nicht. Neben der robots.txt gibt es noch weitere Techniken, die einen ähnlichen Effekt haben. Die Suchmaschinen halten sich freiwillig an die Vorgaben. Eine Verpflichtung gibt es nicht.

1.3 Eine Anmeldung ist erforderlich

Suchmaschinen registrieren sich nicht. Wenn Inhalte nur einsehbar sind, nachdem man sich anmelden musste und diese Inhalte nicht auch anderweitig den Suchmaschinen bereit gestellt werden, bleiben diese Inhalte den Suchmaschinen verborgen.

Es kann natürlich noch viele weitere Gründe geben, warum eine Suchmaschine eine Webseite nicht, selten oder nur teilweise indiziert – und sei es, dass die Suchmaschine diese Webseite noch gar nicht gefunden hat.

Dies soll verdeutlichen, dass große Teile des Internets, inclusive Sozialer Netzwerke, von Suchmaschinen nicht erfasst werden. Man kann zwar die Seiten finden, man kann auch die Suchformulare finden, aber die Inhalte werden nur bei Suchen direkt auf der Zielwebseite sichtbar.

Zu dem Thema habe ich auch schon mal ein Video gemacht: Deep Web (Youtube Video)

2. Effektiv suchen

Natürlich reicht es oftmals aus einfach einen oder mehrere Suchbegriffe nacheinander in das Suchformular einer Suchmaschine einzugeben und man erhält ein Ergebnis. Aber Suchmaschinen „interpretieren“ die Suche. sie lassen auch mal einzelne Begriffe weg oder nutzen Synonyme, die man gar nicht wollte. Von daher kann es im Einzelfall auch wichtig sein, seine Suchen deutlich genauer zu formulieren, als nur die Suchbegriffe nacheinander aufzuschreiben. Diese Art der Suche wird oft als Google Dorking bezeichnet.  Für den Anfang möchte ich hierzu nur auf das Suchformular für die Erweiterte Suche bei Google hinweisen. 

Zur erweiterten Suche gibt es auch ein Video von mir: Erweiterte Suche (Youtube Video)

Als Suchstrategie verwende ich gerne den Ansatz erst mal recht breit und nicht zu konkret zu suchen um mir einen Überblick zu verschaffen. Nach und nach präzisiere ich die Suche um ein genaueres Trefferbild zu erzeugen. Wenn ich ein gutes Ergebnis schon mit der Eingabe der Worte ohne Suchoperatoren erzeugen kann, dann ist das ja auch völlig ausreichend. 

3. Welche Suchmaschinen gibt es?

Es gibt Suchmaschinen mit einem eigenen Index und es gibt Suchmaschinen die sich dieser Indexe bedienen und teilweise eigene Indexe dazumischen. 

Neben dem Marktführer Google gibt es mit eigenem Index auch noch Bing von Microsoft, die russische Suchmaschine Yandex und die chinesische Suchmaschine Baidu.

Suchmaschinen die teilweise einen eigenen Index haben wären zum Beispiel: BraveDuckDuckGo oder Qwant

Suchmaschinen, die die Indexe mehrerer Suchmaschinen nutzen, werden Meta-Suchmaschinen genannt. Beispiele wären: Metager oder Etools.

Suchmaschinen, die versuchen künstliche Intelligenz stärker einzusetzen, wären zum Beispiel You oder Cylect oder die versuchen auf die Semantik in der Abfrage zu achten wie SwissCows

Es gibt auch Suchmaschinen die andere Themen in den Vordergrund rücken wie beispielsweise Datenschutz (z.B. Startpage) oder Umweltschutz (z.B. Ecosia).

Um den Rahmen nicht zu sprengen, möchte ich es bei diesen Beispielen belassen. Die Webseite Suchmaschinen-Datenbank bietet einen Überblick über vorhandene Suchmaschinen. 

4. Fazit

Bei der Vielzahl an zur Verfügung stehenden Suchmaschinen, ist es sinnvoll, sich nicht nur auf eine zu fokussieren. Wenn man etwas Gesuchtes nicht findet, kann das viele Ursachen haben. Durch die Verwendung weiterer Suchmaschinen, kann man die Wahrscheinlichkeit erhöhen etwas zu finden. Es kann aber auch sein, dass man eine spezielle Seite finden muss, über die man eine erneute Suche auslöst, um an den gewünschten Inhalt zu kommen. In einigen Fällen kann es auch sinnvoll sein, seine Suche in einer anderen Sprache abzusetzen, dabei sollte man natürlich mit weit verbreiteten Sprachen wie Englisch, Spanisch und Französisch beginnen.