Was ist denn dieses Deep Web und wie nutze ich es für OSINT?

Das Deep Web ist das, was von Suchmaschinen nicht indiziert wird. Und es gibt erstaunlich viele Gründe, warum etwas nicht von Suchmaschinen indiziert wird.

Robots.txt

Jeder Webseitenbetreiber kann in seinen Webroot eine Datei namens robots.txt anlegen. Der Aufruf gestaltet sich immer gleich also http://example.com/robots.txt

In der robots.txt wird definiert welche Verzeichnisse der Spider einer Suchmaschine aufrufen darf und welche nicht. Es gibt zwar keine offizielle Verpflichtung, aber die Suchmaschinenbetreiber halten sich daran.

Meine robots.txt befindet sich unter https://bashinho.de/robots.txt – alles was du darin sehen wirst ist, dass ich verschiedene WordPress-Verzeichnisse sperre und auch die Datenschutzerklärung und das Impressum. Das sind Seiten, die aus meiner Sicht nicht in Suchmaschinen auftauchen müssen, weil z.B. Abmahnanwälte gerne Suchmaschinen nutzen um veraltete und von daher abmahnrelevante Formulierungen in Datenschutzerklärungen suchen. Und auch das Backend wie die Adminseiten müssen Hacker jetzt nicht über Google finden, es reicht schon, dass sie sie finden, wenn sie meine Webseite kennen.

Neben der robots.txt gibt es noch weitere Techniken, mit denen ein Webseitenbetreiber beschreiben kann, welche Bereiche einer Webpräsenz indiziert werden dürfen. Wie auch immer es technisch umgesetzt ist, es führt dazu, dass gewisse Inhalte nicht in den Datenbanken der Suchmaschinen landen.

Webmaster haben in den Bing Webmaster Tools bzw in der Google Search Console die Möglichkeit Webseiten von der Indizierung auszuschließen. Dies ist öffentlich nicht einsehbar.

Formulare

Suchmaschinen-Robots füllen keine Suchformulare aus. Alle Inhalte die nur über ein Suchformular aufgefunden werden können, werden durch Suchmaschinen nicht gefunden. Zum Beispiel kann man mit Hilfe von Suchmaschinen das Formular für die Basisrecherche beim Deutschen Marken und Patentamt finden. Die Markeneintragungen dagegen findet man nur über dieses Formular, jedoch nicht über die Suchmaschinen.

Registrierungen

Suchmaschinen-Robots füllen auch keine Registrierungsformulare aus. Sind Inhalte hinter einer Registrierung verborgen und werden diese den Suchmaschinen nicht andersweitig zur Verfügung gestellt, landen die Inhalte nicht in den Indexen der Suchmaschinen. Linkedin ist so ein Fall, der wohl einen anderen Zugang ermöglicht, da man hier doch Profile sehr gut über Suchmaschinen auffinden kann, aber beim direkten Aufruf der einzelnen Seiten in der Regel eine Registrierung verlangt wird.

Fehlender Link

Wenn es keinen öffentlich auffindbaren Link zu einer Seite gibt, wird auch kein Crawler der Suchmaschinen diese Seite finden (Sofern der Webseitenbetreiber diesen Link den Suchmaschinen nicht selber meldet)

Zu versteckt

Das kann gerade bei großen Webseiten mit tiefen Hierarchiestufen passieren. Hier kann es gut sein, dass ein Crawler nicht bis in die letzte Ebene vordringt.

Zu neu

Suchmaschinen brauchen eine gewisse Zeit, bis sie neue Seiten und Domains finden und indizieren. Das kann im Einzelfall auch Tage oder Wochen dauern.

Falsches Dateiformat

Suchmaschinen wollen Text indizieren. Handelt es sich um kein gängiges Textformat gibt es auch keinen Grund diesen zu indizieren. (Wobei es auch Ausnahmen gibt. Bing findet z.B: ZIP-Archive)

Recht

Suchmaschinen nehmen einzelne Seiten aber z.T. auch ganze Webpräsenzen wegen Urheberrechts- oder Datenschutzverstößen aus ihrem Index heraus oder indizieren diese Seiten erst gar nicht.

Kein Bock

Okay, das ist übertrieben. Aber letztendlich definieren die Suchmaschinen selber ob, wie oft und wie tief sie eine Webseite indizieren. Bei Google und Bing gibt es Webmastertools, bei denen man einsehen kann, wie der Stand der Indexierung ist. Nach einem Monat Bestehen des Blogs habe ich meine Beobachtungen in diesen Artikel aufgeschrieben. Es geht jedenfalls wesentlich langsamer als man sich wünschen würde.

Technische Hürden

Ein Dienst muss natürlich auch seine Daten so anbieten, dass er von Suchmaschinen indiziert werden kann. Dienste wie Whatsapp, Online Spiele etc. haben keine entsprechende Schnittstelle. Aber es kann, wie im Fall vom TOR-Netzwerk eigene Suchmaschinen geben, die dieses Netz durchsuchen.

Und was mache ich jetzt?

Nicht alle Suchmaschinen verhalten sich gleich. Manche sind vielleicht schneller mit der Indizierung, andere filtern vielleicht ein Ergebnis das gegen das Recht verstößt doch nicht hinaus etc. Es ist immer sinnvoll andere Suchmaschinen mit einem eigenen Index zu verwenden. Die großen Suchmaschinen mit eigenem Index sind Google, Bing, Yandex und Baidu.

Datenbanken mit eigenem Suchformular wie o.g. Beispiel vom DPMA lassen sich finden. Allerdings muss man auf die Idee kommen, dass es so eine Datenbank gibt. Die Recherche findet dann über das Suchformular der Datenbank statt. Das gilt auch für Webseiten, bei denen man sich registrieren muss oder Diensten ohne Webschnittstelle, oder Webseiten die unvollständig indiziert wurden. Die Recherche kann nur im jeweiligen System erfolgen.

robots.txt und Co können eingesehen werden. Sind dort statische Pfade ohne * vermerkt, kann man diese in den Browser nach dem ersten Schrägstrich nach den Domainnamen kopieren und aufrufen. In meinem Video über das Deep Web habe ich gezeigt, wie das geht. Dynamische Pfade mit dem Platzhalter * lassen sich schlecht aufrufen, weil man ja nicht weiß, wodurch man diesen Platzhalter ersetzen muss.

Es gibt viele Spezialsuchmaschinen. Nicht alle haben einen Mehrwert. Aber im Zweifel kann ein Blick in die Suchmaschinen-Datenbank nicht schaden.