Ich weiß nicht ob ich das verallgemeinern kann, aber ich habe ja eigentlich schon die Erwartung, dass ich etwas finden werde, wenn ich es nur mit Google suche. In meinem Artikel über das Deepweb habe ich allerdings auch schon diverse Gründe angeführt, warum etwas von Suchmaschinen nicht indexiert wird. Mit meinem Blog kann ich mittlerweile gut nachvollziehen, wie schnell Google und Bing ihn indizieren, da beide Suchmaschinen Oberflächen für Webmaster anbieten.
In dieser Grafik kann man schön sehen, dass Google am 5. Dezember anfing meinen Blog zu crawlen und die ersten Seiten gefunden hat. Die Daten reichen bis zum 2. Januar. Insgesamt wurden bis dahin über 140 Seiten gefunden. Indexiert wurde jedoch nur die Hälfte. Wenn Du Dich wunderst, wie es bei rund 40 Artikeln zu über 140 Seiten kommt, dann denke daran, dass für die Kategorien und Hashtags Unterseiten angelegt werden.
Google zeigt mir auch an aus welchen Gründen die Webseiten nicht indexiert wurden
Neben Gründen wie der robots.txt und dem noindex-Tag, der sich so auswirkt, wie ein Verbot in der robots.txt, liegt es in den meisten Fällen daran, dass Google die Seite zwar heruntergeladen – oder zumindest gefunden – hat, aber die Indexierung einfach noch nicht gestartet hat.
Bing stellt das ganze leider nicht so transparent dar wie Google, aber zumindest kann ich den Stand sehen, wie viele Seiten bisher im Index gelandet sind. Bis zum 20. Dezember lag Bing damit sogar lange vor Google in der Indexierungstiefe. Am 20. machte Google einen Sprung von 32 auf 70 indexierte Seiten.
In meinem Blog Beitrag über das DeepWeb habe ich das unter der provokativen Überschrift „Kein Bock“ subsumiert. Suchmaschinen entscheiden selber ob, wann, wie oft und wie tief eine Webseite indexiert wird. Dies führt dazu, dass die Suchmaschinen eine Webseite unterschiedlich indexieren und letztendlich unterschiedlich über Suchanfragen gefunden werden können. Es zeigt, dass es für OSINT nicht reicht, nur eine Suchmaschine zu benutzen. Mehr dazu kannst Du in meinem Artikel über Suchmaschinen nachlesen.
Zusatz 15.01.2024
Ich habe mich entschlossen, diesen Artikel ab und zu um aktuelle Zahlen zu erweitern:
Google hat in den letzten Tagen nochmal zugelegt. Mittlerweile sind 94 Seiten indexiert.
Und auch Bing hat ein paar weitere Seiten hinzugefügt. Der Rückstand fällt mittlerweile aber deutlich aus.
Zusatz 11.02.2024
Langsam aber stetig werden weitere Seiten indexiert, aber große Teile sind es weiterhin nicht