Duplikate aus Listen entfernen

Viele OSINT Tools werfen dir lange Listen von URLS, IPs uvm. raus. Dabei kann es schnell passieren dass sich Duplikate in die Liste einschleichen. Insb. wenn Du mehrere Listen von unterschiedlichen Tools erstellen lässt. Jedes Duplikat erhöht die Aufwände, so dass Du sie am besten so schnell wie möglich beseitigst.

Eine sehr einfache Möglichkeit ist dabei die Linux Bash zu benutzen. Alles was Du benötigst sind zwei Befehle. Allerdings mußt Du zuerst zu dem Verzeichnis navigieren in der sich deine Liste(n) befindet. Die dafür benötigten Befehle habe ich in meinem Artikel über die Bash Grundlagen bereits beschrieben.

Ich gehe jetzt davon aus, dass die Liste eine einfache Textdatei ist, in der die Links, IPs etc. untereinander stehen. Ich gehe davon aus, dass es auch jeweils nur einen Wert in einer Zeile gibt. Sollte dem nicht so sein, muss die Liste vorab bearbeitet werden.

Die für diesen Zweck benötigten Befehle sind sort und uniq.

Sort sortiert dabei die Zeilen so dass gleiche Werte direkt untereinander stehen. Uniq dagegen vergleicht die Zeile davor mit der aktuellen Zeile und entfernt das Double.

Der Befehl den du also benötigst ist:

sort liste.txt | uniq > neueliste.txt

Das Größer Als Zeichen sorgt dafür dass die Ausgabe nicht am Bildschirm erfolgt, sondern in die Datei neueliste.txt geschrieben wird.

Solltest Du mehrere Listen von unterschiedlichen Tools bereinigen wollen, die o.g. Kriterien entsprechen kannst du zuerst alle Dateien mit cat öffnen und dann sort und uniq anwenden:

cat *.txt | sort | uniq > neueliste.txt

Falls Du noch kein Linux auf deinem Rechner hast, empfehle ich dir meine Installationsanleitung für eine virtuelle Maschine mit Linux Mint.

Sort, uniq und weitere Bash Befehle habe ich ausführlich in meiner Youtube Playlist Datenaufbereitung in der Bash erklärt.