So finden Sie doppelte Dateien (und löschen sie)

121

Ich habe eine größere Musiksammlung und da sind einige Duplikate drin. Gibt es eine Möglichkeit, doppelte Dateien zu finden? Zumindest, indem Sie einen Hash durchführen und sehen, ob zwei Dateien den gleichen Hash haben.

Bonuspunkte für das Finden von Dateien mit dem gleichen Namen abgesehen von der Erweiterung - ich denke, ich habe einige Songs mit mp3 und ogg Formatversionen.

Ich bin glücklich mit der Befehlszeile, wenn das der einfachste Weg ist.

    
Hamish Downer 08.09.2010, 21:11
quelle

8 Antworten

127

Ich verwende fdupes dafür. Es ist ein Kommandozeilenprogramm, das von den Repositories mit sudo apt install fdupes installiert werden kann. Sie können es wie fdupes -r /dir/ect/ory aufrufen und es wird eine Liste von Duplikaten ausgedruckt. fdupes hat auch eine einfache Homepage und eine Wikipedia-Artikel , der einige weitere Programme auflistet.

    
qbi 08.09.2010, 21:20
quelle
58

FSlint hat eine GUI und einige andere Funktionen. Die Erklärung des Duplikatprüfalgorithmus aus deren FAQ:

1. exclude files with unique lengths
2. handle files that are hardlinked to each other
3. exclude files with unique md5(first_4k(file))
4. exclude files with unique md5(whole file)
5. exclude files with unique sha1(whole file) (in case of md5 collisions).

fslint < img src="https://hostmar.co/software-large">

    
Dominik 08.09.2010 21:31
quelle
48

Liste von programs/scripts/bash-solutions , die Duplikate finden und unter nix ausführen können:

  1. dupedit : Vergleicht viele Dateien gleichzeitig ohne Prüfsummen. Verhindert den Vergleich von Dateien mit sich selbst, wenn mehrere Pfade auf dieselbe Datei verweisen.
  2. dupmerge : läuft auf verschiedenen Plattformen (Win32 / 64 mit Cygwin, * nix, Linux etc.)
  3. dupseek : Perl mit optimiertem Algorithmus zur Reduzierung von Lesevorgängen.
  4. fdf : Perl / c basiert und läuft über die meisten Plattformen (Win32, * nix und wahrscheinlich andere). Verwendet MD5, SHA1 und andere Prüfsummenalgorithmen
  5. freedups : Shell-Skript, das die von Ihnen angegebenen Verzeichnisse durchsucht. Wenn es zwei identische Dateien findet, verbindet es sie fest miteinander. Jetzt sind die zwei oder mehr Dateien immer noch in ihren jeweiligen Verzeichnissen vorhanden, aber nur eine Kopie der Daten ist auf der Festplatte gespeichert. Beide Verzeichniseinträge verweisen auf dieselben Datenblöcke.
  6. fslint : Verfügt über Befehlszeilenschnittstelle und GUI.
  7. liten : Befehlszeilenprogramm für reine Python-Deduplizierung und Bibliothek mit MD5-Prüfsummen und einem Roman Byte-Vergleichsalgorithmus. (Linux, Mac OS X, * nix, Windows)
  8. liten2 : Eine Neudefinition der ursprünglichen Liten, immer noch ein Befehlszeilen-Tool, aber mit einem schnelleren interaktiver Modus mit SHA-1-Prüfsummen (Linux, Mac OS X, * nix)
  9. rdfind : Einer der wenigen, die Duplikate basierend auf der Reihenfolge der Eingabeparameter (zu scannende Verzeichnisse) in Um nicht in "originalen / bekannten" Quellen zu löschen (wenn mehrere Verzeichnisse angegeben sind). Verwendet MD5 oder SHA1.
  10. rmlint : Schneller Finder mit Kommandozeilenschnittstelle und vielen Optionen, um auch andere Lint zu finden (verwendet MD5)
  11. ua : Unix / Linux-Befehlszeilenprogramm, das für die Arbeit mit find (und ähnlichem) entwickelt wurde.
  12. findrepe : Kostenloses Java-basiertes Befehlszeilentool für eine effiziente Suche von doppelten Dateien kann es innerhalb von Reißverschlüssen und Gläsern (GNU / Linux, Mac OS X, * nix, Windows)
  13. suchen
  14. fdupe : ein kleines in Perl geschriebenes Skript. Macht seine Arbeit schnell und effizient. 1
  15. ssdeep : Identifizieren Sie fast identische Dateien mit Context Triggered Piecewise Hashing
v2r 03.04.2012 03:22
quelle
6

Wenn Ihre Deduplizierungsaufgabe musikbezogen ist, führen Sie zuerst die Anwendung picard aus, um Ihre Musik korrekt zu identifizieren und zu markieren (so dass Sie sie finden) duplizieren .mp3 / .ogg-Dateien, selbst wenn ihre Namen falsch sind. Beachten Sie, dass Picard auch als Ubuntu-Paket verfügbar ist.

Das ist geschafft, basierend auf dem musicip_puid -Tag können Sie leicht alle Ihre doppelten Lieder finden.

    
ΤΖΩΤΖΙΟΥ 08.09.2010 23:46
quelle
4

Ein anderes Skript, das diese Aufgabe erledigt, ist rmdupe . Von der Seite des Autors:

  

rmdupe verwendet Standard-Linux-Befehle, um in bestimmten Ordnern nach doppelten Dateien zu suchen, unabhängig vom Dateinamen oder der Erweiterung. Bevor doppelte Kandidaten entfernt werden, werden sie Byte für Byte verglichen. rmdupe kann auch Duplikate gegen einen oder mehrere Referenzordner prüfen, Dateien löschen, statt sie zu entfernen, einen benutzerdefinierten Befehl zum Entfernen zulassen und die Suche auf Dateien mit der angegebenen Größe beschränken. rmdupe enthält einen Simulationsmodus, der angibt, was für einen bestimmten Befehl ausgeführt wird, ohne Dateien tatsächlich zu entfernen.

    
girardengo 22.04.2014 09:34
quelle
3

Hast du es versucht

?
finddup

oder

finddup -l

Ich denke, es funktioniert gut.

    
xerostomus 05.07.2014 06:34
quelle
2

Für musikbezogene Dublettenidentifikation und -löschung Picard und Jaikoz von Pfandrecht ist die beste Lösung. Jaikoz Ich glaube, deine Musik wird automatisch anhand der Daten der Songdatei markiert. Sie brauchen nicht einmal den Namen des Songs, um den Song zu identifizieren und ihm alle Metadaten zuzuweisen. Die kostenlose Version kann zwar nur eine begrenzte Anzahl von Songs in einem Durchgang markieren, aber Sie können sie beliebig oft ausführen.

    
Yathi 22.04.2014 09:47
quelle
2

Ich benutze komparator - sudo apt-get install komparator ( Ubuntu 10.04+ ) - als GUI-Tool zum Auffinden von Duplikaten im manuellen Modus.

    
N0rbert 29.12.2013 13:15
quelle

Tags und Links