Inhalt
- Warum ist es für Textdokumente wichtig?
- Algorithmen zum Erkennen ähnlicher Fotos
- Was ist mit dem Web?
- Software zum Auffinden ähnlicher Fotos
- dupeGuru
- Ähnlicher Bildfinder
- Doppelter Foto-Reiniger
- Ähnliche Bilder
- Find.Same.Images.OK
- Doppelte Bildsuche für visuelle Ähnlichkeit
- Duplicate Cleaner Pro (Version 4.1.1)
- PictureEcho (v 2.0)
- Zusammenfassung ähnlicher Fotosoftware
- Ähnliche Textdokumente finden
- FindAlike
Simon ist seit den Tagen des Papierbandes in der Softwareentwicklung tätig. Er hat Nischensoftware für das Informationsmanagement entwickelt.
Mit dem Aufkommen von Digitalkameras und billigem, reichlich vorhandenem Speicher sind viele Menschen, die Fotos machen, triggerglücklich und kommen möglicherweise aus einem Urlaub mit Tausenden von digitalen Bildern zurück, in dem sie möglicherweise einmal ein paar Rollen Farbdiafilm hatten (der normalerweise 36 enthielt) Bilder). Etwas unterschiedliche Aufnahmen derselben Szene existieren häufig als Gruppen innerhalb der Tausenden von digitalen Bildern, aber die Absicht nach dem Urlaub, aus jeder Gruppe die beste Aufnahme auszuwählen, wird selten verwirklicht.
Es gibt zwar keine Software, die das beste Foto aus einer Gruppe auswählen kann, sie kann jedoch Gruppen ähnlicher Fotos identifizieren und eine Möglichkeit bieten, unerwünschte Fotos zu löschen oder ausgewählte Fotos an einen anderen Ort zu verschieben. Dies kann den Aufwand für die Bearbeitung großer Sammlungen digitaler Bilder auf eine nachvollziehbare Größe erheblich reduzieren.
Warum ist es für Textdokumente wichtig?
Ähnliche, aber nicht identische Textdokumente sind überraschend häufig, insbesondere im Speicher, der von einer Reihe von Benutzern gemeinsam genutzt wird, die möglicherweise bei der Erstellung zusammenarbeiten.In den Studien des Autors in großen und kleinen Organisationen war es nicht ungewöhnlich, dass 40% aller Textdokumente Mitglieder einer Gruppe von zwei oder mehr Personen mit ähnlichem oder identischem Inhalt waren. Selbst für einzelne inländische Benutzer können beim Speichern eines Office-Dokuments im PDF-Format zwei Dokumente erstellt werden, die sich in ihren Bitmustern unterscheiden, jedoch denselben Textinhalt aufweisen.
Kollaboratives Authoring ist in Organisationen weit verbreitet, und es gibt häufig Schwierigkeiten, die neueste Version eines gemeinsam erstellten Dokuments zu finden, bevor es außerhalb der Organisation veröffentlicht wird. "Du hast meine Änderungen nicht abgeholt!" ist eine häufige Anschuldigung in dieser Situation. Dokumentenverwaltungssysteme beheben dieses Problem mit ihrer Check-in / Check-out-Funktion, sind jedoch nicht universell einsetzbar, und selbst wenn sie verfügbar sind, können Benutzer sie möglicherweise nicht verwenden.
Algorithmen zum Erkennen ähnlicher Fotos
Es gibt viele mögliche Algorithmen zum Erkennen von Ähnlichkeiten in Fotos, und die meisten Programme geben keine Details zu deren Funktionsweise an. Eine, die dies tut (dupeGuru), erstellt jedoch eine 15 x 15-Pixel-Version mit sehr niedriger Auflösung für jedes Eingabebild und vergleicht die Pixelfarbkomponenten. Der Anteil dieser 225 Pixel, die übereinstimmen, wird verwendet, um die Ähnlichkeit zu bestimmen. Der Vorgang ist einfach, aber rechenintensiv und langsam: Das Abgleichen von 1300 Fotos dauerte auf einem Laptop mittlerer Spezifikation 13 Minuten. Unterschiede in der Programmleistung des Testbildpaars weisen darauf hin, dass unterschiedliche Algorithmen verwendet werden.
Was ist mit dem Web?
Es gibt jetzt eine Reihe von Bildsuchmaschinen (z. B. Google Images, Preposteo), die Ihnen ein Bild ähnlich dem zeigen, das Sie hochladen oder auswählen. Derzeit scheint es jedoch keine webbasierte Möglichkeit zu geben, Gruppen ähnlicher Fotos in einer großen Sammlung zu finden und zu bearbeiten. Dies kann sich in Zukunft ändern, wenn die Upload-Geschwindigkeit zunimmt und rechenintensivere Matching-Methoden erforderlich sind. Similar.Pictures ist eine technisch ausgefeilte Webanwendung zum Identifizieren von Gruppen ähnlicher Fotos und zum Durchführen der Bildsuche. Es beschreibt seinen Algorithmus zur Ähnlichkeitsmessung im Detail, es fehlt jedoch jede Möglichkeit, Ähnlichkeitsschwellen oder Aktionsgruppen ähnlicher Fotos zu ändern. Der Betrieb über einen Webbrowser kann auf jeder Plattform ausgeführt werden, ist jedoch bei großen Gruppen von Dateien sehr langsam.
Software zum Auffinden ähnlicher Fotos
Es gibt eine große Anzahl von Produkten für die Deduplizierung verschiedener Dateitypen, fast alle befassen sich mit exakter Duplizierung, wobei die duplizierten Dateien das gleiche Bitmuster und damit die gleiche Prüfsumme aufweisen. Einige bieten auch die Erkennung ähnlicher Bilder an, die keine identischen Bitmuster aufweisen, und eine Auswahl davon wird unten beschrieben. Um die Qualität der Ähnlichkeitsübereinstimmung zu bewerten, wurden die beiden unten gezeigten Bilder als Test verwendet. Für einen Menschen sind sie sehr ähnlich, aber nicht für alle getesteten Programme.
Software-Download-Sites wie Softpedia und CNET sind gute Quellen für spezielle Software, aber viele Programme (insbesondere Shareware) wurden seit Jahren nicht mehr geändert, und bei Problemen ist möglicherweise kein Support vorhanden. Softpedia bietet unabhängige Überprüfungen aller herunterladbaren Software.
dupeGuru
Dies ist ein kostenloses Open-Source-Produkt, das verschiedene Methoden zum Dateivergleich sowie zur Bildanalyse (oder zum Bildmodus) bietet. Dazu gehören Dateiname, Größe und Prüfsumme, mit denen identische Dateien schnell identifiziert werden können. Es läuft unter Windows, Linux und OS X. dupeGuru verfügt über eine Hilfeoption (vom 2016) und eine API. Die Schwellenwertähnlichkeit wird im Menü Optionen als Filterhärte festgelegt. Die Beispielausgabe ist unten dargestellt.
Ein Kontrollkästchen in der linken Spalte für die Nichtreferenzdateien ermöglicht die Auswahl einer Datei. Zu den Optionen für markierte und ausgewählte Dateien, die unter dem Menüpunkt Aktionen verfügbar sind, gehören das Verschieben, Kopieren, Löschen und viele andere.
Es gibt keine einfache Möglichkeit, ähnliche Bilder zu vergleichen: Wenn alle Bilder in einem Cluster ausgewählt sind und auf Mit Standardanwendung öffnen geklickt wird, wird jedes Bild in einer separaten Instanz des Standardprogramms angezeigt, was den Vergleich erschwert.
dupeGuru fand selbst bei der Einstellung der meisten Ergebnisse keine Ähnlichkeit zwischen den beiden Testbildern.
Die Fähigkeit von dupeGuru, Duplikate von Nicht-Bilddateien zu finden und zu bearbeiten, geht zu Lasten der einfachen Auswahl aus Clustern doppelter Bilder.
Ähnlicher Bildfinder
Dies ist ein weiteres kostenloses Produkt (von Tago Software). Die Verarbeitung ist etwas schneller als bei dupeGuru. Die Verarbeitung von 1288 Bildern für die genaueste Scanoption dauert 7,5 Minuten. Es ermöglicht den Vergleich ähnlicher Bilder wie unten gezeigt, bietet jedoch keine Aktionsoptionen. Das Clustering ist sehr einfach, da dieselbe Datei als Duplikat von zwei verschiedenen Originalen angezeigt wird. Es gibt keine Hilfe, und der Bildschirm "Info" ist auf 2012 datiert. Daher ist es wahrscheinlich, dass seit vielen Jahren keine Entwicklung mehr erfolgt ist.
Ein ähnlicher Bildfinder fand eine Ähnlichkeit von 74% zwischen den beiden Testbildern.
Doppelter Foto-Reiniger
Dieses Produkt von WebMinds wird auf einigen Download-Sites als Shareware beschrieben, es wird jedoch besser als kommerzielles Produkt mit einem Evaluierungs- oder Demomodus beschrieben. Der Evaluierungsmodus verfügt über die meisten Funktionen, außer dass das Scannen deaktiviert ist. Daher ist es ohne die Produktregistrierung, bei der es sich tatsächlich um einen Lizenzkauf handelt, nicht möglich, Maßnahmen zu ergreifen. Eine Lizenz kostet 49,90 US-Dollar.
Die Ergebnisse eines Standard-Scans werden unten angezeigt. Der Scan ist schnell: 18 Bilder / Sek. Auf einem lokalen Laufwerk. Der unten gezeigte Ergebnisbildschirm im Multi-Viewer-Modus zeigt Miniaturbilder, die eine einfache Überprüfung der Ergebnisse ermöglichen, nachdem Sie auf Alle Originale auswählen geklickt haben. Im Tabellenansichtsmodus werden Bilder paarweise angezeigt (wie bei anderer Software), und im Baummodus werden Originale und Duplikate als Baum angezeigt.
Die Qualität der Gruppierung ist bei unverarbeiteten Kamerabildern im Allgemeinen sehr gut, aber ein Fehler des Algorithmus ist bei den beiden rot hervorgehobenen Clustern erkennbar, die einen ähnlichen Inhalt haben, aber zersplittert (nicht zusammen gruppiert) wurden. Die Ähnlichkeit zwischen den beiden Testbildern betrug 34%, was auf einen restriktiveren Algorithmus als bei anderen Programmen hinweist. Jeder automatisierte Ähnlichkeitsalgorithmus schlägt jedoch manchmal im Vergleich zu einem menschlichen Bewerter fehl.
Aktionsoptionen verschieben oder löschen entweder Originale (wie markiert) oder Duplikate. Bei Bedarf gibt es eine Rückgängig-Funktion. Das Verschieben von Originalen und nicht duplizierten Dateien in einen bestimmten Ordner ist jedoch nicht verfügbar. Dies kann jedoch erreicht werden, indem alle Duplikate gelöscht und der Ordner kopiert oder an den angegebenen Speicherort verschoben werden.
Duplicate Photo Cleaner bietet eine Reihe weiterer sehr nützlicher Funktionen: Das Anpassen der Miniaturbildgröße ermöglicht eine detaillierte Überprüfung von gruppierten Bildern, und das Ändern des als Original gekennzeichneten Bilds (das alle exportiert werden kann) ist lediglich eine Frage des Aktivierens und Deaktivierens von Miniaturansichten.
Die besten Ergebnisse wurden durch mehrere Durchgänge durch die Daten erzielt, zuerst mit einem hohen Schwellenwert und dann mit einem niedrigeren.
Ähnliche Bilder
Dies ist Freeware, aber die heruntergeladene Version ist auf das Jahr 2013 datiert. Die Benutzeroberfläche ist nicht anspruchsvoll und würde einen naiven Benutzer beleidigen. Es gibt keine Hilfedatei. Die Schaltfläche zum Starten der Verarbeitung trägt die Bezeichnung „Suchen“. Der Schwellenwert wird anders interpretiert als bei allen anderen getesteten Programmen. Durch Verringern des Schwellenwerts wird die Anzahl der gefundenen Übereinstimmungen verringert.
Die Verarbeitung ist schnell (7 Bilder / Sek.), Die Vergleichsergebnisse werden jedoch nur als eine Reihe von Bildpaaren angezeigt, was die Verarbeitung von Clustern mit mehr als zwei Dateien erschwert.
Zum Handeln wird eines der gezeigten Bildpaare gelöscht. Je nach Dateidatum, Größe, Auflösung oder ob sich das Bild im rechten oder linken Bereich befindet, können verschiedene Regeln für das automatische Löschen angewendet werden. Eine automatisierte Regel kann verwendet werden, um alle Duplikate zu entfernen.
SimilarImages hingen bei der Verarbeitung des Ordners, der nur die beiden Testbilder enthält, so dass keine Leistungsschätzung erhalten werden konnte
Find.Same.Images.OK
Dies ist Freeware von einem sehr begeisterten Entwickler aus Deutschland mit einer großen Anzahl kostenloser Produkte. Die Benutzeroberfläche ist wieder unkompliziert, mit einer Fülle von Anzeigen und Einstellungen, die einen naiven Benutzer wahrscheinlich abschrecken. Das Scannen ist jedoch schnell (3 Minuten für 1288 Bilder), und die Scanergebnisse werden unten angezeigt:
Die Ergebnisse werden als Paare übereinstimmender Dateien angezeigt, basierend auf einem Ähnlichkeitsschwellenwert, der zwischen 90 und 55% aus der Ähnlichkeits-Dropdown-Liste über der Ergebnisliste festgelegt werden kann. Andere Scanoptionen, die die Erkennung von gedrehten, gespiegelten oder negativen Bildern steuern, können eingestellt werden.
Dateien können durch Klicken mit der rechten Maustaste auf die ausgewählte Datei (oder die ausgewählten Dateien) bearbeitet werden, um sie zu verschieben, zu kopieren oder zu löschen.
Die zwischen den beiden Testbildern gemessene Ähnlichkeit betrug weniger als 55%, was dem verfügbaren Mindestwert entspricht.
Doppelte Bildsuche für visuelle Ähnlichkeit
Dies ist ein kommerzielles Produkt von MindGems. Im Demo-Modus werden nur die Namen der ersten 10 doppelten Gruppen angezeigt und die Aktion von Dateien deaktiviert. Eine Lizenz kostet 24,95 US-Dollar. Es enthält eine Hilfedatei und das Produkt ist auf das Jahr 2017 datiert. Die Benutzeroberfläche zeigt nicht nur doppelte Paare an, sondern muss auch alle Dateien in einem Cluster anzeigen, bevor eine Aktion ausgeführt wird. Sie enthält jedoch viel mehr Funktionen, als ein naiver Benutzer gerne sehen würde. Für den Benutzer, der bereit ist, die Lernkurve zu erklimmen, stehen eine Vielzahl von Optionen und Einstellungen zur Verfügung.
Nach Auswahl des Ordners mit den Bildern und Ausführen des Scans (der für 1288 Dateien wiederum weniger als 3 Minuten dauert) wird der folgende Bildschirm angezeigt.
Das Display zeigt Miniaturansichten aller Bilder an, die zu einem ähnlichen Cluster zusammengefasst wurden, wenn die Option Mehrfachvorschau ausgewählt und eine beliebige Datei in der Gruppe ausgewählt ist. Im Vorschaumodus wird nur die erste Datei in der Gruppe angezeigt und die Datei ausgewählt. Die Gruppen-ID wird in der rechten Spalte der Anzeige angezeigt.
Ein Fehler des Ähnlichkeitsalgorithmus ist in dem oben gezeigten Bild ersichtlich, in dem zwei Cluster ähnlicher Dateien zusammengeführt wurden, alle mit einer Ähnlichkeit von mehr als 90% mit der ersten Datei in der Gruppe. Dieses Problem ist das Gegenteil der Cluster-Splitterung, die bei anderen Produkten auftritt, scheint jedoch weitaus häufiger zu sein. Auf dem Testbildpaar stellte Visual Similarity Duplicate Finder eine Ähnlichkeit von 78% fest, was damit übereinstimmt, dass der Ähnlichkeitsalgorithmus anfälliger für falsch positive Ergebnisse ist als andere Programme.
Die Aktion wird ausgeführt, indem Sie die Registerkarte Autocheck & Löschen / Verschieben oder Kopieren wie unten gezeigt auswählen und auf die seltsam benannte Schaltfläche Ausführen klicken.
Duplicate Cleaner Pro (Version 4.1.1)
Dieses Produkt der britischen Firma Digital Volcano enthält eine Duplikaterkennung für Fotos, Audiodateien und Dokumente im Bild-, Dokument- oder Audiomodus. Die genaue Duplizierung kann aus einer Reihe von Dateimetadaten und aus Prüfsummen des binären Inhalts geschätzt werden. Der Erkennungsmodus enthält einen variablen Ähnlichkeitsschwellenwert für den Scanmodus für Dokumente und Bilder.
Die Identifizierung ähnlicher, aber nicht identischer Textdokumente ist ein Hauptmerkmal, das nur bei wenigen Verbraucherprodukten (insbesondere FindAlike) zu finden ist. Das Programm erkennt jedoch nicht, dass PDF-Versionen eines Word-Dokuments identisch sind, und identifiziert Word-Dokumente, die zu unterschiedlichen Zeiten oder bei kleinen Änderungen des Textinhalts gespeichert wurden, auch bei einem Ähnlichkeitsschwellenwert von 10% nicht als ähnlich. Es scheint, dass sich der Begriff ähnlicher Dateiinhalt nicht auf den Textinhalt von Dokumenten bezieht.
Das Produkt weist einige der Merkmale von Feature Creep auf: Es stehen sehr umfangreiche Funktionen zur Verfügung, aber nicht alle sind ausreichend dokumentiert, obwohl die Hilfe- und Supportfunktionen sehr gut aussehen und ein Online-Forum zur Problemlösung zur Verfügung steht. Einige Experimente sind erforderlich, um das Produkt effektiv zu nutzen, was Benutzer abschrecken kann, ohne die Neigung zu haben, Software zu erforschen und damit zu experimentieren. Ein Beispiel für die Details, die in den Suchkriterien (oder eher in den Übereinstimmungskriterien) verfügbar sind, ist unten dargestellt.
Die festen Bildähnlichkeitskategorien von Sehr nah, Gut und Lose entsprechen Ähnlichkeiten von 97%, 88% und 65%, aber die Methode zur Schätzung dieser ist nicht angegeben. Es ist wahrscheinlich dasselbe wie das von DupeGuru verwendete, bei dem kleine Positionsänderungen einen dramatischen Effekt auf das Ähnlichkeitsmaß haben, wie unten gezeigt.
Alle oben genannten Bildpaare würden von einem menschlichen Betrachter als sehr ähnlich eingestuft, sind jedoch nicht vom Ähnlichkeitsalgorithmus abhängig.
Die Verarbeitungsgeschwindigkeit für Bildähnlichkeit ist moderat: ca. 5 Bilder / Sek. Die genaue Match-Verarbeitung ist viel schneller. Nach dem Start des Scans wird keine Schätzung der verbleibenden Zeit angegeben.
Gruppen von Bildern, die von Duplicate Cleaner Pro geclustert wurden, werden über eine separate Schaltfläche angezeigt. Verschiedene Gruppen können durchgeblättert und Dateien zum Löschen, Verschieben oder Umbenennen markiert werden. Ordner mit ähnlichem Inhalt können ebenfalls identifiziert werden.
Das Ausführen von Aktionsdateien in doppelten oder nahezu doppelten Clustern wird gut unterstützt. Es gibt eine Reihe von Optionen zum Entscheiden, welche Dateien innerhalb einer Clustergruppe ausgeführt werden sollen, und zum Ausführen von Aktionen, einschließlich Löschen, Verschieben, Kopieren und Ersetzen durch einen Link. Die Identifizierung von Ordnern mit doppeltem Inhalt ist besonders nützlich. Die in diesem Prozess sehr nützliche Sortierung von Dateien und Ordnern nach Größe funktioniert jedoch nicht.
Trotz dieser Einschränkungen bietet Duplicate Cleaner Pro eine breite Palette von Funktionen zu einem angemessenen Preis (Liste A $ 49 oder US $ 35) und scheint mit über 2 Millionen Downloads belohnt worden zu sein. Es bietet eine kostenlose Testphase, jedoch mit einigen Leistungseinschränkungen.
PictureEcho (v 2.0)
PictureEcho stammt von Sorcim (Pvt) Ltd, einem pakistanischen Unternehmen in Rawalpindi, das eine Reihe von Deduplizierungs- und Datenverwaltungsanwendungen anbietet. PictureEcho behauptet, "eine menschenähnliche Analyse visuell ähnlicher Bilder durchzuführen". Die Registrierung des Programms kostet 39,97 US-Dollar pro Jahr, es gibt jedoch keinen Hinweis darauf, welche Einrichtungen durch die Registrierung verfügbar gemacht werden: Die nicht registrierte Version kann in gewisser Weise eingeschränkt sein, die Einschränkungen sind jedoch nicht angegeben.
Während die Option Exakte Übereinstimmung identische Bilder angemessen erkennt, bietet die Option Ähnliche Übereinstimmung vier Optionen, von denen drei Gruppenbilder ausschließlich die Grundlage für die Unterschiede zwischen den Zeitpunkten der Bilderfassung bilden. Das Scannen mit diesen Optionen ist sehr schnell. Die vierte Option enthält keine Zeitvergleiche und scheint eine Form der Bildanalyse zu verwenden. Der Scanvorgang ist viel langsamer. Die Ergebnisse sind nicht beeindruckend.
PictureEcho kann nützlich sein, wenn der Status "nahezu doppelt" durch den Zeitunterschied zwischen Bildern angezeigt wird, die nahezu übereinstimmende Bildanalyse jedoch keine Kontrolle über den Grad der Ähnlichkeit zwischen Bildern hat. Das Produkt wird nicht empfohlen.
Zusammenfassung ähnlicher Fotosoftware
Produkt | Kosten | Schnittstellenqualität | Geschwindigkeit | Leistung bei Testbildern | Anmerkungen |
---|---|---|---|---|---|
dupeGuru | Kostenlos | 2 | 1 | 1 | Keine eingebaute Anzeige von Streichhölzern |
Ähnlicher Bildfinder | Kostenlos | 2 | 4 | 4 | Kein Handeln |
Doppelter Foto-Reiniger | 49,90 US-Dollar | 5 | 5 | 3 | Einfaches Handeln und Bedienen |
Ähnliche Bilder | Kostenlos | 1 | 4 | 1 | Komplexe Aktionen hängen an einigen Ordnern |
Find.Same.Images.OK | Kostenlos | 1 | 3 | 2 | Idiosynkratische Schnittstelle |
Doppelte Bildsuche für visuelle Ähnlichkeit | US $ 24,95 | 3 | 4 | 5 | Komplexe Schnittstelle |
Duplicate Cleaner Pro | US $ 35 | 4 | 2 | 3 | Beinhaltet die exakte Übereinstimmung von Audio und Dokument. Erkundung und Experimentieren erforderlich. |
Insgesamt wäre Duplicate Photo Cleaner das empfohlene Produkt, aber Sie müssen bereit sein, die Lizenzgebühr zu zahlen. Es neigt dazu, falsch negative Ergebnisse zu liefern, aber dies kann durch mehrere Durchgänge überwunden werden, zuerst mit einem hohen Schwellenwert und dann mit einem niedrigeren, um andere Übereinstimmungen aufzunehmen. Die Benutzeroberfläche ist einfach und gut gestaltet. Die kostenlosen Produkte haben schlechte Schnittstellen und erfordern vom Benutzer etwas Geduld. SimilarImages ist wahrscheinlich das beste, hängt aber an einigen Ordnern. Duplicate Cleaner Pro bietet Audio-Matching und exaktes Matching für Dokumente zu einem attraktiven Preis. Die Benutzeroberfläche ist umfassend, kann aber für einen naiven Benutzer entmutigend sein.
Ähnliche Textdokumente finden
Software zum Erkennen ähnlicher Textdokumente ist weitaus seltener als für Fotos. Gegenwärtig wird diese Funktion am häufigsten bei der rechtlichen Ermittlung verwendet, und viele Softwarepakete, die für diesen Zweck vorgesehen sind, enthalten eine gewisse Kapazität zum Auffinden solcher Dokumente. Diese Pakete stehen im Allgemeinen nicht zum Herunterladen und Testen zur Verfügung. Das Gebiet ist als eine der Grenzen der künstlichen Intelligenz von erheblichem Forschungsinteresse, und es gibt viele Veröffentlichungen zu Methoden der Ähnlichkeitsschätzung.
Das Auffinden der neuesten Version eines Dokuments ist unkompliziert, wenn alle Dokumente immer in einem Dokumentenverwaltungssystem gespeichert sind. Die Speicherung und Verarbeitung außerhalb des Systems erfolgt jedoch häufig, sodass die neueste Version im Dokumentenverwaltungssystem nicht unbedingt die aktuellste ist Ausführung.
Es scheint nur ein ähnliches Produkt zur Erkennung von Textdokumenten zu geben, das umfassender als die rechtliche Entdeckung ist und zum Herunterladen und Testen zur Verfügung steht.
FindAlike
FindAlike ist ein Produkt von Aleka Consulting, einem australischen Unternehmen. Eine Einzelbenutzerlizenz kostet 89 US-Dollar, und Downloads haben eine 30-tägige Testphase. FindAlike erstellt einen Dokumentvektor aus dem Textinhalt von Dokumenten und stimmt diese Vektoren ab, um die Ähnlichkeit abzuschätzen und Cluster ähnlicher Dokumente zu erkennen. Das Erstellen und Verschieben von Dokumenten auf lokalen und gemeinsam genutzten Dateisystemen wird mithilfe der Microsoft Windows-Indizierung verfolgt.
FindAlike besteht aus einer eigenständigen Komponente und einem Office-Add-In. Bei Verwendung des Office-Add-Ins werden Dateien mit einem Text angezeigt, der dem Text des aktuell geöffneten Dokuments ähnelt, zusammen mit dem Änderungsdatum, sodass neuere Versionen des geöffneten Dokuments leicht erkannt werden können. Die eigenständige Komponente ermöglicht die Auswahl einer beliebigen Datei als Ziel für den Ähnlichkeitsabgleich. Beide Komponenten unterstützen das Markieren (manuell und automatisch basierend auf Inhalten) und die Suche sowie einen Vorschlag für ein Containerziel, wenn es in Verbindung mit einem Dokumentenverwaltungssystem verwendet wird. Wenn ähnliche Dateien an E-Mails angehängt werden, werden der E-Mail-Absender und -Empfänger angezeigt.
FindAlike bietet eine einstellbare Ähnlichkeitstoleranz und das Scannen des Festplattenspeichers kann lokale Laufwerke und Netzwerklaufwerke umfassen. Auf den Netzwerklaufwerken muss nicht unbedingt ein Windows-Betriebssystem ausgeführt werden. Es bietet auch eine indizierte Suche über diese Laufwerke (und lokale E-Mails).