So finden Sie nahezu doppelte Inhalte und Textdokumente

Autor: Peter Berry

Erstelldatum: 19 Juli 2021

Aktualisierungsdatum: 1 April 2025

Video: Playmobil Film deutsch | MAREN SCHNÖSEL ECHTE MAMA? Gehört Hannah nicht zu Familie Vogel?Kinderserie

Inhalt

Was ist Near-Duplication?
Warum ist eine Erkennung mit nahezu doppelter Vervielfältigung wichtig?
Wie kann Ähnlichkeit geschätzt werden?
Wo sind die Produkte?
Nahezu doppelte Erkennung bei der rechtlichen Ermittlung
Muss ich mir Sorgen um nahezu doppelte Dokumente machen?
Fast Duplizierung in Websites
Entbündelte nahezu doppelte Erkennung

Simon ist seit den Tagen des Papierbandes in der Softwareentwicklung tätig. Er hat Nischensoftware für das Informationsmanagement entwickelt.

Was ist Near-Duplication?

Nahezu doppelte elektronische Dokumente sind leicht zu beschreiben, aber schwer zu definieren. Nahezu doppelte Dokumente haben einen ähnlichen, aber nicht unbedingt identischen Inhalt. Die Ähnlichkeit von Dokumenten wird häufig durch einen Prozentsatz geschätzt, wobei 100% identisch sind. Während identische Dokumente leicht definiert und identifiziert werden können (über eine Vielzahl von Prüfsummenalgorithmen, die eine Zeichenfolge basierend auf dem Byte-Inhalt der Datei erzeugen), hängt die Definition der Ähnlichkeit von einem tieferen Verständnis des Dokuments und seiner Bedeutung ab. Bestehende Methoden zur Ähnlichkeitsschätzung verwenden die statistische Analyse von Wortgruppen als robusten Ersatz für die Analyse der Bedeutung. Die Vielfalt der Algorithmen und die statistische Natur der Analyse führen dazu, dass Ähnlichkeitsmessungen nicht absolut sind - zwei Dokumente, die mit einem Algorithmus oder Parametersatz als 75% ähnlich gemessen wurden, weisen mit einem anderen Algorithmus oder Parametersatz nicht die gleiche Ähnlichkeit auf. Aussagen wie „40% aller Textdokumente sind ähnlich“ sind daher hochqualifiziert.

Warum ist eine Erkennung mit nahezu doppelter Vervielfältigung wichtig?

Suchmaschinen werden häufig verwendet, um alle Dokumente zu ermitteln, die sich auf ein bestimmtes Problem oder eine bestimmte Frage beziehen. Der schlüsselwortbasierte Ansatz liefert jedoch in der Regel eine unangemessen große Anzahl von Ergebnissen, und die Rangfolge dieser Ergebnisse entspricht nicht immer den Wünschen des Benutzers .

Web-Suchmaschinenergebnisse enthalten häufig eine große Anzahl doppelter und nahezu doppelter Ergebnisse. Das Herausfiltern dieser Ergebnisse wäre ein erheblicher Vorteil. Google hält eine Reihe von Patenten für diesen Prozess, und der Google-Seitenrang wird durch das Vorhandensein von Duplikaten und nahezu Duplikaten verringert.

Auf Organisationsebene gibt es eine Fülle von nahezu doppelten Dokumenten, häufig durch die Aufbewahrung mehrerer Entwürfe desselben Dokuments. Das Auffinden der neuesten Version eines Dokuments kann unkompliziert sein, wenn die Versionskontrolle im Dokumentrepository konsequent und universell angewendet wird. Dies ist jedoch selten der Fall.

Wie kann Ähnlichkeit geschätzt werden?

Eine vernünftige Schätzung der Ähnlichkeit für Bilder kann erhalten werden, indem die Bilder, die mit einer sehr kleinen Anzahl von Pixeln verglichen werden, erneut abgetastet werden und dann der Anteil der Pixel verwendet wird, die identisch sind oder innerhalb einer bestimmten Farbraumtoleranz (häufig nur unter Verwendung einer Graustufe). als Ähnlichkeitsmaß. Dieser Prozess ist schnell und die bekannte Grundlage mehrerer leicht verfügbarer Bildanpassungsprogramme. Andere Programme sind hinsichtlich der Art ihrer Vergleichsalgorithmen zurückhaltend, können diese Methode jedoch durchaus verwenden.

Bei Textdokumenten ist die Aufgabe viel schwieriger, da die Reihenfolge der Wörter sowie ihre Bedeutung von Bedeutung sind. Das Extrahieren von Wörtern aus Textdokumenten ist keine einfache Angelegenheit, obwohl eine Vielzahl von Textextraktionskomponenten vorhanden ist, da die Textextraktion ein wesentlicher Bestandteil des Prozesses zum Erstellen von Suchmaschinenindizes ist. Es ist häufig der Fall, dass die Verwendung eines anderen Textextraktors für dasselbe Dokument zu unterschiedlichen Ergebnissen führt.

Ist der Anteil identischer Wörter in zwei Dokumenten unter der Annahme einer perfekten Textextraktion ein Maß für die Ähnlichkeit? Leider nicht - zwei Dokumente mit denselben Wörtern in unterschiedlicher Reihenfolge erscheinen durch diese Maßnahme identisch. Synonyme sind eine weitere Komplikation - mehrere Wörter können dasselbe beschreiben. Es gibt viele Ansätze zur Ähnlichkeitsschätzung, die jedoch in zwei Gruppen unterteilt sind. Man unterteilt den Text in kleine, manchmal überlappende Gruppen aufeinanderfolgender Wörter, die als Schindeln bezeichnet werden, und misst die Ähnlichkeit anhand des Anteils identischer Schindeln, die in Dokumentenpaaren gefunden werden. Der andere konstruiert einen Wortvektor, der das Dokument charakterisiert und seinen Vergleich mit den Vektoren durchführt. Beide Methoden verfügen über eine Vielzahl von Parametern und Vergleichsmethoden, von denen einige hochentwickelte Statistiken verwenden. Aufgrund der Vielzahl von Ähnlichkeitsalgorithmen und -parametern gibt es kein absolutes Maß für die Textähnlichkeit.

Ein weiteres Problem besteht darin, dass jedes Dokument mit jedem anderen Dokument in einer Sammlung verglichen werden muss, was Vergleiche für große Sammlungen wie große Websites sehr langsam macht.

Wo sind die Produkte?

Die Ähnlichkeitsschätzung für Textdokumente ist Gegenstand vieler akademischer Studien, wie eine Suche nach „nahezu doppelter Dokumentenerkennung“ zeigt, aber nur eine einzige Studie scheint sich in ein freistehendes, entbündeltes Produkt verwandelt zu haben.

Während die rechtliche Entdeckung ein bekannter und lukrativer Bereich der Nachfrage nach nahezu doppelter Erkennung ist, treten in vielen Organisationen Probleme auf, die sich aus der nahezu doppelten Erkennung von Dokumenten ergeben, insbesondere wenn mehrere Autoren zu einem einzigen Dokument beitragen, dessen Entwürfe per E-Mail ausgetauscht werden einer externen Agentur vorgelegt werden. Der Speicherort der neuesten Version eines solchen Dokuments (z. B. eine Ausschreibungsantwort) ist möglicherweise nicht bekannt, was zur Einreichung eines Dokuments ohne die neuesten Überarbeitungen führt. Die konsequente Verwendung eines Dokumentenverwaltungssystems mit Versionskontrolle, das von allen Autoren verwendet wird, kann sich gegen diese Situation schützen, aber ein solches System kann möglicherweise nicht implementiert werden oder es kann so verwendet werden, dass es schwierig ist, die neueste Dokumentversion zu finden .

Die andere Domäne für die Erkennung nahezu doppelter Dokumente ist das Crawlen von Websites. Die Identifizierung nahezu doppelter Webseiten kann sehr hilfreich sein, um große Websites auf dem neuesten Stand zu halten, indem sichergestellt wird, dass Änderungen auf alle Seiten angewendet werden, auf denen sie benötigt werden, der höchstmögliche Google-Seitenrang erzielt wird und das Volumen der Suchergebnisse verringert wird.

Nahezu doppelte Erkennung bei der rechtlichen Ermittlung

Die rechtliche Aufdeckung ist ein Vorverfahren, bei dem jede Partei in einem Rechtsstreit die Vorlage von Dokumenten verlangen kann, die von der anderen Partei aufbewahrt werden und für den betreffenden Fall relevant sind. Dies erfordert möglicherweise die Auswertung einer sehr großen Anzahl elektronischer Dokumente und E-Mails auf ihre Relevanz für einen bestimmten Fall und deren Export in ein standardisiertes Format, ein Prozess, der allgemein als eDiscovery bezeichnet wird. Wenn ein Dokument als relevant angesehen wird, können auch andere ähnliche Dokumente relevant sein. Da die Relevanz von hochbezahlten Rechts- und Rechtsanwaltsmitarbeitern bestimmt wird, führt jede Verringerung der Anzahl der zu prüfenden Dokumente oder jede Straffung des Prozesses durch Gruppierung ähnlicher Dokumente und Eliminierung exakter Duplikate zu erheblichen Kosteneinsparungen.Die großen Einsparungen und andere Anforderungen des rechtlichen Entdeckungsprozesses, insbesondere die effiziente Bearbeitung von E-Mails, führen dazu, dass Software für diesen Zweck viel teurer ist als herkömmliche Consumer-Software, aber viele verschiedene Pakete verfügbar sind.

Ein Anbieter (Casefleet) hat einen nützlichen Blogbeitrag zu Vergleichskriterien für eDiscovery-Tools. OpenText, ein Anbieter von Enterprise Information Management, bietet einen weiteren. Beide betonen, wie wichtig es ist, Algorithmen für maschinelles Lernen zur Beantwortung von Fragen wie „Dokumente wie dieses suchen“ zu verwenden, die eine nahezu doppelte Erkennung ermöglichen, obwohl es sich nicht um einen Lernalgorithmus handelt. Das Discovery Assistant-Produkt von Vendor ImageMaker enthält einen ausgeklügelten Algorithmus zur Erkennung nahezu doppelter Dokumente, der jedoch aufgrund seines Preises und seines Designs nur als eDiscovery-Tool verwendet werden kann.

Algorithmen für maschinelles Lernen arbeiten mit Trainingssätzen. Das manuelle Sammeln einiger relevanter Dokumente und deren Verwendung als Trainingssatz, um andere Dokumente in einer großen Sammlung mithilfe von Algorithmen für maschinelles Lernen zu finden, ist ein gängiger Ansatz. Die Anwendung von Algorithmen für maschinelles Lernen zur Klassifizierung von Dokumenten wird hier von Google beschrieben. Aufgrund seiner Rechenintensität wird es häufig als Cloud-Service implementiert.

Muss ich mir Sorgen um nahezu doppelte Dokumente machen?

Da die Speicherkosten gesunken sind und das Abrufen von Dokumenten über die Suche leistungsfähiger geworden ist, sind die Effizienzgewinne und Platzersparnisse, die durch das Entfernen doppelter und nahezu doppelter Dokumente erzielt werden, weniger bedeutend geworden. Die Aufbewahrung mehrerer Entwürfe eines Dokuments kann jedoch die rechtliche Gefährdung erhöhen, wenn einer Organisation ein Entdeckungsauftrag zugestellt wird, da alle von der Organisation gespeicherten Dokumente der anderen Partei vorgelegt werden müssen. Frühe Entwürfe können Inhalte enthalten, die für die Organisation nachteilig sind, und ihre Identifizierung und Entfernung kann die rechtliche Gefährdung verringern.

Die rechtliche Gefährdung ist ein wesentlicher Treiber für die Verlagerung des organisatorischen Speichers von gemeinsam genutzten Laufwerken, auf denen es sehr schwierig ist, eine Richtlinie zur Dokumentenentsorgung auf Dokumentenmanagementsysteme (DMS) anzuwenden. DMS bieten viele Vorteile gegenüber Dateifreigaben, einschließlich:

Eincheckdatum des Definitionsdokuments. Dieses Datum bietet eine Grundlage für Aufbewahrungsfristen und unterliegt keinem ungeplanten Zurücksetzen, wie es bei Datumsdaten-Datums-Metadaten auftreten kann.
Definition des Dokumenteneigentums. Wie beim Eincheckdatum unterliegt das Eigentum nicht dem ungeplanten Zurücksetzen oder der Volatilität, wenn Konten entfernt werden.
Einfache Implementierung von Entsorgungsrichtlinien und Anwendung eines „Legal Freeze“ auf Dokumentänderungen, das angewendet werden muss, nachdem ein Entdeckungsauftrag zugestellt wurde.
Versionskontrolle. Auf verschiedene Versionen eines Dokuments kann systematisch zugegriffen werden, Benutzer können dies jedoch möglicherweise nicht nutzen.

Trotz dieser Vorteile und der Verfügbarkeit kostenloser Versionen der meisten DMS-Produkte werden Festplatten weiterhin zur organisatorischen Speicherung von Dokumenten verwendet, manchmal ohne offizielle Genehmigung. Häufige Gründe sind Leistung und Vertrautheit, da zusätzliche Hardware für die Ausführung des DMS erforderlich ist. Die DMS-Leistung ist häufig viel schlechter als eine Dateifreigabe, insbesondere für große Dateien, und einige Anwendungen (z. B. mit Excel verknüpfte Dateien) basieren auf relativen Pfaden zwischen Dateien, die in DMS nicht vorhanden sind und häufig Dateien in einer Datenbank speichern. Selbst die Cloud-Speicherung von Dateien in Ordnerstrukturen kann in diesem Bereich Probleme verursachen, da absolute Pfadnamen verwendet werden, die sich zwischen den Benutzern unterscheiden. Benutzer sind im Allgemeinen auch mit Dateivorgängen auf einer Dateifreigabe vertraut und können den von DMS geforderten Check-in / Check-out- und obligatorischen Metadateneintrag als lästig empfinden. Das beliebte DMS-Produkt Microsoft SharePoint hat einige Anstrengungen unternommen, um die Arbeitsumgebung einer Dateifreigabe so ähnlich wie möglich zu machen.

Fast Duplizierung in Websites

Da der Google-Seitenrang verringert wird, wenn Google feststellt, dass eine Website einen hohen Grad an Duplizierung aufweist (ihre Definition umfasst nahezu Duplizierung), enthalten die meisten Dienste zur Website-Wartung und Suchmaschinenoptimierung die Erkennung von Duplikaten als Teil ihrer Berichte und einige wenige (einschließlich OnCrawl) und DeepCrawl) nehmen explizit nahezu doppelte Inhalte in ihre Berichte auf.

Entbündelte nahezu doppelte Erkennung

Wenn Sie keine rechtliche Ermittlung durchführen oder nicht versuchen, Ihren Website-Rang zu optimieren, gibt es einige Softwarepakete, mit denen eine nahezu doppelte Analyse einer Dokumentensammlung durchgeführt werden kann.

Neardup

Dies ist ein Java-Befehlszeilenprogramm von SoftCorporation mit einer kostenlosen 3-Monats-Lizenz. Es ist eher ein Framework als ein Consumer-Programm, für dessen Funktion eine Reihe kostenloser Bibliothekspakete installiert werden müssen. Die Ausgabe ist eine Sammlung von Dateiclustern im XML-Format, und die Dokumentation weist auf einen akademischen Ursprung hin. Potenzielle Benutzer müssten mit Computern sehr gut umgehen können, um sie anwenden zu können.

FindAlike

Dies ist ein ehrgeiziges Windows-Produkt für Endverbraucher von Aleka Consulting, das nahezu doppelte Erkennung, Verbundsuche und Tagging bietet. Im Gegensatz zu Neardup wird keine Liste aller Dokumentcluster in einer statischen Sammlung bereitgestellt, sondern es werden nahezu Duplikate eines bestimmten Dokuments oder eines bestimmten Textinhalts gefunden, indem Schnittstellen zu Windows-Suchindizes verwendet werden, die Outlook-E-Mail-Nachrichten sowie Festplatteninhalt enthalten. Auf diese Weise können automatisch nahezu Duplikate in Dokument- und Outlook-E-Mail-Sammlungen gefunden werden, die ständig aktualisiert werden. Diese Funktion gibt ihm die Möglichkeit, alle verschiedenen Versionen eines Dokuments zu finden und sie dann nach Datum zu sortieren, um die neuesten zu finden. Für das Clustering stehen 4 voreingestellte Ähnlichkeitsstufen zur Verfügung. FindAlike bietet auch die Verbundsuche mehrerer Laufwerke und das manuelle oder automatische Markieren von E-Mails und Dokumenten mithilfe statistischer und regelbasierter Klassifizierer. Ein Office-Add-In bietet diese Funktionalität in Word, Outlook, Excel und Powerpoint für den Textinhalt des geöffneten Dokuments. FindAlike kostet 89 USD pro Jahr für eine Einzelbenutzer-Desktop-Lizenz mit einer kostenlosen 30-Tage-Testversion. Arbeitsgruppenlizenzen sind ebenfalls verfügbar.

Dieser Artikel ist genau und nach bestem Wissen des Autors. Der Inhalt dient nur zu Informations- oder Unterhaltungszwecken und ersetzt nicht die persönliche Beratung oder professionelle Beratung in geschäftlichen, finanziellen, rechtlichen oder technischen Angelegenheiten.