AddressDoctor
Software








AddressDoctor Deduplication Engine

Die AddressDoctor Deduplication Engine identifiziert automatisch vorhandene Duplikate und bietet darüber hinaus Mechanismen zur Vermeidung neuer Dubletten in zuvor bereinigten Datenbeständen. Einige der leistungsfähigen Merkmale sind

  • Automatische Identifikation und "Clusterung" von Duplikaten
  • Vergleich neuer Daten mit bereits bearbeiteten Daten zur nachhaltigen Vermeidung weiterer Duplikate
  • Nickname Fähigkeit
  • Bearbeitet bis zu 10 Dateien
  • C and Java Schnittstelle
  • Verfügbar auf Windows und Linux

Die AddressDoctor Deduplication Engine identifiziert Duplikate in Ihren Datensätzen in dem zunächst sämtliche Datensätze in einen speziellen, hocheffizienten Index importiert werden. Während der Speicherung im Index werden aus den importierten Daten charakteristische Merkmale extrahiert, die sowohl die spätere Ermittlung von Duplikaten wie auch die schnelle, fehlertolerante Suche auf der gesamten Menge ermöglichen. Die in dem Index gespeicherten Daten belegen ca. das 1,5-fache der ursprünglichen Datenmenge.

Um Duplikate in den Datensätzen zu identifizieren werden vom Nutzer Regeln verwendet, die Kriterien festlegen, anhand derer Datensätze als Duplikate zu betrachten sind. Für die gängigen Definitionen von Dubletten existieren Regelsets, die verschiedene Kombinationen von Feldern auswerten (Beispiel: Firmenname, Postleitzahl ODER Ort, Strasse). Für alle weiteren Anforderungen können Regeln nach Absprache individuell erstellt werden. Für fortgeschrittene Nutzer steht nach Absprache auch ein Regeleditor zur Verfügung.

Je nach Regelset sind unterschiedliche Felder betroffen. In diesen wird jeweils auf Feldebene fehlertolerant gesucht. Kandidaten für Dubletten sind diejenigen Sätze, deren Ergebnisse bei der Suche auf den Feldern jeweils eine geforderte Mindestgüte erreichen oder übertreffen.

In den Regeln werden dann die gewonnenen Resultate aus den Feldern mit Hilfe von Fuzzy-Operatoren zu einem fehlertoleranten Gesamtergebnis verknüpft. Erreicht ein Datensatz die hinterlegte Mindestgüte in diesem Gesamtergebnis, so handelt es sich um eine Dublette.

Alle Dubletten werden zu "Clustern" zusammengefügt von denen jeweils ein Datensatz als "bester Datensatz" bestimmt wird. Alle anderen Datensätze im Cluster sind zu diesem entweder vollkommen identisch oder weitgehend ähnlich. Die Ähnlichkeit zum besten Datensatz wird in Prozent angegeben.

Die Indizierung ist sowohl in einem Standard-Verfahren wie auch mit einer speziellen Partitionierung für besonders große Datenmengen verfügbar. Für die nach der Durchführung einer Deduplizierung verfügbare fehlertolerante Suche stehen jedoch stets alle Datensätze zur Verfügung.

Alle Produktinformationen auf einen Blick:

Deduplication_DE_0107.pdf (133k)

Weitere Informationen entnehmen Sie bitte unserem Deduplication Engine White Paper. (Sprache: englisch)

AddressDoctor_DeduplicationEngine_EN_0107.pdf (308k)

Data Quality Center

Account ID
Kennwort

Kennwort vergessen?
Kein Konto? Kostenlos anmelden.

Schnellzugriff

 Dreieck Bestellungen und Preise
 Dreieck Postleitzahlensuche
 Dreieck Länderabdeckung
 Dreieck Demos
 Dreieck Referenzen
 Dreieck Broschüre bestellen
 Dreieck Persönlicher Kontakt

 Dreieck RSS Feeds RSS

PDF Viewer
Bitte laden Sie den Acrobat Reader kostenlos von Adobes Website herunter.