Laden...

phonetischer Algorithmus???

Erstellt von dschmoegner vor 17 Jahren Letzter Beitrag vor 17 Jahren 3.601 Views
D
dschmoegner Themenstarter:in
280 Beiträge seit 2005
vor 17 Jahren
phonetischer Algorithmus???

Moin,

ich stehe vor dem Problem, dass ich eine Datei mit Adressen bekomme in der sich leider auch Dubletten befinden können. Als Beispiel DSMZ GmbH oder einfach nur D S M Z. Mit einem einfachen String Compare bekomme ich diese Daten ja nicht gefiltert. Es handelt sich hierbei um 3000-4000 Einträge. Wäre es hier besser einen Algorithmus wie Sounders zu implementieren oder die Datei von Hand zu bearbeiten?

Gruss
dschmoegner

Dennie Schmögner
Dipl. Ing. Informatik / Fachrichtung Automatisierungstechnik
Microsoft Business Intelligence 2005
SharePoint Portal Server 2007

L
497 Beiträge seit 2006
vor 17 Jahren

In diesem Bereich gibt es ja bereits einige kommerzielle Lösungen, die einiges leisten aber auch entsprechend teuer sind. Die machen dann auch mehr als ein einfaches Soundex.

Wenn die Dubletten aber wirklich nur in Einfachheit vorkommen, wie Du's beschrieben hast (also Schreibfehler bzw. andere Schreibweise), dann dürfte ein Soundex schon Deinen Anforderungen genügen.

Die meisten Datenbanken unterstützen Soundex und Du könntest somit einfach alle Einträge nacheinander dort mit einem angepassten SQL-Statement einfügen und Dir die auswerfen lassen, die vermutlich doppelt sind. Da muss dann jemand per Hand drüber gehen und die eingetragenenen und die nicht eingetragenen Werte entsprechend Mergen, aber das dürfte deutlich einfacher sein, als 4000 Einträge per Hand zu machen. Ich würde mal schätzen, dass die beschriebene Lösung zuz programmieren maximal 2-3 Stunden in Anspruch nimmt, während das händische Einfügen wohl eher Tage dauert.

Sarkusmus ist, wenn nichts mehr hilft, außer Lachen.

D
dschmoegner Themenstarter:in
280 Beiträge seit 2005
vor 17 Jahren

Hi Lord Hessia,

danke für deine Antwort. Die Daten werden von mir am Ende im csv als Importdateien abgelegt. Kann da also nicht auf mögliche Implementierungen zurückgreifen. Allerdings ist jetzt schon wieder alles anderst und Cheff meint er braucht die Daten am besten gestern also sind Dubletten zweitrangig. 8o Na ja wie der Cheff es will 🤔

Dennie Schmögner
Dipl. Ing. Informatik / Fachrichtung Automatisierungstechnik
Microsoft Business Intelligence 2005
SharePoint Portal Server 2007

L
497 Beiträge seit 2006
vor 17 Jahren

Original von dschmoegner
Allerdings ist jetzt schon wieder alles anderst

Ja, das kenn ich...

Original von dschmoegner
Die Daten werden von mir am Ende im csv als Importdateien abgelegt. Kann da also nicht auf mögliche Implementierungen zurückgreifen.

Da würde ich - wenn es auch nicht mehr interessant für Dich ist - doch gerne nochmal anknüpfen. Es ist ja kein Problem, die Daten dann wieder aus der Datenbank zu exportieren (viele DBMS unterstützen da auch csv als Dateiformat). Dann hättest Du das DBMS halt nur mal kurz "missbraucht" als Dublettenfinder.

Sarkusmus ist, wenn nichts mehr hilft, außer Lachen.

D
dschmoegner Themenstarter:in
280 Beiträge seit 2005
vor 17 Jahren

Is ne Idee auf jeden Fall. Allerdings generiere ich mit meinen Importdateien den Datenstamm, da wir grad von einer Warenwirtschaftslösung auf eine andere umsteigen.
Die bisherige is veraltet, ungepflegt und bietet natürlich keinerlei Schnittstellen zur neuen. Tja und da sitze ich nun zwischen.

Dennie Schmögner
Dipl. Ing. Informatik / Fachrichtung Automatisierungstechnik
Microsoft Business Intelligence 2005
SharePoint Portal Server 2007

49.485 Beiträge seit 2005
vor 17 Jahren

Hallo dschmoegner,

siehe auch 2 Zeichenketten vergleichen

herbivore

D
dschmoegner Themenstarter:in
280 Beiträge seit 2005
vor 17 Jahren

Danke herbivore,

werd ich mir mal zu Gemüte führen.

Gruss
dschmoegner

Dennie Schmögner
Dipl. Ing. Informatik / Fachrichtung Automatisierungstechnik
Microsoft Business Intelligence 2005
SharePoint Portal Server 2007