Laden...

Algorithmus um mehrere Texte miteinander zu vergleichen

Erstellt von Christoph K. vor 5 Jahren Letzter Beitrag vor 5 Jahren 1.447 Views
Christoph K. Themenstarter:in
821 Beiträge seit 2009
vor 5 Jahren
Algorithmus um mehrere Texte miteinander zu vergleichen

Hallo zusammen,

ich suche einen Algorithmus, um eine große Anzahl von Texten miteinander zu vergleichen.
Bei einer geringen Anzahl von Texten ist der Vergleich ja kein Problem, nur wenn ich 1000 Texte jeweils miteinander vergleichen will, wird dieser Algorithmusschnell unperformant.

Ich suche nach einer Art Algorithmus, mit dem ich aus dem Inhalt eines Textes eine Art "Stempel" erstellen kann. Der sich danach schnell mit anderen "Stempeln" vergleichen lässt.

Gibt es sowas in der Art? Copyscape müsste doch so einen Algorithmus nutzen.

Gruß
Christoph

C
2.121 Beiträge seit 2010
vor 5 Jahren

"Text vergleichen" ist sehr ungenau. Auch der Stempel ist nicht eindeutig. Suchst du einen Hashwert?

L
21 Beiträge seit 2015
vor 5 Jahren

texte hashen => vergleichen => fertig

Christoph K. Themenstarter:in
821 Beiträge seit 2009
vor 5 Jahren

Ganz so einfach ist das nciht.
Natürlich könnte ich die Texte einfach via Md5 hashen, jedoch soll der Vergleich nicht boolean sonder double als ergebnis haben 😄

Also ich möchte aus einer Menge aus n Texten ein Scoring habne, welche Texte sich am ähnlichsten sind (ähnlich -> nicht genau gleich).

Zum relativen Vergleich zweiter Texte kenne ich ein paar Algorithmen. Einer davon ist z.B. das ermittelt wird wie viele Wort-Einfüge-Lösche-Operationen nötig sind, um von dem einen Text auf den anderen zu kommen (eine Abwandlung der Levenstein - Distanz).
Mit lediglich zwei texten ist das auch nicht sonderlich aufwendig. Aufwendig wird es dadurch, dass beim Vergleich von n Texten eben genau n Texte mit n Texten verglichen werden müssen. Das wird sehr schnell sehr aufwendig/teuer.

Daher suche ich hier etwas performanteres. Ein erster Ansatz war es, die Top 10 Wörter der Texte herrauszusuchen (stoppwortbereiningt) und zu gucken bei welchen Texten diese ähnlich/gleich sind. Die Ergebnisse waren allerdings nicht so dolle.

Also wie schon gesagt, eigentlich suche ich genau den Algorithmus von Copy-Scape. Hier bekomme ich ja auch die relative Ähnlichkeit bezüglich eines eigenen Texten im Bezug auf einen vorhandene Index angezeigt.

5.657 Beiträge seit 2006
vor 5 Jahren

Hi Christoph K.,

dann beschreibe doch mal dein gewünschtes Ergebnis. Wir werden jetzt nicht alle losgehen und recherchieren, wie der Algorithmus von Copy-Scape funktioniert, und was das ist, und es dir dann in C# implementieren.

Ein bißchen Eigeninitiative erwarten wir schon, und bevor dir jemand weiterhelfen kann, mußt du erstmal definieren, was "ähnlich" für dich bedeutet. Die beiden Algorithmen, die du beschreibst, verstehen darunter etwas völlig anderes, und du erklärst nicht, was du eigentlich suchst.

Und was du auch nicht verrätst, ist dein eigentlicher Anwendungsfall. Warum sollte man zwei Texte vergleichen? Will man wissen, ob es in zwei Texten um das gleiche Thema geht, ob sie vom gleichen Autor verfaßt sind, ob es zwei Gedichte oder zwei Nachrichtentexte sind, oder ist es am Ende nur so ein "Weitere interessante Artikel finden Sie auch hier"-SEO-Gedöns?

Weeks of programming can save you hours of planning

R
69 Beiträge seit 2009
vor 5 Jahren

Hallo,

wie wäre es denn mit Azure KI Diensten...

z.B.

https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/text-analytics

Gruß

Ron