Moin moin!
Ich weiß, es klingt etwas schräg, aber ich habe eine fertige Komponente, welche mit sehr hoher Treffergenauigkeit (>99% bei den meisten Sprachen) die Sprache eines geschriebenen Textes erkennt, weiß aber nicht, wofür man diese so alles brauchen kann.
Ich benutze sie bisher "nur" um die Sprache einer E-Mail zu erkennen. Außer dieser und der rein "akademischen" Anwendung sehe aber kaum Nutzen.
Da ich nun aber diese Komponente nicht für mich behalten will und einen Artikel auf CodeProject veröffentlichen wollte ist die Frage ob jemanden noch ein Anwendungsbeispiel einfällt?!
Lohnt sich evtl. eine Veröffentlichung überhaupt nicht?
Gruß
Cadi
Mir würde da spontan Übersetzungprogramme einfallen. Also sowas wie "Geb mir die Übersetzung von diesem Text von dem ich nicht weiß in welcher Sprache er geschrieben ist."
Das Stichwort Suche scheint mir recht vielversprechend...
Evtl. ja auch interessant für einen Crawler, der anhand der Sprache besser indizieren kann (z.B. besseres Stemming) ?
Auch in einem textverarbeitungsprogramm um die entsprechende Korrektur automatisch zu laden ohne eine Sprache auswählen zu müssen obwohl das "nur" ein komfortfeature ist.
Hallo cadi,
nicht nur besser indexieren (Frontend), sondern die Suche könnte z.B. nur Treffer präsentieren, die in der gewünschten Sprache geschrieben wurden (Backend).
Insgesamt gibt es doch massig Einsatzgebiete für die automatische Erkennung der Sprache. Insofern würde sich eine Veröffentlichung sicher lohnen. Gerne (auch) auf myCSharp.de 😃
herbivore
Spam-Erkennung...
Was auf englisch ist, ist bei mit zu 99.9% Spam.
-> Wenn englisch dann löschen...
loop:
btst #6,$bfe001
bne.s loop
rts
In der Kryptografie spielt das auch eine Rolle.
Zum Beispiel bei der Caesar-Chiffre, um den Originaltext herauszufinden, ist es sinnvoll die Sprache eines Textes zu erkennen.
Gruß
Michael
Es hat etwas gedauert, aber hier ist nun das Ergebnis:
http://www.codeproject.com/KB/recipes/DialogueMaster_Babel.aspx