Laden...

Search engine

Erstellt von -Hades- vor 15 Jahren Letzter Beitrag vor 15 Jahren 1.481 Views
-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren
Search engine

Hallo,

ich suche ein Tool das ich in ein ASP.NET Projekt einbauen kann, welches mir erlaubt auf einem Server Dokumente (PDF etc.) sowie Bilder (vorwiegend jpeg) auf Schlüsselwörter hin zu durchsuchen. Ich möchte am Ende eine Liste mit den relevanten Dokumenten und Bildern einschließlich einer Prozentangabe zur Relevanz bezüglich des eingegeben Schlagwortes ausgeben.
Zu erwähnen ist noch das nur bestimmte Dokumente am Ende angezeigt werden sollen, auf die der User auch Zugriff hat (nicht jeder User hat Rechte um alle Dokumente anzusehen).
Zudem sollte das Tool nicht im Full Trust Modus laufen.

Es wäre schön wenn jemand solch ein Tool kennt. Es kostenloses Tool wäre hierbei natürlich das beste aber es darf auch ein wenig kosten.

Viele Grüße -Hades-

2.082 Beiträge seit 2005
vor 15 Jahren

Hallo -Hades-,

wird die Suche vom Webfrontend oder eher im wwwroot ausgeführt?

Meine, haben Besucher oder Entwickler der Homepage Zugriff auf die Suche?

Bei ersteres würde ich davon abraten, immer die ganzen Verzeichnisse durchsuchen zu lassen. Ich würde eher einmal eine Datei aufbereiten (bsp DataSet und als XML speichern) die die Dateien indexiert. Ggf. bedarf es da noch etwas Nachbearbeitung bezüglich der Rechte.

Im DataSet würde dann einfach ein .Select reichen.

Es ist toll jemand zu sein, der nichts von der persönlichen Meinung Anderer hält. - frisch-live.de

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Hallo,

also der User meldet sich auf der Seite mittels username und password an und kann dann in eine Zeile einWort eingeben und dann auf "Suche" klicken. Daraufhin soll das gesuchte Tool welches ich einbauen möchte alle für den User sichtbaren Dokumente auf sein eingegebenes Schlagwort hin untersuchen und mir dann mitsamt einer Prozentangabe zu jedem gefundenen Dokument angeben wie relevant es ist. Dabei soll der Dateiname und auch der Inhalt durchsucht werden, sowohl bei Dokumenten als auch bei den Bildern. Wenn ein Dokument für das eingegebene Schlagwort nicht relevant ist soll es natürlich auch nicht aufgelistet werden.

Das aufbereiten, also nur die Dokumente durchuchen zu lassen zu denen der User auch Rechte hat ist natürlich logisch und das wollte ich auch so machen aber es geht mir jetzt erstmal um das Tool welches die Suche durchführt. Das möchte ich nicht selbst schreiben und ich hoffe jemand kann mir da einige gute Tools vorschlagen.

Gruß -Hades-

630 Beiträge seit 2007
vor 15 Jahren

Hallo -Hades-,

mit Lucene.NET dürfte sowas zu lösen sein. Ich hab damit mal ein Programm geschrieben welches 5000 XML Dokumente nach Schlüsselwörtern durchsucht. Filter für PDF und .doc sind glaube ich schon eigebaut.

Gruss
tscherno

To understand recursion you must first understand recursion

http://www.ilja-neumann.com
C# Gruppe bei last.fm

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Ah, danke für die Antwort.

Hmm ok, Dokumente lassen sich damit anscheinend schonmal durchsuchen aber ich suche ja ein Tool welches auch Bilder durchsuchen kann.
Hat da wer einen Vorschlag?

Gruß -Hades-

Gelöschter Account
vor 15 Jahren

was meinst du mit "bilder durchsuchen" ??

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Das bedeutet das die Bilder indiziert werden sollen. Also das Tool müsste mittels eines OCR-Verfahrens den Inhalt des Bildes auf Wörter durchsuchen.

630 Beiträge seit 2007
vor 15 Jahren

Hallo -Hades-,

ich glaube kaum dass du sowas fertig als .NET Komponente finden wirst. Du kannst dir jedoch eine OCR-Engine besorgen und die dann mit Lucene kombinieren. Du scannst also das Bild und fügst die Wörter dann zu dem LuceneDocument hinzu.

Gruss
tscherno

To understand recursion you must first understand recursion

http://www.ilja-neumann.com
C# Gruppe bei last.fm

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Solche Tools sind schon zu finden.

http://www.phdcc.com/findinsite/

Ich denke das ist ein Beispiel für solch ein Tool, ich dachte nur das einige schon Erfahrung mit solchen Tools haben und mir eins empfehlen könnten.

K
593 Beiträge seit 2007
vor 15 Jahren

Bist du dir sicher das die Search Engine das kann? Hab das gefühl das das Ding das nicht kann sondern mit jpg einfach den Namen der Datei oder Maximal keywords die im JPG eingebettet sind auslesen kann.

Gruß Daniel

630 Beiträge seit 2007
vor 15 Jahren

Ja ich denke auch dass da höchstens die Exif-Tags durchsucht werden.

Gruss
tscherno

To understand recursion you must first understand recursion

http://www.ilja-neumann.com
C# Gruppe bei last.fm

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Hmm achso, das wäre natürlich schade...

Wobei ich mich eigentlich auch etwas gewundert habe, da OCR-Verfahren ja schon etwas Zeit benötigen.

Hmm ja hat denn vielleicht doch jemand noch andere Tools die dann vielleicht ohne OCR daherkommen außer Lucene?

Achso, was sind denn Exif-Tags?

630 Beiträge seit 2007
vor 15 Jahren

Hallo,

Exif-Tags sind sowas wie die ID3-Tags bei MP3 😛. Speichern Informationen zum Bild, also Kameramodell,Photograph etc.

Gruss
tscherno

To understand recursion you must first understand recursion

http://www.ilja-neumann.com
C# Gruppe bei last.fm

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren
Searcharoo 6 in ASP.NET Projekt

Hallo Forum,

ich hatte vor einiger Zeit einen Thread eröffnet in dem ich fragte ob es ein Tool gibt mit dem ich auf meiner Seite Dateien auf dem Server der Website nach Schlagwörtern hin durchsuchen kann.

Ich habe mich jetzt für folgendes Tool entschieden: http://www.codeproject.com/KB/IP/Searcharoo_6.aspx

Das Tool scheint genau richtig für meine Bedürfnisse zu sein.
Jetzt muss ich euch noch einmal um Hilfe bitten. Da ich mich nicht so gut mit der Konfiguration von Servern auskenne und nicht weiß wie ich Seararoo 6 in mein ASP.Net Projekt einbaue würde ich mich freuen wenn mir da jemand eine Hilfestellung geben könnte. Das ganze soll nicht im Full Trust Modus laufen, also wenns geht Medium-Trust.
Es sollen Dokumente wie PDF und Word und Bilder (metadaten und Dateinamen) durchsucht werden.

Mit freundlichem Gruß -Hades-

5.941 Beiträge seit 2005
vor 15 Jahren

Hallo Hades

Ich habe den Beitrag mit dem alten zusammengeführt, da es dazugehört.

Hat es kein Beispiel im Artikel drin?
Über Medium- / Fulltrust ist IMO im Artikel was geschrieben.
Ggf. einfach den Autor kontaktieren.

Gruss Peter

--
Microsoft MVP - Visual Developer ASP / ASP.NET, Switzerland 2007 - 2011

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Ah okay, danke fürs Zusammenführen.

Ja im Artikel steht einiges aber leider auch viel woraus ich nicht wirklich schlau werde. Ich dachte das sich hier bestimmt schon einige mit dem Tool befasst haben und mir dabei etwas helfen könnten.
Also konkret müsste ich wissen wie ich das Tool in mein Projekt einbaue, es so konfiguriere das es bestimmte Dateien durchsucht und mir die Ergebnisse ausgibt.

Ich würde mich wirklich über Tips freuen.

Gruß -Hades-

5.941 Beiträge seit 2005
vor 15 Jahren

Hallo Hades

Meine Frage hast du leider nicht beantwortet.
Was hast du schon?
Wo stehst du an?

Eine Schritt für Schritt-Anleitung wird dir hier niemand offerieren, denn daraus lernst du auch nichts.

Gruss Peter

--
Microsoft MVP - Visual Developer ASP / ASP.NET, Switzerland 2007 - 2011

K
593 Beiträge seit 2007
vor 15 Jahren

Hallo,

ich kenne Searcharoo_6 leider auch nicht, da es sich aber um eine Tutorial reie haltet solltest bei Searcharoo anfangen also bei dem ersten. 🙂 Dadurch kommst du bestimmt voran und da wird auch das Einbinden und Aufbau erklärt.

P.S.: Searcharoo_6 durchsucht auch nur EXIF Tags und macht keine Texterkennung auf Bildern

Gruß Daniel

-
-Hades- Themenstarter:in
171 Beiträge seit 2007
vor 15 Jahren

Ja das es nur die Metadaten durchsucht ist mir mittlerweile auch klar. Ein OCR-Verfahren würde auch bei nur einigen Bildern vielzu lange dauern. Ich werde mir die Artikel zu Seararoo dann mal von vorne bis hinten durchlesen.

Gruß -Hades-