Volltextsuche mit großen Datenmengen

Felix777

Neuer Benutzer
Beiträge
4
Hallo zusammen

Ich habe hier eine große Datenbank (MariaDB, InnoDB, 50 GB, eine riesige Tabelle mit über 500.000 Einträgen, darin viel Text). In diesen Texten muss ich suchen können.
Zunächst habe ich mit "like" gearbeitet, da waren wir aber ganz schnell an der Grenze. Jetzt arbeite ich mit der Volltextsuche über IN BOOLEAN MODE. Das klappt schon ganz gut. Er findet die Worte recht schnell. Aber die Einschränkungen sind recht groß. So kann man nur nach Wörtern suchen, die mind. 4 Buchstaben lang sind. Ich könnte jetzt die Buchstabenanzahl noch über den Parameter ft_min_word_len=2 verringern, aber ich glaube, dass es besser wäre, da eine Suchengine wie z.B. Sphinx zu nutzen. Damit habe ich noch keine Erfahrung gemacht.

Was möchte ich können? Ich muss auch nach Begriffen wie "Euro 6" (also mit Leerzeichen) suchen können. Auch Begriffe wie "SL2" also Wörter der Länge drei bestehend aus Ziffern und Zahlen soll er finden. Natürlich sollen auch Kombination wie Begriff1 und (Begriff2 oder Begriff3) möglich sein.

Frage: Sollte ich bei der normalen Volltextsuche bleiben oder eine spezielle freie Software zum Suchen nutzen? Wenn ja, welche wäre für mich passend? Sie muss auf jeden Fall sowohl auf Windows als auch auf Linux installierbar sein. Ich habe hier eine gute Auflistung gefunden: 15 Open-source Full-Text Search Engine Solutions for developers. Suche jetzt nach Personen, die dort schon praktische Erfahrungen gemacht haben und mir helfen können, das richtige Tool zu finden. Danke
 
Werbung:
Ich kann Dir leider nicht helfen, weil ich nicht mit MySQL (oder deren Volltextsuche) arbeite, aber die folgende Bemerkung kann ich mir nicht verkneifen:
eine riesige Tabelle mit über 500.000 Einträgen
500.000 Datensätze sind alles andere als "riesig". Das ist nach heutigen Maßstäben eigentlich eher "klein".
Wenn ich Performance-Tests mache, dann fange ich nicht unter 1 Million Datensätze an.

Solr und ElasticSearch (bzw. dessen Fork "OpenSearch") sind so die beiden Tools die ich mir ansehen würde. Beide haben einen guten Ruf und werden auch mit richtig großen Datenmengen fertig (> 100 Million Datensätze)
 
Zurück
Oben