Berlin Buzzwords – Day 2 – Automata Invasion

In diesem Talk geht es um den Einsatz von Zustandsautomaten in Lucene.

  • Ein Usecase sind reguläre Ausdrücke
  • FSts (Maps von Node nach Wert) werden vor allem für die Indexerstellung verwendet
  • Lucene’s TokenStream ist als Zustandsautomat implementiert
  • Lucene Queries lassen sich als Zustandsautomaten effizient  implementieren => Fuzzy, Wildcard, RegExp
  • Ein weiterer Anwendungsfall ein ein Spellchecker
  • Zur Analyse komplexer Sprachen wie z.B. Japanisch ist es ebenfalls sehr effizient
  • SuggestSearch lässt sich via FST inkl. Score implementieren
  • Für große Synonym / Term Dictionaries erreicht man durch den Einsatz einen FST (TokenGraph) extreme Performancezugewinne
  • Auch für PK Zugriffe lassen sich dadurch Zugewinne in Sachen Performance erzielen (MemoryPostingsFormat)
GD Star Rating
loading...

Kommentar verfassen