Berlin Buzzwords – Day 2 – Automata Invasion

In diesem Talk geht es um den Einsatz von Zustandsautomaten in Lucene.

  • Ein Usecase sind reguläre Ausdrücke
  • FSts (Maps von Node nach Wert) werden vor allem für die Indexerstellung verwendet
  • Lucene’s TokenStream ist als Zustandsautomat implementiert
  • Lucene Queries lassen sich als Zustandsautomaten effizient  implementieren => Fuzzy, Wildcard, RegExp
  • Ein weiterer Anwendungsfall ein ein Spellchecker
  • Zur Analyse komplexer Sprachen wie z.B. Japanisch ist es ebenfalls sehr effizient
  • SuggestSearch lässt sich via FST inkl. Score implementieren
  • Für große Synonym / Term Dictionaries erreicht man durch den Einsatz einen FST (TokenGraph) extreme Performancezugewinne
  • Auch für PK Zugriffe lassen sich dadurch Zugewinne in Sachen Performance erzielen (MemoryPostingsFormat)
GD Star Rating
loading...

Kommentar verfassen

This site uses Akismet to reduce spam. Learn how your comment data is processed.