Berlin Buzzwords – Day 2 – You know, for search. Querying 24 Billion Records in 900ms.

Welche Punkte müssen beim Design von skalierbaren HighLoad-Suchmaschinen beachtet werden?

  • Der erste Prototype wurde auf  Amazon EC2
  • Basis ist ElasticSearch als DocumentStore
  • In diese wurde die Logfiles (Tweets, …) importiert
  • Hadoop MapReduce wurde benutzt um diese Daten in ElasticSearch zu importieren
  • Zippen und Etnzippen von Dateien hat sich als Performance-Problem heraus gestellt
  • Danach erfolgte eine Aufteilung auf 6 dedizierten Nodes auf die per Puppet ElasticSearch aufgesetzt und gestartet wurde
  • Dann Umstellung auf 3 Application-Server, 6 Master Nodes und 120 Client Nodes und 8 Hadoop Nodes
  • Mit Hilfe von MapReduce wurde die Anzahl der Nachrichten verringert und damit die HW-Anforderungen verringert, da diese zu teuer sind
  • Ausserdem erfolgt ein Wechsel zu SSD Disks
  • Jenkins wurde zur Steuerung des Workflows eingesetzt
  • Memchace wird mit vorberechneten Daten gefüllt
GD Star Rating
loading...

Kommentar verfassen