Berlin Buzzwords – Day 1 – Large scale search, discovery and analytics with Solr, Mahout and Hadoop

So jetzt mal ne Menge Tools zusammen im Einsatz um eine Suche zu bauen, die z.B. auch Relevanz enthält. Weil eine Suche schlussendlich mehr ist als eine Ausgabe von Items nach Score der Texte und auf vielen Seiten die Suche mittlerweile eins der Hauptnavigationselemente ist.

  • Normalerweise schauen Entwickler vorallem von der Abfrageseite auf eine Suche
  • User wollen Echtzeitzugriff auf Content, Priorisierung der Inhalte nach Wichtigkeit für den User
  • Als Unternehmen muss man dazu mehr über den Benutzer wissen und möchte natürlich auch Kosten sparen
  • Von Entwicklerseite stehen bei der Auswahl der Tools vor allem Effizienz und Skalierbarkeit im Vordergrund
  • Die Systemarchitektur sollte ein Layer enthalten, dass eine Suche einen Datastore und eine Komponenten zur verteilten Verarbeitung enthalten. Diese müssen Daten miteinander austauschen. => z.B. Solr, Hadoop, HBase
  • Darüber ein Applikation-Laer dass z.B. das Machine-Learning enthält, wie z.B. Pig, Mahout, …
  • Daneben muss natürlich auf Ausfallsicherheit z.B. mit Hilfe von ZooKeeper geachtet werden.
  • Monitoring und Deplyoment spielen auch eine große Rolle
  • Solr wird immer öfter auch als Document-Storage benutzt
  • Was ist Relevanz? Um das raus zu bekommen sollte man möglichst viel User-Verhalten (Clicking, Mausbewegung, …) tracken und natürlich viel ausprobieren, um zu sehen, was besser konvertiert
  • Meist sind Auswertungen wie Trends, „Meinten Sie“, … sehr rechenaufwändig
  • Mahout hat tools dafür: Fliterung, Klassifizierung und Clustering (the 3 C’s)
  • Die Toollandschaft sollte übergreifende Experiment und einfach A/B Test mit diesen unterstützen
  • Man sollte von vorne herein eine funktionierende Analyse Umgebung haben z.B. mit Hive, mit der man z.B. die Nummer der Ergebnisse der Suchen auswerten sollte oder Klicks oder welche Facetten benutzt wurden
  • Man muss von Content und von User Seite auf die Suche blicken und dabei helfen Solr, Hadoop und Mahout in Kombination auf einem System.

 

GD Star Rating
loading...

Kommentar verfassen