Berlin Buzzwords – Day 1 – Hadoop Ecosystem

So, nach der in meine Augen etwas konfusen Keynote jetzt der erste „richtige“ Vortrag: Ein Überblick über das Hadoop Ökosystem in 20 Minuten. Wie üblich als ungeordnete Bulletliste 😉 Es geht um Tools auf Basis von Hadoop

  • Basis ist das HDFS (Hadoop Distributed File System) auf einem Cluster
  • MapReduce wird ebenso verteilt vorgenommen wie das Speichern der Daten und hat einen funktionalen Ansatz
  • Beides besitzt eine Java API
  • Hive konvertiert SQL in eine Java MapReduce Klassen um parallel Hadoop zu befragen
  • Pig macht dies aus einer einfachen Script Sprache
  • Mahout wird z.B. für Recommendation-Engines verwendet und ist einen Maschinen-Lern-System
  • Sqoop dient als Schnittstelle zwischen HDFS und einem RDMS
  • Flume ist Event-Processing Engine und wird meist für verteiltes Logging nach Hadoop verwendet
  • HBase ist ein verteilter KeyValue-Store auf Basis von HDFS
  • Oozie ist eine Cron-Engine für Hadoop
  • Whirr erlaubt es schnellHadoop Instanzen aufzusetzen und zu deployen z.B. in einer Cloud
  • Mit all diesen Tools ist es möglich ohne Hadoops MapReduce und HDFS die Vorteile von Hadoop zu benutzen
  • Für Hadoop ist oft das Netzwerk das Bottleneck
GD Star Rating
loading...

Kommentar verfassen