Berlin Buzzwords – Day 2 – Hydra – an open source processing framework

Dieser Talk behandelt Möglichkeiten des Document-processing Frameworks Hydra und dessen Interaktion mit Hadoop.

  • Das Problem ist, das Texte oft keine Metadaten enthalten, aber z.B. der Titel eines Newsartikels natürlich wichtiger für die Relevanz ist
  • Daher müssen solche Texte „enriched“ werden: Sprachdetection, Titelsuche, …
  • Ausserdem müssen nicht gewünschte Elemente und Dokumente entfernt werden
  • Diese beiden Dinge werden meist in einer sog. Pipeline vorgenommen (z.B. via OpenPipeline)
  • Momentane Lösungen skalieren nur sehr schlecht
  • Hydra’s Design Ziele: Skalierung (auch bereits bei kleinen Systemen), Fehlertoleranz, Robustheit, Einfachheit der Entwicklung
  • Hydra basiert auf eine Cloud-Architektur und benutzt intern MongoDB
  • Es können für verschiedene Dokumenttypen / -attribute verschiedene Workflows definiert werden
  • Es kann mit anderen Systemen interagieren und so z.B. den Pagerank eines Dokumentes via Hadoop bestimmen
  • Diese Workflows können per UI administriert werden
  • Hydra ist OpenSource und auf GitHub zu finden
GD Star Rating
loading...

Kommentar verfassen