MapReduce

MapReduce ist ein vom Unternehmen Google Inc. eingeführtes Programmiermodell für nebenläufige Berechnungen über (mehrere Petabyte^[1]) große Datenmengen auf Computerclustern. MapReduce ist auch der Name einer Implementierung des Programmiermodells in Form einer Software-Bibliothek. Beim MapReduce-Verfahren werden die Daten in drei Phasen verarbeitet (Map, Shuffle, Reduce), von denen zwei durch den Anwender spezifiziert werden (Map und Reduce). Dadurch lassen sich Berechnungen parallelisieren und auf mehrere Rechner verteilen. Bei sehr großen Datenmengen ist die Parallelisierung unter Umständen schon deshalb erforderlich, weil die Datenmengen für einen einzelnen Prozess (und das ausführende Rechnersystem) zu groß sind.

Das Programmiermodell wurde durch die in der funktionalen Programmierung häufig verwendeten Funktionen map und reduce inspiriert,^[2] auch wenn die Arbeitsweise der Bibliothek davon abweicht.^[3] 2010 wurde für MapReduce ein US-Patent erteilt.^[4] Der wesentliche Beitrag von MapReduce ist jedoch das zu Grunde liegende System, das die Berechnungen stark parallelisiert, die Reorganisation der Daten im Shuffle-Schritt optimiert, und automatisch auf Fehler im Cluster reagieren kann, wie beispielsweise den Ausfall von kompletten Knoten.

↑ Google spotlights data center inner workings. (Memento des Originals vom 19. Oktober 2013 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/news.cnet.com CNET News, Tech news blog
↑ Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters. Google Labs: “Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.”
↑ Ralf Lämmel (Microsoft): Google’s MapReduce Programming Model – Revisited. (PDF)
↑ Patent US7650331B1: System and method for efficient large-scale data processing. Angemeldet am 18. Juni 2004, veröffentlicht am 19. Januar 2010, Anmelder: Google Inc, Erfinder: Jeffrey Dean, Sanjay Ghemawat.‌

[1] Google spotlights data center inner workings. (Memento des Originals vom 19. Oktober 2013 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/news.cnet.com CNET News, Tech news blog

[map-2] Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters. Google Labs: “Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.”

[3] Ralf Lämmel (Microsoft): Google’s MapReduce Programming Model – Revisited. (PDF)

[4] Patent US7650331B1: System and method for efficient large-scale data processing. Angemeldet am 18. Juni 2004, veröffentlicht am 19. Januar 2010, Anmelder: Google Inc, Erfinder: Jeffrey Dean, Sanjay Ghemawat.‌

[1]

[2]

[3]

[4]