Von Hadoop’s frühesten Tagen nach Post-YARN: Warum einige Fragen einfach nicht weggehen

Pepperdata CEO Sean Suchter kann mit berechtigtem Stolz einen bemerkenswerten Platz in der Geschichte von Apache Hadoop behaupten. Als er bei Yahoo arbeitete, leitete er den weltweit ersten Produktionseinsatz der verteilten Rechenplattform.

Seine Erfahrung, die Yahoo Web-Suchmaschinen-Team seit vielen Jahren hat seine Vorstellungen von Hadoop-Technologie – seine Stärken und Grenzen – und füttert direkt in seinem aktuellen Projekt geprägt.

“Am Anfang – das war, bevor es in der Produktion war – war es an 10 Knoten. Wir waren glücklich, wenn es für einen Tag blieb”, sagte Suchter.

Aber dann, wie wir begannen, die Produktion auf sie zu gehen, nutzten wir es, um vollständige web-scale Verarbeitung aller Daten, die wir aus dem Web hatten.

Das war im Jahr 2006. Der zweite Einsatz von Hadoop wurde von Suchters Pepperdata-Mitbegründer, Chad Carson, durchgeführt, der an der Werbeoptimierung für das von Yahoo gesponserte Suchprodukt arbeitete.

Obwohl Hadoop jetzt ein weitaus potenteres Rahmenwerk ist, als es war, als Suchter es zuerst bei Yahoo vor all diesen Jahren benutzte, glaubt er, dass einige der Probleme, die Menschen jetzt erleben, sofort für jedermann erkennbar sind, der es in seinen frühesten Tagen benutzt hatte.

“Wir haben diese Symptome schon früher gesehen und waren in den Eingeweiden, wie Hadoop in den frühen Tagen verwendet wurde und wie es gebildet wurde”, sagte Suchter.

Wir sahen diese Muster auftauchen, dass, sobald Leute anfangen, auf Hadoop in der Produktion zu zählen, sie die gleichen Ausgaben immer und immer wieder schlagen. Es war ein sehr vertrautes Muster.

Kritische Schritte für eine erfolgreiche SMB-Big-Data-Strategie, Forschung: Big Data-Trends – Kosten, Auszahlungen, Ergebnisse, Personalausstattung, Hadoop entpuppt sich als Kernrahmen für große Daten, Big Data Primer für IT-Pros

Für Unternehmen, die Analytics auf kostengünstigen Hadoop-Clustern ausführen möchten, ist nun nach den Angaben von Actian voll kompatibler SQL-Server auf der großen Datenplattform möglich.

Hadoop ist so mächtig und versucht, so viel Hardware zu verwenden. Aber es hat wirklich keine Ahnung, was es eigentlich tut und wie schwer es ist, Dinge zu schlagen und wenn es an Grenzen stößt und wenn es nicht an die Grenzen stößt. Denn an seinem Kern ist es ein verteiltes Scheduling-System.

Sucher gab ein Beispiel für mögliche Ressourcen Probleme, die CPU, RAM, Festplatte und Netzwerk überspannen können.

“Es gab eine Zeit, in der Yahoo-Suche – wie die eigentliche produktionsbezogene Suche – wurde von Hadoop. Lassen Sie mich erklären, wie das passiert”, sagte er.

Hadoop und große Daten: Wo Apache Slider Slots einsetzt und warum es wichtig ist, Hadoop Schöpfer: “Google lebt ein paar Jahre in der Zukunft und sendet den Rest von uns Nachrichten, schneller, mehr fähig: Was Apache Spark bringt Hadoop, Spotify Veränderungen Melodie auf Hadoop mit Schalter zu Hortonworks

Social Data LinkedIn stellt seine neue Blogging-Plattform, Big Data Analytics, ist das Alter von Big OLAP, Big Data Analytics, DataRobot zielt auf die Automatisierung von Low-hanging Obst der Datenwissenschaft, Big Data Analytics, MapR Gründer John Schroeder Schritte, COO zu ersetzen

Die ursprüngliche Version von Hadoop war für große Batch-Verarbeitung zu tun. Jetzt macht es noch viel mehr. Aber Hadoop an der Zeit konnte eine Menge Dinge wirklich schnell starten und verwenden Sie eine Menge von Hardware-Ressourcen. Es gab eine Sache – einen großen Job -, die gestartet und gesättigt das Netz.

Dieser Hadoop Job lief und nahm 100 Prozent der Netzwerkbandbreite für einige Minuten und das tötete uns.

Aber natürlich wusste der Hadoop-Job nicht. Hadoop hatte keine Ahnung, was los war. Es sagte nur, ‘Mein Job ist es, so schnell wie möglich laufen und lassen Sie mich tun’.

Wenn es bei 95 Prozent der Netzwerkbandbreite laufen würde, wäre dies ein Nicht-Problem gewesen. Es hätte ein Zwanzigstel länger gedauert. Das ist keine große Sache. Aber es war ein riesiges Geschäft, natürlich – mit einem sehr großen Geschäftsauswirkung.

Die Ankunft von, die YARN-Ressourcen-Management-Schicht, hat gleichzeitig Hadoop noch vielseitiger, während Zugabe zu den Optimierungsproblemen.

“Je mehr Komplexität Sie auf den Cluster, desto mehr Konflikte und esoterische Konflikte und Dinge, die zweite Sekunde passieren, wo das Problem kann für ein paar Sekunden auftreten und verursachen eine Menge Einfluss und dann weggehen, es gibt keine Möglichkeit, Sie können Plan für das “, sagte Suchter.

Spleißmaschine hat Technologie aus zwei Apache-Projekten zusammengebracht, um eine SQL-on-Hadoop-Datenbank zu erstellen.

Nichtsdestoweniger ist er unnachgiebig, dass YARN ein großer Schritt vorwärts ist, weil es Leuten erlaubt, leistungsfähigere Sachen mit Hadoop zu tun.

“Eine Analogie ist, dass Hadoop diese großartige Innovation war, wie gepflasterte Autobahnen, man konnte viele Lkws fahren und sie würden ziemlich zuverlässig ans Ziel kommen”, sagte Suchter.

Mit YARN haben Sie nicht nur LKW zu haben. Sie können Autos und Motorräder und Formel 1 Rennfahrer und Esel und was auch immer Sie wollen auf der Straße. Das ist eine große Innovation.

Aber wenn Sie zum Beispiel einen Krankenwagen, der kommt und einige Notfälle, muss es auf eine sehr vorhersehbare Weise durchkommen. Diese Ambulanz wird gehen müssen, um durch eine zweite kommen, bevor es das nächste Auto trifft. Lassen Sie uns das Auto aus dem Weg, so kann es durch und sie können wieder nach rechts kommen.

Dies ist, wo die Echtzeit-Cluster-Supervisor, dass Pepperdata entwickelt hat, kommt in, nach Suchter.

“Verschiedene Dinge werden auf dem Cluster ausgeführt werden und du gehst Dinge, die sehr wichtig für Ihr Unternehmen mit sehr engen SLAs im Vergleich zu Batch-MapReduce Arbeitsplätze sind. Jedes Mal, wenn jemand ein paar Berechnungen verwendet, jedes Mal, wenn jemand ein Paket sendet, jedes Mal Jemand sucht eine Festplatte, die Echtzeit-Cluster-Optimierer ist sich dessen bewusst “, sagte Suchter.

Sie beobachtet auf jedem Knoten alles, was geschieht. Es macht globale und lokale Entscheidungen, die sagen: ‘Hey, das ist eine wirklich wichtige Anwendung für das Geschäft. Ich kann einige ad hoc Job sehen, der wirklich nicht wichtig ist. Lassen Sie mich sagen, es zu gehen, ein bisschen langsamer – nur genug, dass der Job mit hoher Priorität priorisierte Zugriff bekommen können ‘.

Die Kehrseite davon ist natürlich, dass der Optimierer weiß, was die Hardware nutzt über all diese vier Ressourcen an einem bestimmten Punkt sind, so kennt sie alle Löcher. Nicht nur gibt es Probleme, wo die Menschen die echten Grenzen der Hardware treffen, aber es gibt auch Probleme, wo sie nicht und sie verlassen Kapazität auf dem Tisch.

Suchter argumentiert, dass die Art und Weise, wie Hadoop historisch angenommen wurde, bedeutet, dass Unternehmen sich davon abhängig machen, aber ohne entsprechende Ressourcenverwaltung auf Unternehmensebene.

Wenn Leute gerade in Hadoop kommen und sie gerade anfangen, es zu verwenden, sie nicht auf ihm überhaupt zählen. Es ist eine neue Technologie. Es ist wie ein Versuch und sie sind nicht sicher.

Jemand fing an, es zu benutzen, bekam ein wirklich tolles Datenprodukt als Ergebnis und plötzlich ist es: “Lasst uns das in Produktion setzen, weil wir viel mehr Geld verdienen können, wenn wir das machen. Und durch die Art und Weise, die jeden Tag erneuert werden muss, jede halbe Stunde, jede Stunde.

Wir brauchen eine SLA darauf und “Poof, du bist in der Produktion”. Das ist das Muster. Manchmal ist es mehr absichtlich als das, aber eine Menge Zeit ist es organisch.

LinkedIn stellt seine neue Blogging-Plattform vor

Ist dies das Alter von Big OLAP?

DataRobot zielt auf die Automatisierung von tiefgreifenden Datenwissenschaften ab

MapR-Gründer John Schroeder geht nach unten, COO zu ersetzen

Mehr über Hadoop und große Daten