spot_img
StartNewstickerEMC Isilon als Grundlage für einen Scale-out-Data-Lake

EMC Isilon als Grundlage für einen Scale-out-Data-Lake

Der EMC Isilon-Scale-out-Data-Lake ist eine ideale Plattform für die Multiprotokollaufnahme von Daten. Das ist eine wichtige Funktion in Big Data-Umgebungen, in denen Daten schnell und zuverlässig über Protokolle aufgenommen werden müssen, die dem Workload, der die Daten erzeugt, am nächsten kommen. Mit OneFS können Daten über NFSv3, NFSv4, SMB 2.0, SMB 3.0 sowie HDFS aufgenommen werden. Damit ist die Plattform sehr gut geeignet für komplexe Big Data-Workflows.

IDC hat die robusten Multiprotokollfunktionen der OneFS-Plattform validiert. Diese Validierung beinhaltet die Möglichkeit der Plattform, Benutzerzugriffsberechtigungen über Protokolle hinweg
beizubehalten. Für diese Validierung wurde der EMC Isilon-Scale-out-Data-Lake für den Zugriff über NFSv3, SMB 3.0 und über HDFS vom Hadoop-Cluster konfiguriert. Der HDFS- und NFS-Zugriff wurde über den Master-Node auf dem Hadoop-DAS-Cluster eingerichtet. Der Download einer großen Datei wurde simuliert (Wikipedia-Wiki-Daten, 10 GB). Die Komprimierung der Datei wurde beibehalten. Der Zugriff auf die Datei und die Analyse der Datei erfolgte kontinuierlich über HDFS, während die Datei über NFS in den EMC Isilon-Scale-out-Data-Lake kopiert wurde. Außerdem wurde über SMB 3.0 auf die Datei zugegriffen, während sie über HDFS bzw. NFS gelesen und geschrieben wurde.

Mehr zum Thema EMC Isilon erfahren Sie in unserem Whitepaper. Sie können es hier

kostenlos downloaden

Unternehmen fällt es aus folgenden Gründen leicht, Workflows über den EMC Isilon-Scale-out-Data-Lake aufzubauen:
• Er ermöglicht die Verwendung vorhandener und bekannter Dateiprotokollmechanismen (anstelle von Hadoop-spezifischen Mechanismen, für die spezielle Änderungen auf Anwendungsebene erforderlich sind).
• Die Funktionen für die Performanceoptimierung machen ihn zu einer idealen Plattform für unternehmensweite Datenspeicher/-analyse mit zentralem Repository.
• Die Verwendung nativer Protokolle ermöglicht lokale Analysen (unter Vermeidung von Migrationen), sorgt für schnellere Datenworkflows und lässt Unternehmen schneller Einblicke gewinnen.

Originalauszug aus dem Whitepaper:

Der EMC Isilon-Scale-out-Data-Lake bietet für Hadoop-Cluster, die über OneFS auf HDFS zugreifen, gegenüber Clustern, die über einen lokalen (internen) Speicher auf HDFS zugreifen, eine
hervorragende Lese- und Schreibperformance. IDC hat die Performanceprofile von DAS und EDLP mithilfe von bekannten Hadoop-Benchmarkjobs validiert, die mit der Hadoop-Distribution bereitgestellt werden.

Für diese Validierung wurden 3 Standardbenchmarktests verwendet: TeraGen, TeraSort und TeraValidate. TeraGen führt einen Benchmark für die sequenzielle Schreibperformance durch. TeraSort bietet einen guten Benchmark für gemischte Lese-/Schreibtests. TeraValidate führt einen Benchmark der Leseperformance durch. Die Ergebnisse der jeweiligen Skripte sind in der Tabelle oben zusammengefasst. Das Hadoop-Data-Lake-Cluster hat über HDFS über die API auf den EMC Isilon-Scale-out-Data-Lake zugegriffen, das Hadoop-DAS-Cluster hat lokal auf HDFS zugegriffen. Für Parameter, die an die jeweiligen „Tera“-Jobs übergeben wurden, wurden auf beiden Hadoop-Clustern exakt dieselben Werte verwendet. In dieser Konfiguration ist der EMC Isilon-Scale-out-Data-Lake bei Schreibvorgängen nahezu 3-mal schneller und bei Lese-/Schreibvorgängen und Lesevorgängen mehr als 1,5-mal schneller. Ganz ähnlich bieten 10-GbE-Verbindungen trotz des Netzwerkzugriffs bedeutende Bandbreitenverbesserungen (MB/s) für Lese- und Schreibvorgänge.

Hinweise:
• Der EMC Isilon-Scale-out-Data-Lake wurde mit SSD-basierter Zwischenspeicherung, das Hadoop-DAS-Cluster dagegen mit SAS-Laufwerken mit 10.000 U/min konfiguriert.
• IDC ist der Meinung, dass das Hadoop-DAS-Cluster mit internen SSDs eine deutliche Verbesserung der Performance zeigen kann.

 

Michael Breyer
Michael Breyerhttps://www.leadfactory.com
Michael Breyer verfügt über mehr als 15 Jahre Erfahrung als Geschäftsführer, Gründer und Top Level Management Positionen. Der passionierte IT Spezialist war zuletzt CEO Softgarden e-recruiting GmbH, Co-Founder und CEO Deutsche Messe Interactive GmbH, CEO Kienzle AG. Zurzeit ist Michael Breyer der CEO der BTN Media.

zugehörige Artikel

TOP ARTIKEL

Über Produktionsleiter.today

Produktionsleiter.today ist eine von fünf Special-Interest-Seiten des Business.today Networks und richtet sich an Produktionsleiter und Entwicklungsleiter. Wir bieten Produktions-Entscheidern aktuelle Konferenzen, Vorträge, Whitepaper und Fachartikel aus den Bereichen Fertigung, Industrie 4.0 und Industrieservice.

Aktuelle Meldungen

Innovation à la Japan: Traditionelle Werte treffen auf moderne Geschäftsstrategien

Nicht abrechenbar, aber unbezahlbar: Wie Werte und Tradition den...

Workshop der Heilpraktiker Schule Wimmer: Mit Ayurveda in den Frühling

Heilpraktiker Schule Wimmer: Neuer Ayurveda Workshop Heilpraktiker Schule Wimmer (Bildquelle:...

Deutschlands führende Cannabis Unternehmensgruppe nimmt Stellung zur Bundesratsentscheidung zum Cannabisgesetz

Soeben hat der Bundesrat entschieden keine Einwände gegen das...

Beliebt

Digitalisierungsstrategie entwickeln mit KI & Vorlagen

Digitalisierungsstrategie entwickeln mit DIGITAL BUSINESS NAVIGATOR: Digitalstrategie entwickeln in...

Was kostet ein Maschinentransport? Ein Ratgeber mit Preisrechner

Was sagt die Statistik? Günstige Transporte einer Kompaktmaschine liegen...

Hochstapler erwünscht – Eine Handlungsempfehlung für die Logistik

Auch die Logistik muss sich dem Wandel der Zeit...

Fachportale

© 2023 Business.today Network GmbH. All Rights Reserved.