StartNewstickerEMC Isilon als Grundlage für einen Scale-out-Data-Lake

EMC Isilon als Grundlage für einen Scale-out-Data-Lake

17. Januar 2017

Der EMC Isilon-Scale-out-Data-Lake ist eine ideale Plattform für die Multiprotokollaufnahme von Daten. Das ist eine wichtige Funktion in Big Data-Umgebungen, in denen Daten schnell und zuverlässig über Protokolle aufgenommen werden müssen, die dem Workload, der die Daten erzeugt, am nächsten kommen. Mit OneFS können Daten über NFSv3, NFSv4, SMB 2.0, SMB 3.0 sowie HDFS aufgenommen werden. Damit ist die Plattform sehr gut geeignet für komplexe Big Data-Workflows.

IDC hat die robusten Multiprotokollfunktionen der OneFS-Plattform validiert. Diese Validierung beinhaltet die Möglichkeit der Plattform, Benutzerzugriffsberechtigungen über Protokolle hinweg
beizubehalten. Für diese Validierung wurde der EMC Isilon-Scale-out-Data-Lake für den Zugriff über NFSv3, SMB 3.0 und über HDFS vom Hadoop-Cluster konfiguriert. Der HDFS- und NFS-Zugriff wurde über den Master-Node auf dem Hadoop-DAS-Cluster eingerichtet. Der Download einer großen Datei wurde simuliert (Wikipedia-Wiki-Daten, 10 GB). Die Komprimierung der Datei wurde beibehalten. Der Zugriff auf die Datei und die Analyse der Datei erfolgte kontinuierlich über HDFS, während die Datei über NFS in den EMC Isilon-Scale-out-Data-Lake kopiert wurde. Außerdem wurde über SMB 3.0 auf die Datei zugegriffen, während sie über HDFS bzw. NFS gelesen und geschrieben wurde.

Mehr zum Thema EMC Isilon erfahren Sie in unserem Whitepaper. Sie können es hier

kostenlos downloaden

Unternehmen fällt es aus folgenden Gründen leicht, Workflows über den EMC Isilon-Scale-out-Data-Lake aufzubauen:
• Er ermöglicht die Verwendung vorhandener und bekannter Dateiprotokollmechanismen (anstelle von Hadoop-spezifischen Mechanismen, für die spezielle Änderungen auf Anwendungsebene erforderlich sind).
• Die Funktionen für die Performanceoptimierung machen ihn zu einer idealen Plattform für unternehmensweite Datenspeicher/-analyse mit zentralem Repository.
• Die Verwendung nativer Protokolle ermöglicht lokale Analysen (unter Vermeidung von Migrationen), sorgt für schnellere Datenworkflows und lässt Unternehmen schneller Einblicke gewinnen.

Originalauszug aus dem Whitepaper:

Der EMC Isilon-Scale-out-Data-Lake bietet für Hadoop-Cluster, die über OneFS auf HDFS zugreifen, gegenüber Clustern, die über einen lokalen (internen) Speicher auf HDFS zugreifen, eine
hervorragende Lese- und Schreibperformance. IDC hat die Performanceprofile von DAS und EDLP mithilfe von bekannten Hadoop-Benchmarkjobs validiert, die mit der Hadoop-Distribution bereitgestellt werden.

Für diese Validierung wurden 3 Standardbenchmarktests verwendet: TeraGen, TeraSort und TeraValidate. TeraGen führt einen Benchmark für die sequenzielle Schreibperformance durch. TeraSort bietet einen guten Benchmark für gemischte Lese-/Schreibtests. TeraValidate führt einen Benchmark der Leseperformance durch. Die Ergebnisse der jeweiligen Skripte sind in der Tabelle oben zusammengefasst. Das Hadoop-Data-Lake-Cluster hat über HDFS über die API auf den EMC Isilon-Scale-out-Data-Lake zugegriffen, das Hadoop-DAS-Cluster hat lokal auf HDFS zugegriffen. Für Parameter, die an die jeweiligen „Tera“-Jobs übergeben wurden, wurden auf beiden Hadoop-Clustern exakt dieselben Werte verwendet. In dieser Konfiguration ist der EMC Isilon-Scale-out-Data-Lake bei Schreibvorgängen nahezu 3-mal schneller und bei Lese-/Schreibvorgängen und Lesevorgängen mehr als 1,5-mal schneller. Ganz ähnlich bieten 10-GbE-Verbindungen trotz des Netzwerkzugriffs bedeutende Bandbreitenverbesserungen (MB/s) für Lese- und Schreibvorgänge.

Hinweise:
• Der EMC Isilon-Scale-out-Data-Lake wurde mit SSD-basierter Zwischenspeicherung, das Hadoop-DAS-Cluster dagegen mit SAS-Laufwerken mit 10.000 U/min konfiguriert.
• IDC ist der Meinung, dass das Hadoop-DAS-Cluster mit internen SSDs eine deutliche Verbesserung der Performance zeigen kann.

Vorheriger Artikel

Softwarebasierter Scale-out-NAS auf Branchenstandardhardware für die Enterprise Edge

Nächster Artikel

Scale-Out-Data-Lake-Lösung auf Basis von EMC Isilon

EMC Isilon als Grundlage für einen Scale-out-Data-Lake

Interessiert an aktuellen Trends und Themen aus der Produktionsbranche? Dann abonnieren Sie unseren Newsletter:

Interessiert an aktuellen Trends und Themen aus der Produktionsbranche? Dann abonnieren Sie unseren Newsletter:

zugehörige Artikel

NOVARION und TAROX vereinbaren strategische Partnerschaft für IT-Infrastruktur...

Versipedia macht Versicherungsexperten sichtbar

Hamburg: Steht die Hafenwesterweiterung auf der Kippe?

TOP ARTIKEL

Automatisierter Warentransport – Einsatz und Vorteile von FTS in...

Anwendungen von Elektromagneten in der Industrie

Für effiziente Prozesse in der Intralogistik – Aufbauten für...

Neuer Anstrich für klassische Kunststoffkleinteile – die GÜNTHER PULVERICH...

Langzeitsitzen und seine Folgen: Die Bedeutung von Ergonomie für...

Was kostet ein Maschinentransport? Ein Ratgeber mit Preisrechner

MOV´IT GmbH entwickelt Sonderschutz-Bremssystem für den Toyota Landcruiser LC300

FLACO GmbH präsentiert neue Max-Serie: Innovative Befüllsysteme für Kühlschmierstoffe...

Paperless Production: Warum papierlos werden jetzt sinnvoll ist

Über Produktionsleiter.today

Aktuelle Meldungen

NOVARION und TAROX vereinbaren strategische Partnerschaft für IT-Infrastruktur und Agentic AI

Versipedia macht Versicherungsexperten sichtbar

Hamburg: Steht die Hafenwesterweiterung auf der Kippe?

Beliebt

G&M Team GmbH erweitert ihr Dienstleistungsangebot um professionelle Rohrreinigung in München

Was sollte eine Videoschnittsoftware im Jahr 2025 leisten?

Hochstapler erwünscht – Eine Handlungsempfehlung für die Logistik

Fachportale