Der EMC Isilon-Scale-out-Data-Lake ist eine ideale Plattform für die Multiprotokollaufnahme von Daten. Das ist eine wichtige Funktion in Big Data-Umgebungen, in denen Daten schnell und zuverlässig über Protokolle aufgenommen werden müssen, die dem Workload, der die Daten erzeugt, am nächsten kommen. Mit OneFS können Daten über NFSv3, NFSv4, SMB 2.0, SMB 3.0 sowie HDFS aufgenommen werden. Damit ist die Plattform sehr gut geeignet für komplexe Big Data-Workflows.
IDC hat die robusten Multiprotokollfunktionen der OneFS-Plattform validiert. Diese Validierung beinhaltet die Möglichkeit der Plattform, Benutzerzugriffsberechtigungen über Protokolle hinweg
beizubehalten. Für diese Validierung wurde der EMC Isilon-Scale-out-Data-Lake für den Zugriff über NFSv3, SMB 3.0 und über HDFS vom Hadoop-Cluster konfiguriert. Der HDFS- und NFS-Zugriff wurde über den Master-Node auf dem Hadoop-DAS-Cluster eingerichtet. Der Download einer großen Datei wurde simuliert (Wikipedia-Wiki-Daten, 10 GB). Die Komprimierung der Datei wurde beibehalten. Der Zugriff auf die Datei und die Analyse der Datei erfolgte kontinuierlich über HDFS, während die Datei über NFS in den EMC Isilon-Scale-out-Data-Lake kopiert wurde. Außerdem wurde über SMB 3.0 auf die Datei zugegriffen, während sie über HDFS bzw. NFS gelesen und geschrieben wurde.
Mehr zum Thema EMC Isilon erfahren Sie in unserem Whitepaper. Sie können es hier
kostenlos downloadenUnternehmen fällt es aus folgenden Gründen leicht, Workflows über den EMC Isilon-Scale-out-Data-Lake aufzubauen:
• Er ermöglicht die Verwendung vorhandener und bekannter Dateiprotokollmechanismen (anstelle von Hadoop-spezifischen Mechanismen, für die spezielle Änderungen auf Anwendungsebene erforderlich sind).
• Die Funktionen für die Performanceoptimierung machen ihn zu einer idealen Plattform für unternehmensweite Datenspeicher/-analyse mit zentralem Repository.
• Die Verwendung nativer Protokolle ermöglicht lokale Analysen (unter Vermeidung von Migrationen), sorgt für schnellere Datenworkflows und lässt Unternehmen schneller Einblicke gewinnen.
Originalauszug aus dem Whitepaper:
Der EMC Isilon-Scale-out-Data-Lake bietet für Hadoop-Cluster, die über OneFS auf HDFS zugreifen, gegenüber Clustern, die über einen lokalen (internen) Speicher auf HDFS zugreifen, eine
hervorragende Lese- und Schreibperformance. IDC hat die Performanceprofile von DAS und EDLP mithilfe von bekannten Hadoop-Benchmarkjobs validiert, die mit der Hadoop-Distribution bereitgestellt werden.
Für diese Validierung wurden 3 Standardbenchmarktests verwendet: TeraGen, TeraSort und TeraValidate. TeraGen führt einen Benchmark für die sequenzielle Schreibperformance durch. TeraSort bietet einen guten Benchmark für gemischte Lese-/Schreibtests. TeraValidate führt einen Benchmark der Leseperformance durch. Die Ergebnisse der jeweiligen Skripte sind in der Tabelle oben zusammengefasst. Das Hadoop-Data-Lake-Cluster hat über HDFS über die API auf den EMC Isilon-Scale-out-Data-Lake zugegriffen, das Hadoop-DAS-Cluster hat lokal auf HDFS zugegriffen. Für Parameter, die an die jeweiligen „Tera“-Jobs übergeben wurden, wurden auf beiden Hadoop-Clustern exakt dieselben Werte verwendet. In dieser Konfiguration ist der EMC Isilon-Scale-out-Data-Lake bei Schreibvorgängen nahezu 3-mal schneller und bei Lese-/Schreibvorgängen und Lesevorgängen mehr als 1,5-mal schneller. Ganz ähnlich bieten 10-GbE-Verbindungen trotz des Netzwerkzugriffs bedeutende Bandbreitenverbesserungen (MB/s) für Lese- und Schreibvorgänge.
Hinweise:
• Der EMC Isilon-Scale-out-Data-Lake wurde mit SSD-basierter Zwischenspeicherung, das Hadoop-DAS-Cluster dagegen mit SAS-Laufwerken mit 10.000 U/min konfiguriert.
• IDC ist der Meinung, dass das Hadoop-DAS-Cluster mit internen SSDs eine deutliche Verbesserung der Performance zeigen kann.