Computers

Was ist Big Data-Analyse mit Hadoop?

Autor: Peter Berry
Erstelldatum: 19 Juli 2021
Aktualisierungsdatum: 14 November 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Inhalt

Ich bin ein Softwareentwickler mit großem Interesse an Datenanalyse und Statistik.

Was ist Big Data-Analyse?

Der Begriff "Big Data" selbst erklärt, dass die Daten sehr groß sind, wie in GB, TB und PT von Daten. Aufgrund der neuesten Technologien, Geräte und Fortschritte bei Social-Media-Websites werden durch die täglichen Aktivitäten dieser Systeme enorme Datenmengen generiert. Diese Daten können mit den herkömmlichen relationalen Datenbanken nicht verarbeitet oder verarbeitet werden. Big Data bezieht sich auf Datensätze, die nicht mit herkömmlichen Datenbanksoftwaretools oder einem herkömmlichen Computer gespeichert, verwaltet und analysiert werden können.

Quellen von Big Data

  • Stromnetz
  • Social-Media-Websites
  • Börsen
  • Telekommunikationsindustrie
  • IoT (Sensoren usw.)

Eigenschaften von Big Data

Um mit Big Data umgehen zu können, ist es sehr wichtig, seine Eigenschaften zu verstehen. Die Eigenschaften der Big Data werden durch die 4 V dargestellt:


Volumen

Das Volumen hängt von der Größe der Daten ab. Wie groß sind die Daten? Basierend auf dem Datenvolumen können wir es als Big Data betrachten oder nicht.

Geschwindigkeit

Die Geschwindigkeit ist die Häufigkeit der Quelldaten, die verarbeitet werden müssen. Daten können täglich, stündlich oder in Echtzeit wie Social-Media-Daten gesendet werden.

Vielfalt

Verschiedene Arten von Daten verfügbar, können strukturiert, halbstrukturiert oder unstrukturiert sein.Basierend auf dem Datenformat wird es in drei Kategorien unterteilt.

  • Strukturierte Daten: Alle relationalen Datenbanken sind Beispiele für strukturierte Daten, da sie die Struktur mit definierten Datentypen der Felder in den Tabellen definiert haben.
  • Halbstrukturierte Daten: XML- und JSON-Format fallen unter halbstrukturierte Daten, da sie möglicherweise eine definierte Hierarchie der Elemente haben, aber möglicherweise nicht immer definierte Datentypen.
  • Unstrukturierte Daten: Alle Wort- oder PDF-Dokumente, Textdateien oder Medien- / Serverprotokolle sind unstrukturierte Daten.

Richtigkeit

Bei der Richtigkeit geht es um die Vertrauenswürdigkeit der Daten. Es ist offensichtlich, dass die empfangenen Daten einige Unstimmigkeiten aufweisen werden.


Big Data-Lebenszyklus

Im Allgemeinen sind die folgenden Prozesse an der Analyse von Big Data beteiligt.

  • Datenmanipulation
  • Datenreinigung
  • Datenintegration wie Annotieren mit verschiedenen Datenquellen.
  • Berechnung und Analyse durch Anwendung verschiedener Methoden der Datenanalyse.
  • Visualisierung der Ergebnisse in Form von Dashboards oder Grafiken.

Vorteile der Analyse von Big Data

Es geht nicht nur darum, wie groß die Daten sind. Aber wie man es verwendet / analysiert, um die Zukunft vorherzusagen und kluge Geschäftsentscheidungen zu treffen. Es kann dazu beitragen, das Geschäft durch die Analyse der Produktdaten voranzutreiben und ein neues Produkt auf den Markt zu bringen oder die Unternehmensdienste durch die Analyse von Kundenfeedbackdaten zu verbessern. Es hilft, in jedem Unternehmen eine Managemententscheidung zu treffen, um bessere Geschäftsstrategien zu entwickeln und zu planen.


  • Kosteneinsparung: Big Data-Technologien wie Cluster- / Cloud-basiertes Computing in Apache Hadoop oder Apache Spark ersparen uns den Kauf hochkonfigurierter Maschinen für die Verarbeitung von Big Data.
  • Zeitersparnis: Die hohe Geschwindigkeit bei Speicherberechnungen verkürzt die Zeit für die Datenverarbeitung und ermöglicht es uns, schnelle Entscheidungen zu treffen
  • Neue Produktentwicklung: Es hilft, die Kundenbedürfnisse und die Zufriedenheit für das nächste Produkt zu kennen, das entwickelt werden soll.
  • Markttrends verstehen: Das Kennen der Kaufmuster der Kunden oder der am häufigsten gekauften Artikel kann dabei helfen, die Marktanforderungen zu kennen.
  • Stimmungsanalyse: Das Abrufen der Meinung der Kunden von verschiedenen Social-Media-Websites kann jeder Produkt- oder Dienstleistungsbranche helfen, ihr Angebot zu verbessern.

Big Data-Technologien und -Tools

Lassen Sie uns kurz über die verfügbaren Technologien und Tools zur Lösung verschiedener Probleme in der Big Data-Analyse sprechen.

Apache Hadoop & Ökosystem

Es ist ein Open-Source-Framework zum parallelen Verarbeiten / Berechnen von Daten. Es ist eine Standardplattform für die Verarbeitung von Big Data. Es wurde aus den Papieren von Google zu MapReduce und Google File System erstellt.

Es ist ein Ökosystemprojekt, das viele andere Projekte wie Pig, Hive, Kafka usw. enthält. Andere Analysetools sind Apache Spark und Apache Storm.

Apache Spark

Dies ist weiter fortgeschritten als Apache Hadoop und auch eine Mehrzweck-Engine. Dies ist eine Allzweck-Datenzugriffs-Engine für eine schnelle Datenverarbeitung in großem Maßstab. Es wurde für iteratives In-Memory: Berechnungen und interaktives Data Mining entwickelt. Es bietet mehrsprachige Unterstützung: für Java, Scala, Python und R. Es verfügt über verschiedene integrierte Bibliotheken, mit denen Datenarbeiter Daten für ETL, maschinelles Lernen, SQL und Stream-Verarbeitung schnell durchlaufen können.

Es gibt viele andere Möglichkeiten, Big Data zu verarbeiten. Oben sind zwei grundlegende Frameworks aufgeführt.

Z.B. Apache Hive für Data Warehousing, Apache Pig für die Abfrage von Big Data, Apache Drill, Apache Impala, Apache Spark SQL und Presto und so viele mehr.

Apache SystemML, Apache Mahout und die MLlib von Apache Spark sind sehr nützlich, um verschiedene Algorithmen für maschinelles Lernen auf die Daten anzuwenden.

Bienenstock

Es läuft auf Hadoop und unterstützt HiveQL zum Abfragen von Big Data.

Schwein

Ist für Leute, die nicht wissen, wie man in Sprachen wie Java und Scala programmiert. Sie können Pig verwenden, um die Daten einfach zu analysieren. Es bietet Abfragezugriff auf die Daten.

Scoop

Es hilft, strukturierte Datensätze aus relationalen Datenbanken nach Hadoop zu übertragen.

Presto

Facebook hat eine Open-Source-Abfrage-Engine namens Presto entwickelt, die Petabytes an Daten verarbeiten kann. Im Gegensatz zu Hive ist sie nicht vom MapReduce-Paradigma abhängig und kann die Daten in kürzester Zeit abrufen.

Apache Flink

Es ist eine Open-Source-Plattform für die Stapelverarbeitung verteilter Stream-Daten.

Apache Kafka

Es ist ein sehr schnelles, langlebiges, fehlertolerantes und Publish-Subscribe-Messaging-System.

Apache Ambari

Apache ™ Ambari ist eine Plattform zur Bereitstellung, Verwaltung und Überwachung von Hadoop-Clustern. Ambari bietet für beide Kerndienste für Betriebs-, Entwicklungs- und Erweiterungspunkte.

Apache Zeppelin

Es ist ein webbasiertes Notizbuch für Dateningenieure, Datenanalysten und Datenwissenschaftler. Es bietet Hadoop und Spark Funktionen für interaktive Datenerfassung, Datenexploration, Visualisierung, Freigabe und Zusammenarbeit.

Big Data-Datenbanken

Wenn wir Big Data in einer Datenbank speichern möchten, sollten wir eine parallele Datenbank oder Datenbanken mit Shared-Nothing-Architektur wie Vertica, Netezza, Aster, Greenplum usw. haben.

NoSQL-Datenbanken

Google Bigtable, Amazon Dynamo, Apache Hbase, Apache Cassandra usw. sind Beispiele für NoSQL-Datenbanken.

Schnellere Suche

Um diese Big Data schneller durchsuchen zu können, stehen viele Lösungen / Engines wie Apache Solr oder Elastic Search zur Verfügung. Apache Solr ist eine leistungsstarke Suchmaschine.

Hadoop-Architektur

Hadoop ist ein Open-Source-Framework für die verteilte Verarbeitung großer Datenmengen über mehrere Computercluster hinweg. Es bietet verteilten Speicher (Dateisystem) sowie verteiltes Computing in einem Cluster.

Die Architektur

Das folgende Diagramm beschreibt vier grundlegende Komponenten von Hadoop.

Karte verkleinern

Es ist ein Programmierparadigma, Big Data parallel auf den Clustern von Standardhardware mit Zuverlässigkeit und Fehlertoleranz zu verarbeiten.

Bei dem Muster geht es darum, ein Problem in kleine Arbeiten zu zerlegen. Map, Reduce und Shuffle sind drei grundlegende Operationen von MapReduce.

  • Karte: Dies nimmt die Eingabedaten und konvertiert sie in einen Datensatz, in dem jede einzelne Eingabezeile in ein Schlüssel-Wert-Paar (Tupel) zerlegt wird.
  • Reduzieren: Diese Aufgabe nimmt Eingaben aus der Ausgabe der Map-Phase entgegen und kombiniert (aggregiert) Datentupel zu kleineren Mengen basierend auf Schlüsseln.
  • Mischen: Ist der Prozess der Übertragung der Daten von Mappern zu den Reduzierern.

Jeder Knoten des Clusters besteht aus einem Master-JobTracker und einem Slave-TaskTracker.

  • JobTracker ist verantwortlich für das Ressourcenmanagement und die Verfolgung der Verfügbarkeit von Ressourcen. Es plant die Jobaufgaben auf den Slaves. Es ist ein einzelner Fehlerpunkt, dh wenn er ausfällt, werden alle laufenden Jobs angehalten.
  • TaskTrackers führt die vom Master zugewiesenen Aufgaben aus und stellt dem Master regelmäßig den Aufgabenstatus zur Verfügung.

HDFS (Hadoop Distributed File System)

Es ist das von Hadoop bereitgestellte Dateisystem. Es basiert auf dem Google File System (GFS) und wird zuverlässig und fehlertolerant auf dem Computercluster ausgeführt. Es hat eine Master / Slave-Architektur.

  • NameNode: Es verwaltet die Metadaten des Dateisystems und speichert den Speicherort der Daten.
  • DataNode: Die eigentlichen Daten werden im DataNode gespeichert.
  • Sekundärer NameNode: Der NameNode kopiert auch die Metadaten in den sekundären NameNode, um die Sicherung durchzuführen. Wenn der NameNode ausfällt, ersetzt der sekundäre NameNode den NamenNode.

Eine Datei in HDFS wird in Blöcke aufgeteilt, die als Blöcke bezeichnet werden, und diese Blöcke werden dann im DataNode gespeichert. Der NameNode behält die Zuordnung von Blöcken zu DataNodes bei. HDFS bietet eine Shell-Schnittstelle mit einer Liste von Befehlen für die Interaktion mit dem Dateisystem.

YARN (noch ein weiterer Ressourcenverhandler)

Es ist die Funktion von Hadoop 2, ist ein Ressourcenmanager.

Eigenschaften

  • Mandantenfähigkeit: Ermöglicht mehreren Engines die Verwendung von Hadoop, die gleichzeitig auf dasselbe Dataset zugreifen können.
  • Clusterauslastung: Die YARN-Planung nutzt die Clusterressource auf optimierte Weise.
  • Skalierbarkeit: YARN konzentriert sich auf die Planung, wenn die Cluster erweitert werden.
  • Kompatibilität: Bestehende MapReduce-Anwendungen, die mit Hadoop 1 entwickelt wurden, können ohne Unterbrechung auf YARN ausgeführt werden.

Wie funktioniert die MapReduce-Architektur?

Ein Benutzer kann einen Job senden, indem er die folgenden Parameter angibt.

  • Der Speicherort der Eingabe- und Ausgabedateien.
  • Die JAR-Datei, die die Klassen der Karte enthält und die Implementierung reduziert
  • Die Jobkonfiguration durch Festlegen verschiedener Parameter für einen bestimmten Job.

Der Hadoop-Jobclient sendet dann den Job und die Konfiguration an den JobTracker, der den Code / die Konfiguration erneut an die Slaves verteilt, die Aufgaben plant und überwacht.

TaskTrackers auf verschiedenen Knoten führen die Aufgabe gemäß der MapReduce-Implementierung aus und geben die Daten in HDFS aus.

Hadoop - Umgebungs-Setup

Java

Java muss erforderlich sein. Überprüfen Sie mit dem folgenden Befehl, ob auf dem System Java installiert ist:

Java -Ausführung

Wenn Sie bereits installiert sind, erhalten Sie Versionsdetails. Wenn dies nicht der Fall ist, führen Sie die folgenden Schritte aus, um Java auf Ihrem Computer zu installieren.

  • Laden Sie Java über den Link herunter und extrahieren Sie es.
  • Verschieben Sie es an den / usr / local / oder Ihren bevorzugten Speicherort, um es allen Benutzern zur Verfügung zu stellen.
  • Legen Sie die Umgebungsvariable PATH und JAVA_HOME fest:

Export JAVA_HOME=/ usr /lokal/jdk1.7.0_71 Export PFAD=$ PATH:$ JAVA_HOME/Behälter

  • Überprüfen Sie die Java-Installation:

Java -Ausführung

Hadoop-Installation

Laden Sie die neueste Hadoop-Version von der Apache-Software-Foundation herunter und extrahieren Sie sie.

Im Folgenden sind die Modi aufgeführt, in denen wir Hadoop bedienen können.

  • Standalone-Modus: In diesem Modus kann Hadoop als einzelner Java-Prozess lokal ausgeführt werden.
  • Pseudo-verteilter Modus: In diesem Modus kann jeder Hadoop-Daemon wie HDFS, YARN, MapReduce als separater Java-Prozess durch verteilte Simulation auf einem einzelnen Computer ausgeführt werden. In der Entwicklung wird dieser Modus meistens bevorzugt.
  • Vollverteilter Modus: In diesem Modus wird der Hadoop auf einem Cluster von mindestens mehr als einem Computer ausgeführt.

Standalone-Hadoop-Installation

  • Wir haben Hadoop bereits heruntergeladen und extrahiert. Wir können es an den bevorzugten Speicherort oder unter / usr / local / verschieben und müssen eine Umgebungsvariable wie folgt einrichten:

exportiere Hadoop_HOME = / usr / local / Hadoop

  • Überprüfen Sie die installierte Hadoop-Version mit dem folgenden Befehl.

Hadoop-Version

  • Wenn Sie die Versionsdetails erhalten, bedeutet dies, dass der Standalone-Modus einwandfrei funktioniert.
  • Sie können jetzt das Beispielglas ausführen, wir werden dies später sehen.

Pseudo-verteilte Hadoop-Installation

  • Ersetzen Sie den Java-Pfad in Hadoop-env.sh Datei, indem Sie den Wert JAVA_HOME durch den Speicherort des Java-Installationsverzeichnisses auf Ihrem Computer ersetzen.
  • core-site.xml enthält die Konfigurationen für die Portnummer der Hadoop-Instanz, das Speicherlimit, den Speicherort der Datenspeicherung und die Größe der Puffer zum Lesen / Schreiben. Bearbeiten Sie die Datei und fügen Sie die folgende Konfiguration hinzu.

Konfiguration> Eigenschaft> Name> fs.default.name/name> Wert> hdfs: // localhost: 9000 / value> / property> / configuration>

  • hdfs-site.xml Die Datei enthält Konfigurationen für den Replikationsfaktor, die Pfade des Namensknotens und den Pfad der Datenknoten auf Ihren lokalen Computern. Öffnen Sie die Datei und fügen Sie die folgenden Konfigurationen gemäß den Anforderungen hinzu.

Konfiguration> Eigenschaft> Name> dfs.replication / name> Wert> 1 / Wert> / Eigenschaft> Eigenschaft> Name> dfs.name.dir / Name> Wert> Speicherort des Namensknotenverzeichnisses aus Ihrem lokalen Dateisystem / Wert> / Eigenschaft > Eigenschaft> Name> dfs.data.dir / Name> Wert> Speicherort des Datenknotenverzeichnisses aus Ihrem lokalen Dateisystem / Wert> / Eigenschaft> / Konfiguration>

  • yarn-site.xml wird verwendet, um YARN in Hadoop zu konfigurieren.
  • mapred-site.xml wird verwendet, um Konfigurationen anzugeben, die sich auf das MapReduce-Framework beziehen, das wir verwenden müssen.

Überprüfung der Hadoop-Installation

  • Richten Sie den Namensknoten mit den folgenden Befehlen ein.

HDFS-Namensknoten -Format

  • Überprüfen Sie Hadoop dfs mit den folgenden Befehlen.

start-dfs.sh

  • Überprüfen Sie das Garnskript.

start-yarn.sh

  • Greifen Sie über einen Browser auf Hadoop zu http: // localhost: 50070 /
  • Überprüfen Sie alle Anwendungen, die auf dem Cluster ausgeführt werden http: // localhost: 8088 /

Was ist HDFS?

HDFS ist ein verteiltes Dateisystem, das auf dem Google-Dateisystem (GFS) basiert. Es läuft auf Standardhardware. Es bietet Speicherplatz für die Anwendungen, die auf Hadoop ausgeführt werden.

HDFS-Architektur

HDFS folgt der Master / Slave-Architektur und besteht aus den folgenden Elementen in seiner Architektur.

Wie funktioniert es?

Es nimmt Daten in Form von Dateien auf und teilt sie in verschiedene aufgerufene Blöcke auf Blöcke und verteilt sie über den Cluster auf verschiedenen Datenknoten. Außerdem werden alle Daten auf ein anderes Server-Rack repliziert, sodass die Daten im Fehlerfall wiederhergestellt werden können.

Block

Die Datei in HDFS ist in Segmente unterteilt, die als Blöcke bezeichnet werden. Die Standardgröße des Blocks beträgt 64 MB. Die Mindestdatenmenge kann in einem Segment gespeichert werden. Sie kann in der HDFS-Konfiguration geändert werden.

Namenode

Es ist die Standardhardware und fungiert als Master. Im Folgenden finden Sie eine Liste der Aufgaben.

  • Es verwaltet den Dateisystem-Namespace. Es speichert die Metadaten der auf den Slaves gespeicherten Dateien. Es speichert Daten im RAM und nicht auf der Festplatte.
  • Es regelt den Zugriff von Daten auf Kunden.
  • Außerdem werden Dateivorgänge wie das Umbenennen einer Datei, das Öffnen einer Datei usw. ausgeführt.

Sekundärer NameNode

Das Dateisystem-Image wird im Hauptspeicher des Namensknotens gespeichert (es enthält Metadateninformationen).

Neue Einträge kommen, es wird im Bearbeitungsprotokoll erfasst. Der sekundäre Namensknoten nimmt die Kopie des Bearbeitungsprotokolls und des Dateisystem-Images regelmäßig von NameNode und führt sie dann zusammen, erstellt eine neue Kopie und lädt sie auf NameNode hoch.

DataNode

Alle DataNodes werden auf Standardhardware ausgeführt, die als Slaves fungiert. DataNode-Verantwortlichkeiten:

  • Führt Lese- / Schreibvorgänge aus.
  • Sie führen auch Vorgänge wie das Erstellen, Löschen und Replizieren von Blöcken gemäß der Anforderung von Namenode aus.

Funktionen von HDFS

Fehlertoleranz

Hier in HDFS bezieht sich Fehlertoleranz auf die Fähigkeit, mit ungünstigen Situationen umzugehen. Wenn ein Computer des Clusters aufgrund eines Fehlers ausfällt, kann ein Client aufgrund der Replikationsfunktion von HDFS problemlos auf die Daten zugreifen. HDFS repliziert Datenblöcke auch in ein anderes Rack, sodass der Benutzer von einem anderen Rack auf diese Daten zugreifen kann, wenn ein Computer ausfällt.

Hohe Verfügbarkeit

Genau wie bei der Fehlertoleranz handelt es sich um ein hochverfügbares Dateisystem, mit dem ein Benutzer von den nächstgelegenen Computern im Cluster aus auf die Daten zugreifen kann, selbst wenn einer der Computer ausgefallen ist. Ein NameNode, der die Metadaten der auf den DataNodes gespeicherten Dateien enthält, speichert weiterhin Daten auf dem sekundären NameNode zu Sicherungszwecken, falls der NameNode ausfällt. Wenn ein NameNode ausfällt, kann er vollständig von einem sekundären NameNode wiederhergestellt werden. Dies wird als NameNode-Hochverfügbarkeit bezeichnet .

Datenzuverlässigkeit

HDFS kann Daten im Bereich von 100PB speichern. Es ist eine verteilte zuverlässige Speicherung von Daten. Es macht Daten zuverlässig, indem Replikate der Blöcke erstellt werden. Unter kritischen Bedingungen tritt also kein Datenverlust auf.

Reproduzieren

Dies ist das wichtigste Merkmal von HDFS.

Minimale Datenbewegung

Hadoop verschiebt den Code in die Daten auf HDFS, wodurch die Netzwerk-E / A reduziert und Bandbreite gespart wird.

Skalierbarkeit

HDFS speichert Daten auf verschiedenen Computern, sodass wir den Cluster skalieren können, wenn die Anforderungen steigen.

  1. Vertikale Skalierbarkeit: Es geht darum, den vorhandenen Knoten des Clusters weitere Ressourcen wie CPU, Speicher und Festplatte hinzuzufügen.
  2. Horizontale Skalierbarkeit: Es geht darum, den Clustern im laufenden Betrieb weitere Maschinen ohne Ausfallzeiten hinzuzufügen.

HDFS-Operationen

Wenn Sie Hadoop neu installiert und HDFS konfiguriert haben, öffnen Sie den Namensknoten und führen Sie den folgenden Befehl aus. Es formatiert das HDFS.

Hadoop-Namensknoten -Format

Der folgende Befehl startet das verteilte Dateisystem.

Start-dfs.Sch

Operationen

Auflisten von Dateien in HDFS

hadoop fs -ls Argumente>

Dadurch werden die Dateien im angegebenen Pfad aufgelistet.

Einfügen von Daten in HDFS

  • Der folgende Befehl zum Erstellen eines Eingabeverzeichnisses.

hadoop fs -mkdir Eingabeverzeichnis Pfad>

  • Einfügen der Daten aus dem lokalen Dateisystem in HDFS.

hadoop fs -stellen lokaler Eingabedateipfad, der auf HDFS> gestellt werden sollEingabeverzeichnis Pfad>

  • Überprüfen Sie die Datei mit dem Befehl ls.

hadoop fs -mkdir Eingabeverzeichnis Pfad>

Daten in HDFS abrufen

  • Zeigen Sie die Daten mit cat-Befehlen an.

hadoop fs -cat Pfad der anzuzeigenden Datei>

  • Holen Sie sich die Datei von HDFS in das lokale Dateisystem.

hadoop fs -erhaltenHDFS-Dateipfad> lokaler Dateisystempfad, in dem die zu speichernde Datei>

HDFS herunterfahren

Dieser Befehl stoppt das HDFS.

Stopp-dfs.Sch

Andere Befehle

  • ls Pfad>: Listet den Inhalt des angegebenen Verzeichnisses auf.
  • lsr Pfad>: Zeigt auch rekursiv den Inhalt von Unterverzeichnissen an.
  • du path>: Zeigt die Festplattennutzung an.
  • dus path>: Druckt die Zusammenfassung der Festplattennutzung
  • mv src> dest>: Verschiebt die Datei oder das Verzeichnis zum Ziel.
  • cp src> dest>: Kopiert die Datei des Verzeichnisses zum Ziel.
  • rm Pfad>: Entfernt die angegebene Datei oder das leere Verzeichnis
  • rmr path>: Rekursiv Entfernt die angegebene Datei oder das leere Verzeichnis.
  • setze local src> dest>: Kopiert die Datei oder das Verzeichnis vom lokalen in das HDFS.
  • copyFromLocal local src> dest>: wie -put
  • moveFromLocal local src> dest>: Verschiebt die Datei oder das Verzeichnis vom lokalen zum HDFS.
  • Holen Sie sich src> local dest>: Kopiert eine Datei oder ein Verzeichnis von HDFS nach lokal.
  • getmerge src> local dest>: Es ruft die Dateien ab und führt sie dann in einer einzigen Datei zusammen.
  • Katzendateiname>: Zum Anzeigen des Inhalts der Datei.
  • copyToLocal src> local dest> : wie -get
  • moveToLocal src> local dest>: Es funktioniert wie -get, wird dann aber aus dem HDFS gelöscht.
  • mkdir Pfad>: Es erstellt ein Verzeichnis im HDFS.
  • touchz path>: So erstellen Sie eine leere Datei unter dem angegebenen HDFS-Pfad.
  • test - [ezd] path>: Um zu testen, ob der angegebene HDFS-Pfad vorhanden ist oder nicht, wird 0 zurückgegeben, wenn er nicht vorhanden ist, andernfalls 1.
  • stat [format] path>: Es druckt die Pfadinformationen.
  • Schwanz [-f] Dateiname>: Zeigt den letzten Inhalt der Datei an.
  • chmod: Zum Ändern der Datei- oder Verzeichnisberechtigungen.
  • chown: So legen Sie den Eigentümer der Datei oder der Verzeichnisse fest.
  • chgrp: Zum Festlegen der Eigentümergruppe.
  • Hilfe Befehlsname>: Anzeigen der Verwendungsdetails eines der Befehle.

Heute Interessant

Wir Empfehlen.

Dezember 2017 Gaming PC Builds
Computers

Dezember 2017 Gaming PC Builds

Ich bin nur ein kleiner Typ, der einen normalen Job al Arzthelferin hat. Meine Leiden chaft i t e , PC zu bauen und PC-Hardware zu te ten / zu überprüfen.Hallo zu ammen. Ich werde Ihnen hier...
Grafikdesign: Was bedeuten Schriftbegriffe?
Computers

Grafikdesign: Was bedeuten Schriftbegriffe?

Georgie i t ein zertifizierter Buch-Nerd und hat bekanntlich fünf Romane pro Woche ge chrieben. Ihre Favoriten ind po tapokalypti che Dramen.Grafikde ign i t ein ern te Ge chäft, und einer d...