Inhalt
- Verwenden von ggplot2
- Einführung in das ggplot2-Paket
- Zielsetzung
- Bausteine von ggplot
- Lass uns anfangen
- Installieren Sie das ggplot2-Paket
- Erstellen Sie ein leeres Diagramm
- Daten in das Diagramm einspeisen
- Ästhetisches Mapping
- Geom
- Unser erstes Grundstück mit ggplot
- Zusammenfassung
- Einschränkungen
Harsh ist ein SQL-DBA mit über 13 Jahren Erfahrung. Er hat an den meisten Technologien im Zusammenhang mit SQL Server gearbeitet. Er liebt Politik, liest
Verwenden von ggplot2
Einführung in das ggplot2-Paket
Einer der wichtigsten Aspekte der Datenanalyse ist die Visualisierung der Daten. Die Visualisierung ist wahrscheinlich der leistungsstärkste Aspekt, mit dem Sie Ihre Daten aus verschiedenen Blickwinkeln betrachten können. Es ermöglicht Ihnen auch, Ihre Schlussfolgerungen auf der ganzen Linie sehr kraftvoll zu formulieren. Ein Bild sagt mehr als tausend Worte.
R verfügt über Tausende verschiedener Pakete, die verschiedene Aufgaben ausführen können. ggplot2 ist ein solches Paket, das zum Erstellen und Anzeigen von Plots entwickelt wurde.
In diesem Artikel werde ich zeigen, wie wir mit ggplot2 in R von Grund auf ein Diagramm erstellen können. Ich werde mit einem leeren Diagramm beginnen und dann Elemente hinzufügen, um einige grundlegende Diagramme zu erstellen.
Beachten Sie, dass das Paket den Namen ggplot2 trägt.
Die eigentliche Funktion, die wir zum Erstellen von Plots verwenden, heißt ggplot.
Das kann verwirrend sein, aber ich fürchte, so werden sie benannt.
Das Paket ist also ggplot2 und die Funktion, die wir von diesem Paket verwenden, heißt ggplot.
Recht.
Zielsetzung
Das Ziel dieses Artikels ist es nicht, eine schicke und erstaunliche Handlung zu erstellen. Ziel ist es, den Leser in den Prozess des Aufbaus eines Grundstücks Stück für Stück von Grund auf einzuführen.
Mit diesem Artikel sollten Sie in der Lage sein, verschiedene Elemente des ggplot2-Plotsystems und deren Verwendung zu verstehen. Bitte beachten Sie jedoch, dass dies nur eine grundlegende Einführung in das ggplot2-Plotsystem ist. In Wirklichkeit ist ggplot2 ein sehr leistungsfähiges, aber extrem umfangreiches Plotsystem, über das Sie problemlos ein Buch schreiben können.
In diesem Beitrag werden jedoch einige grundlegende Bausteine eines ggplot-Diagramms behandelt und drei Diagramme mit diesen grundlegenden Bausteinen erstellt.
Bausteine von ggplot
Bevor wir das tun, müssen wir die Grundbausteine eines ggplot-Graphen verstehen.
- Plot - Dies ist der Plotbereich, auf dem wir den Plot erstellen werden.
- Daten - Dies sind die Daten, die im Plot verwendet werden.
- Ästhetische Zuordnung - Dies ist die Organisation Ihrer Daten auf dem Plot. Dies teilt ggplot mit, welche Datenpunkte auf welcher Achse liegen, welche Farbe sie haben sollten, welche Form sie haben sollten usw. Die ästhetische Abbildung steuert im Wesentlichen den visuellen Aspekt der geometrischen Objekte, die wir zeichnen.
- Geom - Dies sind die verschiedenen geometrischen Objekte, die wir auf dem Plotbereich platzieren. Dies können Formen wie ein Punkt für ein Streudiagramm, Linien, Kurven usw. sein. Diese Objekte repräsentieren Ihre Daten auf dem Diagramm.
Jeder dieser Blöcke wird durch Funktionen in R dargestellt. Grundsätzlich schreiben wir für jeden dieser Blöcke eine Funktion.
Es gibt viel mehr zu ggplot als dies, aber vorerst werden wir damit beginnen, tatsächlich zu sehen, wie diese vier Elemente funktionieren.
Lass uns anfangen
Lassen Sie uns also ohne weiteres R starten und mit der Erstellung eines ggplot-Diagramms beginnen.
Bevor Sie jedoch mit der Erkundung von ggplot2 beginnen können, müssen Sie es installieren, falls Sie dies noch nicht getan haben.
Installieren Sie das ggplot2-Paket
install.packages ("ggplot2")
Nachdem diese Installation erfolgreich abgeschlossen wurde, laden wir dieses Paket.
Erstellen Sie ein leeres Diagramm
Nachdem wir das ggplot2-Paket installiert und geladen haben, erstellen wir einen Plot von Grund auf neu. Zuerst müssen wir das erste Element erstellen, das wir zuvor eingeführt haben.
Plot - Dies ist der Plotbereich, auf dem wir den Plot erstellen werden.
ggplot ()
Das ist es. Beachten Sie, dass der von uns verwendete Funktionsname ggplot ist. Es ist nicht ggplot2. ggplot2 ist der Paketname, der diese Funktion enthält.
Dadurch wird ein leeres Diagramm erstellt. Sie sollten dies im Plotfenster von R Studio sehen können.
Daten in das Diagramm einspeisen
Kommen wir nun zum zweiten Punkt.
Daten - Dies sind die Daten, die im Plot verwendet werden.
Geben wir ggplot einige Daten. Dies wird nicht aufgezeichnet. Wir machen jedoch nur einige Daten für die Handlung zugänglich. Bitte beachten Sie auch, dass ggplot nur Datenrahmenobjekte als Daten akzeptiert. Es werden keine Matrix, Vektor, Liste oder andere Datentypen akzeptiert. Ich verstehe diese Einschränkung nicht, aber so ist es.
Für diese Demonstration werde ich einen in R eingebauten Datensatz mit dem Namen Iris verwenden. Dies ist Teil der Basis R und Sie müssen hierfür kein zusätzliches Paket installieren.
Sie können sehen, was diese Daten sind, indem Sie den folgenden Befehl in R ausführen.
Kopf (Iris) Wie Sie sehen können, hat es fünf Felder. Vier dieser Felder sind numerisch und das letzte ist kategorisch. Dieser Datensatz besteht aus Messungen von 150 Blüten von 3 verschiedenen Arten von IRIS-Blüten. Dieser Datensatz enthält vier numerische Messungen und ein Feld, das die Arten der Blume identifiziert. Jetzt werden wir diesen Datensatz verwenden und sehen, wie wir diese Daten mit ggplot2 zeichnen können. Lassen Sie uns diese Daten nun dem ggplot zuführen. Sie tun dies, indem Sie einen Parameter mit dem Namen data an die Funktion ggplot übergeben, wie unten gezeigt. Die Daten, die wir ggplot zugeführt haben, sind ein Datenrahmen namens Iris. Ihr Grundstück bleibt leer. Mit diesem Befehl haben wir gerade die Datenrahmen-Iris an ggplot übergeben. Kommen wir nun zum dritten Punkt. Ästhetische Zuordnung - Dies ist die Organisation Ihrer Daten auf dem Plot. Nun definieren wir das ästhetische Mapping für die Daten. In seiner einfachsten Form definieren wir nur, welche Daten auf der X-Achse und welche auf der Y-Achse benötigt werden. Sie tun dies, indem Sie eine andere Funktion mit dem Namen aes an die Funktion ggplot übergeben. ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) Mit diesem Befehl haben wir ggplot angewiesen, die Sepal-Länge auf die X-Achse und die Sepal-Breite auf die Y-Achse zu setzen. Schauen wir uns nun unsere Handlung an. Es sieht aus wie das. Früher war die Handlung leer. Jetzt können wir zwei Achsen sehen. Auf der X-Achse sehen wir die Sepal-Länge und auf der Y-Achse sehen wir die Sepal-Breite. Es wurde auch ein schönes kleines Raster basierend auf den Werten für die Sepal-Länge und die Sepal-Breite gezeichnet. Wir sehen jedoch immer noch keine Datenpunkte auf dem Plot. Alles, was unser Befehl getan hat, ist das Formatieren des Plots. Genau das wird die ggplot-Funktion tun. Jetzt kommen wir zum vierten Punkt.Ästhetisches Mapping
Geom
Das eigentliche Zeichnen von Daten auf dem Diagramm erfolgt durch geometrische Objekte, d. H. Geom. Fügen wir nun das Geom zu unserem Plot hinzu.
Dazu fügen wir der ggplot-Funktion geom ._ * -Funktionen hinzu, wie unten gezeigt. Beachten Sie, dass dieser Befehl nicht vollständig ist. Wenn Sie jedoch bis zu diesem Punkt tippen, wird eine Liste der Geom-Optionen angezeigt, die Ihnen zur Verfügung stehen.
ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) + geom_
Sie können die Optionen im folgenden Screenshot sehen. Welches Geom Sie wählen, hängt davon ab, welche Art von Grundstück Sie möchten.
Lassen Sie uns nun den Befehl ausführen. Für diese Demonstration werde ich ein Streudiagramm zeichnen, das nur aus Punkten besteht.
ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) + geom_point ()
Schauen wir uns nun unsere Handlung an.
Unser erstes Grundstück mit ggplot
Und da bist du ja. Ihr erster Plot mit ggplot ist fertig.
Aber es ist ein bisschen langweilig, oder? Fügen wir etwas Farbe hinzu.
ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) + geom_point (Farbe = "rot")
Können Sie den Unterschied zwischen diesem und dem früheren Befehl erkennen? Ich habe dem Geom-Punkt einen Parameter namens Farbe hinzugefügt und ihm den Wert Rot übergeben. Dies weist ggplot an, alle Punkte rot zu färben.
So sieht unsere Handlung jetzt aus.
Nehmen wir an, ich langweile mich mit Punkten in meinem Streudiagramm und möchte die Form meiner Punkte ändern. Ich füge einen weiteren Parameter mit dem Namen shape hinzu und übergebe den Wert vier. Wie Sie im Screenshot unter diesem Befehl sehen können, hat ggplot die Form der Punkte im Streudiagramm geändert.
ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) + geom_point (Farbe = "rot", Form = 4) Nun, ich nehme an, Sie bekommen das Bild, nicht wahr? Um die Punkte zu ändern, fügen Sie der Geom-Funktion weitere Parameter hinzu. Welche Parameter Sie übergeben können, hängt vom verwendeten Geom ab. Dies ist nur die Spitze des Eisbergs, und wenn Sie anfangen, tiefer in ggplot zu graben, werden Sie die Möglichkeiten fast unbegrenzt finden. Lassen Sie uns nun das Geom von Punkt zu Linie ändern. Dadurch wird anstelle des Streudiagramms ein Liniendiagramm erstellt. ggplot (Daten = Iris, Mapping = aes (x = Sepal.Length, y = Sepal.Width)) + geom_line (Farbe = "rot", Form = 4) Wie Sie sehen können, wurden die Punkte in Linien geändert. Wie wäre es mit einer numerischen Variablen und einer anderen kategorialen? In unserer Dateniris sind Arten kategoriale Daten. Es ist nicht numerisch wie Länge oder Breite, sondern eine Klasse. Zeichnen wir ein weiteres Streudiagramm, aber anstelle der Sepal-Länge auf der X-Achse zeichnen wir die Arten auf der X-Achse. Sie können sehen, dass ich dafür die ggplot-Funktion aes ändern muss. Anstelle von Sepal Length habe ich Species an die x-Achse übergeben. ggplot (Daten = Iris, Mapping = aes (x = Spezies, y = Sepal.Width)) + geom_point (Farbe = "rot") Und das ist die Ausgabe, die wir bekommen. Wenn Sie jedoch eine kategoriale Variable gegen eine numerische Variable zeichnen möchten, möchten Sie im Allgemeinen möglicherweise ein Box-Diagramm anstelle eines Streudiagramms zeichnen. Das Box-Diagramm zeigt Median-, Minimal- und Maximalwerte sowie Ausreißer. Lassen Sie uns nun das Box-Diagramm anstelle des Streudiagramms zeichnen. Jetzt ändern wir das Geom von Punkt zu Box-Plot. ggplot (Daten = Iris, Mapping = aes (x = Spezies, y = Sepal.Width)) + geom_boxplot (Farbe = "rot") Bist du schon von Rot gelangweilt? Ändern Sie die Farbe dieser Felder und fügen Sie den Feldern eine Füllfarbe hinzu. ggplot (Daten = Iris, Mapping = aes (x = Spezies, y = Sepal.Width)) + geom_boxplot (Farbe = "lila", Füllung = "schwarz") Bisher haben wir ein Streudiagramm, ein Liniendiagramm und ein Boxdiagramm erstellt. Wir haben etwas Farbe hinzugefügt. Sie können viel mehr als diese 3 Handlungen machen, die ich bis jetzt illustriert habe. Realistisch gesehen ist die Kraft von ggplot fast erstaunlich. Dies ist ein praktisches Werkzeug, das Sie in Ihrer Toolbox haben sollten. Aber wie jedes Werkzeug hat es auch seine Grenzen. Es kann sicherlich nicht einige Dinge tun, die das Gitter tun kann. Es ist nicht sehr gut mit 3D-Plots und möglicherweise müssen Sie dafür rgl verwenden. Es können keine Diagramme vom Typ Graphentheorie mit Knoten oder Entscheidungsbaumstrukturen verarbeitet werden. Das war's für diese Zeit, Leute. Bitte teilen Sie mir Ihre Meinung im Kommentarbereich unten mit. Wenn Sie Verbesserungen in diesem Beitrag wünschen, lassen Sie es mich bitte wissen und ich würde gerne unsere Vorschläge umsetzen. Dieser Artikel ist genau und nach bestem Wissen des Autors. Der Inhalt dient nur zu Informations- oder Unterhaltungszwecken und ersetzt nicht die persönliche Beratung oder professionelle Beratung in geschäftlichen, finanziellen, rechtlichen oder technischen Angelegenheiten.Zusammenfassung
Einschränkungen