Nachfolgend erhalten Sie eine kurze Einführung in die wichtigsten Funktionen von RStudio, eine Grafik. User Interface (GUI) für die Programmiersprache R. Unser Ziel ist es, Ihnen den Einstieg in R und den damit verbundenen Umgang mit Daten mit Hilfe von RStudio zu erleichtern. Da die Datensätze in diesem Skript klein sind, können Sie sie verwenden. Verstehen Sie Papier, Bleistift und Taschenrechner in angemessener Zeit. Für größere Datensätze sollten die Computer verwendet werden.
Einleitung in das Thema Datamining mit R
Mit über zwei Mio. Anwendern auf der ganzen Welt ist R eine der am weitesten verbreiteten Sprachen in der Datenwissenschaft. Da es sich neben der Programmiersprache für die Datenwissenschaft (neben Python) um eine der De-facto-Programmiersprachen handelt, verfügen viele Anbieter von Software für die Datenwissenschaft über eine Schnittstelle zu R. Es wird ein Übersicht über Algorithmen zum besseren Verständnis und zur kritischen Hinterfragung datenwissenschaftlicher Erkenntnisse vermittelt.
Die meisten Beteiligten erarbeiten selbständig mit Hilfe des Schulungsleiters, um das Gelernte unmittelbar umsetzen und anwenden zu können. Weshalb ist R eine der am weitesten verbreiteten datenwissenschaftlichen Sprachen?
Grafik mit GG-Plot in R – eine Einführung
Grundlage des Pakets ist die sogenannte Grammatik der Grafik von Wilhelm W ilson und anderen. Wir müssen nicht wissen, wie der Aufruf zum Anlegen der Tabellen funktioniert1, aber wir können überprüfen, wie die Struktur der Tabellen nun ist: Die ersten sechs Tabellenzeilen werden angezeigt:
Man kann sich auch die Tabellenstruktur näher ansehen: Besonders die Funktion str() gibt einen guten Überblick: Die Liste beinhaltet 100 Betrachtungen von 4 Größen.
Bei den ersten beiden Größen handelt es sich um numerische (IQ und Höhe), bei der dritten um eine Größe mit ganzen Zahlen von 0 bis 5 (Anzahl der Kinder), bei der letzten um einen Wert mit 2 Ebenen (Nation). Sowohl für GG-Plot als auch für R im Allgemeinen ist es vorteilhaft, wenn die Datensatztabelle im Dateiformat „ordentliche Daten“ ist, d.h. wenn jede Betrachtung (einschließlich jeder Messwiederholung2) in einer separaten Reihe steht (mehr zu „ordentliche Daten“; Wie kann ich meine Datei umstrukturieren).
Als Basisgrafik wird das plot() basierte Graphiksystem bezeichnet, da es bereits im Basic-R integriert ist. Sie sehen, wir bekommen ein einfaches Streudiagramm mit kleinen Umrissen. Das Diagramm weist eine charakteristische Charakteristik von R: R-Funktionen auf, die oft versucht, je nach Eingabe die am besten passende Ausgabe zu erzielen. Nun erzeugen wir den selben Graphen zum Vergleichen mit dem Packagegplot2 Zuerst wird das Package geladen und dann der Graph definiert: # Mein erster ggplot: Das Funktionsprinzip ist bei der Verwendung von GGPlot2 offenbar anders als bei der Verwendung von plot(): Es gibt eine ggplot() Konsole, die zuerst festlegt, welche Tabellen die Grundlage für den Graphen bilden sollen.
Dann gibt es innerhalb der ggplot2() Konsole die so genannte Ästhetik-Konsole (aes()), in der die zu plottende Variable für y und y nun als die zweite Konstante festgelegt ist. Nach der Definition der grundlegenden Plotinformationen in der ggplot() Konsole wird im dritten Schritt festgelegt, mit welchem Geometrieelement (Geom) die Messdaten geplottet werden sollen.
Zur Definition eines vergleichbaren Scatterplots wie bisher wird die Größe als x-Variable und der Wert für den Intelligenzquotienten als y-Variable definiert. Mit dem + wird angezeigt, dass die Messpunkte als weitere Ebene auf den vorher festgelegten Graphen „aufgetragen“ werden. Dies ist für die Verwendung von Ggplot 2 typisch: Weitere Element und Plotänderungen werden der Plotspezifikation durch Verketten von Ausdrücke + xyz() beigefügt.
Sie sehen, die Darstellung ist etwas klarer, sie beinhaltet Rasterlinien, die das Lesen der Messpunkte erleichtern, und die Achse ist nun mit den korrekten Namen der Variablen etikettiert. Mit den Parametern Größe, Farbe und Form ändern wir das Aussehen der Bildpunkte innerhalb der geom_point-Schiene. Der große Pluspunkt von GGPLOT ist, dass wir diese Properties nicht nur von Hand definieren, sondern auch auf eine dritte Variablen „mappen“ können.
In der folgenden Grafik werden wir dies versuchen, indem wir die Daten der „Gallier“ und „Römer“ in verschiedenen Farbvarianten ausgeben. Um dies zu tun, geben Sie in der Ästhetikklammer an, dass die Nationalität eine weitere zu betrachtende Größe sein soll und dass sie durch die Farbgebung der grafischen Elemente dargestellt werden soll. Dies funktioniert so: colour = Nationen.
ist nun neben den Farben auch eine weitere Datendimension des Diagramms. Im geom_point () Bracket muss nun die eindeutige Farbspezifikation colour = „blue“ gelöscht werden, sonst würde sie unser Wunschmapping aufheben. Abhängig von der Variablen stehen andere Ästhetiken (Farbe, Grösse, Gestalt, etc.) zur Verfügung.
Wir versuchen das jetzt für unser Grundstück 3a: Auch hier ist zu erkennen, dass die Informationen in der Ästhetikklammer auf alle Geome aufgesetzt werden. Farbe = Nationalität beeinflusst also auch die geom_smooth: Je nach Zahl der Faktorebenen in der jeweiligen Landessprache werden zwei gerade Linien gezeichnet, die ebenfalls farblich aufbereitet sind.
Wie verhält es sich, wenn Sie z.B. in GG Plot Nr. 1 in der Gruppe für geographische Koordinaten den Alpha-Wert der Messpunkte auf eine Ziffer zwischen 0 und 1 einstellen (z.B. alphanumerisch = 0,5)? Es hat sich gezeigt, dass die Ästhetikinformationen aus der ggplot() Konsole auf alle Geome angewandt werden. Um dies zu erreichen, müssen wir eine neue Ästhetikklammer (aes()) innerhalb der Klammer des jeweiligen Geomes anlegen und bestimmen, welche Variablen nun nur noch für dieses Geome in Betracht gezogen werden sollen.
Im R-Kommando für den 4. Plots, entferne den Begriff colour = nationale aus der vordersten aes() Konsole und füge statt dessen den Begriff aes(color = nation) innerhalb der geom_point Konsole ein. Das Diagramm 4 sollte so eingestellt werden, dass die Points ihre Farben über die Variablen Nationen und ihre Grösse über Number_Children haben.
Auch die Regressionslinien sollten ihre Farben über die Nationen bekommen, aber eine gleichbleibende Grösse (= Dicke) haben.
Leave a Reply