Jakob Richter

Statistik, R, Fotografie und Sonstiges

ggplot2 – ein umfangreiches Beispiel

Das Einführungsbeispiel war ja in Punkto Datenumfang sehr bescheiden. Seine stärke spielt ggplot2 vor allem bei großen Datensätzen mit vielen Merkmalen aus. Insbesondere, wenn man noch nicht weiß wo es hingehen soll.

Einen Datensatz entdecken

Aus der Umweltprobenbank habe ich mir mal diesen Datensatz zusammengestellt. Ich weiß auch nur, dass es um die Bodenbelastungen an verschiedenen Orten in Deutschland geht. Einen tieferen Einblick in die Daten gewinnt man mit bloßen Augen nicht so recht.

Ein kleiner Einblick mit Excel in den Datensatz


Weiterlesen »

ggplot – eine Einführung

Wie funktioniert das mit ggplot? Ich schwärme ja oft von diesem tollen Packet, wie vermutlich fast jeder, der ggplot (genauer ggplot2) kennen und nutzen gelernt hat. Doch für Einsteiger ist die Struktur oft zuerst verwirrend und der Aufwand scheint nicht den Nutzen wert zu sein. Von dem Gegenteil möchte ich euch nun jedoch überzeugen, gerade auch, weil sich der Aufwand am Ende doch erheblich reduzieren kann.

Die Vorteile von ggplot2:

  • schönere Optik
  • Grafiken können leicht an neue Bedürfnisse angepasst werden
  • Exploration von Daten mit wenig Code und bereits druckfertigen Ergebnissen
  • Erscheinungsbild mit wenig Code sauber veränderbar
  • Viele bereits mitgelieferte Plot-typen

Nachteile:

  • gewisse Einarbeitungszeit
  • Daten für ggplot2 Vorbereiten manchmal unintuitiv

Weiterlesen »

Porto

R: Berechnung in Variable speichern und gleichzeitig Ausgeben

Wieder ein kleiner Trick für den R-Alltag. Häufig will man eine Berechnung durchführen, das Ergebnis in einer Variable speichern und auch das Ergebnis gleich mal sehen. Zum Beispiel ist es ja nicht schlecht bei der Anpassung eines (linearen) Modells gleich mal die geschätzten Parameter zu sehen, bevor man weiter damit arbeitet.

> (lm.trees <- lm(Height~.,data=trees)) Call: lm(formula = Height ~ ., data = trees) Coefficients: (Intercept) Girth Volume 83.2958 -1.8615 0.5756

apply() hoch 3

Nach dem Beitrag zu lapply() und sapply() möchte ich hier nun das etwas mächtigere (?) apply() vorstellen, was man in R wohl kaum missen will.

Ich werde kurz zeigen wie mit apply() Matrizen und data.frames zeilen- sowie spaltenweise Ausgewertet werden können. Nach dieser sehr leichten Übung widmen wir uns einem etwas trickreicherem Beispiel, in dem wir mehrere gleichartige Tabellen (also Matrizen bzw. data.frames) der gleichen Zeilen- und Spaltenanzahl vorliegen haben. Hier möchten wir die Informationen aus immer den gleichen Zellen zusammenfassen.
Weiterlesen »

Kleiner R-Helferling: example()

Hui. Dass es diese Funktion gibt hätte ich ja nicht gedacht. Sicherlich seid ihr schon über die Beispiele in der R-Hilfe gestolpert und habt sie auch mal ausgeführt um zu gucken was passiert. Copy&Paste? Pah! Mit example() geht’s auch schneller. Was kann man nochmal mit predict.glm() machen? Mit example(predict.glm) findest du es heraus. Funktioniert auch ganz gut für viele Beispieldatensätze example(chickwts).
Weiterlesen »

Dänemark

Formeln in R (Teil 1)

Formeln (formula) werden in R an vielen verschiedenen Stellen genutzt. Natürlich für die lineare (lm()) und logistische Regression (glm(type="logit")), aber auch für die Survivalanalyse und das Cox-Modell (library("survival"); coxph()) um nur einige Beispiele zu nennen.

Zuerst der ganz allgemeine Aufbau einer formel
abhängige Variable ~ erklärende Variablen
(Ein kleiner Tipp für Mac-Nutzer an dieser Stelle: ~ lässt sich schreiben mit [alt] + N)
Die Formel y ~ x kann also verstanden werden als x erklärt y oder y ist abhängig von x.

Sicherlich bekannt ist, dass wir mehrere erklärende Variablen (EV) mit + verbinden können: y ~ x1 + x2
Doch es gibt zahlreiche weitere Möglichkeiten die rechte Seite der Formel aufzubauen:
Weiterlesen »

Archiv

  • 2012 (28)