Einführung in R

Autor:innen

Andrew Ellis

Boris Mayer

Veröffentlichungsdatum

26.03.24

Vorwort

Voraussetzungen

Bitte installieren Sie sowohl die aktuelle Version von R: R version 4.3.2 (2023-10-31)

als auch RStudio: RStudio Desktop

Wir verwenden für diese Vorlesung RStudio, ein integrated development environment (IDE), welches die Arbeit mit R sehr angenehm macht. Das R Programm muss separat installiert werden, wir werden aber nicht direkt damit arbeiten.

Was ist R?

R ist sowohl eine Progammiersprache als auch eine Statistikumgebung. R ist open-source, d.h. der Source Code ist unter der GNU Public License frei verfügbar. Ausserdem ist R kostenlos.

Woher kommt der Name R? R wurde als open-source Variante einer kommerziellen Sprache entwickelt, welche S heisst (Programmiersprachen haben oft nur einen Buchstaben als Namen, z.B. C). Die beiden R Entwickler (Ross Ihaka und Robert Gentleman) nannten angeblich die Sprache R, weil ihre Vornamen beide mit dem Buchstaben R beginnen.

Wir werden R primär als Statistikumgebung kennenlernen, werden uns jedoch auch teilweise mit R als Programmiersprache beschäftigen. Das bedeutet, dass wir am Anfang verschiedene Datentypen und ein wenig R Syntax kennenlernen, damit wir richtig damit arbeiten können.

Die R Sprache gilt als relativ “schwierig” zu lernen, unter anderem, weil man sich viele verschiedene Funktionsnamen merken muss, und diese eine etwas inkonsistente Namensgebung haben. Wir orientieren uns deswegen, soweit möglich, an einer Sammlung von modernen R Packages (Erweiterungspakete), welche von RStudio, insbesondere von Hadley Wickham, entwickelt wurden.

Aber bitte lassen Sie sich nicht abschrecken. Diese Packages repräsentieren den ‘state-of-the-art’, was Datenanalyse anbelangt, und die Arbeit damit ist einfach erlernbar. Es gibt beinahe für alle Probleme ein dafür entsprechendes Paket mit einer Lösung. Nach wenigen Anwendungen wird die “Programmierung” intuitiv.

Weiterführende Literatur

Wir orientieren uns inhaltlich teilweise an dem Buch R für Einsteiger: Einführung in die Statistiksoftware für die Sozialwissenschaften von Maike Luhmann (2020), verwenden aber nicht deren R Code.

In Bezug auf R Code orientieren uns wir und an dem online frei verfügbaren Buch R for Data Science von Wickham, Çetinkaya-Rundel und Grolemund (2023). Dieses Buch ist jedoch weit umfangreicher, als wir es für diese Vorlesung brauchen.

Für diejenigen, welche sich mit R als Programmiersprache auseinandersetzen wollen, empfehlen wir die Bücher Hands-On Programming with R von Garrett Grolemund (2014) und Advanced R von Hadley Wickham (2019). Das letztere ist jedoch wirklich nur für Vertiefer.

DataCamp bietet verschiedene Online-Kurse an (teilweise kostenpflichtig). Dieser Einführungskurs ist jedoch kostenlos.

Typographische Konventionen

Wir verwenden zusätzlich zum Haupttext folgende Textblöcke:

Hinweis

In diesem Block stehen Kommentare und Erläuterungen.

Vertiefung

In diesem Block stehen Zusatzinformationen. Oft sind diese für Leute gedacht, welche ihr Wissen vertiefen möchten, und sind nicht prüfungsrelevant.

Übung

In diesem Block stehen Übungen.

In diesem Block stehen Lösungen.

Diese Unterlagen bestehen zu einem grossen Teil aus R Code. Code-Chunks sehen so aus:

x <- seq(from = 1, to = 10, by = 1)

Dieser Code kann in der R Konsole ausgeführt werden. Code-Chunks können auch einen Output haben:

x
 [1]  1  2  3  4  5  6  7  8  9 10

In einem solchen Block ist x der Input und [1] 1 2 3 4 5 6 7 8 9 10 der Output (in diesem Beispiel haben wir eine Variable x kreiert und ihr die Sequenz von 1 bis 10 zugewiesen).

License

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.