Vorwort

0.1 Voraussetzungen

Bitte installieren Sie sowohl die aktuelle Version von R: R version 4.0.4 (2021-02-15)

als auch RStudio: RStudio Desktop

Wir verwenden für diese Vorlesung RStudio, ein integrated development environment (IDE), welches die Arbeit mit R sehr angenehm macht. Das R Programm muss separat installiert werden, wir werden aber nicht direkt damit arbeiten.

0.2 Was ist R?

R ist sowohl eine Progammiersprache als auch eine Statistikumgebung. R ist open-source, d.h. der Source Code ist unter der GNU Public License frei verfügbar. Ausserdem ist R kostenlos.

Woher kommt der Name “R”? R wurde als open-source Variante einer kommerziellen Sprache entwickelt, welche S heisst (Programmiersprachen haben oft nur einen Buchstaben als Namen, z.B. C). Die beiden R Entwickler (Ross Ihaka und Robert Gentleman) nannten angeblich die Sprache R, weil ihre Vornamen beide mit dem Buchstaben R beginnen.

Wir werden R primär als Statistikumgebung kennenlernen; wir werden uns jedoch auch teilweise mit R als Programmiersprache beschäftigen. Das bedeutet, dass wir am Anfang verschiedene Datentypen und ein wenig R Syntax kennenlernen, damit wir richtig damit arbeiten können.

Die R Sprache gilt als relativ “schwierig” zu lernen, unter anderem, weil man sich viele verschiedene Funktionsnamen merken muss, und diese eine etwas inkonsistente Namensgebung haben. Wir orientieren uns deswegen, soweit möglich, an einer Sammlung von modernen R Packages (Erweiterungspakete), welche von RStudio, insbesondere von Hadley Wickham, entwickelt wurden.

Aber bitte lassen Sie sich nicht abschrecken. Diese Packages repräsentieren den ‘state-of-the-art’, was Datenanalyse anbelangt, und die Arbeit damit ist einfach erlernbar. Es gibt beinahe für alle Probleme ein dafür entsprechendes Paket mit einer Lösung. Nach wenigen Anwendungen wird die “Programmierung” intuitiv.

0.3 Weiterführende Literatur

Wir orientieren uns inhaltlich teilweise an dem Buch R für Einsteiger: Einführung in die Statistiksoftware für die Sozialwissenschaften von Maike Luhmann, verwenden aber nicht deren R Code.

In Bezug auf R Code orientieren uns wir und an dem online frei verfügbaren Buch R for Data Science von Garrett Grolemund und Hadley Wickham. Dieses Buch ist jedoch weit umfangreicher, als wir für diese Vorlesung brauchen.

Für diejenigen, welche sich mit R als Programmiersprache auseinandersetzen wollen, empfehlen wir die Bücher Hands-On Programming with R von Garrett Grolemund und Advanced R von Hadley Wickham. Das letztere ist jedoch wirklich nur für Vertiefer.

DataCamp bietet verschiedene Online-Kurse an (teilweise kostenpflichtig). Dieser Einführungskurs ist jedoch kostenlos.

0.4 Typographische Konventionen

Wir verwenden zusätzlich zum Haupttext folgende Textblöcke:

In diesem Block stehen Kommentare und Erläuterungen.

In diesem Block stehen Zusatzinformationen. Oft sind diese für Leute gedacht, welche ihr Wissen vertiefen möchten, und sind nicht prüfungsrelevant.

In diesem Block stehen Übungen.

Diese Unterlagen bestehen zu einem grossen Teil aus R Code. Code chunks sehen so aus:

x <- seq(from = 1, to = 10, by = 1)

Dieser Code kann in der R Konsole ausgeführt werden. Code chunks können auch einen Output haben:

x
#>  [1]  1  2  3  4  5  6  7  8  9 10

In einem solchen Block ist x der Input und #> [1] 1 2 3 4 5 6 7 8 9 10 der Output (in diesem Beispiel haben wir eine Variable x kreiert und ihr die Sequenz 1 bis 10 zugewiesen).

0.5 License

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.