R (Programmiersprache)

R ist ein frei verfügbares (Open Source) Statistik-Werkzeug, das 1992 entwickelt wurde. Es basiert auf einer eigens für statistische Anwendungen entwickelte Programmiersprache, deren Kernfunktionen die Verarbeitung und Visualisierung von Daten sind. Eine besondere Stärke liegt in der Verfügbarkeit von erweiterbaren Zusatzfunktionen – sogenannte Packages – die sich verschiedenen statistischen Problemstellungen annehmen. Diese können betriebsfertig heruntergeladen und individuell angepasst werden. So können häufig selbst für sehr spezielle Anforderungen fertige Lösungen gefunden und direkt angewendet werden. Die Sprache bietet weiterhin Schnittstellen zu weiteren gängigen Programmiersprachen und wird von großen namhaften Unternehmen wie SAP, Facebook, Google und Microsoft unterstützt. Die Entwicklungsumgebung von R ist eher karg, es gibt keine schicke grafische Benutzeroberfläche. Drittanbieter haben aber mittlerweile benutzerfreundlicherer R-Editoren entwickelt, wie z. B. RStudio.

Historische Meilensteine

R wurde 1992 von Ross Iahaka und Robert Gentleman in Auckland, Neuseeland entwickelt, der Name ergab sich aus den Anfangsbuchstaben der beiden. Die Syntax orientiert sich an der Programmiersprache S und semantisch an der Sprache Scheme, die wiederrum ein Dialekt von LISP ist – die erste funktionale Programmiersprache (in den 60er-Jahren entwickelt). Das neue Projekt R wurde anfangs geheim gehalten und erst ab August 1993 öffentlich verbreitet. Seit 1995 steht es unter der GNU General Public License. Bis 1997 gab es lediglich eine Mailingliste mit 50-100 Entwicklern und Anwendern, die sich an der Weiterentwicklung der Sprache beteiligten. Wenig später, im Jahr 1997 wurde das R Development Core Team (heute: R Core Team) zusammengestellt, das Zugriff auf den Quellcode hat und die Weiterentwicklung vorantreibt. Das Comprehensive R Archive Network (CRAN) wurde am 23. April 1997 ins Leben gerufen und bietet die Plattform für den Austausch von neuen Funktionen über Pakete und für Nutzer eine wichtige Informationsquelle. Im Februar 2000 wurde die Version 1.0 (erste stabile Version) von R veröffentlicht, im Oktober 2004 folgte die Version 2.0 mit neuen Features wie Lazy Loading, was das schnellere Laden von Daten ermöglicht. Auch in den nachfolgenden Jahren wurde die Sprache kontinuierlich weiterentwickelt und neue Funktionen zugefügt, ein Fokus lag zunächst auf der Internationalisierung und Zeichenkodierungen, später auf der Verbesserung der Performance. 2013 erschien die Version 3.0.

Vor- und Nachteile von R

Als besondere Stärken sind der sehr große Funktionsumfang, die gute Automatisierbarkeit und Integrationsmöglichkeiten und schnelle Einbindung neuer statistischer Methoden zu sehen. Durch die große und rege Community – R steht weltweit kostenlos zur Verfügung – erhält man als Nutzer gute Hilfestellungen und muss sich um die Weiterentwicklung der Sprache keine Sorgen machen. Da R eine Programmierumgebung ist, können auch komplexe Problemstellungen gelöst werden, wenn die Entwickler die entsprechenden Lösungen noch nicht bereitgestellt haben. Auch werden die Visualisierungsmöglichkeiten in unterschiedlichsten Formaten sehr geschätzt.

Auf der anderen Seite kann die Einarbeitung in die Syntax von R eine Hürde darstellen, für Anfänger ist der Umgang mit R mindestens gewöhnungsbedürftig. Außerdem spricht man von einer steilen Lernkurve. Bei den Erweiterungs-Paketen gibt es unter Umständen Qualitätsdefizite, wenn diese weniger genutzt werden. Wenn mit besonders großen Datensätzen gearbeitet wird, wird unter Umständen auch sehr leistungsfähige Hardware benötigt.

R – Anwendung in Wirtschaft und Wissenschaft

Alles in allem erfreut sich R sowohl in der freien Wirtschaft als auch in der Wissenschaft größter Beliebtheit. Während R anfangs nur eine kostengünstige Alternative für kommerzielle Statistik-Tools war, hat es mittlerweile die Konkurrenz teilweise um Längen überholt. Mitbewerber reagieren darauf daher durch die Integration von R in deren eigene Software. Angehende Datenspezialisten kommen in der Regel kaum an R vorbei. Auswertungen von großen Jobportalen zeigen, dass Bewerber mit R-Kenntnissen für Jobs im Bereich Data Science und Data Analytics derzeit sehr gefragt sind. Das Rennen um die beliebteste Machine-Learning-Software ist derzeit eng zwischen R und Python.

Matthias Richter, DataAnalyst.eu
Letzte Artikel von Matthias Richter, DataAnalyst.eu (Alle anzeigen)
    « Back to Glossary Index