Εισαγωγή σε R και RStudio

Η ιστορία της R

Πριν εγκαταστήσουμε και χρησιμοποιήσουμε την R, ας μιλήσουμε λίγο για την ίδια την R. Σε αντίθεση με άλλες γλώσσες προγραμματισμού, όπως οι C και Java, η R δημιουργήθηκε από στατιστικολόγους. Συγκεκριμένα, η R δημιουργήθηκε από τους Ross Ihaka και Robert Gentleman ως μια δωρεάν και ανοιχτού κώδικα γλώσσα για στατιστικούς υπολογισμούς και ανάλυση δεδομένων (Ihaka & Gentleman, 1996; R Core Team, 2026), καθιστώντας την προσβάσιμη σε ένα ευρύτερο κοινό ερευνητών, στατιστικολόγων και αναλυτών δεδομένων. Αποτελεί μια επανα-υλοποίηση της γλώσσας προγραμματισμού S με κάποιες τροποποιήσεις και βελτιώσεις. Ως εκ τούτου, η κύρια εστίαση της R είναι η στατιστική ανάλυση και η οπτικοποίηση δεδομένων, καθιστώντας το εξαιρετική επιλογή τόσο για αναλυτές δεδομένων όσο και για στατιστικολόγους.

Γιατί R

Η R είναι μια από τις καλύτερες επιλογές για επιστήμονες των δεδομένων (data scientists) και αναλυτές δεδομένων (data analysts), διότι είναι δωρεάν, αποδοτική, εξειδικευμένη στη στατιστική ανάλυση και στη μηχανική μάθηση, και μπορεί να τρέξει στις περισσότερες πλατφόρμες (Windows, Mac, κ.ά.). Επιπλέον, η ενεργή και μεγάλη κοινότητα γύρω από την R προσφέρει άφθονους πόρους για μάθηση και υποστήριξη. Επιπρόσθετα, είναι εύκολο για τους προγραμματιστές να μοιράζονται πρόσθετα εργαλεία, παρέχοντας στους χρήστες της R πρώιμη πρόσβαση στα πιο σύγχρονα εργαλεία και μεθόδους στην επιστήμη δεδομένων από διάφορους τομείς. Τέλος, η R διευκολύνει τους προγραμματιστές να μοιράζονται τον κώδικά τους, που συχνά αναφέρεται ως script. Ένα script λειτουργεί ως πλήρες αρχείο καταγραφής της ανάλυσης που έχουμε εκτελέσει, παρέχοντας μια κρίσιμη δυνατότητα για αναπαραγωγιμότητα στη δουλειά και στην έρευνα.

Εγκατάσταση της R

Τώρα που έχουμε μια πρώτη εικόνα για το τι είναι η R, ας δούμε πώς μπορούμε να αρχίσουμε να το χρησιμοποιούμε. Αρχικά, πρέπει να εγκαταστήσουμε την R στον υπολογιστή μας, μια διαδικασία πολύ εύκολη και σύντομη. Αυτό γίνεται πατώντας τον παρακάτω σύνδεσμο και βρίσκοντας την τελευταία έκδοση στην επίσημη ιστοσελίδα. Κατά τη διάρκεια της εγκατάστασης, συνιστάται να επιλέγουμε απλώς τις προεπιλεγμένες επιλογές: https://cran.r-project.org/bin/windows/base/.

Μετά την ολοκλήρωση της εγκατάστασης, μπορούμε να χρησιμοποιήσουμε την R αμέσως. Όταν ανοίγουμε την R, βλέπουμε την κονσόλα της, που μοιάζει ως εξής:

Σχήμα 1.1: Η κονσόλα της R.

Στην κονσόλα, πληκτρολογούμε εντολές και πατάμε Enter για να τις εκτελέσουμε. Για παράδειγμα, μπορούμε να πληκτρολογήσουμε 2+2 ή 3 + 1 (οι κενές θέσεις μεταξύ των χαρακτήρων δεν επηρεάζουν το αποτέλεσμα) και να πατήσουμε Enter, για να δούμε ότι το τελικό αποτέλεσμα και στις δύο περιπτώσεις είναι 4:

Σχήμα 1.2: Παραδείγματα υπολογισμών στην κονσόλα της R.

Κάθε φορά που πατάμε Enter, η γραμμή με τον αντίστοιχο κώδικα εκτελείται. Φυσικά, θα χρησιμοποιήσουμε την R για πολύ πιο σύνθετες εργασίες από ότι για έναν απλό υπολογισμό. Αν και μπορούμε να ξεκινήσουμε με την κονσόλα της R, είναι πολύ πιο βολικό να δουλεύουμε με το RStudio.

Εγκατάσταση του RStudio

Το RStudio είναι ένα ολοκληρωμένο περιβάλλον ανάπτυξης (IDE), που παρέχει μια φιλική προς τον χρήστη διεπαφή και εργαλεία για τη διευκόλυνση της συγγραφής κώδικα, της ανάλυσης δεδομένων και της οπτικοποίησης. Με πιο απλά λόγια, το RStudio είναι ένα εργαλείο που μας βοηθά να χρησιμοποιούμε την R με πολύ πιο βολικό και ευέλικτο τρόπο. Για να κατανοήσουμε πραγματικά τη διαφορά μεταξύ R και RStudio, μπορούμε να φανταστούμε ότι η R είναι σαν τον κινητήρα ενός αυτοκινήτου και το RStudio σαν το πιλοτήριο του οδηγού, με έναν φιλικό πίνακα εργαλείων και χειριστήρια που διευκολύνουν τη χρήση και αξιοποίηση του κινητήρα. Χωρίς κινητήρα, βέβαια, το πιλοτήριο δεν θα είχε καμία χρησιμότητα.

Μπορούμε να εγκαταστήσουμε το RStudio πατώντας τον παρακάτω σύνδεσμο και ακολουθώντας τις οδηγίες (συνιστάται ξανά να επιλέγουμε τις προεπιλεγμένες επιλογές): https://posit.co/download/rstudio-desktop/

Όταν ανοίγουμε το RStudio για πρώτη φορά, βλέπουμε την παρακάτω διάταξη (3 παράθυρα):

Σχήμα 1.3: Περιβάλλον εργασίας του RStudio.

Το αριστερό παράθυρο δείχνει την κονσόλα της R, που είναι η ίδια με αυτή που είδαμε ανοίγοντας την R. Στο πάνω δεξί παράθυρο έχουμε μερικές καρτέλες, όπως Environment και History, ενώ στο κάτω δεξί παράθυρο έχουμε άλλες καρτέλες, όπως Plots και Help. Θα μπορούσαμε να εξηγήσουμε τι εμφανίζει κάθε καρτέλα, αλλά είναι πολύ πιο εύκολο να το κατανοήσουμε στην πράξη καθώς προχωράμε. Για παράδειγμα, στο Κεφάλαιο Οπτικοποίηση Δεδομένων με ggplot2 θα δούμε ότι μπορούμε να ελέγχουμε τις οπτικοποιήσεις που δημιουργήσαμε στο κάτω δεξί παράθυρο στην καρτέλα Plots.

Για να ξεκινήσουμε ένα νέο script, πατάμε File -> New File -> R ScriptCtrl+Shift+N στο πληκτρολόγιο). Τώρα, το RStudio θα πρέπει να φαίνεται ως εξής:

Σχήμα 1.4: Διεπαφή του RStudio με ένα script.

Μπορούμε να πληκτρολογούμε στο πάνω αριστερό παράθυρο, που ονομάζεται Code Editor. Αν και μπορούμε να πληκτρολογούμε απευθείας εντολές στην κονσόλα της R (κάτω αριστερό παράθυρο), το Code Editor μας δίνει μεγαλύτερη ευελιξία, αφού μπορούμε εύκολα να τροποποιούμε τον κώδικά μας ή να εκτελούμε ξανά τον ίδιο κώδικα. Για να κατανοήσουμε τη διαφορά, ας δοκιμάσουμε τον ίδιο υπολογισμό όπως πριν. Πληκτρολογώντας 2+2 στο παράθυρο του Code Editor, επιλέγουμε τη γραμμή του κώδικα και πατάμε Run. Η κονσόλα εμφανίζει τον κώδικα μαζί με τα αποτελέσματα:

Σχήμα 1.5: Πληκτρολόγηση στο Code Editor του RStudio.

R Scripts

Νωρίτερα σε αυτό το κεφάλαιο, αναφέραμε ότι είναι δυνατόν να αποθηκεύσουμε και να μοιραστούμε τον κώδικά μας στην R ή, όπως είναι κοινώς γνωστό, R script. Αυτό γίνεται αποθηκεύοντας τα scripts και επεξεργαζόμενοι τα, ακόμη και μοιράζοντάς τα με άλλους. Για παράδειγμα, υποθέτουμε ότι θέλουμε να αποθηκεύσουμε τον τρέχοντα κώδικα στο laptop μας τοπικά. Για να το κάνουμε αυτό στο RStudio, πατάμε File -> Save As. Στη συνέχεια επιλέγουμε ένα όνομα και μια τοποθεσία για το script:

Σχήμα 1.6: Αποθήκευση ενός R script.

Τώρα έχουμε αποθηκεύσει το script μας (στην επιλεγμένη τοποθεσία). Σε περίπτωση που θέλουμε να επεξεργαστούμε ή να ενημερώσουμε τον κώδικά μας, απλώς πατάμε File -> Save. Είναι σημαντικό να θυμόμαστε ότι το RStudio αντικαθιστά το προηγούμενα αποθηκευμένο αρχείο με το νέο.

Παγκόσμιες Ρυθμίσεις (Global Options)

Στο RStudio μπορούμε να αλλάξουμε την εμφάνιση και τις ρυθμίσεις διαμόρφωσης. Για να δούμε τις διαθέσιμες επιλογές, πατάμε Tools -> Global Options. Κάνοντας κλικ στην επιλογή Appearance, για παράδειγμα, μπορούμε να επιλέξουμε ένα σκοτεινότερο θέμα για τον editor (αυτό είναι θέμα προσωπικής προτίμησης):

Σχήμα 1.7: Αλλαγή εμφάνισης.

Ωστόσο, υπάρχει μια αλλαγή στις Global Options που συνιστάται ιδιαίτερα. Στην επιλογή General, πρέπει να κάνουμε τις εξής αλλαγές:

  • Ορίζουμε το Save workspace to .RData on exit σε Never

  • Απενεργοποιούμε την επιλογή Restore .RData into workspace at startup

Σχήμα 1.8: Αλλαγή επιλογών αποθήκευσης.

Αυτή η αλλαγή έχει νόημα, επειδή, από προεπιλογή, η R αποθηκεύει όλα τα αντικείμενα που δημιουργούμε. Αν κρατήσουμε ενεργές αυτές τις επιλογές, το R θα εξάγει αυτό το ιστορικό σε ένα αρχείο που ονομάζεται .RData. Αν και δεν φαίνεται άμεσα, αυτό μπορεί να προκαλέσει σύγχυση, καθώς δεν υπάρχει λόγος να αποθηκεύουμε τα αντικείμενα για την επόμενη R συνεδρία μας—αν χρειαστούν, θα φορτωθούν (ή δημιουργηθούν) τη στιγμή που τα χρειαζόμαστε. Συνήθως ενδιαφερόμαστε μόνο για την αποθήκευση των scripts και έχουμε ήδη συζητήσει πώς να τα σώζουμε και να τα ανακτούμε.

Πακέτα R (R Packages)

Όταν εγκαθιστούμε το R και το RStudio, μπορούμε να ξεκινήσουμε να το χρησιμοποιούμε αμέσως. Υπάρχουν πολλές συναρτήσεις διαθέσιμες, όπως η ifelse(). Για παράδειγμα, πληκτρολογώντας τον παρακάτω κώδικα, θα πάρουμε τα αντίστοιχα αποτελέσματα:

Σχήμα 1.9: Χρήση της συνάρτησης ifelse().

Θα εξηγήσουμε τη συνάρτηση ifelse() σε επόμενα κεφάλαια, δεν χρειάζεται να εμβαθύνουμε τώρα. Αυτό ήταν απλώς ένα παράδειγμα για να κατανοήσουμε τη χρήση της R.

Η βασική λειτουργικότητα που περιλαμβάνεται με την εγκατάσταση της R ονομάζεται συνήθως base R. Όπως αναφέραμε, η R είναι δωρεάν και ανοιχτού κώδικα, που σημαίνει ότι πολλοί προγραμματιστές έχουν δημιουργήσει τις δικές τους συνεισφορές, ή πακέτα (packages) (και μπορούμε να δημιουργήσουμε τα δικά μας!). Στην R, τα πακέτα είναι συλλογές εξειδικευμένων εργαλείων και συναρτήσεων που επεκτείνουν τις δυνατότητές του, επιτρέποντας στον ερευνητή ή αναλυτή να εκτελεί πλήθος εργασιών, από ανάλυση και οπτικοποίηση δεδομένων έως εξειδικευμένες στατιστικές τεχνικές, μηχανική μάθηση και πολλά άλλα.

Κατά την εγκατάσταση της R, το πακέτο stats εγκαθίσταται αυτόματα. Ωστόσο, ένα από τα πακέτα που θα χρησιμοποιήσουμε σε όλο το βιβλίο είναι το dplyr. Για να εγκαταστήσουμε ένα πακέτο, χρησιμοποιούμε τη συνάρτηση install.packages() και γράφουμε το όνομα του πακέτου μέσα σε μονά ('') ή διπλά ("") εισαγωγικά:

Σχήμα 1.10: Εγκατάσταση του πακέτου dplyr.
# Εγκατάσταση του πακέτου dplyr
install.packages("dplyr")

Αφού πατήσουμε Run, η κονσόλα δείχνει ότι το πακέτο έχει εγκατασταθεί επιτυχώς. Ωστόσο, δεν μπορούμε να το χρησιμοποιήσουμε άμεσα. Η εγκατάσταση σημαίνει ότι το πακέτο υπάρχει στον υπολογιστή μας ως αρχείο ή σύνολο αρχείων, αλλά δεν το έχουμε “καλέσει” για χρήση στο script μας. Για να χρησιμοποιήσουμε ένα εγκατεστημένο πακέτο στη τρέχουσα συνεδρία, χρησιμοποιούμε τη συνάρτηση library(), βάζοντας το όνομα του πακέτου μέσα στις παρενθέσεις (δεν είναι απαραίτητο να χρησιμοποιήσουμε εισαγωγικά σε αυτή την περίπτωση):

# Φόρτωση του πακέτου dplyr
library(dplyr)

Σχετικά με αυτό το συγκεκριμένο πακέτο, θα δούμε σε επόμενα κεφάλαια τι ακριβώς μπορεί να κάνει και γιατί το χρειαζόμαστε. Προς το παρόν, αρκεί να κατανοήσουμε τι είναι ένα πακέτο, γιατί χρειάζεται, πώς το εγκαθιστούμε και πώς το καλούμε για χρήση στα scripts μας.

Μπορούμε να δούμε όλα τα πακέτα που έχουν εγκατασταθεί στον υπολογιστή μας με την εξής συνάρτηση:

# Εμφάνιση όλων των εγκατεστημένων πακέτων
installed.packages()

Τέλος, χρησιμοποιώντας τις παραπάνω συναρτήσεις, παρατηρούμε ένα ακόμα πολύ χρήσιμο χαρακτηριστικό του RStudio: όταν πληκτρολογούμε τα πρώτα γράμματα μιας συνάρτησης, όπως insta, το RStudio αυτόματα μας δίνει πιθανές επιλογές που μπορούμε να επιλέξουμε με το ποντίκι ή τα βελάκια του πληκτρολογίου:

Σχήμα 1.11: Χρήση της λειτουργίας αυτόματης συμπλήρωσης του RStudio.

Με αυτόν τον τρόπο, ακόμα κι αν δεν θυμόμαστε πλήρως το όνομα μιας συνάρτησης, μπορούμε να επωφεληθούμε από αυτήν την πολύ χρήσιμη δυνατότητα του RStudio.