Courses
RStudio là công cụ bắt buộc phải biết đối với bất kỳ ai làm việc với ngôn ngữ lập trình R. Nó được dùng trong phân tích dữ liệu để nhập, truy cập, biến đổi, khám phá, vẽ và mô hình hóa dữ liệu, cũng như trong machine learning để dự đoán trên dữ liệu.
Nếu bạn mới bắt đầu học R, đây là lúc tìm hiểu RStudio là gì, cách cài đặt và bắt đầu sử dụng. Chính vì vậy, hướng dẫn RStudio này sẽ rất hữu ích. Cùng bắt đầu nhé.
TL;DR
- RStudio là IDE được dùng rộng rãi nhất cho R, hiện do Posit, PBC phát triển (trước đây là RStudio, Inc.)
- Cài R từ CRAN trước, rồi tải RStudio từ posit.co
- Giao diện có bốn khung chính: Trình soạn thảo Source, Console, Environment/History và Files/Plots/Packages/Help
- Viết mã tái sử dụng trong script R (File > New File > R Script) và chạy từng dòng với Ctrl/Cmd + Enter
- Dùng Console cho các lệnh nhanh, dùng script cho quy trình có thể tái lập và chia sẻ
- Các gói chính:
tidyverseđể xử lý dữ liệu,ggplot2để trực quan hóa,rmarkdownđể tạo báo cáo
RStudio là gì?
Trước khi bàn về RStudio là gì và tại sao nên dùng, hãy định nghĩa R trước.
R là ngôn ngữ lập trình phổ biến và phần mềm miễn phí, mã nguồn mở dùng trong phân tích dữ liệu và khoa học dữ liệu. R đặc biệt mạnh trong tính toán thống kê nâng cao và tạo các biểu đồ trực quan ấn tượng. R cung cấp hơn 21.000 gói dành cho khoa học dữ liệu, từ đa dụng đến chuyên biệt. Đây là công nghệ được cộng đồng trực tuyến năng động, hữu ích hỗ trợ tốt và tương thích với nhiều hệ điều hành.
Nếu bạn muốn tìm hiểu thêm về R và cách học, hãy xem các tài nguyên sau:
RStudio là một IDE (môi trường phát triển tích hợp) mã nguồn mở linh hoạt và đa chức năng, được dùng rộng rãi làm giao diện đồ họa cho R 4.0 trở lên. Nó cũng hỗ trợ các ngôn ngữ khác như Python và SQL.
Lưu ý: Tháng 10/2022, RStudio, Inc. đổi thương hiệu thành Posit, PBC. IDE vẫn giữ tên RStudio, nhưng công ty nay định vị là nền tảng khoa học dữ liệu đa ngôn ngữ, rộng hơn. Trang tải xuống đã chuyển sang posit.co.
RStudio cung cấp nhiều tính năng hữu ích:
- Giao diện thân thiện với người dùng
- Khả năng viết và lưu script có thể tái sử dụng
- Truy cập dễ dàng vào tất cả dữ liệu nhập và đối tượng đã tạo (như biến, hàm, v.v.)
- Trợ giúp đầy đủ về bất kỳ đối tượng nào
- Tự động hoàn thành mã
- Khả năng tạo dự án để tổ chức và chia sẻ công việc hiệu quả hơn với cộng tác viên
- Xem trước biểu đồ
- Chuyển đổi dễ dàng giữa terminal và console
- Theo dõi lịch sử thao tác
- Nhiều bài viết từ tài liệu Posit về cách dùng IDE
Cách cài đặt RStudio
Để cài và bắt đầu làm việc trong RStudio, trước hết chúng ta cần tải và cài đặt ngôn ngữ lập trình R. Để tải và cài R, hãy làm theo các bước dưới đây:
- Mở The Comprehensive R Archive Network (CRAN), trang web chính thức của R.
- Ở phần trên của màn hình, tìm mục Download and Install R.
- Nhấp vào liên kết tương ứng với hệ điều hành của bạn.
- Chọn bản phát hành mới nhất.
- Mở tệp đã tải và làm theo hướng dẫn cài đặt đơn giản, giữ nguyên tùy chọn mặc định ở mọi nơi.
Để tải và cài RStudio, hãy làm theo các bước sau:
- Mở trang tải xuống trên trang web chính thức của Posit.
- Bạn sẽ thấy hệ điều hành của mình được nhận diện tự động. Dưới mục "Install RStudio", chọn phiên bản hệ điều hành của bạn trong menu thả xuống.
- Nhấp DOWNLOAD RSTUDIO DESKTOP FOR [YOUR OS].
- Mở tệp đã tải và làm theo hướng dẫn cài đặt. Bạn có thể chọn mặc định ở mọi nơi.
Cách sử dụng RStudio
Sau khi cài đặt RStudio thành công, hãy mở nó, khám phá các phần chính và thử thực hiện nhiều thao tác khác nhau.
Giao diện RStudio
Mở RStudio sẽ tự động khởi chạy phần mềm R. Giao diện nền tảng như sau:

Đại thể, ta có thể chia cửa sổ làm việc thành ba khu vực:
- Khu vực bên trái: gồm các tab Console, Terminal và Background Jobs
- Khu vực trên bên phải: gồm các tab Environment, History, Connections và Tutorial
- Khu vực dưới bên phải: gồm các tab Files, Plots, Packages, Help, Viewer và Presentation
Lưu ý: Bố cục hiển thị dựa trên RStudio 2022.07.1+554. Tên và cách sắp xếp tab có thể hơi khác ở các phiên bản mới hơn.
Hãy xem kỹ hơn các tab thiết yếu.
Console
Ở tab này, đầu tiên ta thấy thông tin về phiên bản R đang dùng và một số lệnh cơ bản để thử. Cuối phần mô tả đó, ta có thể gõ mã R, nhấn Enter và nhận kết quả ngay dưới dòng lệnh (ví dụ, thử chạy 2*2 để xem kết quả). Về cơ bản, ta có thể làm ở đây mọi thứ vốn làm trong bất kỳ chương trình R nào khác, chẳng hạn:
- Cài đặt và tải các gói R
- Thực hiện các phép toán từ đơn giản đến phức tạp
- Gán kết quả của một phép toán cho biến
- Nhập dữ liệu
- Tạo các kiểu đối tượng R phổ biến như vector, ma trận hoặc dataframe
- Khám phá dữ liệu
- Phân tích thống kê
- Xây dựng trực quan hóa dữ liệu
Tuy nhiên, khi chạy mã trực tiếp trong console, mã sẽ không được lưu để tái hiện sau này. Nếu cần (và thường là cần) viết mã có thể tái lập để giải quyết một nhiệm vụ cụ thể, ta phải ghi và thường xuyên lưu mã trong tệp script thay vì trong console.
Chúng ta sẽ sớm khám phá cách viết script. Trước mắt, hãy ghi nhớ rằng bạn nên dùng console chủ yếu để thử mã và cài đặt gói R, vì gói chỉ cần cài một lần.
Environment
Mỗi khi chúng ta định nghĩa biến mới hoặc gán lại biến hiện có trong RStudio, nó được lưu thành một đối tượng trong workspace và hiển thị kèm giá trị trên tab Environment ở góc trên bên phải cửa sổ RStudio. Hãy thử chạy greeting <- "Hello, World!" trong console và xem điều gì xảy ra trên tab Environment.
Điều này cũng áp dụng cho các đối tượng phức tạp hơn như dataframe. Khi nhập dữ liệu thành dataframe (hoặc tạo dataframe từ đầu), ta thấy trong workspace không chỉ tên đối tượng mới mà còn cả giá trị và kiểu dữ liệu của từng cột. Hơn nữa, ta có thể hiển thị thêm các chi tiết như độ dài và kích thước bộ nhớ của mỗi đối tượng.
Trong ví dụ dưới đây, chúng ta tạo hai biến trong console: greeting <- "Hello, World!" và my_vector <- c(1, 2, 3, 4). Lưu ý cách chúng hiển thị trên tab Environment:

Ta có thể thay đổi cách hiển thị biến từ List sang Grid ở góc trên bên phải của tab, như sau:

Lưu ý rằng giờ ta cũng thấy độ dài và kích thước của mỗi đối tượng.
Ở chế độ hiển thị Grid, có hộp chọn xuất hiện bên trái mỗi biến. Ta có thể đánh dấu bất kỳ hộp nào và nhấp biểu tượng Broom để xóa các đối tượng tương ứng khỏi workspace:

Nếu ta đánh dấu hộp bên trái cột Name và nhấp biểu tượng Broom, hoặc chỉ cần nhấp biểu tượng này ở chế độ hiển thị trước đó (List), ta sẽ dọn sạch workspace bằng cách xóa tất cả biến khỏi đó.
Các tab quan trọng khác
- Terminal – để chạy lệnh từ terminal
- History – để theo dõi lịch sử mọi thao tác thực hiện trong phiên RStudio hiện tại
- Files – để xem cấu trúc thư mục làm việc, đặt lại thư mục làm việc, di chuyển giữa các thư mục, v.v.
- Plots – để xem trước và xuất các trực quan hóa dữ liệu đã tạo
- Packages – để kiểm tra các gói đã tải và tải/bỏ tải gói (bằng cách bật/tắt hộp bên trái tên gói)
Cách viết script R trong RStudio
Như đã đề cập, nếu muốn có thể tái hiện và tái sử dụng mã cho các nhu cầu tiếp theo, ta nên viết trong tệp script thay vì trực tiếp trong console.
Để bắt đầu ghi script, nhấp File – New File – R Script. Một trình soạn thảo văn bản sẽ mở ở góc trên bên trái giao diện RStudio (phía trên tab Console):

Trong script, ta có thể làm mọi thứ đã liệt kê ở phần console (và thực ra có thể làm như vậy trong bất kỳ IDE R nào), chỉ khác là giờ các thao tác sẽ được lưu trong tệp để dùng tiếp hoặc chia sẻ. Điều quan trọng là đặt tên có ý nghĩa cho tệp script và lưu thường xuyên (Ctrl + S trên Windows/Linux, Cmd + S trên Mac, File – Save trên mọi hệ điều hành).
Để chạy một dòng mã từ script, đặt con trỏ vào dòng đó và nhấp biểu tượng Run ở góc trên bên phải trình soạn thảo. Hoặc dùng phím tắt (Ctrl + Enter trên Windows/Linux, Cmd + Enter trên Mac). Để chạy nhiều dòng mã, thực hiện tương tự sau khi chọn các dòng cần thiết. Để chạy tất cả các dòng, chọn toàn bộ và nhấp biểu tượng Run HOẶC dùng phím tắt (Ctrl + A + Enter trên Windows/Linux, Cmd + A + Enter trên Mac).
Khi viết script, nên thêm chú thích mã khi cần (dùng ký hiệu thăng # theo sau là dòng chú thích) để giải thích cho người đọc sau này lý do đằng sau một số đoạn mã.
Bên cạnh đó, nên thêm bối cảnh quan trọng ở đầu script: tác giả và người đóng góp, thời điểm viết, thời điểm cập nhật, phạm vi mã, v.v. Một thực hành hữu ích khác là tải tất cả gói R cần thiết ở đầu script, ngay sau phần thông tin mở đầu.
Để tạo báo cáo có thể tái lập, sẵn sàng xuất bản, kết hợp mã và diễn giải, R Markdown là công cụ hàng đầu—và hoạt động trực tiếp trong RStudio. Học các kiến thức cơ bản trong hướng dẫn R Markdown cho người mới bắt đầu. Để so sánh với Jupyter Notebooks, xem Jupyter và R Markdown: Notebooks với R.
Cách thực hiện các thao tác khác nhau trong RStudio
Tiếp theo, chúng ta sẽ bàn về các thao tác có thể thực hiện trong RStudio cho mục đích phân tích dữ liệu. Về bản chất, mọi thao tác sau đây không gắn chặt với RStudio mà là cách dùng R nói chung, trong bất kỳ IDE nào.
Do đó, chúng ta sẽ không đi sâu vào mọi chi tiết kỹ thuật. Thay vào đó, ta sẽ xem vài tác vụ phổ biến, cách triển khai thực tế trong R (ví dụ mã) và các cách tiếp cận thay thế (nếu có) cho những tác vụ đó trong RStudio.
Hãy sao chép-dán các ví dụ dưới đây vào console của RStudio và quan sát kết quả. Cân nhắc thử cả cách chung lẫn cách thay thế (đặc thù RStudio).
Cài đặt gói R
Cú pháp:
install.packages("package_name")Ví dụ:
install.packages("tidyverse")Trong RStudio:
- Hãy nhớ cài tất cả gói trong console thay vì trong script vì chúng chỉ cần được cài trên ổ cứng máy tính một lần.
- Bạn có thể cài gói trực tiếp từ giao diện RStudio: mở tab Packages (khu vực dưới bên trái), nhấp Install và chọn các gói cần từ CRAN, phân tách bằng khoảng trắng hoặc dấu phẩy, như sau:

Tải gói R
Cú pháp:
library(package_name)Ví dụ:
library(tidyverse)Tidyverse là bộ sưu tập gói R phổ biến cho khoa học dữ liệu—bao gồm dplyr để thao tác dữ liệu và ggplot2 để trực quan hóa. Tìm hiểu thêm trong hướng dẫn Tidyverse.
Lưu ý rằng khi cài gói, ta dùng dấu ngoặc kép, nhưng khi tải gói thì không.
Trong RStudio:
- Tải tất cả gói cần thiết trong tệp script thay vì trong console.
- Việc tải/bỏ tải gói đã cài hoặc gói hệ thống có thể thực hiện bằng cách tìm và bật/tắt các gói đó trên tab Packages. Lưu ý một số gói không thể bỏ tải nếu được nhập bởi gói khác.
Kiểm tra các gói R đã tải
Chạy trong console (.packages()) hoặc search() để lấy danh sách tất cả gói đang tải.
Trong RStudio: mở tab Packages, tìm gói cụ thể và kiểm tra xem hộp bên trái tên gói có được đánh dấu không.
Tra cứu trợ giúp về gói R hoặc bất kỳ đối tượng R dựng sẵn nào
Để nhận trợ giúp về gói đã cài và đã tải, hoặc hàm của một gói đã cài và đã tải, hoặc bất kỳ đối tượng R dựng sẵn nào (như bộ dữ liệu preload), dùng một trong các cú pháp sau:
help(package_or_function_name)hoặc
help("package_or_function_name")hoặc
?package_or_function_nameLưu ý: ta cần truyền tên hàm vào hàm help không kèm dấu ngoặc tròn.
Tab Help sẽ mở với tài liệu của gói hoặc đối tượng. Nếu ta kiểm tra một gói, ta sẽ nhận danh sách toàn bộ hàm của gói và liên kết đến tài liệu cho từng hàm.
Ví dụ, chạy những lệnh sau trong console (sau khi đảm bảo các gói readr và dplyr đã được cài và tải):
help("read.csv")
?readr
help(help)
help('CO2')Trong RStudio: tìm và nhấp tên gói mong muốn (kể cả khi chưa được tải) trên tab Packages và xem kết quả trên tab Help.
Nhập dữ liệu
world_population <- read.csv("world_population.csv")(Để chạy đoạn mã trên, trước tiên hãy tải World Population Dataset công khai từ Kaggle và giải nén vào cùng thư mục nơi bạn lưu script R.)
Kết quả của việc chạy đoạn mã trên sẽ là một dataframe R trong thư mục làm việc của bạn.
Trong RStudio:
- File – Import Dataset
HOẶC
- Nhấp Import Dataset trên tab Environment:

Sau đó chọn From Text (base)..., điều hướng đến thư mục phù hợp, chọn tệp cần nhập, điền hoặc kiểm tra các trường Name, Heading, Separator và Decimal trong cửa sổ bật lên, xem trước cấu trúc dữ liệu, rồi nhấp Import:

Bạn có thể tìm và khám phá bộ dữ liệu đã nhập trên tab Environment và trong bảng tính mở ở tab mới:

Nếu bạn muốn tìm hiểu thêm cách nhập dữ liệu với R, hãy khám phá lộ trình kỹ năng toàn diện của DataCamp Importing & Cleaning Data with R. Bạn có thể tìm nhiều bộ dữ liệu để nhập và làm việc trên DataLab, sổ tay dữ liệu hỗ trợ AI của DataCamp và là lựa chọn thay thế cho RStudio.
Truy cập các bộ dữ liệu dựng sẵn của R
Để xem danh sách đầy đủ các bộ dữ liệu mẫu được nạp sẵn trong R, gồm tên và mô tả ngắn, chạy đoạn mã sau trong console:
data()Bạn có thể lấy bất kỳ tên nào xuất hiện và dùng mỗi tên đó như một biến (chứa dataframe) để làm việc và luyện kỹ năng R.
Nếu cần thêm thông tin về một bộ dữ liệu preload đã chọn, chạy hàm help() trên nó, ví dụ help(CO2).
Xử lý và phân tích dữ liệu trong RStudio
Giống như trong bất kỳ IDE R nào khác, trong RStudio, ta có thể truy cập, thao tác, biến đổi, phân tích và mô hình hóa dữ liệu trong R. Dưới đây là một số ví dụ thao tác chuẩn trên bộ dữ liệu dựng sẵn CO2:
head(CO2)
tail(CO2)
colnames(CO2)
dim(CO2)
str(CO2)
summary(CO2)
summary(CO2$uptake)
median(CO2$uptake)
class(CO2$uptake)
unique(CO2$Treatment)
subset(CO2, conc == min(CO2$conc))Hãy thử chạy lần lượt trong RStudio và quan sát đầu ra.
Vẽ biểu đồ dữ liệu trong RStudio
Giống như trong bất kỳ IDE R nào khác, trong RStudio, ta có thể vẽ dữ liệu. Dưới đây là vài ví dụ tạo biểu đồ đơn giản cho bộ dữ liệu dựng sẵn CO2 và Orange. Ở cả hai trường hợp, biểu đồ kết quả xuất hiện trên tab Plots và có thể xuất bằng nút Export của tab đó:
- Tạo biểu đồ histogram:
hist(CO2$uptake)
Tạo biểu đồ scatter:
plot(Orange$age, Orange$circumference)
Ta có thể tinh chỉnh vài tham số của hàm cơ bản plot() để thêm tính thẩm mỹ cho biểu đồ cuối cùng:
plot(Orange$age, Orange$circumference,
xlab="Age", ylab="Circumference",
main="Circumference vs. Age",
col="blue", pch=16)
Hoặc ta có thể dùng ggplot2 hay bất kỳ gói trực quan hóa chuyên dụng nào khác—R cung cấp vô số lựa chọn. Để đào sâu, xem hướng dẫn ggplot2 hoặc lộ trình kỹ năng Data Visualization with R của DataCamp.
Tạo dữ liệu từ đầu trong R
Một lần nữa, trong trường hợp này, RStudio không khác các IDE R khác.
Để tạo một vector:
oceans <- c("Arctic", "Atlantic", "Indian", "Pacific", "Southern")
avg_depth <- c(1.2, 3.65, 3.74, 3.97, 3.27)(Dữ liệu trên lấy từ Wikipedia.)
Để tạo một dataframe:
oceans_depth <- data.frame(oceans, avg_depth)In kết quả:
print(oceans_depth)Các vector và dataframe thu được cũng xuất hiện trên tab Environment của RStudio:

Kết luận
Trong hướng dẫn này, chúng ta đã khám phá nhiều khía cạnh thiết yếu khi dùng RStudio:
- RStudio là gì và có những lợi thế nào
- Cách cài đặt RStudio
- Giao diện RStudio trông ra sao và cách dùng các phần chính
- Sự khác nhau giữa chạy mã trong console và trong script
- Nơi tìm tất cả đối tượng dùng trong phiên RStudio hiện tại
- Thực hành tốt nhất khi viết script
- Cách thực hiện các thao tác trong RStudio như cài và tải gói R, nhập dữ liệu, xử lý, phân tích và trực quan hóa dữ liệu, tạo đối tượng R từ đầu, v.v.
Giờ bạn đã quen thuộc với RStudio, hãy bắt đầu sử dụng nó. Chẳng hạn, nghĩ về việc xây dựng các dự án R của riêng bạn trong RStudio. Để có thêm cảm hứng, xem bài viết Top ý tưởng dự án R.
Nếu bạn cảm thấy cần luyện R thêm trước khi bắt đầu tạo dự án trong RStudio, hãy cân nhắc các khóa học và lộ trình R cho người mới bắt đầu trên DataCamp:
Nhà khoa học dữ liệu được chứng nhận bởi IBM (2020), trước đây là Nhà địa chất/Người xây dựng mô hình địa chất cho các mỏ dầu khí trên toàn thế giới với hơn 12 năm kinh nghiệm làm việc quốc tế. Thành thạo Python, R và SQL. Lĩnh vực chuyên môn: làm sạch dữ liệu, xử lý dữ liệu, trực quan hóa dữ liệu, phân tích dữ liệu, mô hình hóa dữ liệu, thống kê, kể chuyện bằng dữ liệu, học máy. Có nhiều kinh nghiệm trong quản lý cộng đồng khoa học dữ liệu và viết/biên tập bài viết, hướng dẫn về khoa học dữ liệu và định hướng nghề nghiệp.
FAQs
Làm thế nào để tải và cài đặt RStudio IDE?
Để tải RStudio IDE:
-
Cài R trước – Truy cập CRAN và tải phiên bản R phù hợp với hệ điều hành của bạn (Windows, macOS hoặc Linux).
-
Tải RStudio – Truy cập trang tải RStudio và chọn bản RStudio Desktop miễn phí.
-
Chạy trình cài đặt – Sau khi tải, mở tệp cài đặt và làm theo hướng dẫn thiết lập.
-
Khởi chạy RStudio – Khi cài xong, bạn có thể mở RStudio như các ứng dụng khác.
Điều cần lưu ý: RStudio yêu cầu cài R trước, vì nó hoạt động như giao diện làm việc với R.
Tôi nên làm gì sau khi cài RStudio lần đầu?
Sau khi cài RStudio, tôi khuyến nghị các bước sau:
- Mở ứng dụng – Khởi chạy RStudio và kiểm tra xem console có nạp R đúng không.
- Làm quen với giao diện – Bạn sẽ thấy bốn bảng chính: Source, Console, Environment/History và Files/Plots/Packages/Help.
- Thử script đầu tiên – Tạo tệp R Script mới (File > New File > R Script) và gõ một dòng đơn giản như
print("Hello, RStudio!"). - Cài đặt gói – Dùng
install.packages("ggplot2")hoặc vào tab Packages để duyệt và cài gói. - Khám phá tab Help – RStudio có tài liệu tích hợp bạn có thể truy cập qua tab Help hoặc gõ
?function_nametrong console.
Sự khác nhau giữa R và RStudio là gì?
R là chính ngôn ngữ lập trình—động cơ thống kê thực thi mã của bạn. RStudio là một IDE (môi trường phát triển tích hợp) cung cấp giao diện thân thiện để viết, chạy và gỡ lỗi mã R. Hãy hình dung R là động cơ còn RStudio là bảng điều khiển.
Bạn phải cài R trước khi RStudio hoạt động, vì RStudio là giao diện đồ họa gọi R ở phía nền.
RStudio có miễn phí không?
Có. RStudio Desktop hoàn toàn miễn phí và mã nguồn mở theo giấy phép AGPL. Cũng có bản thương mại trả phí—RStudio Workbench—dành cho đội ngũ doanh nghiệp cần quản trị máy chủ tập trung. Với hầu hết người học và nhà khoa học dữ liệu cá nhân, bản Desktop miễn phí là đủ cho mọi nhu cầu.
RStudio đã xảy ra chuyện gì? Có phải giờ gọi là Posit?
Vào tháng 10/2022, RStudio, Inc. đổi thương hiệu thành Posit, PBC. Tên công ty thay đổi để phản ánh sứ mệnh rộng hơn là hỗ trợ khoa học dữ liệu nguồn mở trên nhiều ngôn ngữ, không chỉ R. Tuy nhiên, IDE vẫn giữ tên RStudio. Hiện bạn tải nó từ posit.co thay vì địa chỉ rstudio.com cũ.
