Lewati ke konten utama

Regresi OLS: Gagasan Utama Dijelaskan

Bangun kepercayaan diri dalam regresi OLS dengan menguasai landasan teorinya. Pelajari cara melakukan implementasi sederhana di Excel, R, dan Python.
Diperbarui 5 Jun 2026  · 8 mnt baca

Regresi OLS (ordinary least squares) sangat layak dipelajari karena merupakan bagian besar dari statistik dan machine learning. Metode ini digunakan untuk memprediksi keluaran atau menganalisis hubungan antar variabel, dan penerapannya mencakup segala hal mulai dari uji hipotesis hingga peramalan.

Dalam artikel ini, saya akan membantu Anda memahami dasar-dasar regresi OLS, aplikasinya, asumsi-asumsinya, dan cara mengimplementasikannya di Excel, R, dan Python. Materinya cukup banyak, jadi setelah selesai, ambil kursus regresi kami seperti Introduction to Regression in Python dan Introduction to Regression in R, serta baca tutorial kami, seperti Linear Regression in Excel.

Apa itu Regresi OLS?

Regresi OLS mengestimasi hubungan antara satu atau lebih variabel independen (prediktor) dan variabel dependen (respon). Hal ini dilakukan dengan menyesuaikan persamaan linear terhadap data yang diamati. Berikut bentuk persamaannya: 

Persamaan regresi OLS

Berikut penjelasannya:

  • y adalah variabel dependen.
  • x1, x2,… adalah variabel independen.
  • β0​ adalah intersep.
  • β1, β2, …,​ adalah koefisien.
  • ϵ merepresentasikan suku galat.

Pada persamaan di atas, saya menampilkan beberapa suku β seperti β1 dan β2. Namun untuk memperjelas, persamaan regresi bisa saja hanya memiliki satu suku β selain β0, yang dalam hal ini kita sebut regresi linear sederhana. Dengan dua atau lebih prediktor, seperti β1 dan β2, kita menyebutnya regresi linear berganda. Keduanya termasuk regresi OLS jika menggunakan estimator ordinary least squares. 

Apa itu masalah minimisasi OLS?

Inti dari regresi OLS adalah tantangan optimasi: menemukan garis (atau hiperbidang pada dimensi lebih tinggi) yang paling sesuai dengan data. Namun apa arti "paling sesuai"? Di sini, "paling sesuai" berarti meminimalkan jumlah kuadrat residual.

Izinkan saya menjelaskan masalah minimisasi sambil memaparkan gagasan tentang residual. 

  • Penjelasan Residual: Residual adalah selisih antara nilai aktual yang diamati dan nilai yang diprediksi oleh model regresi. Untuk setiap titik data, residual menunjukkan seberapa jauh prediksi kita meleset.
  • Mengapa Residual Dikuadratkan? Dengan mengkuadratkan setiap residual, kita memastikan perbedaan positif dan negatif tidak saling meniadakan. Pengkuadratan juga memberi bobot lebih besar pada kesalahan yang lebih besar, sehingga model memprioritaskan pengurangan kesalahan besar.

Dengan meminimalkan jumlah kuadrat residual, garis regresi menjadi representasi yang akurat dari hubungan antara variabel independen dan dependen. Faktanya, dengan meminimalkan jumlah kuadrat residual, model kita memiliki galat keseluruhan sekecil mungkin dalam prediksinya. Untuk mempelajari lebih lanjut tentang residual dan dekomposisi regresi, baca tutorial kami, Understanding Sum of Squares: A Guide to SST, SSR, and SSE.

Apa itu estimator ordinary least squares? 

Dalam konteks regresi, estimator digunakan untuk menghitung koefisien yang menggambarkan hubungan antara variabel independen dan variabel dependen. Estimator ordinary least squares (OLS) adalah salah satunya. Estimator ini menemukan nilai koefisien yang meminimalkan jumlah selisih kuadrat antara nilai yang diamati dan yang diprediksi oleh model.

Saya mengangkat hal ini agar istilahnya tetap jelas. Regresi bisa dilakukan dengan estimator lain, masing-masing menawarkan kelebihan berbeda tergantung data dan tujuan analisis. Misalnya, beberapa estimator lebih tangguh terhadap pencilan, sementara yang lain membantu mencegah overfitting dengan melakukan regularisasi parameter model.

Bagaimana parameter regresi OLS diestimasi?

Untuk menentukan koefisien yang paling sesuai dengan model regresi, estimator OLS menggunakan teknik matematika untuk meminimalkan jumlah kuadrat residual. Salah satu metodenya adalah persamaan normal, yang memberikan solusi langsung dengan menyusun sistem persamaan berdasarkan data dan menyelesaikannya untuk mendapatkan koefisien yang menghasilkan jumlah kuadrat selisih antara nilai yang diamati dan diprediksi sekecil mungkin.

Namun, menyelesaikan persamaan normal dapat menjadi sangat berat secara komputasi, terutama pada dataset besar. Untuk mengatasinya, teknik lain bernama dekomposisi QR sering digunakan. Dekomposisi QR memecah matriks variabel independen menjadi dua matriks yang lebih sederhana: matriks ortogonal (Q) dan matriks segitiga atas (R). Penyederhanaan ini membuat perhitungan lebih efisien dan juga meningkatkan stabilitas numerik.

Kapan Menggunakan Regresi OLS

Bagaimana kita memutuskan untuk menggunakan regresi OLS? Dalam membuat keputusan tersebut, kita harus menilai karakteristik dataset kita sekaligus mendefinisikan masalah spesifik yang ingin kita selesaikan. 

Asumsi regresi OLS

Sebelum menerapkan regresi OLS, kita harus memastikan bahwa data kita memenuhi asumsi-asumsi berikut agar hasilnya andal:

  1. Linearitas: Hubungan antara variabel independen dan dependen harus linear.
  2. Independensi galat: Residual tidak boleh saling berkorelasi.
  3. Homoskedastisitas: Residual harus memiliki varians konstan di seluruh tingkat variabel independen.
  4. Normalitas galat: Residual harus berdistribusi normal.

Pelanggaran serius terhadap asumsi-asumsi ini dapat menyebabkan estimasi bias atau prediksi yang tidak andal. Karena itu, kita benar-benar harus menilai dan mengatasi potensi masalah sebelum melangkah lebih jauh.

Aplikasi regresi OLS

Setelah asumsi terpenuhi, regresi OLS dapat digunakan untuk berbagai tujuan:

  • Pemodelan prediktif: Meramalkan keluaran seperti penjualan, pendapatan, atau tren.
  • Analisis hubungan: Memahami pengaruh variabel independen terhadap variabel dependen.
  • Uji hipotesis: Menilai apakah prediktor tertentu berdampak signifikan pada variabel keluaran.

Regresi OLS di R, Python, dan Excel

Sekarang mari kita lihat cara melakukan regresi OLS di R, Python, dan Excel.

Regresi OLS di R

R menyediakan fungsi lm() untuk regresi OLS. Berikut contohnya:

# Let's create sample data
predictor_variable <- c(1, 2, 3, 4, 5)
response_variable <- c(2, 4, 5, 4, 5)

# We now fit the OLS regression model using the lm() function from base R
ols_regression_model <- lm(response_variable ~ predictor_variable)

# OLS regression model summary
summary(ols_regression_model)

Perhatikan bahwa kita tidak perlu mengimpor paket tambahan apa pun untuk melakukan regresi OLS di R. 

Regresi OLS di Python

Python menawarkan pustaka seperti statsmodels dan scikit-learn untuk regresi OLS. Mari coba contoh menggunakan statsmodels:

import statsmodels.api as sm

# We can create some sample data
ols_regression_predictor = [1, 2, 3, 4, 5]
ols_regression_response = [2, 4, 5, 4, 5]

# Adding a constant for the intercept
ols_regression_predictor = sm.add_constant(ols_regression_predictor)

# We now fit our OLS regression model
ols_regression_model = sm.OLS(ols_regression_response, ols_regression_predictor).fit()

# Summary of our OLS regression 
print(ols_regression_model.summary())

Regresi OLS di Excel

Excel juga menyediakan cara melakukan regresi OLS melalui alat bawaannya. Ikuti langkah-langkah berikut:

Siapkan data Anda

Susun data Anda ke dalam dua kolom: satu untuk variabel independen dan satu untuk variabel dependen. Pastikan tidak ada sel kosong dalam dataset Anda.

Aktifkan Data Analysis ToolPak

Buka File > Options > Add-Ins. Di kotak Manage, pilih Excel Add-ins, lalu klik Go. Centang kotak Analysis ToolPak dan klik OK.

Jalankan analisis regresi

Masuk ke Data > Data Analysis dan pilih Regression dari daftar opsi. Klik OK.

Di kotak dialog Regression:

  • Atur Input Y Range ke kolom variabel dependen Anda.
  • Atur Input X Range ke variabel independen Anda.
  • Centang Labels jika rentang input Anda menyertakan header kolom.
  • Pilih rentang keluaran atau worksheet baru untuk hasil.

Cara Mengevaluasi Model Regresi OLS

Kita telah membuat model regresi OLS. Langkah berikutnya adalah melihat apakah model tersebut efektif dengan meninjau diagnostik dan statistik model.

Plot diagnostik

Kita dapat mengevaluasi model regresi OLS dengan alat visual untuk menilai asumsi model dan kualitas kecocokan. Beberapa opsi termasuk plot residual vs. nilai terpasang, yang memeriksa pola yang mungkin menunjukkan non-linearitas atau heteroskedastisitas, atau Q-Q plot, yang memeriksa apakah residual mengikuti distribusi seperti distribusi normal.

Statistik model

Kita juga dapat mengevaluasi model dengan metrik statistik yang memberikan wawasan tentang kinerja model dan signifikansi prediktor. Statistik model umum mencakup R-squared dan adjusted R-squared, yang mengukur proporsi varians yang dijelaskan oleh model. Kita juga bisa melihat F-statistic dan p-value, yang menguji signifikansi keseluruhan model dan prediktor individual.

Alur kerja train/test

Terakhir, perlu disebutkan bahwa analis data juga senang mengikuti proses terstruktur untuk memvalidasi kemampuan prediktif model. Ini mencakup proses pemisahan data, di mana data dibagi menjadi subset pelatihan dan pengujian, proses pelatihan untuk menyesuaikan model, lalu proses pengujian untuk mengevaluasi kinerja model pada data uji yang belum pernah dilihat. Proses ini juga bisa mencakup langkah-langkah validasi silang seperti k-fold cross-validation.

Wawasan Lebih Mendalam tentang Regresi OLS

Sekarang setelah kita membahas dasar-dasarnya, mari jelajahi beberapa konsep yang lebih lanjut. 

Regresi OLS dan estimasi kemungkinan maksimum

Maximum likelihood estimation (MLE) adalah konsep lain yang kerap dibahas bersama regresi OLS, dan itu masuk akal. Sejauh ini kita membahas bagaimana OLS meminimalkan jumlah kuadrat residual untuk mengestimasi koefisien. Sekarang mari mundur selangkah untuk membahas MLE.  

MLE memaksimalkan kemungkinan mengamati data yang diberikan di bawah model kita. Metode ini bekerja dengan mengasumsikan distribusi probabilitas tertentu untuk suku galat. Distribusi probabilitas ini biasanya normal, atau Gaussian. Dengan menggunakan distribusi probabilitas tersebut, kita mencari nilai parameter yang membuat data yang diamati paling mungkin terjadi.

Alasan saya mengangkat maximum likelihood estimation sekarang adalah karena, dalam konteks regresi OLS, pendekatan MLE menghasilkan estimasi koefisien yang sama seperti saat kita meminimalkan jumlah kuadrat galat, dengan catatan galat berdistribusi normal. 

Menafsirkan regresi OLS sebagai rata-rata berbobot

Perspektif menarik lainnya tentang regresi OLS adalah penafsirannya sebagai rata-rata berbobot. Prof. Andrew Gelman membahas gagasan bahwa koefisien dalam regresi OLS dapat dipandang sebagai rata-rata berbobot dari titik data yang diamati, di mana bobot ditentukan oleh varians prediktor dan struktur model.

Pandangan ini memberi wawasan tentang bagaimana proses regresi bekerja dan mengapa ia berperilaku sebagaimana mestinya karena regresi OLS pada dasarnya memberi bobot lebih pada observasi yang memiliki varians lebih kecil atau lebih dekat dengan prediksi model. Anda juga bisa mendengarkan episode podcast DataFramed kami, Election Forecasting and Polling, untuk mendengar pendapat Profesor Gelman tentang penggunaan regresi dalam jajak pendapat pemilu. 

Regresi OLS vs. Metode Regresi Serupa

Ada beberapa metode regresi lain yang namanya terdengar mirip tetapi memiliki tujuan berbeda atau beroperasi dengan asumsi berbeda. Mari kita lihat beberapa yang terdengar mirip: 

OLS vs. weighted least squares (WLS)

WLS adalah perpanjangan OLS yang memberikan bobot berbeda pada setiap titik data berdasarkan varians observasinya. WLS sangat berguna ketika asumsi varians residual konstan dilanggar. Dengan memberi bobot observasi secara terbalik terhadap variansnya, WLS memberikan estimasi yang lebih andal saat menangani data heteroskedastik.

OLS vs. partial least squares (PLS) regression

PLS menggabungkan fitur principal component analysis dan regresi berganda dengan mengekstraksi variabel laten yang menangkap kovarians maksimum antara prediktor dan variabel respon. PLS menguntungkan dalam situasi dengan multikolinearitas atau ketika jumlah prediktor melebihi jumlah observasi. Metode ini mengurangi dimensi sekaligus memaksimalkan daya prediktif, yang tidak secara inheren ditangani oleh OLS.

OLS vs. generalized least squares (GLS)

Serupa dengan WLS, GLS menggeneralisasi OLS dengan mengizinkan residual yang berkorelasi dan/atau memiliki varians tidak konstan. GLS menyesuaikan proses estimasi untuk memperhitungkan pelanggaran asumsi OLS terkait residual, sehingga menghasilkan estimasi yang lebih efisien dan tidak bias dalam skenario tersebut.

OLS vs. total least squares (TLS)

Juga dikenal sebagai regresi ortogonal, TLS meminimalkan jarak tegak lurus dari titik data ke garis regresi, bukan jarak vertikal yang diminimalkan oleh OLS. TLS berguna ketika terdapat kesalahan pada kedua variabel, baik independen maupun dependen, sedangkan OLS mengasumsikan hanya variabel dependen yang memiliki kesalahan pengukuran.

Alternatif untuk Regresi OLS

Ketika hubungan antar variabel kompleks atau non-linear, metode regresi nonparametrik menawarkan alternatif yang fleksibel terhadap OLS dengan membiarkan data menentukan bentuk fungsi regresi. Semua contoh sebelumnya (yang "terdengar mirip") termasuk dalam kategori model parametrik. Namun model nonparametrik juga dapat digunakan saat Anda ingin memodelkan pola tanpa batasan asumsi parametrik.

Metode Deskripsi Keunggulan Kasus Penggunaan Umum
Regresi Kernel Menggunakan rata-rata berbobot dengan kernel untuk menghaluskan data. Menangkap hubungan non-linear
Penghalusan yang fleksibel
Analisis eksploratori
Hubungan variabel yang belum diketahui
Regresi Lokal Mencocokkan polinomial lokal pada subset data untuk kurva yang halus. Menangani pola kompleks
Kehalusan adaptif
Visualisasi tren
Penghalusan scatterplot
Pohon Regresi Membagi data menjadi cabang-cabang untuk menyesuaikan model sederhana di setiap segmen. Mudah ditafsirkan
Menangani interaksi
Segmentasi data
Mengidentifikasi rezim data yang berbeda
Regresi Spline Menggunakan polinomial potongan dengan kontinuitas pada simpul (knots) untuk memodelkan data. Memodelkan tren non-linear yang halus
Pencocokan yang fleksibel
Rangkaian waktu
Kurva pertumbuhan

Pemikiran Akhir

Regresi OLS adalah alat mendasar untuk memahami hubungan data dan membuat prediksi. Dengan menguasai OLS, Anda akan membangun fondasi kuat untuk mengeksplorasi model dan teknik lanjutan. Jelajahi kursus DataCamp tentang regresi di R dan Python untuk memperluas keterampilan Anda: Introduction to Regression with statsmodels in Python dan Introduction to Regression in R). Pertimbangkan juga jalur karier kami yang sangat populer Machine Learning Scientist in Python.


Josef Waples's photo
Author
Josef Waples

Saya penulis dan editor data science dengan kontribusi pada artikel riset di jurnal ilmiah. Saya sangat tertarik pada aljabar linear, statistika, R, dan sejenisnya. Saya juga cukup sering bermain catur! 

FAQ Regresi OLS

Apa itu regresi OLS?

Ordinary Least Squares (OLS) regression adalah metode statistik yang digunakan untuk mengestimasi hubungan antara satu atau lebih variabel independen dan variabel dependen. Metode ini bekerja dengan menyesuaikan persamaan linear yang meminimalkan jumlah kuadrat selisih antara nilai yang diamati dan nilai yang diprediksi, sehingga menjadi alat dasar dalam statistik dan machine learning untuk prediksi dan analisis.

Apa keterbatasan regresi OLS?

Regresi OLS mengasumsikan hubungan linear, yang mungkin tidak menangkap pola kompleks dalam data. Metode ini sensitif terhadap pencilan, yang dapat menggeser hasil, dan kesulitan dengan multikolinearitas, ketika variabel independen sangat berkorelasi. Selain itu, OLS mengharuskan semua asumsi (linearitas, independensi, homoskedastisitas, normalitas) terpenuhi; pelanggaran dapat menyebabkan estimasi bias atau tidak efisien.

Bisakah regresi OLS digunakan untuk inferensi kausal?

Meskipun regresi OLS dapat mengidentifikasi asosiasi antar variabel, menetapkan kausalitas memerlukan pertimbangan cermat atas desain studi dan potensi perancu. OLS saja tidak membuktikan kausalitas. Untuk membuat inferensi kausal, metode tambahan seperti uji terkontrol acak, instrumental variables, atau propensity score matching sering kali diperlukan bersama regresi OLS.

Topik

Pelajari regresi OLS dengan DataCamp

Kursus

Bayesian Regression Modeling with rstanarm

4 Hr
7.1K
Learn how to leverage Bayesian estimation methods to make better inferences about linear regression models.
Lihat DetailRight Arrow
Mulai Kursus
Lihat Lebih BanyakRight Arrow
Terkait

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

14 mnt

Lihat Lebih BanyakLihat Lebih Banyak