Kursus
Regresi OLS (ordinary least squares) sangat layak dipelajari karena merupakan bagian besar dari statistik dan machine learning. Metode ini digunakan untuk memprediksi keluaran atau menganalisis hubungan antar variabel, dan penerapannya mencakup segala hal mulai dari uji hipotesis hingga peramalan.
Dalam artikel ini, saya akan membantu Anda memahami dasar-dasar regresi OLS, aplikasinya, asumsi-asumsinya, dan cara mengimplementasikannya di Excel, R, dan Python. Materinya cukup banyak, jadi setelah selesai, ambil kursus regresi kami seperti Introduction to Regression in Python dan Introduction to Regression in R, serta baca tutorial kami, seperti Linear Regression in Excel.
Apa itu Regresi OLS?
Regresi OLS mengestimasi hubungan antara satu atau lebih variabel independen (prediktor) dan variabel dependen (respon). Hal ini dilakukan dengan menyesuaikan persamaan linear terhadap data yang diamati. Berikut bentuk persamaannya:

Berikut penjelasannya:
- y adalah variabel dependen.
- x1, x2,… adalah variabel independen.
- β0 adalah intersep.
- β1, β2, …, adalah koefisien.
- ϵ merepresentasikan suku galat.
Pada persamaan di atas, saya menampilkan beberapa suku β seperti β1 dan β2. Namun untuk memperjelas, persamaan regresi bisa saja hanya memiliki satu suku β selain β0, yang dalam hal ini kita sebut regresi linear sederhana. Dengan dua atau lebih prediktor, seperti β1 dan β2, kita menyebutnya regresi linear berganda. Keduanya termasuk regresi OLS jika menggunakan estimator ordinary least squares.
Apa itu masalah minimisasi OLS?
Inti dari regresi OLS adalah tantangan optimasi: menemukan garis (atau hiperbidang pada dimensi lebih tinggi) yang paling sesuai dengan data. Namun apa arti "paling sesuai"? Di sini, "paling sesuai" berarti meminimalkan jumlah kuadrat residual.
Izinkan saya menjelaskan masalah minimisasi sambil memaparkan gagasan tentang residual.
- Penjelasan Residual: Residual adalah selisih antara nilai aktual yang diamati dan nilai yang diprediksi oleh model regresi. Untuk setiap titik data, residual menunjukkan seberapa jauh prediksi kita meleset.
- Mengapa Residual Dikuadratkan? Dengan mengkuadratkan setiap residual, kita memastikan perbedaan positif dan negatif tidak saling meniadakan. Pengkuadratan juga memberi bobot lebih besar pada kesalahan yang lebih besar, sehingga model memprioritaskan pengurangan kesalahan besar.
Dengan meminimalkan jumlah kuadrat residual, garis regresi menjadi representasi yang akurat dari hubungan antara variabel independen dan dependen. Faktanya, dengan meminimalkan jumlah kuadrat residual, model kita memiliki galat keseluruhan sekecil mungkin dalam prediksinya. Untuk mempelajari lebih lanjut tentang residual dan dekomposisi regresi, baca tutorial kami, Understanding Sum of Squares: A Guide to SST, SSR, and SSE.
Apa itu estimator ordinary least squares?
Dalam konteks regresi, estimator digunakan untuk menghitung koefisien yang menggambarkan hubungan antara variabel independen dan variabel dependen. Estimator ordinary least squares (OLS) adalah salah satunya. Estimator ini menemukan nilai koefisien yang meminimalkan jumlah selisih kuadrat antara nilai yang diamati dan yang diprediksi oleh model.
Saya mengangkat hal ini agar istilahnya tetap jelas. Regresi bisa dilakukan dengan estimator lain, masing-masing menawarkan kelebihan berbeda tergantung data dan tujuan analisis. Misalnya, beberapa estimator lebih tangguh terhadap pencilan, sementara yang lain membantu mencegah overfitting dengan melakukan regularisasi parameter model.
Bagaimana parameter regresi OLS diestimasi?
Untuk menentukan koefisien yang paling sesuai dengan model regresi, estimator OLS menggunakan teknik matematika untuk meminimalkan jumlah kuadrat residual. Salah satu metodenya adalah persamaan normal, yang memberikan solusi langsung dengan menyusun sistem persamaan berdasarkan data dan menyelesaikannya untuk mendapatkan koefisien yang menghasilkan jumlah kuadrat selisih antara nilai yang diamati dan diprediksi sekecil mungkin.
Namun, menyelesaikan persamaan normal dapat menjadi sangat berat secara komputasi, terutama pada dataset besar. Untuk mengatasinya, teknik lain bernama dekomposisi QR sering digunakan. Dekomposisi QR memecah matriks variabel independen menjadi dua matriks yang lebih sederhana: matriks ortogonal (Q) dan matriks segitiga atas (R). Penyederhanaan ini membuat perhitungan lebih efisien dan juga meningkatkan stabilitas numerik.
Kapan Menggunakan Regresi OLS
Bagaimana kita memutuskan untuk menggunakan regresi OLS? Dalam membuat keputusan tersebut, kita harus menilai karakteristik dataset kita sekaligus mendefinisikan masalah spesifik yang ingin kita selesaikan.
Asumsi regresi OLS
Sebelum menerapkan regresi OLS, kita harus memastikan bahwa data kita memenuhi asumsi-asumsi berikut agar hasilnya andal:
- Linearitas: Hubungan antara variabel independen dan dependen harus linear.
- Independensi galat: Residual tidak boleh saling berkorelasi.
- Homoskedastisitas: Residual harus memiliki varians konstan di seluruh tingkat variabel independen.
- Normalitas galat: Residual harus berdistribusi normal.
Pelanggaran serius terhadap asumsi-asumsi ini dapat menyebabkan estimasi bias atau prediksi yang tidak andal. Karena itu, kita benar-benar harus menilai dan mengatasi potensi masalah sebelum melangkah lebih jauh.
Aplikasi regresi OLS
Setelah asumsi terpenuhi, regresi OLS dapat digunakan untuk berbagai tujuan:
- Pemodelan prediktif: Meramalkan keluaran seperti penjualan, pendapatan, atau tren.
- Analisis hubungan: Memahami pengaruh variabel independen terhadap variabel dependen.
- Uji hipotesis: Menilai apakah prediktor tertentu berdampak signifikan pada variabel keluaran.
Regresi OLS di R, Python, dan Excel
Sekarang mari kita lihat cara melakukan regresi OLS di R, Python, dan Excel.
Regresi OLS di R
R menyediakan fungsi lm() untuk regresi OLS. Berikut contohnya:
# Let's create sample data
predictor_variable <- c(1, 2, 3, 4, 5)
response_variable <- c(2, 4, 5, 4, 5)
# We now fit the OLS regression model using the lm() function from base R
ols_regression_model <- lm(response_variable ~ predictor_variable)
# OLS regression model summary
summary(ols_regression_model)
Perhatikan bahwa kita tidak perlu mengimpor paket tambahan apa pun untuk melakukan regresi OLS di R.
Regresi OLS di Python
Python menawarkan pustaka seperti statsmodels dan scikit-learn untuk regresi OLS. Mari coba contoh menggunakan statsmodels:
import statsmodels.api as sm
# We can create some sample data
ols_regression_predictor = [1, 2, 3, 4, 5]
ols_regression_response = [2, 4, 5, 4, 5]
# Adding a constant for the intercept
ols_regression_predictor = sm.add_constant(ols_regression_predictor)
# We now fit our OLS regression model
ols_regression_model = sm.OLS(ols_regression_response, ols_regression_predictor).fit()
# Summary of our OLS regression
print(ols_regression_model.summary())
Regresi OLS di Excel
Excel juga menyediakan cara melakukan regresi OLS melalui alat bawaannya. Ikuti langkah-langkah berikut:
Siapkan data Anda
Susun data Anda ke dalam dua kolom: satu untuk variabel independen dan satu untuk variabel dependen. Pastikan tidak ada sel kosong dalam dataset Anda.
Aktifkan Data Analysis ToolPak
Buka File > Options > Add-Ins. Di kotak Manage, pilih Excel Add-ins, lalu klik Go. Centang kotak Analysis ToolPak dan klik OK.
Jalankan analisis regresi
Masuk ke Data > Data Analysis dan pilih Regression dari daftar opsi. Klik OK.
Di kotak dialog Regression:
- Atur Input Y Range ke kolom variabel dependen Anda.
- Atur Input X Range ke variabel independen Anda.
- Centang Labels jika rentang input Anda menyertakan header kolom.
- Pilih rentang keluaran atau worksheet baru untuk hasil.
Cara Mengevaluasi Model Regresi OLS
Kita telah membuat model regresi OLS. Langkah berikutnya adalah melihat apakah model tersebut efektif dengan meninjau diagnostik dan statistik model.
Plot diagnostik
Kita dapat mengevaluasi model regresi OLS dengan alat visual untuk menilai asumsi model dan kualitas kecocokan. Beberapa opsi termasuk plot residual vs. nilai terpasang, yang memeriksa pola yang mungkin menunjukkan non-linearitas atau heteroskedastisitas, atau Q-Q plot, yang memeriksa apakah residual mengikuti distribusi seperti distribusi normal.
Statistik model
Kita juga dapat mengevaluasi model dengan metrik statistik yang memberikan wawasan tentang kinerja model dan signifikansi prediktor. Statistik model umum mencakup R-squared dan adjusted R-squared, yang mengukur proporsi varians yang dijelaskan oleh model. Kita juga bisa melihat F-statistic dan p-value, yang menguji signifikansi keseluruhan model dan prediktor individual.
Alur kerja train/test
Terakhir, perlu disebutkan bahwa analis data juga senang mengikuti proses terstruktur untuk memvalidasi kemampuan prediktif model. Ini mencakup proses pemisahan data, di mana data dibagi menjadi subset pelatihan dan pengujian, proses pelatihan untuk menyesuaikan model, lalu proses pengujian untuk mengevaluasi kinerja model pada data uji yang belum pernah dilihat. Proses ini juga bisa mencakup langkah-langkah validasi silang seperti k-fold cross-validation.
Wawasan Lebih Mendalam tentang Regresi OLS
Sekarang setelah kita membahas dasar-dasarnya, mari jelajahi beberapa konsep yang lebih lanjut.
Regresi OLS dan estimasi kemungkinan maksimum
Maximum likelihood estimation (MLE) adalah konsep lain yang kerap dibahas bersama regresi OLS, dan itu masuk akal. Sejauh ini kita membahas bagaimana OLS meminimalkan jumlah kuadrat residual untuk mengestimasi koefisien. Sekarang mari mundur selangkah untuk membahas MLE.
MLE memaksimalkan kemungkinan mengamati data yang diberikan di bawah model kita. Metode ini bekerja dengan mengasumsikan distribusi probabilitas tertentu untuk suku galat. Distribusi probabilitas ini biasanya normal, atau Gaussian. Dengan menggunakan distribusi probabilitas tersebut, kita mencari nilai parameter yang membuat data yang diamati paling mungkin terjadi.
Alasan saya mengangkat maximum likelihood estimation sekarang adalah karena, dalam konteks regresi OLS, pendekatan MLE menghasilkan estimasi koefisien yang sama seperti saat kita meminimalkan jumlah kuadrat galat, dengan catatan galat berdistribusi normal.
Menafsirkan regresi OLS sebagai rata-rata berbobot
Perspektif menarik lainnya tentang regresi OLS adalah penafsirannya sebagai rata-rata berbobot. Prof. Andrew Gelman membahas gagasan bahwa koefisien dalam regresi OLS dapat dipandang sebagai rata-rata berbobot dari titik data yang diamati, di mana bobot ditentukan oleh varians prediktor dan struktur model.
Pandangan ini memberi wawasan tentang bagaimana proses regresi bekerja dan mengapa ia berperilaku sebagaimana mestinya karena regresi OLS pada dasarnya memberi bobot lebih pada observasi yang memiliki varians lebih kecil atau lebih dekat dengan prediksi model. Anda juga bisa mendengarkan episode podcast DataFramed kami, Election Forecasting and Polling, untuk mendengar pendapat Profesor Gelman tentang penggunaan regresi dalam jajak pendapat pemilu.
Regresi OLS vs. Metode Regresi Serupa
Ada beberapa metode regresi lain yang namanya terdengar mirip tetapi memiliki tujuan berbeda atau beroperasi dengan asumsi berbeda. Mari kita lihat beberapa yang terdengar mirip:
OLS vs. weighted least squares (WLS)
WLS adalah perpanjangan OLS yang memberikan bobot berbeda pada setiap titik data berdasarkan varians observasinya. WLS sangat berguna ketika asumsi varians residual konstan dilanggar. Dengan memberi bobot observasi secara terbalik terhadap variansnya, WLS memberikan estimasi yang lebih andal saat menangani data heteroskedastik.
OLS vs. partial least squares (PLS) regression
PLS menggabungkan fitur principal component analysis dan regresi berganda dengan mengekstraksi variabel laten yang menangkap kovarians maksimum antara prediktor dan variabel respon. PLS menguntungkan dalam situasi dengan multikolinearitas atau ketika jumlah prediktor melebihi jumlah observasi. Metode ini mengurangi dimensi sekaligus memaksimalkan daya prediktif, yang tidak secara inheren ditangani oleh OLS.
OLS vs. generalized least squares (GLS)
Serupa dengan WLS, GLS menggeneralisasi OLS dengan mengizinkan residual yang berkorelasi dan/atau memiliki varians tidak konstan. GLS menyesuaikan proses estimasi untuk memperhitungkan pelanggaran asumsi OLS terkait residual, sehingga menghasilkan estimasi yang lebih efisien dan tidak bias dalam skenario tersebut.
OLS vs. total least squares (TLS)
Juga dikenal sebagai regresi ortogonal, TLS meminimalkan jarak tegak lurus dari titik data ke garis regresi, bukan jarak vertikal yang diminimalkan oleh OLS. TLS berguna ketika terdapat kesalahan pada kedua variabel, baik independen maupun dependen, sedangkan OLS mengasumsikan hanya variabel dependen yang memiliki kesalahan pengukuran.
Alternatif untuk Regresi OLS
Ketika hubungan antar variabel kompleks atau non-linear, metode regresi nonparametrik menawarkan alternatif yang fleksibel terhadap OLS dengan membiarkan data menentukan bentuk fungsi regresi. Semua contoh sebelumnya (yang "terdengar mirip") termasuk dalam kategori model parametrik. Namun model nonparametrik juga dapat digunakan saat Anda ingin memodelkan pola tanpa batasan asumsi parametrik.
| Metode | Deskripsi | Keunggulan | Kasus Penggunaan Umum |
|---|---|---|---|
| Regresi Kernel | Menggunakan rata-rata berbobot dengan kernel untuk menghaluskan data. | Menangkap hubungan non-linear Penghalusan yang fleksibel |
Analisis eksploratori Hubungan variabel yang belum diketahui |
| Regresi Lokal | Mencocokkan polinomial lokal pada subset data untuk kurva yang halus. | Menangani pola kompleks Kehalusan adaptif |
Visualisasi tren Penghalusan scatterplot |
| Pohon Regresi | Membagi data menjadi cabang-cabang untuk menyesuaikan model sederhana di setiap segmen. | Mudah ditafsirkan Menangani interaksi |
Segmentasi data Mengidentifikasi rezim data yang berbeda |
| Regresi Spline | Menggunakan polinomial potongan dengan kontinuitas pada simpul (knots) untuk memodelkan data. | Memodelkan tren non-linear yang halus Pencocokan yang fleksibel |
Rangkaian waktu Kurva pertumbuhan |
Pemikiran Akhir
Regresi OLS adalah alat mendasar untuk memahami hubungan data dan membuat prediksi. Dengan menguasai OLS, Anda akan membangun fondasi kuat untuk mengeksplorasi model dan teknik lanjutan. Jelajahi kursus DataCamp tentang regresi di R dan Python untuk memperluas keterampilan Anda: Introduction to Regression with statsmodels in Python dan Introduction to Regression in R). Pertimbangkan juga jalur karier kami yang sangat populer Machine Learning Scientist in Python.

Saya penulis dan editor data science dengan kontribusi pada artikel riset di jurnal ilmiah. Saya sangat tertarik pada aljabar linear, statistika, R, dan sejenisnya. Saya juga cukup sering bermain catur!
FAQ Regresi OLS
Apa itu regresi OLS?
Ordinary Least Squares (OLS) regression adalah metode statistik yang digunakan untuk mengestimasi hubungan antara satu atau lebih variabel independen dan variabel dependen. Metode ini bekerja dengan menyesuaikan persamaan linear yang meminimalkan jumlah kuadrat selisih antara nilai yang diamati dan nilai yang diprediksi, sehingga menjadi alat dasar dalam statistik dan machine learning untuk prediksi dan analisis.
Apa keterbatasan regresi OLS?
Regresi OLS mengasumsikan hubungan linear, yang mungkin tidak menangkap pola kompleks dalam data. Metode ini sensitif terhadap pencilan, yang dapat menggeser hasil, dan kesulitan dengan multikolinearitas, ketika variabel independen sangat berkorelasi. Selain itu, OLS mengharuskan semua asumsi (linearitas, independensi, homoskedastisitas, normalitas) terpenuhi; pelanggaran dapat menyebabkan estimasi bias atau tidak efisien.
Bisakah regresi OLS digunakan untuk inferensi kausal?
Meskipun regresi OLS dapat mengidentifikasi asosiasi antar variabel, menetapkan kausalitas memerlukan pertimbangan cermat atas desain studi dan potensi perancu. OLS saja tidak membuktikan kausalitas. Untuk membuat inferensi kausal, metode tambahan seperti uji terkontrol acak, instrumental variables, atau propensity score matching sering kali diperlukan bersama regresi OLS.
