01 November 2011

Tentang angka 0 dan 1

Pagi kawans! Lama tak bersua dengan blog ini, mari kita isi hari pertama di bulan November ini dengan tulisan yang mungkin tak terlalu populer diantara kita: binary response model!

Sedikit pengantar tentang binary response model
Ya, saya paham kalau pembaca langsung mengernyitkan dahi begitu melihat judul blog ini lalu membaca paragraf pertama di atas: "apa hubungannya angka nol dan satu dan binary response model?" Buat beberapa teman yang cukup akrab dengan matematika tentu tahu bahwa bilangan biner (binary) terdiri dari angka 0 dan 1, tapi apa maksudnya dengan binary response model?


Sebelum beranjak ke apa itu binary response model, ada baiknya kita mulai celoteh pagi ini dengan kilasan singkat tentang ekonometri.

Ekonometri pada dasarnya adalah studi yang menggabungkan metode statistik, matematika, dan teori ekonomi untuk mengatahui hubungan sebab-akibat dari sebuah fenomena ekonomi: jika x (misal harga beras) naik maka y (misal jumlah beras yang dibeli konsumen) turun, seperti yang diprediksi teori permintaan. 
Nah salah satu cabang dari ekonometri adalah binary response model, dimana variabel y diatas hanya terdiri dari angka 0 dan 1. Lalu apa maksudnya dengan angka 0 dan 1? Bilangan biner dipilih biasanya untuk merepresentasikan sebuah fenomena kualitatif.

Misalnya, fenomena tentang pemilu, dimana kita ingin membuktikan apakah faktor-faktor yang kita anggap berandil dibalik menangnya politisi (y=1 jika politisi menang, y=0 jika dia kalah) memang benar adanya. Jadi model ini mencoba menghitung kemungkinan (probabilitas) seorang politisi menang dalam pemilu setelah memperhitungkan faktor-faktor yang mungkin menjadi penyebabnya (variabel x, misalnya kekayaan sang politisi, jumlah pemilih di daerahnya, dan seterusnya).



Linear probability model (LPM)
Bentuk paling dasar dari binary response model adalah linear probability model (LPM) dimana kita mengestimasi parameter dari variabel x dengan pendekatan ordinary least square (OLS). Misalnya hasil estimasi untuk model politisi diatas:

y = 0.05 + 0.6*kekayaan + 0.5*incumbent - 0.9*korupsi + error


Interpretasi dari angka diatas adalah jika politisi tersebut adalah seorang incumbent (nilai variabel incumbent juga binary, incumbent=1 jika dia saat ini juga menjabat) maka probabilitas dia menang pemilu naik 50%, ceteris paribus. Namun jika dia pernah korupsi (korupsi=1) maka kemungkinan dia menang turun 90%.

Sekilas model ini tampak cukup untuk menjawab kebutuhan kita, namun ada satu masalah besar: perkiraan nilai y bisa negatif. Contoh: jika seorang politisi punya kekayaan sebesar Rp0.5 miliar (variabel kekayaan=0.5), dan dia juga sedang menjabat (incumbent=1), namun saat ini sedang dijerat KPK (korupsi=1), maka prediksi nilai y=-0.5. Angka negatif ini jelas tidak masuk akal karena kita menghitung probabilitas seorang politisi memenangkan pemilu, tidak ada probabilitas yang angkanya diluar rentang 0 dan 1.

Nah salah satu cara mengatasi angka prediksi yang negatif adalah dengan mengindeks prediksi dari model ekonometri yang kita pakai dengan model probit atau logit.

Probit dan logit
Formula dalam model probit (distribusi normal) dan logit (distribusi logistic) keduanya memiliki ciri yang khas: angka apapun yang dimasukkan kesitu hasilnya pasti terletak antara 0 dan 1. Jadi ini tentu menjadi solusi bagi model LPM yang saya singgung sebelumnya.
Distribusi logistic
Distribusi normal

Perbedaan logit dan probit hanya pada distribusi datanya: jika kita anggap error terdistribusi normal maka kita pakai probit, namun jika kita asumsikan distribusinya logistic ya kita pakai logit (bahkan bentuk kedua distribusi ini sangat mirip seperti gambar diatas). Sedikit informasi, kebanyakan ekonom lebih menyukai distribusi normal.

Namun sayangnya kita tidak bisa secara langsung menginterpretasikan hasil estimasi model probit/logit. Kenapa begitu? Karena kita mengindeks prediksi dengan formula distribusi normal (probit) atau formula distribusi logistic (logit) yang mana keduanya adalah model non-linear. Misal hasil estimasi dengan logit adalah: 

y = 0.03 + 0.7*kekayaan + 0.5*incumbent - 0.85*korupsi + error

Kita tidak bisa menginterpretasikan angka 0.5 diatas sama seperti dalam model LPM. Instead, kita mesti mengalikan angka tersebut dengan scale factor tertentu. Untungnya bermacam aplikasi statistik saat ini memungkinkan kita untuk mendapatkan angka yang bisa diinterpretasikan secara langsung (seperti dalam LPM) hanya dengan mengetik beberapa perintah saja. Misalnya, dengan Stata kita cukup mengetik: margins, dydx(*) dan, voila!, layar didepan kita akan langsung tersaji sederet angka yang siap diinterpretasikan secara langsung seperti di LPM.


Demikian ulasan singkat tentang binary response model, semoga bisa memberi inspirasi bagi kawan-kawan yang sedang bergelut dengan belajar dan bekerja. Selamat siang.


Stata Center di MIT (ajaib, seperti softwarenya)

4 comments:

Anonymous said...

Wah, mas ini bagus sekali ulasannya mencerahkan kebingungan saya yang baru mulai belajar logit/probit.
bahasanya ringan sekali, harusnya penjelasan kaya gini ini nih yang ada di buku2 untuk pemula. bukan yang njelimet!

Bagus nih mas kalo ada penjelasan lanjutannya. Keep up the good work! very nice!

Anonymous said...

bagus sekali mas saya sangat terbantu untuk memahami penjelasan probit dan logit
terus berkarya mas suksess!!

Anonymous said...

tapi misalkan ada sebuah permasalahan yang tentang faktor2 yang mempengaruhi penyakit diare di kota surabya, dan kita menggunakan probit. trus pertanyaannya, bisakah kita menggunakan logistik? kenapa kita menggunakan logistik saja?

Anonymous said...

Assalamualaikum.
Mohon pendapat dan pencerahannya, apakah perbedaan antara probit logit dengan regresi logistik biner. Karena kedua hal tersebut sama-sama menggunakan categori biner pada variabel dependennya dan mencari peluang untuk variabel dependennya. Terima kasih banyak atas pencerahaannya.