Variabel Paparan dan Offset dalam Model Regresi Poisson

Model Regresi Poisson dan ekstensi-nya (Zero-Inflated Poisson, Negative Binomial Regression, dll.) Digunakan untuk membuat model perhitungan dan angka. Beberapa contoh variabel penghitungan meliputi:

– Jumlah kata yang bisa dikatakan oleh seorang berusia delapan belas bulan

– Jumlah insiden agresif yang dilakukan oleh pasien di pusat rehabilitasi yang tidak sabar

Sebagian besar variabel penghitungan mengikuti salah satu distribusi ini dalam keluarga Poisson. Model regresi Poisson memungkinkan peneliti untuk menguji hubungan antara prediktor dan menghitung variabel hasil.

Menggunakan model regresi ini memberikan estimasi parameter yang jauh lebih akurat daripada mencoba untuk menyesuaikan model regresi linier biasa, yang anggapannya jarang sesuai dengan data hitungan, seperti residual normal dan varians konstan.

Tapi bagaimana model Poisson menangani tarif? Nilai hanyalah hitungan per satuan waktu.

Contoh pertama tidak membutuhkan angka., Tetapi yang kedua mungkin saja. Jika semua pasien berada di pusat jumlah hari yang sama, angka tidak diperlukan. Tetapi jika ada variasi dalam jumlah hari setiap pasien hadir, kehadiran itu sendiri dapat mempengaruhi hitungan. Hitungan 10 insiden dari 180 hari jauh lebih kecil dari hitungan 10 dari 15.

Model Poisson menangani variabel eksposur dengan menggunakan aljabar sederhana untuk mengubah variabel dependen dari suatu nilai menjadi hitungan.

Jika laju adalah hitungan / eksposur, mengalikan kedua sisi persamaan dengan pemaparan memindahkannya ke sisi kanan persamaan. Ketika kedua sisi persamaan tersebut kemudian dicatat, model terakhir mengandung ln (eksposur) sebagai istilah yang ditambahkan ke koefisien regresi. Ini variabel login, ln (eksposur), disebut mengimbangi variabel.

Kebanyakan perangkat lunak statistik akan mengharuskan Anda untuk membuat variabel yang sudah di-log dan mendefinisikannya sebagai variabel offset. Hanya Stata yang memungkinkan Anda untuk menentukan eksposur atau variabel offset.

Salah satu fitur penting dari variabel offset adalah bahwa ia harus memiliki koefisien 1. Ini karena ini adalah bagian dari tarif. Koefisien 1 memungkinkan Anda untuk secara teoritis memindahkannya kembali ke sisi kiri persamaan untuk mengubah hitungan Anda kembali ke laju.

Apa artinya ini secara teoritis adalah bahwa dengan mendefinisikan variabel offset, Anda hanya menyesuaikan untuk jumlah peluang yang dimiliki suatu peristiwa. Asumsinya di sini adalah bahwa, misalnya, setiap hari dalam rehabilitasi membuat pasien memiliki kemungkinan yang sama untuk mengalami insiden agresif. Setiap hari hanyalah sebuah peluang untuk sebuah insiden. Seorang pasien selama 20 hari dua kali lebih mungkin untuk memiliki insiden sebagai pasien selama 10 hari.

Ada asumsi bahwa kemungkinan peristiwa tidak berubah seiring waktu. Jika, misalnya, dibutuhkan pasien beberapa minggu untuk mempelajari konsekuensi perilaku agresif, kemudian berhenti atau mengurangi tarif mereka, maka waktu bukan hanya masalah paparan. Demikian juga, jika pasien mulai menjadi lebih gelisah setelah berada dalam program setelah beberapa bulan, sehingga waktu tinggal yang lebih lama sebenarnya menciptakan lebih banyak agresi, maka waktu bukan hanya masalah paparan. Dalam salah satu dari kasus-kasus ini, jumlah hari dalam suatu program akan berfungsi lebih baik sebagai prediktor daripada sebagai variabel eksposur. Sebagai prediktor, koefisien akan diperkirakan dari data, tidak diatur ke 1.

Logika ini dapat diperluas ke setiap model regresi yang memiliki rasio sebagai variabel dependen. Pastikan Anda memahami implikasi bahwa penyebut rasio tersebut tidak mempengaruhi pembilang di luar peluang.

Multikolinieritas dalam Model Regresi Linier – Memusatkan Variabel untuk Mengurangi Multikolinieritas

Pemusatan adalah salah satu topik dalam statistik yang tampaknya semua orang pernah dengar, tetapi kebanyakan orang tidak tahu banyak tentangnya. Ini telah mengembangkan suatu mistik yang sepenuhnya tidak perlu.

Pemusatan hanya berarti mengurangkan satu nilai dari semua titik data Anda. Ini menggeser skala variabel dan biasanya diterapkan ke prediktor. Ini disebut centering karena orang sering menggunakan mean sebagai nilai yang mereka kurangi (jadi mean baru sekarang di 0), tetapi tidak harus menjadi mean. Faktanya, ada banyak situasi ketika nilai selain dari mean adalah yang paling berarti.

Sementara pemusatan dapat dilakukan dalam regresi linier sederhana, manfaat nyata muncul ketika ada istilah perkalian dalam istilah model-interaksi atau istilah kuadrat (X-squared).

Ada dua alasan untuk berpusat. Yang pertama adalah ketika sebuah istilah interaksi dibuat dari mengalikan dua variabel prediktor berada pada skala positif. Ketika Anda mengalikannya untuk menciptakan interaksi, angka-angka mendekati 0 tetap dekat 0 dan angka-angka yang tinggi menjadi sangat tinggi. Istilah interaksi kemudian sangat berkorelasi dengan variabel asli.

Tapi ini mudah untuk diperiksa. Cukup buat istilah perkalian dalam kumpulan data Anda, lalu jalankan korelasi antara istilah interaksi itu dan prediktor asli. Sementara korelasi bukan cara terbaik untuk menguji multikolinieritas, itu akan memberi Anda pemeriksaan cepat.

Kemudian coba lagi, tetapi pertama-tama pusatkan salah satu dari infus Anda.

Memusatkan salah satu variabel Anda pada nilai rata-rata (atau beberapa nilai bermakna lainnya yang dekat dengan bagian tengah distribusi) akan membuat setengah nilai Anda negatif (karena mean sekarang sama dengan 0). Ketika mereka dikalikan dengan variabel positif lainnya, mereka tidak semua naik bersama-sama.

Alasan lainnya adalah untuk membantu interpretasi estimasi parameter (koefisien regresi, atau beta).