Aku baru sadar aku kayaknya blm pernah spill beneran soal interview (yg menurutku kayak ujian) tuh gimana wkwkwkwkw
Buat yang mau belajar buat wawancara DS/ML (atau yg mau buat soal wawancara) dipersilakan menyimak π§
Buat yang mau belajar buat wawancara DS/ML (atau yg mau buat soal wawancara) dipersilakan menyimak π§
Btw buat yg blm tau, wawancara DS di big tech di US tuh kalo on-site bisa 4-6 jam. Sebelumnya ada 1 phone jam interview. Naaah soal2 yg mau aku share ini untuk yg phone interview soalnya lebih kayak soal ujian semesteran
1. Apa itu unsupervised machine learning? Jelaskan satu metode yg kamu tahu
π§ Unsupervised ML adalah salah satu metode yang belajar pola tanpa ada "kunci jawabnya", contohnya clustering. Saya coba jelasin KMeans ya...
π§ Unsupervised ML adalah salah satu metode yang belajar pola tanpa ada "kunci jawabnya", contohnya clustering. Saya coba jelasin KMeans ya...
π§...jadi dengan Kmeans, tentukan banyak cluster yg kita mau, misal 3. Awalnya taruh tiga titik random. Utk setiap data, kita hitung jaraknya ke 3 titik ini buat nentuin masuk klpk mana. Terus 3 titik ini di-update lokasinya dengan menghitung rata2 para "anggota", gitu terus
2. Udah pernah pake decision tree? Gimana caranya dia bikin cabang?
π§caranya dengan menghitung entropi untuk setiap split, kemudian menghitung entropi dari parent, kemudian hitung infomation gain, split dg yg memberi
information gain
terbesar
π§caranya dengan menghitung entropi untuk setiap split, kemudian menghitung entropi dari parent, kemudian hitung infomation gain, split dg yg memberi
information gain
terbesar
3. Apa kelemahan decision tree? Gimana ngatasinnya?
π§ Bisa sangat overfit (high variance), kalo minimal anggota di leaf nya 1 misalnya, artinya, fit banget ke training data, setiap data ada rule nya, tapi kalo diaplikasikan ke test data hasilnya ga akan sama bagusnya
π§ Bisa sangat overfit (high variance), kalo minimal anggota di leaf nya 1 misalnya, artinya, fit banget ke training data, setiap data ada rule nya, tapi kalo diaplikasikan ke test data hasilnya ga akan sama bagusnya
π§ cara ngatasinya dengan cara pruning, yaitu membuat tree dengan jumlah branch lebih sedikit atau bikin full kemudian dihapus bagian tertentu
Tapi kalo saya sih mungkin bakal pake metode tree yang lain ya....
Tapi kalo saya sih mungkin bakal pake metode tree yang lain ya....
4. Oh gitu, apa aja contohnya?
π§ Dengan menggunakan random forest misalnya
π§ Dengan menggunakan random forest misalnya
5. Gimana cara kerjanya? Kenapa namanya random?
π§ Jadi dari namanya, forest, isinya banyak tree. Kita ambil random set of features, makanya namanya random forest, terus dibikin tree nya. Tar hasil akhirnya dipilih dari majority voting (atau rata2 kalo regression)
π§ Jadi dari namanya, forest, isinya banyak tree. Kita ambil random set of features, makanya namanya random forest, terus dibikin tree nya. Tar hasil akhirnya dipilih dari majority voting (atau rata2 kalo regression)
5. Nah itu kan bagging ya, kalo metode lain? Apa yg kamu tahu
π§ Boosting. Jadi nanti kan ada hasilnya nih misal y, ada prediksinya y', selisihnya kita sebut residual. Terus kita fit data kita ke si residual ini pake , nah hasil prediksinya ditambahin ke y', gitu seterusnya
π§ Boosting. Jadi nanti kan ada hasilnya nih misal y, ada prediksinya y', selisihnya kita sebut residual. Terus kita fit data kita ke si residual ini pake , nah hasil prediksinya ditambahin ke y', gitu seterusnya
7. Apa itu bias? Gimana mereduksi secara general?
π§ Bias adalah gimana model menangkap pola data dengan baik. Bias tinggi berarti modelnya terlalu simpel, kurang bisa merepresentasi. Mengatasinya dengan mengurangi regularization, menambah fitur &size model, atau cari model lain
π§ Bias adalah gimana model menangkap pola data dengan baik. Bias tinggi berarti modelnya terlalu simpel, kurang bisa merepresentasi. Mengatasinya dengan mengurangi regularization, menambah fitur &size model, atau cari model lain
8. Kalo variance? Gimana ngatasinnya
π§ Variance adalah selisih antara prediksi dengan nilai asli. Kalo tinggi berarti modelnya baik ketika training tapi tidak bisa prediksi data baru dengan baik. Cara atasinnya dg nambah data & regularization, model lebih simple, reduksi fitur
π§ Variance adalah selisih antara prediksi dengan nilai asli. Kalo tinggi berarti modelnya baik ketika training tapi tidak bisa prediksi data baru dengan baik. Cara atasinnya dg nambah data & regularization, model lebih simple, reduksi fitur
9. Prediksi kan bisa negatif tuh, gimana caranya biar nggak negatif? Misal mau prediksi jarak
π§Ada beberapa cara tapi salah satu yg kepikiran di saya adalah ubah fiturnya jadi log, jadi hasilnya nggak mungkin negatif
π§Ada beberapa cara tapi salah satu yg kepikiran di saya adalah ubah fiturnya jadi log, jadi hasilnya nggak mungkin negatif
10. Tadi katanya salah satu cara biar variance ga tinggi adalah dengan reduksi fitur, gimana caranya?
π§ Pake L1 regularization di regresi misalanya, dg menambah absolute value ke koefisien sbg penalti loss function, koefisien bisa 0, fitur "ilang", atau pake PCA
π§ Pake L1 regularization di regresi misalanya, dg menambah absolute value ke koefisien sbg penalti loss function, koefisien bisa 0, fitur "ilang", atau pake PCA
11. Kapan MAPE dipake dan kapan MSE dipake sebagai cara menentukan performa sebuah regresi?
π§ MAPE independen terhadap skala karena ngitung pake persentase bukan absolute value. Jadi kita bisa bandingin Jakarta vs Jogja misalnya yang jumlah penduduknya beda jauh
π§ MAPE independen terhadap skala karena ngitung pake persentase bukan absolute value. Jadi kita bisa bandingin Jakarta vs Jogja misalnya yang jumlah penduduknya beda jauh
12. Kenapa naive bayes dibilang naive?
π§ Karena mengasumsikan tiap input variabel independen satu sama lain padahal kan belum tentu yak
π§ Karena mengasumsikan tiap input variabel independen satu sama lain padahal kan belum tentu yak
13. Gimana biasanya kamu milih model?
π§kalo concernnya akurasi, tes banyak model. Kalo datanya dikit, cari model yg biasnya tinggi variancenya rendah. Kalo datanya banyak, cari yg biasnya rendah variancenya tinggi
π§kalo concernnya akurasi, tes banyak model. Kalo datanya dikit, cari model yg biasnya tinggi variancenya rendah. Kalo datanya banyak, cari yg biasnya rendah variancenya tinggi
Hmm apa lagi ya kayaknya masih banyak hahaha tar tambahin lagi kalo masih inget
Pada intinya pewawancara selalu pengen memastikan bahwa kandidatnya ini tau β¨ basic β¨ tentang model ga cuma pake sklearn doang. Gimana kalo datanya ditambah, gimana kalo metrics diganti dkk
Pada intinya pewawancara selalu pengen memastikan bahwa kandidatnya ini tau β¨ basic β¨ tentang model ga cuma pake sklearn doang. Gimana kalo datanya ditambah, gimana kalo metrics diganti dkk
Jadi kalo data scientist dan baru bisa ngefit doang, bisa belajar lagi statsnya biar nggak ngeblank kalo interview π
Eh tapi wa kurang tahu sebenarnya di Indonesia interviewnya udah kayak gini apa blm. Jaga2 aja. Good luck π€
Eh tapi wa kurang tahu sebenarnya di Indonesia interviewnya udah kayak gini apa blm. Jaga2 aja. Good luck π€
Karena pada nanyain belajar statistik dan basic gini enaknya di mana nih si @pacmannai lagi sale program statistik. Mayan buat yg mau prepare wawancara DS/ML
Haha enggak pernah seumur hidup. Is it a thing in Indonesia???
Pertanyaannya praktikal yg mungkin aku bakal alami di kerjaan, kayak gimana kalo datanya dikit pake model apa dkk kayak di atas
Coding interviewnya misalnya gmn output angka di mana tiap angka punya probability masing2 untuk jadi output, yg mana di kerjaan aku beneran pernah π
Coding interviewnya misalnya gmn output angka di mana tiap angka punya probability masing2 untuk jadi output, yg mana di kerjaan aku beneran pernah π
Loading suggestions...