Regularisasi ing konteks machine learning minangka teknik penting sing digunakake kanggo ningkatake kinerja generalisasi model, utamane nalika nangani data dimensi dhuwur utawa model kompleks sing cenderung overfitting. Overfitting dumadi nalika model sinau ora mung pola dhasar ing data latihan nanging uga gangguan, nyebabake kinerja sing kurang apik ing data sing ora katon. Regularisasi nyedhiyakake informasi tambahan utawa kendala kanggo model kanggo nyegah overfitting kanthi ngukum model sing rumit banget.
Ing idea dhasar konco regularization kanggo incorporate istilah paukuman menyang fungsi mundhut sing model nyoba kanggo nyilikake. Istilah paukuman iki nyurung model kanggo nyetel swara ing data latihan kanthi ngetrapake biaya kanggo kerumitan, biasane diukur kanthi gedhene paramèter model. Kanthi mengkono, regularisasi mbantu nggayuh imbangan antarane pas data latihan lan njaga kemampuan model kanggo generalize kanggo data anyar.
Ana sawetara jinis teknik regularisasi sing umum digunakake ing pembelajaran mesin, sing paling umum yaiku regularisasi L1, regularisasi L2, lan putus sekolah. Saben teknik kasebut nduweni ciri lan aplikasi dhewe.
1. Regularisasi L1 (Regression Lasso): Regularisasi L1 nambahake paukuman sing padha karo nilai absolut saka gedhene koefisien kanggo fungsi mundhut. Secara matematis, bisa diwakili minangka:
ngendi minangka fungsi mundhut asli,
punika paramèter regularization, lan
yaiku paramèter model. Efek saka regularization L1 iku cenderung kanggo gawé model jarang, tegese iku drive sawetara koefisien menyang nul, èfèktif nindakake pilihan fitur. Iki bisa migunani banget nalika nangani data dimensi dhuwur sing akeh fitur bisa uga ora relevan.
2. Regularisasi L2 (Regression Ridge): Regularisasi L2 nambah paukuman sing padha karo kuadrat gedhene koefisien kanggo fungsi mundhut. Iki ditulis kanthi matematis minangka:
Regularisasi L2 nyuda koefisien gedhe kanthi ngukum angka kuadrat, sing ndadékaké bobot bobot sing luwih rata. Ora kaya L1, regularisasi L2 ora ngasilake model sing jarang, amarga ora meksa koefisien dadi persis nol, nanging tetep cilik. Iki utamané migunani kanggo ngindhari overfitting nalika kabeh fitur duwe sawetara relevansi.
3. Regularisasi Jaring Elastis: Jaring Elastis nggabungake regularisasi L1 lan L2. Utamane migunani ing kahanan sing ana macem-macem fitur sing gegandhengan. Hukuman Elastic Net minangka kombinasi linear saka penalti L1 lan L2:
Kanthi nyetel paramèter lan
, Net Elastis bisa ngimbangi keuntungan saka regularisasi L1 lan L2.
4. Putus: Dropout minangka teknik regularisasi sing dirancang khusus kanggo jaringan saraf. Sajrone latihan, dropout kanthi acak nyetel bagian sekedhik saka kelenjar (neuron) ing lapisan menyang nol ing saben pengulangan. Iki ngalangi jaringan saka gumantung banget ing sembarang simpul lan nyengkuyung jaringan kanggo sinau fitur sing luwih mantep. Dropout utamane efektif ing model pembelajaran jero sing overfitting minangka masalah umum amarga akeh parameter.
5. Mungkasi awal: Sanajan dudu teknik regularisasi ing pangertèn tradisional, mandheg awal minangka strategi kanggo nyegah overfitting kanthi mungkasi proses latihan nalika kinerja ing set validasi wiwit mudhun. Iki utamané migunani ing cara iteratif kaya gradient keturunan ngendi model dianyari ajeg.
Regularisasi penting ing machine learning amarga ngidini model bisa nindakake kanthi apik ing data sing ora katon kanthi ngontrol kerumitan. Pilihan teknik regularisasi lan nyetel paramèter ( kanggo L1 lan L2, tingkat dropout kanggo dropout) penting lan asring mbutuhake eksperimen lan validasi silang kanggo entuk asil sing optimal.
Contone, nimbang model regresi linier sing dilatih ing set data kanthi akeh fitur. Tanpa regulerisasi, model kasebut bisa menehi bobot gedhe kanggo sawetara fitur, pas karo data latihan kanthi rapet nanging ora nindakake data uji amarga overfitting. Kanthi ngetrapake regularisasi L2, model kasebut disaranake kanggo nyebarake bobot kanthi luwih rata, sing bisa nyebabake generalisasi sing luwih apik babagan data anyar.
Ing skenario liyane, jaringan saraf sing dilatih ing data gambar bisa uga overfit kanthi ngeling-eling pola tartamtu ing gambar latihan. Kanthi nglamar dropout, jaringan kepeksa sinau fitur sing luwih umum sing migunani ing macem-macem gambar, nambah kinerja ing data sing ora katon.
Regularisasi minangka konsep dhasar ing machine learning sing mbantu nyegah overfitting kanthi nambah paukuman kanggo kerumitan fungsi mundhut model. Kanthi ngontrol kerumitan model, teknik regularisasi kayata L1, L2, Elastic Net, dropout, lan stopping awal mbisakake generalisasi sing luwih apik kanggo data anyar, dadi alat sing penting ing toolkit praktisi pembelajaran mesin.
Pitakonan lan jawaban anyar liyane babagan Sinau Mesin Cloud Google EITC/AI/GCML:
- Nalika bahan maca ngomong babagan "milih algoritma sing bener", tegese kabeh algoritma sing bisa ditindakake wis ana? Kepiye carane ngerti yen algoritma minangka "tengen" kanggo masalah tartamtu?
- Apa hyperparameter sing digunakake ing machine learning?
- Apa basa pemrograman kanggo sinau mesin yaiku Just Python
- Kepiye cara sinau mesin ditrapake ing jagad ilmu?
- Kepiye carane sampeyan nemtokake algoritma pembelajaran mesin sing bakal digunakake lan kepiye sampeyan nemokake?
- Apa bedane antarane Federated Learning, Edge Computing lan On-Device Machine Learning?
- Kepiye nyiyapake lan ngresiki data sadurunge latihan?
- Apa tugas lan aktivitas awal tartamtu ing proyek pembelajaran mesin?
- Apa aturan jempol kanggo nggunakake strategi lan model machine learning tartamtu?
- Parameter endi sing nuduhake yen wektune kanggo ngalih saka model linear menyang sinau jero?
Deleng pitakonan lan jawaban liyane ing EITC/AI/GCML Google Cloud Machine Learning