Bidang pembelajaran mesin nyakup macem-macem metodologi lan paradigma, saben cocog kanggo macem-macem jinis data lan masalah. Antarane paradigma kasebut, sinau sing diawasi lan tanpa pengawasan minangka loro sing paling dhasar.
Pembelajaran sing diawasi kalebu latihan model ing set data kanthi label, ing ngendi data input dipasangake karo output sing bener. Model sinau peta input menyang output kanthi nyilikake kesalahan antarane prediksi lan output nyata. Pembelajaran sing ora diawasi, ing tangan liyane, ngurusi data sing ora dilabeli, ing ngendi tujuane kanggo nyimpulake struktur alam sing ana ing sakumpulan titik data.
Ana jinis pembelajaran sing nggabungake teknik sinau sing diawasi lan ora diawasi, asring diarani minangka pembelajaran semi-supervised. Pendekatan iki nggunakake data sing dilabel lan ora dilabeli sajrone proses latihan. Alesan kanggo sinau semi-diawasi yaiku data sing ora dilabeli, nalika digunakake bebarengan karo data sing diwenehi label, bisa ngasilake asil dandan sing cukup kanggo akurasi sinau. Iki utamané migunani ing skenario ngendi data labeled langka utawa larang kanggo njupuk, nanging data unlabeled KALUBÈRAN lan gampang kanggo ngumpulake.
Pembelajaran semi-supervised adhedhasar asumsi yen struktur dhasar saka data sing ora ana label bisa nyedhiyakake informasi sing migunani sing nglengkapi data sing diwenehi label. Asumsi iki bisa dadi pirang-pirang wujud, kayata asumsi kluster, asumsi manifold, utawa asumsi pamisah densitas rendah. Asumsi kluster nyatakake yen titik data ing kluster sing padha bisa duwe label sing padha. Asumsi manifold nuduhake manawa data dimensi dhuwur dumunung ing macem-macem dimensi sing luwih murah, lan tugase kanggo sinau manifold iki. Asumsi pamisahan kapadhetan rendah adhedhasar gagasan yen wates keputusan kudu ana ing wilayah sing kapadhetan data kurang.
Salah sawijining teknik sing umum digunakake ing pembelajaran semi-supervised yaiku latihan mandiri. Ing latihan mandiri, model wiwitane dilatih ing data sing diwenehi label. Iku banjur nggunakake prediksi dhewe ing data unlabeled minangka pseudo-label. Model kasebut luwih dilatih ing set data sing ditambah iki, kanthi terus-terusan nyaring prediksi. Teknik liya yaiku co-training, ing ngendi loro utawa luwih model dilatih bebarengan ing macem-macem tampilan data. Saben model tanggung jawab kanggo menehi label bagean saka data sing ora dilabeli, sing banjur digunakake kanggo nglatih model liyane. Cara iki nggunakake redundansi ing macem-macem tampilan data kanggo nambah kinerja sinau.
Metode adhedhasar grafik uga umum ing pembelajaran semi-supervised. Cara kasebut nggawe grafik ing ngendi simpul makili titik data, lan pinggiran nuduhake podho ing antarane. Tugas sinau banjur dirumusake maneh minangka masalah optimasi adhedhasar grafik, ing ngendi tujuane kanggo nyebarake label saka simpul sing dilabeli menyang sing ora dilabeli nalika njaga struktur grafik. Tèknik iki utamané efektif ing domain sing data kanthi alami mbentuk jaringan, kayata jaringan sosial utawa jaringan biologis.
Pendekatan liyane kanggo nggabungake pembelajaran sing diawasi lan tanpa pengawasan yaiku liwat pembelajaran multi-tugas. Ing learning multi-tugas, macem-macem tugas learning ditanggulangi bebarengan, nalika eksploitasi commonalities lan beda antarane tugas. Iki bisa dideleng minangka wujud transfer induktif, ing ngendi kawruh sing dipikolehi saka tugas siji mbantu ningkatake sinau liyane. Sinau multi-tugas bisa migunani banget yen ana perwakilan utawa ruang fitur ing antarane tugas, ngidini transfer informasi.
Conto praktis saka semi-supervised learning yaiku ing bidang natural language processing (NLP). Coba tugas analisis sentimen, ing ngendi tujuane kanggo nggolongake teks sing diwenehake minangka positif utawa negatif. Data sing diwenehi label, kayata review kanthi label sentimen, bisa uga diwatesi. Nanging, ana akeh teks tanpa label sing kasedhiya. Pendekatan pembelajaran semi-diawasi bisa melu latihan pangklasifikasi sentimen babagan data sing dilabeli lan digunakake kanggo prédhiksi sentimen data sing ora dilabeli. Prediksi kasebut banjur bisa digunakake minangka data latihan tambahan, ningkatake kinerja klasifikasi.
Conto liyane bisa ditemokake ing klasifikasi gambar. Ing pirang-pirang kasus, njupuk gambar kanthi label mbutuhake tenaga kerja lan larang regane, dene gambar sing ora dilabeli akeh banget. Pendekatan semi-diawasi bisa uga nggunakake sakumpulan gambar cilik kanggo nglatih model awal. Model iki banjur bisa ditrapake ing gambar tanpa label kanggo ngasilake pseudo-label, sing banjur digunakake kanggo nglatih maneh model kasebut.
Integrasi pembelajaran sing diawasi lan ora diawasi liwat pembelajaran semi-diawasi lan metodologi sing ana gandhengane nuduhake pendekatan sing kuat ing pembelajaran mesin. Kanthi nggunakake kekuwatan saka loro paradigma kasebut, bisa uga entuk dandan sing signifikan ing kinerja model, utamane ing domain sing data sing diwenehi label diwatesi nanging data sing ora dilabeli akeh banget. Pendekatan iki ora mung nambah kemampuan model kanggo generalisasi saka data winates nanging uga menehi framework luwih mantep kanggo mangerteni struktur dhasar saka dataset Komplek.
Pitakonan lan jawaban anyar liyane babagan Sinau Mesin Cloud Google EITC/AI/GCML:
- Yen ana sing nggunakake model Google lan nglatih dhewe, apa Google nahan perbaikan sing digawe saka data latihan?
- Kepiye carane ngerti model ML sing digunakake, sadurunge dilatih?
- Apa tugas regresi?
- Kepiye carane bisa transisi antarane tabel Vertex AI lan AutoML?
- Apa bisa nggunakake Kaggle kanggo ngunggah data finansial lan nindakake analisis statistik lan prakiraan nggunakake model ekonometrik kayata R-kuadrat, ARIMA utawa GARCH?
- Apa machine learning bisa digunakake kanggo prédhiksi risiko penyakit jantung koroner?
- Apa owah-owahan nyata amarga rebranding Google Cloud Machine Learning minangka Vertex AI?
- Apa metrik evaluasi kinerja model?
- Apa regresi linear?
- Apa bisa nggabungake macem-macem model ML lan nggawe AI master?
Deleng pitakonan lan jawaban liyane ing EITC/AI/GCML Google Cloud Machine Learning