EITC/AI/ARL Advanced Reinforcement Learning minangka program Sertifikasi IT Eropa babagan pendekatan DeepMind kanggo sinau penguatan ing intelijen buatan.
Kurikulum EITC/AI/ARL Advanced Reinforcement Learning fokus ing aspek teoritis lan katrampilan praktis ing teknik pembelajaran penguatan saka perspektif DeepMind sing diatur ing struktur ing ngisor iki, nyakup konten didaktik video sing komprehensif minangka referensi kanggo Sertifikasi EITC iki.
Learning reinforcement (RL) minangka area pembelajaran mesin sing prihatin babagan kepiye para agen cerdas kudu tumindak ing lingkungan supaya bisa nggedhekake pemahaman ganjaran kumulatif. Sinau penguatan minangka salah sawijine saka telung paradigma pembelajaran mesin dhasar, kalebu pembelajaran supervisi lan pembelajaran tanpa pengawasan.
Sinau penguatan beda karo pembelajaran sing diawasi supaya ora mbutuhake pasangan input/output sing diwenehi label, lan ora mbutuhake tumindak sub-optimal supaya bisa diperbaiki kanthi eksplisit. Nanging fokuse yaiku nemokake keseimbangan antara eksplorasi (wilayah sing durung dipetakan) lan eksploitasi (ilmu saiki).
Lingkungan biasane kasebut ing proses proses keputusan Markov (MDP), amarga akeh algoritma pembelajaran penguatan kanggo konteks iki nggunakake teknik pemrograman dinamis. Bentenipun utama ing antarane metode pemrograman dinamis klasik lan algoritma pembelajaran penguatan yaiku sing terakhir ora nganggep babagan model matematika MDP sing tepat lan target target MDP gedhe ing endi metode sing pas dadi ora bisa digunakake.
Amarga umume, pembelajaran penguatan diteliti ing pirang-pirang disiplin ilmu, kayata teori game, teori kontrol, riset operasi, teori informasi, optimasi adhedhasar simulasi, sistem multi-agen, intelijen swarm, lan statistik. Ing literatur operasi lan kontrol literatur, pembelajaran tulangan diarani kira-kira program dinamis, utawa program neuro-dinamis. Masalah kepinteran ing sinau penguatan uga wis ditliti ing teori kontrol optimal, sing biasane gegayutan karo eksistensi lan karakterisasi solusi optimal, lan algoritma kanggo pitungan sing tepat, lan kurang karo sinau utawa panyerakan, utamane yen ora ana model matematika lingkungan. Ing teori ekonomi lan game, pembelajaran penguatan bisa digunakake kanggo nerangake kepiye keseimbangan bisa muncul kanthi rasionalitas sing diwatesi.
Penguatan dhasar dimodelake minangka proses keputusan Markov (MDP). Ing matématika, proses kaputusan Markov (MDP) minangka proses kontrol stokastik wektu diskrit. Nyedhiyakake kerangka matematika kanggo nggawe keputusan modeling ing kahanan sing asil sebagian acak lan sebagian ana ing sangisor pengendali keputusan. MDP migunani kanggo nyinaoni masalah optimasi sing ditanggulangi liwat program dinamis. MDP paling ora dikenal wiwit taun 1950an. Panelitian inti babagan proses keputusan Markov asil saka buku Ronald Howard taun 1960, Dynamic Programming lan Markov Processes. Iki digunakake ing akeh disiplin ilmu, kalebu robotika, kontrol otomatis, ekonomi lan manufaktur. Jeneng MDP asale saka matématikawan Rusia Andrey Markov amarga minangka tambahan saka rantai Markov.
Ing saben langkah wektu, proses kasebut ana ing sawetara negara bagian S, lan sing nggawe keputusan bisa milih tumindak sing kasedhiya ing negara S. Proses kasebut bakal ditanggepi ing wektu sabanjure kanthi acak pindhah menyang negara bagian S 'anyar, lan menehi sing nggawe keputusan menehi hadiah sing cocog Ra (S, S ').
Kemungkinan proses kasebut pindhah menyang negara anyar S 'dipengaruhi dening tumindak sing dipilih a. Khusus, diwenehake dening fungsi transisi negara Pa (S, S '). Mangkene, negara bagian S 'sabanjure gumantung karo negara S saiki lan tumindak sing nggawe keputusan a. Nanging yen diwenehi S lan a, kondhisi kasebut bebas saka kabeh negara lan tumindak sadurunge. Kanthi tembung liyane, transisi negara MDP gawe marem properti Markov.
Proses keputusan Markov minangka tambahan saka rantai Markov; bedane yaiku tambahan tumindak (ngidini pilihan) lan hadiah (menehi motivasi). Kosok baline, yen mung ana siji tumindak kanggo saben negara (kayata "ngenteni") lan kabeh hadiah padha (kayata "nol"), proses keputusan Markov nyuda rantai Markov.
Agen pembelajaran penguatan sesambungan karo lingkungane kanthi langkah wektu sing diskrit. Ing saben wektu t, agen nampa status S (t) saiki lan ganjaran r (t). Banjur milih tumindak a (t) saka sawetara tumindak sing kasedhiya, sing banjur dikirim menyang lingkungan. Lingkungan pindhah menyang negara anyar S (t + 1) lan ganjaran r (t + 1) sing ana gandhengane karo transisi ditemtokake. Tujuane agen pembelajaran penguat yaiku sinau kabijakan sing maksimal nggayuh hadiah kumulatif sing dikarepake.
Ngrumusake masalah minangka MDP nganggep agen langsung ngamatake kahanan lingkungan saiki. Ing kasus iki, masalah kasebut diarani bisa diamati kanthi lengkap. Yen agen kasebut mung nduweni akses menyang bagean negara, utawa yen negara sing diamati rusak dening swara, agen kasebut bisa uga bisa diamati kanthi parsial, lan kanthi resmi masalah kasebut kudu dirumusake minangka proses keputusan Markov sing bisa diamati Sebagean. Ing kaloro kasus kasebut, tumindak sing kasedhiya kanggo agen bisa diwatesi. Contone, negara saldo akun bisa diwatesi dadi positif; yen nilai negara saiki yaiku 3 lan transisi negara nyoba nyuda nilai nganti 4, transisi ora bakal diidini.
Nalika kinerja agen kasebut dibandhingake karo agen sing tumindak kanthi optimal, prabédan kinerja ngasilake pemahaman penyesalan. Supaya bisa tumindak kanthi optimal, agen kasebut kudu nalar babagan konsekuensi jangka panjang saka tumindak kasebut (yaiku, maksimalake penghasilan mbesuk), sanajan ganjaran sing ana gandhengane bisa uga negatif.
Mangkono, sinau tulungan cocog banget karo masalah sing kalebu jangka panjang tinimbang perdagangan jangka pendek. Wis ditrapake kanthi sukses ing macem-macem masalah, kalebu kontrol robot, jadwal jadwal, telekomunikasi, backgammon, checkers lan Go (AlphaGo).
Rong unsur nggawe pembelajaran penguatan kuat: panggunaan conto kanggo ngoptimalake kinerja lan panggunaan fungsi kanggo ngatasi lingkungan sing akeh. Thanks kanggo rong komponen utama kasebut, pembelajaran penguatan bisa digunakake ing lingkungan sing akeh ing kahanan ing ngisor iki:
- Model lingkungan dikenal, nanging solusi analitik ora kasedhiya.
- Mung model simulasi lingkungan sing diwenehake (subyek optimasi adhedhasar simulasi).
- Siji-sijine cara kanggo nglumpukake informasi babagan lingkungan yaiku sesambungan karo sampeyan.
Kaloro masalah kasebut bisa uga dianggep masalah ngrencanakake (amarga kasedhiya sawetara model), dene sing paling pungkasan bisa uga dianggep minangka masalah pembelajaran sing sejatine. Nanging, pembelajaran penguatan ngowahi loro masalah perencanaan dadi masalah pembelajaran mesin.
Dagang eksplorasi vs. eksploitasi wis ditliti kanthi luwih lengkap liwat masalah bandit multi-bersenjata lan MDP ruang angkasa sing winates ing Burnetas lan Katehakis (1997).
Sinau penguatan mbutuhake mekanisme eksplorasi sing cerdas; milih tumindak kanthi acak, tanpa nuduhake distribusi kemungkinan probabilitas, nuduhake kinerja sing kurang apik. Kasus proses keputusan Markov sing winates (cilik) cukup dingerteni. Nanging, amarga ora ana algoritma sing ukurane cukup karo jumlah negara bagian (utawa ukuran masalah karo ruang negara tanpa wates), metode eksplorasi sederhana paling praktis.
Sanajan masalah eksplorasi ora dianggep lan sanajan negara kasebut bisa diamati, masalah kasebut tetep nggunakake pengalaman kepungkur kanggo ngerteni tindakan sing nyebabake hadiah kumulatif sing luwih dhuwur.
Kanggo ngerteni kanthi rinci babagan kurikulum sertifikasi, sampeyan bisa nggedhekake lan nganalisa tabel ing ngisor iki.
Kurikulum Sertifikasi Pembelajaran Penguatan Lanjut EITC/AI/ARL referensi materi didaktik akses terbuka ing wangun video. Proses sinau dipérang dadi struktur langkah-langkah (program -> pelajaran -> topik) sing nyakup bagean kurikulum sing cocog. Konsultasi tanpa wates karo ahli domain uga diwenehake.
Kanggo rincian mriksa prosedur Sertifikasi Cara kerjane.
Sumber Referensi Kurikulum
Kontrol level manungsa liwat publikasi Learning Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kursus terbuka kanggo sinau babagan tulangan jero ing UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL nglamar masalah bandit K-armbed saka Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Unduh materi persiapan sinau mandiri offline lengkap kanggo program EITC/AI/ARL Advanced Reinforcement Learning ing file PDF
Bahan persiapan EITC/AI/ARL - versi standar
Bahan persiapan EITC/AI/ARL - versi lengkap kanthi pitakonan review