Hakemistot
vahvistusoppiminen
en reinforcement learning; RL
määritelmä
koneoppiminen, jossa ohjelma oppii fyysisessä tai virtuaalisessa ympäristössä tekemiensä toimintojen seurauksista saamansa palautteen avulla
koneoppiminen, jossa ohjelma oppii fyysisessä tai virtuaalisessa ympäristössä tekemiensä toimintojen seurauksista saamansa palautteen avulla
huomautus
Vahvistusoppimisessa oppiminen tapahtuu tyypillisesti yrityksen ja erehdyksen kautta: agentti (esimerkiksi robotti) suorittaa erilaisia toimintoja ja saa toiminnastaan joko positiivista tai negatiivista palautetta, jonka pohjalta agentin taustalla oleva ohjelma oppii ja pyrkii muuttamaan toimintaansa siten, että se johtaa positiiviseen palautteeseen. Palaute voi olla esimerkiksi numeerinen arvo, joka kertoo, kuinka hyvin agentti on suorittanut jonkin toiminnon.
Vahvistusoppimisessa oppiminen tapahtuu tyypillisesti yrityksen ja erehdyksen kautta: agentti (esimerkiksi robotti) suorittaa erilaisia toimintoja ja saa toiminnastaan joko positiivista tai negatiivista palautetta, jonka pohjalta agentin taustalla oleva ohjelma oppii ja pyrkii muuttamaan toimintaansa siten, että se johtaa positiiviseen palautteeseen. Palaute voi olla esimerkiksi numeerinen arvo, joka kertoo, kuinka hyvin agentti on suorittanut jonkin toiminnon.
Vahvistusoppimista hyödynnetään esimerkiksi itseohjautuvissa autoissa ja robotiikassa.
Käsitejärjestelmäkaavio: Tekoäly
Lähde: Tietotekniikan termitalkoot, 2025-04-23