基於個體推薦系統之Q-learning性能改良研究

Translated title of the thesis: Convergence Improvement of Q-learning Based on Personalized Recommendation System
  • 姜 佳伶

Student thesis: Master's Thesis

Abstract

由於科技與電腦技術發展日新月異,藉由人工智慧,人類與電腦機器相互合作提升工作效率與增加便利性之目標得以實現。在人工智慧諸多領域中,增強式學習採取人類進行學習時之獎勵懲罰機制,利用真實環境中之回饋信號使得電腦機器在複雜環境中仍然能進行自我且強健之學習。增強式學習之元素包含學習代理人、當下環境之狀態集合、動作集合與即時獎勵機制與環境本身。雖然增強式學習之用途廣泛,在實現上仍面臨數項困境:其一是增強式學習之學習代理人於學習階段中除需選擇已自我探索過之動作,亦需同時具備向外探勘之傾向,然而這兩者之間的取捨不易,很難找到適當的平衡點,若選擇失當可能會造成學習錯誤或者學習成本上升;此外由於增強式學習之學習代理人需與環境互動獲得即時獎勵,然此互動過程可能造成學習時間過於冗長。為了克服前述困難,本論文提出一新作法,藉由引入一個體化推薦系統來提供增強式學習Q-learning之前饋候選動作與回饋獎勵機制,以實現互相教學之自我適應學習。本論文以懸崖散步模擬及視覺追蹤實驗來驗證所提方法之有效性,模擬及實驗結果顯示本論文所提方法確實可行。
Date of Award2018 Jun 28
Original languageChinese
SupervisorMing-Yang Cheng (Supervisor)

Cite this

'