Deep Reinforcement Learning with Adaptive-Halting Policy for Temporal Early Classification

論文翻譯標題: 具適應性停止策略之深度強化學習法於時間序列早期分類之研究
  • 周 佳志

學生論文: Doctoral Thesis

摘要

預測問題一直以來是機器學習中相當重要的課題,無論是在製造業、醫療業或是金融業,若能及早察覺先機或異常,並採取相對應的反應,在背後所帶來的利益或是降低的成本是非常可觀的。時間序列預測是利用過去一段時間內某事件的時間特徵,來預測未來一段時間內對於該事件發生的可能性。在現實生活中,?多時間序列預測的研究都是使用多變量的時間序列,多變量時間序列在每個時間點上同時擁有著?多不同的特徵,這些特徵能讓機器更能了解現實的狀況。隨著運算科技的成熟,深度學習網路常被應用到像多變量時間序列預測的問題,如:使用卷積神經網路或是長短期記憶等深度學習的方法,可以讓機器的學習更能有效率且準確地分析未來可能的趨勢。強化學習的發展,嘗試著讓機器學習如何靠自己,根據環境狀態而做出行動,以取得最大化的預期利益。讓機器在未知的環境學習如何做決定。由Deep mind公司所提出的深度確定性策略梯度(Deep Deterministic Policy Gradient DDPG),能有效的分析連續訊號以及動作,讓機器與高維度空間環境互動,學習做出最佳的決策。本研究將會結合上述的研究,本研究以DDPG作為主要研究框架,提出一個具適應性停止策略之深度強化學習網路框架用於早期預測(EarlyDDPG),分析多變量時間序列並且進行早期預測。讓機器能學習該在什麼時間點上中止訓練,並且做出一定水準的預測結果。目前本研究與先前文獻相比,本研究能使用更短的時間資訊,獲得與先前文獻接近的結果,甚至能有更好的預測結果。在未來若需要能應用於真實環境,本研究也能藉此框架因應各種情境作出早期預測。 本研究使用美國加州大學河邊分校專門為時間序列分類問題所建立的UCR時間序列分類資料庫來進行本次的實驗研究。本研究參考Martinez Perrin Ramasso與 Rombaut (2018)的文獻,使用了wafer機台製程資料集、ECG心肌梗塞心電圖資料集以及GunPoint動作位置資料集三項資料集作為本次的實驗資料集,這三項資料集皆為真實資料集。 最後,本研究所提出的具適應性停止策略之深度強化學習框架(EarlyDDPG)的實驗結果,經過在多數的實驗資料集的測試下,獲得不錯的預測結果,並且同時在預測所使用的時間資訊上大多能比先前文獻提早至少40%的時間,可以用更少的資訊預測出接近或是更好的預測結果。
獎項日期2020
原文English
監督員Sheng-Tun Li (Supervisor)

引用此

'