繪圖處理器之子記憶體架構探勘及優化與其在CASLAB-GPUSIM上之實現

  • 曾 柏翔

學生論文: Master's Thesis

摘要

在現今深度學習應用上,矩陣乘積和卷積計算等矩陣運算都是不可或缺的基本運算單元。然而傳統的繪圖處理器子記憶體並沒有特別針對矩陣運算特性做架構上的調整,在相關應用上有著效能低落的問題,且子記憶體是影響繪圖處理器效能的主要原因之一。因此對於針對深度學習應用之繪圖處理器晶片更改子記憶體架構是必要的。 本論文提出了兩種針對矩陣運算特性的快取記憶體優化技術:Read Bypass Scheme(RBS)和Write Pseudo Allocate Policy(WPAP),RBS優化技術解決矩陣運算常把資料用2D?放方式所造成的搶Index問題,WPAP優化技術解決矩陣運算輸入及輸出資料位址分開和Strided Access Pattern的特性所造成的問題,並且在前期評估效能時以GPGPU-Sim實驗平台為基準,在11支矩陣運算應用程式下,使用RBS優化技術可增加161%的效能,使用WPAP優化技術可增加17 3%的效能,如果將兩者優化技術合併可獲得194 1%的效能提升。最後將優化後的繪圖處理器子記憶體架構整合進本實驗室的CASLAB-GPUSIM,使本實驗室的全系統模擬平台具有高效能的子記憶體系統。
獎項日期2017 八月 17
原文Chinese
監督員Chung-Ho Chen (Supervisor)

引用此

繪圖處理器之子記憶體架構探勘及優化與其在CASLAB-GPUSIM上之實現
柏翔, 曾. (Author). 2017 八月 17

學生論文: Master's Thesis