集成方法結合了多個模型的輸出以提高性能,在包括神經網絡的機器學習領域中已取得了重大的成果。過去相關研究已顯示可減少需要多個模型相關的成本,例如訓練時間和參數數量。本論文著重於一種新穎的方法來應用集成方法,該方法既不會增加參數數量,又能提高性能。所提出的方法通過創建單個模型的變體並整合這些變體來進行操作。這些變體是通過更改層順序創建的。本論文並提出了兩種方法來訓練這種模型。所提出的方法可以與傳統集成方法結合,以進一步提高性能。近年來,轉換器在自然語言處理方面取得了巨大的成?。因此選擇了轉換器在機器翻譯上作為評估。在使用相同數量的參數的情況下,IWSLT 2014德語翻譯英語和法語翻譯英語與單個基線模型相比,至少增加了0 7 BLEU分數。對於3個模型和5個模型的集成,所提出的方法在沒有增加參數的情況下,整體最小增加了0 3 BLEU分數。相較下,5個基線模型的集合比3個基線模型的集合提高了約0 42 BLEU分數,但需要增加66%的參數。
Improving Transformer Performance Using Ensemble of Variations of One Model from Layer Permutation Training
彥翔, 廖. (Author). 2020
學生論文: Doctoral Thesis