以Bootstrapping方法萃取網路優惠摘要

Translated title of the thesis: Extracting Network Preferential Summary with Bootstrapping Method
  • 程 彥輔

Student thesis: Master's Thesis

Abstract

台灣電子商務業的產值從2008年開始就持續有明顯的成長,其中消費者對於購物折扣等優惠相關資訊通常具有較大的興趣,由於現今網路的發達,為了找尋所需資訊,使用者通常使用搜尋引擎上網搜尋,但是網路資訊量爆炸性的成長、網頁設計的自由性,使得雜訊大量的存在於網頁之中,搜尋引擎要保持最新以及全面性的搜尋結果並不容易,尤其是特定主題的資訊搜尋,使用者常需要自行判斷是否為其所需的資訊,因為上述需求而發展文件探詢的智慧機制是很重要的。 本研究將使用Bootstrapping的方法,結合文字探勘技術,先找出優惠相關之關鍵字後,以優惠資訊較為齊全的優惠網站作為種子網頁,藉由XML路徑語言(XPath)找出存有優惠資訊的Document Object Model (DOM)位置,得到萃取優惠資訊的樣板,利用該樣版從將選定網站內所有網頁下載下來,經過斷詞系統處理以及設計一考慮字詞距離的Distance Point-Wise Mutual Information (DPMI)分析,將這些資訊存放後,以Bootstrapping方法持續學習新的關鍵字,將學習結果中關鍵字與店家或產品名稱的組合用於搜尋引擎中找出更多的優惠網站,延續前述步驟找出優惠資訊摘要等,建立一個使用者介面,提供使用者以關鍵字查詢優惠資訊,例如:買一送一、同行免費、第二件半價等關鍵字。 在實驗結果的部分,結果顯示使用八個種子關鍵字得到最好的召回率及F-measure,使用名詞合併後的準確率較合併前高出10 7%,使用DPMI進行實驗時以距離為2可以得到最高的準確率29 4%,較於PMI進行實驗結果得到的20%高出9 4%,且最後利用關鍵字與店家或產品名稱找出新優惠網站的實驗中最高也可以得到59%的準確率,召回率則有32 9%。
Date of Award2015 Jul 8
Original languageChinese
SupervisorHei-Chia Wang (Supervisor)

Cite this

'