系統識別號 U0026-1706201417045000
論文名稱(中文) 美食文章名稱實體辨識方法之研究
論文名稱(英文) The Method of Name Entity Recognition in Cuisine Article
校院名稱 成功大學
系所名稱(中) 資訊管理研究所
系所名稱(英) Institute of Information Management
學年度 102
學期 2
出版年 103
研究生(中文) 黃品瑞
研究生(英文) Ping-Ruei Huang
學號 R76014048
學位類別 碩士
語文別 中文
論文頁數 51頁
口試委員 指導教授-王惠嘉
中文關鍵字 餐廳名稱  美食名稱  部落格探勘  名稱實體擷取  搜尋引擎 
英文關鍵字 restaurant name  cuisine name  blog mining  Name Entity Recognition  search engine 
中文摘要 隨著生活型態逐漸精緻,美食觀光成為近年來熱門的現象,而近年來台灣美食小吃逐漸在國際受到矚目,甚至有許多外國觀光客為此慕名而來。而在決定享用那些美食之前,許多人會依其它人的建議去選擇。在WEB2.0的社群平台當中,部落格擁有豐富的美食相關資訊以及知識,這些有關美食的意見分享以及資訊交流,成為許多人在做決策時的參考依據。
此外,行動裝置的發展,讓地理資訊系統(Geographic Information System, GIS)以及相關的在地化服務(Location Based Service, LBS)隨之而生,許多使用者會利用所在地理位置來查詢需要的資料。但在查詢部落格文章時,常常因為螢幕大小的限制導致使用者在閱讀上的不便。因此,如何快速地從文章中獲得重要的名稱實體成為一個值得研究的議題。
因手持設備顯示的限制,需將資料精簡且準確的選出重要資訊。然而,常遇到的問題是因為擷取錯誤的用詞,導致資訊不夠精確。而過去許多研究為了改善此狀況,嘗試從這些複雜且非結構化的部落格文章中找出文章中的重要字詞。因此,名稱實體辨識(Name Entity Recognition, NER)成了重要工作。獲得名稱實體後,另一工作是判斷作者對特定美食的評價意見,此為意見探勘(Opinion Mining)的應用。
英文摘要 Among the Web 2.0 community platform, blogs have a wealth of information and knowledge of cuisine. These information of cuisine could be referenced by many people when making decisions. But when looking for blog post, it is often due to limitations of the size of handheld devices, you need to streamline and accurately get the important information. The most common problem is capturing the wrong words. Previous researches tried to find the important words in complex and unstructured blog post, but they couldn’t. Due to these reasons, Name Entity Recognition becomes an important work. We design a Name Entity Recognition method which include restaurant name entity and cuisine name entity to get important words in the article. For the purpose of getting restaurant name entity, we combine the traditional Name Entity Recognition methods, informativeness scores, with search engine. In addition, we observe the author’s writing habits to adjust informativeness scores. Furthermore, we use the results of word segmentation and search engine to get cuisine name entity. The results show the accuracy of named entity recognition become higher. After getting cuisine name entity, we capture author’s opinion through observing the sequence and the part of speech of words. Finally, we use these information to construct a cuisine system. This system can provide user information such as restaurant name, cuisine name and opinion.
論文目次 1. 緒 論 1
1.1 研究背景 1
1.2 研究動機與目的 3
1.3 研究範圍與限制 6
1.4 研究流程 6
1.5 論文大綱 7
2. 文獻探討 9
2.1 名稱實體辨識 9
2.1.1 Inverse Document Frequency (IDF) 9
2.1.2 xI measure 10
2.1.3 Residual IDF 10
2.1.4 Gain 11
2.2 自然語言處理 11
2.2.1 詞性標記 11
2.2.2 向量空間模型 12
2.2.3 中文斷詞處理 12
2.3 機器學習 15
2.3.1 監督式機器學習法 15
2.3.2 非監督式機器學習法 15
2.3.3 半監督式機器學習法 16
2.4 地理資訊系統 16
2.4.1 Google地圖 16
2.5 意見探勘 17
2.6 小結... 18
3. 研究方法 19
3.1 研究架構 19
3.2 資料前處理模組 21
3.3 名稱實體擷取模組 22
3.3.1 地理資訊 22
3.3.2 餐廳名稱 24
3.3.3 美食名稱 27
3.4 美食意見擷取模組 30
4. 系統建置與驗證 33
4.1 系統建置環境 33
4.2 實驗方法 33
4.2.1 資料來源 34
4.2.2 評估指標 34
4.3 實驗結果與分析 35
4.4 系統畫面範例 39
4.5 小結 41
5. 結論以及未來方向 42
5.1 研究成果 42
5.2 未來研究方向 45
參考文獻 47
參考文獻 英文文獻
