系統識別號 U0026-2408201510201800
論文名稱(中文) 以主題偵測與追蹤建置階層式知識檢索方法
論文名稱(英文) Hierarchical Knowledge Retrieval Based On Topic Detection and Tracking
校院名稱 成功大學
系所名稱(中) 工業與資訊管理學系碩士在職專班
系所名稱(英) Department of Industrial and Information Management (on the job class)
學年度 103
學期 2
出版年 104
研究生(中文) 吳克松
研究生(英文) Ko-Sung Wu
學號 R37021139
學位類別 碩士
語文別 中文
論文頁數 61頁
口試委員 指導教授-王惠嘉
中文關鍵字 文字探勘  主題偵測與追蹤  知識檢索  特徵選取  文件分群 
英文關鍵字 Text Mining  Topic Detection and Tracking  Knowledge Retrieval  Feature Selection  Document Clustering 
中文摘要 知識是企業重要的資產,隨著網際網路、資訊硬體設備快速的發展,儲存於系統中的非數據化知識越來越多且越複雜,導致使用者在利用傳統關鍵字查詢時,雖有找到符合的資料,但往往因為筆數過多、無法快速找到真正所需的資訊。面對這樣的資訊超載、無法有效檢索的窘境,主題相關的概念紛紛被提出應用,所謂的相關是指檢索詞彙與文章內文之間的一種吻合關係,雖然由主題的觀點來探討相關,較能滿足使用者的檢索需求,但大多是以全文為分析對象,忽略了文件特定部份的重要性,而且分析所得的主題多為單詞、不具關聯等特性。
英文摘要 With the more and more complex document-digitizing, the ability to find the desired information and related topics accurately is becoming more critical and difficult. This study proposes a novel approach of hierarchical knowledge retrieval based on topic detection and tracking, which retrieves relevant information from large volumes of documents and extracts the main topics to users. The part of speech is combined with bigram to obtain meaningful compound terms in data preprocessing. Different from other practice of feature selection, this method considers term weighting for different term of fields. Then calculates the similarity between documents, the hierarchy-related topics are generated after Single-Pass and AHC clustering. Results from our system are evaluated against the system of full text search on the intranet, indicating that this approach has improved not only the precision rate but also the F-measure. It's advantageous in moving up the efficiency of knowledge retrieval.
論文目次 第一章 緒論 1
1.1 研究背景 1
1.2 研究動機及目的 2
1.3 研究範圍與限制 4
1.4 研究流程 4
1.5 論文架構 6
第二章 文獻探討 7
2.1 分群方法 7
2.1.1 階層式分群演算法(Hierarchical Clustering Algorithms) 7
2.1.2 分割式分群演算法(Partitional Clustering Algorithms) 9
2.1.3 密度分群法(Density-Based Clustering) 10
2.1.4 網格分群法(Grid-Based Clustering) 11
2.1.5 模型分群法(Model-Based Clustering) 12
2.2 資訊檢索(Information Retrieval, IR) 12
2.3 特徵選取(Feature Selection) 14
2.4 主題偵測與追蹤(Topic Detection and Tracking, TDT) 16
2.4.1 相關任務 16
2.4.2 評估方法 19
2.4.3 主題偵測任務 19
2.4.4 主題追蹤任務 24
2.5 小結 26
第三章 研究方法 27
3.1 研究架構 27
3.2資料前置處理模組 29
3.3特徵選取模組 32
3.4 文件分群模組 33
3.4.1 計算文件相似度 33
3.4.2 文件分群 35
3.5 文件分類模組 36
3.6 主題偵測模組 37
第四章 系統建置與驗證 38
4.1系統實作設計 38
4.1.1 Data Collection 38
4.1.2 Data Preprocessing 39
4.1.3 Document Clustering 39
4.1.4 Topic Retrieval 39
4.2實驗方法 40
4.2.1 資料來源 40
4.2.2 比較對象 40
4.2.3 評估指標 41
4.2.4 實驗方法設計 41
4.3實驗結果與分析 43
4.4系統畫面範例 48
第五章 結論及未來研究方向 50
5.1研究成果 50
5.2未來研究方向 52
參考文獻 53
附錄一 詞類標記說明表 58
附錄二 停用字集(Stoplist) 60
