搜索引擎中中文WEB文本自動(dòng)分類(lèi)研究.pdf 全文
本文關(guān)鍵詞:搜索引擎中中文WEB文本自動(dòng)分類(lèi)研究,由筆耕文化傳播整理發(fā)布。
暨南大學(xué)碩士學(xué)位論文搜索引擎中中文WEB文本自動(dòng)分類(lèi)研究
摘 要隨著網(wǎng)絡(luò)信息的迅猛發(fā)展,搜索引擎順應(yīng)潮流而生,在網(wǎng)絡(luò)信息檢索中起到
舉足輕重的作用。在使用搜索引擎時(shí),我們總希望能獲得更快的速度和更高的精
度。通過(guò)文本的自動(dòng)分類(lèi),能有效的提高搜索引擎的執(zhí)行效率,因此本文中我們
重點(diǎn)研究中文文本自動(dòng)分類(lèi)的相關(guān)技術(shù),從而促進(jìn)信息化的發(fā)展。本文首先介紹了搜索引擎的工作原理和體系結(jié)構(gòu),然后逐一研究了和中文文
本分類(lèi)相關(guān)的中文分詞、特征抽取和文本分類(lèi)算法等幾大關(guān)鍵技術(shù)。通過(guò)分析研
究當(dāng)前已有的中文分詞算法,結(jié)合中文自身特點(diǎn),提出了一種基于2-Gram模型
HASH機(jī)制的中文分詞的改進(jìn)算法。同時(shí)對(duì)當(dāng)前流行的幾種常用的文本分類(lèi)算法進(jìn)
行了比較研究,結(jié)合前人的研究經(jīng)驗(yàn),提出一種基于VSM模型KNN算法的中文文本
自動(dòng)分類(lèi)系統(tǒng)方案。最后對(duì)中文文本分類(lèi)的相關(guān)研究作總結(jié)和展望。
關(guān)鍵字:搜索引擎、 中文分詞、 特征抽取、 文本分類(lèi)算法、 VSM-KNN
iii 暨南大學(xué)碩士學(xué)位論文搜索引擎中中文WEB文本自動(dòng)分類(lèi)研究
AbstractAlong with the fast development in network information, the search engine
complied with the tidal current lives, plays the pivotal role in the network
information retrieval. When use search engine, we always hoped that we can obtain a
quicker speed and a higher precision. Through automatic text classification, it can
improve the efficiency of search engines. Therefore this paper we focus on related
technologies about the Chinese automatic classification, thus promoting the
development of information technology This paper introduced a search engine, the principle and structure, and then
research several key technologies such as Chinese word segmentation, feature
extraction and classification algorithms. Through the analysis current bas
本文關(guān)鍵詞:搜索引擎中中文WEB文本自動(dòng)分類(lèi)研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):137518
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/137518.html