基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:通用搜索引擎能夠?yàn)槿藗兲峁┽槍A啃畔⒌臋z索服務(wù),搜索結(jié)果“廣而全”,但是對于特定領(lǐng)域的搜索,通用搜索引擎往往不能滿足人們“精而深”的檢索需求。于是出現(xiàn)了越來越多的針對各個領(lǐng)域的垂直搜索引擎,滿足人們對于特定領(lǐng)域的信息檢索需求。而隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和普及,網(wǎng)絡(luò)上的文本信息資源急劇增長,如何對這些網(wǎng)頁中的信息進(jìn)行文本挖掘就顯得尤為重要。因此,針對特定領(lǐng)域的文本進(jìn)行挖掘及相關(guān)的分析處理具有重要的意義。 本文主要是圍繞垂直搜索引擎技術(shù)展開研究,運(yùn)用文本挖掘算法,將文本聚類技術(shù)應(yīng)用到實(shí)際的系統(tǒng)中,主要工作包括以下內(nèi)容: (1)提出了一種基于Heritrix、Lucene和WebKit的垂直搜索引擎,實(shí)現(xiàn)了對特定領(lǐng)域的信息采集、預(yù)處理、索引和檢索。在網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)方面,利用WebKit來解析動態(tài)網(wǎng)頁,獲取網(wǎng)頁中的結(jié)構(gòu)化信息。 (2)介紹了用于文本挖掘的各種聚類算法,并在分析和研究的基礎(chǔ)上,提出了一種改進(jìn)的single-pass聚類算法,該方法結(jié)合了層次聚類的思想,先形成初步類后,再由single-pass算法完成聚類;并對改進(jìn)后的算法進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的single-pass聚類算法,查準(zhǔn)率提高了10%,查全率提高了12%,Fl-measure提高了11%。 (3)詳細(xì)介紹了基于垂直搜索引擎的文本挖掘系統(tǒng)的設(shè)計與實(shí)現(xiàn)。在系統(tǒng)設(shè)計方面,主要由文本信息采集模塊、文本信息預(yù)處理模塊、文本信息挖掘模塊和文本信息服務(wù)模塊四個部分組成。在系統(tǒng)實(shí)現(xiàn)方面,給出了系統(tǒng)的整體部署圖和各模塊詳細(xì)的實(shí)現(xiàn)過程,并給出了系統(tǒng)運(yùn)行的效果圖,實(shí)現(xiàn)了對手機(jī)評論信息的文本挖掘和手機(jī)評測信息的垂直搜索服務(wù)。
【關(guān)鍵詞】:垂直搜索引擎 文本挖掘 Lucene Heritrix Single-pass算法
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 圖目錄9-10
- 表目錄10-11
- 第一章 緒論11-17
- 1.1 研究背景與意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀分析12-15
- 1.2.1 垂直搜索引擎相關(guān)研究分析12-14
- 1.2.2 文本挖掘相關(guān)研究分析14-15
- 1.3 論文的組織結(jié)構(gòu)15-17
- 第二章 垂直搜索引擎技術(shù)剖析17-29
- 2.1 通用搜索引擎17-20
- 2.1.1 網(wǎng)絡(luò)爬蟲18-20
- 2.1.2 索引器20
- 2.1.3 檢索器20
- 2.2 Heritrix和Lucene概述20-25
- 2.2.1 基于Heritrix的垂直網(wǎng)絡(luò)爬蟲20-21
- 2.2.2 基于Lucene的索引器和搜索器21-24
- 2.2.3 在Lucene中使用ICTCLAS24-25
- 2.3 垂直搜索引擎25-27
- 2.3.1 垂直搜索引擎與通用搜索引擎的區(qū)別25-26
- 2.3.2 垂直搜索引擎中網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)26-27
- 2.4 本章小結(jié)27-29
- 第三章 文本挖掘相關(guān)技術(shù)29-43
- 3.1 中文文本表示技術(shù)29-31
- 3.1.1 文本特征表示29-30
- 3.1.2 特征提取30-31
- 3.2 文本聚類31-37
- 3.2.1 基于層次的聚類算法32
- 3.2.2 基于劃分的聚類算法32-34
- 3.2.3 基于密度的聚類算法34
- 3.2.4 基于網(wǎng)格的聚類算法34-35
- 3.2.5 經(jīng)典的single-pass聚類算法35-36
- 3.2.6 對各種聚類算法的比較與總結(jié)36-37
- 3.3 對經(jīng)典single-pass算法改進(jìn)37-38
- 3.4 文本聚類結(jié)果分析38-39
- 3.5 實(shí)驗(yàn)結(jié)果與分析39-42
- 3.5.1 聚類結(jié)果39-41
- 3.5.2 熱點(diǎn)評分與類標(biāo)題生成41-42
- 3.6 本章小結(jié)42-43
- 第四章 基于垂直搜索引擎的文本挖掘系統(tǒng)設(shè)計43-55
- 4.1 系統(tǒng)總體設(shè)計43-45
- 4.1.1 功能需求43
- 4.1.2 模塊組成43-45
- 4.2 文本信息采集模塊的詳細(xì)設(shè)計45-47
- 4.2.1 配置文件讀取模塊45-46
- 4.2.2 網(wǎng)絡(luò)爬蟲模塊46-47
- 4.3 文本信息預(yù)處理模塊的詳細(xì)設(shè)計47-49
- 4.3.1 網(wǎng)頁信息結(jié)構(gòu)化模塊47-48
- 4.3.2 中文分詞模塊48-49
- 4.4 文本信息挖掘模塊的詳細(xì)設(shè)計49-51
- 4.4.1 聚類分析模塊49-50
- 4.4.2 熱點(diǎn)評分模塊50-51
- 4.5 文本信息服務(wù)模塊的詳細(xì)設(shè)計51-53
- 4.5.1 垂直搜索引擎模塊52
- 4.5.2 文本信息展示模塊52-53
- 4.6 本章小結(jié)53-55
- 第五章 基于垂直搜索引擎的文本挖掘系統(tǒng)實(shí)現(xiàn)55-65
- 5.1 開發(fā)環(huán)境及系統(tǒng)部署55-57
- 5.2 文本信息采集模塊的實(shí)現(xiàn)57-58
- 5.3 文本信息預(yù)處理模塊的實(shí)現(xiàn)58-60
- 5.4 文本信息挖掘模塊的實(shí)現(xiàn)60-62
- 5.5 文本信息服務(wù)模塊的實(shí)現(xiàn)62-63
- 5.6 本章小結(jié)63-65
- 第六章 總結(jié)與展望65-67
- 6.1 論文總結(jié)65
- 6.2 研究展望65-67
- 參考文獻(xiàn)67-70
- 致謝70-71
- 攻讀碩士學(xué)位期間主要的研究成果71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 董素芬;蔡金金;趙全東;;基于本體的農(nóng)業(yè)檢索系統(tǒng)研究[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2010年05期
2 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機(jī)應(yīng)用研究;2011年01期
3 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期
4 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計算機(jī)工程;2012年22期
5 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期
6 王旭仁;鄭秋輝;何發(fā)鎂;李娜;王彥麗;;基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J];計算機(jī)工程與設(shè)計;2014年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
2 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年
3 管虎;普適環(huán)境下輕量級垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年
本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:296444
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/296444.html