天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時間:2017-04-10 10:03

  本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:通用搜索引擎能夠?yàn)槿藗兲峁┽槍A啃畔⒌臋z索服務(wù),搜索結(jié)果“廣而全”,但是對于特定領(lǐng)域的搜索,通用搜索引擎往往不能滿足人們“精而深”的檢索需求。于是出現(xiàn)了越來越多的針對各個領(lǐng)域的垂直搜索引擎,滿足人們對于特定領(lǐng)域的信息檢索需求。而隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和普及,網(wǎng)絡(luò)上的文本信息資源急劇增長,如何對這些網(wǎng)頁中的信息進(jìn)行文本挖掘就顯得尤為重要。因此,針對特定領(lǐng)域的文本進(jìn)行挖掘及相關(guān)的分析處理具有重要的意義。 本文主要是圍繞垂直搜索引擎技術(shù)展開研究,運(yùn)用文本挖掘算法,將文本聚類技術(shù)應(yīng)用到實(shí)際的系統(tǒng)中,主要工作包括以下內(nèi)容: (1)提出了一種基于Heritrix、Lucene和WebKit的垂直搜索引擎,實(shí)現(xiàn)了對特定領(lǐng)域的信息采集、預(yù)處理、索引和檢索。在網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)方面,利用WebKit來解析動態(tài)網(wǎng)頁,獲取網(wǎng)頁中的結(jié)構(gòu)化信息。 (2)介紹了用于文本挖掘的各種聚類算法,并在分析和研究的基礎(chǔ)上,提出了一種改進(jìn)的single-pass聚類算法,該方法結(jié)合了層次聚類的思想,先形成初步類后,再由single-pass算法完成聚類;并對改進(jìn)后的算法進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的single-pass聚類算法,查準(zhǔn)率提高了10%,查全率提高了12%,Fl-measure提高了11%。 (3)詳細(xì)介紹了基于垂直搜索引擎的文本挖掘系統(tǒng)的設(shè)計與實(shí)現(xiàn)。在系統(tǒng)設(shè)計方面,主要由文本信息采集模塊、文本信息預(yù)處理模塊、文本信息挖掘模塊和文本信息服務(wù)模塊四個部分組成。在系統(tǒng)實(shí)現(xiàn)方面,給出了系統(tǒng)的整體部署圖和各模塊詳細(xì)的實(shí)現(xiàn)過程,并給出了系統(tǒng)運(yùn)行的效果圖,實(shí)現(xiàn)了對手機(jī)評論信息的文本挖掘和手機(jī)評測信息的垂直搜索服務(wù)。
【關(guān)鍵詞】:垂直搜索引擎 文本挖掘 Lucene Heritrix Single-pass算法
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 目錄7-9
  • 圖目錄9-10
  • 表目錄10-11
  • 第一章 緒論11-17
  • 1.1 研究背景與意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀分析12-15
  • 1.2.1 垂直搜索引擎相關(guān)研究分析12-14
  • 1.2.2 文本挖掘相關(guān)研究分析14-15
  • 1.3 論文的組織結(jié)構(gòu)15-17
  • 第二章 垂直搜索引擎技術(shù)剖析17-29
  • 2.1 通用搜索引擎17-20
  • 2.1.1 網(wǎng)絡(luò)爬蟲18-20
  • 2.1.2 索引器20
  • 2.1.3 檢索器20
  • 2.2 Heritrix和Lucene概述20-25
  • 2.2.1 基于Heritrix的垂直網(wǎng)絡(luò)爬蟲20-21
  • 2.2.2 基于Lucene的索引器和搜索器21-24
  • 2.2.3 在Lucene中使用ICTCLAS24-25
  • 2.3 垂直搜索引擎25-27
  • 2.3.1 垂直搜索引擎與通用搜索引擎的區(qū)別25-26
  • 2.3.2 垂直搜索引擎中網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)26-27
  • 2.4 本章小結(jié)27-29
  • 第三章 文本挖掘相關(guān)技術(shù)29-43
  • 3.1 中文文本表示技術(shù)29-31
  • 3.1.1 文本特征表示29-30
  • 3.1.2 特征提取30-31
  • 3.2 文本聚類31-37
  • 3.2.1 基于層次的聚類算法32
  • 3.2.2 基于劃分的聚類算法32-34
  • 3.2.3 基于密度的聚類算法34
  • 3.2.4 基于網(wǎng)格的聚類算法34-35
  • 3.2.5 經(jīng)典的single-pass聚類算法35-36
  • 3.2.6 對各種聚類算法的比較與總結(jié)36-37
  • 3.3 對經(jīng)典single-pass算法改進(jìn)37-38
  • 3.4 文本聚類結(jié)果分析38-39
  • 3.5 實(shí)驗(yàn)結(jié)果與分析39-42
  • 3.5.1 聚類結(jié)果39-41
  • 3.5.2 熱點(diǎn)評分與類標(biāo)題生成41-42
  • 3.6 本章小結(jié)42-43
  • 第四章 基于垂直搜索引擎的文本挖掘系統(tǒng)設(shè)計43-55
  • 4.1 系統(tǒng)總體設(shè)計43-45
  • 4.1.1 功能需求43
  • 4.1.2 模塊組成43-45
  • 4.2 文本信息采集模塊的詳細(xì)設(shè)計45-47
  • 4.2.1 配置文件讀取模塊45-46
  • 4.2.2 網(wǎng)絡(luò)爬蟲模塊46-47
  • 4.3 文本信息預(yù)處理模塊的詳細(xì)設(shè)計47-49
  • 4.3.1 網(wǎng)頁信息結(jié)構(gòu)化模塊47-48
  • 4.3.2 中文分詞模塊48-49
  • 4.4 文本信息挖掘模塊的詳細(xì)設(shè)計49-51
  • 4.4.1 聚類分析模塊49-50
  • 4.4.2 熱點(diǎn)評分模塊50-51
  • 4.5 文本信息服務(wù)模塊的詳細(xì)設(shè)計51-53
  • 4.5.1 垂直搜索引擎模塊52
  • 4.5.2 文本信息展示模塊52-53
  • 4.6 本章小結(jié)53-55
  • 第五章 基于垂直搜索引擎的文本挖掘系統(tǒng)實(shí)現(xiàn)55-65
  • 5.1 開發(fā)環(huán)境及系統(tǒng)部署55-57
  • 5.2 文本信息采集模塊的實(shí)現(xiàn)57-58
  • 5.3 文本信息預(yù)處理模塊的實(shí)現(xiàn)58-60
  • 5.4 文本信息挖掘模塊的實(shí)現(xiàn)60-62
  • 5.5 文本信息服務(wù)模塊的實(shí)現(xiàn)62-63
  • 5.6 本章小結(jié)63-65
  • 第六章 總結(jié)與展望65-67
  • 6.1 論文總結(jié)65
  • 6.2 研究展望65-67
  • 參考文獻(xiàn)67-70
  • 致謝70-71
  • 攻讀碩士學(xué)位期間主要的研究成果71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前6條

1 董素芬;蔡金金;趙全東;;基于本體的農(nóng)業(yè)檢索系統(tǒng)研究[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2010年05期

2 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機(jī)應(yīng)用研究;2011年01期

3 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期

4 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計算機(jī)工程;2012年22期

5 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期

6 王旭仁;鄭秋輝;何發(fā)鎂;李娜;王彥麗;;基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J];計算機(jī)工程與設(shè)計;2014年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

2 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

3 管虎;普適環(huán)境下輕量級垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年


  本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:296444

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/296444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7d95e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com