天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于后綴樹(shù)聚類的主題搜索引擎研究

發(fā)布時(shí)間:2018-04-26 02:36

  本文選題:主題過(guò)濾 + 后綴樹(shù)聚類; 參考:《情報(bào)理論與實(shí)踐》2017年12期


【摘要】:[目的/意義]一個(gè)好的主題搜索引擎能夠更好地滿足專業(yè)領(lǐng)域用戶的信息需求。[方法/過(guò)程]在爬取階段采用錨文本正則表達(dá)式匹配進(jìn)行主題過(guò)濾、加入IKAnalyzer中文分詞器,結(jié)合TF-IDF、OPIC和Topic-PageRank算法對(duì)檢索結(jié)果排序進(jìn)行改進(jìn)并通過(guò)STC算法對(duì)檢索結(jié)果實(shí)時(shí)聚類。[結(jié)果/結(jié)論]以"圖書情報(bào)"為主題進(jìn)行實(shí)驗(yàn)測(cè)試,每增加一個(gè)分布式計(jì)算節(jié)點(diǎn)爬取速率提高20%,查準(zhǔn)率優(yōu)于未排序優(yōu)化23%,檢索結(jié)果可以實(shí)時(shí)聚類并以可視化展示,且檢索結(jié)果項(xiàng)多為相關(guān)論文。[局限]系統(tǒng)對(duì)網(wǎng)頁(yè)中繁多的數(shù)據(jù)格式解析度不夠,未解析的部分可能包含主題內(nèi)容。
[Abstract]:Objective / meaning: a good subject search engine can better meet the information needs of users in specialized fields. [method / process] in the crawling phase, anchor text regular expression matching is used for topic filtering, IKAnalyzer Chinese word segmenter is added, and TF-IDF IKAnalyzer OPIC and Topic-PageRank algorithms are combined to improve the ranking of retrieval results. The retrieval results are clustered in real time by STC algorithm. [results / conclusion] with the theme of "Library and Information" as the theme of the experimental test, each additional distributed computing node crawled and fetched speed increased by 20%, the precision rate was better than that of unsorted optimization 23th, and the retrieval results could be clustered in real time and displayed visually. And the retrieval results are mostly related papers. The system does not have enough resolution for the wide range of data formats in the web page, and the unparsed part may contain the subject matter.
【作者單位】: 西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳一;冉從敬;;中外圖書情報(bào)學(xué)近十五年學(xué)術(shù)聚焦演化對(duì)比研究——以《情報(bào)學(xué)報(bào)》和《美國(guó)信息科學(xué)與技術(shù)學(xué)會(huì)會(huì)志》為例[J];情報(bào)雜志;2015年03期

2 任樹(shù)懷;;LUCENE搜索算法剖析及優(yōu)化研究[J];圖書館雜志;2014年12期

3 王曉琴;李書琴;景旭;王蒙;;基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年06期

4 袁恩閣;吳向前;楊文忠;;基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

5 朱潛;吳辰鈮;朱志良;劉洪娟;;Hadoop云平臺(tái)下Nutch中文分詞的研究與實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);2013年12期

6 陳建峽;黃日;馬忠寶;;基于PageRank的Lucene排序算法優(yōu)化與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與科學(xué);2012年10期

7 劉興邦;趙曉嬌;;基于Nutch的物流信息平臺(tái)網(wǎng)頁(yè)資源定向采集系統(tǒng)[J];物流技術(shù);2012年13期

8 趙蓉英;陳必坤;;基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)科學(xué);2012年04期

9 周博;劉奕群;張敏;金奕江;馬少平;;錨文本檢索有效性分析[J];軟件學(xué)報(bào);2011年08期

10 邵秀麗;劉彬;張濤;;基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年02期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 韋美峰;王亞民;;基于后綴樹(shù)聚類的主題搜索引擎研究[J];情報(bào)理論與實(shí)踐;2017年12期

2 羅東鋒;李芳;郝汪洋;吳仲城;;基于Docker的大規(guī)模日志采集與分析系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2017年10期

3 李慧;閆琰;;基于組合模型的農(nóng)業(yè)信息情景感知推薦系統(tǒng)研究[J];江蘇農(nóng)業(yè)科學(xué);2017年17期

4 白菊;何聚厚;;應(yīng)用于問(wèn)答系統(tǒng)的Lucene相似度檢索算法改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2017年11期

5 許宇華;黃倩云;;統(tǒng)一智能搜索處理技術(shù)的研究與應(yīng)用[J];自動(dòng)化與儀器儀表;2017年05期

6 趙新苗;馮向萍;趙濤;;農(nóng)業(yè)信息分類中K-means與SVM的混合算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2017年06期

7 鄭紀(jì)業(yè);封文杰;劉延忠;王風(fēng)云;孫傳仁;阮懷軍;;水產(chǎn)數(shù)據(jù)獲取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2017年04期

8 李全;林松;田俊;劉興紅;;面向MOOC的垂直搜索引擎[J];計(jì)算機(jī)與現(xiàn)代化;2017年04期

9 程杜新;傅魁;;基于Nutch的Web論壇分塊采集系統(tǒng)[J];圖書館學(xué)研究;2017年07期

10 陳利燕;林鴻;張新長(zhǎng);;一種改進(jìn)的Lucene算法及在空間數(shù)據(jù)融合中的應(yīng)用[J];測(cè)繪通報(bào);2016年10期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 白培發(fā);王成良;徐玲;;一種融合詞語(yǔ)位置特征的Lucene相似度評(píng)分算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期

2 王超;李書琴;肖紅;;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[J];農(nóng)機(jī)化研究;2013年08期

3 李凌;左常睿;;城市居民健康遭遇幾宗“罪”?[J];今日科苑;2013年12期

4 趙彥榮;王偉平;孟丹;張書彬;李均;;基于Hadoop的高效連接查詢處理算法CHMJ[J];軟件學(xué)報(bào);2012年08期

5 李明濤;羅軍勇;尹美娟;路林;;結(jié)合詞義的文本特征詞權(quán)重計(jì)算方法[J];計(jì)算機(jī)應(yīng)用;2012年05期

6 吳偉;陳建峽;;基于Heritrix的web信息抽取優(yōu)化與實(shí)現(xiàn)[J];湖北工業(yè)大學(xué)學(xué)報(bào);2012年02期

7 竇天芳;姜愛(ài)蓉;;資源發(fā)現(xiàn)系統(tǒng)功能分析及應(yīng)用前景[J];圖書情報(bào)工作;2012年07期

8 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進(jìn)的Lucene語(yǔ)義相似度檢索算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

9 邵秀麗;劉彬;張濤;;基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年02期

10 肖明;李國(guó)俊;袁浩;楊皓東;楊楠;陳志艷;;國(guó)外情報(bào)學(xué)研究前沿可視化分析:基于JASIS&T(2000-2009年)的引文耦合分析[J];圖書情報(bào)工作網(wǎng)刊;2011年02期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 曾本勝,,廉玉忠,李世取;后綴樹(shù)的平均高度[J];運(yùn)籌與管理;1996年04期

2 黃影;;一種有效的后綴樹(shù)建立方法[J];電子科技;2013年10期

3 趙杰文;原嬌杰;;數(shù)據(jù)挖掘中后綴樹(shù)算法的應(yīng)用研究[J];焦作大學(xué)學(xué)報(bào);2007年03期

4 黃影;;一種有效的后綴樹(shù)建立方法[J];中國(guó)電子教育;2013年03期

5 喬百友,葛健,王國(guó)仁,韓東紅;并行后綴樹(shù)的構(gòu)造及查詢算法[J];東北大學(xué)學(xué)報(bào);2004年03期

6 彭靜;翟英;馮爽;;后綴樹(shù)算法在輿情聚類中的應(yīng)用[J];河北科技大學(xué)學(xué)報(bào);2012年01期

7 葛健;王國(guó)仁;于戈;;后綴樹(shù)的并行構(gòu)造算法[J];計(jì)算機(jī)科學(xué);2004年05期

8 曲文龍;楊炳儒;張克君;;基于廣義后綴樹(shù)的事件序列頻繁情節(jié)挖掘算法[J];北京科技大學(xué)學(xué)報(bào);2006年05期

9 王建亞;;移動(dòng)搜索現(xiàn)狀及發(fā)展策略[J];合作經(jīng)濟(jì)與科技;2014年11期

10 王秉政;蘇曉珂;張素智;;一種基于后綴樹(shù)的簡(jiǎn)潔關(guān)聯(lián)規(guī)則挖掘有效剪枝方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年03期

相關(guān)博士學(xué)位論文 前1條

1 錢立兵;搜索引擎中查詢處理及結(jié)果緩存技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 曲伸;一款可定制的桌面集成搜索工具的設(shè)計(jì)與實(shí)現(xiàn)[D];天津大學(xué);2016年

2 楊加玉;基于檢索詞擴(kuò)展和文本表示的文庫(kù)搜索引擎[D];長(zhǎng)安大學(xué);2017年

3 唐倩;基于社交關(guān)系的web搜索研究[D];杭州電子科技大學(xué);2017年

4 張騰;搜索引擎用戶滿意度多維分析方法的研究[D];東北師范大學(xué);2017年

5 李雙江;基于壓縮后綴數(shù)組的空間高效短讀比對(duì)算法[D];西安電子科技大學(xué);2014年

6 陳智達(dá);支持字符串局部比對(duì)的內(nèi)存及外存優(yōu)化方法[D];東北大學(xué);2013年

7 郭海濤;用加強(qiáng)的后綴數(shù)組查找MUM[D];西安電子科技大學(xué);2007年

8 王學(xué);基因組中最大唯一匹配的查找算法研究[D];西安電子科技大學(xué);2009年

9 王堅(jiān);基于后綴數(shù)組的滑動(dòng)窗口匹配壓縮改進(jìn)算法研究[D];華中科技大學(xué);2012年

10 榮元媛;改進(jìn)后綴樹(shù)的中文檢索結(jié)果聚類系統(tǒng)[D];北京林業(yè)大學(xué);2013年



本文編號(hào):1804120

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1804120.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e47bf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com