基于密度聚類的空間文本查詢
【學(xué)位單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP311.13;TP391.1
【部分圖文】:
西安電子科技大學(xué)碩士學(xué)位論文40圖5.1 查詢關(guān)鍵字個(gè)數(shù)對(duì)相關(guān)對(duì)象集和系統(tǒng) IO 開銷的影響圖圖5.2 查詢關(guān)鍵字個(gè)數(shù)對(duì)精準(zhǔn)算法的影響圖圖 5.2 展示了不同算法的運(yùn)行時(shí)間與查詢關(guān)鍵字?jǐn)?shù)量之間的關(guān)系。實(shí)驗(yàn)表明,隨著查詢關(guān)鍵字個(gè)數(shù)的增多,搜索到的相關(guān)空間文本對(duì)象的數(shù)量在不斷增加,各個(gè)算法的運(yùn)行時(shí)間都有不同程度的增加,主要有如下兩方面的原因:一是隨著查詢關(guān)鍵字?jǐn)?shù)量的增多,在對(duì)IR2樹搜索時(shí)需要遍歷到更多的節(jié)點(diǎn),增加了生成相關(guān)對(duì)象集的時(shí)間;二是相關(guān)對(duì)象集的增大,增加了對(duì)相關(guān)對(duì)象集進(jìn)行基于密度聚類的時(shí)間。隨著查詢關(guān)鍵字個(gè)數(shù)的增加 Base 算法的運(yùn)行時(shí)間增長幅度最大。因?yàn)楫?dāng)查詢關(guān)鍵字個(gè)數(shù)多時(shí),相關(guān)對(duì)象集中對(duì)象的密度會(huì)變大
40圖5.1 查詢關(guān)鍵字個(gè)數(shù)對(duì)相關(guān)對(duì)象集和系統(tǒng) IO 開銷的影響圖圖5.2 查詢關(guān)鍵字個(gè)數(shù)對(duì)精準(zhǔn)算法的影響圖圖 5.2 展示了不同算法的運(yùn)行時(shí)間與查詢關(guān)鍵字?jǐn)?shù)量之間的關(guān)系。實(shí)驗(yàn)表明,隨著查詢關(guān)鍵字個(gè)數(shù)的增多,搜索到的相關(guān)空間文本對(duì)象的數(shù)量在不斷增加,各個(gè)算法的運(yùn)行時(shí)間都有不同程度的增加,主要有如下兩方面的原因:一是隨著查詢關(guān)鍵字?jǐn)?shù)量的增多,在對(duì)IR2樹搜索時(shí)需要遍歷到更多的節(jié)點(diǎn),增加了生成相關(guān)對(duì)象集的時(shí)間;二是相關(guān)對(duì)象集的增大,增加了對(duì)相關(guān)對(duì)象集進(jìn)行基于密度聚類的時(shí)間。隨著查詢關(guān)鍵字個(gè)數(shù)的增加 Base 算法的運(yùn)行時(shí)間增長幅度最大。因?yàn)楫?dāng)查詢關(guān)鍵字個(gè)數(shù)多時(shí),相關(guān)對(duì)象集中對(duì)象的密度會(huì)變大
在使用基于密度聚類的空間文本查詢方法時(shí),用戶可以輸入指定的最大可接受距離 r,即返回的所有相關(guān)空間文本對(duì)象都在此區(qū)域內(nèi),避免了返回的結(jié)果簇集距離查詢點(diǎn)過遠(yuǎn)用戶難以接受的情況。如圖5.3所示,隨著用戶輸入最大可接受距離的增大,會(huì)有更多的相關(guān)對(duì)象產(chǎn)生。相比于查詢關(guān)鍵字?jǐn)?shù)量對(duì)相關(guān)對(duì)象集中對(duì)象數(shù)量的影響,最大可接受距離的影響較小。這是因?yàn)閿?shù)據(jù)集中空間文本對(duì)象的密度固定,增大距離搜索到的相關(guān)對(duì)象集變化較小。同樣隨著最大可接受距離的增大,在對(duì) IR2樹搜索時(shí)需要訪問更多的節(jié)點(diǎn)從而增加了系統(tǒng)的 IO 開銷。最大可接受距離和查詢關(guān)鍵字?jǐn)?shù)量對(duì)系統(tǒng) IO 開銷的影響類似,在相同最大接受距離的情況下,雁塔區(qū)數(shù)據(jù)集的系統(tǒng) IO開銷大。圖 5.4 展示了不同最大可接受距離對(duì)各算法運(yùn)行時(shí)間的影響,各算法的運(yùn)行時(shí)間增加主要有如下兩方面的原因:首先是隨著最大可接受距離的增大,對(duì) IR2樹中的節(jié)點(diǎn)搜索增加
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
2 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
3 婁道國;李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期
4 張慧倫;;伴隨文本:透視網(wǎng)絡(luò)文學(xué)發(fā)展的重要路徑[J];百家評(píng)論;2019年04期
5 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期
6 潘艷艷;;陳運(yùn)文:做文本數(shù)據(jù)領(lǐng)域的“先知”[J];張江科技評(píng)論;2020年01期
7 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期
8 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期
9 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期
10 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期
相關(guān)會(huì)議論文 前10條
1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
2 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
3 周純潔;黎]
本文編號(hào):2830967
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2830967.html