一種大規(guī)模中文搜索日志的層次聚類方法
本文選題:搜索引擎 + 查詢?nèi)罩?/strong> ; 參考:《科技通報(bào)》2012年08期
【摘要】:提出一種層次聚類算法,旨在對(duì)搜索引擎的查詢?nèi)罩緮?shù)據(jù)進(jìn)行聚類分析。算法基于搜狗實(shí)驗(yàn)室公開的查詢?nèi)罩緮?shù)據(jù),通過3次劃分完成查詢文本聚類,每一次劃分實(shí)現(xiàn)不同程度的降維。相似度參數(shù)可根據(jù)不同的聚類需求調(diào)整,算法可擴(kuò)展性強(qiáng)。實(shí)驗(yàn)結(jié)果為查詢推薦、相關(guān)性排序等提供了有力的依據(jù)。
[Abstract]:A hierarchical clustering algorithm is proposed to cluster search engine log data. The algorithm is based on the query log data published by Sogou Lab, and completes the query text clustering through three partitioning, each partition realizes different degree of dimensionality reduction. Similarity parameters can be adjusted according to different clustering requirements, and the algorithm is scalable. The experimental results provide a powerful basis for inquiry recommendation, correlation ranking and so on.
【作者單位】: 樂山師范學(xué)院智能信息處理及應(yīng)用重點(diǎn)實(shí)驗(yàn)室;
【基金】:四川省教育廳青年基金資助(11ZB134)
【分類號(hào)】:TP301.6;TP391.3
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 陳天瑩;陳蓉;潘璐璐;李紅軍;于中華;;基于前后文n-gram模型的古漢語句子切分[J];計(jì)算機(jī)工程;2007年03期
2 談文蓉;符紅光;劉莉;楊憲澤;;一種基于貝葉斯分類與機(jī)讀詞典的多義詞排歧方法[J];計(jì)算機(jī)應(yīng)用;2006年06期
3 張映海;何中市;陳永鋒;;搜索引擎結(jié)果中Web文檔的排序研究[J];計(jì)算機(jī)與數(shù)字工程;2007年02期
4 谷波;李濟(jì)洪;劉開瑛;;基于COSA算法的中文文本聚類[J];中文信息學(xué)報(bào);2007年06期
5 娜步青;;基于統(tǒng)計(jì)的蒙漢機(jī)器翻譯系統(tǒng)研究[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2006年02期
6 談文蓉;;漢英機(jī)器翻譯系統(tǒng)中統(tǒng)計(jì)消歧的多步策略[J];西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期
相關(guān)會(huì)議論文 前5條
1 鄒紅建;楊爾弘;;面向?qū)ν鉂h語報(bào)刊教學(xué)的文本難易度分類[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
2 金東日;;在朝漢機(jī)器翻譯上出現(xiàn)轉(zhuǎn)換的難點(diǎn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
3 陳毅恒;秦兵;劉挺;林建國;李生;;基于錯(cuò)誤預(yù)測的文本分類方法[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 王智超;季鐸;蔡?hào)|風(fēng);張桂平;;文本聚類中基于知網(wǎng)的特征抽取方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 鐘茂生;;自然語言中的對(duì)象及其處理[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前7條
1 雷震;基于事件的新聞報(bào)道分析技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
2 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年
3 高紅;基于統(tǒng)計(jì)語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年
4 常娥;古籍智能處理技術(shù)研究[D];南京農(nóng)業(yè)大學(xué);2007年
5 何琳;古農(nóng)學(xué)本體的半自動(dòng)構(gòu)建及檢索研究[D];南京農(nóng)業(yè)大學(xué);2007年
6 孫凌云;面向產(chǎn)品概念設(shè)計(jì)的專利地圖技術(shù)研究[D];浙江大學(xué);2008年
7 方淼;語義單元自動(dòng)獲取研究[D];大連理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張虎;漢語語料庫詞性標(biāo)注一致性檢查及自動(dòng)校對(duì)方法研究[D];山西大學(xué);2005年
2 劉江;大規(guī)模漢語語料庫分詞一致性檢驗(yàn)技術(shù)研究[D];山西大學(xué);2005年
3 顧平;一種智能型數(shù)碼輸入技術(shù)的研究與設(shè)計(jì)[D];蘇州大學(xué);2005年
4 熊冬明;漢語自動(dòng)分詞和中文人名識(shí)別技術(shù)研究[D];浙江大學(xué);2006年
5 郭妍;基于市長公開電話文本為背景的兩種自動(dòng)分類算法的比較[D];東北師范大學(xué);2006年
6 楊軍玲;漢語動(dòng)詞詞語搭配自動(dòng)獲取方法研究[D];山西大學(xué);2006年
7 苗璽;中文語料庫切分不一致字串分類校驗(yàn)方法研究[D];山西大學(xué);2006年
8 李霞;XJAUQA自動(dòng)問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];新疆農(nóng)業(yè)大學(xué);2006年
9 王綺;基于內(nèi)容的短信息過濾系統(tǒng)研究[D];哈爾濱工程大學(xué);2006年
10 王蕾;基于轉(zhuǎn)換學(xué)習(xí)的專有名詞識(shí)別[D];蘇州大學(xué);2006年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王繼民,陳,
本文編號(hào):1873687
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1873687.html