利用構(gòu)建語(yǔ)義詞典的查詢自動(dòng)分類方法
[Abstract]:In order to solve the problem that traditional document classification methods and manual classification methods are not suitable for query classification, a method of automatically constructing semantic dictionaries of specific topics based on Web is proposed to classify search queries. Through theme-based Web information collection and bootstrap-ping, a small number of keywords of a topic are progressively expanded, Finally, we get the semantic dictionary of this topic and the relative word frequency of each word in the dictionary. The redundancy of information in Web and the semantic difference of each topic make the category and number of words in the semantic dictionary of each topic very different. This difference can be used to classify users' search queries. The experimental results show that the semantic dictionary can be used to classify users' queries accurately, and the classification method does not require manual intervention, and it can adapt to the characteristics of wide search coverage and strong real-time performance. The problem of search query classification is well solved.
【作者單位】: 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;中國(guó)科學(xué)院軟件研究所互聯(lián)網(wǎng)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(60571025) 國(guó)家高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2006AA01Z308)
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 黎銘,薛曉冰,周志華;基于多示例學(xué)習(xí)的中文Web目錄頁(yè)面推薦[J];軟件學(xué)報(bào);2004年09期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 湯世平;樊孝忠;;基于多示例學(xué)習(xí)的題庫(kù)重復(fù)性檢測(cè)研究[J];北京理工大學(xué)學(xué)報(bào);2005年12期
2 陳治平,林亞平,彭雅,王雷,童調(diào)生;基于最小類差異的無(wú)關(guān)信息預(yù)處理算法[J];電子學(xué)報(bào);2003年11期
3 李菁菁,邵培基,黃亦瀟;數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J];管理工程學(xué)報(bào);2004年03期
4 鐘茂生;WEB頁(yè)面的模糊聚類[J];華東交通大學(xué)學(xué)報(bào);2004年05期
5 袁家政;須德;鮑泓;;基于結(jié)構(gòu)與文本關(guān)鍵詞相關(guān)度的XML網(wǎng)頁(yè)分類研究[J];計(jì)算機(jī)研究與發(fā)展;2006年08期
6 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁(yè)分類方法研究[J];計(jì)算機(jī)研究與發(fā)展;2007年01期
7 劉壁松,李春平;一個(gè)可擴(kuò)展的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2004年30期
8 王麗俠,房福亭;分級(jí)聚類與平面劃分結(jié)合方法在網(wǎng)頁(yè)分類中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2004年35期
9 梁春燕,郭力,夏詔杰,楊章遠(yuǎn);網(wǎng)絡(luò)搜索引擎的性能優(yōu)化策略和相關(guān)技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2004年36期
10 許勇,宋柔;基于HMM的百科辭典文本中句子的知識(shí)點(diǎn)分類[J];計(jì)算機(jī)工程與應(yīng)用;2005年04期
相關(guān)博士學(xué)位論文 前5條
1 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
2 周瑛;神經(jīng)網(wǎng)絡(luò)作為分類器的算法研究及在信息檢索中的應(yīng)用[D];安徽大學(xué);2006年
3 易文晟;圖像語(yǔ)義檢索和分類技術(shù)研究[D];浙江大學(xué);2007年
4 劉偉;圖像檢索中若干問(wèn)題的研究[D];浙江大學(xué);2007年
5 袁家政;可伸縮矢量圖形(SVG)的數(shù)據(jù)表示研究[D];北京交通大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 曹渝昆;基于RDF的個(gè)性化服務(wù)模型[D];重慶大學(xué);2002年
2 胡蓉;中文Web文檔傾向性自動(dòng)分類研究[D];四川大學(xué);2003年
3 翟靜;可擴(kuò)展的文本分類系統(tǒng)的核心API的設(shè)計(jì)與實(shí)現(xiàn)[D];四川大學(xué);2003年
4 張承明;基于Web的數(shù)據(jù)挖掘研究[D];山東科技大學(xué);2003年
5 李建祥;智能網(wǎng)頁(yè)推薦系統(tǒng)的相關(guān)技術(shù)研究[D];西南交通大學(xué);2004年
6 蔣偉貞;基于類別的特征選擇算法的文本分類系統(tǒng)[D];西南交通大學(xué);2004年
7 彭雅;文本分類算法及其應(yīng)用研究[D];湖南大學(xué);2004年
8 張海龍;Web挖掘技術(shù)在東亞植物遺傳資源管理系統(tǒng)中的應(yīng)用研究[D];中國(guó)農(nóng)業(yè)大學(xué);2005年
9 祝翠玲;基于無(wú)監(jiān)督聚類和樸素貝葉斯分類的文本分類方法研究[D];山東大學(xué);2005年
10 侯小靜;貝葉斯分類器研究及其在Web文檔分類中的應(yīng)用[D];鄭州大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 韓客松,王永成,陳桂林;無(wú)詞典高頻字串快速提取和統(tǒng)計(jì)算法研究[J];中文信息學(xué)報(bào);2001年02期
2 金翔宇,孫正興,張福炎;一種中文文檔的非受限無(wú)詞典抽詞方法[J];中文信息學(xué)報(bào);2001年06期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;創(chuàng)新工業(yè)搜索引擎[J];中國(guó)制造業(yè)信息化;2011年12期
2 胡風(fēng)華;王磊;;基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J];中國(guó)新技術(shù)新產(chǎn)品;2011年18期
3 方亞會(huì);;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
4 李國(guó)鋒;李春偉;;網(wǎng)絡(luò)搜索引擎技術(shù)探析[J];廊坊師范學(xué)院學(xué)報(bào);2005年04期
5 冷國(guó)華;;網(wǎng)頁(yè)快照幫我快速獲取資料[J];電腦愛好者;2011年10期
6 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];電腦開發(fā)與應(yīng)用;2011年07期
7 康亞娟;;淺談?wù)緝?nèi)信息搜索系統(tǒng)[J];硅谷;2011年13期
8 孫掌印;;搜索引擎Yahoo與Google的比較分析[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2011年17期
9 馮慶峰;;信息時(shí)代如何獲取信息[J];成功(教育);2011年08期
10 王巧玲;彭靜;王春紅;;中文分詞技術(shù)的研究及在Nutch中的實(shí)現(xiàn)[J];科技信息;2011年19期
相關(guān)會(huì)議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
2 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
3 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
4 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
5 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
6 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年
7 陳磊;茹立云;馬少平;;基于用戶日志挖掘的搜索引擎廣告效果分析[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
8 申琪君;;電子地圖搜索引擎比較[A];中國(guó)地理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年
9 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 薩曉靜;;網(wǎng)絡(luò)化生存下的圖書館改革之路[A];福建省圖書館學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 朱杰;搜索引擎應(yīng)用性能分析報(bào)告[N];中國(guó)計(jì)算機(jī)報(bào);2009年
2 記者 李建偉;第4代搜索引擎在鄭州問(wèn)世[N];中國(guó)知識(shí)產(chǎn)權(quán)報(bào);2009年
3 記者 趙志鵬;媒體稱俄擬建國(guó)家搜索引擎[N];新華每日電訊;2010年
4 吳前;搜索引擎“碳排量”驚人[N];中國(guó)文化報(bào);2010年
5 記者 李大慶;新型搜索引擎能向用戶直接提供所需內(nèi)容[N];科技日?qǐng)?bào);2010年
6 深圳大學(xué)傳播學(xué)院、傳媒與文化發(fā)展研究中心 周裕瓊;誰(shuí)動(dòng)了我的大腦[N];社會(huì)科學(xué)報(bào);2010年
7 李大慶;新型搜索引擎直接為用戶提供所需內(nèi)容[N];中國(guó)技術(shù)市場(chǎng)報(bào);2010年
8 余建斌;搜索引擎市場(chǎng)“烽煙四起”[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2010年
9 邁巴赫 編譯;搜索引擎20年[N];計(jì)算機(jī)世界;2010年
10 記者 秦羽 通訊員 施銀峰;全球搜索引擎營(yíng)銷大會(huì)在甬舉行[N];寧波日?qǐng)?bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 曹歡歡;基于大規(guī)模搜索日志挖掘的上下文感知搜索研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
10 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
2 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年
3 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年
4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
5 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年
6 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
7 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
8 王春芹;搜索引擎主題相關(guān)性研究[D];中山大學(xué);2010年
9 詹恒飛;分布式圖片搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
10 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
,本文編號(hào):2429242
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2429242.html