SVM詞庫智能更新技術(shù)在搜索分類中的應(yīng)用
本文關(guān)鍵詞:SVM詞庫智能更新技術(shù)在搜索分類中的應(yīng)用
更多相關(guān)文章: 支持向量機(jī) 詞庫智能更新 語法庫 搜索引擎 主題分類
【摘要】:為了研究搜索引擎的文本預(yù)分類準(zhǔn)確率,從詞庫對搜索引擎的影響角度出發(fā),提出了基于支持向量機(jī)的詞庫智能更新技術(shù)。利用網(wǎng)絡(luò)爬蟲豐富的數(shù)據(jù)源作為生僻詞來源,用基礎(chǔ)詞庫結(jié)合語法庫對網(wǎng)絡(luò)爬蟲獲取的文本語料進(jìn)行分析處理,同時(shí)不斷充實(shí)臨時(shí)詞庫;利用支持向量機(jī)判定文本的所屬類別,確定生僻詞的類別標(biāo)識;根據(jù)臨時(shí)詞庫中的生僻詞的統(tǒng)計(jì)數(shù)量,將生僻詞加入到詞庫,達(dá)到擴(kuò)大詞庫的目的。將擴(kuò)展后的詞庫應(yīng)用于搜索引擎的搜索意圖識別實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明,擴(kuò)展后的詞庫可以減少句子拆分的錯誤率并提高搜索主題分類的準(zhǔn)確率。
【作者單位】: 貴州師范大學(xué)貴州省信息與計(jì)算科學(xué)重點(diǎn)實(shí)驗(yàn)室;
【基金】:貴州省工業(yè)攻關(guān)基金項(xiàng)目(黔科合GY字[2008]3009) 貴州省科學(xué)技術(shù)基金項(xiàng)目(黔科合J字[2011]2213) 貴州師范大學(xué)2012年度自然科學(xué)類學(xué)生科研基金重點(diǎn)項(xiàng)目(201219)
【分類號】:TP391.1
【正文快照】: 0引言如何提高用戶搜索的命中率以及準(zhǔn)確識別用戶的搜索意圖,已經(jīng)成為目前的研究熱點(diǎn)[1],而其基礎(chǔ)性研究在于詞庫,詞庫更新技術(shù)也是中文信息處理相關(guān)研究的基礎(chǔ)性技術(shù)。如詞庫的規(guī)模影響搜索引擎的意圖預(yù)測器的效果、文本識別中文字識別效果的好壞同樣受制于詞庫、輿情監(jiān)控系
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 姜映映;田豐;王緒剛;戴國忠;;基于模板匹配和SVM的草圖符號自適應(yīng)識別方法[J];計(jì)算機(jī)學(xué)報(bào);2009年02期
2 姚徐;郭淑妮;李永宏;于洪志;;多級索引的藏語分詞詞典設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2009年S1期
3 周戈;;一種基于反向文本頻率互信息的文本挖掘算法研究[J];計(jì)算機(jī)應(yīng)用研究;2012年02期
4 鄭耿忠;;自動分詞算法在智能答疑系統(tǒng)中的應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年09期
5 都菁;熊海靈;;基于論壇語料識別中文未登錄詞的方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年03期
6 張清亮;徐健;;網(wǎng)絡(luò)情感詞自動識別方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2011年10期
7 劉芳芳;王晶;沈奇威;;一種引入動態(tài)詞庫更新的中文分詞架構(gòu)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年03期
8 QI Fumin;XIE Xiaoyao;JING Fengxuan;;Application of Improved PSO-LSSVM on Network Threat Detection[J];武漢大學(xué)自然科學(xué)學(xué)報(bào)(英文版);2013年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 佟欣;韓玉琢;;房產(chǎn)自動應(yīng)答系統(tǒng)的分析與設(shè)計(jì)[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期
2 周蕾;朱巧明;;詞結(jié)合型未登錄詞識別方法研究[J];常熟理工學(xué)院學(xué)報(bào);2012年04期
3 吳靜;景鳳宣;;智能信息處理中的模式識別[J];電腦知識與技術(shù);2013年30期
4 賀海濤;鄭山紅;李萬龍;彭馨儀;;基于關(guān)聯(lián)規(guī)則和語義規(guī)則的本體概念提取研究[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年06期
5 王煉;朱宏泉;;網(wǎng)絡(luò)搜索能幫助解釋IPO抑價(jià)之謎嗎?——基于中國A股市場的實(shí)證分析[J];系統(tǒng)工程;2014年11期
6 陳濤;劉慶龍;;智慧旅游背景下的大數(shù)據(jù)應(yīng)用研究:以旅游需求預(yù)測為例[J];電子政務(wù);2015年09期
7 黨德鵬;孟真;;基于支持向量機(jī)的信息安全風(fēng)險(xiǎn)評估[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
8 陳翔;陳鵬;;基于改進(jìn)模板匹配的目標(biāo)跟蹤算法[J];計(jì)算機(jī)應(yīng)用;2011年S2期
9 張海龍;謝強(qiáng);丁秋林;;基于貝葉斯網(wǎng)絡(luò)的草圖識別研究[J];中國制造業(yè)信息化;2012年01期
10 張瑞霞;楊國增;閆新慶;;基于知網(wǎng)的漢語普通未登錄詞語義分析模型[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 馬立玲;姬利軍;王軍政;;正交判別的線性局部切空間排列結(jié)合SVM的門牌識別[A];2011年中國智能自動化學(xué)術(shù)會議論文集(第一分冊)[C];2011年
2 Dai Wei;Peng Geng;Liu Ying;Li Shuaipeng;;A Prediction Study on E-commerce Sales Based on Structure Time Series Model and Web Search Data[A];第26屆中國控制與決策會議論文集[C];2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 陳鵬;目標(biāo)跟蹤與背景減除算法研究[D];浙江大學(xué);2010年
2 耿玉磊;基于系列模板耦合的三維服裝款式創(chuàng)意設(shè)計(jì)方法研究[D];浙江大學(xué);2010年
3 劉秀麗;飛秒激光隨機(jī)掃描測控神經(jīng)回路的方法研究[D];華中科技大學(xué);2009年
4 黃建年;農(nóng)業(yè)古籍的計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年
5 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
6 肖奕;地質(zhì)數(shù)據(jù)信息服務(wù)參考模型及關(guān)鍵技術(shù)研究[D];中國地質(zhì)大學(xué)(北京);2013年
7 楊全;基于表觀建模的中國手語識別技術(shù)研究[D];西北大學(xué);2013年
8 魏建榕;經(jīng)濟(jì)物理學(xué)中的金融數(shù)據(jù)分析:統(tǒng)計(jì)與建模[D];復(fù)旦大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 曾艷艷;基于RBF神經(jīng)網(wǎng)絡(luò)的手繪電氣草圖識別研究[D];湘潭大學(xué);2009年
2 王耀;規(guī)定格式文字書寫練習(xí)質(zhì)量評價(jià)研究[D];湘潭大學(xué);2010年
3 魏莎莎;一種中文未登錄詞識別及詞典設(shè)計(jì)新方法[D];西南大學(xué);2011年
4 孫凱;自動答疑系統(tǒng)中的問句理解與個(gè)性化推薦算法研究[D];南京信息工程大學(xué);2011年
5 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計(jì)[D];濟(jì)南大學(xué);2011年
6 曾亮;基于SVM的入侵檢測性能改進(jìn)研究[D];中南民族大學(xué);2010年
7 閆曉強(qiáng);應(yīng)變片的特征提取和邊緣檢測算法研究[D];寧波大學(xué);2011年
8 李路;基于語義的多領(lǐng)域草圖符號識別研究[D];南京航空航天大學(xué);2010年
9 張婷婷;道路交通事故現(xiàn)場圖繪制系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2011年
10 胡正;基于垂直搜索技術(shù)的網(wǎng)站分析系統(tǒng)的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2008年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙成龍,薛欣;基于WEB的智能答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];安陽師范學(xué)院學(xué)報(bào);2004年02期
2 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年22期
3 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期
4 張雪芹;顧春華;吳吉義;;基于約簡支持向量機(jī)的快速入侵檢測算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
5 馬秀麗;焦李成;;基于分水嶺-譜聚類的SAR圖像分割[J];紅外與毫米波學(xué)報(bào);2008年06期
6 劉琚;孫建德;;ICA和鏡頭分割結(jié)合的盲視頻水印方案[J];中國科學(xué)E輯:信息科學(xué);2005年12期
7 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計(jì)算機(jī)研究與發(fā)展;2001年04期
8 朱明,王俊普,蔡慶生;一種最優(yōu)特征集的選擇算法[J];計(jì)算機(jī)研究與發(fā)展;1998年09期
9 譚瓊,史忠植;分詞中的歧義處理[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
10 翟偉斌;周振柳;蔣卓明;許榕生;;漢語分詞詞典設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2007年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 歐陽建權(quán);壓縮域體育視頻摘要技術(shù)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
2 冀中;基于多模態(tài)信息的新聞視頻內(nèi)容分析技術(shù)研究[D];天津大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 朱代華;基于分詞技術(shù)的智能答疑系統(tǒng)[D];重慶大學(xué);2004年
2 張嬋;新聞視頻自動摘要生成算法研究[D];西安電子科技大學(xué);2005年
3 時(shí)陽;新聞視頻中文本檢測和定位技術(shù)的研究[D];北京郵電大學(xué);2009年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊強(qiáng),吳中福,余平,鐘將;基于正反饋的支持向量機(jī)[J];重慶大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年05期
2 孫蕾,周明全,李丙春;一種非平衡分布數(shù)據(jù)的支持向量機(jī)新算法[J];計(jì)算機(jī)應(yīng)用;2004年12期
3 黃勇;鄭春穎;宋忠虎;;多類支持向量機(jī)算法綜述[J];計(jì)算技術(shù)與自動化;2005年04期
4 楊強(qiáng),吳中福,余萍,鐘將;一種新型支持向量機(jī)[J];重慶大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年02期
5 張猛,付麗華,王高峰;模糊臨近支持向量機(jī)[J];計(jì)算機(jī)工程與應(yīng)用;2005年05期
6 張浩然;汪曉東;張長江;徐秀玲;;一種新型回歸支持向量機(jī)的學(xué)習(xí)算法[J];測試技術(shù)學(xué)報(bào);2006年02期
7 王曄;黃上騰;;基于間隔區(qū)域樣本數(shù)量的加權(quán)支持向量機(jī)[J];計(jì)算機(jī)工程;2006年06期
8 梁新榮;劉智勇;孫德山;毛宗源;;支持向量機(jī)在混沌系統(tǒng)預(yù)測中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2006年05期
9 盧敏;張展羽;馮寶平;賈仁輔;;基于支持向量機(jī)的區(qū)域水安全預(yù)警模型及應(yīng)用[J];計(jì)算機(jī)工程;2006年15期
10 張陽;劉永革;景旭;;一種改進(jìn)的線性支持向量機(jī)的特征篩選算法[J];西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 侯澍e,
本文編號:1219179
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1219179.html