搜索引擎糾錯算法研究與糾錯Bad Case挖掘
本文關(guān)鍵詞:搜索引擎糾錯算法研究與糾錯Bad Case挖掘,由筆耕文化傳播整理發(fā)布。
《大連理工大學(xué)》 2013年
搜索引擎糾錯算法研究與糾錯Bad Case挖掘
孫善祿
【摘要】:搜索引擎自動糾錯功能對提高檢索效率和檢索精度具有至關(guān)重要的意義,并且良好的糾錯功能可以為用戶提供更好的人機(jī)交互體驗。本文根據(jù)中文語言自身的特點,研究了基于N-gram統(tǒng)計語言模型的具體糾錯方法,詳細(xì)介紹了N-gram統(tǒng)計語言模型的建立過程,并通過數(shù)據(jù)平滑技術(shù)對N-gram模型進(jìn)行了平滑優(yōu)化處理。本文提出了一種針對糾錯結(jié)果Bad Case的機(jī)器挖掘分析方法,該方法通過分析用戶點擊行為日志以及錯誤檢索詞的一些特征屬性,來挖掘糾錯Bad Case。根據(jù)統(tǒng)計學(xué)原理,統(tǒng)計分析用戶對糾錯詞的點擊行為情況,量化建模判斷系統(tǒng)給出糾錯詞是否為錯誤糾錯詞;統(tǒng)計分析用戶輸入的前后檢索詞之間的特征屬性關(guān)系,量化建模判斷用戶輸入的前詞是否為系統(tǒng)未進(jìn)行糾錯的輸入錯誤檢索詞。通過平滑優(yōu)化N-gram統(tǒng)計語言模型以及對糾錯Bad Case的挖掘,可以進(jìn)一步完善搜索引擎的自動糾錯功能,提高自動糾錯結(jié)果的準(zhǔn)確率。最終通過實驗驗證了平滑優(yōu)化N-gram統(tǒng)計語言模型以及挖掘糾錯Bad Case之后的良好糾錯效果。實現(xiàn)了對中文輸入關(guān)鍵詞良好的自動糾錯功能,提高了搜索引擎的搜索精度和召回率。
【關(guān)鍵詞】:
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王達(dá);崔蕊;;數(shù)據(jù)平滑技術(shù)綜述[J];電腦知識與技術(shù);2009年17期
2 蘇菲,王丹力,戴國忠;基于標(biāo)記的規(guī)則統(tǒng)計模型與未登錄詞識別算法[J];計算機(jī)工程與應(yīng)用;2004年15期
3 劉丹;方衛(wèi)國;周泓;;二元語法中文分詞數(shù)據(jù)平滑算法性能研究[J];計算機(jī)工程與應(yīng)用;2009年17期
4 邢永康;馬少平;;統(tǒng)計語言模型綜述[J];計算機(jī)科學(xué);2003年09期
5 張仰森,曹元大,徐波;基于統(tǒng)計的糾錯建議給出算法及其實現(xiàn)[J];計算機(jī)工程;2004年11期
6 王林;搜索引擎的原理和發(fā)展[J];圖書館理論與實踐;2004年04期
7 張仰森;中文校對系統(tǒng)中糾錯知識庫的構(gòu)造及糾錯建議的產(chǎn)生算法[J];中文信息學(xué)報;2001年05期
8 鄭實福,劉挺,秦兵,李生;自動問答綜述[J];中文信息學(xué)報;2002年06期
9 于勐,姚天順;一種混合的中文文本校對方法[J];中文信息學(xué)報;1998年02期
10 許文霞;;齊普夫定律與中文詞頻分布機(jī)理[J];情報科學(xué);1986年01期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 游玉祥;;基于語言學(xué)視角的網(wǎng)絡(luò)環(huán)境下交互式外語教學(xué)[J];安徽工業(yè)大學(xué)學(xué)報(社會科學(xué)版);2011年01期
2 張政;;煙臺方言特點淺析[J];安徽文學(xué)(下半月);2008年10期
3 王麗芳;;淺談荷塘月色的語言美[J];安徽文學(xué)(下半月);2009年03期
4 楊潔;;西方修辭學(xué)與漢語修辭學(xué)關(guān)于語境研究的對比分析[J];安徽文學(xué)(下半月);2011年09期
5 徐琰;讀解俄語詞匯的內(nèi)涵[J];安陽師范學(xué)院學(xué)報;2003年06期
6 徐琰;社會因素賦予俄語語言的時代色彩[J];安陽師范學(xué)院學(xué)報;2004年03期
7 段建勇;李俊;張梅;馬禮;;限定領(lǐng)域的自動問答系統(tǒng)研究[J];北方工業(yè)大學(xué)學(xué)報;2010年01期
8 董妍汝;;中文分詞技術(shù)在搜索引擎中的應(yīng)用[J];辦公自動化;2010年04期
9 肖建安;論語言的變化與變異規(guī)律[J];北華大學(xué)學(xué)報(社會科學(xué)版);2000年02期
10 史學(xué)冬,李偉宏;大學(xué)英語教學(xué)和語言背景導(dǎo)入[J];北京機(jī)械工業(yè)學(xué)院學(xué)報;2002年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鄧小玲;;積極型雙語詞典的例證[A];中國辭書學(xué)會雙語詞典專業(yè)委員會第四屆年會暨學(xué)術(shù)研討會論文集[C];2001年
2 伍志輝;;交互作用的認(rèn)知語言學(xué)研究[A];中國當(dāng)代教育理論文獻(xiàn)——第四屆中國教育家大會成果匯編(上)[C];2007年
3 劉艷芳;封化民;丁天昌;;中文視頻問答系統(tǒng)研究[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年
4 吳校華;;淺析漢語象聲詞的轉(zhuǎn)義及修辭效果[A];江西省語言學(xué)會2006年年會論文集[C];2006年
5 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復(fù)句語言模型[A];第三屆中國智能計算大會論文集[C];2009年
6 龔小謹(jǐn);羅振聲;駱衛(wèi)華;;模式匹配和句型成分分析相結(jié)合的語法錯誤自動檢查[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
7 陳康;武港山;;基于Ontology的信息檢索技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
8 吳晨;張全;;基于HNC的自然語言問答處理系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
9 文勖;張宇;劉挺;;類別主特征結(jié)合句法特征的中文問題層次分類[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
10 孫景廣;蔡東風(fēng);呂德新;董燕舉;;基于知網(wǎng)的中文問題自動分類[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊石喬;基于語料庫的漢語醫(yī)患會話修正研究[D];上海外國語大學(xué);2010年
2 張巍;融合FAQ、本體和推理技術(shù)的問答系統(tǒng)研究[D];太原理工大學(xué);2011年
3 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2011年
4 黃雪霞;新加坡華語詞匯五十年發(fā)展變化研究[D];華中師范大學(xué);2011年
5 羅芳;西藏農(nóng)牧區(qū)小學(xué)漢語教學(xué)研究[D];華中師范大學(xué);2011年
6 劉玉國;基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D];山東大學(xué);2011年
7 劉朝濤;中文問答系統(tǒng)中的句型理論及其應(yīng)用研究[D];重慶大學(xué);2010年
8 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年
9 邸書靈;Agent聯(lián)盟和流形學(xué)習(xí)在中文問答系統(tǒng)中的應(yīng)用研究[D];天津大學(xué);2010年
10 王萍;英漢短語結(jié)構(gòu)受限搭配的對比研究[D];上海外國語大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 佟慶;從認(rèn)知語義學(xué)角度看“ウツ”的多義性[D];哈爾濱師范大學(xué);2010年
2 梁靜;漢西數(shù)詞對比分析及漢語數(shù)詞的西譯[D];上海外國語大學(xué);2010年
3 姚雅寧;漢語“玉”的多角度研究[D];上海外國語大學(xué);2010年
4 嚴(yán)偉劍;疑問代詞“怎么”“怎樣”“怎么樣”對比研究[D];上海外國語大學(xué);2010年
5 耿冰;“實現(xiàn)事件”結(jié)構(gòu)詞匯化模式的英漢對比研究[D];上海外國語大學(xué);2010年
6 劉宇;運(yùn)用多媒體技術(shù)輔助高中英語閱讀教學(xué)的研究[D];遼寧師范大學(xué);2010年
7 王曉菲;帕爾默文化語言學(xué)視角下的中國古典詩歌英譯中花卉意象再現(xiàn)研究[D];遼寧師范大學(xué);2010年
8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年
9 馮晶晶;面向軟件測試領(lǐng)域的自動問答系統(tǒng)[D];河南理工大學(xué);2010年
10 王有權(quán);基于Web的智能答疑技術(shù)研究與實現(xiàn)[D];南京財經(jīng)大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張仰森,丁冰青,龍一飛;一種英文單詞拼寫自動偵錯與糾錯的方法──骨架鍵法[J];電腦開發(fā)與應(yīng)用;1999年02期
2 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機(jī)研究與發(fā)展;2000年05期
3 劉秉權(quán),王曉龍,王宇穎;一種多知識源漢語語言模型的研究與實現(xiàn)[J];計算機(jī)研究與發(fā)展;2002年02期
4 朱寰,阮彤,于慶喜;文本分割算法對中文信息過濾影響研究[J];計算機(jī)工程與應(yīng)用;2002年13期
5 李家福,陸建江,張亞非;模糊聚類算法在漢語文本聚類中的應(yīng)用[J];計算機(jī)工程;2002年04期
6 黃建中,王肖雷;Katz平滑算法在中文分詞系統(tǒng)中的應(yīng)用[J];計算機(jī)工程;2004年S1期
7 吳春穎;王士同;;基于二元語法的N-最大概率中文粗分模型[J];計算機(jī)應(yīng)用;2007年12期
8 鄒海山,吳勇,吳月珠,陳陣;中文搜索引擎中的中文信息處理技術(shù)[J];計算機(jī)應(yīng)用研究;2000年12期
9 李志蜀,李果;中文搜索引擎的原理剖析及開發(fā)實現(xiàn)技術(shù)[J];計算機(jī)應(yīng)用研究;2001年11期
10 周濤;中文搜索引擎[J];圖書館理論與實踐;2000年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 高山;張艷;徐波;宗成慶;韓兆兵;;基于三元統(tǒng)計模型的漢語分詞及標(biāo)注一體化研究[A];自然語言理解與機(jī)器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 喬冬梅;搜索引擎現(xiàn)狀與發(fā)展研究[D];鄭州大學(xué);2002年
2 周欽強(qiáng);基于人工智能技術(shù)Naive Bayes文本自動分類系統(tǒng)研究[D];廣東工業(yè)大學(xué);2005年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;關(guān)鍵詞搜索[J];每周電腦報;2000年38期
2 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期
3 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報;2001年01期
4 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實踐;2002年06期
5 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學(xué)研究;2002年05期
6 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期
7 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國信息導(dǎo)報;2003年03期
8 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對專題[J];網(wǎng)絡(luò)與信息;2003年07期
9 閆凡蕾;建設(shè)站內(nèi)搜索的好幫手——Search Engine Maker[J];少年電世界;2003年08期
10 鳳元杰,劉正春,王堅毅;搜索引擎主要性能評價指標(biāo)體系研究[J];情報學(xué)報;2004年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機(jī)學(xué)會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 李一鑫;[N];財經(jīng)時報;2007年
2 周文林;[N];經(jīng)濟(jì)參考報;2007年
3 惠正一;[N];第一財經(jīng)日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;[N];中國計算機(jī)報;2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國經(jīng)營報;2005年
7 金朝力;[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;[N];中國證券報;2006年
9 孫琎;[N];第一財經(jīng)日報;2006年
10 姜蕊;[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
10 費(fèi)巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年
9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年
10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
本文關(guān)鍵詞:搜索引擎糾錯算法研究與糾錯Bad Case挖掘,,由筆耕文化傳播整理發(fā)布。
本文編號:71290
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/71290.html