基于概率潛在語義分析的Blog個性化查詢擴展研究
本文關鍵詞:基于概率潛在語義分析的Blog個性化查詢擴展研究
更多相關文章: 概率潛在語義分析 博客 查詢擴展 向量空間模型 潛在語義分析
【摘要】:隨著Web2.0技術的日益成熟和Blog技術的發(fā)展,Blog頁面的數(shù)量呈指數(shù)級上升,只靠基于關鍵字匹配的Blog搜索引擎已滿足不了用戶的需要。傳統(tǒng)Blog搜索引擎的搜索效率達不到用戶個性化要求,受概率潛在語義分析技術研究的啟發(fā),將概率潛在語義分析模型用于Blog日志查詢,根據(jù)用戶的興趣和個性化特點進行檢索,返回與用戶需求相關的查詢結果。實驗結果表明,相對于傳統(tǒng)的向量空間模型和潛在語義分析模型,基于概率潛在語義分析模型的Blog日志查詢在平均精度和召回率上得到了顯著提高。
【作者單位】: 宿州學院信息工程學院;
【關鍵詞】: 概率潛在語義分析 博客 查詢擴展 向量空間模型 潛在語義分析
【基金】:安徽省高等學校優(yōu)秀青年人才基金項目(2010SQRL192,2011SQRL157) 安徽省教育廳自然科學研究一般項目(KJ2013B283) 宿州學院2012年度國家級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(201210379004,201210379003)
【分類號】:TP391.1
【正文快照】: 0引言近年來,國內外出現(xiàn)了很多頂級的Blog搜索引擎,Google博客搜索和百度博客搜索是兩個典型的中文Blog搜索引擎。大部分Blog搜索引擎的工作原理都是沿用傳統(tǒng)的搜索引擎技術,其查準率和查全率總是不能讓人滿意。Blog上絕大多數(shù)的信息以文本形式存在,傳統(tǒng)的基于關鍵詞字符匹配
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 王奕;;基于概率潛在語義分析的中文文本分類研究[J];甘肅聯(lián)合大學學報(自然科學版);2011年04期
2 俞輝;景海峰;;基于概率潛在語義分析的Web用戶聚類[J];計算機工程與應用;2008年23期
3 羅景;涂新輝;;基于概率潛在語義分析的中文信息檢索[J];計算機工程;2008年02期
4 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學報;2007年03期
5 苗家;馬軍;陳竹敏;;一種基于HITS算法的Blog文摘方法[J];中文信息學報;2011年01期
6 唐明偉;卞藝杰;陶飛飛;;基于語義向量空間模型的文檔檢索系統(tǒng)研究[J];情報雜志;2010年05期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 王洋;基于潛在語義分析的智能搜索技術研究[D];哈爾濱工程大學;2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 于江德;王希杰;;詞位標注漢語分詞技術詳解[J];安陽師范學院學報;2010年05期
2 楊爾弘;;媒體5年詞語使用情況調查分析[J];北華大學學報(社會科學版);2011年04期
3 劉文華;康海燕;;領域問答系統(tǒng)生成器的研究[J];北京信息科技大學學報(自然科學版);2009年03期
4 田占霄;韓憲忠;王克儉;;一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學學報;2009年04期
5 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學院學報;2008年03期
6 朱維彬;;語音合成中的語言學計算模型:現(xiàn)狀及展望[J];當代語言學;2009年02期
7 吳佩韋;李昌華;;一種基于Lucene的搜索推薦詞生成方法[J];電腦知識與技術;2009年10期
8 明小娜;龍毅;錢程揚;張翎;;基于受限自然語言的GIS命令解析方法[J];地球信息科學學報;2009年02期
9 楊震;夏艷;陳曉勤;;適合話音服務平臺的結構化小文本搜索引擎的研究[J];電信科學;2011年12期
10 朱聰慧;趙鐵軍;鄭德權;;基于無向圖序列標注模型的中文分詞詞性標注一體化系統(tǒng)[J];電子與信息學報;2010年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李金;宋陽;梁洪;;語言殘障患者醫(yī)療輔助系統(tǒng)設計[A];第九屆全國信息獲取與處理學術會議論文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領域適應性中文分詞方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
4 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應用學術研討會論文集[C];2007年
6 鄭亞斌;曹嘉偉;劉知遠;;基于最大匹配和馬爾科夫模型的對聯(lián)系統(tǒng)[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
7 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
9 丁大斌;黃昌寧;;漢語同音詞調查及拼音輸入法基線模型研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
10 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向專利文獻的中文分詞技術的研究[A];第五屆全國信息檢索學術會議論文集[C];2009年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 荊濤;面向領域網(wǎng)頁的語義標注若干問題研究[D];吉林大學;2011年
2 張海軍;基于大規(guī)模語料的中文新詞識別技術研究[D];中國科學技術大學;2011年
3 屠曉;英文地址圖像識別與翻譯研究[D];華東師范大學;2011年
4 李智星;用于文本分類的簡明語義分析技術研究[D];重慶大學;2011年
5 陳勁光;基于云模型的中文面向查詢多文檔自動文摘研究[D];華中師范大學;2011年
6 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年
7 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年
8 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學;2008年
9 張格偉;基于工藝知識網(wǎng)格的可重構CAPP系統(tǒng)關鍵技術研究[D];南京航空航天大學;2008年
10 胡東濱;決策問題管理系統(tǒng)及其開發(fā)組件研究[D];中南大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 羅義兵;領域文本相似度計算方法研究[D];山東科技大學;2010年
2 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學院;2010年
3 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學;2010年
4 劉金寧;詞性標注體系對中文分詞的影響[D];大連理工大學;2010年
5 蘇保君;在線組合分類器應用于大規(guī)模垃圾郵件過濾的研究[D];浙江大學;2010年
6 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2010年
7 劉照然;遠程教育中智能答疑系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2010年
8 蘭沖;基于統(tǒng)計規(guī)則的中文分詞研究[D];西安電子科技大學;2011年
9 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2010年
10 吳代文;基于Lucene的二次全文檢索系統(tǒng)設計與實現(xiàn)[D];西安電子科技大學;2009年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 王修力;馬利平;;文本信息檢索的代數(shù)模型綜述[J];吉林大學學報(信息科學版);2007年05期
3 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
4 費愛蓉,穆斌,蔣建國;基于本體的XML數(shù)據(jù)集成及映射關系的研究[J];合肥工業(yè)大學學報(自然科學版);2004年08期
5 程莉,盧正鼎,文坤梅,李娟;基于語義的模糊匹配探索與應用[J];華中科技大學學報(自然科學版);2003年02期
6 王實,高文,李錦濤,謝輝;路徑聚類:在Web站點中的知識發(fā)現(xiàn)[J];計算機研究與發(fā)展;2001年04期
7 林鴻飛;基于示例的文本標題分類機制[J];計算機研究與發(fā)展;2001年09期
8 徐德智;王懷民;;基于本體的概念間語義相似度計算方法研究[J];計算機工程與應用;2007年08期
9 蓋杰,王怡,武港山;基于潛在語義分析的信息檢索[J];計算機工程;2004年02期
10 宋楓溪,高林;文本分類器性能評估指標[J];計算機工程;2004年13期
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 劉云峰;基于潛在語義分析的中文概念檢索研究[D];華中科技大學;2005年
2 王樹梅;信息檢索相關技術研究[D];南京理工大學;2007年
3 胡佳妮;文本挖掘中若干關鍵問題的研究[D];北京郵電大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 許林杰;中文文本分詞研究[D];山東師范大學;2003年
2 翟琳琳;基于潛在語義分析的智能檢索系統(tǒng)[D];上海師范大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 何海江;凌云;;由向量空間相關模型識別博客文章的垃圾評論[J];長沙大學學報;2008年02期
2 何海江;凌云;;由Logistic回歸識別Web社區(qū)的垃圾評論[J];計算機工程與應用;2009年23期
3 岳文;陳治平;林亞平;;基于查詢擴展和分類的信息檢索算法[J];系統(tǒng)仿真學報;2006年07期
4 熊桂喜;王開鋒;;基于語義的查詢擴展研究[J];微計算機信息;2008年30期
5 陳曉金;王兵;;信息檢索擴展技術研究[J];圖書情報工作;2008年12期
6 嚴華云;劉其平;肖良軍;;信息檢索中的相關反饋技術綜述[J];計算機應用研究;2009年01期
7 譚義紅;李學勇;陳治平;;關聯(lián)規(guī)則挖掘在Web信息檢索中的應用[J];計算機工程;2006年09期
8 譚義紅;王鑫;周鐵軍;;基于概念檢索的中文搜索引擎的設計與實現(xiàn)[J];計算機應用與軟件;2006年05期
9 黃名選;嚴小衛(wèi);;基于查詢語義樹的語義查詢擴展研究[J];情報理論與實踐;2007年06期
10 黃名選;陳燕紅;張師超;;基于關聯(lián)規(guī)則挖掘的查詢擴展模型研究[J];現(xiàn)代圖書情報技術;2007年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 廖祥文;曹冬林;方濱興;許洪波;程學旗;;基于概率推理模型的博客傾向性檢索研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
2 黃春燕;;博客寫作讓網(wǎng)絡作文如虎添翼[A];國家教師科研基金十一五階段性成果集(廣西卷)[C];2010年
3 姜洪偉;;博客寫作的類型與文體特征探析[A];生命、知識與文明:上海市社會科學界第七屆學術年會文集(2009年度)哲學·歷史·文學學科卷[C];2009年
4 彭蘭;;微博客對網(wǎng)絡新聞傳播格局與模式的沖擊[A];新聞學論集(第24輯)[C];2010年
5 王斌;嚴敏嬋;陳暉;朱忠;;醫(yī)學臨床教育中的博客化教學與管理[A];2007年浙江省醫(yī)學教育學術年會論文匯編[C];2007年
6 程莉;;博客MSN Spaces使用動機初探[A];北京市社會心理學會2006年學術年會論文摘要集[C];2006年
7 陳丹娥;;《博客人生》選題策劃[A];圖書選題策劃報告——第五屆“未來編輯杯”獲獎文集[C];2006年
8 陳紅梅;;博客使用動機和使用狀態(tài)研究[A];中國的前沿 文化復興與秩序重構——上海市社會科學界第四屆學術年會青年文集(2006年度)[C];2006年
9 李珍;胡曉檬;;大學生個人博客使用情況及其人格特征分析[A];北京市社會心理學會2007年學術年會論文摘要集[C];2007年
10 潘少聰;;校園博客,師生共同發(fā)展的有效平臺[A];國家教師科研基金十一五階段性成果集(廣東卷)[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 郭桂英;該給博客立“規(guī)矩”嗎[N];中國改革報;2007年
2 本報記者 李國訓;博客盈利:與死亡賽跑[N];財經(jīng)時報;2006年
3 本報記者 朱俠;“博客”與誰共舞[N];中國新聞出版報;2006年
4 本報記者 黃啟艷;“古董街”商家欲集體自救[N];中山日報;2008年
5 鄭博超;博客里的檢察風景[N];檢察日報;2008年
6 記者 丁雷;大連軟交會 進入“微博”時代[N];大連日報;2010年
7 本報記者 鮑妍;博客日漸普及將成為帶寬“黑洞”?[N];北京科技報;2004年
8 阮帆;前衛(wèi)博客 倡導放棄自戀[N];北京科技報;2005年
9 本報記者 申林英;義烏走出來的博客“大俠”方興東[N];證券日報;2005年
10 趙永濤;博客出版:能否產(chǎn)銷對路?[N];中國文化報;2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 劉向威;NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
2 馬暉男;信息檢索中淺層語義模型的研究[D];大連理工大學;2007年
3 王瑞琴;基于語義處理技術的信息檢索模型研究[D];浙江大學;2009年
4 王進;基于本體的語義信息檢索研究[D];中國科學技術大學;2006年
5 王樹梅;信息檢索相關技術研究[D];南京理工大學;2007年
6 鐘敏娟;基于檢索結果聚類的XML偽反饋技術研究[D];江西財經(jīng)大學;2012年
7 田萱;基于上下文的信息檢索關鍵技術研究[D];中國人民大學;2007年
8 李思;WEB觀點挖掘中關鍵問題的研究[D];北京郵電大學;2012年
9 左家莉;信息檢索中Markov網(wǎng)絡圖模型研究[D];江西財經(jīng)大學;2011年
10 鄔心云;日志式個人博客的自我呈現(xiàn)心理研究[D];華中科技大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高暉吉;基于博文分布特征的博客精選技術研究[D];北京郵電大學;2010年
2 賈淑芳;基于用戶日志聚類的查詢擴展[D];北京郵電大學;2010年
3 鄧冰娜;面向博客的垃圾評論識別方法研究[D];河北大學;2011年
4 劉清江;同義詞在文本特征提取與查詢擴展中的應用[D];河北大學;2010年
5 范丹;Web檢索中的查詢擴展及結果聚類技術研究[D];遼寧師范大學;2010年
6 周劍烽;基于語義本體的信息檢索方法的研究[D];杭州電子科技大學;2010年
7 方芳;中文信息檢索系統(tǒng)與文檔重排技術研究[D];武漢科技大學;2010年
8 楊蓓虹;基于企業(yè)協(xié)作信息網(wǎng)平臺的信息檢索系統(tǒng)的設計與實現(xiàn)[D];蘇州大學;2005年
9 閉劍婷;潛在語義分析在跨語言信息檢索中的應用研究[D];廣西大學;2008年
10 賈玉祥;基于概率模型的名人網(wǎng)頁相關度評價研究[D];鄭州大學;2006年
,本文編號:1119681
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1119681.html