低頻查詢的用戶行為分析和類別研究
本文選題:低頻查詢 + 用戶行為; 參考:《計算機研究與發(fā)展》2012年11期
【摘要】:低頻查詢是用戶提交查詢頻次非常低的查詢.它們占了搜索引擎獨立查詢的很大比例且對用戶體驗影響巨大,但由于數(shù)據(jù)稀疏性,現(xiàn)有的搜索引擎用戶行為分析及相關(guān)研究中對低頻查詢涉及很少.結(jié)合前人的相關(guān)工作,使用商業(yè)搜索引擎的大規(guī)模用戶日志,在會話級別上進(jìn)行低頻查詢的用戶行為分析以及類別研究.基于目標(biāo)查詢行為、后續(xù)相關(guān)查詢行為、整體會話行為3個方面的12個特征進(jìn)行了低頻查詢的用戶行為特征分析,首次提出了低頻查詢類別分析框架,并進(jìn)一步使用改進(jìn)的AdaBoost算法對低頻查詢會話進(jìn)行分類.實驗對2000個隨機的低頻查詢會話樣例進(jìn)行分類,AUC值達(dá)到了83%以上.低頻查詢的用戶行為分析和類別研究,將為搜索引擎用戶行為分析等網(wǎng)絡(luò)檢索研究提供重要基礎(chǔ).
[Abstract]:Low frequency query is a very low frequency query submitted by the user. They account for a large proportion of search engine independent queries and have a great impact on the user experience. However due to the sparsity of data the existing search engine user behavior analysis and related research on low-frequency queries are rarely involved. Combined with the related work of predecessors, using the large-scale user log of commercial search engine, the user behavior analysis and category research of low-frequency query at session level are carried out. Based on 12 features of target query behavior, subsequent related query behavior and overall conversation behavior, the user behavior characteristics of low frequency query are analyzed, and a low frequency query category analysis framework is proposed for the first time. Furthermore, the improved AdaBoost algorithm is used to classify low frequency query sessions. The AUC value of 2000 random low frequency conversation samples is over 83%. User behavior analysis and classification research of low frequency query will provide an important basis for search engine user behavior analysis and other network retrieval research.
【作者單位】: 智能技術(shù)與系統(tǒng)國家重點實驗室;清華大學(xué)計算機科學(xué)與技術(shù)系;
【基金】:國家“八六三”高技術(shù)研究發(fā)展計劃基金項目(2011AA01A205) 國家自然科學(xué)基金項目(60903107,61073071) 高等學(xué)校博士學(xué)科點專項科研基金項目(20090002120005)
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 劉奕群;岑榮偉;張敏;茹立云;馬少平;;基于用戶行為分析的搜索引擎自動性能評價[J];軟件學(xué)報;2008年11期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉勁松;張彬;柴文磊;魏建行;劉振鵬;;校園網(wǎng)園區(qū)搜索引擎的設(shè)計與實現(xiàn)[J];河北大學(xué)學(xué)報(自然科學(xué)版);2011年04期
2 王倩;劉奕群;馬少平;茹立云;;面向用戶互聯(lián)網(wǎng)訪問日志的異常點擊分析[J];中文信息學(xué)報;2010年03期
3 岑榮偉;劉奕群;張敏;茹立云;馬少平;;基于日志挖掘的搜索引擎用戶行為分析[J];中文信息學(xué)報;2010年03期
4 吳世勇;王明文;;基于聚類分析的搜索引擎自動性能評價[J];中文信息學(xué)報;2010年05期
5 朱彤;劉奕群;茹立云;馬少平;;基于用戶行為的長查詢用戶滿意度分析[J];模式識別與人工智能;2012年03期
6 吳飛;金士堯;胡浩民;;基于用戶屬性的個性化教學(xué)智能輔助研究和設(shè)計[J];計算機工程與科學(xué);2012年09期
7 倪廓闊;呂學(xué)強;韓艷鏵;王濤;;搜索引擎中“N1+N2”型短語查詢優(yōu)化研究[J];計算機應(yīng)用與軟件;2012年09期
8 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)檢索用戶行為可靠性分析[J];軟件學(xué)報;2010年05期
9 詹圣君;邵雄凱;劉建舟;;一種考慮用戶行為的改進(jìn)N—PageRank算法[J];計算機技術(shù)與發(fā)展;2011年08期
10 蔡岳;袁津生;;用戶行為聚類的搜索引擎算法與實現(xiàn)[J];計算機系統(tǒng)應(yīng)用;2010年04期
相關(guān)會議論文 前2條
1 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 王倩;劉奕群;馬少平;茹立云;;面向用戶互聯(lián)網(wǎng)訪問日志的異常點擊分析[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
相關(guān)博士學(xué)位論文 前3條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 劉慧;信息檢索中用戶需求的概念分析研究[D];上海交通大學(xué);2009年
3 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 吳世勇;基于聚類分析的搜索引擎自動性能評價研究[D];江西師范大學(xué);2010年
2 朱培焱;漢英跨語言網(wǎng)址搜索引擎的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年
3 詹圣君;基于用戶行為日志分析的搜索引擎排序算法研究[D];湖北工業(yè)大學(xué);2011年
4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
5 陳凱;搜索引擎有關(guān)排序算法研究[D];武漢理工大學(xué);2011年
6 蔣明原;云計算平臺在搜索引擎中的關(guān)鍵技術(shù)研究[D];中北大學(xué);2011年
7 胡陽;中文搜索引擎用戶檢索習(xí)慣問卷調(diào)查分析[D];河北大學(xué);2011年
8 呂洋;基于用戶行為數(shù)據(jù)分析的移動互聯(lián)業(yè)務(wù)推薦模型[D];華中科技大學(xué);2011年
9 劉峰;垂直搜索中的數(shù)據(jù)清洗和排序算法研究[D];中國科學(xué)技術(shù)大學(xué);2009年
10 金祖旭;基于用戶反饋的搜索引擎排名算法研究[D];復(fù)旦大學(xué);2010年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃日茂;葉琳莉;;基于日志分析的用戶搜索行為研究[J];莆田學(xué)院學(xué)報;2010年02期
2 李萬新;;基于Windows日志分析的網(wǎng)絡(luò)入侵取證系統(tǒng)的研究[J];黑龍江科技信息;2008年16期
3 史興鍵,李偉華,王文奇;基于優(yōu)化聚類算法的安全審計模型[J];計算機工程與應(yīng)用;2005年17期
4 劉靜,郭秀麗;基于Webalizer的Web服務(wù)器日志分析[J];山東電子;2004年02期
5 徐騰;;探析電子證據(jù)在計算機犯罪中的取證研究[J];自動化與儀器儀表;2011年04期
6 費宗蓮;;Fortinet提供網(wǎng)絡(luò)安全新產(chǎn)品 集中式日志分析報表系統(tǒng)[J];計算機安全;2006年04期
7 周穎;;如何利用AWStats對VSFTP日志進(jìn)行分析、統(tǒng)計[J];科技信息;2006年04期
8 郭媛香;;面向用戶行為的Web使用挖掘技術(shù)[J];晉中學(xué)院學(xué)報;2009年03期
9 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
10 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期
相關(guān)會議論文 前10條
1 朱筱英;吳志偉;;近40年江蘇省夏季旱澇的演變、分型及特征分析[A];首屆長三角氣象科技論壇論文集[C];2004年
2 劉杰;張艷梅;趙群劍;戚金鴻;;2010年六盤水市干旱特征分析[A];貴州省氣象學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
3 任軍;;中國人遺傳性胃癌E-cadherin基因特征分析及其在早期診斷中的應(yīng)用[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會文集[C];2000年
4 陳建平;胡孝素;鄭學(xué)禮;章濤;田玉;;我國新疆皮膚利什曼原蟲種株基因特征分析[A];中國原生動物學(xué)學(xué)會第十一次學(xué)術(shù)討論會論文摘要匯編[C];2001年
5 楊露華;尹紅萍;葉其欣;滿莉萍;;多普勒天氣雷達(dá)資料在上海地區(qū)夏季暴雨預(yù)報中的應(yīng)用[A];首屆長三角科技論壇——氣象科技發(fā)展論壇論文集[C];2004年
6 王悅;李錦標(biāo);;天津市漢族替牙期正常鉭兒童顱鉭面結(jié)構(gòu)特征分析[A];第四軍醫(yī)大學(xué)口腔醫(yī)院2004第七屆全國口腔正畸學(xué)術(shù)會議論文匯編[C];2004年
7 吳詠明;;海南島幾類天氣現(xiàn)象在衛(wèi)星云圖上的特征分析[A];2005年泛珠三角氣象學(xué)術(shù)研討會論文選集[C];2005年
8 岳林;孫久榮;郭策;戴振東;;壁虎腳趾的運動及外周神經(jīng)信息特征研究[A];中國動物學(xué)會兩棲爬行動物學(xué)分會2005年學(xué)術(shù)研討會暨會員代表大會論文集[C];2005年
9 賴思靜;楊偉;李海平;;幾種典型面波時域信號的特征分析[A];第九屆全國巖石動力學(xué)學(xué)術(shù)會議論文集[C];2005年
10 蔡義勇;林毅;劉愛鳴;;福建省臺風(fēng)中尺度暴雨天氣氣候特征分析[A];中國氣象學(xué)會2006年年會“災(zāi)害性天氣系統(tǒng)的活動及其預(yù)報技術(shù)”分會場論文集[C];2006年
相關(guān)重要報紙文章 前10條
1 譚景華邋楊國良;IP網(wǎng)絡(luò)用戶行為分析方法的探討[N];人民郵電;2007年
2 ;手機閱讀用戶行為分析[N];中國新聞出版報;2011年
3 王若蘭;上半年轎車流通特征分析[N];中國工業(yè)報;2004年
4 王婷;IDC增值服務(wù):網(wǎng)站日志分析[N];計算機世界;2001年
5 南京大學(xué)中國直銷研究中心常務(wù)副主任 董伊人;網(wǎng)絡(luò)傳銷的特征分析[N];法制日報;2011年
6 尚武;埃及下調(diào)關(guān)稅的特征分析[N];中國貿(mào)易報;2004年
7 ;日志分析中的五個誤區(qū)[N];網(wǎng)絡(luò)世界;2004年
8 齊魯證券 劉洋;上證380指數(shù)特征分析[N];第一財經(jīng)日報;2010年
9 金娟;OTC市場特征分析[N];醫(yī)藥經(jīng)濟報;2003年
10 中國電子信息產(chǎn)業(yè)結(jié)構(gòu)發(fā)展研究院研究部邵春光;我國電子信息產(chǎn)業(yè)結(jié)構(gòu)演講特征分析[N];中國電子報;2002年
相關(guān)博士學(xué)位論文 前10條
1 劉洪;定性資料處理技術(shù)的應(yīng)用研究[D];吉林大學(xué);2005年
2 王玲;網(wǎng)絡(luò)服務(wù)系統(tǒng)日志安全分析技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
3 崔林麗;遙感影像解譯特征的綜合分析與評價[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2005年
4 蘇菡;基于步態(tài)分析的身份識別研究[D];哈爾濱工程大學(xué);2006年
5 于力;虹膜圖像的特征分析研究[D];哈爾濱工業(yè)大學(xué);2006年
6 劉衍玲;中小學(xué)教師情緒工作的探索性研究[D];西南大學(xué);2007年
7 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年
8 錢榮華;溶藻弧菌主要毒力相關(guān)基因的克隆、表達(dá)及其免疫原性研究[D];浙江大學(xué);2007年
9 朱曉靜;AMP激活的蛋白激酶在鹵蟲發(fā)育過程和應(yīng)激條件下的分子特征和功能研究[D];浙江大學(xué);2008年
10 張玉存;基于拓?fù)浞醋兊臋C械故障信號分析方法及應(yīng)用研究[D];燕山大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 奚杰;基于WEB日志的用戶行為分析與挖掘[D];東華大學(xué);2011年
2 王亮;基于時頻原子的雷達(dá)輻射源信號特征分析[D];西南交通大學(xué);2009年
3 武丹;單調(diào)的熱鬧與認(rèn)真的荒誕——近年中國電視劇“清宮戲”熱及其特征分析[D];吉林大學(xué);2004年
4 芮同林;人臉識別與特征提取[D];西北工業(yè)大學(xué);2006年
5 艾少偉;伊朗伊斯蘭文化與中伊文化交流[D];西南大學(xué);2006年
6 張?zhí)?烏魯木齊市城市公園旅游客流研究[D];新疆師范大學(xué);2005年
7 陳財坤;東莞市厚街鎮(zhèn)2001~2005年集體性食物中毒分析和預(yù)防對策研究[D];吉林大學(xué);2006年
8 楊敏;豬流行性腹瀉病毒結(jié)構(gòu)蛋白基因的克隆與特征分析[D];甘肅農(nóng)業(yè)大學(xué);2007年
9 朱建鋒;重慶市房地產(chǎn)市場特征分析及前景預(yù)測[D];西南大學(xué);2008年
10 周建芳;腦電信號的特征分析與研究[D];廣西師范大學(xué);2008年
,本文編號:2000817
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2000817.html