低頻查詢的用戶行為分析和類別研究
本文選題:低頻查詢 + 用戶行為。 參考:《計(jì)算機(jī)研究與發(fā)展》2012年11期
【摘要】:低頻查詢是用戶提交查詢頻次非常低的查詢.它們占了搜索引擎獨(dú)立查詢的很大比例且對(duì)用戶體驗(yàn)影響巨大,但由于數(shù)據(jù)稀疏性,現(xiàn)有的搜索引擎用戶行為分析及相關(guān)研究中對(duì)低頻查詢涉及很少.結(jié)合前人的相關(guān)工作,使用商業(yè)搜索引擎的大規(guī)模用戶日志,在會(huì)話級(jí)別上進(jìn)行低頻查詢的用戶行為分析以及類別研究.基于目標(biāo)查詢行為、后續(xù)相關(guān)查詢行為、整體會(huì)話行為3個(gè)方面的12個(gè)特征進(jìn)行了低頻查詢的用戶行為特征分析,首次提出了低頻查詢類別分析框架,并進(jìn)一步使用改進(jìn)的AdaBoost算法對(duì)低頻查詢會(huì)話進(jìn)行分類.實(shí)驗(yàn)對(duì)2000個(gè)隨機(jī)的低頻查詢會(huì)話樣例進(jìn)行分類,AUC值達(dá)到了83%以上.低頻查詢的用戶行為分析和類別研究,將為搜索引擎用戶行為分析等網(wǎng)絡(luò)檢索研究提供重要基礎(chǔ).
[Abstract]:Low frequency query is a very low frequency query submitted by the user. They account for a large proportion of search engine independent queries and have a great impact on the user experience. However due to the sparsity of data the existing search engine user behavior analysis and related research on low-frequency queries are rarely involved. Combined with the related work of predecessors, using the large-scale user log of commercial search engine, the user behavior analysis and category research of low-frequency query at session level are carried out. Based on 12 features of target query behavior, subsequent related query behavior and overall conversation behavior, the user behavior characteristics of low frequency query are analyzed, and a low frequency query category analysis framework is proposed for the first time. Furthermore, the improved AdaBoost algorithm is used to classify low frequency query sessions. The AUC value of 2000 random low frequency conversation samples is over 83%. User behavior analysis and classification research of low frequency query will provide an important basis for search engine user behavior analysis and other network retrieval research.
【作者單位】: 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室;清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【基金】:國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2011AA01A205) 國(guó)家自然科學(xué)基金項(xiàng)目(60903107,61073071) 高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20090002120005)
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 劉奕群;岑榮偉;張敏;茹立云;馬少平;;基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)[J];軟件學(xué)報(bào);2008年11期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉勁松;張彬;柴文磊;魏建行;劉振鵬;;校園網(wǎng)園區(qū)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
2 王倩;劉奕群;馬少平;茹立云;;面向用戶互聯(lián)網(wǎng)訪問(wèn)日志的異常點(diǎn)擊分析[J];中文信息學(xué)報(bào);2010年03期
3 岑榮偉;劉奕群;張敏;茹立云;馬少平;;基于日志挖掘的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2010年03期
4 吳世勇;王明文;;基于聚類分析的搜索引擎自動(dòng)性能評(píng)價(jià)[J];中文信息學(xué)報(bào);2010年05期
5 朱彤;劉奕群;茹立云;馬少平;;基于用戶行為的長(zhǎng)查詢用戶滿意度分析[J];模式識(shí)別與人工智能;2012年03期
6 吳飛;金士堯;胡浩民;;基于用戶屬性的個(gè)性化教學(xué)智能輔助研究和設(shè)計(jì)[J];計(jì)算機(jī)工程與科學(xué);2012年09期
7 倪廓闊;呂學(xué)強(qiáng);韓艷鏵;王濤;;搜索引擎中“N1+N2”型短語(yǔ)查詢優(yōu)化研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年09期
8 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)檢索用戶行為可靠性分析[J];軟件學(xué)報(bào);2010年05期
9 詹圣君;邵雄凱;劉建舟;;一種考慮用戶行為的改進(jìn)N—PageRank算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年08期
10 蔡岳;袁津生;;用戶行為聚類的搜索引擎算法與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年04期
相關(guān)會(huì)議論文 前2條
1 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 王倩;劉奕群;馬少平;茹立云;;面向用戶互聯(lián)網(wǎng)訪問(wèn)日志的異常點(diǎn)擊分析[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前3條
1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
2 劉慧;信息檢索中用戶需求的概念分析研究[D];上海交通大學(xué);2009年
3 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 吳世勇;基于聚類分析的搜索引擎自動(dòng)性能評(píng)價(jià)研究[D];江西師范大學(xué);2010年
2 朱培焱;漢英跨語(yǔ)言網(wǎng)址搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
3 詹圣君;基于用戶行為日志分析的搜索引擎排序算法研究[D];湖北工業(yè)大學(xué);2011年
4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
5 陳凱;搜索引擎有關(guān)排序算法研究[D];武漢理工大學(xué);2011年
6 蔣明原;云計(jì)算平臺(tái)在搜索引擎中的關(guān)鍵技術(shù)研究[D];中北大學(xué);2011年
7 胡陽(yáng);中文搜索引擎用戶檢索習(xí)慣問(wèn)卷調(diào)查分析[D];河北大學(xué);2011年
8 呂洋;基于用戶行為數(shù)據(jù)分析的移動(dòng)互聯(lián)業(yè)務(wù)推薦模型[D];華中科技大學(xué);2011年
9 劉峰;垂直搜索中的數(shù)據(jù)清洗和排序算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
10 金祖旭;基于用戶反饋的搜索引擎排名算法研究[D];復(fù)旦大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃日茂;葉琳莉;;基于日志分析的用戶搜索行為研究[J];莆田學(xué)院學(xué)報(bào);2010年02期
2 李萬(wàn)新;;基于Windows日志分析的網(wǎng)絡(luò)入侵取證系統(tǒng)的研究[J];黑龍江科技信息;2008年16期
3 史興鍵,李偉華,王文奇;基于優(yōu)化聚類算法的安全審計(jì)模型[J];計(jì)算機(jī)工程與應(yīng)用;2005年17期
4 劉靜,郭秀麗;基于Webalizer的Web服務(wù)器日志分析[J];山東電子;2004年02期
5 徐騰;;探析電子證據(jù)在計(jì)算機(jī)犯罪中的取證研究[J];自動(dòng)化與儀器儀表;2011年04期
6 費(fèi)宗蓮;;Fortinet提供網(wǎng)絡(luò)安全新產(chǎn)品 集中式日志分析報(bào)表系統(tǒng)[J];計(jì)算機(jī)安全;2006年04期
7 周穎;;如何利用AWStats對(duì)VSFTP日志進(jìn)行分析、統(tǒng)計(jì)[J];科技信息;2006年04期
8 郭媛香;;面向用戶行為的Web使用挖掘技術(shù)[J];晉中學(xué)院學(xué)報(bào);2009年03期
9 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期
10 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期
相關(guān)會(huì)議論文 前10條
1 朱筱英;吳志偉;;近40年江蘇省夏季旱澇的演變、分型及特征分析[A];首屆長(zhǎng)三角氣象科技論壇論文集[C];2004年
2 劉杰;張艷梅;趙群劍;戚金鴻;;2010年六盤(pán)水市干旱特征分析[A];貴州省氣象學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
3 任軍;;中國(guó)人遺傳性胃癌E-cadherin基因特征分析及其在早期診斷中的應(yīng)用[A];西部大開(kāi)發(fā) 科教先行與可持續(xù)發(fā)展——中國(guó)科協(xié)2000年學(xué)術(shù)年會(huì)文集[C];2000年
4 陳建平;胡孝素;鄭學(xué)禮;章濤;田玉;;我國(guó)新疆皮膚利什曼原蟲(chóng)種株基因特征分析[A];中國(guó)原生動(dòng)物學(xué)學(xué)會(huì)第十一次學(xué)術(shù)討論會(huì)論文摘要匯編[C];2001年
5 楊露華;尹紅萍;葉其欣;滿莉萍;;多普勒天氣雷達(dá)資料在上海地區(qū)夏季暴雨預(yù)報(bào)中的應(yīng)用[A];首屆長(zhǎng)三角科技論壇——?dú)庀罂萍及l(fā)展論壇論文集[C];2004年
6 王悅;李錦標(biāo);;天津市漢族替牙期正常鉭兒童顱鉭面結(jié)構(gòu)特征分析[A];第四軍醫(yī)大學(xué)口腔醫(yī)院2004第七屆全國(guó)口腔正畸學(xué)術(shù)會(huì)議論文匯編[C];2004年
7 吳詠明;;海南島幾類天氣現(xiàn)象在衛(wèi)星云圖上的特征分析[A];2005年泛珠三角氣象學(xué)術(shù)研討會(huì)論文選集[C];2005年
8 岳林;孫久榮;郭策;戴振東;;壁虎腳趾的運(yùn)動(dòng)及外周神經(jīng)信息特征研究[A];中國(guó)動(dòng)物學(xué)會(huì)兩棲爬行動(dòng)物學(xué)分會(huì)2005年學(xué)術(shù)研討會(huì)暨會(huì)員代表大會(huì)論文集[C];2005年
9 賴思靜;楊偉;李海平;;幾種典型面波時(shí)域信號(hào)的特征分析[A];第九屆全國(guó)巖石動(dòng)力學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
10 蔡義勇;林毅;劉愛(ài)鳴;;福建省臺(tái)風(fēng)中尺度暴雨天氣氣候特征分析[A];中國(guó)氣象學(xué)會(huì)2006年年會(huì)“災(zāi)害性天氣系統(tǒng)的活動(dòng)及其預(yù)報(bào)技術(shù)”分會(huì)場(chǎng)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 譚景華邋楊國(guó)良;IP網(wǎng)絡(luò)用戶行為分析方法的探討[N];人民郵電;2007年
2 ;手機(jī)閱讀用戶行為分析[N];中國(guó)新聞出版報(bào);2011年
3 王若蘭;上半年轎車(chē)流通特征分析[N];中國(guó)工業(yè)報(bào);2004年
4 王婷;IDC增值服務(wù):網(wǎng)站日志分析[N];計(jì)算機(jī)世界;2001年
5 南京大學(xué)中國(guó)直銷(xiāo)研究中心常務(wù)副主任 董伊人;網(wǎng)絡(luò)傳銷(xiāo)的特征分析[N];法制日?qǐng)?bào);2011年
6 尚武;埃及下調(diào)關(guān)稅的特征分析[N];中國(guó)貿(mào)易報(bào);2004年
7 ;日志分析中的五個(gè)誤區(qū)[N];網(wǎng)絡(luò)世界;2004年
8 齊魯證券 劉洋;上證380指數(shù)特征分析[N];第一財(cái)經(jīng)日?qǐng)?bào);2010年
9 金娟;OTC市場(chǎng)特征分析[N];醫(yī)藥經(jīng)濟(jì)報(bào);2003年
10 中國(guó)電子信息產(chǎn)業(yè)結(jié)構(gòu)發(fā)展研究院研究部邵春光;我國(guó)電子信息產(chǎn)業(yè)結(jié)構(gòu)演講特征分析[N];中國(guó)電子報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 劉洪;定性資料處理技術(shù)的應(yīng)用研究[D];吉林大學(xué);2005年
2 王玲;網(wǎng)絡(luò)服務(wù)系統(tǒng)日志安全分析技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
3 崔林麗;遙感影像解譯特征的綜合分析與評(píng)價(jià)[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2005年
4 蘇菡;基于步態(tài)分析的身份識(shí)別研究[D];哈爾濱工程大學(xué);2006年
5 于力;虹膜圖像的特征分析研究[D];哈爾濱工業(yè)大學(xué);2006年
6 劉衍玲;中小學(xué)教師情緒工作的探索性研究[D];西南大學(xué);2007年
7 楊爾弘;突發(fā)事件信息提取研究[D];北京語(yǔ)言大學(xué);2005年
8 錢(qián)榮華;溶藻弧菌主要毒力相關(guān)基因的克隆、表達(dá)及其免疫原性研究[D];浙江大學(xué);2007年
9 朱曉靜;AMP激活的蛋白激酶在鹵蟲(chóng)發(fā)育過(guò)程和應(yīng)激條件下的分子特征和功能研究[D];浙江大學(xué);2008年
10 張玉存;基于拓?fù)浞醋兊臋C(jī)械故障信號(hào)分析方法及應(yīng)用研究[D];燕山大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 奚杰;基于WEB日志的用戶行為分析與挖掘[D];東華大學(xué);2011年
2 王亮;基于時(shí)頻原子的雷達(dá)輻射源信號(hào)特征分析[D];西南交通大學(xué);2009年
3 武丹;單調(diào)的熱鬧與認(rèn)真的荒誕——近年中國(guó)電視劇“清宮戲”熱及其特征分析[D];吉林大學(xué);2004年
4 芮同林;人臉識(shí)別與特征提取[D];西北工業(yè)大學(xué);2006年
5 艾少偉;伊朗伊斯蘭文化與中伊文化交流[D];西南大學(xué);2006年
6 張?zhí)?烏魯木齊市城市公園旅游客流研究[D];新疆師范大學(xué);2005年
7 陳財(cái)坤;東莞市厚街鎮(zhèn)2001~2005年集體性食物中毒分析和預(yù)防對(duì)策研究[D];吉林大學(xué);2006年
8 楊敏;豬流行性腹瀉病毒結(jié)構(gòu)蛋白基因的克隆與特征分析[D];甘肅農(nóng)業(yè)大學(xué);2007年
9 朱建鋒;重慶市房地產(chǎn)市場(chǎng)特征分析及前景預(yù)測(cè)[D];西南大學(xué);2008年
10 周建芳;腦電信號(hào)的特征分析與研究[D];廣西師范大學(xué);2008年
,本文編號(hào):2000817
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2000817.html