天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

大規(guī)模用戶在線行為數(shù)據(jù)分析

發(fā)布時間:2018-05-30 06:13

  本文選題:用戶行為分析 + 用戶屬性; 參考:《上海交通大學(xué)》2013年碩士論文


【摘要】:最近十年來全世界網(wǎng)民的數(shù)量呈現(xiàn)快速增長的趨勢,,截止2011年1月全世界網(wǎng)民的數(shù)量已經(jīng)超過了20億。在線用戶規(guī)模的急劇擴(kuò)大使得用戶在線行為分析在很多研究領(lǐng)域的意義顯得越來越重大,如在經(jīng)濟(jì)、學(xué)術(shù)以及社會事務(wù)等領(lǐng)域。其中,最具有商業(yè)價值要數(shù)用戶在線商業(yè)意圖(Online CommercialIntention)的挖掘。通過分析用戶的在線行為來挖掘出用戶個人興趣及傾向,為有針對性的廣告投放提供有力的依據(jù),從而達(dá)到更好的廣告推薦效果。 文中提出了一種檢測用戶商業(yè)意圖的新方法架構(gòu),通過分析用戶瀏覽過的網(wǎng)頁信息,從中挖掘出用戶個性化的購買傾向。借助于大型購物平臺上搜索引擎的歷史記錄以及搜索結(jié)果頁面上商品的點(diǎn)擊分布情況,通過統(tǒng)計分析建立起搜索詞與商品類目之間的關(guān)聯(lián)——關(guān)鍵詞詞典。利用這一詞典我們可以從用戶瀏覽過的網(wǎng)頁內(nèi)容中抽取出一系列能夠體現(xiàn)用戶商業(yè)意圖的關(guān)鍵詞,關(guān)鍵詞選取的標(biāo)準(zhǔn)包括關(guān)鍵詞的TF、ICF、QF以及關(guān)鍵詞本身的長度。每一個關(guān)鍵詞根據(jù)關(guān)鍵詞詞典將被映射到一系列的商品類目,其中分值最高的幾個商品類目將視為頁面的商業(yè)意圖檢測結(jié)果。為了消除一些不相關(guān)類目對于用戶商業(yè)意圖結(jié)果的影響并使得OCI結(jié)果更加集中,類目的相似度模型被引入來修正OCI結(jié)果中的分值。用戶每天的商業(yè)意圖通過聚合其當(dāng)天瀏覽過頁面的OCI結(jié)果得到。為了體現(xiàn)出商業(yè)意圖短暫、靈活多變的特點(diǎn),我們提出了用戶時間維度上的商業(yè)意圖模型來更真實地體現(xiàn)出用戶的實時商業(yè)意圖變化。 為了評估所提出OCI檢測方法的效果,在實驗部分,通過制定統(tǒng)一的評測標(biāo)準(zhǔn),評測人員對于隨機(jī)抽取的1036個測試頁面的商業(yè)意圖結(jié)果進(jìn)行了人工標(biāo)注。從標(biāo)注結(jié)果與系統(tǒng)檢測結(jié)果的對比中可知,在檢測商業(yè)意圖存在的角度,系統(tǒng)判斷的準(zhǔn)確率達(dá)到了70%,召回率達(dá)到了將近90%;而從系統(tǒng)匹商業(yè)類目的角度來看,系統(tǒng)匹配商業(yè)類目的正確率達(dá)到了86%。通過后續(xù)的實驗我們還發(fā)現(xiàn),通過限制頁面關(guān)鍵詞的數(shù)量以及設(shè)定匹配類目最小闕值等方法可以有效地提升系統(tǒng)檢測商業(yè)意圖的整體效果。 作為最終的分析結(jié)果,系統(tǒng)以一系列商品類目的形式給出了用戶在一段時間內(nèi)的商業(yè)意圖。根據(jù)商品類目在一段時間內(nèi)的分值變化情況,可以推測出用戶在這一段時間內(nèi)購買某一類商品的傾向及對應(yīng)程度。通過構(gòu)建合適的用戶購買行為模型,可以對目標(biāo)用戶進(jìn)行有針對性的商品推薦。 借助于大規(guī)模分布式計算架構(gòu),文中所提到的OCI檢測系統(tǒng)流程可以應(yīng)用于大規(guī)模用戶行為數(shù)據(jù)的分析。正在運(yùn)營的系統(tǒng)每天可以處理十億級別的用戶瀏覽記錄,用來分析得到幾千萬用戶的具體商業(yè)意圖,每個小時的數(shù)據(jù)處理量大約在150GB。
[Abstract]:The number of Internet users worldwide has been growing rapidly in the last ten years. By the end of January 2011, the number of Internet users in the world has exceeded 2 billion. The rapid expansion of online user scale makes the analysis of user online behavior more and more significant in many research fields, such as in the fields of economy, academic and social affairs. The most commercial value of the user online business intention (Online CommercialIntention) mining. Through the analysis of the user's online behavior to excavate the user's personal interests and tendencies, to provide a powerful basis for targeted advertising, so as to achieve better advertising recommendation effect.
In this paper, a new method to detect the user's commercial intention is proposed. By analyzing the information of the user's web pages, the user's personalized purchase tendency is excavated. By the historical record of the search engine on the large shopping platform and the point distribution of the goods on the search result page, the search is established by statistical analysis. A keyword dictionary. Using this dictionary, we can use this dictionary to extract a series of key words that can reflect the user's commercial intentions. The criteria for keyword selection include the TF, ICF, QF, and the length of the keyword itself. Each keyword is based on the key words. The dictionary will be mapped to a series of commodity categories, in which the highest number of items will be considered as the result of the business intent detection of the page. In order to eliminate the impact of some unrelated items on the user's commercial intent results and make the OCI results more centralized, the similarity model of the category is introduced to modify the value of the OCI results. In order to reflect the transient and flexible features of the business intention, the business intention of the user's daily business intention is obtained by aggregating the OCI results that have been viewed on the same day. In order to demonstrate the real real time business intention of the user, we propose a business intention model in the user time dimension.
In order to evaluate the effectiveness of the proposed OCI detection method, in the experimental part, the judges manually annotate the results of the commercial intent of 1036 random test pages by formulating a unified evaluation standard. The accuracy rate reached 70% and the recall rate reached nearly 90%. From the point of view of the system goods business category, the correct rate of the system matching business category reached 86%. through the follow-up experiment. We also found that the system detects can be effectively promoted by restricting the number of key words and setting the minimum threshold of the matching category. The overall effect of the purpose of the industry.
As a result of the final analysis, the system gives the user's commercial intent for a period of time in the form of a series of commodity categories. According to the changes in the value of the items within a period of time, the user can speculate on the tendency and corresponding degree of the user to purchase a certain category of goods during this period. As a model, targeted products can be recommended to target users.
With the aid of large-scale distributed computing architecture, the OCI detection system process mentioned in this paper can be applied to the analysis of large-scale user behavior data. The operating system can handle one billion levels of user browsing records every day to analyze the specific business intentions of tens of millions of users, and the amount of data processing per hour is about 1. 50GB.
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 Amir Hartman ,john Sifonis ,john kador ,亞飛;網(wǎng)絡(luò)就緒化的四大要素之管理[J];電子商務(wù)世界;2002年01期

2 祁明,翟才忠;全球信息系統(tǒng)與安全產(chǎn)品評估準(zhǔn)則的建立與發(fā)展[J];現(xiàn)代計算機(jī);2001年10期

3 陳輝;郭科;鄭文峰;;數(shù)字水印技術(shù)應(yīng)用于遙感圖像版權(quán)保護(hù)的評測標(biāo)準(zhǔn)研究[J];物探化探計算技術(shù);2008年05期

4 任怡;吳慶波;戴華東;廖湘科;楊沙洲;;通用操作系統(tǒng)對比評測標(biāo)準(zhǔn)研究[J];計算機(jī)科學(xué);2011年11期

5 華崇良;影音器材性能客觀評測標(biāo)準(zhǔn)說明之二——音箱篇[J];實用影音技術(shù);2002年04期

6 錢俊 ,許超 ,史美林;入侵檢測系統(tǒng)評測研究進(jìn)展(上)[J];計算機(jī)安全;2005年08期

7 文益民;李健;杜飛明;陳方;;集成學(xué)習(xí)算法在不平衡分類中的應(yīng)用研究[J];計算技術(shù)與自動化;2009年02期

8 華崇良;影音器材性能客觀評測標(biāo)準(zhǔn)說明之一——DVD播放機(jī)篇[J];實用影音技術(shù);2002年03期

9 李旭;反證ERP的成功[J];電子商務(wù)世界;2003年07期

10 石巖;反毒:以產(chǎn)業(yè)的力量[J];中國計算機(jī)用戶;1999年31期

相關(guān)會議論文 前10條

1 楊麗;章勇;;P2P系統(tǒng)研究[A];2009全國計算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會議論文集[C];2009年

2 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

3 陳敏;王翠葉;;中文信息處理的現(xiàn)狀與展望[A];語言文字應(yīng)用研究論文集(Ⅱ)[C];2004年

4 卿斯?jié)h;;信息安全若干問題之我見[A];第十二屆全國計算機(jī)安全技術(shù)交流會論文集[C];1997年

5 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

6 張娜;李濟(jì)洪;;基于語義標(biāo)注的中文閱讀理解語料庫的建設(shè)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

7 常曉冀;;試談我國計算機(jī)安全防護(hù)對策[A];第七次全國計算機(jī)安全學(xué)術(shù)交流會論文集[C];1992年

8 王桂平;李柱一;劉睿;王者晉;;實驗性自身免疫性重癥肌無力被動免疫模型的建立與評測[A];中華醫(yī)學(xué)會第七次全國神經(jīng)病學(xué)學(xué)術(shù)會議論文匯編[C];2004年

9 時美芳;朱美紅;顧旭東;楊葉珠;曹小英;;康復(fù)護(hù)理干預(yù)對單側(cè)空間忽略患者ADL的影響[A];中國康復(fù)醫(yī)學(xué)會第五次全國老年康復(fù)學(xué)術(shù)大會上海市康復(fù)醫(yī)學(xué)會成立20周年暨老年康復(fù)診療提高班論文匯編[C];2008年

10 張步峰;何丕廉;張冬冬;李沐;周明;;短語切分概率在統(tǒng)計機(jī)器翻譯系統(tǒng)中的應(yīng)用[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

相關(guān)重要報紙文章 前10條

1 ;IT企業(yè)渴望職業(yè)評測標(biāo)準(zhǔn)[N];中國計算機(jī)報;2006年

2 本報記者 肖志飛;借健康評測打造品牌競爭高地[N];醫(yī)藥經(jīng)濟(jì)報;2007年

3 江山;39健康網(wǎng)欲打造競爭高地[N];中華工商時報;2007年

4 劉洪宇;服務(wù)器能效考量心中有數(shù)[N];中國計算機(jī)報;2008年

5 ;荒誕評測為哪般[N];科技日報;2000年

6 選題策劃 張碧涌 info@gmw.cn 主持人 鐘曉軍;電腦質(zhì)量如何評測[N];光明日報;2004年

7 胡小明;挖坑與成活率[N];計算機(jī)世界;2002年

8 電腦報評測實驗室;我們的評測,我們的標(biāo)準(zhǔn)[N];電腦報;2002年

9 燕平;GMG兩套打樣系統(tǒng)在意大利打樣競賽中獲勝[N];中國包裝報;2006年

10 章森 王偉 華紹和;語音識別標(biāo)準(zhǔn)之痛[N];計算機(jī)世界;2006年

相關(guān)博士學(xué)位論文 前2條

1 張溯;集成電路工程學(xué)及IP評測技術(shù)的研究[D];合肥工業(yè)大學(xué);2004年

2 林雪綱;網(wǎng)絡(luò)信息系統(tǒng)生存性分析研究[D];浙江大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 邢連萍;度量測度在計算機(jī)圖形學(xué)中的應(yīng)用[D];天津大學(xué);2007年

2 徐源;使用組合度量函數(shù)的自適應(yīng)采樣算法研究[D];天津大學(xué);2006年

3 甄怡;商業(yè)綜合體建筑布局的易讀性與“尋路”[D];同濟(jì)大學(xué);2007年

4 巢建樹;與文本無關(guān)的說話人確認(rèn)系統(tǒng)的信道魯棒性研究[D];上海交通大學(xué);2009年

5 徐曉峰;大規(guī)模用戶在線行為數(shù)據(jù)分析[D];上海交通大學(xué);2013年

6 姚松源;文本自動分類系統(tǒng)的研究與實現(xiàn)[D];北京工業(yè)大學(xué);2003年

7 吳智;軟件可靠性與安全性理論模型及應(yīng)用[D];貴州大學(xué);2006年

8 郭愛麗;美國20世紀(jì)50—70年代教師教育改革研究[D];華南師范大學(xué);2007年

9 王佳;基于社會化媒體的自適應(yīng)信息推薦機(jī)制研究[D];西南財經(jīng)大學(xué);2011年

10 張順;多標(biāo)記數(shù)據(jù)分類相關(guān)技術(shù)研究[D];山東師范大學(xué);2013年



本文編號:1954233

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1954233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4254d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产级别精品一区二区视频| 成年女人午夜在线视频| 人妻一区二区三区在线| 麻豆蜜桃星空传媒在线观看| 国产一区在线免费国产一区| 日韩高清一区二区三区四区 | 在线免费视频你懂的观看| 不卡一区二区在线视频| 欧美极品欧美精品欧美| 熟女少妇一区二区三区蜜桃| 中文字幕91在线观看| 日本黄色美女日本黄色| 欧美日韩综合综合久久久| 免费啪视频免费欧美亚洲| 男生和女生哪个更好色| 欧美日韩国产一级91| 搡老熟女老女人一区二区| 熟女一区二区三区国产| 久久永久免费一区二区| 国产精品免费视频久久| 久久大香蕉一区二区三区| 欧美胖熟妇一区二区三区| 国产精品国三级国产专不卡| 男生和女生哪个更好色| 午夜免费精品视频在线看| 激情国产白嫩美女在线观看| 精品熟女少妇一区二区三区| 国产高清精品福利私拍| 日韩成人中文字幕在线一区| av在线免费播放一区二区| 日韩精品中文字幕亚洲| 久久国产青偷人人妻潘金莲| 欧美丰满大屁股一区二区三区| 国产精品一级香蕉一区| 欧美日韩国产精品第五页| 老司机精品一区二区三区| 一区二区三区亚洲国产| 亚洲精品一区二区三区免 | 日韩黄色一级片免费收看| 九九热精品视频免费在线播放| 特黄大片性高水多欧美一级|