基于地理信息的檢索和用戶數(shù)據(jù)挖掘
本文選題:地理信息檢索 + 數(shù)據(jù)挖掘; 參考:《大連理工大學(xué)》2013年碩士論文
【摘要】:Web技術(shù)的發(fā)展,使得網(wǎng)頁中包含了大量的地理信息,挖掘網(wǎng)頁中包含的地理信息,將其應(yīng)用到傳統(tǒng)的信息檢索領(lǐng)域,有助于搜索引擎更好的理解用戶的查詢意圖,產(chǎn)生個(gè)性化的搜索結(jié)果。移動(dòng)互聯(lián)網(wǎng)技術(shù)和基于位置服務(wù)LBS(Location-based services)的迅猛發(fā)展,催生了新的社交網(wǎng)絡(luò)。用戶在這些新的社交網(wǎng)絡(luò)中,可以發(fā)表自己的看法,實(shí)時(shí)記錄自己參加的活動(dòng)和活動(dòng)場所。這就使得通過大量真實(shí)的用戶數(shù)據(jù)挖掘用戶的活動(dòng)范圍、學(xué)習(xí)用戶行為習(xí)慣成為可能,從而可以提供更好地廣告服務(wù)和個(gè)性化推薦。 本文主要從以下三個(gè)方面對地理信息的應(yīng)用進(jìn)行研究: 首先,基于文檔地名感知的地理信息檢索模型,將地理信息應(yīng)用到傳統(tǒng)的信息檢索模型中。區(qū)別于其它的地理信息檢索模型,此模型不使用最小邊界矩形確定文檔范圍,將文檔索引在單一的空間索引中,而是將文檔按其中出現(xiàn)的地名索引在多個(gè)空間范圍內(nèi),計(jì)算單個(gè)地名范圍與查詢范圍的相似度,將所有相似度的和作為地理相關(guān)性。模型融合時(shí),考慮了地理信息的層次特征和文檔的特征。實(shí)驗(yàn)表明本文的模型優(yōu)于傳統(tǒng)的檢索模型和確定文檔地理范圍的地理信息檢索模型。 其次,Twitter中基于用戶tweet內(nèi)容和社會(huì)網(wǎng)絡(luò)的用戶位置預(yù)測。如果獲取到用戶經(jīng);顒(dòng)的范圍,互聯(lián)網(wǎng)就可以提供更加個(gè)性化的推薦服務(wù)。用戶在發(fā)表tweet時(shí)都會(huì)有意或無意的泄漏一些地理詞(地名或者是方言詞匯),并且他們在社交網(wǎng)絡(luò)中更關(guān)注生活在周圍的人,本文提出一種融合文本模型與社會(huì)網(wǎng)絡(luò)模型的混合概率模型來預(yù)測用戶的位置。在文本模型中,提出兩種識(shí)別地理詞的方法,反位置頻率和偏遠(yuǎn)位置過濾,同時(shí)也考慮了命名實(shí)體識(shí)別這種傳統(tǒng)的地理詞識(shí)別方法;在社會(huì)網(wǎng)絡(luò)模型中本文考慮了用戶粉絲(或者是關(guān)注)的網(wǎng)絡(luò)關(guān)系。實(shí)驗(yàn)結(jié)果證明本文的方法預(yù)測效果要好于之前的方法。 最后,LBS中基于用戶興趣和時(shí)間的位置推薦。LBS中用戶海量的簽到數(shù)據(jù),為學(xué)習(xí)用戶的行為習(xí)慣、興趣愛好和位置的特征提供了便捷條件,從而可以更好的為用戶其推薦感興趣的和合適的場所。本文提出一種推薦模型,它考慮了用戶的訪問時(shí)間、位置的時(shí)間特征和流行度、用戶的興趣、用戶朋友的影響和用戶所在位置等信息。在簽到數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)表明,融合時(shí)間和用戶興趣的推薦確實(shí)能提高推薦的效果。
[Abstract]:With the development of Web technology, the web pages contain a lot of geographical information, mining the geographical information contained in the web pages, and applying them to the traditional information retrieval field, which is helpful for search engines to better understand the query intention of users. Generate personalized search results. With the rapid development of mobile Internet technology and location-based services (Location-based services), new social networks have been created. In these new social networks, users can express their views and record their activities and venues in real time. This makes it possible to learn the behavior habits of users through a large amount of real user data mining the scope of user activities, so as to provide better advertising services and personalized recommendation. This paper mainly studies the application of geographical information from the following three aspects: firstly, the geographical information retrieval model based on document place name perception is applied to the traditional information retrieval model. Different from other geographic information retrieval models, this model does not use the minimum boundary rectangle to determine the document range, but indexes the document in a single spatial index. The similarity between a single geographical name range and a query range is calculated, and the sum of all similarity measures is regarded as geographical correlation. The hierarchical features of geographic information and the features of documents are taken into account when the model is fused. The experimental results show that the proposed model is superior to the traditional retrieval model and the geographic information retrieval model which determines the geographical range of documents. Secondly, the user location prediction based on user tweet content and social network. If you get a range of user activity, the Internet can provide a more personalized recommendation service. Users release geographic words (place names or dialect words) intentionally or unintentionally when they post tweet, and they pay more attention to people living around them on social networks. In this paper, a hybrid probabilistic model combining text model and social network model is proposed to predict the user's position. In the text model, two methods are proposed to recognize geographical words, inverse location frequency and remote location filtering. At the same time, named entity recognition is considered as the traditional method of geographical word recognition. In the social network model, this paper considers the relationship of user fans (or concerns). The experimental results show that the prediction effect of this method is better than that of the previous method. Finally, the massive sign-in data of users in LBS based on user interest and time recommendation. LBS provides a convenient condition for learning the behavior habits, interests and location characteristics of users. In order to better recommend for the user of their interest and the appropriate place. In this paper, a recommendation model is proposed, which considers the access time, temporal characteristics and popularity of the user, the interest of the user, the influence of the user's friends and the location of the user. The experiments in the check-in data set show that the recommendation of fusion time and user interest can improve the effect of recommendation.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 柳巧玲;米天勝;;基于語義網(wǎng)的智能信息檢索研究[J];科技管理研究;2008年08期
2 賴茂生;屈鵬;;相關(guān)性基礎(chǔ)理論及其在檢索建模中的作用研究[J];情報(bào)理論與實(shí)踐;2008年06期
3 喬亞男;齊勇;侯迪;;高階信息檢素問題相關(guān)研究進(jìn)展[J];中國科技論文在線;2009年01期
4 劉靜;;關(guān)于知識(shí)檢索的思考[J];內(nèi)江科技;2009年06期
5 李娟;;基于本體論的個(gè)性化信息檢索[J];黑龍江科技信息;2009年35期
6 馬文峰;杜小勇;;知識(shí)檢索研究[J];情報(bào)理論與實(shí)踐;2006年02期
7 丁政建;李飛;;基于本體的信息檢索技術(shù)的研究[J];科學(xué)技術(shù)與工程;2008年13期
8 樊紅俠;;基于粗糙—模糊集的Web信息檢索改進(jìn)模型[J];現(xiàn)代圖書情報(bào)技術(shù);2008年08期
9 楊毅超;黃璜;;基于Agent的農(nóng)業(yè)信息檢索系統(tǒng)應(yīng)用研究[J];安徽農(nóng)業(yè)科學(xué);2009年11期
10 虞為;曹加恒;曾承;黃敏;陳俊鵬;;基于語義索引詞的語義網(wǎng)信息檢索模型[J];計(jì)算機(jī)工程;2007年03期
相關(guān)會(huì)議論文 前10條
1 梅偉;劉惟一;;基于可信度的信息檢索模型[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
2 鄧志鴻;張銘;陳捷;楊冬青;唐世渭;;基于本體的Web信息檢索模型初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
3 馬少平;張敏;;信息檢索研究:過去三十年中我們走了多遠(yuǎn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
4 石敏;康耀紅;;關(guān)于廣義向量空間模型中布爾運(yùn)算的修正[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
5 沈勇;湯兆石;;基于信息隱藏技術(shù)的音頻標(biāo)注與檢索[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
6 普東航;唐常杰;元昌安;廖勇;張?zhí)鞈c;于中華;;一種基于相鄰地址的信息檢索模型AAM[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
7 盛俊;王明文;余俊英;;一種基于潛在語義的Markov網(wǎng)絡(luò)信息檢索模型[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
8 張玉連;陳琳娜;陳金森;;基于本體的個(gè)性化服務(wù)用戶模型研究[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
9 吳晨;張全;繆建明;韋向峰;;自然語言語義理解下的信息檢索模型[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
10 郭稷;駱衛(wèi)華;;一種基于索引模型融合的面向問答的信息檢索方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 程凡;基于排序?qū)W習(xí)的信息檢索模型研究[D];中國科學(xué)技術(shù)大學(xué);2012年
2 馬暉男;信息檢索中淺層語義模型的研究[D];大連理工大學(xué);2007年
3 宋峻峰;面向語義Web的領(lǐng)域本體表示、推理、集成及其應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2006年
4 楊為民;基于場論的信息檢索模型的研究[D];安徽大學(xué);2007年
5 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
6 王瑞琴;基于語義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年
7 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年
8 江開忠;上下文感知的Web搜索關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2008年
9 胡志華;基于免疫系統(tǒng)的協(xié)同進(jìn)化機(jī)制及其應(yīng)用研究[D];東華大學(xué);2009年
10 徐建民;基于術(shù)語關(guān)系的貝葉斯網(wǎng)絡(luò)信息檢索模型擴(kuò)展研究[D];天津大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 汪晨;基于本體的信息檢索系統(tǒng)研究[D];合肥工業(yè)大學(xué);2007年
2 丁志剛;基于類別意圖的信息檢索模型[D];北京郵電大學(xué);2009年
3 唐俊;基于概念格的個(gè)性化信息檢索研究[D];西華大學(xué);2006年
4 王程;語義網(wǎng)絡(luò)環(huán)境下的信息檢索模式研究[D];黑龍江大學(xué);2006年
5 趙嫣;信息檢索中結(jié)構(gòu)化文檔相關(guān)度計(jì)算方法的研究[D];山東大學(xué);2007年
6 劉春泳;中文問答系統(tǒng)中信息檢索模型的研究[D];重慶大學(xué);2007年
7 李立;中文信息檢索系統(tǒng)研究[D];華中師范大學(xué);2008年
8 賈文杰;基于多Agent的個(gè)性化信息檢索技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2007年
9 顧雅楓;基于用戶興趣模型的信息檢索研究[D];蘭州大學(xué);2009年
10 趙爽;基于貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)化文檔檢索[D];河北大學(xué);2006年
,本文編號(hào):2058874
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2058874.html