汽車產(chǎn)品缺陷信息采集與檢索系統(tǒng)
發(fā)布時間:2020-11-01 11:12
隨著我們國家國民經(jīng)濟一直快速的向前進步,老百姓對于汽車產(chǎn)品的需求量也大大增加起來,購車群體的數(shù)量每年都在持續(xù)不斷的增多。在各個汽車交易網(wǎng)站中,每款車型下面都有大量的車友對于該款車型的使用評價,這些評價信息包含了該款車型各方面使用體驗,比如外觀、加速、噪音和油耗等。這些有關車輛的評價信息對購車人群做出購車決策有極大的幫助。但是,目前人們獲取車輛評價信息的方式仍然是逐個瀏覽汽車交易網(wǎng)站,缺乏有效的方案來提取、整合某一款車型在所有汽車交易網(wǎng)站的車友評價信息。例如奧迪Q7汽車,在汽車之家、毛豆新車、人人車等汽車交易網(wǎng)站均有車友對該車的使用評價。不過這些車輛的車友評價信息并不集中存儲。針對這一現(xiàn)狀,我們設計并實現(xiàn)了面向汽車產(chǎn)品缺陷信息的的數(shù)據(jù)采集與檢索系統(tǒng),采用傳統(tǒng)技術的基礎上,進行采集技術和搜索引擎技術的創(chuàng)新,完成高質(zhì)量的汽車產(chǎn)品缺陷信息采集和檢索任務,提取有效的車輛評價信息,幫助購車人群進行購車決策。在研究和開發(fā)系統(tǒng)的過程中我們看到,爬蟲作為數(shù)據(jù)采集領域的傳統(tǒng)技術,在數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等多個領域都取得了非常好的效果,在軟件系統(tǒng)開發(fā)中受到廣泛應用。因此,我們選擇利用傳統(tǒng)的網(wǎng)絡爬蟲技術來完成車輛評價信息采集任務,并且利用主機連接VPN代理服務器來隱藏本地IP地址,克服本地IP地址被封的難題。而且,考慮到Lucene在全文檢索處理中的強大功能,在信息檢索環(huán)節(jié)采用Java語言編程,開發(fā)基于Lucene工具庫的信息檢索模塊,進一步加快車輛評論信息的檢索速度;谂老x和Lucene的汽車產(chǎn)品缺陷信息采集與檢索系統(tǒng),采用軟件系統(tǒng)開發(fā)中常用的模塊化設計手段。采用網(wǎng)絡爬蟲作為車輛評價信息采集技術,并利用VPN隱藏本地主機IP地址的能力進一步加快爬蟲程序訪問汽車網(wǎng)頁過程,主要采用C/C++進行程序開發(fā),在該模塊會引入RAS函數(shù)庫保證VPN連接的穩(wěn)定,解決主機IP地址被封的問題。信息檢索采用開源的Lucene技術,采用倒排索引方式進行汽車缺陷信息的索引建立,進一步加快檢索速度。和其他系統(tǒng)進行數(shù)據(jù)傳輸使用了網(wǎng)絡通信的手段,能夠作為后臺系統(tǒng)支持前臺查詢界面系統(tǒng)的信息查詢工作。本論文面向汽車缺陷信息檢索的使用目的,利用VPN、爬蟲和Lucene設計了相關的采集與檢索功能,解決了汽車交易市場上在汽車缺陷信息獲取方面的難題,讓購車人群可以更加有效的利用網(wǎng)絡上汽車產(chǎn)品評價信息,提升了購車人群對汽車優(yōu)劣的判斷能力,對于維護購車人群的利益具有實用價值。
【學位單位】:山東大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U472;TP391.3
【部分圖文】:
聲明一個IndexWriter的對象,這個類能夠?qū)崿F(xiàn)創(chuàng)建索引和添加索引。??最后,把文檔里我們選定的關鍵字拿出來,都保存到索引目錄里。??系統(tǒng)整體架構圖如圖2-1所示。如圖,系統(tǒng)實現(xiàn)了多線程爬蟲程序,可以??同時采集多個汽車交易網(wǎng)站的車友評論信息,比如購車網(wǎng)、優(yōu)信二手車、汽車??之家等;采集的信息包括車輛型號關鍵字,油耗、外觀等車輛重要性能指標;??將采集到的各個網(wǎng)站的車友評論數(shù)據(jù)先存儲到文本文檔中(.txt格式),這些??文檔位于本地同一個文件夾下,然后經(jīng)過數(shù)據(jù)整合再存儲進MySql數(shù)據(jù)庫中;??最后,采用PHP語言創(chuàng)建前臺查詢界面,可根據(jù)具體的車輛型號查詢某一款車??在油耗、外觀等方面的車友評論,幫助購車人群加強對目標車型性能的了解。??購車網(wǎng)?優(yōu)信?汽車之家??■??????;?j?j?j????????爬蟲?VPN?呢蟲?VPN?爬蟲?VPN??!?1?1?;I?L—??^?I??1???5;???數(shù)據(jù)存儲??車輛型號、油??耗、外觀等評論??信息???^?r???數(shù)據(jù)庫??各大汽車交易網(wǎng)??丨站車輛評論信息????__?、二??—??前臺查詢(搜索??引擎基于Lucene
述三個參數(shù)就能確定一個通信連接,再給這個連接分配一個Socket接口,應用??層和傳輸層根據(jù)這個,分別不同的進程或者不同的網(wǎng)絡連接之間的數(shù)據(jù)傳輸,??同時進行多個通信。圖2-2是Socket在應用層、運輸層、網(wǎng)絡層、鏈路層和多??個進程之間怎么進行通信。??丨用戶進i丨用戶進丨?用戶進?I用戶進?心田尸??I程1?程2?程3?!程4?應用層??I?1?J?I?I??:?4??A?11???? ̄K?一?4?.?|??/?/??!?r?▼??I??Socket抽象層??二?:::■■:,.=___??\?;?|??Jii??\?|?T??;?f?1?=?!??\?I??TCP?UDP?丨運輸層??\?I?1?!?!???\■■.二噘」????二?1??\?j?■??ICMP?—??IP?IGMP?網(wǎng)絡層????I??????4?m:?:??.........?;:=:izzz=r-.......?:===—…:二???硬件栳??ARP?g?RARP?鏈路層??媒體??圖2-2?Socket數(shù)據(jù)流向模型??3.正則表達式。??我們獲取到汽車評論信息頁面全部內(nèi)容后,要把車輛評論信息提取出來,??9??
-}4PN工作原理圖
【參考文獻】
本文編號:2865454
【學位單位】:山東大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U472;TP391.3
【部分圖文】:
聲明一個IndexWriter的對象,這個類能夠?qū)崿F(xiàn)創(chuàng)建索引和添加索引。??最后,把文檔里我們選定的關鍵字拿出來,都保存到索引目錄里。??系統(tǒng)整體架構圖如圖2-1所示。如圖,系統(tǒng)實現(xiàn)了多線程爬蟲程序,可以??同時采集多個汽車交易網(wǎng)站的車友評論信息,比如購車網(wǎng)、優(yōu)信二手車、汽車??之家等;采集的信息包括車輛型號關鍵字,油耗、外觀等車輛重要性能指標;??將采集到的各個網(wǎng)站的車友評論數(shù)據(jù)先存儲到文本文檔中(.txt格式),這些??文檔位于本地同一個文件夾下,然后經(jīng)過數(shù)據(jù)整合再存儲進MySql數(shù)據(jù)庫中;??最后,采用PHP語言創(chuàng)建前臺查詢界面,可根據(jù)具體的車輛型號查詢某一款車??在油耗、外觀等方面的車友評論,幫助購車人群加強對目標車型性能的了解。??購車網(wǎng)?優(yōu)信?汽車之家??■??????;?j?j?j????????爬蟲?VPN?呢蟲?VPN?爬蟲?VPN??!?1?1?;I?L—??^?I??1???5;???數(shù)據(jù)存儲??車輛型號、油??耗、外觀等評論??信息???^?r???數(shù)據(jù)庫??各大汽車交易網(wǎng)??丨站車輛評論信息????__?、二??—??前臺查詢(搜索??引擎基于Lucene
述三個參數(shù)就能確定一個通信連接,再給這個連接分配一個Socket接口,應用??層和傳輸層根據(jù)這個,分別不同的進程或者不同的網(wǎng)絡連接之間的數(shù)據(jù)傳輸,??同時進行多個通信。圖2-2是Socket在應用層、運輸層、網(wǎng)絡層、鏈路層和多??個進程之間怎么進行通信。??丨用戶進i丨用戶進丨?用戶進?I用戶進?心田尸??I程1?程2?程3?!程4?應用層??I?1?J?I?I??:?4??A?11???? ̄K?一?4?.?|??/?/??!?r?▼??I??Socket抽象層??二?:::■■:,.=___??\?;?|??Jii??\?|?T??;?f?1?=?!??\?I??TCP?UDP?丨運輸層??\?I?1?!?!???\■■.二噘」????二?1??\?j?■??ICMP?—??IP?IGMP?網(wǎng)絡層????I??????4?m:?:??.........?;:=:izzz=r-.......?:===—…:二???硬件栳??ARP?g?RARP?鏈路層??媒體??圖2-2?Socket數(shù)據(jù)流向模型??3.正則表達式。??我們獲取到汽車評論信息頁面全部內(nèi)容后,要把車輛評論信息提取出來,??9??
-}4PN工作原理圖
【參考文獻】
相關期刊論文 前10條
1 李會通;;全文檢索技術在缺陷汽車召回管理中的應用[J];信息系統(tǒng)工程;2015年11期
2 林雷;;汽車營銷新模式——網(wǎng)購[J];市場研究;2014年04期
3 吳昊;;基于Lucene技術的郵件取證技術研究[J];信息網(wǎng)絡安全;2013年10期
4 園園;;消費者網(wǎng)購汽車配件類型日趨豐富[J];汽車與配件;2013年37期
5 夏明忠;夏以軒;李兵元;;軟件模塊化設計和模塊化管理[J];中國信息界;2012年11期
6 向北;;汽車網(wǎng)購:看上去很美[J];市場觀察;2010年12期
7 胡華碧;;IP安全分析及基于IPSec VPN的解決方案[J];數(shù)理醫(yī)藥學雜志;2010年04期
8 李娟;張欽;;基于動態(tài)鏈接庫的Visual C++混合編程[J];計算機工程與設計;2010年09期
9 劉祥;常海遙;;我國缺陷汽車產(chǎn)品召回管理制度有效性淺析[J];世界標準信息;2008年02期
10 周平;;Lucene全文檢索引擎技術及應用[J];重慶工學院學報(自然科學版);2007年04期
相關碩士學位論文 前1條
1 王樺;基于廣度優(yōu)先的主題爬蟲的設計與實現(xiàn)[D];復旦大學;2011年
本文編號:2865454
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2865454.html
最近更新
教材專著