基于并行遺傳算法的游戲虛擬貨幣市場的數(shù)據分析
【摘要】 根據美國市場分析機構ABI Research的報告,全球網游市場規(guī)模在2015年將超過290億美金[1]。游戲虛擬貨幣是該產業(yè)鏈上的核心商品,處于產業(yè)鏈上的實體都亟需了解市場的工具以獲取供求統(tǒng)計信息及實時信息。大規(guī)模的網游市場伴隨著海量網絡數(shù)據的出現(xiàn),但基于該特定領域的自然語言處理技術(包括文本信息表示技術、同義詞問題處理、特征詞選擇方法、文本檢索技術、文本分類技術、Web信息提取技術等)的研究仍不多見。本文針對上述問題,構造虛擬的專業(yè)搜索引擎,以獲取網游領域相關的結果集作為初始研究對象,并結合游戲虛擬貨幣網絡交易的特征,用適當?shù)姆诸惙椒▽⒊跏冀Y果集分類,以獲得承載游戲虛擬貨幣網絡交易信息的網頁集,再基于該網頁集進行游戲虛擬貨幣網絡交易訂單的數(shù)據采集和分析(包括冗余檢查和狀態(tài)更新),主要內容為:1.建立向量空間模型以處理網頁文本,并提出結合領域特征的特征詞選擇方法和同義詞處理方法,來計算和降低向量空間的維度。2.基于多個通用搜索引擎,構造虛擬的專業(yè)搜索引擎以獲取網游領域相關的網頁集,作為初始研究對象。3.以K-近鄰文本分類方法為基礎,提出一種變換的KNN分類方法,對網頁集進行文本分類,該方法基于對訓練語料的分析,以余弦計算新文本與已知類別的相似度,不僅實現(xiàn)簡單且準確率高,對訓練文本的重新訓練代價較低,計算的時間和空間復雜度都在訓練規(guī)模的線性變化空間內。4.采用基于DOM的Web信息提取技術提取訂單信息不僅簡單高效,而且信息的采集穩(wěn)定可靠。結合遺傳算法的基本思想以檢測多次采集的訂單信息的狀態(tài)變化,不僅具有全局搜索優(yōu)化性能以及高效的并行計算性能,而且具有自組織、自適應、自學習的特征,從而可以確保訂單信息采集的高效性和準確性。5.建立游戲虛擬貨幣數(shù)據應用平臺,以提供供求統(tǒng)計信息服務及實時信息服務。
第一章 緒論
1.1 研究背景及意義
大規(guī)模的網游市場伴隨海量網絡數(shù)據的出現(xiàn),無論是對產業(yè)鏈上的采購方還是供應方,都亟需一個工具以獲取實時的對稱信息及非實時的供求統(tǒng)計信息,以降低自身交易成本或采取有利于自身利益的有關決策。從整個市場來看,產業(yè)鏈上的各個實體通過這樣的一個工具獲得信息后,而作出的相應動作,間接協(xié)調了整個產業(yè)中供求關系的動態(tài)平衡,有利于良性競爭及最大限度地降低由于信息不對稱和資源配置不對稱帶來的負面成本,使市場資源得到優(yōu)化配置,從而促進了整個產業(yè)的產值增長。專門針對于游戲虛擬貨幣網絡交易市場的數(shù)據分析工具,當前國外研究幾乎為零,國內比較有影響的分析工具包括:“游戲麥”、“9841 比價器”等。這些比價搜索類網站,專注于為廣大游戲工作室的虛擬交易導向護航,如提供游戲技術資訊、騙子查詢、B2C 商城等服務。它們在一定程度上對網游交易開展了專業(yè)化的信息整合,并通過定向分字段以抽取出必要的數(shù)據進行處理,再以更人性化的形式返回給用戶。
.............
1.2 本文主要工作
本論文主要研究基于游戲虛擬貨幣網絡交易市場的數(shù)據分析,其主要內容包括:文本表示(同義詞問題、特征詞選擇問題、向量空間模型)、基于網游領域的文本檢索、網絡交易訂單信息的提取和訂單狀態(tài)檢測等,本論文要解決的主要問題如下:
1. 建立游戲虛擬貨幣網絡交易的數(shù)據分析模型,并在接下來的章節(jié)分別討論模型中的各個部件。
2. 基于向量空間表示法,建立向量空間模型;谟柧毼谋具x擇特征詞,組成正交特征向量的基,并用來將網游領域中的文本表示為文本向量,每個特征項對應向量空間中的一維,在每一維中的值代表一定意義的相關程度。本文將已有的特征詞選擇方法和特定領域的文本特征相結合,通過對文本進行特殊的預處理以及對特征詞選擇方法的對應配置,來獲得網游領域中的特征詞庫,也即是游戲虛擬貨幣網絡交易領域的特征詞庫,筆耕文化推薦期刊,在不引起歧義的情況下,游戲虛擬貨幣網絡交易領域在本文中簡稱為網游領域。
.............
第二章 游戲虛擬貨幣網絡交易數(shù)據分析模型
2.1 游戲虛擬貨幣概述
游戲虛擬貨幣(Game Gold),是存在于游戲程序之外,存儲在游戲企業(yè)提供的服務器內的一種虛擬物。它由游戲運營商發(fā)行,玩家通過實際貨幣按一定比例直接或間接購買,如通過預付充值卡、點卡等形式兌換游戲虛擬貨幣,以用于游戲虛擬貨幣發(fā)行企業(yè)所提供的指定范圍、指定時間內的網游服務[9]。
2.2 游戲虛擬貨幣網絡交易概述
在產業(yè)鏈上,金幣采購商(金幣收購商)通過其收購網站發(fā)布金幣收購需求信息,打金者(包括專門的打金團隊或打金公司)在收購網站上與金幣采購商進行交易,金幣采購商再通過其銷售網站或者其他銷售渠道如 eBay等,以預付充值卡或預付點卡等形式,將金幣出售給玩家。如圖 2-1 所示:
由圖 2-1 可知,游戲虛擬貨幣的網絡交易信息在收購網和銷售網中發(fā)布,從打金者到最終玩家,經歷了“供應——需求——供應”的過程,本文以打金者與收購商的供求關系為研究對象,收集收購網站中的發(fā)布的需求信息和交易信息。
...........
第三章 網游領域的文本向量空間................................8
3.1 向量空間模型概述 ...................... 8
3.2 網游領域的文本向量空間 ........................... 10
第四章 網游領域的文本檢索..................................24
4.1 網游領域文本檢索概述 .......................... 24
4.2 虛擬的專業(yè)搜索引擎 ...................... 25
4.3 分類器 .................... 33
第六章 數(shù)據應用
6.1 經濟指標
經過前述各個章節(jié)的討論,可以定義如下幾個經濟指標,用來提供相關的供求統(tǒng)計信息服務和實時信息服務:
1. 市場總值需求活躍指數(shù):總價值=數(shù)量*價格;
2. 價格活躍指數(shù)(環(huán)比):(現(xiàn)價 – 舊價)/舊價)%;
3. 總需求量活躍指數(shù)(環(huán)比):((現(xiàn)需求量 – 舊需求量)/舊需求量)%;
4. 平均價格;
5. 實時價格;供求統(tǒng)計信息反應了游戲虛擬貨幣市場的供求關系,并一定程度上預測了整個市場的走勢,將直接影響收購公司和打金業(yè)務者采取有利于自身的相關決策,同時也間接影響了金幣購買者購買行為。從全局來看,其最終的結果,是使得整個市場的資源得到優(yōu)化配置,促進了整個產業(yè)的發(fā)展。實時信息直接反應了當前的具體需求和價格,直接影響當前網絡交易的行為和結果,無論是金幣收購商還是打金業(yè)務者,都會在當前通過調整或選擇有利于自身最大利潤的交易行為,揚長避短,提升自身競爭力。
.............
第七章 總結與展望
7.1 本文的總結
在第二章中建立了一個基于游戲虛擬貨幣網絡交易市場的數(shù)據分析模型,并在接下來的章節(jié)詳細討論和分析模型中的各個部件和其中的重要處理過程。為了得到承載游戲虛擬貨幣網絡交易信息的網頁集,必須通過基于網游領域的文本檢索。首先需要將網頁文本表示為計算機能夠識別的形式,因此在第三章中基于向量空間模型建立了網游領域的文本向量空間,設計和實現(xiàn)了結合領域特征進行特征詞選擇的方法,簡單、高效,并且選擇準確率高;接著提出了結合《同義詞詞林》和自定義的詞典注釋進行同義詞問題的處理的方法,提高了網游領域中同義詞辨析的全面性和準確性。在第四章中接著討論如何獲得承載游戲虛擬貨幣網絡交易信息的網頁集。首先設計和實現(xiàn)了一個基于通用搜索引擎而構造的虛擬專業(yè)搜索引擎,以獲得網游領域相關的初始網頁集,該方法不僅原理簡單,而且避免了采用傳統(tǒng)的網絡爬蟲去展開全面搜索的問題,體現(xiàn)了特定領域文本檢索的優(yōu)越性。然后基于 KNN 文本分類的基本思想,提出和實現(xiàn)了一種變換的 KNN 分類方法,將初始網頁集中的承載游戲虛擬貨幣網絡交易信息的網頁歸類出來,形成訂單網頁集。由于該方法充分利用了訓練文本的特征和網游領域中存在大量專業(yè)術語的特征,確保了網游領域的文本檢索的效率和準確性。.............
參考文獻:
[1] 郭建兵,崔志明,陳明,趙朋朋. 基于DOM樹與領域本體的Web抽取方法[J]. 計算機工程. 2012(05)
[2] 楊舟,卓林,趙朋朋,崔志明. 一種針對商品數(shù)據記錄的自動抽取方法[J]. 計算機工程. 2010(23)
[3] 戴文華,焦翠珍,何婷婷. 基于混合并行遺傳聚類的文本特征抽取方法研究[J]. 計算機科學. 2008(09)
[4] 孫麟,牛軍鈺. 基于領域相關詞匯提取的特征選擇方法[J]. 小型微型計算機系統(tǒng). 2007(05)
[5] 劉丹,謝慶生,顧新建. 電子商務環(huán)境下產品本體構建技術研究[J]. 計算機應用. 2007(03)
[6] 徐金雷,楊曉江. 專業(yè)搜索引擎的排序算法研究[J]. 現(xiàn)代圖書情報技術. 2006(07)
[7] 劉維群,李元臣. 基于遺傳算法的個性化信息的特征提取[J]. 現(xiàn)代情報. 2006(06)
[8] 張繼東,劉萍. 基于語料庫同義詞辨析的一般方法[J]. 解放軍外國語學院學報. 2005(06)
[9] 趙世奇,張宇,劉挺,陳毅恒,黃永光,李生. 基于類別特征域的文本分類特征選擇方法[J]. 中文信息學報. 2005(06)
[10] 張寧,賈自艷,史忠植. 使用KNN算法的文本分類[J]. 計算機工程. 2005(08)
本文編號:10462
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/10462.html