時(shí)間:2023-05-30 10:25:46
開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇個(gè)性化推薦,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。
關(guān)鍵詞:個(gè)性化推薦;推薦技術(shù);關(guān)聯(lián)規(guī)則;協(xié)同過濾
隨著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,人們逐漸從信息匱乏時(shí)代進(jìn)入了信息過載時(shí)代。這個(gè)時(shí)代,對(duì)于信息生產(chǎn)者而言,如何讓自己生產(chǎn)的信息脫穎而出,收到廣大用戶的關(guān)注是一件很困難的事情。對(duì)于用戶而言,信息量的增大加重了找到感興趣信息的負(fù)擔(dān),從而降低了信息的使用效率。推薦系統(tǒng)正是在這一環(huán)境中誕生的,它是根據(jù)用戶的信息需求、興趣等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個(gè)性化信息推薦系統(tǒng)。
1 推薦系統(tǒng)概念、組成要素
目前被廣泛接受的推薦系統(tǒng)的概念和定義是Resnick和Varian在1997年給出的:“它是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。個(gè)性化推薦系統(tǒng)主要由三個(gè)要素組成,分別是:候選對(duì)象、用戶、推薦算法。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對(duì)象模型中的特征信息匹配,同時(shí)使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選,找到用戶可能感興趣的推薦對(duì)象,然后推薦給用戶。
2 推薦技術(shù)
推薦算法是整個(gè)推薦系統(tǒng)中核心的部分,在很大程度上決定了推薦系統(tǒng)的質(zhì)量。目前主要的推薦技術(shù)基本包括以下幾種:基于關(guān)聯(lián)規(guī)則的推薦技術(shù),基于內(nèi)容的推薦技術(shù),協(xié)同過濾推薦技術(shù)和混合推薦技術(shù)。
2.1 基于關(guān)聯(lián)規(guī)則的推薦技術(shù)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)中所蘊(yùn)含的一類重要規(guī)律,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本任務(wù),關(guān)聯(lián)規(guī)則挖掘就是從數(shù)據(jù)項(xiàng)目中找出所有的并發(fā)關(guān)系,這種關(guān)系也稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典應(yīng)用就是購物籃數(shù)據(jù)分析,目的是找出顧客在商場(chǎng)(或普通店鋪)所選購商品之間的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則可以這樣表述。設(shè)I={i1,i2,…,in}為所有項(xiàng)的集合,事務(wù)T表示事務(wù)集合。數(shù)據(jù)庫D為事務(wù)數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則形如XY的蘊(yùn)含式,其中X、Y均為項(xiàng)目集,并且X、Y沒有交集。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用支持度和置信度表示。支持度為同時(shí)包含X、Y 項(xiàng)集的事務(wù)在數(shù)據(jù)庫D中的百分比。置信度為包含X的事務(wù)同時(shí)也包含Y在數(shù)據(jù)庫D中的百分比。目前已有大量文獻(xiàn)提出關(guān)聯(lián)規(guī)則挖掘算法,在眾多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出來的,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。該算法分兩步進(jìn)行:第一步,生成所有繁瑣項(xiàng)目集,繁瑣項(xiàng)目集是支持度高于最小支持度的項(xiàng)目集;第二步,從繁瑣項(xiàng)目集中生成所有可信的關(guān)聯(lián)規(guī)則,可信關(guān)聯(lián)規(guī)則是置信度大于最小置信度的規(guī)則。
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)其優(yōu)點(diǎn)是:簡(jiǎn)單直接,領(lǐng)域通用性強(qiáng),規(guī)則的挖掘可以離線進(jìn)行,可以保證推薦算法的實(shí)時(shí)性要求。其缺點(diǎn)是:存在著嚴(yán)重的"冷啟動(dòng)"問題,新加入的項(xiàng)目由于缺少相關(guān)的用戶數(shù)據(jù),難以被系統(tǒng)中的規(guī)則發(fā)現(xiàn),從而得不到推薦,并且隨著系統(tǒng)項(xiàng)目數(shù)量的不斷增加,規(guī)則也會(huì)呈出相應(yīng)的增長(zhǎng)趨勢(shì),使得規(guī)則的管理成本相應(yīng)升高,降低了系統(tǒng)的運(yùn)行效率。
2.2 基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦算法重要的是建立項(xiàng)目特征屬性庫,系統(tǒng)通過用戶已關(guān)注項(xiàng)目的特征屬性值,來掌握目標(biāo)用戶興趣點(diǎn),依據(jù)用戶興趣點(diǎn)與待推薦項(xiàng)目屬性值的匹配程度進(jìn)行推薦。用戶興趣點(diǎn)的產(chǎn)生依賴于系統(tǒng)所采用的機(jī)器學(xué)習(xí)算法,如基于向量的表示、文本挖掘、判別樹、神經(jīng)網(wǎng)絡(luò)等技術(shù)?;趦?nèi)容的推薦結(jié)果直觀易理解,不需要過多的領(lǐng)域知識(shí),但是需要有足夠數(shù)據(jù)構(gòu)造分類器,一些例如稀疏問題、新用戶問題和復(fù)雜屬性等問題不易處理。
2.3 協(xié)同過濾推薦技術(shù)
基于協(xié)同過濾推薦技術(shù)是當(dāng)前主流的,應(yīng)用最為廣泛的一種推薦技術(shù)。該推薦技術(shù)可以分為兩種,一種是基于用戶的協(xié)同過濾推薦技術(shù);另一種是基于項(xiàng)目的協(xié)同過濾推薦技術(shù),這兩種協(xié)同過濾推薦技術(shù)的不同之處在于兩者針對(duì)的對(duì)象不同?;谟脩舻膮f(xié)同過濾推薦技術(shù)是給用戶推薦和他有共同興趣的用戶喜歡的物品;基于項(xiàng)目的協(xié)同過濾推薦技術(shù)是給用戶推薦和他之前喜歡的物品相似的物品。
2.3.1 基于用戶的協(xié)同過濾推薦技術(shù)
基于用戶的協(xié)同過濾技術(shù)是推薦系統(tǒng)中最古老的算法。該算法在1992年被提出,并應(yīng)用于郵件過濾系統(tǒng),1994年被GroupLens應(yīng)用于新聞過濾。該算法主要包括兩個(gè)步驟:第一步,找到和目標(biāo)用戶興趣相似的用戶集合;第二步,找到這個(gè)集合中用戶喜歡的,且目標(biāo)用戶還沒有聽說過的物品,將該物品推薦給目標(biāo)用戶。
2.3.2 基于項(xiàng)目的協(xié)同過濾推薦技術(shù)
基于項(xiàng)目的協(xié)同過濾技術(shù)是基于這樣一個(gè)假設(shè):用戶更傾向于選擇與用戶喜歡的項(xiàng)目相近的項(xiàng)目。該推薦過程分為兩個(gè)步驟,第一,計(jì)算物品之間的相似度;第二,根據(jù)物品的相似度和用戶的歷史行為為用戶生成推薦列表。
2.4 混合推薦技術(shù)
目前,推薦技術(shù)已經(jīng)發(fā)展出了很多種,但每種推薦技術(shù)都在不同程度上存在各自的缺點(diǎn),每種推薦技術(shù)在針對(duì)特定的用戶或者項(xiàng)目時(shí)才能發(fā)揮出自己的優(yōu)勢(shì)。因此人們提出了混合推薦來互補(bǔ)推薦技術(shù)各自的不足,已達(dá)到一個(gè)理想的推薦效果。在大部分的混合推薦技術(shù)研究當(dāng)中,是將基于內(nèi)容的推薦技術(shù)和基于協(xié)同過濾技術(shù)相結(jié)合。相對(duì)于使用單一途徑算法的推薦技術(shù),基于混合推薦技術(shù)往往表現(xiàn)出更高的推薦精度和更好的推薦質(zhì)量。
3 推薦系統(tǒng)的應(yīng)用
自推薦系統(tǒng)誕生近20年的時(shí)間里,推薦系統(tǒng)的應(yīng)用領(lǐng)域迅速擴(kuò)展。從電子商務(wù)、音樂視頻網(wǎng)站,到作為互聯(lián)網(wǎng)經(jīng)濟(jì)支柱的在線廣告和新穎的在線應(yīng)用推薦,到處都有推薦系統(tǒng)的身影。下面簡(jiǎn)單介紹個(gè)性化推薦系統(tǒng)的應(yīng)用以及該領(lǐng)域較成功的網(wǎng)站。
3.1 電子商務(wù)
電子商務(wù)網(wǎng)站是個(gè)性化推薦系統(tǒng)的一大應(yīng)用領(lǐng)域。著名的電子商務(wù)網(wǎng)站亞馬遜是個(gè)性化推薦系統(tǒng)的積極應(yīng)用者和推廣者,被讀寫網(wǎng)稱為“推薦系統(tǒng)之王”。亞馬遜的推薦系統(tǒng)深入到了各類產(chǎn)品中,其中最主要的應(yīng)用有個(gè)性化商品推薦列表和相關(guān)商品的推薦列表。
3.2 電影和視頻網(wǎng)站
在電影和視頻網(wǎng)站中,個(gè)性化推薦系統(tǒng)能夠幫助用戶在大量視頻信息中找到令他們滿意的視頻。該領(lǐng)域較成功的一家公司就是Netflix。Netflix在2006年開始舉辦著名的Netflix Prize推薦系統(tǒng)比賽。該比賽對(duì)推薦系統(tǒng)的發(fā)展起到了重要的推動(dòng)作用。
3.3 個(gè)性化音樂網(wǎng)絡(luò)電臺(tái)
個(gè)性化推薦的成功應(yīng)用需要具備兩個(gè)條件。第一是存在信息過載的問題,第二是用戶大部分時(shí)候沒有明確的需求。在這兩個(gè)條件下,個(gè)性化網(wǎng)絡(luò)電臺(tái)無疑是最合適的個(gè)性化推薦產(chǎn)品。目前國(guó)際上著名的有Pandora和Last.fm,國(guó)內(nèi)的代表則是豆瓣電臺(tái)。
3.4 個(gè)性化閱讀
閱讀文章是很多互聯(lián)網(wǎng)用戶每天都會(huì)做的事情。目前互聯(lián)網(wǎng)上的個(gè)性化閱讀工具很多,國(guó)際知名的有Google Reader,國(guó)內(nèi)有鮮果網(wǎng)等。同時(shí),隨著移動(dòng)設(shè)備的流行,移動(dòng)設(shè)備上針對(duì)個(gè)性化閱讀的應(yīng)用也很多,其中具有代表性的有Zite和Flipboard。
[參考文獻(xiàn)]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009.20(2):350.362.
[3]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7).
[4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進(jìn)[J]. 山東大學(xué)學(xué)報(bào),2008,43(11):67-71.
[5]胡斌.基于高階潛在語義分析的音樂推薦系統(tǒng)的研究,碩士論文.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,2009.
[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
關(guān)鍵詞:云計(jì)算;技術(shù);個(gè)性化;系統(tǒng)
中圖分類號(hào): TP3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1673-1069(2016)32-166-2
0 引言
如今,互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,開始與各個(gè)領(lǐng)域?qū)崿F(xiàn)有機(jī)融合,更多的人開始參與到在線購物、社交網(wǎng)絡(luò)等網(wǎng)絡(luò)活動(dòng)中,網(wǎng)絡(luò)給人們提供了一個(gè)無限的信息資源空間,這個(gè)資源庫中包含了各式各樣的信息,隨之發(fā)展起來的信息檢索技術(shù)便捷了人們對(duì)信息的搜索需求,搜索引擎成為用戶獲取信息的主要渠道,但該技術(shù)無法為用戶提供個(gè)性化的興趣服務(wù),這就需要建立基于云計(jì)算的個(gè)性化推薦系統(tǒng),這也是本文所要分析的主要內(nèi)容。
1 云計(jì)算技術(shù)與個(gè)性化推薦系統(tǒng)概述
1.1 云計(jì)算技術(shù)
云計(jì)算技術(shù)依托的是互聯(lián)網(wǎng),將互聯(lián)網(wǎng)的相關(guān)服務(wù)以動(dòng)態(tài)化、易擴(kuò)展、虛擬化的資源提供給用戶。云計(jì)算的定義有很多種,目前較為認(rèn)可的是云計(jì)算技術(shù)是根據(jù)用戶使用量來進(jìn)行相應(yīng)交易的計(jì)算模式,云計(jì)算能夠?yàn)橛脩籼峁┍憬?、按需的網(wǎng)絡(luò)訪問,進(jìn)入網(wǎng)絡(luò)、服務(wù)器、應(yīng)用軟件等可配置的計(jì)算資源共享區(qū)域,這些可以快速提供的資源,無須進(jìn)行過多的管理,并與服務(wù)供應(yīng)商交互不多[1]。云計(jì)算平臺(tái)所擁有的超強(qiáng)計(jì)算能力,可以應(yīng)用在模擬核爆炸、預(yù)測(cè)市場(chǎng)發(fā)展趨勢(shì)及氣候變化等活動(dòng)中。
1.2 個(gè)性化推薦系統(tǒng)
推薦系統(tǒng)就是結(jié)合用戶或顧客的購買行為規(guī)律以及興趣特點(diǎn)來推薦相應(yīng)的信息或商品,使用戶滿意。現(xiàn)如今,電子商務(wù)發(fā)展態(tài)勢(shì)迅猛,商品的種類和數(shù)量與日俱增,網(wǎng)絡(luò)信息是冗雜的,用戶或顧客需要花費(fèi)大量的時(shí)間找尋目標(biāo)信息與商品,信息過載問題直接影響了用戶或顧客的滿意度,導(dǎo)致用戶的流失。個(gè)性化推薦系統(tǒng)在此形勢(shì)下應(yīng)運(yùn)而生,所謂個(gè)性化推薦系統(tǒng)是利用海量數(shù)據(jù)挖掘技術(shù),通過云計(jì)算平臺(tái)構(gòu)建的一種高級(jí)商務(wù)智能平臺(tái),主要服務(wù)于網(wǎng)站,為用戶提供完全個(gè)性化的決策支持和信息服務(wù)[2]。
2 基于云計(jì)算技術(shù)的個(gè)性化推薦系統(tǒng)分析
2.1 推薦算法與推薦策略
2.1.1 推薦算法
推薦系統(tǒng)利用各個(gè)網(wǎng)頁間、網(wǎng)頁與關(guān)鍵詞之間的粗粒度關(guān)聯(lián)和排序,實(shí)現(xiàn)為用戶推薦相應(yīng)信息與商品的服務(wù)。隨著系統(tǒng)的不斷發(fā)展,其也開始利用網(wǎng)絡(luò)化計(jì)算能力,注重用戶興趣與模型的分析,而個(gè)性化推薦系統(tǒng)是在推薦系統(tǒng)的基礎(chǔ)上建立的更高級(jí)的信息導(dǎo)向系統(tǒng)。個(gè)性化推薦系統(tǒng)的構(gòu)建需要推薦算法的支持,常用的有協(xié)同過濾推薦算法、基于內(nèi)容的推薦算法、關(guān)聯(lián)規(guī)則推薦算法、混合推薦算法等。其中協(xié)同過濾推薦算法還可以細(xì)分,根據(jù)不同的算法特征分為基于用戶的推薦算法(也叫作基于存儲(chǔ)的算法、基于鄰居的算法)、基于項(xiàng)目的推薦算法、基于模型的推薦算法等。這些推薦算法都具有自身的優(yōu)缺點(diǎn)(詳見表1),為了彌補(bǔ)各類推薦算法的缺陷,可以將兩種互補(bǔ)的算法結(jié)合起來[3]。例如基于內(nèi)容的算法和協(xié)同過濾算法這兩種算法,我們可以為用戶直接展示用不同算法得出的推薦結(jié)果集,也可以先用第一種算法得出一種結(jié)果集,再用第二種算法計(jì)算第一種結(jié)果集,進(jìn)而得到更加精確的結(jié)果,更好地滿足用戶的需求。
2.1.2 推薦策略
以往許多的推薦系統(tǒng)都是結(jié)合單一的推薦算法和推薦策略建立的,在使用的過程中逐步暴露除了系統(tǒng)個(gè)性化與適應(yīng)性方面的缺陷,無法結(jié)合實(shí)際的應(yīng)用優(yōu)化推薦策略。因此,在構(gòu)建個(gè)性化推薦系統(tǒng)時(shí)要充分結(jié)合當(dāng)下推薦系統(tǒng)的優(yōu)勢(shì)以及瞬息萬變的市場(chǎng)需求,制定出綜合化、系統(tǒng)化、合理化、可行性較高的推薦策略。
前文分析了各類推薦算法的優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)景,基于此,本文提出的個(gè)性化推薦系統(tǒng)中應(yīng)用的推薦策略是根據(jù)推薦系統(tǒng)數(shù)據(jù)量的大小制定的,當(dāng)數(shù)據(jù)量偏小時(shí)系統(tǒng)會(huì)采用傳統(tǒng)的個(gè)性化推薦算法;當(dāng)數(shù)據(jù)量偏大時(shí)系統(tǒng)會(huì)利用云計(jì)算平臺(tái)進(jìn)行計(jì)算,具體就是將數(shù)據(jù)集發(fā)送到云平臺(tái)的各個(gè)節(jié)點(diǎn)來實(shí)現(xiàn)多節(jié)點(diǎn)分布式大規(guī)模數(shù)據(jù)計(jì)算。
2.2 系統(tǒng)架構(gòu)及流程設(shè)計(jì)
2.2.1 系統(tǒng)架構(gòu)
云計(jì)算技術(shù)集成了分布式計(jì)算、網(wǎng)格計(jì)算、并行計(jì)算和網(wǎng)絡(luò)存儲(chǔ)等先進(jìn)的技術(shù),其有機(jī)整合了多個(gè)經(jīng)濟(jì)性較好的計(jì)算實(shí)體,逐步形成了具有超強(qiáng)計(jì)算能力的分布式系統(tǒng)。為了充分發(fā)揮出云計(jì)算技術(shù)的優(yōu)勢(shì),本文設(shè)計(jì)的基于Google云計(jì)算平臺(tái)的個(gè)性化推薦系統(tǒng)架構(gòu)如圖1所示,該系統(tǒng)能夠?qū)Υ笠?guī)模數(shù)據(jù)進(jìn)行快速、準(zhǔn)確地處理,并且可以根據(jù)業(yè)務(wù)規(guī)模的不斷擴(kuò)大進(jìn)行相應(yīng)的拓展,充分展示了較高的通用性與擴(kuò)展性[4]。
基于云計(jì)算技術(shù)的個(gè)性化推薦系統(tǒng)主要包括以下幾部分:①推薦計(jì)算子系統(tǒng),該子系統(tǒng)由數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊、推薦模塊組成,其中數(shù)據(jù)預(yù)處理模塊的功能包括異構(gòu)數(shù)據(jù)的過濾、統(tǒng)計(jì)、轉(zhuǎn)換等;數(shù)據(jù)挖掘模塊主要是計(jì)算推薦結(jié)果的聚類,需要充分利用聚類、關(guān)聯(lián)規(guī)則算法進(jìn)行分別計(jì)算;推薦模塊則是利用各類算法計(jì)算出精準(zhǔn)的推薦結(jié)果,已達(dá)到用戶的需求。②業(yè)務(wù)應(yīng)用子系統(tǒng),該子系統(tǒng)主要是為后期的系統(tǒng)擴(kuò)展服務(wù),根據(jù)業(yè)務(wù)需求的變化轉(zhuǎn)變系統(tǒng)的功能,并為系統(tǒng)需求制定合理的推薦規(guī)則。③基礎(chǔ)云計(jì)算平臺(tái),其充分利用集群提供的大容量計(jì)算能力,在不同節(jié)點(diǎn)上進(jìn)行大量的計(jì)算。
2.2.2 個(gè)性化推薦系統(tǒng)的操作流程
本系統(tǒng)的推薦流程是依據(jù)Map Reduce軟件架構(gòu),其是處理海量數(shù)據(jù)的并行編程模式,主要適合應(yīng)用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,其封裝了并行處理、容錯(cuò)處理、本地化計(jì)算、負(fù)載均衡等細(xì)節(jié),還提供可以把大容量的計(jì)算自動(dòng)并發(fā)和分布執(zhí)行的簡(jiǎn)單通用接口。具體如圖2所示[5]。
3 結(jié)束語
綜上所述,開發(fā)設(shè)計(jì)基于云計(jì)算技術(shù)的個(gè)性化推薦系統(tǒng)是適應(yīng)時(shí)展需求的,其能夠更好地滿足和引導(dǎo)用戶信息需求。本文設(shè)計(jì)的系統(tǒng)還不完善,還需在以后的運(yùn)行實(shí)踐過程中不斷的改進(jìn)。
參 考 文 獻(xiàn)
[1] 肖理釧.基于云計(jì)算模式的圖書文獻(xiàn)個(gè)性化推薦技術(shù)研究[J].科技廣場(chǎng),2015(08):22-27.
[2] 毅,劉亞軍,陳誠(chéng).基于云計(jì)算技術(shù)的個(gè)性化推薦系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2015(13):111-117.
[3] 谷瑞.基于云計(jì)算的個(gè)性化推薦系統(tǒng)的研究[J].蘇州市職業(yè)大學(xué)學(xué)報(bào),2013(04):14-16+21.
【關(guān)鍵詞】個(gè)性化;智能化推薦系統(tǒng);推薦技術(shù)
不斷擴(kuò)大規(guī)模的電子商務(wù)系統(tǒng),在為消費(fèi)者提供越來越多購物選擇的同時(shí),其自身商業(yè)結(jié)構(gòu)也變得更加復(fù)雜。消費(fèi)者經(jīng)常會(huì)迷失在大量的商品信息空間中,無法順利找到自己需要的商品;另一方面,商家也失去了與消費(fèi)者之間的聯(lián)系,不能準(zhǔn)確獲知消費(fèi)者的消費(fèi)需求、消費(fèi)建議。推薦系統(tǒng)就像商店導(dǎo)購人員,直接面對(duì)消費(fèi)者,為其提供商品推薦。這種能準(zhǔn)確獲取不同消費(fèi)者消費(fèi)需求的推薦系統(tǒng)就是我們要研究的個(gè)性化智能推薦系統(tǒng)。
一、電子商務(wù)個(gè)性化智能推薦系統(tǒng)
個(gè)性化智能推薦系統(tǒng)是指通過收集、統(tǒng)計(jì)和分析不同消費(fèi)者消費(fèi)特征,使用推薦算法研究消費(fèi)者的興趣偏好和購買行為,并適時(shí)更新數(shù)據(jù),實(shí)現(xiàn)主動(dòng)向消費(fèi)者推薦其所需商品的工作過程。
智能推薦系統(tǒng)運(yùn)作的中心是準(zhǔn)確得出消費(fèi)者的個(gè)體需求,建立以消費(fèi)者本身消費(fèi)特征為中心的個(gè)性化的營(yíng)銷策略,滿足不同消費(fèi)者的不同偏好。電子商務(wù)推薦系統(tǒng)通過個(gè)性化推薦技術(shù)對(duì)網(wǎng)站整體結(jié)構(gòu)進(jìn)行調(diào)整,增加商品的曝光數(shù),提升用戶平均訪問步長(zhǎng)和商品頁訪問量,從而提高網(wǎng)站整體營(yíng)銷能力。
如何使電子商務(wù)個(gè)性推薦系統(tǒng)更好地根據(jù)消費(fèi)者的需求推薦消費(fèi)者感興趣的商品,答案就在其采用的推薦技術(shù)上。推薦技術(shù)是電子商務(wù)推薦系統(tǒng)中最核心,最關(guān)鍵的技術(shù),很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。
二、推薦技術(shù)
從電子商務(wù)個(gè)性化推薦系統(tǒng)的主動(dòng)性上分類,可以將推薦技術(shù)分為主動(dòng)式推薦和被動(dòng)式推薦。
所謂主動(dòng)式推薦,是指推薦系統(tǒng)通過對(duì)消費(fèi)者信息和行為的分析,給出恰當(dāng)?shù)囊庖姾徒ㄗh主動(dòng)引導(dǎo)消費(fèi);而被動(dòng)式推薦是指消費(fèi)者通過自己的努力獲得所需要的商品信息。
根據(jù)目前主流的推薦技術(shù)分類,制作下表。
(一)被動(dòng)推薦
被動(dòng)式推薦技術(shù)的優(yōu)點(diǎn)是技術(shù)比較成熟,用戶易于使用。主要有下面兩大類:
1、分類瀏覽式推薦
分類瀏覽是一種按照主題分類進(jìn)行信息查詢的方法。它用樹形結(jié)構(gòu)將分類的商品和服務(wù)信息表現(xiàn)出來,易于實(shí)現(xiàn),同時(shí)操作方便。
幾乎所有的電子商務(wù)交易網(wǎng)站都提供這種方式的推薦。但是推薦效率低,且分類方法不統(tǒng)一,對(duì)新出現(xiàn)的商品和信息很難準(zhǔn)確歸類。
2、關(guān)鍵詞查詢式推薦
關(guān)鍵詞查詢由用戶輸入查找目標(biāo)的關(guān)鍵詞,系統(tǒng)尋找與關(guān)鍵詞匹配的內(nèi)容進(jìn)行推薦。這種方法也是比較常見的推薦方法,技術(shù)較為成熟,且易于用戶接受查找結(jié)果,但是對(duì)關(guān)鍵詞的選擇要求較高,且不易發(fā)現(xiàn)用戶的潛在興趣點(diǎn)。
被動(dòng)式推薦自動(dòng)化程度低,無法發(fā)掘用戶潛在興趣與消費(fèi)需求,因此目前研究比較多的是主動(dòng)式推薦,即智能推薦技術(shù)
(二)智能推薦技術(shù)
關(guān)鍵詞:綜合云模型;屬性評(píng)價(jià);評(píng)分聚類;屬性聚類;協(xié)同過濾
0 引言
亞馬遜、當(dāng)當(dāng)網(wǎng)、數(shù)字圖書館等,幾乎都不同程度地使用個(gè)性化推薦系統(tǒng),向用戶推薦圖書、論文、商品等項(xiàng)目,實(shí)現(xiàn)個(gè)性化服務(wù)[1]。其中,協(xié)同過濾推薦算法是最成功的個(gè)性化推薦技術(shù)之一。但因用戶評(píng)分?jǐn)?shù)據(jù)的稀疏性,導(dǎo)致傳統(tǒng)推薦質(zhì)量下降。
為解決數(shù)據(jù)稀疏性帶來的傳統(tǒng)基于向量相似度的問題,比較典型的方法之一是將利用云模型實(shí)現(xiàn)定性、定量知識(shí)轉(zhuǎn)換的優(yōu)勢(shì)應(yīng)用到推薦中:由云模型計(jì)算用戶評(píng)分特征相似度 [2]、項(xiàng)目評(píng)分特征相似度[3]的協(xié)同過濾算法;在云模型計(jì)算項(xiàng)目評(píng)分特征相似度的基礎(chǔ)上,預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,然后利用云模型計(jì)算用戶相似度,最終獲取用戶鄰居再進(jìn)行推薦[4],但沒有利用有益于推薦的用戶、項(xiàng)目屬性;利用云模型填充評(píng)分矩陣,結(jié)合項(xiàng)目屬性加權(quán)推薦[5] 、結(jié)合云模型通過比較項(xiàng)目屬性相似度的推薦[6],在類內(nèi)利用云模型獲得項(xiàng)目鄰居,進(jìn)行類內(nèi)評(píng)分填充,結(jié)合云模型的用戶相似度進(jìn)行推薦[7],這三種方法也沒有充分利用用戶屬性信息;研究云模式在用戶行為相似度、用戶等級(jí)的模式,并通過聚類算法改進(jìn)推薦算法[8]。以上改進(jìn)算法都沒有考慮綜合云模型下的推薦。
本文在前面研究的基礎(chǔ)上,利用用戶對(duì)項(xiàng)目各個(gè)屬性的評(píng)價(jià)值和評(píng)價(jià)時(shí)間,計(jì)算綜合云模型的用戶項(xiàng)目屬性評(píng)價(jià)相似度,獲取基于屬性評(píng)價(jià)的用戶鄰居。利用改進(jìn)的聚類算法Kmedoids,根據(jù)用戶評(píng)分對(duì)用戶聚類,獲得基于評(píng)分的用戶鄰居。對(duì)用戶原始屬性進(jìn)行標(biāo)準(zhǔn)化,再進(jìn)行Kmedoids聚類。結(jié)合綜合云模型的屬性評(píng)價(jià)、用戶評(píng)分聚類、用戶屬性聚類產(chǎn)生的鄰居的并集,向目標(biāo)用戶推薦項(xiàng)目。實(shí)驗(yàn)驗(yàn)證,提出的方法有效地緩解推薦算法數(shù)據(jù)稀疏的問題。
1 云模型
云模型能夠?qū)崿F(xiàn)定性概念與其定量數(shù)值表示之間的不確定性轉(zhuǎn)換模型,反映自然、社會(huì)中的模糊性、隨機(jī)性,已經(jīng)應(yīng)用于電子商務(wù)、模糊評(píng)測(cè)等領(lǐng)域[9]。
定義1 一維云模型。設(shè)T={x}是用精確數(shù)值表示的定量論域,C是定量論域T的定性概念,若T中的元素x對(duì)C的隸屬度μ(x)∈[0,1]是一個(gè)具有穩(wěn)定傾向的隨機(jī)數(shù),μ:T[0,1],x∈T,xμ(x),則x在T中的分布C(X)稱為云(Cloud),每個(gè)x叫作一個(gè)云滴。云的數(shù)字特征用期望Ex、熵En和超熵He來表示。Ex為云滴的重心位置,反映云滴在論域中的分布期望;En是定性概念亦此亦彼的度量,反映定性概念在論域中被接受的范圍。超熵He是En的熵,用于度量熵的不確定性,由熵的隨機(jī)性、模糊性決定[9]。
定義2 綜合云模型。將兩朵及以上的同類型子云進(jìn)行綜合,產(chǎn)生一朵高層概念的父云。計(jì)算所有子云的數(shù)字特征,得到作為父云的綜合云的數(shù)字特征[9]。例如:由論域中的b個(gè)同類型子云C1(Ex1,En1,He1),C2(Ex2,En2,He2),…,Cb(Exb,Enb,Heb),可產(chǎn)生作為父云的綜合云C(Ex,En,He),并且
隨著互聯(lián)網(wǎng)走進(jìn)各家各戶,電子商務(wù)發(fā)展越來越快,服務(wù)和產(chǎn)品也越來越多,這就造成信息過于冗雜,客戶面對(duì)海量選擇,往往要浪費(fèi)很多時(shí)間來挑選自己需要的商品。為了使消費(fèi)者避免浪費(fèi)時(shí)間,已更加從容的心態(tài)來購買商品,電子商務(wù)推薦系統(tǒng)可以精確識(shí)別消費(fèi)者的喜好,模擬銷售人員幫助消費(fèi)者完成購買,給消費(fèi)者想要的推薦,讓挑選變得簡(jiǎn)單。統(tǒng)計(jì)學(xué)、人工智能數(shù)據(jù)挖掘等技術(shù)都應(yīng)用于電子商務(wù)推薦系統(tǒng)(Recommendation Systems)中,想要引導(dǎo)消費(fèi)者完成購買行為,就要先分析消費(fèi)者的購買意愿,所謂知己知彼百戰(zhàn)不殆,分析消費(fèi)者訪問網(wǎng)站的行為,并最后給出令客戶滿意的推薦結(jié)果,來產(chǎn)生豐厚的利潤(rùn)。所以說,推薦系統(tǒng)的核心便是推薦結(jié)果是否準(zhǔn)確,如果是客戶需要的,則會(huì)提高顧客的購買意愿;反之如果推薦結(jié)果不合顧客的意,那便是端起石頭砸自己的腳,客戶也會(huì)對(duì)推薦系統(tǒng)產(chǎn)生懷疑,購買興趣大大降低。
1 推薦系統(tǒng)介紹
對(duì)客戶行為信息進(jìn)行收集的記錄模塊、對(duì)用戶喜好進(jìn)行分析的模型分析模塊、推薦系統(tǒng)的核心推薦算法模塊以及處理售后服務(wù)的反饋處理模塊組成了一個(gè)完整的推薦系統(tǒng)。將對(duì)的商品推薦給對(duì)的人就是推薦系統(tǒng)的目標(biāo),常見的推薦機(jī)制算法有三種,分別是基于關(guān)聯(lián)規(guī)則的算法(Association Rule_based Recommendation)、基于內(nèi)容的推薦算法(Content-based Recommendation)、協(xié)同過濾推薦算法(Collaborative Filtering Recommendation)。算法數(shù)據(jù)的表示不是很復(fù)雜,一個(gè)二維表或者是一個(gè)MXN的矩陣足以。把日志或消費(fèi)類的數(shù)據(jù)通過一定的預(yù)處理,所有的商品類目用列表示,所有用戶用行表示。
把用戶的購買需求轉(zhuǎn)化成購買結(jié)果,這是一個(gè)電子商務(wù)推薦系統(tǒng)的終極目標(biāo),也是衡量推薦機(jī)制好壞的標(biāo)準(zhǔn)。在實(shí)際生活中,消費(fèi)者去實(shí)體店購買商品,會(huì)有“導(dǎo)購員”進(jìn)行服務(wù),提高消費(fèi)者的購買意愿,而在電子商務(wù)網(wǎng)站中,推薦系統(tǒng)就是這個(gè)“導(dǎo)購員”。一個(gè)好的推薦系統(tǒng)就像一個(gè)好的“導(dǎo)購員”一樣,讓消費(fèi)者了解商品后更加愿意購買商品。主要實(shí)現(xiàn)一下功能:①完善用戶體驗(yàn),給出個(gè)性化推薦;②更好的向消費(fèi)者展示商品,提高轉(zhuǎn)換率;③發(fā)現(xiàn)消費(fèi)者潛在需求,挖掘更廣的市場(chǎng)。
網(wǎng)站的推薦形式多種多樣,經(jīng)常用到的有三種:①根據(jù)會(huì)員的歷史購買記錄,來進(jìn)行推薦機(jī)制的營(yíng)銷;②由購物車或物品收藏來做相似物品推薦;③針對(duì)消費(fèi)者的歷史信息來做相關(guān)推薦。
個(gè)性化推薦系統(tǒng)能夠深度挖掘電商消費(fèi)者的興趣,增強(qiáng)消費(fèi)者持續(xù)購買的意愿,從而形成信任關(guān)系達(dá)到維系老客戶,減緩以及解決現(xiàn)在電商平臺(tái)存在消費(fèi)者持續(xù)購買意愿不強(qiáng)的問題。我們假設(shè)一下,如果沒有了推薦系統(tǒng)的精準(zhǔn)推薦,消費(fèi)者可能將要花更多的時(shí)間來找自己中意的商品;如果失去了系統(tǒng)的熱門推薦,消費(fèi)者將很難買到質(zhì)量好價(jià)格低的產(chǎn)品;如果失去了推薦系統(tǒng)的輔助政策,消費(fèi)者做出的選擇往往不是最優(yōu)的,這樣也不會(huì)購買到自己感到滿意的產(chǎn)品,對(duì)網(wǎng)站也不會(huì)有好感度,二次購買也不會(huì)再有了。這對(duì)賣家和買家來說都是損失,因此電商平臺(tái)是一種雙贏的表現(xiàn)。
2 協(xié)同過濾推薦
假如兩個(gè)用戶過去有相似的喜好產(chǎn)品,那么他們現(xiàn)在依然有相似的喜好產(chǎn)品,這是基于用戶(user-based)的協(xié)同過濾;假如有用戶過去喜好某產(chǎn)品,那么他現(xiàn)在任然喜好與該產(chǎn)品類似的產(chǎn)品,這是基于項(xiàng)目(item-based)的協(xié)同過濾。傳統(tǒng)協(xié)同過濾算法一般就分為這兩種,協(xié)同過濾不需要獲得產(chǎn)品或用戶特征,而是憑借相似性度量方法和評(píng)分?jǐn)?shù)據(jù)來進(jìn)行預(yù)測(cè),只要評(píng)分?jǐn)?shù)據(jù)越多,預(yù)測(cè)也會(huì)變得更精準(zhǔn)。
協(xié)同過濾作為目前最成功的推薦技術(shù)之一,已被廣泛應(yīng)用于各類電子商務(wù)推薦系統(tǒng)及互聯(lián)網(wǎng)的相關(guān)領(lǐng)域,譬如國(guó)外的Amazon, eBay, NetFlix以及國(guó)內(nèi)的淘寶網(wǎng)和當(dāng)當(dāng)網(wǎng)等等。伴隨電子商務(wù)的不斷發(fā)展,用戶數(shù)量也飛速增加,用戶―項(xiàng)目評(píng)分?jǐn)?shù)據(jù)的維度急劇增高,可是用戶給予的評(píng)價(jià)卻不是很多,使得傳統(tǒng)的協(xié)同過濾推薦面臨嚴(yán)峻的用戶評(píng)分?jǐn)?shù)據(jù)稀疏性問題。同時(shí),用戶的需求也在隨著時(shí)間改變,而傳統(tǒng)協(xié)同過濾并不能很好的解決這個(gè)問題,存在著局限性。所以,如何捕捉移動(dòng)的用戶感興趣的信息已經(jīng)變成電子商務(wù)亟待解決的問題。
3 典型應(yīng)用
亞馬遜作為電商平臺(tái)的領(lǐng)頭羊,推薦商品占銷售總量的百分之四十,同時(shí)也是較早使用推薦系統(tǒng)的電子商務(wù)平臺(tái),當(dāng)然他們的推薦形式也是別出心裁。例如,一位顧客買了一個(gè)相機(jī),系統(tǒng)就會(huì)自動(dòng)的給他推薦能用到的電池產(chǎn)品。但是由于商品多樣化的趨勢(shì),亞馬遜電商平臺(tái)不斷更新后數(shù)據(jù)分析能力的增強(qiáng),推薦系統(tǒng)可以推薦購買過該產(chǎn)品的用戶還購買的其他產(chǎn)品。
由于使用真實(shí)的購買數(shù)據(jù),而不是假設(shè)消費(fèi)者會(huì)購買什么商品,亞馬遜能夠提出非常精準(zhǔn)的提?h。例如提示“購買此商品的用戶同時(shí)購買”,就是一種很機(jī)智的營(yíng)銷手法,可以讓消費(fèi)者橫向比較,開闊自己的眼界,更加容易找到自己的需要。
亞馬遜使用的是“協(xié)同過濾”算法,這種算法把消費(fèi)者串聯(lián)起來,有相似興趣行為的劃為一組,參照消費(fèi)者的購買歷史,經(jīng)常做到事半功倍。任何人的興趣都不是孤立的,這就是“協(xié)同過濾”算法的出發(fā)點(diǎn),應(yīng)該處于一個(gè)群體所感興趣的產(chǎn)品中,就是如果一群消費(fèi)者對(duì)一個(gè)商品的評(píng)分很相似,那么他們對(duì)另一個(gè)商品的評(píng)分也不會(huì)相差很多。該推薦算法的核心在于采用技術(shù)找到于目標(biāo)消費(fèi)者有相似興趣的消費(fèi)者,然后根據(jù)相似消費(fèi)者對(duì)目標(biāo)商品的評(píng)分做出推薦,并且把測(cè)試評(píng)分最高的多項(xiàng)商品作為該消費(fèi)者推薦列表。
亞馬遜的頁面分為非登錄用戶和登錄用戶。對(duì)于非登錄用戶,亞馬遜會(huì)推薦各個(gè)類目的暢銷品,換言之就是排行榜。查詢?yōu)g覽頁面和詳細(xì)的商品頁面則會(huì)有關(guān)聯(lián)推薦,比如“購買此物品還可購買”;通過人的相似興趣來推薦,像“購買此物品的顧客也購買了”,“看過此商品的顧客購買的其他商品”。
而對(duì)于登錄用戶,亞馬遜的推薦方式卻截然不同,首頁的頁面會(huì)有一個(gè)今日推薦的欄目,這個(gè)欄目是由用戶的歷史瀏覽記錄生成出來的,在下面是最近一次購買商品給的記錄以及類似商品的推薦,如“根據(jù)瀏覽推薦給我的產(chǎn)品”,“瀏覽XX商品的用戶會(huì)買XX的概率”,有意思的是,每個(gè)頁面的最下方都會(huì)根據(jù)消費(fèi)者的瀏覽內(nèi)容給出對(duì)應(yīng)的推薦,沒有瀏覽記錄的會(huì)推薦系統(tǒng)暢銷。
4 結(jié)論
[關(guān)鍵詞]Web個(gè)性化推薦系統(tǒng) Web挖掘 基于規(guī)則過濾 基于內(nèi)容過濾 協(xié)作過濾
[分類號(hào)]G350 TP311
1 引言
Web個(gè)性化的用途主要是為用戶提供獨(dú)立的、特定個(gè)人偏好的、方便快捷的和滿足用戶需求的服務(wù)。對(duì)于不同的網(wǎng)站來說,實(shí)現(xiàn)個(gè)性化的目的具有其自身發(fā)展的需要。例如,商業(yè)網(wǎng)站的個(gè)性化是通過提供的便捷服務(wù)方式提升顧客忠誠(chéng)度和吸引更多的客戶,從而實(shí)現(xiàn)其銷售業(yè)績(jī)和商業(yè)利潤(rùn)最大化的需要。在公共服務(wù)領(lǐng)域,網(wǎng)站為了提高其服務(wù)質(zhì)量,提升用戶滿意程度,根據(jù)用戶關(guān)注的重點(diǎn)和信息需求,為其定制特定的個(gè)性化服務(wù)。專門研究Web個(gè)性化理論和方法的國(guó)際會(huì)議1TWP組委會(huì)主席BamshadMobasher教授從20世紀(jì)90年代就開始Web個(gè)性化的研究,他認(rèn)為:“在Web網(wǎng)站中,個(gè)性化意味著動(dòng)態(tài)內(nèi)容的發(fā)送,例如文本元素、鏈接、廣告和產(chǎn)品推薦等,這些內(nèi)容專門為特定用戶或者一部分用戶的需要及興趣定制”。他把Web個(gè)性化過程看作是一個(gè)包含數(shù)據(jù)挖掘循環(huán)所有階段的一個(gè)典型應(yīng)用。這些階段包括數(shù)據(jù)收集、預(yù)處理模式發(fā)現(xiàn)、性能評(píng)價(jià)和在用戶和Web網(wǎng)站之間應(yīng)用實(shí)時(shí)發(fā)現(xiàn)的知識(shí)。
個(gè)性化的關(guān)鍵技術(shù)是推薦系統(tǒng),其作用是根據(jù)用戶模型推薦個(gè)性化內(nèi)容,主要包括四種工作模式:基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾和混合過濾模式。本文重點(diǎn)介紹智能推薦方法和技術(shù),并提出一種Web個(gè)性化應(yīng)用智能混合過濾推薦模型。
2 Web挖掘與個(gè)性化推薦
個(gè)性化推薦是Web挖掘結(jié)果呈現(xiàn)給用戶的應(yīng)用,其依據(jù)原理是數(shù)據(jù)挖掘理論基礎(chǔ)。許多學(xué)者認(rèn)為,Etzioni是第一個(gè)提出Web挖掘(Web mining)技術(shù)的人,他認(rèn)為,Web挖掘技術(shù)可分為三種類型:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Webstructure mining)和Web使用挖掘(Web usage mining)。Srivastava等人對(duì)Web使用挖掘的定義是:Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù),為了更好地理解和服務(wù)基于Web應(yīng)用的需要,發(fā)現(xiàn)Web數(shù)據(jù)的使用模式。個(gè)性化推薦系統(tǒng)通常對(duì)日志數(shù)據(jù)采用Web使用挖掘。
Web挖掘使用的數(shù)據(jù)可能來自Web服務(wù)器訪問日志、服務(wù)器日志、引用頁日志、瀏覽器日志、錯(cuò)誤日志、用戶資料、注冊(cè)數(shù)據(jù)、用戶會(huì)話、用戶交易、cookies、用戶查詢或者是用戶書簽數(shù)據(jù)。通過分析這些文件和文檔,可以獲得用戶感興趣的使用模式和信息。
目前常見的Web日志格式主要有兩類:①Apache的NCSA日志格式,分為四類:NCSA普通日志格式(CLF)、NCSA擴(kuò)展日志格式(ECLF)、錯(cuò)誤日志格式和定制日志格式。②IIs的W3C日志格式,共分為8類:W3C擴(kuò)展日志格式、集中記錄的日志格式、NCSA普通日志格式、IIS日志格式、ODBC記錄的日志格式、集中記錄的二進(jìn)制日志格式、錯(cuò)誤日志格式和定制日志格式。無論是Apache還是IIS的日志格式,常用于信息分析的是擴(kuò)展日志格式和定制日志格式。通常情況下,系統(tǒng)自動(dòng)記錄的日志有錯(cuò)誤日志和訪問日志,記錄的文件名分別為error.1og和access.1og,除了錯(cuò)誤日志以外的日志均稱為訪問日志。Apache 2.2版的擴(kuò)展日志文件格式定義及示例如表1所示:
3 推薦技術(shù)
通常,個(gè)性化推薦系統(tǒng)分為基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾的方法以及這三種方法混合的具有智能性的推薦方法?;谝?guī)則過濾方法的特點(diǎn)在于采用關(guān)聯(lián)規(guī)則、回歸算法,找到用戶對(duì)相關(guān)聯(lián)對(duì)象之間的興趣度、發(fā)現(xiàn)用戶偏好,預(yù)測(cè)用戶未來行為。基于內(nèi)容的過濾推薦技術(shù)特點(diǎn)是,根據(jù)用戶過去選擇對(duì)象的特點(diǎn),從對(duì)象描述、終端數(shù)據(jù)庫里的對(duì)象屬性關(guān)聯(lián)抽取其特征,系統(tǒng)為其推薦相似的對(duì)象?;趦?nèi)容的過濾系統(tǒng)最大的缺點(diǎn)是用戶模型的建立過度依賴于用戶以前選擇和點(diǎn)擊的具體對(duì)象。協(xié)作過濾推薦系統(tǒng)尋找與目標(biāo)顧客歷史吻合的顧客群組(稱為近鄰),利用了用戶的相似性進(jìn)行推薦。這些方法的基本模型如圖1所示:
通常情況下,系統(tǒng)采用單一的推薦模型,例如,基于規(guī)則過濾的推薦系統(tǒng),在離線學(xué)習(xí)階段、數(shù)據(jù)預(yù)處理階段需要做的工作是:應(yīng)用程序在系統(tǒng)空閑時(shí)間段完成原始日志數(shù)據(jù)從日志文件或者日志數(shù)據(jù)庫抽取,并進(jìn)行清洗、轉(zhuǎn)換、加載轉(zhuǎn)換工作,清洗后并規(guī)范化的日志加載到日志倉庫以備數(shù)據(jù)挖掘算法使用。在生成模型階段,根據(jù)基于規(guī)則過濾采用的算法,比如關(guān)聯(lián)規(guī)則使用的Apriori經(jīng)典算法進(jìn)行頻繁模式分析,生成用戶模型,根據(jù)挖掘算法計(jì)算生成用戶特征組成的規(guī)則模型庫。在在線推薦階段,Web個(gè)性化推薦系統(tǒng)提取出當(dāng)前用戶的特征,查找規(guī)則模型庫對(duì)應(yīng)的匹配規(guī)則,根據(jù)計(jì)算結(jié)果檢索當(dāng)前可推薦的對(duì)象,最后以可視化的方法呈現(xiàn)給Web個(gè)性化用戶。
當(dāng)前,個(gè)性化技術(shù)研究的熱點(diǎn)是基于協(xié)作過濾推薦,該系統(tǒng)面臨兩個(gè)主要挑戰(zhàn):可擴(kuò)展性和確保對(duì)用戶推薦的質(zhì)量。可擴(kuò)展性是指?jìng)€(gè)性化系統(tǒng)在用戶數(shù)量增加的情況下,推薦系統(tǒng)能夠正常工作而不影響個(gè)性化系統(tǒng)整體性能。保證推薦質(zhì)量是贏得顧客信任的基本要素,缺乏用戶信任的個(gè)性化應(yīng)用注定失敗。
4 智能混合過濾推薦
針對(duì)單一的基于內(nèi)容過濾或者協(xié)作過濾推薦系統(tǒng)存在的缺點(diǎn),當(dāng)前研究的重點(diǎn)是采用混合兩種或以上的推薦算法,目的是提高推薦的效率和精度;同時(shí),已經(jīng)有相關(guān)的理論研究。例如,Burke提出的方法是混合基于內(nèi)容和協(xié)作過濾技術(shù),旨在提高推薦的質(zhì)量隨;Ardissono等人采用多種異構(gòu)推薦技術(shù)的方法,通過收集多種用戶偏好的信息實(shí)現(xiàn);Mobasher等人提出一種框架,把在線用戶訪問Web頁面的會(huì)話活動(dòng)過程與在線數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘任務(wù)分開處理,采用基于聚類的技術(shù)把Web站點(diǎn)使用和內(nèi)容模型采用統(tǒng)一的表示方法,用于實(shí)時(shí)的個(gè)性化操作;這種方法的優(yōu)點(diǎn)在于Web站點(diǎn)的使用和內(nèi)容特點(diǎn)集成到Web挖掘框架里,為推薦引擎提供統(tǒng)一的訪問方式,從而提高了個(gè)性化效率;Rosenthal等人提出的研究旨在提高推薦系統(tǒng)在線預(yù)測(cè)精度。
筆者經(jīng)分析認(rèn)為,基于規(guī)則過濾和基于協(xié)作過濾技術(shù)的缺點(diǎn)是:通常需要離線學(xué)習(xí)訓(xùn)練樣本生成關(guān)聯(lián)規(guī)則或者用戶組的分類,二者具有可擴(kuò)展性差和動(dòng)態(tài)變化緩慢的特點(diǎn),因此,不適于在線的迅速響應(yīng),尤其
不適合實(shí)時(shí)查詢的響應(yīng)。基于內(nèi)容過濾技術(shù)的優(yōu)點(diǎn)是響應(yīng)及時(shí),但其缺點(diǎn)是依賴于用戶的歷史操作記錄,如果用戶的興趣偏好變化或者歷史記錄缺失,推薦給用戶的結(jié)果將可能會(huì)產(chǎn)生嚴(yán)重的失真。
基于以上分析,本文結(jié)合以上三種推薦方法,提出一種Web個(gè)性化應(yīng)用智能混合推薦模型,其優(yōu)點(diǎn)是通過模型適配器智能性地、自動(dòng)為推薦系統(tǒng)選擇合適的挖掘模型,具有響應(yīng)速度快、推薦準(zhǔn)確性較高等特點(diǎn)(見圖2)。該模型的數(shù)據(jù)收集、預(yù)處理過程采用的方法與傳統(tǒng)的推薦類似,與原有系統(tǒng)兼容并且進(jìn)行功能擴(kuò)展。數(shù)據(jù)挖掘模型可以有多種,主要分為三種類型:基于關(guān)聯(lián)規(guī)則的挖掘類型、基于內(nèi)容的分類挖掘類型和基于協(xié)作的聚類挖掘類型。根據(jù)實(shí)際挖掘應(yīng)用環(huán)境需要和企業(yè)規(guī)模的不同,該模型可以實(shí)現(xiàn)某一種挖掘類型的幾種具體算法,也可以實(shí)現(xiàn)任意兩種或者三種挖掘類型的任意種算法,因此,該模型能夠使用于多種用途,具有較強(qiáng)的靈活性。此外,由于該模型可以實(shí)現(xiàn)某種挖掘類型的多種算法,因此,可以進(jìn)行精度比較,提高推薦的精度。
這種方法與圖1所示的個(gè)性化推薦系統(tǒng)模型相比較而言,除了具有單一的推薦功能外,具有以下幾個(gè)特點(diǎn):①混合采用的多種過濾推薦技術(shù),能夠根據(jù)系統(tǒng)應(yīng)用情況和抽取到的用戶特征自動(dòng)識(shí)別用戶需求,是一種智能型推薦系統(tǒng);②這種智能型推薦系統(tǒng)采用多種過濾推薦技術(shù),具體采用哪種過濾技術(shù)由模型適配器根據(jù)用戶特征和推薦內(nèi)容的不同而決定;③本系統(tǒng)能夠完成多種過濾技術(shù)的推薦。例如,一個(gè)商務(wù)網(wǎng)站的個(gè)性化注冊(cè)用戶完成交易之后,Web個(gè)性化推薦系統(tǒng)提取該用戶的訪問特征,并進(jìn)行分析,為用戶的個(gè)性化推薦做準(zhǔn)備。模型適配器分析該用戶當(dāng)期的購物內(nèi)容,使用關(guān)聯(lián)規(guī)則挖掘模型發(fā)現(xiàn)用戶的購物內(nèi)容并推薦與此相關(guān)的內(nèi)容,推薦可能關(guān)聯(lián)的商品。使用內(nèi)容過濾模型發(fā)現(xiàn)用戶當(dāng)前對(duì)哪些商品感興趣,從而推薦更多用戶可能會(huì)感興趣的商品;使用協(xié)作過濾模型找到與該用戶有相似購物內(nèi)容的用戶還買了哪些商品,根據(jù)用戶的相似性推薦當(dāng)前用戶還沒有發(fā)現(xiàn)是或者還沒有購買的商品。模型適配器根據(jù)挖掘結(jié)果,可以把推薦內(nèi)容呈現(xiàn)給用戶賬號(hào)頁面,或者是推送到用戶使用的電子郵箱。這些復(fù)雜的工作都由適配器自動(dòng)識(shí)別并操作完成。
歸納本文提出的智能混合推薦系統(tǒng)模型特點(diǎn)如下:①自動(dòng)適配功能,提供一種數(shù)據(jù)挖掘算法模型的接口,這種接口能夠自動(dòng)適配推薦技術(shù),實(shí)現(xiàn)在線推薦;②靈活性強(qiáng),可以根據(jù)實(shí)際需要加載、更換數(shù)據(jù)挖掘模型;③通用性強(qiáng),不但可以用于個(gè)性化推薦,還可以用于決策支持系統(tǒng)(Decision Supporting System,DSS)、專家系統(tǒng)(Expert System,Es)商業(yè)智能系統(tǒng)(Business In.telligence,BI)等。
5 結(jié)語
在未來幾年的個(gè)性化研究中,其關(guān)鍵技術(shù)依然是推薦系統(tǒng)。個(gè)性化推薦基于Web挖掘理論和技術(shù)而不斷發(fā)展,涉及到數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論。隨著Web技術(shù)和普適計(jì)算的發(fā)展,個(gè)性化推薦系統(tǒng)采用的挖掘技術(shù)越來越復(fù)雜,由單一技術(shù)向混合技術(shù)和智能型方向發(fā)展。
個(gè)性化推薦進(jìn)行數(shù)據(jù)挖掘需要的數(shù)據(jù)源越來越多樣化,綜合了日志數(shù)據(jù)、歷史交易記錄、用戶搜藏、用戶注冊(cè)信息、個(gè)人評(píng)價(jià)反饋信息等。當(dāng)前,關(guān)于Web日志格式的設(shè)計(jì)原則,還缺乏相關(guān)的理論研究,因此,可以考慮進(jìn)行Web日志格式設(shè)計(jì)的研究。一些研究者為了提高個(gè)性化推薦系統(tǒng)的精度,把研究重點(diǎn)放在提高推薦系統(tǒng)的算法優(yōu)化方面,但是,有針對(duì)性地定制收集用戶數(shù)據(jù)進(jìn)行用戶模型建模,對(duì)于個(gè)性化推薦系統(tǒng)精度的提高有著根本性的促進(jìn)作用。這些定制收集到的用戶數(shù)據(jù)能準(zhǔn)確地反映出用戶的偏好,并且,用戶模型建模收集到的數(shù)據(jù)越準(zhǔn)確,就越有利于推薦系統(tǒng)的精度提高。同時(shí),經(jīng)過定制收集到的數(shù)據(jù)還能夠有助于減輕推薦系統(tǒng)計(jì)算冗余數(shù)據(jù)的負(fù)載,從而提高個(gè)性化系統(tǒng)整體性能。
參考文獻(xiàn):
[1]Mobasher B.Data mining for Web personalization.[2010―12―11].#other.
[6]Billsus D,Pazzani M.A personal news agent that talks,learns andexplains.[2010一12―11]..
[7]Han J,Kamber M.數(shù)據(jù)挖掘概念與技術(shù).范明,孟小峰,譯.北 京:機(jī)械工業(yè)出版社,2006.
[8]Burke R.Hybrid Web recommender systems//Brusilovsky P,Kob-sa A,Nejdl W.The Adaptive Web:Methods and Strategies 0fWeb Personalization,Lecture Notes in Computer Science.Berlin:Springer―Verlag,2007:377―408.
[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and recom-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.
【關(guān)鍵詞】電子商務(wù) 專家系統(tǒng) 電子商務(wù)個(gè)性化推薦技術(shù)
電子商務(wù)個(gè)性化推薦技術(shù)是指在電子商務(wù)網(wǎng)站在客戶進(jìn)行電子商務(wù)交易的過程中,根據(jù)用戶的個(gè)性化完成對(duì)用戶產(chǎn)品的推薦工作,通過對(duì)其網(wǎng)站系統(tǒng)內(nèi)部超多的數(shù)據(jù)挖掘來有效的匹配到客戶心目中的理想產(chǎn)品類型,為客戶提供符合其個(gè)性化要求的產(chǎn)品購買信息以及相關(guān)服務(wù)功能。事實(shí)上,隨著電子商務(wù)行業(yè)的不斷進(jìn)步以及發(fā)展,電子商務(wù)個(gè)性化推薦技術(shù)已經(jīng)形成了專業(yè)成熟的電子商務(wù)個(gè)性化推薦系統(tǒng),在電子商務(wù)網(wǎng)站的運(yùn)營(yíng)過程為客戶的購買行為提供者非常重要和直觀的技術(shù)支撐,保證客戶個(gè)性化要求的滿足。而在電子商務(wù)個(gè)性化推薦技術(shù)的組成結(jié)構(gòu)中添加相應(yīng)的專家系統(tǒng)模式,能夠更加有效的分析出客戶在電子商務(wù)購買行為中的購買需求、購買期望、購買目的,更好的幫助電子商務(wù)個(gè)性化推薦系統(tǒng)完成對(duì)不同客戶的定位和識(shí)別,促進(jìn)客戶完成交易過程。
1 專家系統(tǒng)的主要內(nèi)容
專家系統(tǒng)指的是一種專用的智能計(jì)算機(jī)程序系統(tǒng),其內(nèi)部含有大量的某一領(lǐng)域的專家水平的知識(shí)與經(jīng)驗(yàn),能夠通過對(duì)這種經(jīng)驗(yàn)的分析和應(yīng)用有效的解決這一領(lǐng)域中出現(xiàn)的諸多問題。事實(shí)上,專家系統(tǒng)的組成結(jié)構(gòu)與電子商務(wù)個(gè)性化推薦系統(tǒng)的組成結(jié)構(gòu)是較為相似的,其二者都共同存在輸入模塊、數(shù)據(jù)收集以及分析處理模塊和最終的輸出模塊等等,在電子商務(wù)個(gè)性化推薦系統(tǒng)中添加關(guān)于專家系統(tǒng)的智能程序,能夠有效的提升電子商務(wù)個(gè)性化推薦系統(tǒng)中的智能型,使其能夠更加充分的面對(duì)客戶在電子商務(wù)交易行為中的種種決策并提供相應(yīng)的信息幫助。
2 基于專家系統(tǒng)的電子商務(wù)個(gè)性化推薦系統(tǒng)的主要組成
正如上文所述,專家系統(tǒng)的強(qiáng)大之處在于其可以利用某一領(lǐng)域的專家知識(shí),模擬專家決策時(shí)候的決策方式以及相應(yīng)的推理和判斷方式來解決某一領(lǐng)域中出現(xiàn)的諸多問題。在電子商務(wù)個(gè)性化推薦系統(tǒng)中應(yīng)用專家系統(tǒng)這一程序,首先應(yīng)該確定專家系統(tǒng)的主要領(lǐng)域以及相關(guān)的信息知識(shí)內(nèi)容。具體來講,電子商務(wù)個(gè)性化推薦系統(tǒng)中專家系統(tǒng)應(yīng)該包含的領(lǐng)域和知識(shí)內(nèi)容應(yīng)該包括消費(fèi)領(lǐng)域以及心理領(lǐng)域等等,其具體的知識(shí)內(nèi)容應(yīng)該包括電子商務(wù)客戶的行為需求特征分析、電子商務(wù)客戶的行為適宜行為需求特征分析、電子商務(wù)客戶的決策行為需求特征分析等等,而專家系統(tǒng)在電子商務(wù)個(gè)性化推薦系統(tǒng)中的主要應(yīng)用流程應(yīng)該包括消費(fèi)者描述自身的需求、專家系統(tǒng)分析適合消費(fèi)者的需求、專家系統(tǒng)提取相應(yīng)的產(chǎn)品信息滿足消費(fèi)者的需求以及專家系統(tǒng)在最后的過程中對(duì)于產(chǎn)品的優(yōu)點(diǎn)介紹和競(jìng)爭(zhēng)優(yōu)勢(shì)介紹等等,為消費(fèi)者的最終決策提供信息幫助。
根據(jù)上述分析,基于專家系統(tǒng)的電子商務(wù)個(gè)性化推薦系統(tǒng)的主要結(jié)構(gòu)應(yīng)該包含專家系統(tǒng)的核心規(guī)則數(shù)據(jù)庫(靜態(tài)數(shù)據(jù)庫)和電子商務(wù)網(wǎng)站的商品數(shù)據(jù)庫以及客戶數(shù)據(jù)庫(動(dòng)態(tài)數(shù)據(jù)庫),同時(shí)使用咨詢子系統(tǒng)、規(guī)則子系統(tǒng)以及結(jié)果子系統(tǒng)來實(shí)現(xiàn)專家系統(tǒng)核心規(guī)則數(shù)據(jù)庫以及電子商務(wù)網(wǎng)站動(dòng)態(tài)數(shù)據(jù)庫之間的有效銜接和運(yùn)用。
2.1 專家系統(tǒng)核心規(guī)則數(shù)據(jù)庫
邏輯上個(gè)性化推薦系統(tǒng)的靜態(tài)數(shù)據(jù)庫可以使用專家系統(tǒng)的核心規(guī)則數(shù)據(jù)庫作為程序建立的核心內(nèi)容,用來存放專家系統(tǒng)運(yùn)行的領(lǐng)域知識(shí)結(jié)構(gòu)以及內(nèi)容,并設(shè)置相應(yīng)的輔助參數(shù)保證專家系統(tǒng)核心規(guī)則數(shù)據(jù)庫的良好運(yùn)行。
2.1.1 規(guī)則特性
每一個(gè)規(guī)則包括四個(gè)特性,例如PREMISE規(guī)則的前提部分、ACTION規(guī)則的操作部分等等,同時(shí)注意CATEGORY規(guī)則按照上下文分類,每條規(guī)則只能用于某幾個(gè)上下文,以便調(diào)用;
2.1.2 設(shè)置參數(shù)
每個(gè)設(shè)置參數(shù)應(yīng)該各自存儲(chǔ)一組屬性,用來咨詢以及程序調(diào)用,同時(shí)規(guī)定好每一個(gè)參數(shù)的參數(shù)組名稱、參數(shù)取值范圍、參數(shù)的類型結(jié)構(gòu)。
2.2 動(dòng)態(tài)數(shù)據(jù)庫
電子商務(wù)網(wǎng)站的用戶數(shù)據(jù)庫以及產(chǎn)品數(shù)據(jù)庫都隸屬于動(dòng)態(tài)數(shù)據(jù)庫的存儲(chǔ)范圍,每一次客戶登錄或者登出的過程中,電子商務(wù)網(wǎng)站的動(dòng)態(tài)數(shù)據(jù)庫都會(huì)隨之實(shí)時(shí)更新一次,添加相應(yīng)的動(dòng)態(tài)數(shù)據(jù)內(nèi)容。動(dòng)態(tài)數(shù)據(jù)庫對(duì)數(shù)據(jù)的主要存儲(chǔ)方式是根據(jù)相關(guān)對(duì)象、相關(guān)對(duì)象的具體屬性以及相關(guān)對(duì)象的具體參數(shù)數(shù)值(對(duì)象可信度、對(duì)象參數(shù)、對(duì)象跟蹤次數(shù))來確定對(duì)該對(duì)象的信息存儲(chǔ)、追蹤和使用過程。
2.2.1 電子商務(wù)用戶數(shù)據(jù)庫
電子商務(wù)用戶數(shù)據(jù)庫的存儲(chǔ)信息主要是商務(wù)網(wǎng)站瀏覽和登錄登出過程中各個(gè)用戶的主要信息,包括用戶的性別、年齡、職位、愛好、收藏、收入、購物經(jīng)歷以及其他相關(guān)信息等等。
2.2.2 電子商務(wù)商品數(shù)據(jù)庫
電子商務(wù)商品數(shù)據(jù)庫的存儲(chǔ)信息主要是諸多網(wǎng)站商戶的產(chǎn)品細(xì)細(xì),包括產(chǎn)品的名稱、品牌、價(jià)格、尺寸、重量、功能、材料、生產(chǎn)日期、保質(zhì)期、售后服務(wù)以及其他相關(guān)的產(chǎn)品信息等等。
2.3 資訊子系統(tǒng)
資訊子系統(tǒng)的主要功能是根據(jù)客戶在電子商務(wù)網(wǎng)站上的登錄、訪問、收藏、購物等一系列信息對(duì)網(wǎng)站的客戶數(shù)據(jù)庫提供對(duì)客戶的定位信息,更好的做好客戶個(gè)性化產(chǎn)品的推薦工作,同時(shí)有效的滿足客戶產(chǎn)品咨詢的功能。
2.4 規(guī)則子系統(tǒng)
規(guī)則子系統(tǒng)的主要功能是專家系統(tǒng)的核心規(guī)則內(nèi)容,專家智能系統(tǒng)能夠憑借自身的核心規(guī)則以及規(guī)則子系統(tǒng)的有效連接來實(shí)現(xiàn)客戶的產(chǎn)品推薦工作。
2.5 結(jié)果子系統(tǒng)
結(jié)果子系統(tǒng)的主要功能是記錄客戶瀏覽、咨詢以及最終購買的過程,為客戶的可信度數(shù)值提供相應(yīng)的資訊信息,并記錄下客戶本次的操作內(nèi)容,為客戶的下次購買提供信息支持。
3 結(jié)語
綜上所述,本文對(duì)基于專家系統(tǒng)的電子商務(wù)個(gè)性化推薦系統(tǒng)的主要組成結(jié)構(gòu)以及相關(guān)功能進(jìn)行了分析,電子商務(wù)網(wǎng)站在應(yīng)用專家系統(tǒng)的過程中仍然需要注意對(duì)專家系統(tǒng)智能模塊以及網(wǎng)站個(gè)性化推薦模塊兩者之間的有效連接和應(yīng)用,使專家系統(tǒng)能夠有效的融入在電子商務(wù)個(gè)性化推薦系統(tǒng)中并發(fā)揮功用。
參考文獻(xiàn)
[1]馬麗.電子商務(wù)個(gè)性化推薦技術(shù)分析及比較[J].計(jì)算機(jī)系統(tǒng)應(yīng)用.
論文關(guān)鍵詞:學(xué)習(xí)風(fēng)格,Web挖掘,個(gè)性化推薦,AprioriAll算法
一、引言
基于Internet技術(shù)的教育網(wǎng)絡(luò)化趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入地了解學(xué)生需求信息和學(xué)生行為特征的可能性。但隨著Web上信息量的爆炸式增長(zhǎng),網(wǎng)上的資源得到極大豐富的同時(shí)也充斥著大量的垃圾信息,當(dāng)學(xué)生們面對(duì)這些龐大蕪雜的信息海洋時(shí)變得無所適從,因而迫切需要能從這些紛繁蕪雜的信息海洋中主動(dòng)過濾并推薦給學(xué)生他們所需信息的個(gè)性化輔助教學(xué)推薦工具,本文就是針對(duì)這個(gè)問題而提出的。
目前人們利用數(shù)據(jù)挖掘技術(shù),提出了許多個(gè)性化推薦系統(tǒng)。本文提出通過心理學(xué)量表對(duì)學(xué)習(xí)風(fēng)格進(jìn)行測(cè)試,并針對(duì)實(shí)際收集到數(shù)據(jù)的稀疏特點(diǎn),采用項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過濾算法[1](Item-Based Top-N推薦算法),盡可能準(zhǔn)確地測(cè)試出學(xué)生的學(xué)習(xí)風(fēng)格。然后結(jié)合Web日志挖掘技術(shù),收集不同風(fēng)格學(xué)生瀏覽網(wǎng)頁的特點(diǎn),通過AprioriAll算法求解頻繁訪問序列[2],得到不同風(fēng)格學(xué)生的Web使用習(xí)慣,然后依據(jù)當(dāng)前學(xué)生瀏覽頁面向?qū)W生實(shí)時(shí)推薦下一步可能會(huì)訪問的部分網(wǎng)頁Web挖掘,提高學(xué)習(xí)效率。
二、個(gè)性化教學(xué)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
根據(jù)WWW體系結(jié)構(gòu)和網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的特點(diǎn),需要采用一種新的設(shè)計(jì)框架來處理挖掘過程。作者采用挖掘?qū)W生歷史瀏覽行為(記錄在服務(wù)器日志中)和分析學(xué)生學(xué)習(xí)風(fēng)格這兩類特征來構(gòu)建學(xué)生模型。
首次登陸系統(tǒng)時(shí)需對(duì)學(xué)生的學(xué)習(xí)風(fēng)格進(jìn)行測(cè)試,首先利用項(xiàng)目評(píng)分預(yù)測(cè)協(xié)同過濾算法(Item-Based Top-N)對(duì)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分,然后統(tǒng)計(jì)總分即可得到學(xué)生的學(xué)習(xí)風(fēng)格類型這一特征值;對(duì)于己注冊(cè)的學(xué)生則提取MFR路徑(最大前引用)對(duì)Web服務(wù)器中的Web日志進(jìn)行預(yù)處理,可得到學(xué)生最大向前向訪問的路徑,再用AprioriAll算法挖掘?qū)W生訪問網(wǎng)頁的頻繁序列,把這一頻繁序列作為特征值連同學(xué)生風(fēng)格這一特征值進(jìn)行數(shù)據(jù)預(yù)處理,即可得到學(xué)生個(gè)體興趣模型,然后對(duì)其進(jìn)行訪問模式挖掘即可得到學(xué)習(xí)風(fēng)格類型相同的學(xué)生所具有的訪問模式,最后根據(jù)這一訪問模式利用個(gè)性化推薦算法進(jìn)行學(xué)習(xí)內(nèi)容推薦。本文的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖1 所示。
圖1個(gè)性化挖掘和推薦模塊
三、 實(shí)現(xiàn)個(gè)性化教學(xué)推薦系統(tǒng)的關(guān)鍵步驟
1 構(gòu)建學(xué)習(xí)風(fēng)格及興趣模型
學(xué)習(xí)風(fēng)格是學(xué)生對(duì)學(xué)習(xí)方法的定向或偏愛,是學(xué)習(xí)者特有的認(rèn)知、情感和生理行為,是學(xué)生持續(xù)一貫帶有個(gè)性特征的學(xué)習(xí)方式。因此本文結(jié)合學(xué)習(xí)風(fēng)格構(gòu)建能代表學(xué)生特征的學(xué)生學(xué)習(xí)風(fēng)格及興趣模型。為了更加準(zhǔn)確的測(cè)試出學(xué)生的學(xué)習(xí)風(fēng)格類型,本文采用了所羅門風(fēng)格量表和Kolb風(fēng)格量表進(jìn)行測(cè)試,由于學(xué)生數(shù)目的急劇增加和項(xiàng)目眾多的風(fēng)格量表導(dǎo)致學(xué)生評(píng)分?jǐn)?shù)據(jù)的不完善,而產(chǎn)生了數(shù)據(jù)的稀疏性,這使得計(jì)算目標(biāo)用戶的項(xiàng)目評(píng)分后不能準(zhǔn)確的測(cè)試出學(xué)生的學(xué)習(xí)風(fēng)格。本文來采用基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過濾推薦算法[1]計(jì)算項(xiàng)目間的相似性,預(yù)測(cè)學(xué)生對(duì)未評(píng)分項(xiàng)目的評(píng)分,就可以有效地解決數(shù)據(jù)稀疏情況下的學(xué)習(xí)風(fēng)格的測(cè)試問題,能更加準(zhǔn)確的測(cè)試出學(xué)生的學(xué)的風(fēng)格中國(guó)學(xué)術(shù)期刊網(wǎng)。具體實(shí)現(xiàn)如圖2所示。
圖2學(xué)習(xí)風(fēng)格的測(cè)試流程
首先可以得到學(xué)生學(xué)習(xí)風(fēng)格測(cè)評(píng)數(shù)據(jù)矩陣,假設(shè)用戶為User-1,User-2,…,User-n,心理學(xué)量表的測(cè)量相目為Item-1,Item-2,…,Item-m,這樣矩陣的形式如圖3所示。
顯然當(dāng)缺少學(xué)生對(duì)某一些項(xiàng)目的評(píng)分時(shí),量表就無法完成對(duì)學(xué)習(xí)風(fēng)格的評(píng)價(jià),在自主學(xué)習(xí)的環(huán)境產(chǎn)生這種現(xiàn)象中是很常見的。為此有必要填補(bǔ)學(xué)生未評(píng)分的部分,完成對(duì)學(xué)習(xí)風(fēng)格的評(píng)價(jià)。作者通過兩步來完成對(duì)未評(píng)分項(xiàng)目的填充:
用戶項(xiàng)目
Item-1
Item-2
…
Item-j
…
Item-m
User-1
R11
R12
…
R1j
…
/
User-2
R21
/
…
R2j
…
R2m
…
…
…
/
…
…
User-i
Ri1
Ri2
…
/
…
/
User-n
/
Rn2
…
Rnj
【關(guān)鍵詞】電子商務(wù);推薦引擎;數(shù)據(jù)挖掘;個(gè)性化推薦
0 引言
隨著電子商務(wù)的不斷發(fā)展,其規(guī)模越來越大,可以提供的商品種類和數(shù)量也不斷大幅度地增加。如何使顧客方便、快速的找到商品,順利地完成購物過程成為電子商務(wù)企業(yè)亟待解決的問題,也是企業(yè)提高其自身競(jìng)爭(zhēng)力的重要砝碼。個(gè)性化推薦技術(shù)為解決這一問題提供了有力的支撐。目前,以搜索引擎為基礎(chǔ)的推薦引擎技術(shù)為提高購物效率提供了強(qiáng)有力的技術(shù)支持。
1 關(guān)于推薦引擎
1.1 推薦引擎定義
推薦引擎的目的是解決信息過載問題,其本質(zhì)在于通過對(duì)用戶歷史活動(dòng)記錄進(jìn)行分析后,得出用戶的興趣特點(diǎn)等信息,進(jìn)而主動(dòng)為用戶推薦其感興趣的商品或信息。個(gè)性化是推薦引擎的精髓所在,通過對(duì)群體數(shù)據(jù)進(jìn)行分析得出用戶的個(gè)性化愛好,然后針對(duì)其個(gè)性化需求等給出相應(yīng)的推薦。從長(zhǎng)遠(yuǎn)看來,推薦引擎技術(shù)具有極為廣闊的發(fā)展空間。
1.2 推薦引擎與搜索引擎的聯(lián)系與區(qū)別
推薦引擎與搜索引擎有著一定的聯(lián)系與區(qū)別。二者都是基于網(wǎng)絡(luò)平臺(tái)的工具,旨在發(fā)現(xiàn)答案或興趣點(diǎn);算法考慮的角度比較類似,不過算法思想存在很大的差異,搜索引擎給出的結(jié)果強(qiáng)調(diào)內(nèi)容關(guān)聯(lián),而推薦引擎給出的結(jié)果則強(qiáng)調(diào)個(gè)性化;搜索引擎是幫助用戶找到最為合適的結(jié)果,而推薦引擎可以幫助進(jìn)行多樣化體驗(yàn)進(jìn)而滿足其多個(gè)興趣需要;海量數(shù)據(jù)的處理和計(jì)算是二者不可缺少的一部分;相比于搜索引擎被動(dòng)等待用戶搜索請(qǐng)求的情況,推薦引擎是主動(dòng)為用戶推送相關(guān)的服務(wù)。
2 推薦引擎技術(shù)原理
2.1 基于內(nèi)容相似度的算法
該推薦算法是以從推薦物品或者推薦內(nèi)容的元數(shù)據(jù)中找出物品與內(nèi)容的關(guān)聯(lián)性然后根據(jù)用戶以往的興趣愛好為算法的核心思想,這是在推薦引擎出現(xiàn)之初是使用最為廣泛的推薦方法。例如:假設(shè)用戶A、用戶B、用戶C都喜歡看影視劇,用戶A喜歡看的電影a屬于愛情、浪漫類,用戶B、C喜歡的電影b屬于恐怖驚悚類,電影c與電影a相似屬于愛情浪漫類,則可以把電影c推薦給用戶A。
基于該算法的推薦機(jī)制的不足之處在于:1)需要對(duì)商品進(jìn)行分析建模,其建模的完整性與否直接影響到推薦的質(zhì)量;2)在對(duì)商品進(jìn)行建模的過程中往往會(huì)忽略人對(duì)物品的態(tài)度;3)存在“冷啟動(dòng)”問題。應(yīng)用該推薦方法的網(wǎng)站有百度、優(yōu)酷、gmail、google等。
2.2 基于協(xié)同過濾推薦算法
2.2.1 基于用戶的協(xié)同過濾推薦
該推薦方法的基本原理是運(yùn)用“K-鄰居”算法,找出與當(dāng)前用戶偏好相同或相似的鄰居群,然后根據(jù)鄰居群的歷史記錄對(duì)當(dāng)前用戶進(jìn)行推薦。例如,假設(shè)用戶 A 喜歡物品 a,物品 c和物品 d,用戶 B 喜歡物品 b,用戶 C 喜歡物品 a 和物品 c;從各個(gè)用戶的歷史偏好信息中,我們可以發(fā)現(xiàn)用戶 A 與用戶 C 的偏好比較類似,同時(shí)用戶 C 還喜歡物品 d,由此我們可以推斷用戶 A 可能也喜歡物品 d,因此可以將物品 d 推薦給用戶 A。
該算法的領(lǐng)域擴(kuò)展性比較好,其推薦多樣性遠(yuǎn)遠(yuǎn)高于基于物品的協(xié)同過濾推薦。其不足之處在于算法具有時(shí)效性,無法離線計(jì)算;在大規(guī)模數(shù)據(jù)集上數(shù)據(jù)稀疏嚴(yán)重。
2.2.2 基于物品的協(xié)同過濾推薦
該推薦機(jī)制的原理同基于用戶的協(xié)同過濾推薦機(jī)制類似,它是發(fā)現(xiàn)物品與物品之間的相似性,針對(duì)用戶的歷史偏好信息對(duì)用戶作出物品推薦。例如,假設(shè)用戶 A 喜歡物品 a 和物品 c,用戶 B 喜歡物品 a,物品 b 和物品 c,用戶 C 喜歡物品 a,從這些用戶的歷史喜好可以分析出物品 a 和物品 c 時(shí)比較類似的,喜歡物品 a 的人都喜歡物品 c,基于這個(gè)數(shù)據(jù)可以推斷用戶 C 很有可能也喜歡物品 c,所以系統(tǒng)會(huì)將物品 c 推薦給用戶 C。
該推薦機(jī)制能夠離線計(jì)算,不存在時(shí)效性的問題;盡管依舊有數(shù)據(jù)稀疏的問題,但是可以計(jì)算;能夠有效地發(fā)現(xiàn)具有相同興趣的用戶的相似item。其不足之處在于多樣性不如基于用戶的推薦機(jī)制,對(duì)于興趣單一的用戶較為適用。
2.3 基于人口統(tǒng)計(jì)學(xué)的算法
該算法指根據(jù)用戶的基本信息,從中發(fā)現(xiàn)用戶之間的相關(guān)度,然后將相關(guān)用戶喜歡的商品推薦給當(dāng)前用戶。例如,通過用戶基本信息調(diào)查發(fā)現(xiàn),用戶A與用戶C都是女性,且屬于同一年齡段,則可以認(rèn)為用戶A和用戶C相似,就可以把用戶A喜歡的商品推薦給用戶C。這種推薦方法的優(yōu)勢(shì)在于不存在冷啟動(dòng)問題,且適用于任何商品領(lǐng)域;其不足之處是對(duì)用戶分類方法過于粗糙,無法深入發(fā)掘出用戶偏好,且對(duì)于有些用戶敏感的信息難以獲取。
2.4 基于Topic model的算法
該算法的思想是為每個(gè)Item定義不同的topic標(biāo)簽,之后定義每個(gè)topic之間的相似度。用戶選擇topic后,基于其選擇進(jìn)行各個(gè)topic之間相似度的計(jì)算,最后生成推薦item集合。
在該推薦算法中,topic作為聯(lián)系user與item之間的紐帶,借助較好的用戶回饋機(jī)制,就能夠使系統(tǒng)更好地演繹。其不足之處是item之間相似度計(jì)算比較麻煩且topic定義繁瑣。使用該算法作為推薦算法的主要有youtube、google news、jinni等網(wǎng)站。
2.5 基于關(guān)聯(lián)規(guī)則的推薦算法
關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘算法中的經(jīng)典算法之一,它主要是找出數(shù)據(jù)的依賴關(guān)系。通過進(jìn)行關(guān)聯(lián)規(guī)則分析,能夠了解到什么樣的物品被同時(shí)購買的幾率比較大,或者了解到用戶在購買一些物品后通常還會(huì)購買哪些別的物品。當(dāng)挖掘出這樣的具有關(guān)聯(lián)規(guī)則的物品信息后,就可以基于這些信息為用戶推薦關(guān)聯(lián)商品。
2.6 混合推薦機(jī)制
在現(xiàn)行的多數(shù)網(wǎng)站中,并不是使用單一一種推薦模式,往往是集合各種推薦方法的優(yōu)勢(shì),進(jìn)而達(dá)到更好的推薦效果。目前常用的混合方法主要有加權(quán)混合、分區(qū)混合、切換混合和分層混合。加權(quán)混合指用線性代數(shù)中的公式將不同的推薦方法以一定的權(quán)重組合起來,利用測(cè)試數(shù)據(jù)進(jìn)行反復(fù)實(shí)驗(yàn)以期達(dá)到最好的推薦效果;分區(qū)混合指將不同推薦方法的推薦結(jié)果顯示在不同的區(qū)域,這種方式在當(dāng)當(dāng)網(wǎng)、亞馬遜等網(wǎng)站中都可以看到;切換混合指針對(duì)不同的物品,不同的情況下采用最合適的推薦機(jī)制來向用戶進(jìn)行推薦;分層混合指采用多種推薦機(jī)制,并將一種推薦機(jī)制的推薦結(jié)果作為另一種推薦機(jī)制的輸入,從而得出更為精確的推薦結(jié)果。
3 推薦引擎技術(shù)在電子商務(wù)中的應(yīng)用
在推薦引擎技術(shù)出現(xiàn)后,用戶在電子商務(wù)網(wǎng)站瀏覽的效率得到了很大的提高,它只顯示用戶想要看到的內(nèi)容。試目前應(yīng)用推薦引擎技術(shù)的電子商務(wù)網(wǎng)站很多,最典型的就是亞馬遜,像淘寶網(wǎng)、當(dāng)當(dāng)網(wǎng)、京東商城、騰訊等大家所熟知的網(wǎng)站中也大量應(yīng)用了推薦引擎技術(shù)。
推薦引擎在電子商務(wù)中的應(yīng)用主要表現(xiàn)在如下幾個(gè)方面:1)今日推薦:通常是基于用戶近期的購買記錄或者瀏覽記錄,結(jié)合當(dāng)下一些比較流行的物品等信息對(duì)用戶進(jìn)行推薦;2)捆綁銷售:基于數(shù)據(jù)挖掘技術(shù)對(duì)用戶的購買行為進(jìn)行深入挖掘分析,找到其購買記錄中具有關(guān)聯(lián)的物品進(jìn)行捆綁銷售,如淘寶網(wǎng)中的搭配套餐;3)top排行榜:基于銷售記錄中銷售數(shù)量最多的商品進(jìn)行排行,向用戶進(jìn)行推薦。
4 小結(jié)
論文對(duì)推薦引擎的相關(guān)定義以及算法原理進(jìn)行了較詳細(xì)的介紹,推薦引擎能夠促成更多的網(wǎng)上交易,具有很大的發(fā)展空間。但是,盡管推薦引擎在推動(dòng)電子商務(wù)發(fā)展方面有很大的優(yōu)勢(shì),但是其仍有其不足,比如“冷啟動(dòng)”問題,而且在涉及到用戶個(gè)人信息時(shí)是否觸及用戶的隱私權(quán)還有待確定。
【參考文獻(xiàn)】
[1]HAN Jiawei,KAMBER Micheline.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
關(guān)鍵詞:二部圖;加權(quán)二部圖;個(gè)性化推薦
中圖分類號(hào): TP181;TP301.6文獻(xiàn)標(biāo)志碼:A
Personalized recommendation algorithm based on weighted bipartite network
英文作者名ZHANG Xin-meng*, JIANG Sheng-yi
英文地址(Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou Guangdong 510006,China)
Abstract: In Network-Based Inference (NBI) algorithm, the weight of edge between user and item is ignored; therefore, the items with high rating have not got the priority to be recommended. In order to solve the problem, a Weigted Network-Based Inference (WNBI) algorithm was proposed. The edge between user and item was weighted with items rating by proposed algorithm, the resources were allocated according to the ratio of the edges weight to total edges weight of the node, so that high rating items could be recommended with priority. The experimental results on data set MovieLens demonstrate that the number of hit high rating items by WNBI increases obviously in contrast with NBI, especially when the length of recommendation list is shorter than 20, the numbers of hit items and hit high rating items both increase.
Key words: bipartite network; weighted bipartite network; personalized recommendation
0引言
個(gè)性化推薦研究于20世紀(jì)90年代被作為一個(gè)獨(dú)立的概念提出來,其目的是根據(jù)用戶的喜好為用戶推薦感興趣的商品或信息,推薦算法的關(guān)鍵是如何提高推薦精度和效率,對(duì)此研究者提出了多種改進(jìn)策略和算法。目前,個(gè)性化推薦方法主要有基于規(guī)則的推薦、協(xié)同過濾推薦、基于內(nèi)容的推薦、混合推薦系統(tǒng)以及基于網(wǎng)絡(luò)的推薦等。
基于內(nèi)容推薦算法[1-2]根據(jù)用戶喜愛的項(xiàng)目信息,找出相似度最高的項(xiàng)目推薦給用戶?;趦?nèi)容的推薦系統(tǒng)分別對(duì)用戶和項(xiàng)目建立配置文件,分析已經(jīng)購買(或?yàn)g覽)過的項(xiàng)目,建立或更新用戶的配置文件系統(tǒng),比較用戶與項(xiàng)目配置文件的相似度,并直接向用戶推薦與其配置文件最相似的項(xiàng)目。基于內(nèi)容推薦只考慮用戶的興趣偏好,推薦結(jié)果直觀容易理解,但是對(duì)于機(jī)器難以理解的數(shù)據(jù)格式,如音樂、圖像等往往無法處理,不能為用戶發(fā)現(xiàn)新的興趣點(diǎn)。
協(xié)同過濾(Collaborative Filtering, CF)推薦[3-4]針對(duì)基于內(nèi)容推薦的不足,利用用戶已有的信息計(jì)算用戶之間的相似性,通過鄰居用戶對(duì)項(xiàng)目的評(píng)價(jià)來預(yù)測(cè)目標(biāo)用戶對(duì)項(xiàng)目的偏好程度。CF算法不受數(shù)據(jù)格式影響,能夠推薦如圖片、音樂等難以處理的復(fù)雜數(shù)據(jù),能挖掘用戶新的興趣點(diǎn),但也同時(shí)存在多個(gè)問題,最典型是冷問題和稀疏問題。
基于內(nèi)容推薦與協(xié)同過濾推薦均有各自的局限性,在實(shí)際應(yīng)用中,通常將多種推薦方法組合起來,最常見的是將基于內(nèi)容過濾推薦和協(xié)同過濾推薦進(jìn)行組合,混合推薦在實(shí)際應(yīng)用中比單獨(dú)某一種推薦方式具有更高的準(zhǔn)確率[5],但混合推薦必然增加時(shí)間和空間的開銷。
基于關(guān)聯(lián)規(guī)則推薦[6-7]關(guān)注用戶行為的關(guān)聯(lián)模式,通過用戶行為建立項(xiàng)目之間的關(guān)聯(lián)關(guān)系,通過這種關(guān)聯(lián)關(guān)系向用戶推薦其他項(xiàng)目。該方法不需要領(lǐng)域知識(shí)能夠發(fā)現(xiàn)新興趣點(diǎn),但規(guī)則抽取困難,時(shí)間復(fù)雜度高,個(gè)性化程度較低。
基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[8]不考慮用戶和項(xiàng)目的內(nèi)容特征,而僅僅把它們看成抽象的節(jié)點(diǎn),所有算法利用的信息都藏在用戶和項(xiàng)目的選擇關(guān)系之中,Wand等[9]利用社會(huì)網(wǎng)絡(luò)分析方法推薦在線拍賣系統(tǒng)中可信賴的拍賣者。
Zhou等[10]提出網(wǎng)絡(luò)推斷(Network-Based Inference, NBI)算法,利用二部圖進(jìn)行資源分配,取得了比CF算法更好的效果。本文引入二部圖邊權(quán)提出加權(quán)網(wǎng)絡(luò)推斷(Weigted Network-Based Inference, WNBI)算法,以項(xiàng)目的評(píng)分值作為二部圖的邊權(quán),按邊權(quán)比例計(jì)算資源分配矩陣,在沒有增加時(shí)間和空間開銷的情況下,提高了推薦精度。
1二部圖與推薦算法
近年來,復(fù)雜網(wǎng)絡(luò)得到廣泛關(guān)注[11],越來越多關(guān)于網(wǎng)絡(luò)的研究成果被發(fā)掘并應(yīng)用,為人們深刻認(rèn)識(shí)現(xiàn)實(shí)中的復(fù)雜系統(tǒng)并對(duì)之進(jìn)行控制或應(yīng)用提供了有效幫助。二部圖是一種特殊的網(wǎng)絡(luò),它包含兩類節(jié)點(diǎn),僅允許不同類的節(jié)點(diǎn)間相連,許多自然界系統(tǒng)可被描述為二部圖[12]:如性別關(guān)系二部圖[13-14]、新陳代謝網(wǎng)化學(xué)物質(zhì)與化學(xué)反應(yīng)二部圖[15]。
二部圖包含兩類節(jié)點(diǎn):一類節(jié)點(diǎn)是活動(dòng)、項(xiàng)目的“用戶”,例如科研人員、演員等;另一類節(jié)點(diǎn)是活動(dòng)、項(xiàng)目,例如科研項(xiàng)目、論文、電影等。二部圖中同一類節(jié)點(diǎn)之間的合作相互關(guān)系是研究領(lǐng)域的一個(gè)熱點(diǎn),比如演員之間在演出的合作關(guān)系、科研人員之間的寫作論文的合作關(guān)系等。
第3期 張新猛等:基于加權(quán)二部圖的個(gè)性化推薦算法計(jì)算機(jī)應(yīng)用 第32卷1.1基于二部圖的推薦算法
文獻(xiàn)[10]提出一種基于二部圖的推薦算法,將二部圖向同一類節(jié)點(diǎn)投影,得到單模式圖的新方法,討論在項(xiàng)目節(jié)點(diǎn)類中節(jié)點(diǎn)之間的邊權(quán)計(jì)算。假設(shè)每個(gè)項(xiàng)目均有一定的資源,定義邊權(quán)wi j表示項(xiàng)目j通過二部圖邊分配給項(xiàng)目i的資源,通常wi j和wji是不相等的。比如在一個(gè)“觀眾電影”的二部圖中,有兩部電影i和j,如果一個(gè)觀眾已經(jīng)觀看了電影j,那么兩部電影之間的邊權(quán)wi j表示電影j推薦電影i的強(qiáng)度。在“用戶”與“項(xiàng)目”節(jié)點(diǎn)之間的邊認(rèn)為是無權(quán)的,在資源分配過程中,每個(gè)項(xiàng)目將自己所有的資源通過二部圖的邊平均分配給該項(xiàng)目的每個(gè)用戶;反過來,每個(gè)用戶又將自己所有分到的資源再次通過二部圖的邊平均分配給所參與的項(xiàng)目。圖1為項(xiàng)目通過二部圖的邊進(jìn)行資源分配的過程。
圖片圖1基于二部圖的資源分配過程
在圖1(a)中,3個(gè)項(xiàng)目節(jié)點(diǎn)具有資源權(quán)重分別為x、y、z。資源分配過程分兩步:第一步是從項(xiàng)目到用戶,將項(xiàng)目的資源平均分配給每個(gè)用戶,分配結(jié)果見圖1(b);第二步是從用戶返回到項(xiàng)目,用戶將所分得資源平均分配給所參與的項(xiàng)目,結(jié)果見圖1(c)。
考慮一個(gè)由n個(gè)項(xiàng)目m個(gè)用戶所構(gòu)成的二部圖(例如用戶圖書,觀眾電影,瀏覽者網(wǎng)頁等),二部圖表示為G(X,Y,E),E表示二部圖的邊,即連接用戶和項(xiàng)目的邊,項(xiàng)目節(jié)點(diǎn)X表示為x1,x2,…,xn,用戶節(jié)點(diǎn)Y表示為y1,y2,…,ym。在文獻(xiàn)[10]中,最后任意項(xiàng)目j分配給項(xiàng)目i的資源權(quán)重計(jì)算公式見式(1)。
1.2基于加權(quán)二部圖推薦算法
在文獻(xiàn)[10]中,二部圖是無權(quán)的,項(xiàng)目之間資源分配計(jì)算過程中,將項(xiàng)目資源平均分配給用戶,同時(shí)用戶將分到的資源再平均分配給項(xiàng)目。但在實(shí)際應(yīng)用中,用戶與項(xiàng)目之間邊權(quán)具有重要的意義,比如在科研項(xiàng)目合作中,資金按項(xiàng)目的重要程度進(jìn)行分配。
考慮用戶項(xiàng)目之間邊的權(quán)重,如圖2所示,用戶和項(xiàng)目之間的邊權(quán)分別用3,4,5標(biāo)注,項(xiàng)目將資源按照項(xiàng)目用戶之間的邊權(quán)與該項(xiàng)目邊權(quán)之和的比分配給用戶,第二步按照同樣的方式按照用戶項(xiàng)目邊權(quán)與該用戶邊權(quán)之和的比例將資源返回給項(xiàng)目,圖2為加權(quán)資源分配過程,任意項(xiàng)目j分配給項(xiàng)目i的資源是通過所有與項(xiàng)目i和j都有邊的用戶進(jìn)行的,權(quán)重計(jì)算公式表示為式(3)。
圖片圖2基于加權(quán)二部圖的資源分配
wi j=∑ml=1ailajlk(xj)k(yl)(3)
其中:k(xj)表示項(xiàng)目xj連接所有用戶邊權(quán)之和;k(yl)表示用戶yl連接所有項(xiàng)目邊權(quán)之和;ail為n×m的加權(quán)鄰接矩陣A=(ail)n×m第i行第l列的值,見式(4);xiyl表示二部圖中項(xiàng)目xi與用戶yl間的邊權(quán)。項(xiàng)目間資源分配矩陣表示為W=(wi j)n×n。
ail=0,xiylE
xiyl,其他(4)
推薦系統(tǒng)包括用戶和項(xiàng)目,用戶表示為U={u1,u2,…,um},項(xiàng)目表示為O={o1,o2,…,on},用戶對(duì)項(xiàng)目的評(píng)分形成一個(gè)n×m評(píng)分鄰接矩陣A=(ail)n×m,若用戶l對(duì)項(xiàng)目i進(jìn)行了評(píng)分,若評(píng)分高于某值r,表示用戶推薦該項(xiàng)目,ail的值即為評(píng)分值(或進(jìn)行適當(dāng)?shù)念A(yù)處理);否則ail=0。根據(jù)式(3)計(jì)算項(xiàng)目之間資源分配矩陣W,用戶ul沒有選擇項(xiàng)目oi,那么對(duì)用戶ul推薦項(xiàng)目oi的預(yù)測(cè)評(píng)分可用式(5)表示。由于在利用二部圖進(jìn)行資源分配過程中,考慮到用戶與項(xiàng)目間邊的權(quán)重,所以我們稱這種算法為加權(quán)網(wǎng)絡(luò)推斷(WNBI)算法。
f′(oi)=∑nj=1wi jajl(5)
1.3算法描述
其中|O|表示集合O的長(zhǎng)度。最后再取預(yù)測(cè)評(píng)分最高top-N個(gè)項(xiàng)目推薦給用戶ul。
1.4算法復(fù)雜度分析
在1.3節(jié)算法描述第一步計(jì)算資源分配矩陣中,第1)~6)行的循環(huán)具有線性復(fù)雜度O(r),其中r為訓(xùn)練集的長(zhǎng)度。在第10)行中,循環(huán)次數(shù)是取兩個(gè)項(xiàng)目所連接用戶交集的長(zhǎng)度,因此循環(huán)次數(shù)不超過k(oi)和k(oi)中的較小值,假定項(xiàng)目度的平均值記為k(o),那么計(jì)算資源分配矩陣的時(shí)間復(fù)雜度約為O(r+n2k(o)),在實(shí)際應(yīng)用中r遠(yuǎn)小于n2,如在MovieLens數(shù)據(jù)集中,共有10000條用戶對(duì)電影的評(píng)分,電影1682部,因此時(shí)間復(fù)雜度可簡(jiǎn)化為O(n2k(o))。第二步計(jì)算某個(gè)用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分中,很明顯時(shí)間復(fù)雜度為O(n2),因此兩步驟整體復(fù)雜度為O(n2k(o))。對(duì)比CF的復(fù)雜度為O(m2k(u)+mnk(o))[3],其中k(u)、k(o)分別為用戶和項(xiàng)目的度的平均值。在實(shí)際數(shù)據(jù)集中,用戶的數(shù)量往往遠(yuǎn)多于項(xiàng)目的數(shù)量,比如“EachMovie”數(shù)據(jù)集中,包括m=72916個(gè)用戶,n=1628部電影,因此在m>n的情況下,WNBI算法時(shí)間復(fù)雜度低于CF時(shí)間復(fù)雜度。
NBI算法與WNBI算法區(qū)別在于算法描述中第5)行所得到的鄰接矩陣與第11)行所采用的公式不同,其他步驟相同,因此兩者算法復(fù)雜相同。在作為復(fù)雜網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)的圖論中,一般只研究“簡(jiǎn)單圖”,即不考慮兩個(gè)節(jié)點(diǎn)之間的邊權(quán),只給出節(jié)點(diǎn)之間的相互作用是否存在的定性描述,文獻(xiàn)[10]中NBI算法就采用了傳統(tǒng)的二部圖的表示方法,即不考慮用戶與項(xiàng)目之間的邊權(quán),提供一個(gè)通用的推薦算法,因而忽略二部圖邊權(quán)。
2實(shí)驗(yàn)分析
采用標(biāo)準(zhǔn)數(shù)據(jù)集MovieLens檢測(cè)WNBI算法的有效性,該數(shù)據(jù)集來自于網(wǎng)站省略。MovieLens數(shù)據(jù)集包含1682部電影,943個(gè)用戶,共有100000條用戶對(duì)電影的評(píng)分,評(píng)分為1~5,1表示最不喜歡,5表示最喜歡,其中評(píng)分在3分及以上的記錄有82520條,如果評(píng)分至少3分表示用戶推薦該電影,將3分及以上的評(píng)分記錄構(gòu)建“用戶電影”二部圖,那么“用戶電影”二部圖共有82520條邊。按照文獻(xiàn)[10]中方法將數(shù)據(jù)集隨機(jī)選取其中90%作為訓(xùn)練集,剩余10%作為測(cè)試集。本實(shí)驗(yàn)每次隨機(jī)劃分?jǐn)?shù)據(jù)集后分別用NBI和WNBI兩種算法進(jìn)行評(píng)分預(yù)測(cè),進(jìn)行10次取平均值比較推薦結(jié)果,因此實(shí)驗(yàn)結(jié)果是在訓(xùn)練集與測(cè)試集都完全相同的情況下進(jìn)行的對(duì)比測(cè)試。
2.1基于排名評(píng)價(jià)
首先采用文獻(xiàn)[10]中的基于排名評(píng)價(jià)方法,利用訓(xùn)練集構(gòu)造二部圖及資源分配矩陣W,根據(jù)矩陣W進(jìn)行電影推薦,然后與測(cè)試集中電影進(jìn)行比較,得到測(cè)試集中電影在推薦電影列表中的排名,排名越靠前,推薦效果越好。如果邊uloi出現(xiàn)在測(cè)試集中,那么該邊肯定不會(huì)出現(xiàn)在訓(xùn)練集中,因此oi是用戶ul在訓(xùn)練集中未選擇的電影之一,假設(shè)用戶ul共有Lj個(gè)未選擇的電影,若oi在推薦算法中按預(yù)測(cè)評(píng)分排名為R,那么oi的排名相對(duì)位置表示為rli=R/Lj,oi是測(cè)試集中用戶實(shí)際喜歡的電影,因此相對(duì)位置rli越小,推薦算法越好。
文獻(xiàn)[10]中,對(duì)NBI、全局排名方法(Global Ranking Method, GRM)[10]和CF進(jìn)行了比較,結(jié)果顯示,NBI、GRM和CF 3種算法的r均值分別為10.6%、13.9%、12.0%,顯然NBI算法最優(yōu)。WNBI與NBI算法對(duì)比實(shí)驗(yàn)結(jié)果如圖3所示,WNBI算法所推薦的結(jié)果同NBI的結(jié)果高度擬合,r值幾乎相同,但在曲線前段,WNBI算法所命中電影排名略高,表示在推薦長(zhǎng)度較小的情況下,WNBI算法略好,但在這種評(píng)價(jià)方式下WNBI算法優(yōu)勢(shì)并不明顯。
圖片圖3測(cè)試集中電影的預(yù)測(cè)排名位置
考慮到實(shí)際推薦系統(tǒng)實(shí)際推薦產(chǎn)品的個(gè)數(shù)通常比較少,比如雅虎音樂(new.music.省略/)的個(gè)性化推薦包括40首歌,智能社會(huì)書簽(smart social bookmarks)系統(tǒng)(省略/)的個(gè)性化推薦包括20條書簽[7]。文獻(xiàn)[10]采用一種依賴推薦長(zhǎng)度的精確度測(cè)量方法,給定了推薦列表的長(zhǎng)度L,系統(tǒng)把排名最靠前的L個(gè)項(xiàng)目推薦給用戶,考察所推薦的L個(gè)項(xiàng)目,假設(shè)二部圖邊uloj出現(xiàn)在測(cè)試集中,如果oj為所推薦的L個(gè)項(xiàng)目之一,那么稱oj被算法命中,被算法所命中的項(xiàng)目個(gè)數(shù)與測(cè)試集中所有發(fā)生邊uloj的項(xiàng)目個(gè)數(shù)之比為命中率,顯然命中率越高,算法越好,因此這種測(cè)試方法更具實(shí)際意義。文獻(xiàn)[10]對(duì)NBI、GRM、CF 3種算法在10,20,50,100共4種典型推薦長(zhǎng)度下進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果NBI算法的命中率明顯高于CF和GRM。
為了使數(shù)據(jù)對(duì)比更明顯,針對(duì)所有用戶,采用算法所命中的電影個(gè)數(shù)和均值進(jìn)行比較,在指定推薦長(zhǎng)度的情況下,進(jìn)行10次隨機(jī)試驗(yàn),結(jié)果為所有測(cè)試用戶推薦電影的命中個(gè)數(shù)的和的平均值,實(shí)驗(yàn)結(jié)果見表1。從表1中可看出,在指定推薦長(zhǎng)度較小的情況下,WNBI算法較NBI算法優(yōu)越,但推薦長(zhǎng)度為50和100時(shí),WNBI推薦效率略低于NBI算法,在實(shí)際應(yīng)用系統(tǒng)中,推薦列表中靠前的項(xiàng)目更具有實(shí)際應(yīng)用價(jià)值。
2.2基于命中項(xiàng)目評(píng)分值的評(píng)價(jià)
NBI算法忽略二部圖用戶與項(xiàng)目間的邊權(quán),在數(shù)據(jù)集MovieLens上推薦測(cè)試中,將評(píng)分在3~5之間的電影看成同樣的推薦權(quán)值,并且在算法評(píng)價(jià)中,無論是基于排名位置還是基于推薦長(zhǎng)度的測(cè)量方法,都只考慮命中電影個(gè)數(shù),沒有考慮命中電影的實(shí)際評(píng)分,認(rèn)為命中評(píng)分為3~5的電影推薦效果是一樣的。本文給出一種基于命中項(xiàng)目評(píng)分值的推薦算法評(píng)價(jià)方案,即綜合考慮所命中項(xiàng)目的個(gè)數(shù)和命中項(xiàng)目的實(shí)際評(píng)分,若命中的項(xiàng)目個(gè)數(shù)越多、命中項(xiàng)目實(shí)際評(píng)分越高,則推薦效果越好。
首先,考察被推薦電影的實(shí)際評(píng)分,表2為不同推薦長(zhǎng)度下命中電影的實(shí)際評(píng)分均值,表明WNBI算法所命中電影的實(shí)際評(píng)分均值明顯高于NBI算法所命中電影評(píng)分均值。
表格(有表名)表2命中電影評(píng)分均值
推薦長(zhǎng)度NBI算法WNBI算法54.204.23104.154.19204.124.15504.084.101004.044.05
其次考慮被命中各評(píng)分的電影的平均推薦排名,命中評(píng)分越高的電影如果在推薦表中的排名越靠前,推薦算法越好。表3為兩種算法命中電影的推薦排名均值。顯然,WNBI算法所命中的高分電影在推薦排名中高于NBI算法,比如,采用WNBI算法命中評(píng)分為5的電影平均排名為111.31,領(lǐng)先于采用NBI算法命中評(píng)分為5的電影平均排名115.27;WNBI命中評(píng)分為4的電影排名148.04也略領(lǐng)先于NBI的148.69;而WNBI命中評(píng)分為3的電影排名則落后于NBI算法。總的來說,兩種算法命中電影總排名效果相當(dāng),但WNBI的優(yōu)勢(shì)是命中高評(píng)分電影排名比較靠前。
表格(有表名)表3兩種算法命中電影的推薦排名均值
實(shí)際評(píng)分NBI算法WNBI算法3213.70218.184148.69148.045115.27111.31
最后,比較在指定長(zhǎng)度推薦列表中所命中電影的不同評(píng)分的電影數(shù)量,命中高評(píng)分電影在推薦列表中出現(xiàn)次數(shù)越多,推薦效果越好。圖4為推薦長(zhǎng)度為10和20的推薦列表中命中的各實(shí)際評(píng)分電影總數(shù)量。從圖4可看出,WNBI算法命中高評(píng)分電影上有優(yōu)勢(shì),比如在推薦長(zhǎng)度為10的情況下,WNBI為所有用戶推薦的列表中命中實(shí)際評(píng)分為5的電影個(gè)數(shù)為515,而NBI算法所推薦的實(shí)際評(píng)分為5的電影個(gè)數(shù)為476。
圖片圖4不同推薦長(zhǎng)度下命中各種評(píng)分電影個(gè)數(shù)
2.3算法效率測(cè)試
實(shí)驗(yàn)平臺(tái)配置如下: Intel 2.0 GHz CPU,2GB內(nèi)存,Windows XP,編程語言采用Java。在數(shù)據(jù)集MovieLens上計(jì)算943個(gè)用戶對(duì)所有1682部電影的預(yù)測(cè)評(píng)分,分別采用NBI算法和WNBI算法進(jìn)行10次實(shí)驗(yàn),取運(yùn)行時(shí)間平均值。采用NBI算法、WNBI算法分別計(jì)算資源分配矩陣W、943個(gè)用戶對(duì)1682部電影的預(yù)測(cè)評(píng)分、單個(gè)用戶對(duì)1682部電影的預(yù)測(cè)評(píng)分的運(yùn)行時(shí)間,實(shí)驗(yàn)結(jié)果見表4??梢钥闯鯪BI與WNBI算法運(yùn)行時(shí)間相差非常小,運(yùn)行時(shí)間的細(xì)微差異應(yīng)該是由于運(yùn)行環(huán)境引起的。在實(shí)際應(yīng)用系統(tǒng)中,計(jì)算資源分配矩陣W可以在線下進(jìn)行,計(jì)算的結(jié)果存入配置文件,并定期進(jìn)行更新,時(shí)間開銷主要是為單個(gè)用戶推薦項(xiàng)目,其復(fù)雜度為O(n2),在該實(shí)驗(yàn)中時(shí)間開銷僅約為185ms,所以在項(xiàng)目個(gè)數(shù)不是特別多的應(yīng)用系統(tǒng)中,該算法能夠高效運(yùn)行。
參考文獻(xiàn):
[1]WANG F H, JIAN S Y. An effective content-based recommendation method for Web browsing based on keyword context matching[J]. Journal of Informatics and Electronics,2006,1(2):49-59.
關(guān)鍵詞:服裝搭配;個(gè)性推薦;專家系統(tǒng)
目前,時(shí)尚導(dǎo)購類應(yīng)用越來越多,面向用戶所展開的功能良莠不齊,很多的應(yīng)用充斥著大量信息,增加了用戶對(duì)于使用產(chǎn)品時(shí)的工作負(fù)荷量。本文基于專家系統(tǒng),對(duì)于個(gè)性化推薦穿搭應(yīng)用是要改善用戶使用體驗(yàn),增進(jìn)理解用戶的需求,降低個(gè)人與服裝之間的溝通張力,平衡用戶自知與服裝客觀感知間的和諧。市場(chǎng)上現(xiàn)有的導(dǎo)購?fù)扑]類應(yīng)用,大部分以服裝搭配推薦圖例的展示形式陳列給用戶,卻從未發(fā)自內(nèi)心推敲用戶到底想要什么。用戶開始會(huì)被不同的展示圖片所吸引,隨之進(jìn)入“流”的購物模式。
“流”(Flow),這個(gè)概念最早在Mihaly Csikszentmihalyi的著作中Flow:The Psychology of Optimal Experience中被提到。在Peopleware:Productive Projects and Teams一書中,作者Tom DeMarco和Timothy Lister將流描述為“一種深層的、近乎完全的融入狀態(tài)”。流通常包括一種溫和的沉醉感并能讓你對(duì)時(shí)間的流逝毫無察覺。[1]流也可稱為沉浸式模式,進(jìn)入沉浸式購物模式的用戶,心境就會(huì)發(fā)生轉(zhuǎn)變,對(duì)于網(wǎng)站推薦的衣服本身要求就將變得更加嚴(yán)苛。用戶目標(biāo)與動(dòng)機(jī)明確的設(shè)計(jì),是產(chǎn)品最該被列入首要的主題。
用戶在購買時(shí),從購物心理學(xué)的角度來講分為:無意識(shí)購物、購物環(huán)境潛移默化、消費(fèi)者固有的慣性思維中心等。簡(jiǎn)單來說,用戶在購物的時(shí)候大多處于一種盲目的狀態(tài),如以下網(wǎng)購流程簡(jiǎn)述:正常的網(wǎng)上購物行為應(yīng)該粗略分為以下12步:想要購買衣服、不同應(yīng)用中探尋、有喜歡的、看價(jià)格、價(jià)格合適、鏈接、看圖片服飾細(xì)節(jié)、看店家信譽(yù)、看已購買用戶評(píng)價(jià)、(思考是否合適自己、聯(lián)想自己的已有服飾的搭配)、是否是7天無理由退還貨物店、加入購物車、(再次思考猶豫)、購買。
在網(wǎng)上購物不同于現(xiàn)實(shí)購物,所看即所得,只要上身好看就可以直接購買。網(wǎng)購時(shí),購買的12步中,我們其實(shí)從第3步就已經(jīng)開始有了購買的欲望,但是到最終的購買我們還要?dú)v經(jīng)很多的評(píng)斷時(shí)間。問題在于我們對(duì)于物品的不信任,對(duì)于自己的不了解,更加重要的是對(duì)于自己的衣櫥沒有一個(gè)整體概覽。很多18~25歲的“小白用戶”人群想要尋求變化,找到自己的特點(diǎn)穿出個(gè)性,盲目地推薦她們下載時(shí)尚導(dǎo)購類的應(yīng)用,只會(huì)叫她們更加的舉步維艱。
解鈴還須系鈴人,問題的根本要從用戶自身尋找,要使用戶自己了解自己。服裝搭配不僅僅是肉體和布料間的疊加,而是有關(guān)色彩、材質(zhì)、款型、身高體重、臉型等因素組成,個(gè)性化推薦也是基于此。個(gè)性化推薦的專家系統(tǒng),首先是要在大量的數(shù)據(jù)基礎(chǔ)之上,運(yùn)用人工智能的技術(shù)完成。
專家系統(tǒng)(Expert System,ES)亦稱為專家咨詢系統(tǒng),它是一種具有大量專門知識(shí)與經(jīng)驗(yàn)的智能計(jì)算機(jī)系統(tǒng)。它把專門領(lǐng)域中人類專家的知識(shí)和思考解決問題的方法、經(jīng)驗(yàn)和訣竅組織整理且存儲(chǔ)在計(jì)算機(jī)中,不但能模擬領(lǐng)域?qū)<业乃季S過程,而且能讓計(jì)算機(jī)如同人類專家那樣智能地解決實(shí)際問題。“專家系統(tǒng)”指擁有某個(gè)或某些專門領(lǐng)域相當(dāng)數(shù)量的專家級(jí)知識(shí),并且能夠在運(yùn)行過程中不斷地增長(zhǎng)新知識(shí)和修改原有知識(shí),從總體上達(dá)到專家水平。由于專家系統(tǒng)是基于知識(shí)的系統(tǒng),那么,建造專家系統(tǒng)就涉及知識(shí)獲取(從人類專家那里或從實(shí)際問題那里搜集、整理、歸納專家級(jí)知識(shí)),知識(shí)的組織與管理,知識(shí)庫建立與維護(hù),知識(shí)的利用等。本文中所描述的基于專家系統(tǒng)的個(gè)性化穿搭應(yīng)用推薦猜想,也是從搜集專家級(jí)的知識(shí)開始,以下會(huì)從視覺上最先感知的顏色開始,推導(dǎo)出我們的個(gè)性化穿搭推薦的專家系統(tǒng)。[2]
服飾搭配中最為吸引人眼球的是整體的顏色。首先,要確立用戶膚色的大致劃分,以便找到適合自己的服裝風(fēng)格顏色。例如,皮膚比較偏向棕色的女生,可能由于更加崇尚健康常曬太陽,比較適合活躍的熒光色,色彩飽和度高的色彩;皮膚比較白皙的女生,比較適合暖色。顏色確定后,我們通過顏色的劃分和歸類,可以導(dǎo)向服飾搭配中的風(fēng)格分類。根據(jù)各大電商的風(fēng)格分類總結(jié),可以將服飾風(fēng)格劃分為4種大類:女性化、中性化、個(gè)性化、大眾化。根據(jù)色彩的關(guān)聯(lián),能夠很快地定位用戶的方向,每次向用戶推薦2種風(fēng)格,其中可變更風(fēng)格1種(女性化、中性化、個(gè)性化任選其一)。更換一種大風(fēng)格則相應(yīng)的推薦另外兩種可變更風(fēng)格之一;替換一種大風(fēng)格下的小趨向,可從新獲得2種小趨向風(fēng)格。
不做硬性的推薦,而是感情化的給予建議,如同你的購物閨蜜一般。這樣的推薦來源于用戶自身真實(shí)的個(gè)體特征資料,通過猜風(fēng)格的形式和用戶產(chǎn)生第一次的互動(dòng),讓用戶不會(huì)有被迫的感覺。這樣的個(gè)性化推薦,大大減少了用戶尋找想要服飾的時(shí)間,并且在每次用戶操作過后,系統(tǒng)將會(huì)更加了解用戶心里的欲求購買物品,可以更加準(zhǔn)確的推薦給用戶。每種大風(fēng)格下面的服飾搭配,所用的單品總是共10種,包括包、配飾等配件,10種搭配衍生出7種整體符合大風(fēng)格的造型。這就是我們想要強(qiáng)調(diào)的收斂型。不是夸張地叫你總是購買新衣服,而是有節(jié)制的從需求、適合、喜歡,三種不同層級(jí)出發(fā)收斂,以幫助用戶不會(huì)穿錯(cuò)的基礎(chǔ)上提高20%的心意,打造潮級(jí)平凡的搭配效果。
每款推薦的搭配都是在一定價(jià)格范圍之內(nèi)。根據(jù)18~25歲用戶的經(jīng)濟(jì)水平,每套服裝搭配都應(yīng)該有其應(yīng)用的價(jià)格傾向,適合“小白用戶”的更加細(xì)分的人群。在校園中,大部分的經(jīng)濟(jì)來源都是父母的支持,我們應(yīng)該樹立良好的價(jià)值觀,不應(yīng)過度消費(fèi)。
每款推薦的搭配單品可以通過拍照的方式進(jìn)行替換,合理的利用現(xiàn)有服飾,搭配出相同的效果。本質(zhì)是現(xiàn)有衣服的重組沒有建立起來。一遍遍的試穿現(xiàn)有的服裝,在體力上用戶使用度不夠良好。所以,只要用戶輸入了現(xiàn)有的服裝,系統(tǒng)可以自動(dòng)為其匹配;或是用戶可以利用其碎片時(shí)間,完成搭配的小游戲。這種互動(dòng)可以增加用戶的搭配能力,在體驗(yàn)中尋求成長(zhǎng)。用戶的搭配知識(shí)來源于,系統(tǒng)的推薦和達(dá)人用戶的服飾街拍樣例。每一次用戶自我的搭配還可以分享給其他用戶,通過評(píng)分的機(jī)制,增加整個(gè)使用過程中的游戲性,讓搭配成為一種誰人都可以做好的事情。達(dá)人的服飾展示不僅可以作為服飾搭配的知識(shí)來源,還可以作為“小白用戶”的匹配樣板。根據(jù)“小白用戶”最開始的個(gè)體體征數(shù)據(jù),可以找到資料相當(dāng)?shù)倪_(dá)人,作為參考樣板。
通過這樣的專家系統(tǒng)化的個(gè)性化推薦設(shè)計(jì),不僅可以減少用戶在尋求購買時(shí)的時(shí)間成本,最重要的可以幫助“小白用戶”完成自我探尋的第一步,開啟了他們的服飾搭配敲門磚。購物只需三步:選擇――喜歡――購買。個(gè)性化推薦的關(guān)鍵就是在幫助用戶,在一定的預(yù)算范圍之內(nèi),完成最大化的個(gè)性服飾搭配,并解決最快的購買流程?;趯<蚁到y(tǒng)的個(gè)性化推薦設(shè)計(jì),想要做的就是平衡“個(gè)人偏好”與“實(shí)際獲得”之間的距離,讓用戶最終買到的東西盡可能的貼近用戶心里欲求的。
參考文獻(xiàn):
[1] Alan Cooper(美),等.About Face3交互設(shè)計(jì)精髓[M].劉松濤,等,譯.電子工業(yè)出版社.
Abstract: This paper aims at college learning resources information surplus problem and failure in personalized resources recommendation for learners. In view of the research enlightenment of e-commerce personalized recommendation model, this paper tries to apply collaborative filtering technology to college learning resources for personalized recommendation technology research. This paper analyzes the types of collaborative filtering technology personalized recommendation system and the project-based recommendation system model process, and finally analyzes the application process of collaborative filtering technology in the college learning resources combined with case analysis and proposes the improvement method in view of the problems existing in collaborative filtering algorithm.
關(guān)鍵詞:學(xué)習(xí)資源;協(xié)同過濾算法;個(gè)性推薦
Key words: learning resources;collaborative filtering algorithm;recommendation
0 引言
隨著大數(shù)據(jù)時(shí)代到來,信息無限膨脹,目前高校網(wǎng)絡(luò)學(xué)習(xí)資源平臺(tái)不斷完善以及使用系統(tǒng)讀者越來越多,海量數(shù)據(jù)資源,使得高校師生在平臺(tái)搜索資源效率急劇下降,面對(duì)大量的搜索結(jié)果信息常常無法快速而精準(zhǔn)選擇到有用信息。目前用戶在學(xué)習(xí)資源平臺(tái)查找學(xué)習(xí)資料主要通過搜索技術(shù),最經(jīng)常使用的是關(guān)鍵字搜索,這種被動(dòng)式搜索無法根據(jù)用戶偏好特征主動(dòng)推送客戶感興趣學(xué)習(xí)資源,影響客戶選擇價(jià)值資源效率。個(gè)性化推薦技術(shù)應(yīng)用正解決了傳統(tǒng)被動(dòng)式檢索問題,個(gè)性化推薦系統(tǒng)正是一種嶄新的智能個(gè)性化信息服務(wù)方式,它以客戶需求為導(dǎo)向,或通過對(duì)用戶個(gè)性特征、行為習(xí)慣、個(gè)人偏好的等個(gè)性化特征分析,精準(zhǔn)地向用戶推送感興趣的信息和服務(wù)的推薦技術(shù)。鑒于此,文章系統(tǒng)描述了個(gè)性推薦系統(tǒng)技術(shù)以及其工作原理。
1 協(xié)同過濾推薦技術(shù)概述
2 協(xié)同過濾推薦技術(shù)算法實(shí)現(xiàn)過程
針對(duì)高校學(xué)習(xí)資源,比較適合采用基于項(xiàng)目協(xié)同過濾技術(shù),基于項(xiàng)目之間相似度計(jì)算可以離線進(jìn)行,這個(gè)提升了用戶對(duì)系統(tǒng)響應(yīng)速度。而且不同客戶共同購買的商品數(shù)比較小,所以商品之間計(jì)算相似度,速度會(huì)更快。協(xié)同過濾個(gè)性推薦系統(tǒng)實(shí)現(xiàn)過程主要包括三個(gè)不部分,第一是收集數(shù)據(jù)源,第二是計(jì)算產(chǎn)品或用戶相似推薦算法,第三是推薦用戶或推薦產(chǎn)品。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對(duì)象模型中的特征信息匹配,同時(shí)使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選,找到用戶可能感興趣的推薦對(duì)象,然后推薦給用戶。如圖1所示。
2.1 信息源收集
高校學(xué)習(xí)資源,主要包括圖書,文獻(xiàn),雜志,論文等,圖書館保存有學(xué)生和教師借閱圖書和文獻(xiàn)記錄,則可以篩選字段學(xué)生id和書名或者圖書id等信息,用戶對(duì)圖書資源評(píng)分,轉(zhuǎn)換如表1,0表示未借閱,1表示已借閱。
2.2 計(jì)算產(chǎn)品推薦相似度
計(jì)算相似度是協(xié)同過濾技術(shù)最核心步驟,計(jì)算產(chǎn)品與產(chǎn)品之間相似度,是通過用戶i對(duì)產(chǎn)品j,共同評(píng)分所有資源集合,即獲得用戶-資源評(píng)分矩陣表。然后通過余弦相似度相似性度量方法來計(jì)算產(chǎn)品相似度。
將向量根據(jù)坐標(biāo)值,繪制到向量空間中。求得他們的夾角,并得出夾角對(duì)應(yīng)的余弦值,此余弦值就可以用來表征,這兩個(gè)向量的相似性。夾角越小,余弦值越接近于1,它們的方向更加吻合,則越相似。
計(jì)算機(jī)操作系統(tǒng):Cos12=0.67;Cos13=0.67;Cos14=0;
2.3 獲得項(xiàng)目-項(xiàng)目相似表
通過兩表差集,過濾重復(fù)條目,得出以下結(jié)果,如表2。
選擇余弦值相似度比較高設(shè)置過濾余弦相似度小于0.6的條目,則最后得到滿足條件是2條,如表3。
2.4 關(guān)聯(lián)原表對(duì)讀者產(chǎn)生推薦
3 協(xié)同過濾算法缺陷以及解決方法
3.1 數(shù)據(jù)稀缺問題
由于圖書資源數(shù)量比較多,而且讀者是比較少的,對(duì)資源評(píng)分只是一小部分,那么會(huì)導(dǎo)致讀者-資源評(píng)分矩陣數(shù)據(jù)將會(huì)是稀疏的。數(shù)據(jù)稀疏,難以產(chǎn)生產(chǎn)品相似集。針對(duì)稀缺矩陣問題,在實(shí)踐中可以采用多種方法解決,方法一,可以通過標(biāo)簽系統(tǒng)方式,把未評(píng)分的圖書給它打上標(biāo)簽。而這個(gè)標(biāo)簽是可以參考已有評(píng)分資源的。方法二,可以通過人為的,專家打分。方法三,可以設(shè)置默認(rèn)缺省值來代替(可以取資源評(píng)分的均值)。方法四,可以通過項(xiàng)目評(píng)分預(yù)測(cè)法,通過計(jì)算資源條目之間的相似性,讀者對(duì)相似項(xiàng)目評(píng)分來預(yù)測(cè)讀者對(duì)未評(píng)分項(xiàng)目的評(píng)分[8]。
3.2 冷啟動(dòng)問題
對(duì)于新讀者而言,由于他沒有借閱過任何圖書,系統(tǒng)中沒有該讀者任何訪問或者借閱記錄,所以系統(tǒng)無法為其找相似鄰居集,而不進(jìn)行推薦。對(duì)新的資源也是如此,無任何用戶對(duì)該資源進(jìn)行評(píng)分,無資源評(píng)分記錄,就無法被協(xié)同過濾算法進(jìn)行推薦。針對(duì)冷啟動(dòng)問題,可以將新資源屬性與其他有評(píng)分資源進(jìn)行聚類分析,新資源所屬的類的特征以及評(píng)分值大小,可以將類中評(píng)分值設(shè)置為新資源評(píng)分。
4 結(jié)語
協(xié)同過濾個(gè)性化推薦系統(tǒng)應(yīng)用在高校學(xué)習(xí)資源平臺(tái)進(jìn)行,對(duì)于高校師生高效積累學(xué)習(xí)資源和提升學(xué)習(xí)效果具有重要意義。
①實(shí)現(xiàn)了精準(zhǔn)推薦服務(wù)不僅可以提高學(xué)習(xí)個(gè)體學(xué)習(xí)興趣,還可以提供服務(wù)質(zhì)量,可以有效的保留用戶,提高對(duì)平臺(tái)應(yīng)用忠誠(chéng)度,有助于學(xué)習(xí)資源平臺(tái)發(fā)展優(yōu)化建立人氣。②如果高校學(xué)習(xí)平臺(tái)具有電子商務(wù)功能提高電子商務(wù)網(wǎng)站的交叉銷售能力,并將且在的瀏覽者轉(zhuǎn)化購買者。比如在平臺(tái)中增加二手圖書購買,若借用個(gè)性推薦系統(tǒng),不僅提升用戶體驗(yàn)滿意度而且促進(jìn)購買。
參考文獻(xiàn):
[4]鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2003.
[5]王永固,邱飛岳,趙建龍,劉暉.基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦研究[J].遠(yuǎn)程教育雜志,2011,3.