時間:2022-02-16 13:45:48
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘技術論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
1.1安全技術資金不足
煤炭的持續開采會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,并且維修量非常大。隨著礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。
1.2安全管理模式傳統
與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。并且人力、財力非常缺乏,某些重大的安全技術問題,比如沖擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落后。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富余參數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動并且精確度很低。信息傳送的時間較長,且速度較慢,管理者的工作重復性很大,資料查詢十分困難,并且工作效率很低。安全檢查以及等級鑒定等總是憑借主觀意念以及相關的經驗。
1.3安全信息管理體制不健全
安全信息可以說是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衛生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和咨詢、決策的體系。信息體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處于起步與摸索階段,并未呈現出健全的體制,真正的使用還有待進一步的發展。
2空間數據挖掘技術
數據挖掘研究行業的持續進展,開始由起初的關系數據以及事務數據挖掘,發展至對空間數據庫的不斷挖掘。空間的信息還在逐漸地呈現各類信息體制的主體與基礎。空間數據挖掘技術是一項非常關鍵的數據,具有比普通關系數據庫和事務數據庫更豐富、復雜的相關語義信息,且蘊含了更豐富的知識。所以,雖說數據的挖掘最初是出現在關系數據挖掘以及事務的數據庫,不過因為空間數據庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的數據挖掘類研究工作都是從關系型以及事務型數據庫拓展至空間數據庫的。在地學領域中,隨著衛星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的數據采集與儲存在較大空間數據庫中,大量的地理數據已經算是超過了人們的處理能力,并且傳統的地學分析很難在這些數據中萃取并發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。數據挖掘以及知識發現的產生能滿足地球空間的數據處理要求,并推進了傳統地學空間分析的不斷發展。依據地學空間數據挖掘技術的特性,把數據挖掘的方式融進GIS技術中,呈現地學空間數據挖掘技術和知識發展的新地學數據分析理念與依據。
3煤礦安全管理水平的提升
3.1建設評價指標體制庫
評價指標體制庫是礦井的自然災害危害存在的具體參數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別參數關鍵是采掘工程的平面圖動態開采面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。
3.2構建專業的分析模型庫
依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據采掘工程的平面圖動態呈現的采掘信息以及相應的瓦斯分區構建關聯并實行相應的比較分析,確定可以采集區域未來的可采區域是不是高瓦斯區域。
3.3構建以GIS空間分析為基礎的方法庫
GIS空間分析可以說是礦井自然災害的隱患高度識別的關鍵性方式,并且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩沖區域的分析得到。空間的統計分析以及多源信息有效擬合和數據挖掘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。
3.4決策支持體制與煤礦管理水平評價指標
體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支持體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時數據,并事實呈現礦井的自然災害數據或是信息和自然災害的指標體系庫以及模型庫與知識庫、空間數據庫的合理化比較,并運用圖形庫的數據再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報并進行決策分析,以提交空間數據的自然災害隱患識別以及分析處理的決策性報告。
4結語
關鍵詞:Web數據挖掘,邊防情報,應用模式
隨著科學技術的突飛猛進,社會信息化的快速發展, 以信息技術為主要標志的高新技術革命已經引起了社會各個領域的深刻變革,網絡已經成為社會生活不可分割的一部分。每天有數以億計的網民在互聯網上瀏覽、信息,互聯網已經成為信息時代最為重要的信息集散地。對于邊防情報部門而言,研究如何通過互聯網和公安網快速高效地進行情報收集,使各項工作都圍繞收集、運用情報而展開,已經成為當務之急。Web數據挖掘技術的興起,為邊防情報部門開展工作提供了高效的工具與手段。
一、Web數據挖掘技術
Web數據挖掘技術是由傳統數據庫領域的數據挖掘技術演變而來。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過程;它是從數據倉庫中提取出可信的、新穎的、有效的,并能被人理解的模式的高級處理過程。數據挖掘出現于20世紀80年代,它不僅面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行深入的統計、分析和推理,發掘數據間的相互關系,完成從業務數據到決策信息的轉換。數據挖掘技術把人們對數據的應用,從低層次的末端查詢提高到為決策者提供決策支持。隨著互聯網的蓬勃發展,數據挖掘技術被運用到網絡上,并根據網絡信息的特點發展出了新的理論與方法,演變成為Web數據挖掘技術。Web數據挖掘是指從與WWW有關的資源和行為中抽取人們感興趣的、有用的模式和隱含信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。Web數據挖掘已經成為對互聯網信息進行深度分析、開發與利用的重要手段。
二、Web數據挖掘的分類
(一)Web內容挖掘
Web內容挖掘是指從互聯網上檢索資源,從相關文件內容及描述信息中獲取有價值的潛在信息。根據處理對象的不同,Web內容挖掘分為文本挖掘和多媒體挖掘。網上信息形式多以文本信息的形式存在。文本可以被看作是一種順序數據,目前有許多適合于順序數據的挖掘方法。Web文本信息挖掘的主要任務一般限定在文本特征的表示、文本的總結,以及文本的分類和聚類等方面。互聯網現有大量多媒體信息。對該類信息進行分析挖掘,找出合適的描述模式,闡述并理解其中的意義,可提高該類信息的識別度及檢索效率,也是Web多媒體挖掘的目標。論文大全。目前此方面應用的技術手段主要是語音信息的理解及識別、圖形圖像信息的理解及識別,以及信息檢索等。
(二) Web結構挖掘
Web結構挖掘的目標是Web文檔的鏈接結構,目的在于揭示蘊涵于文檔結構中的信息,主要方法是通過對Web站點的結構進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。對Web頁的鏈接結構進行分類,可以識別判斷頁面與文檔間的各種屬性關系。由于Web頁的內外部存在具有各種屬性關系的結構信息,通過研究Web結構信息,可得到相關主題、相關分類的頁面集合,生成關于某個Web站點的結構和頁面結構的概括信息。因此,結構挖掘的重點在于鏈接信息。
(三) Web日志挖掘
Web日志挖掘是從服務器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,并盡可能預測用戶的行為。通過對用戶所訪問頁面、文檔等的技術分析,Web日志挖掘可以找出相關主題間、相關內容間的聯系規律。訪問分析又稱使用分析,主要使用用戶基本信息如IP、ID、URL、日期、時間等進行處理。由于Web服務器的Log日志存在完整的結構,當用戶訪問Web站點時,相關的頁面、文檔、鏈接等信息在日志中都做了相應的記錄。Web日志挖掘不僅要找出用戶經常訪問的URL路徑,而且也要找出用戶有可能要訪問的相關站點的鏈接。利用這種方法,可以獲知互聯網使用者的行為偏好。
三、Web數據挖掘的主要方法
(一)統計分析方法
統計分析(statistical)方法是通過對總體中的樣本數據進行分析,從而描述和推斷能夠揭示總體中的內部規律的信息和知識的方法。為了適應復雜信息的挖掘需求,往往依賴有明確目標和任務的概率模型。數據挖掘的統計模型要適合于所要提取的對象。利用統計分析技術可以對我們感興趣的內容進行蘊含信息的挖掘。如對互聯網日志進行統計可以獲得有關站點使用的基本信息,包括頁面訪問次數、日平均訪問人數、最受用戶歡迎的頁面等。除此以外,還可以進行錯誤分析,如非法用戶登錄等。這些統計數據都是基于用戶瀏覽頁面的時間、用戶的瀏覽路徑和路徑長度等信息。這些統計數據對于提高系統的性能、安全性以及優化站點結構大有幫助。目前已有許多互聯網流量分析工具實現了這些基本的統計功能。
(二)關聯分析方法
關聯分析(associationanalysis)用于發現關聯規則,所謂關聯規則是指在大量的數據中所隱含的項集之間的關系以及項集的頻繁模式。用戶在瀏覽網頁時,經常會在同一次訪問中瀏覽一些無順序關系的頁面集合,挖掘發現的這些頁面之間內在的聯系,就是就表現為它們之間存在一定的關聯。如果關聯規則中的頁面之間沒有超鏈接,則應該引起我們的特別關注。通常使用可信度、支持度、期望可信度和作用度這四個參數來描述關聯規則。
(三)分類方法
分類(classification)是找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。分類不同于聚類,聚類無須事先制定標準,而能從信息本身出發,利用算法自動分類;而分類的準則是事先定好的。在Web數據挖掘中,分類主要是將用戶配置文件歸屬到既定的用戶類別,網頁根據內容的屬性分類等。分類技術要求抽取關鍵屬性描述已知的信息,可以通過指導性歸納學習算法進行分類,主要包括決策樹分類法、貝葉斯分類法、最近鄰分類法等。
(四)聚類分析方法
聚類(clustering)就是將數據對象分組成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類分析能夠將一批數據按照它們在性質上的親密程度,在沒有先驗知識的情況下自動進行分類,每一類都是大量具有相似性個體的集合,不同類之間具有明顯的區別。聚類分析是一種探索性分析,在分類過程中,人們不必事先給出一個分類的標準,聚類分析能夠從信息本身出發,自動進行分類。例如在Web日志挖掘中,聚類分析主要集中于用戶聚類和頁面聚類。用戶聚類將具有相似瀏覽行為的用戶歸類;頁面聚類則是將內容相關的頁面歸類,搜索引擎可以利用這些信息為某個查詢提供用戶感興趣的相關超鏈接。
四、Web數據挖掘在邊防情報工作中的應用模式
(一)Web數據挖掘在建立公安網搜索引擎中的應用
目前,邊防情報部門所需的公開信息大部分來源于互聯網和公安網,情報人員通過使用搜索引擎來快速查詢需要的信息,然而公安網的搜索引擎存在較大局限性,搜索出來的結果存在大量冗余信息,不能滿足情報人員的需求。因此,在搜索引擎中通過借鑒Web數據挖掘技術可以有效地提高查準率和查全率,從而給情報人員提供較有準確的信息。具體應用方法如下:
1.根據公安網的頁面內容,自動形成摘要
目前,使用公安網搜索引擎進行檢索,檢索的結果文檔是以簡單摘要形式出現的,它表現為機械地提取網頁內容取前幾句為摘要,這種僅通過位置進行自動摘要是很難真正反映出網頁中的信息內容。論文大全。在文本挖掘中的文本抽取技術是指從文檔中抽取出關鍵信息,然后以簡潔的形式對文檔的信息進行摘要或描述,即文本抽取技術是根據Web文檔本身的內容,從Web頁中提煉出重要信息形成文檔摘要,而不是根據位置來進行文本內容的概括,因此它更能夠反映出Web文檔中的真正信息。論文大全。這樣,情報人員通過瀏覽關鍵詞就可以了解網頁的大致內容,從而決定是否使用該信息。
2.根據檢索結果,自動進行文檔聚類
文本聚類是文本分類的逆向過程,是指將文檔集中的文檔分為更小的簇,要求同一簇內文檔之間的相似性盡可能大,而簇與簇之間的關系盡可能小,這些簇相當于分類表中的類目。情報人員在使用搜索引擎時,會得到大量的返回信息組成的線性表,而其中很大一部分是與其查詢請求不相關的,于是通過對檢索結果的文檔集合進行聚類,可以使得與用戶檢索結果相關的文檔集中在一起,并遠離那些不相關的文檔。再將處理以后的信息以超鏈接結構組織的層次方式可視化地提供給情報人員,從而大大減短瀏覽時間。
(二)Web數據挖掘在建立公安網站中的應用
公安網網站是公安網信息的容納處,我們可以利用Web數據挖掘技術有效地組織網站信息,建立一個資源優化的網站,也就是說通過對網站內容的數據挖掘,主要是對文本內容的挖掘,如采用自動歸類技術實現網站信息的層次性組織;以及結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,開展網站信息推送服務。
1.采用自動歸類技術,實現公安網網站信息層次化
一般而言,網站提供給訪問者的信息和服務應該是按優先次序進行排列,網站維護人員應該把重要的信息放在醒目的位置,因此在網站維護時,通過對網站內容挖掘和Web日志挖掘,可以有效地組織網站信息。例如:采用自動歸類技術實現網站信息層次化;分析訪問者的訪問行為,可為用戶提供智能化、個性化服務。還可根據訪問者的訪問興趣、訪問頻度、訪問時間,動態地調整頁面結構。
2.采用日志挖掘技術,實現公安網網站信息推送服務
網站可以根據訪問者的瀏覽情況,發現訪問者的興趣,定期為注冊用戶提供相關信息,并且調整網站中網頁的鏈接結構和內容,為訪問者提供個人定制服務。具體步驟為:首先將日志文件中的數據經過預處理,形成原始數據庫;然后獲取用戶的訪問模式,放入用戶訪問模式數據庫;再通過數據挖掘和模式分析形成知識數據庫,Web服務器自動更新知識數據庫,采用動態主頁設計方法,根據用戶的知識信息,提供相應的個性化主頁。在數據預處理過程中會話識別是重要的一步,它取決于用戶訪問模式的有效性和準確性。為提高準確性,可采用Cookie法進行會話識別。在呈現個性化主頁時,利用用戶的IP地址和Cookie值查詢知識數據庫,發現用戶頻繁訪問的路徑,并自動形成相應鏈接,根據相似用戶群和相關Web頁推薦給用戶。由于是經過挖掘和分析后所產生的動態主頁,相對于一般的主頁,其針對性更強,更受用戶的歡迎。
參考文獻:
[1]葉鷹.情報學基礎教程[M].科學出版社,2006
[2]栗湘等.Web挖掘應用研究[J]情報理論與實踐,2005,(6)
[3]曼麗春等.Web數據挖掘研究與探討[J].現在電子技術,2006,(8)
[4]徐險峰.基于Web的網絡數據挖掘技術[J].情報雜志,2005,(3)
關鍵詞:推薦系統;云計算;數據挖掘;個性化
中圖分類號:TP393 文獻標識碼:A DOI:10,3969/J.issn.1003-6970.2013.03.001
本文著錄格式:[1]郭平,劉波,沈岳,農業云大數據自組織推送關鍵技術綜述[J].軟件,2013,34(3):1-6
0 引言
隨著物聯網、云計算、下一代互聯網等新一代信息技術的快速發展和信息內容的日益增長,“信息過載”問題愈來愈嚴重,推薦系統(recommender systems)被認為可以有效的緩解此難題,幫助用戶從海量數據中發現感興趣信息,滿足個性化需求。
近年來,我國在農業個性化知識服務服務領域從本體論、語義網、知識工程角度開展了廣泛的研究,成果主要體現在三個方面:以搜索引擎為代表的知識檢索系統,需回答大量預設問題進行知識推理的專家系統,特定領域應用系統,它們在各自的場合都發揮了積極作用。然而知識檢索系統不能滿足用戶個性化需求,專家系統的應用很難普及,特定領域應用開發成本高和重用難度大。物聯網與數據挖掘云服務提供知識服務云實現物理世界的“感知控”,知識服務云的研究主要集中在制造和圖書情報領域,云環境下的農業個性化知識服務的研究尚處于起步階段,主要集中在服務模式的構建與展望。
本文是對科技部科技支撐課題“農村農業信息化關鍵技術集成與示范”(2011BAD21803)與“農村物聯網綜合信息服務科技工程”(2012BAD35800)研究成果的總結,也是對農業云推薦系統研究的升華。
1 農業云大數據自組織區域推送的提出
1.1 農業信息資源特點
我國自“十一五”時期以來,農業農村信息化發展取得了顯著成效,主要表現在農業農村信息化基礎設施不斷完善、業務應用深入發展、物聯網技術在農業中逐步推廣應用等方面。從中央到省,市、縣建立了“三農”綜合信息服務平臺,涉農企業、組織和科研院所也積極搭建了各具特色的農業信息服務平臺,目前正向鄉鎮村發展。農村信息員隊伍及以農業綜合信息服務站和農業合作社為代表的農村信息服務機構發展迅速,“三電合一”、“農民信箱”、“農村熱線”等信息服務模式應用深入。云計算利用海量的存儲能力把農業信息資源形成高度集成和虛擬化的計算資源一“農業知識聚合云”,支持用戶在任意位置、使用各種終端方便獲取信息,但由于農業領域生態區域性和過程復雜性及農業區域發展不平衡和農民文化的多層次性也帶來了“信息過載”、“資源隱晦”“資源迷向”等問題。
1.2 農業云環境下大數據自組織區域推送
物聯網和云計算背后是大數據,在云計算模式下,用戶不確定的、智能的交互,個性化需求更加多元化,信息交互行為更加頻繁;在大量用戶通過社會標注達成共識的過程中,逐漸形成不同社區,涌現出群體智能,形成“農業用戶興趣社交云”。利用云的海量存儲、群體涌現智能、強大的計算能力和物聯網感知控優勢,可以提供面向用戶復雜分析計算,實現業務重點由面向應用和資源的傳統信息服務,轉變為基于對海量農業知識進行動態劃分,有目的、主動、定制、自組織推送給有需求的農業用戶,為農業用戶提供實時性、個性化知識服務,指導農業生產過程。
首先以Hadoop+MapReduce+HBaSe分布式框架為處理平臺,對“農業用戶興趣社交云”,融合用戶興趣偏好和社交網絡進行建模,將這些多元用戶信息充分融入推送系統會更好產生推薦結果;將推薦對象“農業知識聚合云”按農業知識高維性、多樣性、多層次性特征分類聚類為各種知識塊靜態和動態元數據;通過智能算法推薦和社會網絡推薦為用戶發現個性化內容;根據用戶的地理位置、用戶服務的評價以及云基礎服務提供商信息將預測值最高的服務推送給用戶實現與物理世界的互動(如圖1)。
從以上分析可知,農業云大數據自組織區域推送的關鍵技術有用戶興趣模型、推薦對象模型,推薦算法、數據挖掘四個部分,以下分別對這幾項技術進行論述。
1.2.1 用戶興趣模型
用戶興趣建模是個性化服務技術的基礎和核心,包括數據收集、模型表示、模型學習與模型更新。用戶興趣建模的方法有很多,常用的有向量空間模型、神經網絡、遺傳算法、用戶一項目評價矩陣、基于案例的表示、基于本體論的表示、基于加權關鍵詞的表示,基于社會網絡的表示等。幾乎每種表示形式都是以一種私有形式進行知識表示,此外一些表示技術還依賴于模型學習,如廣泛使用的基于向量空間模型的表示與TF-IDF學習技術聯系在一起。表示形式的私有性和對學習技術的依賴性阻礙了用戶模型在系統間的共享,這種共享對于減少用戶建模工作量,提高推薦算法啟動效率具有重要意義。因此開發獨立于模型學習技術的通用用戶模型表示技術是目前研究中熱點,基于語義網和社交網絡的用戶模型在這方面表現了優勢。
用戶的興趣或需求會隨時間、情景發生變化,結合長期和短期興趣及興趣的變化用戶興趣建模的重點,目前的更新機制很難及時跟蹤用戶興趣的變化,有更好的學習效率和動態變化適應能力的建模是未來的重要研究方向,國內外大量的文獻對此展開了研究,遺忘函數、時間窗、用戶興趣的漂移特性等被提出。
在湖南農業云中,基于呼叫中心、互聯網,手機報、手機短信,電視廣播等用戶在多應用系統中形成的興趣偏好和社交網絡特征,提出“農業用戶興趣社交云”建模思路:以圖論模型表示用戶“興趣圖”數據和“社交圖”數據,根據經典的局域世界演化理論,綜合考慮實際情況中用戶之間的多重關系和關系的強弱程度,以用戶之間相似度為節點連接概率因素,生成動態多維網絡,進行用戶數據的挖掘和更新;結合農業本體,在多維社交網絡的基礎上,將基于農業本體的區域用戶興趣融合在云計算平臺上進行處理。
1.2.2 推薦對象模型
推薦本質上是將推薦對象的特征與用戶的興趣偏好進行推薦計算,所以推薦對象的描述和用戶的描述密切相關。推薦系統應用不同領域,它推薦的對象也就各不相同,目前,湖南農業云主要是文本性數據;不同的對象,特征也不相同,目前沒有一個統一的標準來進行統一描述,主要有基于內容、分類、聚類的方法。
基于內容的方法是從對象本身抽取信息表示對象,常見的是向量空間模型,使用最廣泛的是加權關鍵詞矢量方法進行特征選取,使用TFIDF計算每個特征的權值。向量空間模型對模型中的特征詞進行權重估計(TF-IDF)過程中不考慮特征詞之間的相關性,直接用特征詞作為維度構建文檔向量,降低了文檔向量對文檔概念表達的準確性以及對不同類型文檔的區分能力。
基于分類的方法是把推薦對象放入不同類別,把同類文檔推薦給對該類文檔感興趣的用戶。主要有兩種,一種是基于知識工程的方法,使專家的類別知識直接編碼為分類規則,正確率和召回率高,但工作量大;近期研究最多的是另一種一機器學習,根據訓練樣本集建立分類器,方法有很多,常見的有概率分類、貝葉斯回歸分析、決策樹分類器、決策規則分類器、Rocchio分類器、神經網絡分類器、支持向量機(SVM)、分類器融合、Boosting分類器、k最近鄰方法(KNN)等。
研究文本聚類的最初目的是為了提高信息檢索的查全率和查準率,近年來,文本聚類用于自動產生文本的多層次的類,并利用這些新生成的類對新文本進行效率較好的歸類,已經提出了大量的文本聚類算法。傳統的聚類算法在處理高維和海量文本時效率不很理想。針對這樣的問題,將聚類分析與計算智能理論,并行計算、云計算等相結合,設計出高效的并行聚類算法,己經成為一個比較流行的研究思路。
在湖南農業知識云數據模型中,將能更好反映特征詞相關性的超圖模型引入,將文檔中提取的特征項表示為圖中節點,特征詞條之間的關系構成圖中邊,用邊上權值表示相關聯特征項之間共現程度。通過對文本圖模型K最近鄰劃分實現降維降噪的粗粒度數據切片;對切片后數據反映用戶興趣如地域、時間、訴求等多維度特征的智能聚類,實現細粒度的聚合與分割。
“農業知識聚合云”模型算法建立在基于MapReduce處理的大規模圖上,得到各種知識塊靜態和動態元數據。
1.2.3 推薦算法
推薦算法是整個推薦系統中核心部分,大量的論文和著作都關注了這個方面。目前,基本包括以下幾種:基于內容過濾推薦、協同過濾推薦、基于關聯推薦、基于知識推薦、基于效用推薦、基于網絡結構推薦、基于聚類推薦、基于社會網絡分析推薦、混合型推薦等。通過對眾多推薦算法進行比較分析,各種算法都有優缺點(如表1):
各種推薦方法都有各自的優缺點,在實際問題中采用多種策略進行混合推薦,主要有兩種混合思路:推薦結果混合和推薦算法混合。目前大部分的推薦算法都是混合推薦算法,主要還是以協同理論為核心,再配合其他算法的優點或交叉學科的理論來改善推薦的質量。另外基于社會網絡個性化推薦算法研究是一個趨勢,基于社會網絡的推薦是協同過濾的延伸,通過考察結點之間(用戶和用戶之間或產品之間)的相關性和結點之間的信任度可以獲得比一般協同推薦更高推薦效果,如文獻提出將社會網絡關系結合到推薦算法中。縱觀國內外在推薦算法上的研究,主要集中在基于用戶顯性評分數據的協同過濾算法上,對基于非顯性評分行為數據場景下的研究卻顯得有點不足。目前在擴展性問題上學術研究不是很具有針對性,主要集中在通過各種交叉學科中的方法來對用戶進行聚類或對行為數據進行降維、壓縮等縮短推薦的項目集或減少計算量,從而提升算法的性能;有關基于云平臺上的推薦算法研究目前主要集中于協同過濾算法MapReduce化。而實際應用中,己出現利用分布式集群解決算法擴展性方法,如Google News的推薦算法就是部署在分布式環境下,從而滿足海量數據下的推薦服務。
根據農業云大數據自組織區域推送實際情況將推薦結果和推薦算法混合,提出“三層推薦”策略:在豐富的知識塊云元數據基礎上,將知識塊屬性和用戶興趣行為基于頻繁模式的知識關聯撮合推薦;通過復雜網絡聚類算法識別一個用戶多個社區興趣,融合“興趣圖”和“社交圖”協同過濾推薦,突破算法推薦的局限性,讓用戶信任的朋友圈子為其發現和推薦內容,取得社交推薦的時效性和算法推薦的長尾性之間的互補,從而針對每個社區成員提供精準個性化推薦;根據基礎設施服務供應商、用戶所在的地理位置以及用戶對服務可用性評價值的相似性等,將大量用戶云終端聚類為一定數量的社區,提高云端推送服務的有效性,最終形成通過大眾參與,支持云間變換,集電信網、廣播電視網、互聯網合一的自組織區域推送,較有效地處理一般推薦算法中存在的稀疏性、冷啟動以及大規模實時計算的問題。
1.2.4 云計算下個性化數據挖掘
數據挖掘采用了多種領域中的思想,包括來自統計學的抽樣、估計、假設檢驗以及人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。隨著數據挖掘的不斷發展,也采用了包括最優化、進化計算、信息論、信號處理、可視化、信息檢索、云計算、并行計算等技術。與傳統的數據挖掘相比,云計算下的個性化數據挖掘的目標,就是通過云計算中心,向用戶提供針對其即時演化需求的數據挖掘SaaS(Software as aService,軟件即服務)服務,其基礎問題主要為:對于用戶不同的數據挖掘需求以及針對用戶特點進行個性推薦的建模和表征;數據挖掘算法適應云計算的并行分布式化;使數據挖掘的結果和算法能夠支持云間變換并形成一種面向用戶、即時組合的、變粒度的云服務,其中數據挖掘的云服務化是研究的難點。
(1)云計算下個性推薦的建模和表征
云下的個性推薦建模和表征與傳統上個性化推薦明顯的不同在于海量異構大數據和用戶間群體涌現的社交網絡,它們本質上形成了多個頂點的大規模圖。云計算可以為大規模個性化提供技術支撐,云服務本身也有大規模個性化定制應用需求,目前研究兩者結合的文獻還很少,張澤華從計算資源的角度基于復雜系統理論對云計算聯盟體系結構進行建模,并基于蟻群優化算法和復雜系統理論進行了負載均衡研究;郭昱就有效處理客戶需求信息該如何選擇與分布云計算平臺中的關鍵節點問題,提出了基于云計算的大規模定制客戶需求模型。趙東杰對復雜網絡、數據挖掘與群體智能有效結合進行了探索研究。農業云大數據自組織推送通過“農業知識聚合云”分解的靜態、動態知識元數據和“農業用戶興趣社交云”形成的興趣圖、社交圖基于用戶行為和知識元數據的關聯撮合,通過人工智能和社交圈子幫助用戶發現內容,實現搜索和推薦的無縫結合,為智能個性化推薦實現“內容找人”愿景。
(2)算法并行分布式與高性能計算
對于大規模數據的處理,典型系統結構大致分為三類:基于MapReduce模型的分布式并行處理系統、基于BSP模型的分布式并行處理系統和分布式圖數據庫系統。數據挖掘算法現在的發展趨勢是基于云計算的并行數據挖掘,它的同一個算法可以分布在多個節點上,多個算法之間是并行的,多個資源實行按需分配,而且分布式計算模型采用云計算模式,數據用DFS或者HBASE,編程模式采用MapReduce這種方式。Bhaduri等整理了一個十分詳盡的并行數據挖掘算法文獻目錄,包含了關聯規則學習、分類、聚類、流數據挖掘四大類分布式數據挖掘算法,同時還包括分布式系統、隱私保護等相關的研究工作。
2 基于云計算推薦系統研究的重點、難點與熱點
2.1 云環境下用戶偏好獲取安全與可信問題
推薦系統中,用戶數據集的數量和質量問題,影響用戶模型的精確度、可用性,導致問題的根本原因在于用戶對隱私和安全的考慮。而云環境下,數據的安全與隱私是用戶非常關心的問題。既能得到準確用戶信息而提高推薦系統性能,又能有效保護用戶信息同時檢測并能預防推薦攻擊(一些不法的用戶為了提高或降低某些對象的推薦概率,惡意捏造用戶評分數據而達到目的)將是未來推薦系統的一個重要研究方向。
2.2 模型過擬合問題
過擬合現象是指系統推薦給用戶的對象與用戶剛剛看過的不是太相似或者太不相關。過擬合(過學習)的問題本質上來自于數據的不完備性,這在實際應用中是無法完全避免的。在于興趣偏好獲取方式或隱私等原因使用戶沒有對足夠多類別的對象進行評價。目前解決的主要方法是引入隨機性,使推薦算法收斂到全局最優或者逼近全局最優,關于既要保證推薦的多樣性,又不能與用戶看過的對象重復或毫不相關這一問題的研究是推薦系統研究的一個難點和重點。
2.3 稀疏性與冷啟動問題
稀疏性和冷啟動問題困擾推薦系統很長時間了,前者的解決辦法主要過濾和降維。目前針對冷啟動問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統協同過濾的評分數據結合特定的方法進行解決,二是新用戶或新項目的內容屬性信息與傳統的協同過濾評分數據相結合的方法進行改善冷啟動問題。稀疏性與冷啟動問題一直是推薦系統研究的一個難點和重點。
2.4 數據挖掘的結果和算法智能服務化
將數據挖掘算法融入針對海量用戶的使用記錄和計算資源間協作進行優化組合,利用這些特性通過大眾參與的交互作用,提高云間服務的智能性、有效性將是大數據時代推薦系統研究的一個制高點。將數據挖掘任務及其實現算法服務化,通過SaaS方式向云計算中心索取所需的相應的數據挖掘,這可能是目前突破數據挖掘專用軟件使用門檻過高、普通大眾難以觸及、企業用戶使用成本太大、挖掘算法和結果難以實時得到評價和相應修改等問題的最有希望的解決方案之一,也是數據挖掘走向互聯網大眾、走向實用化的重要的一步。
2.5 大數據處理與增量計算問題
目前對大數據的研究仍處于一個非常初步的階段,半結構化和非結構化數據給傳統的數據分析帶來巨大挑戰,尤其算法如何快速高效地處理推薦系統海量和稀疏的數據成為迫在眉睫的問題。當產生新的數據時,算法的結果不需要在整個數據集上重新進行計算,而只需考慮增量部分,對原有的結果進行微調,快速得到準確的新結果,是增量計算的理想狀態。但一般而言,隨著信息量的增多,算法的誤差會累積變大,最終每過一段時間還是需要利用全局數據重新進行計算。一個特別困難的挑戰是如何設計一種能夠保證其誤差不會累積的算法,也就是說其結果與利用全部數據重新計算的結果之間的差異不會單調上升,要達到這種程度,還有很長的路要走。
結束語:
隨著新一代信息技術的快速發展和信息內容的日益增長,搭載在云計算平臺的自組織區域推送具有它天然的優勢:云的海量存儲使得推薦系統能有效獲取訓練數據;云的分布式計算能力提供了較高的響應能力;海量用戶的使用記錄和計算資源問大眾參與的交互涌現,最終形成自組織優化組合的智能個性化云推送。因此,農業云自組織區域推送具有重要的研究意義和廣闊的應用前景,對云環境下其他領域的個性化推送應用具有借鑒意義,但目前存在大量問題需要進行深入細致的研究。
參考文獻
[1]孟祥武,胡勛,王立才,張玉潔,移動推薦系統及其應用[J],軟件學報,2013,24(1):91-108
[2]楊濤,基于本體的農業領域知識服務若干關鍵技術研究[D],上海:復旦大學計算機科學技術學院博士論文,2011,1-50
[3]楊曉蓉,分布式農業科技信息共享關鍵技術研究與應用[D],北京:中國農業科學院博士學位論文,2011,3-35
[4]趙春江,農業智能系統[M],北京:科學出版社,2009,1-210,
[5]何清,物聯網與數據挖掘云服務[J],智能系統學報,2012,7(3):1-5,
[6]黃衛東,于瑞強,共享學習模式下知識服務云平臺的構建研究[J],電信科學,2011,12:6-11
[7]丁靜,楊善林,羅賀,丁帥,云計算環境下的數據挖掘服務模式[J],計算機科學,2012,39(6):217-219,237
[8]鄧仲華,錢劍紅,陸穎雋,國內圖書情報領域云計算研究分析[J],信息資源管理學報,2012,2:10-16
[9]胡安瑞,張霖,陶飛,羅永亮,基于知識的云制造資源服務管理[J]同濟大學學報(自然科學版),2012,40(7):1093-1101
[10]程功勛,劉麗蘭,林智奇,俞濤,面向用戶偏好的智能云服務平臺研究[J],中國機械工程,2012,23(11):1318-1323,1336
[11]劉波,方逵,沈岳,可重構的農業知識服務模式研究[J]農機化研究,2011,36(11):66-70
[12]趙星,廖桂平,史曉慧,陳誠,李文圃,物聯網與云計算環境下的農業信息服務模式構建[J],農機化研究,2012,4:142-147
[13]郭永田,中國農業農村信息化發展成效與展望[J],電子政務,2012,02-03:99-106
[14]李道亮,中國農業農村信息化發展報告(2011)[M],北京:電子工業出版,2012,87-150
[15]錢平,鄭業魯,農業木體論研究與應用[M],北京:中國農業科學技術出版社,2006,1-100
[16]吳麗花,劉魯,個性化推薦系統用戶建模技術綜述[J],情報學報,2006,25(2):55-62
[17]李珊,個性化服務中用戶興趣建模與更新研究[J],情報學報,2010,29(1):67-71
[18]王國霞,劉賀平,個性化推薦系統綜述[J],計算機工程與應用,2012,48(7):66-76
[19]王巧容,趙海燕,曹健,個性化服務中的用戶建模技術[J],小型微型計算機系統,2011,32(1):39-46
軟件雜志歡迎推薦投稿:http:///
[20]張華清,動態多維社會網絡中個性化推薦方法研究[D],濟南:山東師范大學碩士學位論文,2012,16-31
[21]丹,面向跨系統個性化服務的用戶建模方法研究[J]_情報雜志,2012,31(6):156-161
[22]鄧夏瑋,基于社交網絡的用戶行為研究[D],北京:北京交通大學碩士學位論文,2012,4-43
[23]馬堯,基于多維用戶特征建模的個性化社交搜索引擎的設計與實現[D],廣州:華南理工大學碩士學位論文,2012,12-55
[24]陳恩紅,徐童,田繼雷,楊禹,移動情景感知的個性化推薦技術[J],中國計算機學會通訊,2013,9(3):19-24
[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487
[26]南智敏,錢松榮,引入漂移特性的用戶興趣模型優化研究[J],微型電腦應用,2012,28(3):30-32
[27]郭新明,弋改珍,混合模型的用戶興趣漂移算法[J],智能系統學報,2010,5(2):181-184
[28]程顯毅,朱倩,文本挖掘原理[M],北京:科學出版社,2010,9-45 [29]李濤,推薦系統中若干關鍵問題研究[D],南京:南京航空航天大學博士學位論文,2009,31-80
[30]姜倫,模糊聚類算法及其在中文文本聚類中的研究與實現[D],哈爾濱:哈爾濱理工大學碩士學位論文,2010,18-48
[31]馮汝偉,謝強,丁秋林,基于文本聚類與分布式Lucene的知識檢索[J],計算機應用,2013,33(1):186-188
[32]陶紅,周永梅,高尚,一種基于語義相似度的群智能文本聚類的新方法[J]計算機應用研究,2012,29(2):482-532
[33]孟海東,劉小榮,基于聚類分析的圖模型文檔分類[J]計算機應用與軟件,2012,29(1):117-174,229
[34]饒君,張仁波,東呈曉,吳斌,基于MapReduce的大規模圖挖掘并行計算模型[J],應用科技,2012,39(3):56-60
[35]于戈,谷峪,鮑玉斌,王志剛,云計算環境下的大規模圖數據處理技術[J],計算機學報,2011,34(10):1753-1767
[36]呂善國,吳效葵,曹義親,基于網絡結構的推薦算法[J]_實驗室研究與探索,2012,31(7):278-280,368
[37]周佳,羅鐵堅,一種基于內容關聯的學術資源協同推薦算法[J],中國科學院研究生院學報,2013,30(1):117-123
[38]唐曉波,張昭,基于混合圖的在線社交網絡個性化推薦系統研究[J]情報理論與實踐,2013,36(2):91-95
[39]王立才,孟祥武,張玉潔,上下文感知推薦系統[J],軟件學報,2012,23(1):1-20
[40]劉建國,周濤,汪秉宏,個性化推薦系統的研究進展[J],自然科學通報,2009,19(1):1-15
[41]許海玲,吳瀟,李曉東,閻保平,互聯網推薦系統比較研究[J]軟件學報,2009,20(2):350-362
[42]孫冬婷,何濤,張福海,推薦系統中的冷啟動問題研究綜述[J],計算機與現代化,2012,5:59-63
[43]張亮,基于聚類技術的推薦算法研究[D],成都:電子科技大學碩士學位論文,2012,7-18
[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.
[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.
[46]周源,基于云計算的推薦算法研究[D],成都:電子科技大學碩士學位論文,2012,26-64
[47]呂雪驥,基于云計算平臺的智能推薦系統研究[D],合肥:安徽大學碩士學位論文,2012,25-43
[48]劉晨,改進的聚類挖掘算法對網絡自助出版“長尾”文本的推薦應用[D],上海:復旦大學碩士學位論文,2011,10-19
[49]陳桂生,張海粟,劉玉超,云計算下的個性化數據挖掘服務[EB/OL],[2011-2-28]中國人工智能學會通訊,http://www,/contents/50/119,html
[50]張澤華,云計算聯盟建模及實現的關鍵技術研究[D],昆明:云南大學博士學位論文,2012,26-114
[51]郭昱,吳清烈,基于云計算的大規模定制客戶需求響應模型及其節點的選擇與分布[J],系統工程理論與實踐,2011,31(增刊2):1-6
[52]趙東杰,張海粟,韓言妮,楊海濤,何宇,基于網絡化數據挖掘的群體智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.
[53]AnandRajaraman,Jeffrey David Ullman著,王斌譯,互聯網大規模數據挖掘與分布式處理[M],北京:人民郵電出版社,2012,1-253
[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/
[55]楊健,汪海航,王劍,俞定國,云計算安全問題研究綜述[J],小型微型計算機系統,2012,33(3):472-479
在高校教育領域,就當前階段數據挖掘還是一種較新的技術。如何在高校的學生成績管理中合理的利用數據挖掘技術,對存放了大量學生的信息的數據庫中的數據進行挖掘處理,從而提取出可以對教師的教和學生的學都起到積極促進作用的關鍵性規律,獲得更加良好的教學效果是我們目前高校的教育工作者面臨的一大急需解決的有價值的問題。隨著數據挖掘技術的成熟,它的應用領域也在不斷的擴展,被關注程度也不斷提高,很多高校已經投入大量的人力物力在這項研究工作上,并逐漸的將其研究成果應用于日常的教學及管理工作中。比如,將其應用在學生信息的管理、學生的各門課的成績分析和考試系統、教育教學的評估工作等,這些應用都將對提高高校的教學和管理水平等各方面都起到十分顯著的的指導作用[1]。
1 當前很多高校學生的成績管理面臨的問題
目前大部分高校教務管理系統是采用聯機的事務處理系統對學生成績進行管理,成績數據只能簡單地存儲于數據庫中,而對數據的處理也停留在單純的數據查詢和插入修改等功能上,僅有的對成績的分析可能也只是求總和、平均值、均方差和合格率等之類的統計。教務管理系統中的數據單純的保存了相關數據信息而沒有能夠挖掘出這些數據背后所隱藏的可能有用信息——例如學生每門課程取得的成績的可能原因、每門課程的諸多知識點之間以及課程和課程之間的聯系。龐大的數據庫里數據和數據之間存在著很多的關聯,我們如何充分利用這些數據關聯,為高校教育教學決策者提供一定的決策依據,從而科學的指導教學,提高高校的教學及管理水平,進一步提高辦學效益和水平,是目前高校需要去面對和解決的問題。
2 利用數據挖掘技術管理學生成績
數據挖掘技術就是從大量的、有噪聲的、不完全的、隨機的、模糊的應用數據中來提取隱藏在其中的潛在并且十分有用的信息過程[2]。利用數據挖掘對存儲在高校成績數據庫中的學生成績數據信息進行全面的深層次的分析和挖掘,達到全面地分析成績數據的優劣及產生原因、各種因素之間隱含的內在聯系的目的。挖掘分析這些數據所隱藏的有用信息,找到對指導教師教學和學生學習有用的知識,幫助高校管理者對未來高校的發展進步的決策。由此可見,數據挖掘技術一定會在教師提高教學質量、學生增加學習效率和學校強化管理水平等方面起到至關重要的引導作用[3]。
第一,使用計算機對高校學生成績進行信息管理相對于傳統管理方法有著十分明顯優勢:在現代的互聯網時代,信息的管理早已經超越傳統概念,使用計算機存儲量大且成本低,可以長久保存,同時對信息的檢索更迅速也更方便,結果的可靠性也是傳統管理方法不可比擬的,這些也正是高校管理正規化和教育單位的科學化所必需的。
第二,學生成績管理系統對于任何一個教育單位來說都是一個不可或缺的組成部分。它對于高校的管理者的辦學思路的抉擇來說是至關重要的。高校的成績管理系統不僅應該做到為用戶提供方便快捷的查詢手段還用改能夠提供充分的信息量以滿足不同用戶的不同查詢需求。學生可以通過這個系統方便的查找自己到各門課的考試成績及其他的教學相關信息;教師也能夠通過系統提供的查詢和分析工具非常準確的掌握學生的成績變化,及時獲取教學效果反饋信息,改進教學方式方法等;對高校的管理者來說,運用了最新的數據挖掘技術的學生成績管理系統也可以讓他們更及時快捷的從海量的數據中找到有用的信息,從而為不斷提高高校的辦學質量和管理水平提供保障。
3 學生成績管理系統的設計
3.1數據挖掘的過程
數據挖掘是一個多階段的復雜過程,如圖1所示直接數據目標數據凈化數據數據源知識數據選擇清理與集成數據轉換數據挖掘模式評價數據預處理數據挖掘解釋和評價。
主要分為以下六個主要步驟[4]:
1)確定數據源。數據源的確立是整個系統的基礎,是挖掘結果準確的保證。對學生成績信息進行數據挖掘時,面向對象是各類不同的學生,例如教務處要挖掘的信息是面向全校學生的成績,從而掌握全校學生的學習情況,而每個系所要掌握的學生的學習情況是針對本系的學生來說的,所以要挖掘的對象也只是每個系學生的成績信息。他們面向對象和數據挖掘的目的都是不同的;
2)選定模型。為所挖掘的問題選擇恰當的數據挖掘方法,并且針對該挖掘方法選擇幾種或是一種的算法。選擇何種算法將直接影響挖掘信息的質量;
3)采集數據。這個階段在整個開發過程中將會占用開發者大部分的工作量和時間。因為開發者需要收集在以往的教學實踐中的數據信息,這些信息中,有些數據他們可以以直接的方式獲得,而有些數據可能需要對學生以問卷調查等形式獲得。
4)數據預處理。開發者在這一步需要將收集到的大量的不同的數據預處理,使其為一個分析數據模型;數據預處理是數據挖掘很重要的一步,數據只有經過預處理才能提高挖掘對象的質量;
5)數據挖掘。算法在這一步得到具體的實現,開發者將對經過預處理的數據信息進行挖掘;
6)解釋和評價。分析和驗證上一步的挖掘結果,并從中找到有價值的信息,將其集成到教師的教學環節和學生的學習環節中去,使教師和學生可利用所得信息改進教和學的策略,指導學生進一步更好的學習。
3.2數據挖掘的方法
在實際應用中需要根據對信息的實際需求選擇恰當的挖掘算法。通過對幾種常用的數據挖掘方法進行比較和分析,本文選擇了以下兩種適合的算法:關聯分析方法以及決策樹分類方法。
1)關聯分析
利用關聯分析對數據進行挖掘的目的就是挖掘出隱含在數據之間的關系。首先給定一組或一個記錄的集合,然后,通過分析此記錄集合從而推導出信息之間的相關性[5]。一個適用于關聯規則的最有說服力的例子就是“90%客戶在購買黃油和面包的同時也會選擇購買牛奶”,即:規則“購買黃油和面包也會同時購買牛奶”的信息可信度高達90%。在大型的數據庫系統中,類似的關聯規則會產生很多,因此需要開發者進行篩選。一般來說,我們會采用 “可信度”和“支持度”這兩個閩值去淘汰一些沒有太多實際意義的規則。
關聯規則算法主要 有以下兩個步驟:第一步要求開發者查找出所有的頻繁項集。頻繁項集就是指其支持度大于或是等于最小支持度的那些項目集。第二步是指由頻繁項集所產生的強關聯規則,即所產生的以上規則一定要滿足最小置信度和最小支持度[6]。
在實際教學中應用關聯分析的數據挖掘方法對學生成績信息進行分析和處理,研究課程的開設先后關系以及各門課程的成績相關性,分析的結果將對一些課程的教與學提供很多有用的信息,使高校的教學工作邁上一個新的臺階。
2)決策樹算法對學生成績的分析
決策樹算法是以實例為基礎的歸納學習算法,用來形成數據挖掘的預測模型和分類器,同時可以對大量未知數據進行預測或分類、數據的預處理以及數據挖掘等。通常包括兩部分:樹的生成和樹的剪枝[7]。
使用決策樹算法來提取分類規則時,規則使用以“if——then”的形式表示。決策樹算法和其他算法相比具有以下的優勢:處理速度較快;從結果上來說,分類準確率也更相近,算法更容易轉換為SQL語句。
4 結論
利用數據挖掘技術進行高校學生的成績、心理分析和德育評估、教學及管理決策、教學質量評估等,能夠為學生、教師以及教學管理人員等用戶提供相應的數據信息支持,對教務管理和教學過程有著極為重要的指導意義,同時也為高校教與學、管理與決策的服務提供了一種新的思路。
參考文獻
[1]劉春陽,數據挖掘技術在高校成績管理中的應用研究,學位論文大連交通大學,2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]劉軍.決策樹分類算法的研究及其在教學分析中的應用[D].河海大學,2006.
[4]鄧景毅.關聯規則數據挖掘綜述[J].電腦學習,2006(3):2-3.
[5]趙輝.數據挖掘技術在學生成績分析中的研究及應用,學位論文,大連海事大學,2007.
長久以來信息的不完備是影響管理者進行理性判斷和決策的直接原因之一,而現有的數據庫系統雖然可以高效地實現數據的錄入、查詢和部分統計等功能,但是無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。因此,杭州市西湖區院為了在檢察業務信息、隊伍建設情況和綜合行政事務方面輔助領導決策,建設應用行政決策輔助系統,將各科室以往分散的數據資源進行整合,并充分發揮電子政務平臺的優勢,通過系統提供的多種分析功能進行多角度、多層次的分析,將各類數據轉化為院領導決策所需要的信息。它的實施使得行政決策者可以在廣泛了解決策所需信息的前提下進行決策,避免了靠經驗決策和決策信息不完備導致的決策的盲目性現象,從而提高了行政決策的科學性和合理性,支持與強化行政決策過程。
一、系統架構及技術分析
系統架構主要由數據倉庫系統、模型庫系統、知識庫系統及可視化接口4部分構成。采用的關鍵技術是數據倉庫技術(DW)、數據挖掘技術(DM)、在線分析處理技術(OLAP)。
(一)數據倉庫的作用
電子政務的決策過程是一個從非結構化數據中抽取結構化信息,再提供非結構化決策分析結果的過程。因此,為了營造良好的電子政務決策數據環境,獲得高質量的數據分析結果,建立適合政府決策的數據倉庫系統是電子政務決策支持系統的關鍵環節,以確保政務系統中的數據能夠更好地發揮分析、決策的作用。這種數據倉庫系統的功能要能向兩個不同方向拓展,一是廣度計算,二是深度計算。廣度計算是使數據倉庫系統的應用范圍盡量擴大,能基本涵蓋市級政府決策、服務的領域;深度計算使數據倉庫系統克服了以往數據庫簡單數據操作處理(即事務處理)的缺點,對數據處理提出了更高的要求,使其能更多地參與政府對數據分析和決策的制定等工作。
(二)模型庫系統的功能
模型庫系統包括模型庫及其管理系統,模型庫是一個包含有財務、統計、運籌和其他定量模型的軟件包,存放解決行政管理問題的經驗模型,是為決策提供分析能力的部件,給予決策者通過推理、比較、選擇來分析、預測和解答整個問題的能力。因此,研究一些決策支持模型,建立一個政府決策的模型庫系統是完成系統的關鍵環節之一。這種模型庫系統應具有以下兩個特點,一是能實現多目標決策;二是能實現多領域、多部門、多用途的決策,即按經濟內容來看應具有預測類模型、綜合平衡模型、結構優化模型、經濟控制類模型等,按決策活動來看應有規劃模型、推理模型、分析模型、預測模型、評估模型等。
(三)知識庫系統的功能
知識庫系統包括知識庫及知識庫管理系統,其功能是對知識進行系統化組織與管理,存儲、增加、刪除、修改和查詢知識,以及對知識進行一致性和完整性校驗。知識庫與數據庫既有區別又有聯系,從知識的邏輯表示觀點來看,關系數據庫是一種簡單的知識庫,數據庫中的每一個關系是一個原子公式,即一個謂詞,關系中的元組即是知識中的事實,因此利用關系數據庫來建造知識庫,就可以充分利用關系數據庫管理系統的功能,便于知識庫管理系統的設計與實現。
(四)可視化接口
可視化接口包括預測、分析、查詢和維護等4個子系統。通過數據分析和預測工具對數據倉庫中的數據進行多維分析、匯總,結果可以用二維表、餅圖、折線圖和直方圖表示。
二、數據挖掘的技術工具和基本過程
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘常用的技術有神經網絡、決策樹、遺傳算法、近鄰算法和規則推導等。數據挖掘常用的工具有:
第一,基于神經網絡的工具。由于對非線性數據具有快速建模能力,神經網絡很適合非線性數據和含噪聲數據,所以在政府數據庫的分析和建模方面可以應用。
第二,基于關聯規則和決策樹的工具。大部分數據挖掘工具采用規則發現或決策樹分類技術來發現數據模式和規則,其核心是某種歸納算法。
第三,基于模糊邏輯的工具。其發現方法是應用模糊邏輯進行數據查詢、排序等。
第四,綜合多方法工具。不少數據挖掘工具采用了多種開采方法,這類工具一般規模較大,適用于大型數據庫或者并行數據庫。數據挖掘的基本過程包括數據準備、模型搜索、結果分析和生成報告。
數據準備:收集和凈化來自數據源的信息并加以存儲,將其放入數據倉庫中。
模型搜索:利用數據挖掘工具在數據中查找模型,搜索過程可以由系統自動執行,也可以由用戶參與執行。對于一個主題的搜索,可用神經網絡、專家系統、統計方法等。
結果分析:一般地說,數據挖掘的搜索過程需要反復多次,因為當分析人員評價輸出結果后,他們可能會發現一些偏差或一些新的問題,要求對某一方面做更精細的查詢。
關鍵詞:任務驅動;探究式;課程改革
中圖分類號:G642 文獻標識碼:A 文章編號:1009-3044(2014)06-1253-03
Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course
HUANG Jian
(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)
Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.
Key words: Task-driven; Inquiry; Curriculum reform
數據挖掘是一門包括了數據庫系統、專家系統、機器學習、統計學、模式識別、信息檢索、人工智能等學科的綜合性的學科,其目標是發現隱藏在大型數據集中的知識模式。此課程一般是在研究生教育階段開設[1],但隨著社會對應用型人才的需求越來越大,這就要求我們的學生畢業后不僅要有扎實的理論基礎,更要有較強的創新能力和實踐能力。
我校針對信息與計算科學及統計學兩個專業開設了數據挖掘課程。該專業學生擁有較強的數學理論基礎,并掌握了數學建模、統計學、數據庫等相關學科。數據挖掘作為一門綜合性課程,是融合學生各科知識,提高該專業學生應用實踐能力,培養學生團隊協作能力的很好的載體課程。
1 數據挖掘課程教學特點
數據挖掘技術是一個多學科交叉的綜合研究領域。不過也正因為它涉及的范圍很廣泛,發展的時間也不是很長,因此要真正理解數據挖掘的本質并不是一件容易的事情。我校針對信息與計算科學和統計學兩個理學專業開設此課程,并將此課程歸類為實踐類課程。經過筆者多年對傳統教學方法的研究和改革,發現了在數據挖掘教學中存在的問題:
1) 理論教學困難:數據挖掘課程內容涉及領域廣泛,如統計學、數據庫、機器學習、模式識別等內容,并且所涉及的算法繁多。由于本科生的知識體系不健全,理論基礎相對薄弱,造成了學習難度過大。此外,由于學時限制,無法在課堂中詳細地講述算法理論,導致了學生積極性不高,很難達到教學目標。
2) 實踐環節無法讓學生體會數據挖掘本質:數據挖掘是從數據獲取、數據整理、預處理、數據挖掘分析、結果分析等一系列流程的綜合。但由于課時關系,我們課程中的實踐環節往往是針對某個特定的算法,讓學生利用已經預處理好的數據進行算法的應用。數據挖掘成本很高,但是這個成本往往并不是金錢,而是時間,而數據整理和預處理的時間往往占到全部工作量的80%。不經過完整的數據挖掘流程訓練,學生就無法體會數據挖掘的本質。
3) 軟件應用缺乏:針對海量數據分析是必須要應用到計算機技術處理。當今針對數據挖掘應用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數據庫系統配套的OLAP功能等。在課堂中,不可能對任何一款軟件都詳細的進行講解。這就使得學生很難進行算法的應用實踐。
2 任務驅動探究式教學模式
針對目前教學存在的這些問題,廣西大學梁斌梅提出了目標驅動的專業課教學法,利用導入課吸引學生、利用教學目標引導學生[2]。韓秋明等人編著的《數據挖掘技術應用實例》中采用了大量的行業數據,為數據挖掘教學模式的改革提供大量的應用實例[3]。結合本校的學生特點,參考國內的一些研究成果,該文提出了基于任務驅動探究式教學模式。課程整體主線由任務驅動,學生進行探究式自主學習。
任務驅動是基于構建主義教學理論基礎上的教學方法,以學生為主體,以老師為主導的一整套教學新模式。而探究式教學是與直接接受式教學相對的,在任務驅動的同時,激發學生的好奇心,并驅使學生投入到知識獲取的自主學習活動中。任務驅動探究式教學模式是將兩者有機的結合起來,使學生能夠明確學習目標、提高學習興趣、提升學習動力,發揮學生的自主學習能力、創造能力,培養學生分析問題、解決問題的能力。通過自主學習,自行的完成階段性的教學任務,以達到相應的教學目標。任務驅動探究式教學模式,適合操作性和應用性強的課程。任務驅動探究式教學模式的核心思想是在教學方面強調任務驅動,在學習方面則強調探究式學習。因此必須合理地設計課程教學方案,在“教”和“學”兩個方面進行設計。老師必須在任務設計、實施進程管理、信息反饋等各方面做好銜接,保證學生能夠時刻跟上任務進度,并保持足夠的興趣度。
3 基于案例驅動探究式教學模式的數據挖掘課程改革
任務驅動探究式教學模式是以學生為主體,教師主導的新型教學模式。教師的作用在于教學組織和任務布置的安排調度。利用任務引導學生學習相關知識,提高學生的學習主動性。因此,如何根據課程需要合理地進行課程任務設計,安排任務進度都是課程改革成功的關鍵。
3.1 課程內容重新整合
數據挖掘是一個由數據收集、數據預處理、數據分析挖掘、結論分析等各個步驟組成的整體過程。在現有的數據挖掘書中,針對數據收集、數據預處理部分往往比較簡化,大部分篇幅都在講述數據挖掘算法,如分類算法、關聯算法、聚類算法。如果在課程內容設計時,僅僅對算法做重點講述而忽略前期步驟,將會造成學生內容知識的脫節,無法體會數據挖掘整個流程,從而不能真正地理解數據挖掘思想本質。因此,本課程教學目標應該是重點培養學生分析問題、解決問題和團隊協作能力,樹立數據挖掘思維體系,了解數據挖掘基本算法,能夠應用數據挖掘軟件解決實際問題并得到結果。
根據這個教學目標對課程內容進行適當調整。首先,增加緒論內容并設置導入課。在導入課中增加生活中學生感興趣的數據挖掘故事,經典案例以及各行業中的應用,從而提高學生學習的興趣。其次,適當增加數據獲取、數據預處理以及數據挖掘軟件的介紹,使得學生能夠明確數據怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數據挖掘算法,所介紹的算法應該是常見、易懂并且能夠很容易使用軟件實現的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對比較難的算法,可以僅做介紹,讓學生在今后遇到此類問題能夠自主的進行學習。通過內容的調整,一方面使得學生不會因為數據挖掘算法繁多且復雜而懼怕,保證學生的學習興趣,從而很好的引導其自主學習,提高教學效果。另一方面,數據挖掘算法在不斷的改進,不可能在課程中覆蓋所有。通過基本算法和工具的結合,能夠很好地幫助學生從算法理論轉變成算法實現,從而真正的進行數據挖掘工作。即使出現了新的算法,也能夠舉一反三,進行軟件實現。
3.2 組織方式的改變
任務驅動探究式教學模式必須以課程任務為依托。改變以往以純理論的教學方式,加入實踐和課堂討論環節,將理論知識講解和課程任務有機地結合到一起。考慮到數據挖掘連貫性以及工程龐大性,可以考慮以項目化的方式進行。將學生6個人左右分為一組,自主的在老師所提供的數據共享平臺中尋找感興趣的問題進行分析研究。將整個項目分解成為數據搜集、數據預處理、探索性分析、數據挖掘、結果分析等一系列的小任務,安排階段性的任務目標,層序漸進,逐步的建立學生完成項目的信心并最終完成整個項目。
學生是項目的負責人,在接受一個短期任務后,就要自主的開始進行任務的執行。老師僅僅在課堂中進行了基本知識的講解,學生要完成任務就必須學習更多的課外知識。項目的研究內容是自己選擇的,而且完成階段性的任務并不是那么的遙不可及,所以學生有足夠的興趣和信心去完成。通過查閱資料、學習知識、任務分配、安排和組織實施等,完成教學任務的同時也鍛煉了他們團隊合作意識、溝通能力、自主學習能力。這些能力的培養才能使他們在知識不斷更新的當今,緊密地跟緊前沿技術并更好的去解決實際問題。
3.3 任務進度控制和評價
課程的課堂教學時間是有限的,老師不可能在課堂中既完成理論教學,又給足時間讓學生進行課程任務,所以項目的實施必須是在課后進行。學生要在課外進行大量的參考資料閱讀、相互討論及數據分析的工作。那么老師作為主導者,必須及時地了解學生階段性任務的完成情況,對當前學生遇到的困難及時給出建議和意見,甚至在學生遇到真正的難題給予技術上的支持。所以本課程在理論課教學的同時,也開展了定期的討論課,讓學生定期匯報階段性任務的完成情況,及時進行任務進度的控制。整個項目的實施流程和任務分解如圖1。根據流程安排,理論引導學生任務的進行。通過學生任務的完成情況,老師在完成基本理論教學的同時,有針對性的對學生所遇到的問題進行講解,最終目標是引導學生完成整個教學項目。一方面,學生自主學習能力提高,有足夠的興趣和能力去完成每個階段的任務,并且會更加認真的在理論課中尋找自己想得到的知識。另一方面,由于學生自主尋找的項目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學內容不再一成不變,而是隨時的更新。
圖1 任務進度安排流程圖
良好的進度控制需要一個完善的評價體系做輔助。只有做好每個階段性的評價,引入一定的競爭機制,才能提高學生積極性和自信心。首先,必須做到極端性任務的目標和時間明確化。要完成什么,在什么時候完成,都必須事先和學生約定。對沒有按時完成任務的組,必須做出相應的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務,有針對性地提出建議和意見,以便學生能夠及時調整。其次,評價標準既要唯一又要區別對待。唯一標準指的是一樣的進度,一樣的任務,一樣的要求。但是數據挖掘項目會根據研究領域不同、使用算法不同、數據質量不同而造成難度差異,一味的同等標準要求會造成選擇難度較高項目的學生積極性下降。所以老師必須客觀的分析每個項目難度,并區別對待。對于由客觀難度造成任務進程落后的組,應當在解決問題后給予獎勵。并且,在最終論文評定時,適當的加入一定的難度分,以鼓勵學生培養自我挑戰的精神。通過教師評價、組長評價、組間評價等評價方式,客觀的合理的對整個項目實施作出最終的評價結果。
4 結束語
通過案例驅動探究式教學模式的改革,數據挖掘課程在教學效果上得到了實質性的提高。人才培養上卓有成效,老師也在教學過程中受益良多。通過教學模式的改革,使得原本枯燥、難懂的理論教學變得生動。學生的求知欲望得到了激發,課程的學習目標更加的明確,教學質量也有很大的提高。同時我們發現,學生的自主學習能力、匯報能力、論文撰寫能力都有了明顯的提高,并且有很多教學項目被用于畢業論文的研究。數據挖掘課程也因此被選為寧波市級的智慧產業核心引導課程。
參考文獻:
[1] 胡建軍.淺談數據倉庫與數據挖掘的本科教學[J].廣西科學院學報,2007(3):29-210.
關鍵詞:數據挖掘;客戶價值分析;K-Means聚類分析
DOI:10.16640/ki.37-1222/t.2017.04.248
1 緒論
體驗經濟時代消費趨勢主要有以下六個方面:體驗化、情感化、個性化、主動化、休閑化和求美化。[1]第三次工業革命以來,現代信息技術得到迅猛發展,各行各業意識到數據的重要性,建立了無數的數據庫,面對數以億計的數據,傳統的統計方法的弊端日益顯現。人們面對海量的數據,卻不能挖掘出有用的信息,隨著“數據爆炸”困惑的增加,人們迫切需要新的數據處理技術,因而數據挖掘技術應運而生。法國著名雕塑家羅丹說,生活中從不缺少美,而是缺少發現美的眼睛。如今,企業從不缺少數據,而是缺少挖掘數據價值的能力。通過對現有數據的挖掘,發現隱藏在數據里的模式,有用信息,指導航空公司作出決策,增加顧客的滿意度,是航空公司必須解決的問題。自從1989年舉行的第十一屆國際聯合公認學術會上首次提出數據庫中發現知識(KDD),到目前為止,美國人工智能協會曾經舉辦了9次KDD全球研討會。規模從原來的專題討論會到策略和技術的集成以及多學科跨領域融合。數據挖掘技術迅速在航空電子領域,航空安全領域,航空維修等等航空領域得到較好的應用與發展。我國在上世紀90年代的時候就已經開始的對數據挖掘的研究,經過多年的研究,我國已經形成數據挖掘基礎理論的框架,并且越來越多的學者投入數據挖掘的研究之中。不過相對于國外來說,我國的數據挖掘應用并沒有得到較高的發展,依然面臨著嚴重的挑戰,仍舊有很多問題等待著研究人員去探索和發現。
2 數據挖掘技術
數據挖掘有三大步驟:第一數據籌備,第二數據挖掘,第三結果表達和解釋[5]。
數據籌備包含數據集成,數據選擇,目標數據預處理。
數據挖掘主要是對預處理后的數據進行挖掘。
結果表達和解釋即我們所說的結果可視化。
3 航空公司客戶價值分析
3.1 傳統客戶價值分析方法
傳統的客戶價值分析使用RFM方法(Recency--最近購買日期, Frequency--各時期購買頻率, Monetary一段時間內消費總和)在多數領域中的多數情況下能有效地預測老顧客今后可能的消費行為和費用,之后對銷售毛利率、關系營銷費用進行預測,就能按不同時間段分析出今后短期內的客戶價值。[6]說明, 在這種分析方法中,客戶價值是指CRM毛利。CRM毛利 = 購買金額 - 產品成本 - 關系營銷費用。[7]
RFM模型以Recency為X軸,Frequency為Y軸,Monetary為Z軸做一個三維立體模型,可以把客戶價值分為八種:重要發展客戶、重要價值客戶、一般發展客戶、一般價值客戶、一般保持客戶、一般挽留客戶、重要保護客戶、重要挽留客戶。
由于航空公司客戶的獨特性,RFM方法分析航空公司客戶價值存在多種弊端和不足,造成分析結果的不準確和實用性降低。
(1)在RFM模型中,消費金額是一段時間內客戶消費總和,由于航空票價受到運輸距離,艙位等級,閑忙時,天氣等眾多因素的影響,同樣消費金額的客戶對于航空公司的價值是不同的。所以用這個指標分析航空公司客戶價值存在不妥。
(2)RFM是使用屬性分箱法分析客戶價值的,這種方法細分客戶群較多,需要逐個識別客戶特征和行為,大大提高的針對性營銷的成本。
(3)RFM方法在處理大量數據時由于模型的限制需要的成本較高。
3.2 航空公司客戶數據分析方法與步驟
航空客戶信息,包含會員檔案信息和其他乘坐航班記錄信息等
(1)因為消費金額總和這一指標在航空公司客戶價值分析過程中不太實用,所以我們可以選擇航空客戶在一段時間內積累的乘坐距離M和乘坐艙位折扣系數平均值C來替代消費金額總和。同時,因為航空公司會員的加入時間一定程度上可以影響客戶價值,所以我們在航空公司客戶價值分析模型中添加客戶關系長度L,當做區分客戶價值的另一個指標,所以我們構建出LRFMC模型。
(2)使用聚類分析的方法把客戶進行分類,并且分析客戶群的特征,分析客戶價值。
第1步數據抽取。
(1)以2014年3月31為結束日期,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內有乘機記錄的所有顧客的詳細資料形成歷史數據。對于后來新增客戶信息利用數據中最大的某個時間作為結束時間,采用同樣的方法進行抽取,形成增量數據。
(2)根據末次飛行日期從航空公司系統內抽取2012年4月1日至2014年3月31日內所有所有乘客的詳細數據,共62988條記錄。
第2步數據探索分析。
在原始數據中存在票價為空的情況,票價為空值的數據有可能是航空客戶未有乘機記錄造成的。票價最小值為0,折扣率最小值為0,總飛行里程不為0的數據有可能是顧客使用0折機票或者是使用積分兌換的機票造成的。
第3步數據預處理。
(1)數據清洗:從航空公司業務和數據挖掘建模需要考慮篩選出需要的數據。
A)不需要票價為空的數據。
B)不需要票r為0,平均折扣率不為0,總飛行里程不為0的數據。
(2)屬性規約。在原始數據中數據屬性太多,我們只需要與LRFMC模型相關的6個數據屬性,所以我們需要刪除不相關,弱相關和冗余的數據屬性。
(3)數據變換。A)數據屬性構造 B)數據標準化
第4步建構模型。
構建航空公司客戶價值分析LRFMC模型
A)客戶K-Means聚類分析 B)客戶價值分析 C)應用模型
A客戶K-Means聚類分析。
采用K-Means辦法對所有客戶數據進行聚類分析,將客戶數據聚為5類。(具體情況具體分析,必須依據實際狀況決定分幾類)
B客戶價值分析。
對聚類結果進行屬性分析:顧客群1在L、M屬性上最小;顧客群2在R屬性上最大,在F、M上最小;客戶群3在屬性F、M上最大,在R上最小;客戶群4在屬性L上最大;客戶群5在屬性C上最大。
根據航空公司業務定義為五個等級的客戶類別:重要保持客戶,重要發展客戶,重要挽留客戶,普通價值客戶,低價值客戶。
根據每種客戶群類型的特征對客戶群M行客戶價值排名,以便獲得高價值客戶的信息。
C模型應用:根據每種客戶群的特征,可以采取更多個性化服務和營銷策略。
由于各種行業面臨的具體問題不同,數據挖掘技術的發展受到不同的挑戰,不過總大趨勢來說,數據挖掘技術必將會得到更好發展和更加普遍的運用。隨著數據量爆炸式的激增,分析決策難度的增加,傳統分析方法弊端的顯現,人們對分析決策智能化和自動化的迫切需求,數據挖掘技術與工具將得到更廣泛的使用和發展。在數據爆炸時代,航空公司面臨的新挑戰為數據挖掘技術提供了發展背景,個性化服務的發展為數據挖掘技術提供了很好的基礎和發展平臺。
數據挖掘未來會吸引越來越多的研究人員,會涌現出越來越多的研究成果。從目前來看,數據挖掘在中國的研究與應用還有很多務實的問題沒有解決。本文僅僅是數據挖掘技術在航空公司客戶價值分析中的初步嘗試,展望未來數據挖掘的發展,有以下幾點需要注意的地方:要充分考慮是否有必要進行數據挖掘。傳統的數據分析辦法的確有很多弊病,但是相對于傳統的方法數據挖掘需要成本較高。在傳統數據分析技術可以滿足要求的情況下,沒有必要必須進行數據挖掘,這樣能更加節省成本。數據挖掘需要較大的成本,須要大量的人力,物力和財力用于數據籌備,數據搜集,問題建模,生成模型和數據分析等等。
參考文獻:
[1]吳釗.體驗經濟時代六大消費趨勢[J].商業研究,2003(24).[2]Jiaweihan,Miche line kan ber.Data ming:Concepts and techniques.Diane Cerra Publisher.20063
[3]劉浩,韓晶.MATLAB R2014a一本通[J].電子工業出版社.
[4]李定遠.CIO時代網.2012,09(29).
[5]耿向華.數據挖掘在旅游商務系統中的應用研究[J].魅力中國,2013,5(27).
[6]郭良.基于數據挖掘技術的客戶信息分析[J].華東師范大學碩士論文,2015.
論文關鍵詞:電子商務,數據挖掘,聚類分析,關聯規則挖掘
1引言
隨著Internet的普及,電子商務得到了前所未有的發展,經銷商和客戶之間通過互聯網進行交易,節省了大量的費用和時間。但是在電子商務中充斥著大量的數據,如何從這些大量的數據中挖掘出真正有價值的信息,幫助企業經銷商制定更好的營銷策略是電子商務急需解決的問題。數據挖掘,又稱數據庫中的知識發現(Knowledge Discovery in Database, KDD),也就是從大量的數據中挖掘出有用信息的一種技術。利用數據挖掘技術可以使經銷商從大量的數據中挖掘出有用的信息幫助決策,從而在市場競爭中獲得優勢地位。
2電子商務概述
電子商務指交易當事人或參與人利用現代信息技術和計算機網絡(主要是因特網)所進行的各類商業活動,包括貨物貿易、服務貿易和知識產權貿易。“電子商務”中所包括的“現代信息技術”應涵蓋各種使用電子技術為基礎的通信方式;“商務”指不論是契約型還是非契約型的一切商務性質的關系所引起的種種事項。如果將“現代信息技術”看作一個子集,“商務”看作另一個子集,電子商務所涵蓋的范圍應當是這兩個子集所形成的交集,即“電子商務”標題之下可能廣泛涉及的因特網、內部網和電子數據交換在貿易方面的各種用途。
電子商務與傳統商務相比有以下優點:(1)電子商務將傳統的商務流程數字化、電子化,讓傳統的商務流程轉化為電子流、信息流,突破了時間空間的局限,大大提高了商業運作的效率。(2)電子商務簡化了企業與企業,企業與個人之間的流通環節,最大限度地降低了流通成本,能有效地提高企業在現代商業活動中的競爭力。(3)電子商務是基于互聯網的一種商務活動,互聯網本身具有開放性全球性特點,電子商務可為企業及個人提供豐富的信息資源,為企業創造更多商業機會。(4)電子商務對大型企業和中小企業都有利,因為大中型企業需要買賣交易活動多,實現電子商務能有效地進行管理和提高效率,對小企業同樣有利,因為電子商務可以使企業以相近的成本進行網上交易,這樣使中小企業可能擁有和大企業一樣的流通渠道和信息資源,極大提高了中小企業的競爭力。(5)電子商務將大部分商務活動搬到網上進行,企業可以實行無紙化辦公節省了開支。
3數據挖掘技術
數據挖掘(Data Mining,DM)技術是隨著計算機的廣泛應用和數據的大量積累而發展起來的。數據挖掘是從大量的數據中提取或“挖掘”知識,即發現其中隱含的,未知的,有意義的信息的過程,它又被稱為“數據庫中知識發現”(KDD),也有人把數據挖掘視為數據庫中知識發現的一個基本步驟,知識發現過程由以下步驟組成:(1)數據清理(2)數據集成(3)數據選擇(4)數據變換(5)數據挖掘(6)模式評估(7)知識表示。
從商業的角度定義,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。利用功能強大的數據挖掘技術,可以使企業把數據轉化為有用的信息幫助決策,從而在市場競爭中獲得優勢地位。數據挖掘與傳統的數據分析的不同是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知、有效和實用3個特征。
4數據挖掘在電子商務中的作用
數據挖掘技術之所以可以服務于電子商務,是因為它能夠挖掘出活動過程中的潛在信息以指導電子商務活動。在電子商務中的作用有7個方面:(1)挖掘客戶活動顧慮,針對性的在電子商務平臺下提供“個性化”的服務。(2)可以在瀏覽電子商務網站的訪問者中挖掘出潛在的客戶。(3)通過電子商務訪問者的活動信息的挖掘,可以更加深入的了解客戶需求。(4)通過挖掘網上顧客的購買行為,可以幫助制定合理的產品策略和定價策略。(5)通過對商品訪問情況和銷售情況進行挖掘,可以幫助制定產品營銷策略,優化促銷活動。(6)優化電子商務網站的信息導航,方便客戶瀏覽。(7)通過客戶在網絡上瀏覽時的擁塞記錄發現網站的性能瓶頸,從而提高網站的穩定性,保證電子商務購物快速進行。
5電子商務中數據挖掘的技術與方法
電子商務中的數據挖掘過程一般包括3個主要的階段:數據準備、數據挖掘、結果解釋和評價。(1)數據準備又可分為數據選取和數據預處理兩個步驟。數據選取的目的是確定發現任務的操作對象。即目標數據,是根據用戶的需要從原始數據庫中抽取的一組數據。數據預處理一般包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換以及對數據降維。(2)數據挖掘階段首先要確定數據挖掘的目標和挖掘的知識類型。確定挖掘任務后,根據挖掘的知識類型選擇合適的挖掘算法,最后實施數據挖掘操作,運用選定的挖掘算法從數據庫中抽取所需的知識。(3)結果的解釋和評價。數據挖掘階段發現的知識,經過評估,可能存在冗余或無關的知識,這時需要將其剔除,也有可能知識不滿足用戶的需求,需要重復上述挖掘過程重新進行挖掘。另外,由于數據挖掘最終要面臨用戶,因此,還需要對所挖掘的知識進行解釋,以一種用戶易于理解的方式供用戶所使用。
數據挖掘按照其挖掘任務主要包括分類和預測、聚類分析、關聯規則挖掘,回歸發現和序列模式發現等技術。在選擇某種數據挖掘技術之前,首先要將需要解決的問題轉化成正確的數據挖掘任務,然后根據挖掘的任務來選擇使用哪些數據挖掘技術。在電子商務活動中,主要使用下面的一些數據挖掘技術。
5.1分類
分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型或分類函數,將數據庫中的數據項映射到某個給定的類別。分類的主要方法有基于決策樹模型的數據分類,貝葉斯分類算法,ID3算法和基于BP神經網絡算法等。
假定現在我們有一個描述顧客屬性的數據庫,包括他們的姓名、年齡、收入、職業等,我們可以按照他們是否購買某種商品(例如,計算機)來進行分類。如果現在有新的顧客添加到數據庫中,我想將新計算機的銷售信息通知顧客,若將促銷材料分發給數據庫中的每個新顧客,如此可能會導致耗費較多的精力和物力。而若我們只給那些可能購買新計算機的顧客分發材料,可以在較大的程度上節省成本。為此,可以構造和使用分類模型。分類方法的特點是通過對示例數據庫中的數據進行分析,已經建立了一個分類模型,然后利用分類模型對數據庫中的其它記錄進行分類。
5.2聚類分析
聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。聚類分析的方法是數據挖掘領域最為常見的技術之一。常用的聚類分析方法有:分割聚類方法,層次聚類方法,基于密度的聚類方法和高維稀疏聚類算法等。聚類分析方法與分類方法的不同之處是聚類事先對數據集的分布沒有任何的了解。因此在聚集之后要有一個對業務很熟悉的人來解釋這樣聚集的意義。很多情況下一次聚集你得到的分類對你的業務來說可能并不好,這時你需要刪除或增加變量以影響分類的方式,經過幾次反復之后才能最終得到一個理想的結果。聚類分析方法在電子商務中的使用也極其廣泛。其中一個典型的應用是幫助市場分析人員從客戶基本庫中發現不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。通過對聚類的客戶特征的提取,把客戶群分成更細的市場,提供針對性的服務。
5.3關聯規則挖掘
關聯規則是描述數據庫中數據項之間所存在關系的規則,即根據一個事物中的某些項的出現可導出另一些項在同一事物中也出現,即隱藏在數據間的關聯或相互關系,比如在一次購買活動中所買不同商品的相關性。在電子商務中,從大量商務事物記錄中發現有趣的關聯關系,可以幫助許多商務決策的制定。關聯規則挖掘最初也是最典型的形式是購物籃分析。它通過發現顧客放入其購物籃中不同商品之間聯系,分析顧客的購買習慣。例如,在同一次去超級市場,如果顧客購買牛奶,他也購買面包(包括購買什么類型的面包)的可能性有多大?這些信息可以幫助零售商有選擇地經銷和安排貨架,引導銷售。例如,將牛奶和面包盡可能放近一些,可以進一步刺激一次去商店同時購買這些商品。在電子商務中,由于Web服務器的日志文件記錄了用戶的訪問記錄,通過這些記錄利用關聯規則挖掘網上顧客購買產品的相關度,對某些品牌的喜好和忠誠,價格接受范圍,以及包裝要求等,挖掘的結果可以用來幫助管理者進行網站規劃、確定商品的種類、價格和新產品的投入。
5.4序列模式分析
序列模式分析和關聯規則挖掘相似,但側重點在分析數據間的前后序列關系。它能發現數據庫中形如在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現的頻度較高的信息。序列模式分析的一個例子是“九個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU芯片”。
6結束語
電子商務過程中的各種信息和數據是電子商務活動能夠更好的進行的基礎,通過選擇合適的數據挖掘技術來挖掘電子商務中有價值的信息,從而使企業在激烈的市場競爭中做出正確的決策,保持有力的競爭優勢。隨著數據挖掘技術的不斷發展,我們相信它在電子商務中的應用將促使其得到更快更高效的發展。
參考文獻
[1]姚淼.《數據挖掘在電子商務中的應用》.高校圖書情報論壇.Mar.2009.Vol.8 No.1
[2]趙雁.張黎明.呂安.趙彥慧.《電子商務中的數據挖掘技術》.中國電子學會第十屆青年學術年會論文集.2004.9
[3]楊青杰.胡明霞.《數據挖掘技術在電子商務中的應用研究》.商場現代化.2008年第16期
摘 要 面對當前企事業單位普遍存在各類數據龐大,但快速提取有效信息卻十分困難的現狀,如何在海量數據中發現有用的數據,即所謂的數據挖掘技術便應運而生。針對財務決策中數據海洋的現狀,本文提出了如何采用數據挖掘技術,來提高財務決策的效率。
關鍵詞 數據挖掘 財務決策 應用
隨著計算機、網絡技術的發展,獲得有關資料非常簡單易行。但對于數量大、涉及面寬的數據,傳統統計方法無法完成這類數據的分析,特別是公司財務數據之類。因此,一種智能化的、綜合應用各種統計分析、數據庫、智能語言來分析龐大數據資料的“數據挖掘”技術應運而生。數據挖掘技術的產生和發展使得人們可以利用這些數據挖掘出有用的、隱藏的商業和科學信息。
一、數據挖掘含義
1.數據挖掘的定義
目前普遍認同的一個數據挖掘(DM-Data Mining)定義是:從數據庫中抽取隱含的、以前未知的、具有潛在應用價值的模型或規則等有用知識的復雜過程,是一種深層次的數據分析方法。
數據挖掘可以根據企事業單位的既定業務目標和存在的問題,對大量的業務數據進行探索,揭示隱藏其中的規律,并將其模型化,指導并應用于實際的企事業單位經營管理中。是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以對財務信息做出預測。
2.數據挖掘的主要功能
數據挖掘的目標是從數據庫中發現隱含的、有意義的信息,它主要有以下功能:
(1)估計與預測:估計是根據已有積累的資料來推測某一屬性未知的值,預測是根據對象屬性的過去觀察來估計該屬性未來之值。數據挖掘技術能夠自動在大型數據庫中尋找預測性信息。
(2)關聯和序列發現:關聯是要找出在某一事件或是資料中會同時出現的東西;序列發現與關聯關系很密切,所不同的是序列發現中相關的對象是以時間來區分的。
(3)聚類:數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術的要點是在劃分對象時不僅考慮對象之間的距離,還要劃分出類具有某種內涵描述,從而避免了傳統技術的某些片面性。
(4)偏差檢測:數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的信息,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等①。
二、數據挖掘在財務決策支持系統的應用
1.財務決策支持系統
財務決策支持系統是在傳統電算化會計信息系統的基礎上建立和發展起來的,傳統會計信息系統輸出的企事業單位財務數據及非財務數據都存在數據過剩而信息不足的情形,而財務決策的精確程度又取決于所用信息的正確程度。隨著競爭的增加,財務決策的時效性也變得越來越重要了,面對這些結構化或半結構化的海量數據,將數據挖掘技術應用到系統中充分有效的預測企事業單位未來的發展趨勢,有利于輸出財務決策信息供高層管理者使用,提高企事業單位的競爭②。
(1)會計信息系統結構
會計信息系統可分為三個層次:會計核算層、財務管理層和財務決策層,分別屬于事后核算、事中控制和事前預測與決策過程。財務決策支持系統是最高層,也是會計信息系統發展的最終目標。會計核算層和財務管理層輸出的企事業單位財務數據及非財務數據都存在數據過剩而信息不足的情況,這嚴重影響了財務決策層發揮有效作用。
(2)財務決策支持系統的概念
財務決策支持系統(FDSS―Financial Decision Support System)是以現代管理科學和信息技術為基礎,以電子計算機為工具,運用經濟學、模糊數學、控制論和模型技術,對財務管理中的結構化、半結構化以及非結構化問題進行決策分析的人機交互系統。
在財務決策支持系統中,為了支持管理決策,首先必須建立各種數據庫以備決策之需。其次要建立各種數學模型,組成模型庫對數據庫中的數據進行深加工以便探索其內部規律,對數據的運算結果進行比較、分析和評價。同時,為了充分利用管理者的經驗、知識和智慧,系統還設置人機交互接口和專家知識庫,采用人工智能技術判斷環境生成方案、評價決策。
(3)財務決策系統國內外發展現狀
在國內,會計核算系統和財務管理系統已發展良好,逐步地為用戶理解和接受,但財務決策支持系統的發展尚處初級階段。
在國外,財務決策支持系統已較為完善,以財務管理為核心構造財務決策支持系統,做到了賬務系統與管理系統的有機融合,做到了事前預測與決策、事中控制、事后分析為一體的網絡化、科學化的決策管理,數據挖掘在財務決策支持系統中的運用也較為成熟。
2.數據挖掘在財務決策支持系統的應用
數據挖掘技術在財務決策支持系統中的應用研究始于1995 年,研究內容包括將DSS 的結構體系引入過來,從二庫、三庫結構到四庫、五庫結構的研究,也就是從傳統的FDSS 研究到智能的或高級的FDSS 的研究。隨著信息技術的不斷完善,把數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)也引入到財務決策支持系統中,出現了基于數據倉庫和數據挖掘技術的財務決策支持系統結構,數據挖掘技術在財務決策支持系統中的應用主要包括:
(1)財務狀況分析
財務狀況分析是財務管理的重要組成部分,包括企事業單位償債能力分析、企事業單位營運能力分析、企事業單位獲利能力分析、企事業單位發展能力分析。它是利用已有的財務數據對企事業單位的財務狀況、經營成果進行分析與評價。財務分析系統可以運用數據挖掘分類、預測等技術,根據企事業單位過去和現在的財務數據做進一步的加工、整理、分析和評價,在預測未來的財務狀況的同時從中取得有用的信息供決策者使用。
(2)財務預測
財務預測系統是FDSS 的重要組成部分,其功能分為兩個方面:一是利用已有的財務數據對企事業單位未來的財務狀況和經營成果進行預測。二是利用專家經驗和專門知識對某項財務專題進行預測。財務預測的主要內容包括銷售預測、利潤預測、成本預測、資金預測、財務指標預測等。利用回歸,神經網絡等技術根據已有的財務數據預測企事業單位未來的財務狀況,進而判斷企事業單位未來發生財務危機的可能性。
(3)籌資決策
籌資是指企事業單位何時、采用何種方式、獲得何種規模資金的過程。企事業單位籌資決策主要包括籌資數量決策、籌資方式決策和債務償還決策。一般地說,企事業單位籌資首先應考慮自有資本,即所有者權益籌資;其次再考慮債務籌資,其目的是使財務風險最小化。利用數據挖掘中的分類、聚類等技術可根據單位經營管理的需要進行決策信息輸出,確定一個合理的籌資方案。
(4)投資決策
企事業單位的投資決策主要包括企事業單位內部長期投資決策、聯營投資決策和證券投資決策。投資決策問題是決策問題中較為復雜的問題,其決策問題一般分為半結構化或非結構化問題。我們可利用預測、關聯等技術對投資時機、投資規模、投資方式等方面來確定投資方案。通過在眾多可投資項目中選擇出最具價值的項目決策信息,實現投資資金效率最大化。
(5)成本決策
成本決策涉及企事業單位銷、生產經營和資本運作等各個領域,可以說凡是發生成本費用支出的各項經濟活動,都存在成本決策問題。企事業單位成本決策包括:存貨成本決策、生產成本決策、資金成本決策、銷售成本決策、服務成本決策等,其中銷售成本決策和服務成本決策,其非結構化因素較多,包括促銷費用、廣告費用、銷貨服務費等,從而使其決策方案的確定更加復雜化。這就需要利用數據挖掘技術中的時間序列分析,關聯分析等技術對歷史數據進行分析預測,以確定最優方案。
(6)股利分配決策
股利分配是指公司向股東分派股利。股利分配決策的合理與否,將會對公司的持續發展和股東利益產生重大影響。股利分配決策包括股利發放決策、股利支付比率決策和股利發放形式決策等。由于股利分配決策要受到法律、經濟、公司政策、股東利益、以及股票市場等諸多因素的影響,其決策問題大多為半結構化和非結構化問題,我們可利用數據挖掘技術中的分類技術來提供支持。
(7)存貨決策
存貨決策主要是指原材料和產成品的決策,即確定合理的經濟訂貨量以及何時訂貨才是最佳時機,力求使存貨上耗費的成本最低。銷售的不確定性使得存貨決策成為一種風險性決策,它需要根據以往的經驗儲存、歷史統計資料的分析以及輸入用戶的調研數據,運用數據挖掘技術中的決策樹方法幫助決策者確定需求變量的范圍及發生概率,并提供最優方案的參考數據。隨著數據庫技術和網絡技術的迅速發展,傳統會計核算層及財務管理層的不斷完善,人們獲取數據的能力越來越強,將海量的數據存儲在數據庫和數據倉庫中。將數據倉庫(DW)、數據挖掘(DM)和聯機分析(OLAP)等信息技術應用于財務決策支持系統,更能將數據倉庫里的海量數據從執行系統中篩選出來,減少冗余,完成一系列轉換處理,便于決策者從宏大的信息系統中分辨、析取、整理、挖掘出對財務決策有用的信息,極大提高企事業單位管理信息系統的工作效率③。
三、數據挖掘技術在財務決策支持系統中應用的難點與展望
數據挖掘技術在財務決策支持系統中的應用還是一門嶄新的技術或方法,接受數據挖掘的概念容易,但將其落在實處卻比較困難。其中最重要的就是成本問題。數據挖掘功能對企事業單位財務數據進行分析雖然存有優勢,但前提條件是具備完整、正確的數據,即在建立數據倉庫系統基礎后,與此功能結合運用以達到事半功倍的效果。但目前單位財務部門提供的數據本身就可能存在水分,因此需要數據信息使用者在經過會計信息質量分析等前提下調整或重新估計,然后再利用數據挖掘等技術應用到財務決策支持系統中。數據挖掘僅依靠計算機或者軟件是無法完成任務的,更多的是需要依靠專業人士的職業判斷。
雖然在單位財務決策支持系統中利用數據挖掘技術還不十分成熟,但是伴隨著科學技術的迅猛發展,以及數據挖掘技術在財務決策支持系統中的廣闊市場前景,相信基于數據挖掘的財務決策支持系統必將更加成熟!
但是,數據挖掘作為一門新興的科學和技術,它的發展還處于幼年期,要想基于數據挖掘的財務決策支持系統模型得到更為廣泛的應用,面臨的挑戰為:
1.建立基礎的數據挖掘理論體系;
2.提高數據挖掘算法的效率和處理能力;
3.良好的人機交互界面;
4.挖掘各種數據類型,包括半結構和無結構數據。
注釋:
①何京舟.淺議數據挖掘技術與財務分析.中國集體經濟.2009(6):155-156.
②湯九斌.基于數據挖掘技術的決策支持系統及其關鍵技術研究.中國優秀博士論文全文數據庫.南京理工大學.2009.
③周喜,王加陽.數據挖掘技術在財務決策支持系統中的應用研究.湖南商學院學報.2009(4):99-101.
參考文獻:
[1]何京舟.淺議數據挖掘技術與財務分析.中國集體經濟.2009(6).
[2]鄭日軍.數據挖掘綜述.科協論壇(下半月).2008(10).
[3]洪沙,向芳.數據挖掘與決策支持系統.科學咨詢(決策管理).2008(4).
關鍵詞:數據挖掘,客戶關系,決策樹
1 引言
本課題研究的公司其客戶的不斷增加,為了減少公司的投入以及更有效的利用公司現有的人力資源,將所有客戶適當分類勢在必行。隨著公司客戶的不斷增加,和客戶相關的信息資料也不斷增加,這就要求公司投入更多的人力和物力來整理這些龐雜信息資料,而且為了更有效的利用公司現有的人力資源,將所有客戶適當分類也勢在必行。很顯然,如果僅僅依靠傳統人工技術,這將是一項非常困難的工作。本文就是選擇好的解決方法。
通過公司的mis系統,可以搜集到關于客戶的基本信息、客戶近段時間內的訪談記錄、客戶的銷售確認單(SO 單)、客戶擁有的設備等信息資料。接下來的工作就是如何從這些信息資料中挖掘出公司所需要的知識。我們需要解決的問題如下:
1)用戶的根本需要,即用戶需要發現什么?2) 用戶對現有數據中的哪些屬性更加關注?3) 數據挖掘的目的是什么?
2 系統的概要設計
2.1設計目標
需要是發明之母。對每個問題有了一個比較清晰的結論才可以進行以后的工作,才可以保證以后的工作的有用性。期望的結果如下:
1)用戶需要對所有客戶合理分類,為公司制定各種營銷和服務活動打好基礎;
2)用戶對數據中客戶的SO單、訪談記錄數量等更加關注;
3)數據挖掘的目的是選擇合適的分類算法將公司的客戶合理分類。
由上面的問題分析可以分析出用戶的需求:用戶已經有了一個業務數據庫,而且積累了大量的數據,用戶希望可以利用這些數據將客戶合理分類,以便公司制定各種營銷和服務活動,增加銷售收入。
2.1數據預處理
數據預處理技術可以改進數據的質量,對挖掘數據進行壓縮、歸約等處理,從而有助于提高其后的挖掘過程的精度和運行性能。數據預處理包括一些復雜的過程,一般包括數據清理、數據集成、數據變換、數據歸約。
1)數據清理。數據清理要去除數據集中的噪聲數據和無關數據,處理遺漏數據和清洗臟數據,取出空白數據域和知識背景上的白噪聲,考慮時間順序和數據變化等。主要包括重復數據處理和缺值數據處理,并完成一些數據類型的轉換。論文參考。比如,數據庫中大量存在null值,這將會影響我們最終的挖掘結果,怎樣才能為該屬性填上空缺的值呢?我們可以忽略該條記錄,也可以使用最可能的值人工填寫空缺值,或者使用一個全局常量(或該屬性的平均值)填充空缺值。論文參考。
2)數據集成。數據集成主要是將多文件或多數據庫運行環境中的異構數據進行合并處理,解決語義的模糊性。該部分主要涉及數據的選擇、數據的沖突解決以及不一致數據的處理問題。比如,數據分析者或計算機如何才能確信一個數據庫中的customer _id 和另一個數據庫中的customer_number 指的是同一實體?通常,我們通過元數據(關于數據的數據)來解決這個問題,這種元數據可以幫助避免模式集成中的錯誤。
3)數據變換。數據變換主要是找到數據的特征表示,用維變換或轉換方法減少有效變量的數目或找到數據的不變式,包括:規格化、歸約、切換、旋轉和投影等操作。比如,在數據庫的客戶信息表中并沒有設置某個字段來記錄客戶的訪談記錄情況(>=40 或20...40 或<=20),通過SQL 語句也只是能得到該客戶的訪談記錄的具體數量,這里就必須進行數據變換,將屬性數據離散化,以適應數據挖掘的需要。
4)數據歸約。有些數據屬性對發現任務是沒有影響的,這些屬性的加入會大大影響挖掘效率,甚至還可能導致挖掘結果的偏差。因此,有效的縮減數據是很必要的。
5)事實表:把所有的度量值合成到一張表中,這張表就是事實表,事實表中存放的是所有用戶所關心的數據,分析時通過按不同的維度,查看、翻轉、切片數據來得到關心的信息。
6)維度表:維度表存放了事實數據的描述信息,一般包括時間、地點等信息。
3 所選分類算法的研究
3.1決策樹的生成
本次數據挖掘的基本算法可以描述如下:
首先確定所要生成的決策樹的相關分類 C,如“關鍵客戶”,“主要客戶”,“一般客戶”,“潛在客戶”。
樹以代表訓練樣本的單個節點開始。
如果樣本都在屬于 C,則該節點成為樹葉,并標記該節點的概率權值為1。
否則,算法使用稱為“信息增益”的基于熵的度量作為啟發信息,選擇能夠最好的將樣本分類的屬性。該屬性成為節點的“測試”或“判定”屬性。
對于測試屬性的每個已知的值,創建一個分支,并據此劃分樣本。論文參考。
算法使用同樣的過程,遞歸的形成每個劃分上的樣本決策樹。一旦一個屬性出現在一個節點上,就不會在該分支再次出現。
遞歸劃分步驟當且僅當下列條件之一成立時停止:
1) 給定節點的所有樣本都屬于C或者都不屬于C。此時當前節點成為葉子節
點,并標記該節點的概率權值為1或0。
2) 有剩余屬性可以用來進一步劃分樣本。此時當前節點成為葉子節點,并
標記該節點的概率權值為C類樣本在樣本中所占比例。
3) 分支test_attribute=ai沒有樣本。在這種情況下,以樣本中的多數類創建一個樹葉。
3.2 決策樹的剪枝
在決策樹構造時,許多分支可能反映的是訓練數據中的噪聲或孤立點。樹剪枝試圖檢測和剪去這種分支,以提高在未知數據上分類的準確性。通常使用統計度量,剪去最不可靠的分支,這將導致較快的分類,提高樹獨立于測試數據正確分類的能力,目前剪枝方法主要有以下幾種:
1)減小錯誤修剪法(Reduced Error Pruning):此方法由Quinlan提出。在此方法中,檢測決策樹中非葉的節點,當此節點被最佳的葉取代而產生的錯誤數目小于或者等于之前未修剪的決策樹的錯誤數目,則修剪成功;否則修剪失敗,放棄修剪。
2)悲觀錯誤修剪法(Pessimistic Error Pruning):此方法同樣是由Quinlan提出的。Quinlan發現,當用產生決策樹的訓練數據來檢測錯誤率時,實際上對錯誤的估計過于樂觀了。
3)基于代價復雜度的修剪法(Cost Complexity Pruning):此方法由Breiman等提出,主要包括:按照一些啟發式的方法由原決策樹產生一系列子樹{T0,T1,T2,……,TL};通過評價以上子樹的錯誤率來選擇一個最好的子樹以取代原決策樹。
4)代價敏感(Cost Sensitive)的決策樹修剪方法:上述決策樹修剪方法均是通過分析錯誤率的大小來決定是否進行修剪。對于所有這些錯誤,假設它們的嚴重性都是等同的。但在現實生活中,情況并非如此,往往不同的錯誤具有不同的嚴重性。
我們可以根據編碼所需的二進位位數,而不是根據期望錯誤率,對樹進行剪枝。所得的“最佳剪枝樹”使得編碼所需的二進位最少。這種方法采用最小描述長度原則。這一原則遵循的理念是最簡單的解是最期望的。不想代價復雜性剪枝,它不需要獨立的樣本集。
3.3由決策樹提取分類規則
決策樹很容易轉換成分類規則,并以IF-THEN 形式的分類規則表示。對從根到樹葉的每條路徑創建一個規則。沿著給定路徑上的每個屬性-值對形成規則前件(“IF”部分)的一個合取項。葉節點包含類預測,形成規則后件(“THEN”部分)。IF-THEN規則易于理解,特別是當給定的樹比較大的時候。
圖1:概念buys computers的決策樹,
指出顧客是否購買計算機
沿著由根節點到樹葉節點的路徑,圖1的決策樹可以轉換成如下的IF-THEN
分類規則:
IF age=”<=30” AND student=”no” THENbuys_computers=”no”
IF age=”<=30” AND student=”yes” THENbuys_computers=”yes”
IF age=” 30...40” THEN buys_computers=”yes”
…… …… ……
3.4 算法的復雜性分析
假設參與分類算法的客戶記錄數為n,共有分析屬性p個,分析屬性值為q個ID3 算法掃描每條數據記錄q×p 次,若每次掃描數據記錄耗費一個單位時間,則法的時間復雜性為 O(n)。
4 系統的詳細設計
4.1 系統結構的設計
系統大致可以分成三層:數據層(包括業務數據庫和數據倉庫)、業務邏輯層、數據展現層。如圖2。
圖2:系統的層次結構
4.2 業務邏輯層的設計
業務邏輯層同樣分為三層:Facade層、BO 層、DAO層。如下圖3所示。將業務邏輯層分層的主要目的在于提高系統的重用性、可維護性、可移植性。
圖3 業務邏輯層設計
DAO Factory和DAO都屬于DAO層,DAO封裝訪問數據層的所有方法,一般來說,一個DAO只對應一張數據庫表,由DAO Factory 實例化不同數據表對應的DAO。將DAO層作為獨立的一層的主要優勢在于:
1)上層(BO層)在實現對數據層操作時只需要調用該層提供的統一接口,提高了代碼的重用性,也大大簡化了開發。
2)通過提供操作接口使得該層的功能實現對上層透明,當需要對數據庫操作進行修改時,無須修改上層的大量程序文件,而只需修改該層的方法,降低了層與層之間的耦合度,增強了靈活性。
3)該層作為功能獨立的一層,可以作為獨立組件重用,提高了軟件的可復用性。
BO層封裝具體的業務操作邏輯,根據不同的邏輯調用不同的DAO方法以取得相應的結果,比如根據權限的大小限定用戶可以查看的結果。在BO層可以調用多個DAO,即可以操作多張數據庫表。
Facade層對外提供統一的接口,因為在完成一個功能調用的時候可能會涉及到多個BO。為了最小化下層的修改對上層的影響,用戶調用的是Facade 層的方法,而不是直接讓用戶來調用BO 層的方法。Facade 層可以直接調用DAO 層的方法,也可以通過BO層來調用DAO層的方法,這取決于具體的業務需要。
另外,DAO返回的只是相應數據庫表的內容(對應Data Object),當需要聯合顯示多個數據庫表的內容時,在Facade 層做相應的數據拼裝(由多個Data Object 按需要組合成Facade Data Object),以適應數據展現層的表示需要。這樣做一方面提高了系統的安全性,另一方面減小了訪問客戶端的負擔。
5 結束語
數據挖掘的進行不是在設計和建造階段就可以最終確定的,要經過用戶的反復驗證和不斷改進才可以做到真正滿足用戶的需要。因此,還存在進一步的工作有待完善。
??數據挖掘出來的知識,只是相對于某一時間的某些數據的,新的數據可能使發現的新知識與原來的知識沖突。
??根據已經有的分類算法分析出的結果,不斷優化分類算法和參數值的設置,使挖掘出的結果更加符合用戶的需求。
??發掘用戶其他需求,建立新的挖掘模型,添加到已有系統中,進一步增強系統的功能。
參考文獻:
[1] 李冠乾,許亮. CRM 數據挖掘中關聯規則的應用. 昆明理工大學學報-理工版. 2004年2月,第29卷,第1期.
[2] 蔡淑勤,劉至高,梁凱春,王略. 基于Web的CRM應用系統技術支持平臺研究. 武漢理工大學學報-信息與管理工程版. 2005年2月,第27卷,第1期.
[3] 黃解軍,萬幼川. 基于數據挖掘的電子商務策略. 計算機應用與軟件. 2004年6月,第21卷,第7期.
關鍵詞:數據挖掘 客戶細分 精準營銷
中圖分類號:F274 文獻標識碼:A
文章編號:1004-4914(2010)10-267-02
隨著3G業務的全面展開,運營商進入了全業務運營時代,中國移動面臨著前所未有的激烈競爭,如何在全業務運營時代更好地了解用戶,增加用戶黏度,提高現有業務的用戶忠誠度是中國移動應對其他運營商的關鍵所在。
3G時代將帶來更多豐富多彩的業務應用,同時隨著客戶群體越來越向小眾化、復雜化發展,終端用戶對多元化業務的需要以及對高質量信息服務的要求也不斷提高,這對運營商精準營銷能力提出了新的挑戰。“真正為客戶提供所需要的應用”已經成為電信運營商營銷創新的重點所在。電信運營商需要進行營銷理念轉變,必須依靠先進的技術手段實現電信業務的深度運營和精準營銷,實現產品、管理及商務模式的創新,從粗放式營銷向精準營銷和深度營銷轉變。
一、傳統客戶細分方法分析
傳統的客戶細分方法包括基于調查資料的細分和基于客戶價值的細分。基于調查資料的客戶細分方法一般是基于市場調查得到的資料進行細分,優點是細分的維度較少,細分的結果容易理解,但缺點是支撐細分的對象只是少量的客戶樣本,因此細分結果的實施會很被動,只能等待有類似特征和需求的客戶主動上門。基于客戶價值的細分方法操作簡單,可以識別出電信企業的高價值客戶,但缺點是無法揭示各類群體在通信業務需求中的差異性,所以無法在市場營銷中幫助運營商進行差異化的方案設計。
二、數據挖掘的客戶細分方法
基于數據挖掘的客戶細分方法是數據挖掘技術和電信企業豐富數據資源的完美結合,其特點是充分利用了電信企業內部數據,細分維度多,不僅包含客戶屬性,客戶消費行為,還包括客戶消費心理等多種因素,因此可以幫助電信企業多層面、多角度地了解客戶的差異。如果將基于數據挖掘的客戶細分和基于市場調查的客戶細分等方法相結合,客戶細分將更加完美。
客戶細分是基于客戶業務需求的細分,消費行為和消費價值維度能直接反映電信客戶的業務需求差異,同時電信企業擁有大量的客戶行為和價值數據。因此,基于行為和價值的客戶細分對電信企業更具有實際意義。通過數據挖掘的聚類分析方法將有助于將客戶群根據其消費行為和價值的內在差異進行合理細分。
三、數據挖掘客戶細分在長沙移動增值手機訂票業務中的應用
1.長沙移動手機訂票精準營銷系統內涵。根據長沙移動對于手機訂購電影票業務的推廣需求提出的,采用數據挖掘技術和分析方法對網絡數據和用戶數據進行分析,并對數據進行采集及關聯分析的解決方案。系統通過采用一系列算法對用戶市場數據和用戶網絡數據進行關聯分析和其他挖掘分析,發現各種有價值的用戶信息,以幫助長沙移動針對手機訂票業務開展精準營銷服務。
2.手機訂票精準營銷系統分析方案。該系統主要針對電影票的手機銷售,其總體目標有兩個,分別是:
(1)幫助長沙移動提高手機訂票業務的用戶滲透率和業務認知度。
(2)幫助長沙移動提高現有手機訂票業務的使用普及率和成功率。為達成這個目標,必須對手機用戶進行客戶細分,以識別目標觀影用戶群,排除疑似工作人員和其他人員干擾,并確定目標觀影用戶群的小區(上接第267頁)分布情況和分時段小區分布情況,分析目標觀影用戶群的移動性、社會聯系性和訂票觀影行為特征,同時分析訂票業務的關鍵影響因素和訂票流程、用戶短信交互行為,旨在提高嘗試訂票用戶的購買成功率。系統的整體分析方案見表1。
按照業務問題和數據分析要求,必須對采集的海量網絡數據進行全面整合和處理,形成有關網絡和終端用戶的全息數據庫。針對具體手機訂票業務特點,提出業務精準營銷解決方案框架設計,根據該業務框架進行相應數據分析,為精準營銷提供數據和建議參考。
系統收集業務需要的部分網絡數據,并根據業務設計的邏輯框架進行數據分析,由于數據的局限性,僅進行部分專題內容分析,完整的業務分析將有待于進一步開展。
系統數據收集范圍顯示了以長沙萬達影院為目標影院,三天系統網絡數據收集的情況,數據覆蓋大部市區,數據量為800G。
系統利用這些數據,對客戶進行行為分析,以識別觀影用戶、進行營銷手段評估,并分析影響用戶手機購買的關鍵因素。
3.建立手機訂票精準營銷數據分析模型提高購買成功率。為提高目標用戶對業務的認知度和提高使用用戶的購買成功率,本文提出手機訂票業務精準營銷數據分析模型,從識別觀影用戶、營銷手段評估,影響用戶手機訂票的關鍵因素分析這三個方面對數據進行分析聚類。(1)識別觀影用戶。該部分目的在于幫助運營商深入了解目標客戶群,通過對網絡數據中目標觀影用戶的識別,并通過關聯技術手段排除工作人員和其他非觀影人員,確定手機訂票業務的真正用戶群體。并且對于這部分用戶進行深入分析,建立全面多維的用戶檔案。(2)營銷手段評估。通過對目標用戶的聚集度、社會活躍性和訂票觀影行為的深入分析,對目標用戶群體進行建模,根據用戶的不同特征特點,對不同的營銷方案進行效果評估,并根據用戶模型優選營銷方案建議。(3)影響用戶手機購買的關鍵因素分析。通過識別出嘗試進行手機訂票的用戶,并對購票成功影響因素的分析,對用戶行為和訂票流程進行關聯分析,確定影響購買的漏斗模型,并提出流程及業務改進建議,幫助更多的用戶成功購票。
隨著中國電信業改革不斷深入,電信運營商之間對客戶的爭奪也越來越激烈。為了適應這種競爭,中國移動進行了戰略轉型,由“移動通信專家”轉型為“移動信息專家”,開展全業務運營,重點發展增值業務等數據業務。而且隨著競爭加劇,電信運營商在爭奪用戶市場的同時必須降低市場營銷成本,那么如何識別潛在客戶,如何選擇有效的營銷手段進行精準營銷就成為市場競爭中獲勝的關鍵。同時,電信行業是典型的數據密集行業,其業務數據中隱含著大量對企業有價值的信息,通過基于數據挖掘技術的“精準營銷”可以幫助我們發現顧客需要、分析顧客行為、評估顧客價值,進而有針對性地制定營銷策略,滿足客戶個性化的需求。
參考文獻:
1.韓家煒.數據挖掘:概念與技術.機械工業出版社,2006
2.范愛民.精細化管理[M].中國紡織出版社,2005
3.彭清圳.基于數據挖掘的電信精細化營銷策略研究.北京郵電大學碩士論文,2008
4.林志宏.以精細營銷為目標的移動通信增值業務客戶行為分析.北京郵電大學碩士論文,2008
5.樊奕.基于數據挖掘的電信企業精確營銷.北京郵電大學碩士論文,2006
6.王春,謝忠,徐士才,張海鷹.3G時代增值業務運營研究.商業時代,2009(7)
7.朱海松.4I模型:3G時代的營銷方法與原理.2009