久久久国产精品视频_999成人精品视频线3_成人羞羞网站_欧美日韩亚洲在线

0
首頁 精品范文 數(shù)據(jù)挖掘技術(shù)應(yīng)用

數(shù)據(jù)挖掘技術(shù)應(yīng)用

時(shí)間:2022-04-15 16:45:10

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘技術(shù)應(yīng)用,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

數(shù)據(jù)挖掘技術(shù)應(yīng)用

第1篇

數(shù)據(jù)挖掘(DataMining,DM),是隨著數(shù)據(jù)庫和人工智能發(fā)展起來的新興的信息處理技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程,其主要特點(diǎn)是對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。

2、數(shù)據(jù)挖掘技術(shù)

2.1關(guān)聯(lián)規(guī)則方法

關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,對這些關(guān)聯(lián)規(guī)則進(jìn)行有效的評價(jià)。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。

2.2分類和聚類方法

分類就是假定數(shù)據(jù)庫中的每個(gè)對象屬于一個(gè)預(yù)先給定的類。從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià)。

2.3數(shù)據(jù)統(tǒng)計(jì)方法

使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應(yīng)用中有力的工具之一。

2.4神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問題。因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用于分類、預(yù)測和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。新晨

2.5決策樹方法

決策樹學(xué)習(xí)是一種通過逼近離散值日標(biāo)函數(shù)的方法,把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例。葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段。建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分枝子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。

第2篇

[關(guān)鍵詞]數(shù)據(jù)挖掘技術(shù);分析方法;企業(yè);應(yīng)用

doi:10.3969/j.issn.1673-0194.2015.02.044

[中圖分類號]F270.7-TP311.13 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號]1673-0194(2015)02-0058-01

1 數(shù)據(jù)挖掘技術(shù)的分析方法

現(xiàn)在作為數(shù)據(jù)挖掘的主要工作就是分析方法,只有科學(xué)、可信賴的算法才能夠幫助數(shù)據(jù)進(jìn)行挖掘工作,找尋數(shù)據(jù)中隱藏的一些規(guī)律。只有利用不同的分析方法,才能解決各種不同的問題。而現(xiàn)在常見的分析方法有聚類分析、分類和事先推測、關(guān)聯(lián)分析。

1.1 聚類

聚類分析是將一組數(shù)據(jù)分類成相近性及有異性這樣幾個(gè)種類,這樣做的目的就是將同一種類型的數(shù)據(jù)之間的相近性發(fā)展到最大化,不同種類之間數(shù)據(jù)的相近性盡可能的降低。這項(xiàng)分析方法可以用到客戶團(tuán)體的分類、客戶背景分析、客戶購買的事先推測、市場細(xì)分等。聚類分析廣泛的存在于心理學(xué)、醫(yī)學(xué)、數(shù)據(jù)識(shí)別等領(lǐng)域中。

1.2 分類及事先推測

分類是將數(shù)據(jù)庫里面的數(shù)據(jù)對象的相同點(diǎn)按照分類的形式將其歸為不同的類型。這樣做的目的就是經(jīng)過分類的形式把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)反射到特點(diǎn)的一個(gè)類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢等。而事先的推測是建立連續(xù)值函數(shù)模型,常見的方法有局勢外推測法、時(shí)間序列法、回歸分析的方法。

1.3 關(guān)聯(lián)分析

在自然界中,每個(gè)事物之間都有一定的聯(lián)系,如果發(fā)生一件事情,肯定會(huì)關(guān)聯(lián)到其他的相應(yīng)事件。關(guān)聯(lián)分析就是利用到來事物之間存在的聯(lián)系和相互之間的依賴性的規(guī)律,對于這些事件進(jìn)行的預(yù)測。在數(shù)據(jù)庫中的表現(xiàn)就是數(shù)據(jù)項(xiàng)之間存在的問題之間的關(guān)聯(lián),就是一個(gè)事物中的某一項(xiàng)事物可能會(huì)導(dǎo)致其他一系列事項(xiàng)的出現(xiàn)。對于企業(yè)的客戶管理有著非常大的幫助,對于數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,找出影響市場的因素,為各種活動(dòng)提供依據(jù)。

1.4 特征

特征分析方法就是將數(shù)據(jù)庫里面的一組數(shù)據(jù)抽取出有關(guān)這組數(shù)據(jù)的特征式,這種特征式能夠表現(xiàn)出數(shù)據(jù)的整體的特征。就像營銷工作人員對于客戶流失數(shù)據(jù)的提取能夠了解到原因,利用這些數(shù)據(jù)找到原因后就能幫助挽留客戶。

2 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

2.1 市場營銷和經(jīng)營

數(shù)據(jù)挖掘最早應(yīng)用的行業(yè)就是市場營銷,市場營銷行業(yè)利用數(shù)據(jù)挖掘技術(shù)對于用戶進(jìn)行分析挖掘來獲得客戶的消費(fèi)習(xí)慣和特征,這樣做的目的是來提升銷售的業(yè)績。當(dāng)然,現(xiàn)在數(shù)據(jù)挖掘不僅是在超市購物上被利用,還普及到很多的金融行業(yè)。

經(jīng)營上使用的具體實(shí)例:一些郵件類的廣告上,可以根據(jù)數(shù)據(jù)挖掘幫助確定客戶可能會(huì)購買的產(chǎn)品,這樣可以節(jié)約很多的郵資,還能夠幫助管理客戶之間的關(guān)系,也就是經(jīng)過分析那些可能走向競爭對手的客戶的特點(diǎn),這樣就能針對性的來留住顧客。購買方式:利用數(shù)據(jù)挖掘技術(shù)給零售商提供方便,零售商能夠通過這一技術(shù)確定顧客會(huì)購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當(dāng)然數(shù)據(jù)挖掘技術(shù)還能夠幫助用戶分析、評判促銷活動(dòng)會(huì)產(chǎn)生的成效。

2.2 電力、電信行業(yè)

隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,電網(wǎng)業(yè)務(wù)在不斷的進(jìn)步和豐富。而電信行業(yè)快速的發(fā)展,電信技術(shù)和服務(wù)成為一個(gè)巨大的混合載體,對于市場關(guān)系、技術(shù)服務(wù)有極大的影響。對于企業(yè)的資源進(jìn)行有效的整體和結(jié)合,形成一個(gè)非常大的關(guān)系網(wǎng)和信息數(shù)據(jù)系統(tǒng)。對這些數(shù)據(jù)進(jìn)行挖掘成為解決各種問題的有效方法,為企業(yè)的發(fā)展有著非常重要的推動(dòng)作用。

2.3 互聯(lián)網(wǎng)和云計(jì)算機(jī)

互聯(lián)網(wǎng)對于數(shù)據(jù)挖掘有很多的應(yīng)用,比如搜索引擎、電子商務(wù)等。這些都是利用數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)海洋中找尋能夠符合客戶要求的信息。常見的就是根據(jù)預(yù)測分類算法來預(yù)測出客戶應(yīng)該需要的信息。

2.4 金融行業(yè)

銀行、通信公司、保險(xiǎn)行業(yè)這些在評估客戶的信用等級上需要注意安全。數(shù)據(jù)挖掘的利用在金融行業(yè)是非常的重要,當(dāng)然數(shù)據(jù)挖掘技術(shù)在這方面取得了很好的成績,可以幫助這些金融企業(yè)正確的識(shí)別出詐騙行為、控制風(fēng)險(xiǎn)。如2003年春天,廣東分行在進(jìn)行信貸電子數(shù)據(jù)分析的時(shí)候,發(fā)現(xiàn)了一些異常的現(xiàn)象,發(fā)現(xiàn)除了南海華光公司的馮某對于銀行進(jìn)行的詐騙行為,其中有74億元被騙取,這并不是通過舉報(bào)而獲得線索,而是經(jīng)過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)馮某公司信貸出現(xiàn)的異常,然后被審計(jì)人員發(fā)現(xiàn)并驗(yàn)證這一詐騙行為,若不是數(shù)據(jù)挖掘要想發(fā)現(xiàn)這一詐騙可謂是難上加難。

3 結(jié) 語

大數(shù)據(jù)時(shí)代的到來給現(xiàn)在社會(huì)的發(fā)展帶來極大的幫助,各種挖掘技術(shù)也在不斷的出現(xiàn),給數(shù)據(jù)這種財(cái)富的存儲(chǔ)、解決、分析帶來極大的幫助,如更加的便宜、迅速。將數(shù)據(jù)轉(zhuǎn)換成財(cái)富,變成現(xiàn)在企業(yè)發(fā)展的利器,這是現(xiàn)在企業(yè)面臨的一個(gè)重要的轉(zhuǎn)型。若想適應(yīng)時(shí)代的發(fā)展,企業(yè)應(yīng)該了解數(shù)據(jù)挖掘的基本方法以及應(yīng)用,這能夠幫助一個(gè)企業(yè)快速的發(fā)展和生存。

第3篇

關(guān)鍵詞:數(shù)據(jù)挖掘;醫(yī)院信息;應(yīng)用

中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2014)04-0687-02

1 數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘技術(shù)是指通過對模糊信息及邊沿信息的數(shù)據(jù)內(nèi)容加以挖掘,使內(nèi)容中隱含的數(shù)據(jù)得以展現(xiàn),并通過在隱含數(shù)據(jù)之間建立合理的數(shù)據(jù)關(guān)系,總結(jié)出數(shù)據(jù)所表達(dá)深層內(nèi)容。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代數(shù)據(jù)管理中主要應(yīng)用于數(shù)據(jù)間的關(guān)聯(lián)分析,通過對分析數(shù)據(jù)間的內(nèi)在聯(lián)系并加以運(yùn)算,挖掘出信息中隱藏的信息內(nèi)容。由于數(shù)據(jù)挖掘能夠?qū)π畔⑦M(jìn)行更為全面的分析與處理,因此,在當(dāng)下社會(huì)發(fā)展中,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于醫(yī)院信息處理,通信信息服務(wù)及商務(wù)信息分析等領(lǐng)域中。

2 數(shù)據(jù)挖掘技術(shù)的優(yōu)勢

在醫(yī)院資源的數(shù)據(jù)挖掘過程中,通過計(jì)算機(jī)技術(shù)對醫(yī)療資源進(jìn)行整合處理,建立起有效的信息集合,使得醫(yī)院信息智能化服務(wù)能夠高效展開。數(shù)據(jù)挖掘過程中,通過對信息資源中含糊信息的有效挖掘,能夠進(jìn)一步實(shí)現(xiàn)醫(yī)療內(nèi)容的明確劃分,并通過建立起明細(xì)的檢索信息對醫(yī)院信息資源進(jìn)行有效處理。在醫(yī)院資源建設(shè)過程中,數(shù)據(jù)挖掘?qū)π畔①Y源的組建起到了重要調(diào)整作用,對信息數(shù)據(jù)的深層挖掘,使得醫(yī)院信息資源更為豐富,精確的數(shù)據(jù)分也為醫(yī)院信息服務(wù)提供了更多便利。通過數(shù)據(jù)挖對醫(yī)院信息資源進(jìn)行科學(xué)整合,不僅保證了醫(yī)院信息智能化服務(wù)的有效開展,還有理推動(dòng)了醫(yī)院服務(wù)的發(fā)展與進(jìn)步。

現(xiàn)代醫(yī)院的構(gòu)建將會(huì)向著數(shù)字化模式發(fā)展,信息技術(shù)將會(huì)成為數(shù)字醫(yī)院的主要技術(shù)力量。數(shù)字醫(yī)院是能夠采用計(jì)算機(jī)科學(xué)管理,避免了人工的繁重的工作。高效能計(jì)算機(jī)能夠?qū)?fù)雜的信息有效的整合組織起來,這里需要特別指出的是數(shù)字化醫(yī)院不是向一般人認(rèn)為的在一個(gè)醫(yī)院的主頁上就能實(shí)現(xiàn)所有的需求。數(shù)字化醫(yī)院是有一套完整的高效的數(shù)字分析系統(tǒng),能夠?qū)崿F(xiàn)醫(yī)院資源的高效整合利用。數(shù)字化醫(yī)院不再按照傳統(tǒng)的按照醫(yī)療來區(qū)分各個(gè)科室的分布模式,而是采用將醫(yī)院的功能按照設(shè)備類型進(jìn)行區(qū)分,也可實(shí)現(xiàn)按照患者的愛好進(jìn)行歸納總結(jié)。因此將數(shù)據(jù)挖掘技術(shù)應(yīng)用到數(shù)字醫(yī)院的建設(shè)中是必然選擇。數(shù)據(jù)挖掘技術(shù)的應(yīng)用能夠改變傳統(tǒng)觀念上的資源處理思維和模式,對于大型超大型醫(yī)院的建設(shè)能夠起到巨大的推動(dòng)作用,數(shù)據(jù)挖掘技術(shù)主要是在現(xiàn)有的醫(yī)療資源基礎(chǔ)上進(jìn)行深層次的挖掘和網(wǎng)絡(luò)層次上的進(jìn)一步開發(fā)利用。

2.1 數(shù)據(jù)挖掘可實(shí)現(xiàn)醫(yī)院的信息資源優(yōu)化

數(shù)據(jù)挖掘技術(shù)最本質(zhì)的應(yīng)用就是通過數(shù)據(jù)分析來綜合全方為的了解到醫(yī)院現(xiàn)有資源的利用情況,為醫(yī)院的未來建設(shè)提供參考。數(shù)據(jù)挖掘技術(shù)能夠有效的使醫(yī)院資源得到較大程度的優(yōu)化。首先對于檢索記錄進(jìn)行分析,再者就是把傳統(tǒng)模式上的人工數(shù)據(jù)轉(zhuǎn)變?yōu)殡娮訑?shù)據(jù)記錄。最大的特點(diǎn)就是利用網(wǎng)絡(luò)技術(shù)更加全面的分析總結(jié)數(shù)據(jù)庫資源。幫助醫(yī)院管理人員對于醫(yī)院信息的補(bǔ)充和調(diào)整提供實(shí)際參考依據(jù),也為大型醫(yī)院的醫(yī)療工作建設(shè)提供有效的引導(dǎo)。

2.2 數(shù)據(jù)挖掘應(yīng)用于醫(yī)院的多媒體數(shù)字資源

隨著現(xiàn)代醫(yī)院構(gòu)建規(guī)模的不斷擴(kuò)大,傳統(tǒng)的檢索系統(tǒng)已經(jīng)無法滿足用戶的需求,越來越多的用戶希望從多媒體數(shù)據(jù)庫中獲得更加高效的服務(wù),數(shù)據(jù)挖掘技術(shù)與多媒體技術(shù)的有機(jī)結(jié)合形成所謂的多媒體挖掘技術(shù)。多媒體數(shù)據(jù)挖掘技術(shù)能夠更為快捷和準(zhǔn)確的為用戶提供相應(yīng)的服務(wù),這對于超大型醫(yī)院的建設(shè)具有強(qiáng)大的促進(jìn)作用,這也是信息技術(shù)發(fā)展的客觀要求。

2.3 數(shù)據(jù)挖掘在數(shù)字醫(yī)院個(gè)性化服務(wù)中的應(yīng)用

相對于信息量龐大的醫(yī)院資源而言,用戶的目的就是在最短的時(shí)間內(nèi)了解到自己所需要的知識(shí)。醫(yī)院個(gè)性化服務(wù)就是為了方便用戶更加快捷的了解到自己所需的知識(shí)。根據(jù)患者和醫(yī)務(wù)工作者直接提出的要求或者是按照平常的習(xí)慣來主動(dòng)分析患者和醫(yī)務(wù)工作者的需求愛好,以此來實(shí)現(xiàn)醫(yī)院服務(wù)的個(gè)性化。

2.3.1 多種數(shù)據(jù)挖掘技術(shù)應(yīng)用于個(gè)性化服務(wù)

所謂的數(shù)據(jù)挖掘技術(shù)的個(gè)性化服務(wù)主要是體現(xiàn)在對數(shù)據(jù)進(jìn)行挖掘的同時(shí)體現(xiàn)出對數(shù)據(jù)處理的智能化,比如關(guān)聯(lián)資源的挖掘。關(guān)聯(lián)挖掘也是個(gè)性化服務(wù)的主要組成部分。再者就是對于網(wǎng)絡(luò)電子圖書資源的智能化調(diào)取,這也是個(gè)性化服務(wù)的體現(xiàn)。利用患者和醫(yī)務(wù)工作者平常在網(wǎng)絡(luò)上的瀏覽習(xí)慣而記錄分析其個(gè)人愛好,為患者和醫(yī)務(wù)工作者提供更加個(gè)性化的服務(wù)。

2.3.2數(shù)據(jù)挖掘應(yīng)用于個(gè)性化服務(wù)兩個(gè)方面

現(xiàn)代化數(shù)字醫(yī)院滿足用戶的個(gè)性化讀書要求是其建立原則之一,因此數(shù)據(jù)挖掘技術(shù)也必須向著個(gè)性化服務(wù)方向發(fā)展。所謂的個(gè)性化服務(wù)是充分培養(yǎng)用戶的個(gè)性化優(yōu)勢。通過這種科學(xué)的引導(dǎo)方式使用戶的使用方向向著科學(xué)的方向拓展。數(shù)據(jù)挖掘技術(shù)應(yīng)用與個(gè)性化服務(wù)主要有兩個(gè)方面,其中一個(gè)是數(shù)據(jù)挖掘技術(shù)能夠滿足患者和醫(yī)務(wù)工作者針對自身的實(shí)際需求來選擇自己所需要的信息,再者就是數(shù)字醫(yī)院會(huì)根據(jù)患者和醫(yī)務(wù)工作者的選擇需要有針對性的提供相關(guān)資源服務(wù)。第一個(gè)方面主要是指用戶的主觀能動(dòng)性的發(fā)揮,第二個(gè)方面指的是醫(yī)院智能化建設(shè)。從一定程度上講數(shù)字挖掘技術(shù)就是為了更好的服務(wù)于現(xiàn)代數(shù)字化醫(yī)院的智能化建設(shè),未來的醫(yī)院將會(huì)是用戶個(gè)性化與醫(yī)院智能化雙重發(fā)展的綜合體。個(gè)幸化服務(wù)是服務(wù)的最高標(biāo)準(zhǔn),也是公共服務(wù)模式發(fā)展的最終目標(biāo)。

3 常用數(shù)據(jù)挖掘技術(shù)的分類

3.1自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘

自組織神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘是在無醫(yī)生指導(dǎo)下完成的,整個(gè)數(shù)據(jù)挖掘過程基于數(shù)據(jù)組的特征或數(shù)據(jù)內(nèi)容的內(nèi)在關(guān)聯(lián)而展開,通過挖掘不同數(shù)據(jù)之間的相互關(guān)聯(lián),分析數(shù)據(jù)組間的相互作用,最終判定數(shù)據(jù)類別的性質(zhì)。如在進(jìn)行數(shù)據(jù)特征挖掘過程中,能夠通過分析數(shù)據(jù)組中數(shù)據(jù)分布特征,并搭建起神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)單元,以此檢驗(yàn)不同數(shù)據(jù)組之間的性質(zhì)差異。由于神經(jīng)結(jié)構(gòu)具有低緯度層次的結(jié)構(gòu)空間,因此在進(jìn)行數(shù)據(jù)組搭建過程中,應(yīng)選擇對應(yīng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以保證自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)信號處理速率,使數(shù)據(jù)特性能夠得到及時(shí)的組織映射。

3.2模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘

受神經(jīng)結(jié)構(gòu)自身?xiàng)l件的限制,神經(jīng)網(wǎng)絡(luò)無法對數(shù)據(jù)挖掘結(jié)果給出直觀的說明,這也在一定程度上滯緩了數(shù)據(jù)挖掘技術(shù)的開展。為提升神經(jīng)網(wǎng)絡(luò)輸出數(shù)據(jù)的直觀性,通常引入模糊神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),通過對BP網(wǎng)絡(luò)數(shù)據(jù)輸出節(jié)點(diǎn)加以控制,以有效簡化網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)輸出模式,以此使數(shù)據(jù)更為直觀的輸出。模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)挖掘方式保留了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自身記憶,分析和聯(lián)想的能力,因此在數(shù)據(jù)挖掘過程中,不會(huì)因BP網(wǎng)絡(luò)結(jié)構(gòu)的引入而對神經(jīng)網(wǎng)絡(luò)的基本能力產(chǎn)生影響。在模糊BP網(wǎng)絡(luò)中,數(shù)據(jù)樣本的期望值通過0和1兩數(shù)值直觀的表現(xiàn)出來,這種方式提升了數(shù)據(jù)類型的隸屬性,使得數(shù)據(jù)挖掘能夠更具針對性的展開,并通過對數(shù)據(jù)組中的權(quán)系數(shù)進(jìn)行模糊處理,進(jìn)一步拓寬數(shù)據(jù)挖掘范圍,保障了模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘效率。

4 醫(yī)院數(shù)據(jù)挖掘技術(shù)的應(yīng)用

4.1醫(yī)務(wù)工作者工作評價(jià)

數(shù)據(jù)挖掘技術(shù)在醫(yī)務(wù)工作者工作評價(jià)系統(tǒng)中的應(yīng)用主要也是利用關(guān)聯(lián)規(guī)則,首先先對數(shù)據(jù)進(jìn)行預(yù)處理工作,數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵步驟,并且直接影響著數(shù)據(jù)挖掘技術(shù)的應(yīng)用效率。數(shù)據(jù)預(yù)處中要將醫(yī)生的基本信息、醫(yī)生主要負(fù)責(zé)科室以及醫(yī)生的職稱、學(xué)歷、患者信息以及患者課表相關(guān)信息進(jìn)行數(shù)據(jù)初始記錄。對于醫(yī)生的評價(jià)內(nèi)容根據(jù)醫(yī)院自身的條件和需求而定,醫(yī)院工作管理部門登錄醫(yī)院管理系統(tǒng)后,將患者所選擇的選項(xiàng)對應(yīng)轉(zhuǎn)換為醫(yī)生的分值,通過計(jì)算機(jī)計(jì)算總分后得出醫(yī)生的總體評價(jià)。由于醫(yī)務(wù)人員工作評價(jià)系統(tǒng)不是一成不變的,而是一個(gè)動(dòng)態(tài)過程,每個(gè)季度都要進(jìn)行測評,因此評價(jià)完后的數(shù)據(jù)清理工作就顯得尤為重要。數(shù)據(jù)清理主要是填補(bǔ)數(shù)據(jù)庫中遺漏的數(shù)據(jù),在實(shí)際使用過程中可以發(fā)現(xiàn),患者對于醫(yī)生的評價(jià)并不是固定的幾個(gè)方面,數(shù)據(jù)清理系統(tǒng)能夠根據(jù)患者的興趣補(bǔ)充相應(yīng)的選項(xiàng),在醫(yī)務(wù)工作者工作評價(jià)系統(tǒng)中,通常要設(shè)置兩個(gè)極端數(shù)據(jù),其一就是零分,再者就是滿分。患者對于醫(yī)生教學(xué)的評價(jià)在一定程度上也反映了自己的就醫(yī)情況,如果對醫(yī)生的評價(jià)為零分,則說明患者也否定了自己的就醫(yī)效果。而滿分是另一個(gè)極端數(shù)據(jù),醫(yī)院管理者要對這兩種數(shù)據(jù)進(jìn)行特殊記錄和處理。

4.2患者信息管理系統(tǒng)

醫(yī)院患者信息管理系統(tǒng)中管理要素主要是醫(yī)院的領(lǐng)導(dǎo)、醫(yī)生、患者以及患者家屬。系統(tǒng)的功能要包括:對不同的用戶設(shè)置不同的使用權(quán)限;對患者的基本信息以及患者瀏覽管理網(wǎng)站的記錄要做到明確記錄;各個(gè)科室不同方面的的患者信息要能準(zhǔn)確公布并允許患者根據(jù)實(shí)際情況修改;病情管理要能實(shí)現(xiàn)大批量添加及修改;數(shù)據(jù)挖掘技術(shù)在醫(yī)院患者信息管理系統(tǒng)中的應(yīng)用主要是利用決策樹的方法。患者信息管理的基本數(shù)據(jù)就是患者入學(xué)時(shí)填寫的基本信息表,內(nèi)容包括患者的姓名、床位號、病情以及治療情況等,這些都是患者特有的屬性,患者信息管理利用決策樹方法就是將患者的這些屬性作為決策元素,監(jiān)理不同的決策節(jié)點(diǎn),實(shí)現(xiàn)對患者全方位的考核和評價(jià),完整的了解到每位患者的具體信息。

5 結(jié)束語

現(xiàn)階段對于數(shù)字挖掘技術(shù)的研究大部分都只是停留在理論研究階段,換句話說就是對于數(shù)字挖掘技術(shù)在醫(yī)院的具體應(yīng)用技

術(shù)研究還不算深入。因此相關(guān)研究人員在日后的研究工作中要注意結(jié)合具體應(yīng)用來研究數(shù)字挖掘技術(shù),為現(xiàn)代數(shù)字化醫(yī)院的建設(shè)提供良好的技術(shù)基礎(chǔ)和發(fā)展空間。

參考文獻(xiàn):

[1] 錢強(qiáng).數(shù)據(jù)挖掘技術(shù)在醫(yī)院用戶分析中的應(yīng)用[J].醫(yī)院情報(bào),2009(6):121-124.

[2] 張志剛.數(shù)字醫(yī)院用戶信息挖掘系統(tǒng)構(gòu)建的建設(shè)[J].長春師范學(xué)院院報(bào),2010(8):149-151.

[3] 潘曉峰.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字醫(yī)院建設(shè)中的運(yùn)用[J].醫(yī)院理論與實(shí)踐,2006(4):105-106.

[4] 王艷.數(shù)據(jù)挖掘在數(shù)字醫(yī)院中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2002(5):8-10.

第4篇

關(guān)鍵字:數(shù)據(jù)挖掘;HIS;特點(diǎn);任務(wù)

1 引言

近年來,隨著電子信息技術(shù)的迅速發(fā)展,醫(yī)院信息系統(tǒng)(HIS)、數(shù)字醫(yī)療設(shè)備和醫(yī)藥企事業(yè)單位信息系統(tǒng)的廣泛應(yīng)用,各醫(yī)療衛(wèi)生單位計(jì)算機(jī)中的數(shù)據(jù)容量不斷膨脹。數(shù)據(jù)庫技術(shù)的發(fā)展在不斷地解決海量數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)檢索的效率問題,但無法改變“數(shù)據(jù)爆炸但只是貧乏”的現(xiàn)象,如何充分應(yīng)用這些寶貴的醫(yī)學(xué)數(shù)據(jù)資源來為疾病的診斷和治療提供科學(xué)的決策,促進(jìn)醫(yī)學(xué)研究,已成為人們關(guān)注的焦點(diǎn)。

數(shù)據(jù)挖掘(Data Mining,DM)是一個(gè)近些年才發(fā)展起來的信息處理技術(shù),它是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并最終能被人理解的信息模式處理過程,它涉及數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、模式識(shí)別、可視化技術(shù)、并行計(jì)算等眾多領(lǐng)域知識(shí)。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣.技術(shù)難度大的新興交叉學(xué)科,它需要從事智能信息處理、計(jì)算機(jī)、應(yīng)用數(shù)學(xué)的科研人員與醫(yī)務(wù)工作者通力合作,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)數(shù)據(jù)庫中,用以發(fā)現(xiàn)其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生進(jìn)行疾病診斷,幫助管理者發(fā)現(xiàn)并創(chuàng)造新的管理方法和手段。

2 數(shù)據(jù)挖掘的定義

從商用角度來看,數(shù)據(jù)挖掘可定義為一種類深層次的數(shù)據(jù)分析方法,是按照企業(yè)既定業(yè)務(wù)目標(biāo),對大量企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,為企業(yè)決策提供真正有價(jià)值的信息,并進(jìn)而獲取利潤的一種模型化的先進(jìn)方法。

從技術(shù)角度來看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又有潛在有用的信息和知識(shí)的過程。

由定義可看出,數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析等)的本質(zhì)區(qū)別在于數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下挖掘信息、發(fā)現(xiàn)知識(shí),換言之,數(shù)據(jù)挖掘所得到的信息應(yīng)當(dāng)具有預(yù)知未知、有效和可實(shí)用3個(gè)特征。

3 數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)的產(chǎn)生時(shí)間不長,但其在商業(yè)、產(chǎn)業(yè)、電信等領(lǐng)域的應(yīng)用已相當(dāng)廣泛,并取得了客觀的經(jīng)濟(jì)和社會(huì)效益。由于醫(yī)療衛(wèi)生系統(tǒng)本身具有的復(fù)雜和時(shí)變的特性,導(dǎo)致數(shù)據(jù)挖掘技術(shù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用尚處于起步階段。但醫(yī)學(xué)技術(shù)作為一門驗(yàn)證性的科學(xué),因此在該領(lǐng)域的數(shù)據(jù)挖掘具有較強(qiáng)的實(shí)用價(jià)值和廣闊的應(yīng)用前景。

3.1 醫(yī)院信息系統(tǒng)的數(shù)據(jù)特點(diǎn)

醫(yī)院信息系統(tǒng)中包含了醫(yī)療過程和醫(yī)患活動(dòng)的全部數(shù)據(jù)資源,既有臨床醫(yī)療信息,又有醫(yī)院管理的相關(guān)信息。這些信息反映了醫(yī)學(xué)的獨(dú)特性。

3.1.1 多態(tài)性

醫(yī)院信息系統(tǒng)中的數(shù)據(jù)包括純數(shù)據(jù)(如體征參數(shù)、檢驗(yàn)結(jié)果等)、影像(如CT、B超等)、信號(如ECG、EEG等)、文字(如患者檢查檢驗(yàn)結(jié)果、病歷記錄等)等,因此其具有模式的多態(tài)性,這也是其區(qū)別于其他領(lǐng)域的顯著特征。

3.1.2 不完整性

醫(yī)院信息系統(tǒng)中的數(shù)據(jù)是在對患者進(jìn)行診療的過程中收集的,是以對患者進(jìn)行診斷并最終治愈為目的,并非以研究為目的,再加之人為因素也可導(dǎo)致數(shù)據(jù)記錄的偏差和缺失,因此搜集的數(shù)據(jù)具有疾病信息的客觀不完整性和描述疾病的主觀不完整性。

3.1.3 冗余性

醫(yī)院信息系統(tǒng)是一個(gè)特殊的系統(tǒng),系統(tǒng)中的某些數(shù)據(jù)關(guān)乎患者的健康安全,如發(fā)藥信息、檢查檢驗(yàn)結(jié)果數(shù)據(jù)等,為進(jìn)行數(shù)據(jù)校驗(yàn),保證數(shù)據(jù)的正確性,系統(tǒng)會(huì)保存大量重復(fù)的、甚至是相互矛盾的數(shù)據(jù)記錄。

3.1.4 隱私性

醫(yī)院信息系統(tǒng)中保存了患者的所有信息,包括身份信息、診療信息、費(fèi)用信息等,也不可避免地會(huì)涉及到患者的隱私,一旦這些隱私信息被暴露,并對患者的日常生活造成侵?jǐn)_,就會(huì)涉及到較多的倫理、法律等問題。

3.2 醫(yī)院信息系統(tǒng)數(shù)據(jù)挖掘的步驟

數(shù)據(jù)挖掘可分為預(yù)處理和挖掘分析兩個(gè)階段如圖l所示。由于醫(yī)學(xué)數(shù)據(jù)具有前文所介紹諸多特性,需要對帶挖掘數(shù)據(jù)進(jìn)行篩選、清洗、匿名化、標(biāo)識(shí)轉(zhuǎn)換等操作,因此通常需要花費(fèi)較多時(shí)間,通常約占總時(shí)間的60%。

3.3 醫(yī)院信息系統(tǒng)數(shù)據(jù)挖掘的任務(wù)

3.3.1 分類

分類是指根據(jù)一個(gè)可預(yù)測屬性將事例分為多個(gè)類別,是最常見的數(shù)據(jù)挖掘任務(wù)之一。醫(yī)生根據(jù)望聞切診以及輔助檢查對患者進(jìn)行疾病診斷,實(shí)際就是一個(gè)疾病分類的過程,即根據(jù)患者的疾病特征,將其劃分為某個(gè)疾病或某類疾病。典型的分類算法有決策樹、神經(jīng)網(wǎng)絡(luò)和貝葉斯算法。

3.3.2 聚類

聚類也稱細(xì)分,是基于一組特定的屬性對事例進(jìn)行分組的數(shù)據(jù)挖掘方法。利用聚類分析工具分析患者的疾病診斷數(shù)據(jù),進(jìn)行探索性的數(shù)據(jù)分析,生成聚類結(jié)果,并考察其意義。例如,對糖尿病患者,可按照年齡、性別、體重和血壓指數(shù)等產(chǎn)生聚類模式,得到糖尿病患者典型分型,在臨床上具有重要意義。

3.3.3 關(guān)聯(lián)

關(guān)聯(lián)規(guī)則最典型的商用案例就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了尿片與啤酒之間有著驚人的聯(lián)系。使用關(guān)聯(lián)規(guī)則,可以發(fā)現(xiàn)臨床數(shù)據(jù)間的關(guān)聯(lián)性,通過病歷系統(tǒng)中患者的診斷信息、用藥情況等,可以挖掘出某種疾病的常規(guī)用藥方案,并形成臨床路徑。

3.3.4 預(yù)測

預(yù)測是醫(yī)學(xué)數(shù)據(jù)挖掘最重要的―項(xiàng)任務(wù)。預(yù)測技術(shù)使用的是時(shí)間序列數(shù)據(jù)集,即有時(shí)序關(guān)系的一組觀察值,而患者的診療過程所記錄的數(shù)據(jù)也是具備時(shí)序性的,應(yīng)用預(yù)測技術(shù)對這些診療數(shù)據(jù)進(jìn)行分析,可預(yù)測患者疾病的發(fā)展趨勢甚至預(yù)后情況,并根據(jù)預(yù)測結(jié)果對診療方案進(jìn)行修正,以獲得最佳的療效和預(yù)后。

第5篇

關(guān)鍵詞:商務(wù)智能數(shù)據(jù)挖掘第三方物流研究

在當(dāng)今競爭日益激烈的市場環(huán)境中,第三方物流企業(yè)都希望能夠從浩如煙海的商務(wù)數(shù)據(jù)以及其他相關(guān)的物流業(yè)務(wù)數(shù)據(jù)中發(fā)現(xiàn)帶來巨額利潤的商機(jī)。只有那些利用先進(jìn)的信息技術(shù)成功地收集、分析、理解信息并依據(jù)信息進(jìn)行決策的物流企業(yè)才能獲得競爭優(yōu)勢,才是物流市場的贏家。因此,越來越多的物流管理者開始借助商務(wù)智能技術(shù)來發(fā)現(xiàn)物流運(yùn)營過程中存在的問題,找到有利的物流解決方案。

商務(wù)智能技術(shù)應(yīng)用現(xiàn)狀

我國加入了WTO,在許多領(lǐng)域,如金融、保險(xiǎn)、物流等領(lǐng)域?qū)⒅鸩綄ν忾_放,這就意味著許多第三方物流企業(yè)將面臨來自國際大型跨國物流公司的巨大競爭壓力。國外發(fā)達(dá)國家各種企業(yè)采用商務(wù)智能的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過了我國。美國PaloAlto管理集團(tuán)公司1999年對歐洲、北美和日本375家大中型企業(yè)的商務(wù)智能技術(shù)的采用情況進(jìn)行了調(diào)查。結(jié)果顯示,在金融領(lǐng)域,商務(wù)智能技術(shù)的應(yīng)用水平已經(jīng)達(dá)到或接近70%,在營銷領(lǐng)域也達(dá)到50%,并且在其他應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的采納水平都提高約50%。現(xiàn)在,許多第三方物流企業(yè)都把數(shù)據(jù)看成寶貴的財(cái)富,紛紛利用商務(wù)智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的回報(bào)。

據(jù)IDC對歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報(bào)率為401%,其中25%的企業(yè)的投資回報(bào)率超過600%。調(diào)查結(jié)果還顯示,一個(gè)企業(yè)要想在復(fù)雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復(fù)雜的商業(yè)結(jié)構(gòu),若沒有詳實(shí)的事實(shí)和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和日益成熟,它必將被更多的第三方物流企業(yè)采用,使更多的物流管理者得到更多的商務(wù)智能。

商務(wù)智能技術(shù)的組成

具體地說,商務(wù)智能技術(shù)有數(shù)據(jù)倉庫(datawarehousing)、聯(lián)機(jī)分析處理(on-lineanalyticalprocessing,簡稱OLAP)、數(shù)據(jù)挖掘(datamining),包括這三者在內(nèi)的用于綜合、探察和分析商務(wù)數(shù)據(jù)的先進(jìn)的信息技術(shù)的統(tǒng)稱就是商務(wù)智能技術(shù)。

數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的主要用于決策支持的數(shù)據(jù)的集合。一般來說,大的物流公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動(dòng)的操作型信息系統(tǒng)為企業(yè)不同的物流業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉庫技術(shù)可以動(dòng)態(tài)地將各個(gè)物流企業(yè)子系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進(jìn)行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉庫中,通過周期性的刷新,為物流用戶提供一個(gè)統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個(gè)高質(zhì)量的數(shù)據(jù)源。

對于數(shù)據(jù)倉庫中的數(shù)據(jù),可以使用一些增強(qiáng)的查詢和報(bào)表工具進(jìn)行復(fù)雜的查詢和即時(shí)的報(bào)表制作,可以利用OLAP技術(shù)從多種角度對物流業(yè)務(wù)數(shù)據(jù)進(jìn)行多方面的匯總、統(tǒng)計(jì)、計(jì)算,還可以利用數(shù)據(jù)挖掘技術(shù)自動(dòng)發(fā)現(xiàn)其中隱含的有用的物流信息。

數(shù)據(jù)挖掘又稱知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,簡稱KDD),是從大量數(shù)據(jù)中抽取有意義的、隱含的、以前未知的并有潛在使用價(jià)值的知識(shí)的過程。數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉性學(xué)科,它涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、模式識(shí)別、可視化以及高性能計(jì)算等多個(gè)學(xué)科。利用數(shù)據(jù)挖掘技術(shù)可以分析各種類型的數(shù)據(jù),例如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)、靜態(tài)的歷史數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)流數(shù)據(jù)等。

數(shù)據(jù)挖掘技術(shù)在第三方物流企業(yè)的應(yīng)用分析

數(shù)據(jù)挖掘是從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的數(shù)據(jù)中發(fā)現(xiàn)其潛在規(guī)律的技術(shù),是當(dāng)前計(jì)算機(jī)科學(xué)研究的熱點(diǎn)之一。隨著信息技術(shù)的高速發(fā)展,積累的有關(guān)物流行業(yè)的數(shù)據(jù)量劇增,如何從大量的物流數(shù)據(jù)中提取有用的知識(shí)成為第三方物流企業(yè)當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)需要應(yīng)運(yùn)而生發(fā)展起來的數(shù)據(jù)處理技術(shù)。

數(shù)據(jù)挖掘的對象

關(guān)系數(shù)據(jù)庫(relationaldatabase)中通常存儲(chǔ)和管理的是結(jié)構(gòu)化的數(shù)據(jù),它將一個(gè)實(shí)體的各方面信息通過離散的屬性進(jìn)行描述。而文本數(shù)據(jù)庫(textdatabase)或文檔數(shù)據(jù)庫(documentdatabase)則通常存儲(chǔ)和管理的是半結(jié)構(gòu)化的數(shù)據(jù),例如新聞稿件、研究論文、電子郵件、書籍以及WEB頁面等都屬于半結(jié)構(gòu)化數(shù)據(jù)。空間數(shù)據(jù)庫、多媒體數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化數(shù)據(jù),例如地圖、圖片、音頻、視頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。相對于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來說,針對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)比較成熟,市場上有很多的商品軟件可以使用,用的較多的包括IBMIntelligentMiner、SASEnterpriseMiner、SGIMineSet、ClementineSPSS以及MicrosoftSQLServer2000等。關(guān)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)挖掘軟件尚不多,相應(yīng)的算法相對還較少。從另一個(gè)角度來說,數(shù)據(jù)挖掘的分析對象分為兩種類型:靜態(tài)數(shù)據(jù)和數(shù)據(jù)流(datastream)數(shù)據(jù)。現(xiàn)在的多數(shù)數(shù)據(jù)挖掘算法是用于分析靜態(tài)數(shù)據(jù)的。

數(shù)據(jù)挖掘的分析

無論要分析的數(shù)據(jù)對象的類型如何,常用的數(shù)據(jù)挖掘分析包括關(guān)聯(lián)分析、序列分析、分類、預(yù)測、聚類分析以及時(shí)間序列分析等。

關(guān)聯(lián)分析關(guān)聯(lián)分析是由RakeshApwal等人首先提出的。兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。對于結(jié)構(gòu)化的數(shù)據(jù),以物流客戶的采購習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)物流客戶的關(guān)聯(lián)采購需要。例如,對于第三方物流企業(yè)來說,一個(gè)托運(yùn)貨物的貨主很可能同時(shí)有貨物的包裝、流通加工等物流業(yè)務(wù)的需求。利用這種知識(shí)可以采取積極的物流運(yùn)營策略,擴(kuò)展物流客戶采購物流服務(wù)的范圍,吸引更多的物流客戶。通過調(diào)整服務(wù)的內(nèi)容便于物流顧客采購到各種物流服務(wù),或者通過降低一種物流業(yè)務(wù)的價(jià)格來促進(jìn)另一種物流業(yè)務(wù)的銷售等。

分類分析分類分析是通過分析具有類別的樣本的特點(diǎn),得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時(shí)應(yīng)該具有一定的準(zhǔn)確度。分類分析可以根據(jù)顧客的消費(fèi)水平和基本特征對物流顧客進(jìn)行分類,找出對第三方物流企業(yè)有較大利益貢獻(xiàn)的重要的物流客戶的特征,通過對其進(jìn)行個(gè)性化物流服務(wù),提高他們的忠誠度。

聚類分析聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個(gè)這樣的組進(jìn)行描述的過程。其主要依據(jù)是聚到同一個(gè)組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。

以第三方物流企業(yè)的客戶關(guān)系管理為例,利用聚類分析,根據(jù)物流客戶的個(gè)人特征以及物流業(yè)務(wù)消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)物流業(yè)務(wù)消費(fèi)群體:生產(chǎn)企業(yè)對物流業(yè)務(wù)中運(yùn)輸需求占41%,對物流業(yè)務(wù)中倉儲(chǔ)業(yè)務(wù)的需求占23%;商業(yè)企業(yè)對物流業(yè)務(wù)中運(yùn)輸需求占59%,對物流業(yè)務(wù)中倉儲(chǔ)業(yè)務(wù)需求占77%。針對不同的客戶群,可以實(shí)施不同的物流服務(wù)方式,從而提高客戶的滿意度。

數(shù)據(jù)挖掘流程

定義問題:第三方物流企業(yè)首先清晰地定義出各種物流業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。

數(shù)據(jù)準(zhǔn)備:首先第三方物流企業(yè)在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)選擇;其次進(jìn)行數(shù)據(jù)的預(yù)處理,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、填補(bǔ)丟失的域,刪除無效數(shù)據(jù)等。

數(shù)據(jù)挖掘:第三方物流企業(yè)根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。

結(jié)果分析:第三方物流企業(yè)對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價(jià),轉(zhuǎn)換成為能夠最終被理解的知識(shí)。

知識(shí)的運(yùn)用:第三方物流企業(yè)將分析所得到的知識(shí)集成到物流業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

評價(jià)數(shù)據(jù)挖掘軟件需要考慮的問題

越來越多的軟件供應(yīng)商加入了數(shù)據(jù)挖掘這一領(lǐng)域的競爭。第三方物流企業(yè)如何正確評價(jià)一個(gè)商業(yè)軟件,選擇合適的軟件成為數(shù)據(jù)挖掘成功應(yīng)用的關(guān)鍵。評價(jià)一個(gè)數(shù)據(jù)挖掘軟件主要應(yīng)從以下四個(gè)主要方面:

計(jì)算性能:如該軟件能否在不同的物流業(yè)務(wù)平臺(tái)運(yùn)行;軟件的架構(gòu);能否連接不同的數(shù)據(jù)源;操作大數(shù)據(jù)集時(shí),性能變化是線性的還是指數(shù)的;算的效率;是否基于組件結(jié)構(gòu)易于擴(kuò)展;運(yùn)行的穩(wěn)定性等;

功能性:如軟件是否提供足夠多樣的算法;能否避免挖掘過程黑箱化;軟件提供的算法能否應(yīng)用于多種類型的數(shù)據(jù);第三方物流企業(yè)能否調(diào)整算法和算法的參數(shù);軟件能否從數(shù)據(jù)集隨機(jī)抽取數(shù)據(jù)建立預(yù)挖掘模型;能否以不同的形式表現(xiàn)挖掘結(jié)果等。

可用性:如用戶界面是否友好;軟件是否易學(xué)易用;軟件面對的用戶是初學(xué)者、高級用戶還是專家;錯(cuò)誤報(bào)告對用戶調(diào)試是否有很大幫助。

第6篇

引言

一、數(shù)據(jù)挖掘技術(shù)的含義

數(shù)據(jù)挖掘是從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)趨勢和模式的過程,它融合了現(xiàn)代統(tǒng)計(jì)學(xué)、知識(shí)信息系統(tǒng)、機(jī)器學(xué)習(xí)、決策理論和數(shù)據(jù)庫管理等多學(xué)科的知識(shí)。它能有效地從大量的、不完全的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的潛在有用的信息和知識(shí),揭示出大量數(shù)據(jù)中復(fù)雜的和隱藏的關(guān)系,為決策提供有用的參考。

二、數(shù)據(jù)挖掘的方法和基本步驟

(一)數(shù)據(jù)挖掘的主要方法

常用的數(shù)據(jù)挖掘方法主要有決策樹(Decision Tree)、遺傳算法(Genetic Algorithms)、關(guān)聯(lián)分析(Association Analysis)、聚類分析(Cluster Analysis)、序列模式分析(Sequential Pattern)以及神經(jīng)網(wǎng)絡(luò)(Neural Networks)等。

(二)數(shù)據(jù)挖掘的基本步驟

SAS研究所提出的SEMMA方法是目前最受歡迎的一種數(shù)據(jù)挖掘方法,其描述的數(shù)據(jù)挖掘的大致過程包括取樣(Sample)、探索(Explore)、修改(Modify)、模型(Model)和評價(jià)(Assess)。

1.數(shù)據(jù)取樣

在進(jìn)行數(shù)據(jù)挖掘之前,首先要根據(jù)數(shù)據(jù)挖掘的目標(biāo)選定相關(guān)的數(shù)據(jù)庫。通過創(chuàng)建一個(gè)或多個(gè)數(shù)據(jù)表進(jìn)行抽樣。所抽取的樣本數(shù)據(jù)量既要大到足以包含有實(shí)際意義的信息,同時(shí)又不至于大到無法處理。

2.數(shù)據(jù)探索

數(shù)據(jù)探索就是對數(shù)據(jù)進(jìn)行深入調(diào)查的過程,通過對數(shù)據(jù)進(jìn)行深入探察以發(fā)現(xiàn)隱藏在數(shù)據(jù)中預(yù)期的或未被預(yù)期的關(guān)系和異常,從而獲取對事物的理解和概念。

3.數(shù)據(jù)調(diào)整

在上述兩個(gè)步驟的基礎(chǔ)上對數(shù)據(jù)進(jìn)行增刪、修改,使之更明確、更有效。

4.建模

使用人工神經(jīng)網(wǎng)絡(luò)、回歸分析、決策樹、時(shí)間序列分析等分析工具來建立模型,從數(shù)據(jù)中發(fā)現(xiàn)那些能夠?qū)︻A(yù)測結(jié)果進(jìn)行可靠預(yù)測的模型。

5.評價(jià)

就是對從數(shù)據(jù)挖掘過程中發(fā)現(xiàn)的信息的實(shí)用性和可靠性進(jìn)行評估。

三、數(shù)據(jù)挖掘在管理會(huì)計(jì)中的運(yùn)用

(一)數(shù)據(jù)挖掘在管理會(huì)計(jì)中運(yùn)用的重要意義

1.提供有力的決策支持

面對日益激烈的競爭環(huán)境,企業(yè)管理者對決策信息的需求也越來越高。管理會(huì)計(jì)作為企業(yè)決策支持系統(tǒng)的重要組成部分,提供更多、更有效的有用信息責(zé)無旁貸。因此,從海量數(shù)據(jù)中挖掘和尋求知識(shí)和信息,為決策提供有力支持成為管理會(huì)計(jì)師使用數(shù)據(jù)挖掘的強(qiáng)大動(dòng)力。例如,數(shù)據(jù)挖掘可以幫助企業(yè)加強(qiáng)成本管理,改進(jìn)產(chǎn)品和服務(wù)質(zhì)量,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本。

2.贏得戰(zhàn)略競爭優(yōu)勢的有力武器

實(shí)踐證明數(shù)據(jù)挖掘不僅能明顯改善企業(yè)內(nèi)部流程,而且能夠從戰(zhàn)略的高度對企業(yè)的競爭環(huán)境、市場、顧客和供應(yīng)商進(jìn)行分析,以獲得有價(jià)值的商業(yè)情報(bào),保持和提高企業(yè)持續(xù)競爭優(yōu)勢。如,對顧客價(jià)值分析能夠?qū)槠髽I(yè)創(chuàng)造80%價(jià)值的20%的顧客區(qū)分出來,對其提供更優(yōu)質(zhì)的服務(wù),以保持這部分顧客。

3.預(yù)防和控制財(cái)務(wù)風(fēng)險(xiǎn)

利用數(shù)據(jù)挖掘技術(shù)可以建立企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型。企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的發(fā)生并非一蹴而就,而是一個(gè)積累的、漸進(jìn)的過程,通過建立財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,可以隨時(shí)監(jiān)控企業(yè)財(cái)務(wù)狀況,防范財(cái)務(wù)危機(jī)的發(fā)生。另外,也可以利用數(shù)據(jù)挖掘技術(shù),對企業(yè)籌資和投資過程中的行為進(jìn)行監(jiān)控,防止惡意的商業(yè)欺詐行為,維護(hù)企業(yè)利益。尤其是在金融企業(yè),通過數(shù)據(jù)挖掘,可以解決銀行業(yè)面臨的如信用卡的惡意透支及可疑的信用卡交易等欺詐行為。根據(jù)SEC的報(bào)告,美國銀行、美國第一銀行、聯(lián)邦住房貸款抵押公司等數(shù)家銀行已采用了數(shù)據(jù)挖掘技術(shù)。

第7篇

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析

中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1007-9416(2015)11-0000-00

隨著我國網(wǎng)絡(luò)技術(shù)的快速發(fā)展,大數(shù)據(jù)挖掘技術(shù)越來越成為影響影響網(wǎng)絡(luò)信息發(fā)展的重要因素,而大數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容以及經(jīng)常采用的主要方法直接影響了我國未來網(wǎng)絡(luò)技術(shù)的發(fā)展方向。因此,這一技術(shù)的發(fā)展直接影響了網(wǎng)絡(luò)的發(fā)展。本文從大數(shù)據(jù)挖掘技術(shù)的角度出發(fā),研究大數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況。

1大數(shù)據(jù)挖掘技術(shù)的概念分析

大數(shù)據(jù)挖掘及時(shí)是KDD的一個(gè)重要的過程,這種技術(shù)是從許多數(shù)據(jù)中還有一些不完整的應(yīng)用中,以及一些比較純凈的應(yīng)用或者是模糊不清的應(yīng)用中隨機(jī)抽取出來的。這些抽取出來的數(shù)據(jù)都是潛在存在的,但是不為人所發(fā)現(xiàn)的信息內(nèi)容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是發(fā)現(xiàn)知識(shí)的一個(gè)過程。

通常情況下,大數(shù)據(jù)挖掘系統(tǒng)主要包含七方面的內(nèi)容:用戶圖形界面接口、模式評估、數(shù)據(jù)挖掘引擎、數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器、數(shù)據(jù)基地、數(shù)據(jù)倉庫以及知識(shí)儲(chǔ)備庫(如圖1所示)。由圖1可知,數(shù)據(jù)庫還有數(shù)據(jù)倉庫服務(wù)器有大量的信息和數(shù)據(jù),這些數(shù)據(jù)對很多用戶都有著吸引力。圖1中的知識(shí)儲(chǔ)存庫是一個(gè)簡單的應(yīng)用,用這個(gè)知識(shí)儲(chǔ)存庫來進(jìn)行知識(shí)的探索和評價(jià),從而確定總體的模式是不是有意義。數(shù)據(jù)挖掘引擎是整個(gè)大數(shù)據(jù)挖掘系統(tǒng)中十分重要的組成內(nèi)容。它能夠?qū)?shù)據(jù)的特征、關(guān)聯(lián)、類別、價(jià)值等進(jìn)行分類。模式評估的主要功能是在對數(shù)據(jù)進(jìn)行評價(jià)的同時(shí)還要和大數(shù)據(jù)挖掘技術(shù)相互聯(lián)系,從而把大數(shù)據(jù)挖掘的技術(shù)全面的應(yīng)用到系統(tǒng)中。模型的進(jìn)口是用戶圖形界面的接口。能夠方便使用者使用這一模型。并且利用大數(shù)據(jù)挖掘技術(shù)進(jìn)行信息的查詢和分析。

2大數(shù)據(jù)挖掘技術(shù)的應(yīng)用與挑戰(zhàn)

2.1挖掘?qū)ο?/p>

大數(shù)據(jù)的挖掘技術(shù)面對的主要對象為大的數(shù)據(jù)庫。這樣一來能夠有效的進(jìn)行信息的搜索和查詢。

2.2大數(shù)據(jù)挖掘技術(shù)體現(xiàn)形式局限性

當(dāng)前,大數(shù)據(jù)挖掘技術(shù)在處理數(shù)據(jù)以及信息的時(shí)候所使用的方法比較有限,具有一定的局限性。通常情況下,這種技術(shù)能夠分析數(shù)值型的數(shù)據(jù),數(shù)據(jù)內(nèi)容比較簡單,可是仍然不能夠?qū)ξ谋疚募⒐健D片等這種沒有結(jié)構(gòu)或者是無結(jié)構(gòu)的數(shù)據(jù)形式開展數(shù)據(jù)挖掘的工作。

2.3使用人員參加的過程和相關(guān)領(lǐng)域的信息

通常情況下,大數(shù)據(jù)挖掘技術(shù)的過程常常要進(jìn)行信息和數(shù)據(jù)的交流。當(dāng)前,所實(shí)用的數(shù)據(jù)挖掘系統(tǒng)很難讓使用者參與到信息以及數(shù)據(jù)的篩選過程中。使用人員自身的知識(shí)能力以及經(jīng)驗(yàn)對挖掘的開展速度有著直接的影響。而且能夠順利的獲取大量的利用度十分高的數(shù)據(jù)信息等。

2.4進(jìn)行知識(shí)的表現(xiàn)和內(nèi)容的解析

很多應(yīng)用程序中主要的內(nèi)容都是用戶自己發(fā)現(xiàn)并分析出來的知識(shí)。這就需要大數(shù)據(jù)技術(shù)在挖掘信息的時(shí)候不但要有分析數(shù)字還有符號的能力還需要對圖片、語言等理解分析的技術(shù)。

2.5幫助保護(hù)知識(shí)內(nèi)容和信息的更新?lián)Q代

伴隨著知識(shí)量的增多,以往舊的知識(shí)會(huì)逐漸的失去自己的作用,被新的知識(shí)內(nèi)容所取代。所以知識(shí)需要不斷的保護(hù)和進(jìn)行及時(shí)的更新?lián)Q代。當(dāng)前采取的主要更新知識(shí)的方法包括維護(hù)關(guān)聯(lián)規(guī)則的增量算法等。

2.6支持局限性的系統(tǒng)發(fā)展

當(dāng)前的大數(shù)據(jù)挖掘系統(tǒng)還不能夠在廣大的系統(tǒng)平臺(tái)上進(jìn)行推廣使用。一些應(yīng)用程序是應(yīng)用在PC上面的,還有一些應(yīng)用是針對大型的主機(jī)系統(tǒng)中的。除此之外,還有一些是專門針對用戶的。

3結(jié)語

數(shù)據(jù)挖掘技術(shù)是近幾年新產(chǎn)生的網(wǎng)絡(luò)技術(shù),可是它的廣泛應(yīng)用性受到了很多公司以及研究人員的喜愛。這些年來,伴隨著時(shí)間的推移以及網(wǎng)絡(luò)技術(shù)的不斷發(fā)展大數(shù)據(jù)挖掘技術(shù)不斷的被更新,開發(fā),而且在金融、管理、教學(xué)等行業(yè)中都得到了廣泛的應(yīng)用。我相信隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用面將會(huì)越來越廣。

參考文獻(xiàn)

[1]呂竹筠,張興旺,李晨暉 等.信息資源管理與云服務(wù)融合的內(nèi)涵即共性技術(shù)體系研究[J].情報(bào)理論與實(shí)踐,2012,35(09):26-32.

[2]《中國電子科學(xué)研究院學(xué)報(bào)》編輯部.大數(shù)據(jù)時(shí)代[J].中國電子科技研究院學(xué)報(bào),2013(01):41-43.

[3]淮曉永,熊范倫,趙星.一種基于粗集理論的增量式分類規(guī)則知識(shí)挖掘方法.南京大學(xué)學(xué)報(bào)(自然科學(xué)版,計(jì)算機(jī)專輯),2000,(11):203~209.

[4]方開泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1992:189~193.

第8篇

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);CRM;應(yīng)用

前言

改革開放以來,我國不斷進(jìn)行市場經(jīng)濟(jì)體制改革,從計(jì)劃經(jīng)濟(jì)體制向市場經(jīng)濟(jì)體制轉(zhuǎn)型,帶動(dòng)了我國市場經(jīng)濟(jì)的蓬勃發(fā)展,大量的企業(yè)和工廠上市,產(chǎn)品及商品日益豐富,出現(xiàn)同種商品可以有多種廠家選擇的局勢。企業(yè)在市場中的競爭面臨重大的挑戰(zhàn)。企業(yè)本文闡述了數(shù)據(jù)挖掘的任務(wù)及功能,介紹了CRM的概念、內(nèi)涵及體系結(jié)構(gòu),從挖掘潛在客戶、獲取新客戶、提升現(xiàn)有客戶價(jià)值以及留住可能流失的客戶四個(gè)方面論述了數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用,進(jìn)而從確定與分析目標(biāo)、數(shù)據(jù)選擇與準(zhǔn)備、模型構(gòu)造以及模型評估四個(gè)方面分析了數(shù)據(jù)挖掘在CRM的具體實(shí)施,為數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用提供科學(xué)的有效指導(dǎo)。現(xiàn)綜述如下。

一、數(shù)據(jù)挖掘概念、任務(wù)及功能

1.概念

數(shù)據(jù)挖掘技術(shù)(Data mining techniques),又稱為資料探勘技術(shù)或數(shù)據(jù)采礦技術(shù),是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(Knowledge-Discovery in Databases,KDD)的構(gòu)成步驟[1]。一般是指利用計(jì)算機(jī)科學(xué)技術(shù),依靠過去的經(jīng)驗(yàn)法則,通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等眾多方法從大量的模糊、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中自動(dòng)搜索隱藏于其中有著特殊關(guān)系性且屬于關(guān)聯(lián)規(guī)則學(xué)習(xí)的信息的過程[2]。

2.任務(wù)

數(shù)據(jù)挖掘任務(wù)主要有兩個(gè):描述和預(yù)測[3]。描述性數(shù)據(jù)挖掘技術(shù)用來描述數(shù)據(jù)庫中模糊、隨機(jī)或不完全數(shù)據(jù)的一般特性;而預(yù)測性數(shù)據(jù)挖掘技術(shù)用來對當(dāng)前所描述的實(shí)際應(yīng)用數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行推斷,以進(jìn)行預(yù)測。

3.功能

數(shù)據(jù)挖掘技術(shù)能夠根據(jù)用戶和應(yīng)用的不同來進(jìn)行調(diào)整,其功能主要有:首先,它能夠?qū)Ω拍钸M(jìn)行一般描述(描述對象的共有特征)和差別描述(描述不同對象的差別特征);其次,它能夠進(jìn)行描述對象的關(guān)聯(lián)性分析、通過關(guān)聯(lián)性分析,挖掘?qū)ο笾g的關(guān)聯(lián)性規(guī)則[4];其三,它能夠通過對數(shù)據(jù)庫的描述、關(guān)聯(lián)分析,確定規(guī)則函數(shù),進(jìn)而對未知數(shù)據(jù)進(jìn)行分類和預(yù)測;其四,它能夠產(chǎn)生類標(biāo)記,依據(jù)不同的規(guī)則對數(shù)據(jù)進(jìn)行聚類或分組;最后,它能夠?qū)μ貏e的數(shù)據(jù)和模型進(jìn)行單獨(dú)分析。

二、CRM概念、內(nèi)涵及體系結(jié)構(gòu)

1.概念

客戶關(guān)系管理(customerrelationshipmanagement,CRM)是指企業(yè)通過互聯(lián)網(wǎng)、數(shù)據(jù)挖掘、商務(wù)智能、電子商務(wù)、無線設(shè)備等現(xiàn)代化IT信息技術(shù)等工具或手段來協(xié)調(diào)企業(yè)與顧客間在銷售、營銷和服務(wù)上的交互,不斷提升其管理機(jī)制和服務(wù)方式,挖掘潛在客戶,獲取新客戶、提升現(xiàn)有客戶價(jià)值以及留住可能流失的客戶,從而提高客戶收益率,擴(kuò)大市場份額,提高市場競爭力的管理過程[5]。

2.內(nèi)涵

客戶關(guān)系管理CRM是一種管理理念,是一種信息行業(yè)用語,是一種新型管理機(jī)制,是一種創(chuàng)新的管理理念,也是一種管理軟件和技術(shù)。客戶關(guān)系管理CRM的核心是客戶價(jià)值管理,通過對客戶的資料進(jìn)行分析、整理以及整合,來提高客戶量。其中價(jià)值管理體現(xiàn)在通過協(xié)調(diào)與顧客間在銷售、營銷和服務(wù)上的交互,創(chuàng)新管理模式和運(yùn)行模式,保持客戶價(jià)值以及提升客戶價(jià)值[6]。

客戶關(guān)系管理CRM的主要內(nèi)容包括:一方面,針對客戶關(guān)系,首先體現(xiàn)在對客戶關(guān)系的認(rèn)識(shí)、選擇以及關(guān)系建立方面;其次,對已建立的客戶關(guān)系的維持方面。再次,針對有可能流失的客戶關(guān)系,如何進(jìn)行關(guān)系恢復(fù)以及挽回方面。另一方面,針對可采用的現(xiàn)代化IT信息技術(shù)等工具或手段的建設(shè)方面,如互聯(lián)網(wǎng)、軟件應(yīng)用、數(shù)據(jù)庫、資料分析、電子商務(wù)以及移動(dòng)設(shè)備客戶端等。

3.體系結(jié)構(gòu)

客戶關(guān)系管理CRM的體系結(jié)構(gòu)主要有操作型CRM、分析型CRM以及協(xié)作型CRM[7]。操作型CRM促使企業(yè)完成市場、銷售到服務(wù)的業(yè)務(wù)流程,并且采集客戶數(shù)據(jù)。分析型CRM對市場、銷售到服務(wù)的業(yè)務(wù)流程中的客戶數(shù)據(jù)進(jìn)行整理和分析。協(xié)作型CRM將多種溝通渠道獲取的客戶信息進(jìn)行整合,確保溝通渠道的暢通。

三、數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用

1.挖掘潛在客戶

通過數(shù)據(jù)挖掘技術(shù),按照對企業(yè)有意義的潛在客戶的標(biāo)準(zhǔn)或原則,對大量模糊、不確定的客戶的個(gè)性特征(年齡、性別)、消費(fèi)能力以及購買記錄等可得數(shù)據(jù)進(jìn)行針對性分析,確定出對企業(yè)有意義的潛在客戶,作為企業(yè)客戶關(guān)系管理的實(shí)施對象。

2.獲取新客戶

針對對企業(yè)有意義的潛在客戶進(jìn)行分析和預(yù)測,對不同類型的客戶采取不同的營銷策略,并且及時(shí)根據(jù)客戶對于營銷的反饋情況進(jìn)行調(diào)整,說服潛在的客戶使用企業(yè)的產(chǎn)品或者服務(wù),發(fā)展為企業(yè)有意義的確定客戶。

3.提升現(xiàn)有客戶價(jià)值

提升現(xiàn)有客戶價(jià)值主要是指現(xiàn)有客戶獲取更過更好的產(chǎn)品或服務(wù)的同時(shí),企業(yè)獲取更高的銷售額。通過數(shù)據(jù)挖掘技術(shù)的“交叉銷售”和“一對一營銷”[8],一方面,“交叉銷售”能夠分析出最受客戶歡迎的產(chǎn)品或服務(wù)的最佳配比,從而增加與客戶的交易次數(shù)。另一方面,“一對一營銷”則可以通過專業(yè)、具有特色的產(chǎn)品或服務(wù)模式保證與客戶的長期合作關(guān)系以及最大數(shù)量的保證每次交易的利潤。

4.留住可能流失的客戶

如何留住可能流失的客戶,應(yīng)該要對客戶進(jìn)行甄別、預(yù)測和分類,挖掘出優(yōu)質(zhì)客戶并分組,對于可能流失優(yōu)質(zhì)客戶的個(gè)性特征(年齡、性別)、消費(fèi)能力以及購買記錄等做出描述,采用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析等方法分析優(yōu)質(zhì)客戶可能流失的原因,尤其要確定優(yōu)質(zhì)客戶可能流失的原因,及時(shí)地針對企業(yè)的管理模式或經(jīng)營理念做出調(diào)整。

四、數(shù)據(jù)挖掘在CRM的具體實(shí)施

1.確定與分析目標(biāo)

數(shù)據(jù)挖掘在CRM的具體實(shí)施,首先要確定與分析目標(biāo),對于企業(yè)而言,也就是說要確定要達(dá)成什么樣的商業(yè)目標(biāo),考慮要達(dá)成商業(yè)目標(biāo)的具體參考標(biāo)準(zhǔn)或準(zhǔn)則,如銷售額度、市場份額以及客戶數(shù)量等等數(shù)據(jù)。

2.數(shù)據(jù)選擇與準(zhǔn)備

對于數(shù)據(jù)的選擇和準(zhǔn)備,主要針對數(shù)據(jù)的來源、數(shù)據(jù)庫的建立、是否能夠使用以及有參考的數(shù)據(jù)等等進(jìn)行選擇,之后,對于選擇的數(shù)據(jù)庫需要進(jìn)行必要的預(yù)處理和轉(zhuǎn)換,以便后期可以通過數(shù)據(jù)挖掘技術(shù)進(jìn)行分析、預(yù)測和整合。

3.模型構(gòu)造

模型構(gòu)造是數(shù)據(jù)挖掘技術(shù)在CRM的具體實(shí)施中的重要步驟。涉及到的具體工作主要有根據(jù)預(yù)先確定的企業(yè)商業(yè)目標(biāo),選取最合適的數(shù)據(jù)挖掘技術(shù)類型,針對選取的數(shù)據(jù)挖掘技術(shù)類型確定培訓(xùn)數(shù)據(jù)和測試數(shù)據(jù),參照培訓(xùn)數(shù)據(jù)和測試數(shù)據(jù),確定算法或準(zhǔn)則,從而構(gòu)造數(shù)據(jù)挖掘技術(shù)模型。

4.模型評估

數(shù)據(jù)挖掘技術(shù)模式構(gòu)建以后,能否應(yīng)用于確定的企業(yè)商業(yè)目標(biāo),需要進(jìn)行評估。而模型評估的手段是通過測試數(shù)據(jù),對構(gòu)建的模型數(shù)據(jù)庫進(jìn)行基礎(chǔ)測試和比較,計(jì)算誤差和誤差發(fā)生的概率。如果誤差不大,達(dá)到了預(yù)期的商業(yè)目標(biāo),說明構(gòu)建的模型是滿意的,企業(yè)可以進(jìn)行應(yīng)用。若誤差概率較大,沒有達(dá)到預(yù)期的商業(yè)目標(biāo),則說明構(gòu)建的模型是不滿意的,此時(shí)應(yīng)該分析數(shù)據(jù)出現(xiàn)出差的原因,重新選擇合適的數(shù)據(jù)挖掘技術(shù)類型,確定新的培訓(xùn)數(shù)據(jù)和測試數(shù)據(jù)以及新的算法或準(zhǔn)則,建立新的模型并且重新評估。但若設(shè)定的商業(yè)太不切合實(shí)際,則需要更改商業(yè)目標(biāo)。

討論

隨著科學(xué)技術(shù)的發(fā)展和經(jīng)濟(jì)的進(jìn)步,產(chǎn)品不斷換代和升級,客戶享有越來越多的選擇權(quán),而企業(yè)在市場中的競爭面臨重大的挑戰(zhàn)。客戶價(jià)值的發(fā)展、保留和提升成為企業(yè)有機(jī)發(fā)展的核心。如何通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)潛在價(jià)值的客戶,保留已有價(jià)值客戶以及提升客戶的價(jià)值,對于提高企業(yè)在市場中的競爭實(shí)力,促進(jìn)企業(yè)發(fā)展具有重要的意義。企業(yè)應(yīng)該認(rèn)識(shí)到數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理CRM中的重要應(yīng)用價(jià)值,在企業(yè)完成市場、銷售到服務(wù)的整個(gè)業(yè)務(wù)流程中,采取有效的數(shù)據(jù)挖掘技術(shù),為企業(yè)的管理及決策提供支持,不斷提升其管理機(jī)制和服務(wù)方式,挖掘潛在客戶,獲取新客戶、提升現(xiàn)有客戶價(jià)值以及留住可能流失的客戶,擴(kuò)寬市場占有份額,最終達(dá)到企業(yè)利潤最大化的目的,前景廣闊。(作者單位:陽光動(dòng)力能源互聯(lián)網(wǎng)股份公司)

參考文獻(xiàn):

[1]張?zhí)烊穑谔毂耄w海峰等.數(shù)據(jù)挖掘技術(shù)在全斷面掘進(jìn)機(jī)故障診斷中的應(yīng)用[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(4):527-531,541

[2]安存紅,高祥曉,韓春麗等.利用數(shù)據(jù)挖掘技術(shù)構(gòu)建基于審計(jì)數(shù)據(jù)倉庫的商業(yè)銀行新型審計(jì)模型[J].中國鄉(xiāng)鎮(zhèn)企業(yè)會(huì)計(jì),2014,(4):171-172.

[3]高燕飛,陳俊杰.試析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012,41(4):44-46.

[4]蔣紅,朱敏.數(shù)據(jù)挖掘技術(shù)在教師培訓(xùn)需求分析中的應(yīng)用――以寧波市教師培訓(xùn)項(xiàng)目數(shù)據(jù)為例[J].寧波教育學(xué)院學(xué)報(bào),2015,17(3):73-76.

[5]薄奮勇,武瑞慶,韓世良等.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在煤化工行業(yè)設(shè)備中的研究及應(yīng)用[C].//第22屆全國煤礦自動(dòng)化與信息化學(xué)術(shù)會(huì)議暨第4屆中國煤礦信息化與自動(dòng)化高層論壇論文集.2012:436-439.

[6]宋淑彩,祁愛華,王劍雄等.面向Web的數(shù)據(jù)挖掘技術(shù)在網(wǎng)站優(yōu)化中的個(gè)性化推薦方法的研究與應(yīng)用[J].科技通報(bào),2012,28(2):117-119.

第9篇

【關(guān)鍵詞】數(shù)據(jù)挖掘 市場應(yīng)用 關(guān)聯(lián)規(guī)則 聚類 知識(shí)發(fā)現(xiàn)

一、引言

隨著我國市場經(jīng)濟(jì)環(huán)境下信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,從而產(chǎn)生了大量的數(shù)據(jù)。為給決策者提供一個(gè)統(tǒng)一的全局視角,在許多領(lǐng)域建立了數(shù)據(jù)倉庫。但大量的數(shù)據(jù)往往使人們無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)也正是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。

數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級的階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。

二、數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。

數(shù)據(jù)挖掘的功能主要包括關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時(shí)序模式和偏差分析等。

數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟。

各步驟的大體內(nèi)容如下:

1、確定業(yè)務(wù)對象。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。

2、數(shù)據(jù)準(zhǔn)備。首先是數(shù)據(jù)的選擇。搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。接下來對數(shù)據(jù)進(jìn)行預(yù)處理。研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。此外,還要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型。這個(gè)分析模型是針對挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。

3、數(shù)據(jù)挖掘。對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。

4、結(jié)果分析。使用可視化技術(shù)等分析方法解釋并評估結(jié)果。

5、知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

三、數(shù)據(jù)挖掘常用技術(shù)

1、人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問題(當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多)。神經(jīng)網(wǎng)絡(luò)常用于分類和回歸兩類問題。

2、決策樹。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。常用的算法有CHAID、 CART、 Quest 和C5.0。決策樹很擅長處理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型數(shù)據(jù)比起來,就免去了很多數(shù)據(jù)預(yù)處理工作。有些決策樹算法專為處理非數(shù)值型數(shù)據(jù)而設(shè)計(jì),因此當(dāng)采用此種方法建立決策樹同時(shí)又要處理數(shù)值型數(shù)據(jù)時(shí),反而要做把數(shù)值型數(shù)據(jù)映射到非數(shù)值型數(shù)據(jù)的預(yù)處理。

3、遺傳算法。基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。

4、聚類分析和模式識(shí)別。聚類分析主要是根據(jù)事物的特征對其進(jìn)行聚類或分類,即所謂物以類聚,以期從中發(fā)現(xiàn)規(guī)律和典型模式。這類技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。除傳統(tǒng)的基于多元統(tǒng)計(jì)分析的聚類方法外,近些年來模糊聚類和神經(jīng)網(wǎng)絡(luò)聚類方法也有了長足的發(fā)展。

5、統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)雖然是一門“古老的”學(xué)科,但它依然是最基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析,如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等。

6、可視化技術(shù)。可視化技術(shù)是數(shù)據(jù)挖掘不可忽視的輔助技術(shù)。數(shù)據(jù)挖掘通常會(huì)涉及較復(fù)雜的數(shù)學(xué)方法和信息技術(shù),為了方便用戶理解和使用這類技術(shù),必須借助圖形、圖象、動(dòng)畫等手段形象地指導(dǎo)操作、引導(dǎo)挖掘和表達(dá)結(jié)果等,否則很難推廣普及數(shù)據(jù)挖掘技術(shù)。

四、數(shù)據(jù)挖掘的市場應(yīng)用

目前,數(shù)據(jù)挖掘技術(shù)在各個(gè)領(lǐng)域引起了廣泛的關(guān)注,特別是在科學(xué)研究、市場行銷、金融投資、欺詐甄別、產(chǎn)品制造、通信網(wǎng)絡(luò)管理、INTERNET應(yīng)用等許多方面已經(jīng)開發(fā)了比較成熟的應(yīng)用軟件。

1、在科學(xué)研究中的應(yīng)用。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,實(shí)驗(yàn)數(shù)據(jù)量越來越大,傳統(tǒng)的數(shù)據(jù)分析的工具有時(shí)會(huì)無能為力,因此必須有強(qiáng)大的智能自動(dòng)數(shù)據(jù)分析工具才行。數(shù)據(jù)挖掘在科學(xué)研究中的一成功應(yīng)用實(shí)例是Fayyad和他的同事們在加利福尼亞Pasadena的JePropulsion實(shí)驗(yàn)室,應(yīng)用決策樹和基于規(guī)則的方法發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類星體。

2、在零售行業(yè)上的應(yīng)用。這是數(shù)據(jù)挖掘技術(shù)應(yīng)用最早也是最重要的領(lǐng)域,如用于顧客購貨籃的分析可以協(xié)助貨架布置,促銷活動(dòng)時(shí)間,促銷商品組合以及了解滯銷和暢銷商品狀況等商業(yè)活動(dòng)。通過對一種廠家商品在各連鎖店的市場共享分析,客戶統(tǒng)計(jì)以及歷史狀況的分析,可以確定銷售和廣告業(yè)務(wù)的有效性。

3、在金融投資領(lǐng)域的應(yīng)用。金融方面:銀行信用卡和保險(xiǎn)行業(yè),預(yù)測存/貸款趨勢,優(yōu)化存/貸款策略,用數(shù)據(jù)挖掘技術(shù)將市場分成有意義的群組和部門,從而協(xié)助市場經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進(jìn)作用的活動(dòng)和設(shè)計(jì)新的市場運(yùn)動(dòng)。

4、在過程控制/質(zhì)量監(jiān)督保證方面的應(yīng)用。數(shù)據(jù)挖掘技術(shù)協(xié)助管理大數(shù)量變量之間的相互作用,數(shù)據(jù)挖掘能自動(dòng)發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問題發(fā)生范圍和采取改正措施。

5、在遠(yuǎn)程通訊部門的應(yīng)用。基于數(shù)據(jù)挖掘技術(shù)的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,確定市場變化模式以指導(dǎo)銷售計(jì)劃。在網(wǎng)絡(luò)容量利用方面,數(shù)據(jù)挖掘能提供對客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對網(wǎng)絡(luò)設(shè)施作出最佳投資決策。

6、化學(xué)/制藥行業(yè)的應(yīng)用。從各種文獻(xiàn)資料總自動(dòng)抽取有關(guān)化學(xué)反應(yīng)的信息,發(fā)現(xiàn)新的有用化學(xué)成分。在遙感領(lǐng)域針對每天從衛(wèi)星上及其它方面來的巨額數(shù)據(jù),對氣象預(yù)報(bào),臭氧層監(jiān)測等能起很大作用。

7、軍事方面的應(yīng)用。使用數(shù)據(jù)挖掘技術(shù)進(jìn)行軍事信息系統(tǒng)中的目標(biāo)特征提取、態(tài)勢關(guān)聯(lián)規(guī)則挖掘等。

五、數(shù)據(jù)挖掘技術(shù)未來研究方向

數(shù)據(jù)挖掘技術(shù)未來的幾個(gè)研究熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘、生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘。

1、網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining)。需求隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌,建立起一個(gè)電子商務(wù)網(wǎng)站并不困難,困難的是如何讓您的電子商務(wù)網(wǎng)站有效益。電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進(jìn)而獲勝,就要比您的競爭對手更了解客戶。

在對電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流(Click-stream),此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測客戶的背景信息,進(jìn)而再加以利用。

就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別。因而對電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。

2、生物信息或基因的數(shù)據(jù)挖掘。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。

對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒有達(dá)到成熟的地步。

需求牽引與市場推動(dòng)是永恒的,數(shù)據(jù)挖掘技術(shù)將首先滿足信息時(shí)代用戶的急需,大量的基于數(shù)據(jù)挖掘技術(shù)的決策支持軟件產(chǎn)品將會(huì)問世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時(shí)地發(fā)現(xiàn)知識(shí),才能為人類的思維決策和戰(zhàn)略發(fā)展服務(wù)。也只有到那時(shí),數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時(shí)代才會(huì)真正到來。

【參考文獻(xiàn)】

[1] Han,J.Kamber,M.Data Mining:Concepts and Techniques.MorganKaufmann Publishers,2000。

[2]BerryMichael.DataMiningTechniques[M].NewYork:JohnWiley&Sons,Inc, 1997。

[3] Jiawei Han Micheline Kamber.Data Mining Concepts and Techniques[M]. Morgan: Kaufmann Publishers 2001。

第10篇

通過計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng)的實(shí)施,對于單位提高工作效率和快速的有針對性的反應(yīng)能力,加強(qiáng)計(jì)量所的標(biāo)準(zhǔn)化、規(guī)范化管理,增強(qiáng)單位在檢測和校準(zhǔn)方面競爭能力有著極其重要的意義。

計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng)的核心就是關(guān)系型數(shù)據(jù)庫。而在數(shù)據(jù)庫方面,數(shù)據(jù)挖掘技術(shù)又是不可或缺的一方面技術(shù),但是縱觀現(xiàn)今的各種計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng),針對數(shù)據(jù)挖掘技術(shù)所進(jìn)行的數(shù)據(jù)結(jié)構(gòu)方面的優(yōu)化卻是少之又少。計(jì)量檢驗(yàn)系統(tǒng)可以利用數(shù)據(jù)挖掘的相關(guān)技術(shù)來實(shí)現(xiàn)需求規(guī)劃、需求預(yù)測、檢定過程的質(zhì)量狀況模式和預(yù)測、短期監(jiān)控分析、各種檢定數(shù)據(jù)和信息的長期走勢分析、過程異常模式分析、質(zhì)量分析、市場預(yù)測、檢定成本需求預(yù)測、檢定收入預(yù)測等。

因此,本文主要針對數(shù)據(jù)挖掘技術(shù)在計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)處理中的應(yīng)用前景進(jìn)行討論。

數(shù) 據(jù)挖 掘是在 人工智 能領(lǐng)域,習(xí)慣上又稱為數(shù) 據(jù)庫中的知 識(shí)發(fā) 現(xiàn)(Knowledge Discovery in Database, KDD), 也有人 把 數(shù) 據(jù) 挖掘視為數(shù) 據(jù)庫 中知 識(shí)發(fā)現(xiàn)過程的一個(gè)基 本步驟。知識(shí)發(fā)現(xiàn)過 程由以下三個(gè)階 段組成:

(1)數(shù)據(jù)準(zhǔn)備。

(2)數(shù)據(jù)挖掘。

(3)結(jié)果表 達(dá)和解 釋。

并且,數(shù) 據(jù)挖掘可以與用戶或知識(shí)庫交互。

數(shù)據(jù)挖掘是通過分析海量數(shù)據(jù),從中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。

關(guān)聯(lián)分析、異常分析、分類分析、聚類分析、演變分析和特異群組分析等構(gòu)成了數(shù)據(jù)挖掘主要的任務(wù)結(jié)構(gòu)。

并非所有的信息發(fā)現(xiàn)任務(wù)都叫做作數(shù)據(jù)挖掘。例如說使用數(shù)據(jù)庫管理系統(tǒng)或者結(jié)構(gòu)化查詢語句查找個(gè)別記錄,或通過互聯(lián)網(wǎng)的搜索引擎查找特定的站點(diǎn)頁面,則是信息檢索(information retrieval)任務(wù)。雖然這些也是非常重要的,同樣會(huì)涉及到復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們還是主要依賴傳統(tǒng)的計(jì)算機(jī)技術(shù)和數(shù)據(jù)明顯的特征來創(chuàng)建索引結(jié)構(gòu),從而可以有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已經(jīng)被用來增強(qiáng)信息檢索系統(tǒng)的能力。

依據(jù)計(jì)量檢驗(yàn)管理系統(tǒng)的一般數(shù)據(jù)庫結(jié)構(gòu),數(shù)據(jù)挖掘模型的應(yīng)用,可簡單的表示為下面的樣例。

首先,通過數(shù)據(jù)源。這里做數(shù)據(jù)挖掘模型,要用到兩張表,一張表是用戶,用用戶ID號來代替;另一張表是那個(gè)用戶送檢了什么設(shè)備。應(yīng)用Microsoft SQL Server的Data Mining工具,建立數(shù)據(jù)挖掘模型。

具體步驟如下:

首先定義數(shù)據(jù)源。選取的為客戶送檢記錄為數(shù)據(jù)源。其次定義數(shù)據(jù)源視圖。在此建立好數(shù)據(jù)挖掘中事例表和嵌套表,并定義兩者之間的關(guān)系,定義用戶信息為事例表(Case Table),委托單為嵌套表(Nested Table)。再次選取Microsoft Association Rules(關(guān)聯(lián)規(guī)則)算法,建立挖掘模型。然后設(shè)置算法參數(shù),部署挖掘模型。最后瀏覽察看挖掘模型。

對于關(guān)聯(lián)規(guī)則算法來說,有三個(gè)可見的選項(xiàng)卡。

1.項(xiàng)集:“項(xiàng)集”選項(xiàng)卡顯示被模型識(shí)別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)的項(xiàng)集的列表。在這里指的是經(jīng)過關(guān)聯(lián)規(guī)則算法處理后,發(fā)現(xiàn)關(guān)聯(lián)在一起的計(jì)量器具的集合。

2.規(guī)則:“規(guī)則”選項(xiàng)卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則。“規(guī)則”選項(xiàng)卡包含一個(gè)具有以下列的網(wǎng)格:“概率”、“重要性”和“規(guī)則”。概率說明出現(xiàn)規(guī)則結(jié)果的可能性。重要性用于度量規(guī)則的用途。盡管規(guī)則出現(xiàn)的概率可能很高,但規(guī)則自身的用途可能并不重要。重要性列就是說明這一情況的。例如,如果每個(gè)項(xiàng)集都包含屬性的某個(gè)特定狀態(tài),那么,即使概率非常高,預(yù)測狀態(tài)的規(guī)則也并不重要。重要性越高,規(guī)則越重要。

3.關(guān)聯(lián)網(wǎng)絡(luò):節(jié)點(diǎn)間的箭頭代表項(xiàng)之間有關(guān)聯(lián)。箭頭的方向表示按照算法發(fā)現(xiàn)的規(guī)則確定的項(xiàng)之間的關(guān)聯(lián)。

通過以上的步驟,我們可以建立起一個(gè)簡單的數(shù)據(jù)挖掘模型。這個(gè)模型在計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng)中的實(shí)際作用可以描述如下。

如果XX縣的一個(gè)電纜廠送檢了一臺(tái)型號為QJ36的直流電橋的話,那么通過數(shù)據(jù)挖掘技術(shù)我們計(jì)量測試所就可以得到如下信息在XX縣有計(jì)量器具檢定事件的100家企業(yè)中電線電纜方面的企業(yè)有85家,其中有73家送檢過直流電橋,在這73臺(tái)直流電橋中QJ36型直流電橋有54臺(tái),并且送檢QJ36型直流電橋的企業(yè)中有53家同時(shí)送檢了直流標(biāo)準(zhǔn)電阻器。

數(shù)據(jù)挖掘技術(shù)可以給我們的信息就是:

1.XX縣工業(yè)以電線電纜行業(yè)為主。

2.直流電橋是電線電纜行業(yè)中普遍存在的計(jì)量器具。

3.該縣電線電纜企業(yè)中使用的直流電橋型號以QJ36為主。

4.QJ36型直流電橋應(yīng)與直流標(biāo)準(zhǔn)電阻器配套使用。

根據(jù)以上情況,計(jì)量測試所的相關(guān)業(yè)務(wù)科室就可以有針對性的對XX縣的電線電纜企業(yè)計(jì)量器具的檢定工作做出集中的安排。并且對大部分企業(yè)中使用的計(jì)量器具的種類和相關(guān)信息由一個(gè)大致上的了解,可以對檢定工作進(jìn)行詳盡的準(zhǔn)備。這樣我們就很容易提升檢定工作的質(zhì)量,提高客戶的滿意度,并且大大的降低了檢定成本。

綜上所述,數(shù)據(jù)挖掘技術(shù)在計(jì)量檢驗(yàn)業(yè)務(wù)管理系統(tǒng)中的應(yīng)用前景是十分廣闊的,通過對海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以使得我們計(jì)量系統(tǒng)在技術(shù)和管理上達(dá)到一個(gè)更高的層面,并且極大的方便了送檢計(jì)量器具的企業(yè)用戶。從而能夠構(gòu)建一個(gè)和諧的局面,并且穩(wěn)定的發(fā)展下去。

參考文獻(xiàn):

第11篇

關(guān)鍵詞:數(shù)據(jù)挖掘;物流;應(yīng)用

中圖分類號:F253.9 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract: Finding useful information and rules from a large number of existing data which hidden in is defined as data mining. Most of the current logistics enterprises have achieved information construction. With the advancement of logistics management, it will produce large amounts of data and how to effectively make use of these data is the key to logistics enterprise modernization. This paper first introduces some data mining methods which commonly used, then expounds the application of data mining technology in the logistics industry, finally points out problems that the logistics enterprises needing attention in the application of data mining technology.

Key words: data mining; logistics; application

隨著科學(xué)技術(shù)的迅猛發(fā)展,信息化程度快速增長,信息過量就成為人們不得不面對的問題。如何在海量的信息中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率,顯然成為人們當(dāng)前亟待解決的問題。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并越來越顯現(xiàn)出其強(qiáng)大的生命力。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識(shí)的過程[1]。即數(shù)據(jù)挖掘產(chǎn)生的前提是需要從多年積累的大量數(shù)據(jù)中找出隱藏在其中的、有用的信息和規(guī)律。某些具有特定應(yīng)用問題和應(yīng)用背景的領(lǐng)域是最能體現(xiàn)數(shù)據(jù)挖掘作用的應(yīng)用領(lǐng)域,例如運(yùn)輸業(yè)、金融業(yè)、保險(xiǎn)業(yè)、零售業(yè)、醫(yī)療、行政司法、工業(yè)部門等社會(huì)部門以及科學(xué)和工程研究單位等。

由于數(shù)據(jù)挖掘技術(shù)的不斷成熟,其逐漸開始被物流企業(yè)所重視。目前,很多物流企業(yè)內(nèi)部都實(shí)現(xiàn)了信息化,伴隨著物流業(yè)務(wù)的處理過程會(huì)產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)技術(shù)越來越成熟,對物流信息的處理速度也越來越快,還有現(xiàn)階段已產(chǎn)生大量數(shù)據(jù)挖掘算法,如聚類檢測、決策樹方法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、關(guān)聯(lián)分析方法、基于記憶的推理算法等,這些為數(shù)據(jù)挖掘在物流業(yè)中的應(yīng)用提供了基礎(chǔ)保證。

物流企業(yè)競爭異常激烈,要想在眾多企業(yè)之中脫穎而出,就要實(shí)現(xiàn)企業(yè)的信息化建設(shè),并有效利用數(shù)據(jù)挖掘技術(shù),收集大量數(shù)據(jù),幫助企業(yè)實(shí)時(shí)了解市場的動(dòng)態(tài),及時(shí)針對快速變化的環(huán)境做出響應(yīng),通過分析預(yù)測,抓住各種重要商機(jī)。如利用收集的數(shù)據(jù)可以預(yù)測客戶行為,推算當(dāng)前物品種類的流通數(shù)量、客戶與物品間的內(nèi)在關(guān)聯(lián)等,便于物流企業(yè)的管理人員及時(shí)制定決策,有利于在對物品的數(shù)量準(zhǔn)備、存儲(chǔ)方式、合理配送等一系列物流過程中有效利用資源,最大限度地提高物流信息管理的工作效率,節(jié)約成本,縮短配送周期,更透徹了解客戶來改善并強(qiáng)化對客戶的服務(wù)。數(shù)據(jù)挖掘技術(shù)還能有效促進(jìn)物流企業(yè)的業(yè)務(wù)處理過程重組,實(shí)現(xiàn)規(guī)模優(yōu)化經(jīng)營。通過合理使用數(shù)據(jù)挖掘技術(shù),企業(yè)可以提高自身的競爭力,促進(jìn)我國物流行業(yè)向更高水平發(fā)展。

1 數(shù)據(jù)挖掘的常用方法

1.1 聚類檢測方法

聚類檢測方法是最早的數(shù)據(jù)挖掘技術(shù)之一,也稱為無指導(dǎo)的知識(shí)發(fā)現(xiàn)或無監(jiān)督學(xué)習(xí)。聚類生成的組叫簇,簇是數(shù)據(jù)對象的集合。聚類檢測的過程就是使同一個(gè)簇內(nèi)的任意兩個(gè)對象之間具有較高的相似性,不同的簇的兩個(gè)對象之間具有較高的相異性。用于數(shù)據(jù)挖掘的聚類檢測方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法等。

1.2 決策樹方法

決策樹主要應(yīng)用于分類和預(yù)測,提供了一種展示類似在什么條件下會(huì)得到什么值的規(guī)則的方法,一個(gè)決策樹表示一系列的問題,每個(gè)問題決定了繼續(xù)下去的問題會(huì)是什么。決策樹的基本組成包括決策節(jié)點(diǎn)、分支和葉子,頂部的節(jié)點(diǎn)稱為“根”,末梢的節(jié)點(diǎn)稱為“葉子”。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常采用的技術(shù),常用的算法有CHAID、CART、Quest、ID3和C5.0等。決策樹適合于處理非數(shù)值型數(shù)據(jù),但如果生成的決策樹過于龐大,會(huì)對結(jié)果的分析帶來困難,因此需要在生成決策樹后再對決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則,用于對新事例進(jìn)行分類。

1.3 人工神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)方法越來越受到人們的關(guān)注,主要因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。人工神經(jīng)網(wǎng)絡(luò)方法主要用于分類、聚類、特征挖掘、預(yù)測等方面。它通過向一個(gè)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)和應(yīng)用所學(xué)知識(shí),生成分類和預(yù)測的模式。對于數(shù)據(jù)是不定性的和沒有任何明顯模式的情況,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)算法比較有效。人工神經(jīng)網(wǎng)絡(luò)方法仿真生物神經(jīng)網(wǎng)絡(luò),其基本單元模仿人腦的神經(jīng)元,被稱為節(jié)點(diǎn);同時(shí)利用鏈接連接節(jié)點(diǎn),類似于人腦中神經(jīng)元之間的連接。人工神經(jīng)網(wǎng)絡(luò)方法主要有:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。

1.4 遺傳算法

遺傳算法模仿人工選擇培育良種的思路,從一個(gè)初始規(guī)則集合開始,迭代地通過交換對象成員(雜交、基因突變)產(chǎn)生群體(繁殖),評估并擇優(yōu)復(fù)制(物競天擇、適者生存),優(yōu)勝劣汰逐代積累計(jì)算,最終得到最有價(jià)值的知識(shí)集。遺傳算法能夠產(chǎn)生一群優(yōu)良后代,這些后代力求滿足適應(yīng)性,經(jīng)過若干代的遺傳,將得到滿足要求的后代,即問題的解。

1.5 關(guān)聯(lián)分析方法

世界上的許多事物相互間都存在著“關(guān)系”,如四通八達(dá)的鐵路、公路將城市連接在一起;處方將醫(yī)生與病人聯(lián)系在一起等。關(guān)聯(lián)分析方法特別適合于從關(guān)系中挖掘知識(shí)。關(guān)聯(lián)分析方法包含關(guān)聯(lián)發(fā)現(xiàn)、序列模式發(fā)現(xiàn)和類似的時(shí)序發(fā)現(xiàn)等。

1.6 基于記憶的推理算法

基于記憶的推理算法使用一個(gè)模型的已知實(shí)例來預(yù)測未知的實(shí)例,使用基于記憶的推理算法時(shí),要求預(yù)先已有一個(gè)已知的數(shù)據(jù)集(稱作基本數(shù)據(jù)集或訓(xùn)練數(shù)據(jù)集),并且已知這個(gè)數(shù)據(jù)集中記錄的特征。當(dāng)需要評估一條新記錄時(shí),該算法在已知數(shù)據(jù)集中找到和新記錄類似的記錄(稱為“鄰居”),然后使用鄰居的特征對新記錄預(yù)測和分類[1]。

2 數(shù)據(jù)挖掘技術(shù)在物流中的應(yīng)用

2.1 對市場進(jìn)行預(yù)測

隨著市場競爭的加劇、企業(yè)精細(xì)化管理愿望的增強(qiáng),以及先進(jìn)技術(shù)方法的開發(fā)應(yīng)用,對數(shù)據(jù)進(jìn)行挖掘利用已成為物流企業(yè)推出商品、爭取客戶、增加利潤、提升自我競爭力的突破口。物流企業(yè)產(chǎn)生的數(shù)據(jù)量龐大、更新快,并且來源多樣化,通過對這些數(shù)據(jù)進(jìn)行有效挖掘,可以確定客戶群,并推出有競爭力的商品。商品具有一定的生命周期,一旦該商品進(jìn)入市場,其銷售量和利潤都會(huì)隨時(shí)間的推移而發(fā)生變化。不同階段,商品的生產(chǎn)、配送、銷售策略各不相同,這需要提前進(jìn)行生產(chǎn)計(jì)劃、生產(chǎn)作業(yè)安排及提前配置庫存和提前制定運(yùn)輸策略,即物流企業(yè)要注重商品的生命周期,合理地控制庫存和安排運(yùn)輸,對不同的商品對象建立相應(yīng)的預(yù)測模型。物流企業(yè)可以通過聚類分析作為市場預(yù)測的手段,為決策提供依據(jù)[2]。

2.2 對物流中心的選址

物流中心選址是構(gòu)建物流體系過程中極為重要的部分,其主要是求解運(yùn)輸成本、變動(dòng)處理成本和固定成本等之和的最小化問題。選址需要考慮中心點(diǎn)如何分布和中心點(diǎn)數(shù)量等,尤其是多中心選址的問題。多中心選址是指在一些已知的備選地點(diǎn)中選出一定數(shù)目的地點(diǎn)來設(shè)置物流中心,使形成的物流網(wǎng)絡(luò)的總代價(jià)(主要指費(fèi)用)最低。在實(shí)際操作中,當(dāng)問題規(guī)模變得很大或者要考慮一些市場因素(如顧客需求量)時(shí),數(shù)學(xué)規(guī)劃就存在一些困難。針對這一問題,可以用數(shù)據(jù)挖掘中分類樹的方法來解決。

2.3 物流管理中的倉儲(chǔ)

電子商務(wù)的快速發(fā)展,使得現(xiàn)代物流管理對倉儲(chǔ)的要求越來越高。合理安排商品的存儲(chǔ)、擺放商品,提高揀貨效率、壓縮商品的存儲(chǔ)成本、提供更多客戶自定義產(chǎn)品和服務(wù)、提供更多的增值服務(wù)等是當(dāng)前物流管理者必須思考的問題。利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析方法可以幫助優(yōu)化倉庫的存儲(chǔ)。關(guān)聯(lián)分析方法的主要目的就是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。

2.4 優(yōu)化物流的配送路徑

配送路徑的選取直接影響著物流企業(yè)的配送效率。物流配送體系中,管理人員需要采取有效的配送策略以提高服務(wù)水平、降低整體運(yùn)輸成本。首先,要解決配送路徑問題。配送路徑是車輛確定到達(dá)客戶的路徑,每一客戶只能被訪問一次且每條路徑上的客戶需求量之和不能超過車輛的承載能力。其次,提高配送車輛的有效利用率。如果在運(yùn)輸過程中車輛空載或不能充分利用車輛的運(yùn)送能力,就會(huì)增加物流企業(yè)的運(yùn)輸費(fèi)用。最后還要考慮商品的規(guī)格大小和利潤價(jià)值的高低。遺傳算法可以對物流的配送路徑進(jìn)行優(yōu)化,它可以把在局部優(yōu)化時(shí)的最優(yōu)路線繼承下來,應(yīng)用于整體,而其他剩余的部分則結(jié)合區(qū)域周圍的剩余部分(即非遺傳的部分)進(jìn)行優(yōu)化,輸出送貨線路車輛調(diào)度的動(dòng)態(tài)優(yōu)化方案。

2.5 客戶分析

物流管理也是實(shí)現(xiàn)對客戶服務(wù)的一種管理活動(dòng),所以有必要對客戶進(jìn)行分析,使企業(yè)能對目標(biāo)客戶群采取有針對性的且高效的促銷措施,以更快的速度更高的準(zhǔn)確度和更出色的客戶服務(wù),滿足客戶個(gè)性化的需求,建立并保持客戶忠誠度,增加企業(yè)的銷售額,降低企業(yè)的營銷成本。客戶分析是依據(jù)收集到的關(guān)于客戶的數(shù)據(jù)來了解客戶的需求,分析客戶特征,評估客戶價(jià)值,從而為客戶制定相應(yīng)的營銷策略與資源配置計(jì)劃。通過定性與對比的應(yīng)用,對客戶特征進(jìn)行準(zhǔn)確的概念描述,物流企業(yè)能夠充分挖掘出客戶價(jià)值。通過數(shù)據(jù)挖掘還可以找到流失客戶的共同特征,可以在那些具有相似特征的客戶未流失之前進(jìn)行針對性的彌補(bǔ)。

3 運(yùn)用數(shù)據(jù)挖掘技術(shù)時(shí)應(yīng)注意的問題

在物流業(yè)中,可以有效利用數(shù)據(jù)挖掘技術(shù)解決很多問題,但其不能解決物流決策中出現(xiàn)的所有問題。如果不能將特殊領(lǐng)域的物流業(yè)務(wù)邏輯與數(shù)據(jù)挖掘技術(shù)結(jié)合起來,數(shù)據(jù)挖掘的分析效果和效益就不可能達(dá)到最佳值。數(shù)據(jù)挖掘技術(shù)在物流業(yè)中的應(yīng)用,一般需要考慮以下三個(gè)因素:熟練掌握數(shù)據(jù)挖掘技術(shù)的專業(yè)人才;選擇適合的數(shù)據(jù)挖掘工具和方法,建立適合企業(yè)的數(shù)據(jù)挖掘系統(tǒng);保證數(shù)據(jù)挖掘中數(shù)據(jù)源具有準(zhǔn)確性及代表性。具體運(yùn)用數(shù)據(jù)挖掘技術(shù)時(shí)還應(yīng)該注意以下問題:

3.1 數(shù)據(jù)挖掘工具的選擇

當(dāng)前流行的數(shù)據(jù)挖掘工具,很多是由國外公司研發(fā),如IBM開發(fā)的QUEST系統(tǒng)、SGI開發(fā)的Mineset系統(tǒng)等。由于國內(nèi)外物流環(huán)境存在差異,直接引進(jìn)這些挖掘工具,可能會(huì)與我國的市場和企業(yè)不太適應(yīng),所以物流企業(yè)的管理人員要從保證這些工具可以準(zhǔn)確反應(yīng)本企業(yè)的經(jīng)營狀況角度出發(fā),在引進(jìn)國外的相關(guān)系統(tǒng)時(shí)著重考慮定制問題,只有這樣才能充分發(fā)揮數(shù)據(jù)挖掘技術(shù)的潛能。

3.2 系統(tǒng)集成問題

數(shù)據(jù)挖掘的本質(zhì)是從大量已有的數(shù)據(jù)中找出有價(jià)值的信息,這些數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。物流企業(yè)一般在建立管理信息系統(tǒng)時(shí)就已經(jīng)選擇了某一數(shù)據(jù)庫產(chǎn)品。因此,應(yīng)用數(shù)據(jù)挖掘技術(shù)首先要考慮數(shù)據(jù)挖掘系統(tǒng)與已有數(shù)據(jù)庫系統(tǒng)是否集成,這樣便于利用該企業(yè)已有的數(shù)據(jù)庫中的數(shù)據(jù)。也只有這樣才能充分利用已有數(shù)據(jù),降低企業(yè)成本,更好地服務(wù)于物流企業(yè)的經(jīng)營活動(dòng)。

3.3 技術(shù)人員的影響

數(shù)據(jù)挖掘技術(shù)人員在工作中所選用的技術(shù)和方法會(huì)直接影響到數(shù)據(jù)模型的準(zhǔn)確度,其專業(yè)素養(yǎng)和能力對于數(shù)據(jù)挖掘的實(shí)施起到至關(guān)重要的作用。所以相關(guān)技術(shù)人員的綜合素質(zhì)能力決定了數(shù)據(jù)挖掘工作能否順利開展。因此,要求這類技術(shù)人員一般具備很高的綜合素質(zhì),首先要有良好的計(jì)算機(jī)、統(tǒng)計(jì)等知識(shí)的功底;其次要熟悉掌握一定的物流知識(shí),懂得物流行業(yè)的基本流程和運(yùn)作理念。但目前很多物流企業(yè)對這樣的技術(shù)人員沒有足夠的重視,所以作為物流企業(yè)的決策者要注重高素質(zhì)人才的引進(jìn),加強(qiáng)技術(shù)人員的培訓(xùn)教育。

3.4 數(shù)據(jù)質(zhì)量的影響

目前,很多物流企業(yè)業(yè)務(wù)種類繁多,旗下都包含多個(gè)不同的業(yè)務(wù)子系統(tǒng),這些業(yè)務(wù)子系統(tǒng)會(huì)產(chǎn)生大量數(shù)據(jù),致使物流企業(yè)必須建立龐大的數(shù)據(jù)庫,這雖然會(huì)給日后的數(shù)據(jù)挖掘提供很好的數(shù)據(jù)源,但隨之也出現(xiàn)了一些問題,如數(shù)據(jù)的質(zhì)量、數(shù)據(jù)完整性和數(shù)據(jù)一致性問題等,會(huì)導(dǎo)致數(shù)據(jù)挖掘技術(shù)人員不得不投入大量的時(shí)間和精力去凈化和處理所提取的數(shù)據(jù),很難集中精神去構(gòu)建模型。如何保證數(shù)據(jù)質(zhì)量,是企業(yè)成功實(shí)施數(shù)據(jù)挖掘的一個(gè)技術(shù)關(guān)鍵點(diǎn)。

4 結(jié)束語

數(shù)據(jù)挖掘技術(shù)在物流業(yè)中應(yīng)用不斷普及,更多的物流企業(yè)意識(shí)到數(shù)據(jù)挖掘?qū)τ跊Q策支持的重要性,尤其在對市場預(yù)測、解決選址、倉儲(chǔ)、配送和客戶分析等問題方面發(fā)揮出很大的作用。我國物流企業(yè)在數(shù)據(jù)挖掘應(yīng)用方面還處于起步階段,但這些企業(yè)可以結(jié)合自身的實(shí)際情況,從最基本的數(shù)據(jù)挖掘技術(shù)應(yīng)用做起,隨著物流行業(yè)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)將會(huì)為管理決策提供更加強(qiáng)大的支持功能,為物流企業(yè)的發(fā)展保駕護(hù)航。

參考文獻(xiàn):

[1] 安淑芝. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京:清華大學(xué)出版社,2005.

第12篇

 

關(guān)鍵詞:數(shù)據(jù)挖掘;客戶關(guān)系管理;銀行CRM;客戶生命周期

一、引言

在當(dāng)前市場環(huán)境中,作為提供金融服務(wù)產(chǎn)品的銀行業(yè), 面臨著多方面的壓力和挑戰(zhàn)。銀行服務(wù)的客戶數(shù)量是衡量銀行業(yè)務(wù)開展的重要指標(biāo),當(dāng)前的客戶已不再是被動(dòng)的身份,面對諸多的選擇,服務(wù)不好就會(huì)導(dǎo)致客戶的流失。從國內(nèi)銀行的競爭上看,在現(xiàn)行的市場游戲規(guī)則下,各家銀行都提供相似的服務(wù),在人員、資金和技術(shù)上已不是決定競爭實(shí)力的關(guān)鍵,重點(diǎn)在于管理, 特別是基于對客戶了解和分析的客戶關(guān)系管理。

二、CRM與數(shù)據(jù)挖掘技術(shù)簡介

客戶關(guān)系管理(CRM)不僅是一種通過完善的客戶服務(wù)和深入的客戶分析來滿足客戶的需求,保證實(shí)現(xiàn)客戶終身價(jià)值的管理理念,而且是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理機(jī)制,使企業(yè)從“以產(chǎn)品為中心”向“以客戶為中心”的模式轉(zhuǎn)移,即企業(yè)關(guān)注的焦點(diǎn)是從內(nèi)部運(yùn)作轉(zhuǎn)移到客戶關(guān)系上來。

很多銀行花大力氣去積累有關(guān)客戶的信息,但并不能有效地進(jìn)行客戶關(guān)系管理。因?yàn)樾畔⒅皇且恍┰牧?需經(jīng)過組織、分析并理解后,才可以用來構(gòu)建有關(guān)客戶的知識(shí),進(jìn)而指導(dǎo)銀行的市場、銷售、客戶服務(wù)等各個(gè)環(huán)節(jié),提高銀行的效率和效益。但銀行如何管理和分析大量、復(fù)雜的客戶信息,從中找出對自身管理決策有價(jià)值的信息和知識(shí),則需要有先進(jìn)的技術(shù)和工具的支持,數(shù)據(jù)挖掘等新興技術(shù)的出現(xiàn),則為銀行CRM的實(shí)現(xiàn)提供了良好的支持。

數(shù)據(jù)挖掘(DM)是個(gè)比較廣泛的概念。廣義的數(shù)據(jù)挖掘指的是一般性數(shù)據(jù)分析,它既包括統(tǒng)計(jì)分析方法,也包括挖掘方法。狹義的數(shù)據(jù)挖掘則是指基于非線性關(guān)系的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘是信息技術(shù)發(fā)展到一定階段的必然產(chǎn)物,是從數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中,挖掘出有用的知識(shí)的一個(gè)過程。

如果從銀行角度說,數(shù)據(jù)挖掘則是一種新的客戶信息處理技術(shù),其主要特點(diǎn)是對銀行數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模式處理,從中提取出能輔助銀行決策的關(guān)鍵性數(shù)據(jù)。因此,數(shù)據(jù)挖掘可被定義為:是提取有用信息和知識(shí)的數(shù)據(jù)產(chǎn)生過程,是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價(jià)值的知識(shí)和規(guī)則,并能夠根據(jù)已有的信息對未來所發(fā)生行為做出預(yù)測,為銀行經(jīng)營決策提供依據(jù)的過程。

三、數(shù)據(jù)挖掘技術(shù)在銀行CRM中的應(yīng)用

在銀行CRM 中,數(shù)據(jù)挖掘應(yīng)用廣泛。如金融市場分析和預(yù)測、賬戶分類、信用評估等。這些金融業(yè)務(wù)都需要收集和處理大量數(shù)據(jù),數(shù)據(jù)挖掘可通過對這些已有數(shù)據(jù)的分析和處理,找到數(shù)據(jù)對象的特征和對象之間的關(guān)系,并可觀察到金融市場的變化趨勢,然后利用挖掘出的知識(shí)進(jìn)行合理地分析預(yù)測,進(jìn)而發(fā)現(xiàn)潛在客戶及現(xiàn)有客戶的金融和商業(yè)興趣等。數(shù)據(jù)挖掘在銀行CRM中的應(yīng)用模型如下圖所示:

CRM最簡單的含義可理解為:管理所有與客戶的相互作用。在實(shí)踐中,需要在客戶關(guān)系的各個(gè)階段使用與客戶相關(guān)的信息來預(yù)測客戶的行為。我們將客戶關(guān)系的各個(gè)階段定義為客戶生命周期。客戶生命周期包括四個(gè)階段:一是獲取客戶,二是提高客戶價(jià)值,三是保持高效益客戶,四是防止客戶流失。數(shù)據(jù)挖掘技術(shù)在CRM的不同生命周期具有不同的作用:

(一)利用聚類分析方法進(jìn)行客戶分類,獲取客戶

發(fā)現(xiàn)和開拓新客戶對于任何一家銀行來說至關(guān)重要。客戶分類又稱為客戶細(xì)分,是將大量的客戶分成不同的類型,同一類型的客戶擁有某些相似的屬性,如背景資料、盈利能力、消費(fèi)偏好等。通過客戶細(xì)分,可使銀行準(zhǔn)確把握現(xiàn)有客戶的狀況,針對每類客戶使用不同的營銷方式或提供不同的服務(wù),使銀行以最小的投入獲得最大的回報(bào)。

聚類分析方法是通過無指導(dǎo)學(xué)習(xí),按最大化類內(nèi)部的相似性、最小化類之間的相似性的原則,自動(dòng)對數(shù)據(jù)分類。對于客戶關(guān)系管理系統(tǒng)中的大量數(shù)據(jù),管理人員常常希望能得到有意義的提示,以做出正確的客戶分類判斷。此時(shí),使用聚類分析結(jié)果,先給出多個(gè)不同的相對較大的類劃分,然后再進(jìn)行精確劃分。通過聚類分析,銀行往往可以發(fā)現(xiàn)客戶的群體行為,發(fā)現(xiàn)客戶的共性,掌握他們的投資理念,從而提供針對性的服務(wù),提高銀行服務(wù)的成功率。還可以通過分類或聚類分析對客戶進(jìn)行群分后,再由模式分析預(yù)測哪些人可能成為其客戶,以幫助管理人員找到潛在客戶。例如,銀行如果要進(jìn)行一次直接郵遞推廣活動(dòng),我們可以根據(jù)對目標(biāo)市場客戶群體的識(shí)別更加具有針對性,只寄出少量的信件,就可得到很高的回應(yīng)率。由于避免了傳統(tǒng)的撒網(wǎng)式促銷,雖然減少了直接郵遞的數(shù)量,卻能增加盈利。這樣,我們不僅減少了對那些不符合特征客戶的打擾,而且還能夠極大地增加投資的回報(bào)率。

(二)利用關(guān)聯(lián)分析方法進(jìn)行交叉銷售,提高客戶價(jià)值

交叉銷售就是指銀行通過和客戶交流,向現(xiàn)有客戶提供新產(chǎn)品和新服務(wù),從而保持現(xiàn)有客戶資源、提升現(xiàn)有客戶價(jià)值的銷售方式,它建立在銀行和客戶雙贏的基礎(chǔ)之上。關(guān)聯(lián)分析則是給定一組或一個(gè)記錄集合,通過分析記錄集合,推導(dǎo)出其相關(guān)性,目的是為了挖掘出隱含在數(shù)據(jù)間的相互關(guān)系。銀行利用關(guān)聯(lián)分析方法分析客戶的交易行為與其他屬性(如客戶的年齡、性別、教育程度、職業(yè)等)的關(guān)聯(lián)關(guān)系,即尋找影響客戶交易行為的因素,并建立預(yù)測模型對客戶將來可能發(fā)生的交易行為進(jìn)行預(yù)測,分析哪些客戶最有可能對銀行的服務(wù)感興趣,會(huì)對哪些金融產(chǎn)品感興趣,哪些理財(cái)產(chǎn)品或服務(wù)通常會(huì)一起發(fā)生在同一次交易里,從而實(shí)施有效的交叉銷售,提高銀行的客戶價(jià)值。

如果銀行通過交叉銷售方式來實(shí)現(xiàn)銷售量的增加,以下兩個(gè)步驟通常是必須要遵循的。一是通過聚類分析實(shí)現(xiàn)客戶細(xì)分,鎖定交叉銷售所要面對的目標(biāo)客戶;二是通過關(guān)聯(lián)分析確定最優(yōu)的銷售組合,并向相應(yīng)的客戶展開交叉銷售。

(三)利用分類法保留客戶,提高客戶忠誠度