久久久国产精品视频_999成人精品视频线3_成人羞羞网站_欧美日韩亚洲在线

0
首頁 精品范文 數據挖掘技術研究

數據挖掘技術研究

時間:2022-09-07 10:10:47

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘技術研究,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

第1篇

當前,數據庫技術和網絡技術的發展日趨成熟,世界上傳統商務也正在經歷一次重大的改革,電子商務成為發展重點。電子商務的一個重要應用技術就是數據挖掘技術,并且數據挖掘技術可以給正確的商業決定提供可靠的保證和強有力的支持,因此,數據挖掘技術被認為是電子商務中必不可少的工具。

一、數據挖掘技術的概念和應用

數據挖掘就是對數據倉庫中存儲的大量數據進行挖掘,來找出有意義的新的關聯趨勢和關聯模式的過程。從商業的角度看,數據挖掘技術是一個對商業信息進行處理的新技術,具有能夠分析、轉換、抽取和其他模型化處理商業數據庫中大量業務數據,從中提取出能夠輔助商業決定的關鍵性數據的特點。

因為數據挖掘可以給電子商務帶來顯著的經濟效益,所以其在電子商務中也有越來越廣泛的應用。

數據挖掘應用于零售業,能夠幫助商家識別顧客的購買行為,發現顧客的購買趨勢和模式,從而可以幫助商家有針對性的提高服務質量,獲得更好的顧客滿意度與顧客保持力,提高貨物的銷量,設計出更好的貨物分銷與運輸方法,降低商業成本。

數據挖掘應用于金融領域,能夠幫助管理者分析客戶的信用情況與償還能力,并對其進行分類和評級,從而降低放貸的錯誤率,提升資金的使用效率。通過數據挖掘,還可以找到在償還中有決定作用的主導因素,制定相應的金融策略,還能夠發現洗黑錢和其它金融犯罪活動。

二、如何選擇正確的數據挖掘技術

數據庫方法、神經網絡方法、機器學習方法和統計方法都是數據挖掘所使用的技術。本文將從可獲得的數據與數據挖掘任務兩個方面來說明如何選擇正確的數據挖掘技術。

2.1 可獲得的數據

數據挖掘可獲得的數據信息主要是內容、記錄和字段類型之間的關系,并且對數據挖掘技術的選擇有影響的數據性質有以下幾個:

第一,數值字段:聚集檢測和MBR使用距離函數對數值字段進行處理;神經元網絡把所有的輸入轉化到0-1之間;決策樹使用splitter數值對數值字段進行處理;關聯分析需要把數值變量區間轉化為種類變量區間,但是區間的選擇十分困難。

第二,種類字段:決策樹、連接分析、關聯分析都很適用于種類字段。

第三,多個非獨立的目標字段:神經元網絡可以很好地應用于存在多個依賴變量的情況。

第四,自由文本數據:采用MBR技術是最佳選擇。

第五,具有時間順序的數據:關聯規則、神經元網絡對有時間順序的數據有比較好的處理能力。時間順序也可以用決策樹處理,但是需要準備較多的數據。

第六,每條記錄都有大量獨立的字段:關聯規則挖掘、MBR技術、神經元網絡都會受到記錄中字段多的影響。但是決策樹就會受到程度較小的影響。

第七,變長的記錄:只有連接分析和關聯規則能夠對變長的記錄進行處理,而如果使用其它技術,就需要對數據進行預處理:把一條記錄拆分為幾條記錄,每個都含有記錄號;能夠生成一些統計字段。

2.2 數據挖掘任務

從數據中發現模式是數據挖掘的任務。在對某種數據挖掘技術進行選擇之前,第一,要把需要解決的商業問題轉化成正確的數據挖掘任務;第二,依照數據挖掘的任務來決定使用幾種或者是哪一種數據挖掘技術。以下將以聚集和概念描述為例,對挖掘任務需要使用哪些挖掘技術進行分析。

(1)聚集。聚集就是把整個數據庫分為不同的群組。其目的是使同一個群之間的數據盡量相似,而不同的群之間要有很明顯的差別。協助市場分析人員在客戶基本信息庫中找出不同的客戶群,并用購買模式對不同客戶群的特征進行刻畫是電子商務中對聚集的典型應用。另外,聚類分析也能作為分類、特征等其他算法的預處理步驟,這些算法可以再在生成的簇上進行處理。聚集與分類不同的是,在開始之前一般不知道該把數據分成幾組和怎樣分,所以要有一個對業務特別熟悉的人在聚集之后對這樣分群的意義進行解釋。一般情況下,需要經過幾次反復的增加或刪除變量才能得到理想的結果。

(2)概念描述。描述式數據挖掘的最基本形式就是概念描述。概念描述以簡潔匯總的形式對給定的任務的相關數據集進行描述,提供數據的一般特征。一般,通過數據庫來查詢收集用戶指定類的數據。有兩種概念特征化的一般方法:面向屬性歸納的方法和基于數據立方體OLAP的方法,這兩種方法都是基于維或屬性的概念化方法。一般使用面向數據庫的方法實行概念描述挖掘,并且還能夠采用機器學習方法中的基于范例學習的技術來進行。

三、小結

選擇能夠解決電子商務中一些問題的數據挖掘技術的時候,需要根據具體問題的特點來選擇合適的技術方法,在選擇了符合數據模型的算法之后,就要確定正確的模型與參數。并且要想很好的發揮數據挖掘能夠幫助企業在激烈的競爭中做出正確決定的作用,就必須選對合適的數據挖掘工具。

參考文獻

[1]胡永祥.電子商務系統中的數據挖掘技術研究[J].電子世界,2013,(24):25-25.

[2]徐羨文,鄭廈君.數據挖掘技術在電子商務推薦中的應用[J].電腦知識與技術,2011,07(27):65-66.

第2篇

【關鍵詞】數據挖掘;電子商務系統

1.前言

數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術,數據挖掘是一個包含多個處理步驟的知識發現過程,其主要內容包括數據清洗、數據集成、數據選擇、數據轉換、數據挖掘、模式評估和知識表達輸出等。

把數據挖掘技術應用到電子商務系統中,開發出基于數據挖掘技術的電子商務系統能夠加深和加強對電子商務系統數據的分析功能,為電子商務企業管理人員提供電子商務的預期信息,從而能很好的保證電子商務網站的運行效果。

現在電子商務系統主要形式B2C,涉及的數據不僅包括客戶在電子商務網站上的交易數據,還包括客戶的注冊信息數據和商品信息等數據。電子商務系統的數據有如下特點:

(1)數據量大;

(2)數據質量差;

(3)數據種類多。

2.電子商務系統功能模塊結構設計

根據B2C電子商務系統設計的目標,管理業務流程,將這個B2C電子商務系統分為:會員注冊管理、會員帳戶管理、商品購買管理、會員管理、商品類別管理、商品管理、優惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網站管理和數據挖掘管理等功能模塊(如圖1所示)。

3.數據挖掘管理模塊的設計

B2C電子商務數據挖掘管理模塊主要通過對電子商務企業當前的和歷史的交易數據進行分析。挖掘出其中隱含的知識和從中發現隱含的趨勢和規律。它主要包括數據預處理模塊、數據挖掘模塊和數據挖掘結果顯示模塊。B2C電子商務數據挖掘系統從電子商務運行商品數據庫、客戶信息數據庫和交易數據庫中獲取數據,根據數據挖掘算法的需要進行數據預處理,并建立數據挖掘模型,供電子商務企業的用戶挖掘時使用。用戶只需要輸入簡單的一些參數,系統就會自動的根據已建立的模型輸出預測結果。電子商務挖掘系統體系結構如圖2所示。

3.1 數據預處理模塊

數據挖掘的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行挖掘,需要做數據預處理工作,其一般包括數據的選擇、數據清理、數據集成和轉換。數據預處理是否做好將影響數據挖掘的效率和準確度以及最終模式的有效性。這些處理技術在數據挖掘之前使用可以大大提高數據挖掘模式的質量,降低實際挖掘所需要的時間。原始數據通過數據選擇、清理、集成和轉換后生成數據挖掘庫,為下一步的數據挖掘做好準備。

3.2 數據挖掘模塊

數據挖掘的目的是生成可以據其所示的含義采取行動的知識,也就是建立一個現實世界的模型。數據挖掘的本質就是數學建模。在數據挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯規則模型。針對同一模型,可以使用不同的算法進行數據挖掘。算法的目的就是找到適合于數據的模型。數據挖掘涉及到多步驟、各系統間的交互、特殊解決方案及各步驟間的反復過程。

B2C電子商務網站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會影響客戶對商品的購買率。而商品之間的關聯性一般不是很容易看出來的,一般人很難聯想到商品之間的關聯性,只有實際上通過對大量的交易歷史數據的分析,才可以挖掘出它們之間的關聯性。在數據挖掘過程中對關聯產品和服務進行深入挖掘,可以發現其中的關聯規則,利用關聯規則模型進行數據挖掘可以了解客戶的購買行為,這對于改進B2C電子商務商業活動的決策很有幫助。例如,可以通過改進商品介紹位置的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規劃市場(互相搭配進貨)等。而作為B2C電子商務網站。可以針對不同客戶特點動態調整網站結構,使客戶訪問的有關聯的網頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網站更能吸引客戶,提高客戶的忠誠度,提高網站的效益。

B2C電子商務網站網頁主要為顧客展示商品名稱或圖片,為顧客推薦與當前感興趣商品更詳細或相關的網頁是個性化推薦的關鍵。根據客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個性化服務,例如系統可以向客戶顯示那些可能引起客戶感興趣的新商品。

隨著“以客戶為中心”的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對B2C電子商務系統收集的客戶的交易數據進行聚類模型挖掘,可以確定不同類萬方數據型客戶的行為模式,電子商務企業便可以采取相應的營銷措施,促使企業利潤的最大化。

3.3 數據挖掘結果顯示模塊

數據挖掘結果的顯示模塊是將數據挖掘后得到的知識和結果用可視化形式表示出來,例如采用圖形化界面把挖掘結果顯示給電子商務企業的管理人員。在建立好相關數學模型后,把實際數據作為輸入信息,通過挖掘模型的計算獲得預測結果。B2C電子商務企業要根據不同的挖掘結果做出不同的反應。采取不同的措施,給顧客提供不同的服務,在為顧客服務的同時也為自己的B2C電子商務企業獲取更多的利潤。

4.結論

本文討論了把數據挖掘技術應用于B2C電子商務系統中,并采用J2EE的B/S架構將其實現,系統采用客戶端、中間服務器和后臺數據庫三層架構。利用數據挖掘技術可以提高B2C電子商務企業現代化管理水平方面發揮著積極的作用,它能夠提高B2C電子商務企業對客戶管理和商品管理方面信息的準確性和及時性,可以幫助B2C電子商務企業網站的開發人員及時、全面了解B2C電子商務企業網站運營情況和合理安排網頁的頁面布局,為不同瀏覽習慣的顧客提供個性化服務,為各項具體工作提供技術、信息支持;有效地減少各種失誤并保證B2C電子商務企業網站的各項任務保質保量、按計劃完成,從而提高電子商務企業網站的運作效率。

參考文獻

[1]朱明.數據挖掘[M].合肥:中國科學技術大學出版杜(第2版),2008.

[2]寰方,王煜,等.PaoloGiudici.實用數據挖掘[M].北京:電子工業出版,2004.

[3]廖芹,郝志峰.數據挖掘與數學建模[M].北京:國防工業出版社,2010.

第3篇

關鍵詞:電子商務;數據挖掘;應用

1概述

電子商務是指企業或個人以網絡為載體,應用電子手段,利用現代信息技術進行商務數據交換和開展商務業務的活動。隨著互聯網的迅速發展,電子商務比傳統商務具有更明顯的優勢,由于電子商務具有方便、靈活、快捷的特點,使它已逐漸成為人們生活中不可缺少的活動。目前電子商務平臺網站多,行業競爭強,為了獲得更多的客戶資源,電子商務網站必須加強客戶關系管理、改善經營理念、提升售后服務。數據挖掘是從數據集中識別出隱含的、潛在有用的、有效的,新穎的、能夠被理解的信息和知識的過程。由數據集合做出歸納推理,從中挖掘并進行商業預判,能夠幫助電子商務企業決策層依據預判,對市場策略調整,將企業風險降低,從而做出正確的決策,企業利潤將最大化。隨著電子商務的應用日益廣泛,電子商務活動中會產生大量有用的數據,如何能夠數據挖掘出數據的參考價值?研究客戶的興趣和愛好,對客戶分門別類,將客戶心儀的商品分別推薦給相關客戶。因此,如何在電子商務平臺上進行數據挖掘成為研究的熱點問題。

2數據挖掘技術概述

數據挖掘(DataMining),也稱數據庫中的知識發現(Knowl⁃edgeDiscoveryinDatabase,KDD)。數據挖掘一般是指從海量數據中應用算法查找出隱藏的、未知的信息的過程。數據挖掘是一個在大數據資源中利用分析工具發現模型與數據之間關系的一個過程,數據挖掘對決策者尋找數據間潛在的某種關聯,發現隱藏的因素起著關鍵作用。這些模式是有潛在價值的、并能夠被理解的。數據挖掘將人工智能、機器學習、數據庫、統計、可視化、信息檢索、并行計算等多個領域的理論與技術融合在一起的一門多學科交叉學問,這些學科也對數據挖掘提供了很大的技術支撐。

3Web數據挖掘特點

Web數據挖掘就是數據挖掘在Web中的應用。Web數據挖掘的目的是從萬維網的網頁的內容、超鏈接的結構及使用日志記錄中找到有價值的數據或信息。依據挖掘過程中使用的數據類別,Web數據挖掘任務可分為:Web內容挖掘、Web結構挖掘、Web使用記錄挖掘。

1)Web內容挖掘指從網頁中提取文字、圖片或其他組成網頁內容的信息,挖掘對象通常包含文本、圖形、音視頻、多媒體以及其他各種類型數據。

2)Web結構挖掘是對Web頁面之間的結構進行挖掘,挖掘描述內容是如何組織的,從Web的超鏈接結構中尋找Web結構和頁面結構中的有價值模式。例如從這些鏈接中,我們可以找出哪些是重要的網頁,依據網頁的主題,進行自動的聚類和分類,為了不同的目的從網頁中根據模式獲取有用的信息,從而提高檢索的質量及效率。

3)Web使用記錄挖掘是根據對服務器上用戶訪問時的訪問記錄進行挖掘的方法。Web使用挖掘將日志數據映射為關系表并采用相應的數據挖掘技術來訪問日志數據,對用戶點擊事件的搜集和分析發現用戶導航行為。它用來提取關于客戶如何瀏覽和使用訪問網頁的鏈接信息。如訪問了哪些頁面?在每個頁面中所停留的時間?下一步點擊了什么?在什么樣的路線下退出瀏覽的?這些都是Web使用記錄挖掘所關心要解決的問題。

4電子商務中Web挖掘中技術的應用分析

1)電子商務中序列模式分析的應用

序列模式數據挖掘就是要挖掘基于時間或其他序列的模式。如在一套按時間順序排列的會話或事務中一個項目有存在跟在另一個項目后面。通過這個方法,WEB銷售商可以預測未來的訪問模式,以幫助針對特定用戶組進行廣告排放設置。發現序列模式容易使客戶的行為被電子商務的組織者預測,當用戶瀏覽站點時,盡可能地迎合每個用戶的瀏覽習慣并根據用戶感興趣的內容不斷調整網頁,盡可能地使每個用戶滿意。使用序列模式分析挖掘日志,可以發現客戶的訪問序列模式。在萬維網使用記錄挖掘應用中,序列模式挖掘可以用于捕捉用戶路徑之中常用的導航路徑。當用戶訪問電子商務網站時,網站管理員能夠搜索出這個訪問者的對該網站的訪問序列模式,將訪問者感興趣但尚未瀏覽的頁面推薦給他。序列模式分析還能分析出商品購買的前后順序,從而向客戶提出推薦。例如在搜索引擎是發出查詢請求、瀏覽網頁信息等,會彈出與這些信息相關的廣告。例如購買了打印機的用戶,一般不久就會購買如打印紙、硒鼓等打印耗材。優秀的推薦系統將為客戶建立一個專屬商店,由每個客戶的特征來調整網站的內容。也能由挖掘出的一些序列模式分析網站及產品促銷的效果。

2)電子商務中關聯規則的應用

關聯規則是揭示數據之間隱含的相互關系,關聯分析的任務是發現事物間的關聯規則或相關程序。關聯規則挖掘的目標是在數據項目中找出每一個數據信息的內在關系。關聯規則挖掘就是要搜索出用戶在服務器上訪問的內容、頁面、文件之間的聯系,從而改進電子商務網站設計。可以更好在組織站點,減少用戶過濾網站信息的負擔,哪些商品顧客會可能在一次購物時同時購買?關聯規則技術能夠通過購物籃中的不同商品之間的聯系,分析顧客的購物習慣。例如購買牛奶的顧客90%會同時還購買面包,這就是一條關聯規則,如果商店或電子商務網站將這兩種商品放在一起銷售,將會提高它們的銷量。關聯規則挖掘目標是利用工具分析出顧客購買商品間的聯系,也即典型購物籃數據分析應用。關聯規則是發現同類事件中不同項目的相關性,例如手機加充電寶,鼠標加鼠標墊等購買習慣就屬于關聯分析。關聯規則挖掘技術可以用相應算法找出關聯規則,例如在上述例子中,商家可以依據商品間的關聯改進商品的擺放,如果顧客購買了手機則將充電寶放入推薦的商品中,如果一些商品被同時購買的概率較大,說明這些商品存在關聯性,商家可以將這些有關聯的商品鏈接放在一起推薦給客戶,有利于商品的銷售,商家也根據關聯有效搭配進貨,提升商品管理水平。如買了燈具的顧客,多半還會購買開關插座,因此,一般會將燈具與開關插座等物品放在一個區域供顧客選購。依據分析找出顧客所需要的商品的關聯規則,由挖掘分析結果向顧客推薦所需商品,也即向顧客提出可能會感興趣的商品推薦,將會大大提高商品的銷售量。

3)電子商務中路徑分析技術的應用

路徑分析技術通過對Web服務器的日志文件中客戶訪問站點的訪問次數的分析,用來發現Web站點中最經常訪問的路徑來調整站點結構,從而幫助使用用戶以最快的速度找到其所需要的產品或是信息。例如在用戶訪問某網站時,如果有很多用戶不感興趣的頁面存在,就會影響用戶的網頁瀏覽速度,從而降低用戶的瀏覽興趣,同時也會使整個站點的維護成本提高。而利用路徑分析技術能夠全面地掌握網站各個頁面之間的關聯以及超鏈接之間的聯系,通過分析得出訪問頻率最高的頁面,從而改進網站結構及頁面的設計。

4)電子商務中分類分析的應用

分類技術在根據各種預定義規則進行用戶建模的Web分析應用中扮演著很重要的角色。例如,給出一組用戶事務,可以計算每個用戶在某個期間內購買記錄總和。基于這些數據,可以建立一個分類模型,將用戶分成有購買傾向和沒有購買傾向兩類,考慮的特征如用戶統計屬性以及他們的導航活動。分類技術既可以用于預測哪些購買客戶對于哪類促銷手段感興趣,也可以預測和劃分顧客類別。在電子商務中通過分類分析,可以得知各類客戶的興趣愛好和商品購買意向,因而發現一些潛在的購買客戶,從而為每一類客戶提供個性化的網絡服務及開展針對性的商務活動。通過分類定位模型輔助決策人員定位他們的最佳客戶和潛在客戶,提高客戶滿意度及忠誠度,最大化客戶收益率,以降低成本,增加收入。

5)電子商務中聚類分析的應用

聚類技術可以將具有相同特征的數據項聚成一類。聚類分析是對數據庫中相關數據進行對比并找出各數據之間的關系,將不同性質特征的數據進行分類。聚類分析的目標是在相似的基礎上收集數據來分類。根據具有相同或相似的顧客購買行為和顧客特征,利用聚類分析技術將市場有效地細分,細分后應可每類市場都制定有針對性的市場營銷策略。聚類分別有頁面聚類和用戶聚類兩種。用戶聚類是為了建立擁有相同瀏覽模式的用戶分組,可以在電子中商務中進行市場劃分或給具有相似興趣的用戶提供個性化的Web內容,更多在用戶分組上基于用戶統計屬性(如年齡、性別、收入等)的分析可以發現有價值的商業智能。在電子商務中將市場進行細化的區分就是運用聚類分析技術。聚類分析可根據顧客的購買行為來劃分不同顧客特征的不同顧客群,通過聚類具有類似瀏覽行為的客戶,讓市場人員對顧客進行類別細分,能夠給顧客提供更人性化的貼心服務。比如通過聚類技術分析,發現一些顧客喜歡訪問有關汽車配件網頁內容,就可以動態改變站點內容,讓網絡自動地給這些顧客聚類發送有關汽車配件的新產品信息或郵件。分類和聚類往往是相互作用的。在電子商務中通過聚類行為或習性相似的顧客,給顧客提供更滿意的服務。技術人員在分析中先用聚類分析將要分析的數據進行聚類細分,然后用分類分析對數據集合進行分類標記,再將該標記重新進行分類,一直如此循環兩種分析方法得到相對滿意的結果。

5結語

隨著互聯網的飛速發展,大數據分析應用越來越廣。商業貿易中電子商務所占比例越來越大,使用web挖掘技術對商業海量數據進行挖掘處理,分析客戶購買喜好、跟蹤市場變化,調整銷售策略,對決策者做出有效決策及提高企業的市場競爭力有重要意義。

參考文獻:

[1]龐英智.Web數據挖掘技術在電子商務中的應用[J].情報科學,2011,29(2):235-240.

[2]馬宗亞,張會彥.Web數據挖掘技術在電子商務中的應用研究[J].現代經濟信息,2014(6):23-24.

[3]徐劍彬.Web數據挖掘技術在電子商務中的應用[J].時代金融,2013(4):234-235.208

[4]周世東.Web數據挖掘在電子商務中的應用研究[D].北京交通大學,2008.

第4篇

關鍵字:云計算;物聯網;數據挖掘模式;研究

物聯網其實就是指物和物之間相互聯系的互聯網,隨著社會科學技術的不斷發展和進步,促進了互聯網的快速發展,也讓社會經濟得到了很好的發展。云計算主要就是指對相關的信息進行虛擬化的計算和存儲,對各種信息在互聯網上進行規范和整理,這樣就能夠有效的形成很多個計算中心和數據。

一、基于云計算的物聯網

物聯網其實就是一個比較大而且分布也非常廣泛的物和物的互聯網,主要作用就是對生活中的各種事物進行監控,隨著物聯網的不斷發展,現在也接入了很多的應用終端,其中就包括了湖泊、建筑物以及交通設施等。一般來說,云計算物聯網數據挖掘就是指通過對云計算來解決物聯網數據挖掘存在的問題。首先建立一個能夠全面捕捉物聯網數據的分布式時空數據庫,然后在云計算的平臺上,全面的對物聯網系統的數據進行挖掘。云計算中的數據挖掘主要就是通過對相關的數據進行分析研究,從而知道通過這種方式進行數據挖掘,物聯網進行數據挖掘的相關工作將能夠被完美的執行與完成。

二、基于云計算的數據挖掘平臺

在工作中,能夠提供高可用性和更多的動態資源池的計算機平臺,將能夠很好的實現云計算的數據挖掘。在對那些可用性比較高的應用程序進行開發的時候就可以選擇使用基于云計算的數據挖掘平臺,在利用云計算對數據進行挖掘的時候也可以采用基于云計算的數據挖掘平臺。一般情況下,可以通過軟件分層的理念,對物聯網的基于云計算的數據挖掘平臺系統進行一定的分層處理。云計算的數據挖掘系統從下而上可以分為算法層、任務層和用戶層三層。各層系統的相關工作,都需要相互配合才能夠完成。軟件中的下層可以向它的上層提供相關的服務內容,而上層在對下層的服務進行調用的時候主要就是通過上層層間的開發接口來完成的,這樣就能夠有效的保證基于云計算的數據挖掘平臺系統當中的各個層之間的功能能夠比較的獨立。采用這樣的一種設計模式主要就是為了在對系統進行二次開發的時候能夠比較的方便。

在構建基于云計算數據挖掘模式的時候主要就是通過積極的應用云計算的服務模式,那么在這樣的一種情況下建立起來的基于云計算數據挖掘平臺它們當中的每一個部分在實際提供服務的過程當中都能夠比較獨立的去完成。操作人員在使用基于云計算數據挖掘平臺的時候主要就是經過互聯網來連接數據挖掘平臺,在監控使用賬戶的管理系統時,主要就是在SaaS、PaaS以及DaaS這三個系統當中來完成的。在數據挖掘平臺當中的任何環節都是在云計算服務的模式中。在數據挖掘平臺當中的賬戶管理系統主要就是指管理使用者的實際服務情況的一個系統,它對使用者的賬戶信息有一個比較全面的記錄,它主要就是把用戶在平臺當中使用設備的情況以及服務的情況比較詳細的記錄下來形成一個賬目,這樣就能夠為使用者提供一個比較全面的數據使用的資源。在數據挖掘平臺當中的數據管理子系統主要是指管理用戶的數據資源。這個數據管理子系統主要就是在云計算中的DaaS服務模式下進行工作的,用戶在購買數據等相關活動的時候就是通過這個系統來完成的。數據管理子系統能夠對使用者的隱私起到很好的保護作用,而且使用者在處理了數據之后還能夠進行再次的出售。在數據挖掘平臺當中的子挖掘系統主要的作用就是發現用戶數據當中的知識,讓數據挖掘目標能夠有效的實現,在在數據挖掘平臺中子挖掘系統是最主要的部分,它的專業性比較的強。

三、基于云計算的物聯網數據挖掘模式

物聯網的整個環境決定了物聯網數據挖掘的模式,因為物聯網當中的數據類型比較復雜,而且物和物之間的關聯以及相關的特性也不一樣,那么這些情況可能就會使得在構建物聯網數據挖掘模式的時候就會和傳統的數據挖掘模式不相同。

在使用物聯網的過程中,常常會出現一些問題,如在發送與接收數據的時候可能出現部分或者是全部信息出錯甚至是丟失。出現這些現象的原因,可能是物聯網系統的原因,也可能是其他什么原因。那么基于云計算物聯網數據挖掘模式就應該要考慮到這種情況,在構建物聯網數據挖掘應用模型的時候,必須考慮對物與物之間的關系的表達,這樣才能有效的解決數據的錯誤與丟失。如果物與物存在間接的關系的時候,可以采用SVD模型或者是拉普拉斯變換模型進行推導。如果物與物之間存在非常重要的直接關系時,物聯網數據挖掘模式應該要具有表達出物和物之間直接關系的能力,這樣在對物和物的間接關系進行推導的時候才會比較的方便。物聯網數據挖掘模型當中的一種就是基于超圖的物聯網數據模型,在超圖當中的每一個變都能夠和很多的點進行聯接,對于物聯網當中數據之間比較復雜的關系可以通過超邊來進行標示。物聯網數據挖掘模型當中的另外一種就是基于馬爾科夫鏈的數據挖掘模型。在基于馬爾科夫鏈的數據挖掘模型中,對于進行預測未來可能會出現的現象的概率時,不需要根據以前的信息或知識,只需要根據現在的信息或知識就能夠完成。在物聯網的數據實際應用當中,這一類問題最常見的。

穩定的可外推參數模型是物聯網數據挖掘模型中的另外一種數據挖掘模型。在物聯網數據的實際應用當中,在進行物理建模的時候應該要先要了解到物和物之間的關系,然后建立起數據模型來描述數量上面的相互關系,但是因為物聯網數據的類型比較復雜,有可能會出現錯誤或者丟失的情況,所以采用傳統的方法進行物理建模會有很多的困難。

參考文獻

[1]劉茂華,史文崇. 物聯網數據處理之淺論[J]. 計算機與信息技術,2011,06:52-53.

[2]丁靜,楊善林,羅賀,丁帥. 云計算環境下的數據挖掘服務模式[J]. 計算機科學,2012,S1:217-219+237.

作者簡介:

第5篇

關鍵詞:隱私保護;數據挖掘;數據庫應用

0、引言

隨著網絡技術和通信技術的日益成熟以及網絡通信帶寬的不斷增加,越來越多的數據在網上進行和交換,豐富的數據資源一方面加大了數據分析和數據挖掘的需求,另一方面,數據資源的隱私保護問題給數據挖掘提出了新的挑戰。

1 隱私保護中的關鍵問題

1.1 隱私

隱私是指個人、機構等實體不愿意被外部知曉的信息[1]。比如,個人的行為模式、興趣愛好、健康狀況、公司的財務狀況等。個人隱私即為數據所有者不愿意被披露的敏感信息,如個人的收入水平、健康狀況、興趣愛好等。由于人們對隱私的限定標準不同,對隱私的定義也有所差異。一般來說,任何可以確認特定個人的,但個人不愿意披露的信息都可以稱為個人隱私。

1.2 數據挖掘

數據挖掘(Data Mining),又稱為數據庫中的知識發現(Knowledge Discovery in Database,KDD),就是從大量數據中獲取有效地、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識[2]。數據挖掘可以對得到的數據庫查詢結果進行高效、智能化的處理,從中自動獲取先前未知的模式和信息。但是,倘若毫無限制地進行挖掘,必然會對一些隱私數據造成侵犯。從本質上說,數據挖掘是研究如何利用數據庫中現有的數據推導出未知的數據,而隱私保護則是防止用戶推出敏感數據。形象地說,數據挖掘是進攻,而隱私保護則是防守。

1.3 隱私保護度量標準

隱私保護技術在保護隱私的同時,還要兼顧應用價值和計算開銷。綜合起來,隱私保護技術的度量標準有以下三個方面:

(1)隱私保護度。 一般通過數據隱私的披露風險來反映,披露風險越小,隱私保護度越高[3]。

(2)數據質量/服務質量。在數據中,數據質量是指數據的可用性,數據的可用性越高,數據質量越好。一般采用信息丟失率(即信息扭曲度)[4]來衡量數據質量的好壞。

(3)算法性能。一般利用時間復雜度對算法性能進行度量。例如,時間復雜度為O(k)的近似k-匿名算法,顯然優于復雜度為O(klogk)的近似算法。

2 數據隱私保護技術

在上述度量標準的基礎上,下面開始對幾種主流的數據隱私保護技術進行介紹和分析。

2.1 基于匿名的隱私保護技術

匿名技術是隱私保護中廣泛使用的技術,通過隱藏或不收集用戶的身份敏感信息,允許用戶提交數據而且不暴露自己的身份[5]。因其處理簡單,在數據庫應用中較容易使用。然而通過匿名技術收集的數據難以保證質量,因為在沒有身份確認的情況下大量用戶會提交無用的隨機數據。并且系統容易受到競爭對手的攻擊。例如一個公司在數據庫系統中輸入大量的偽造數據來使自己生產的產品獲得更多的推薦。因此在數據庫應用中確認用戶的身份是十分必要的。

2.2 基于關聯規則的隱私保護技術

關聯規則挖掘是一種典型的數據挖掘方法,最早由Agrawal等人提出。關聯規則挖掘可以發現存在于數據庫中的項目或屬性間的有趣關系。這些關系是預先未知的和被隱藏的,也就是說不能通過數據庫管理系統所提供的邏輯操作或統計的方法得出。現有的各種關聯規則挖掘算法大致可分為搜索算法、層次算法、數據集劃分算法、抽樣算法等。關聯規則挖掘作為數據挖掘中最重要的方法之一,已經也在隱私保護方面取得了一定的研究成果,可以利用到基于關聯規則的數據服務中。關聯規則中隱私保護的基本策略有數據干擾和查詢限制兩大類[6]。

數據干擾策略就是對原始數據按照一定的規則進行預變換,然后在經過干擾的數據上運行數據挖掘算法,得到所需的模式和規則。

查詢限制策略則是通過數據隱藏等方式來改變特定規則的支持度和置信度,然后用概率統計的方法或者分布式計算的方法得到所需的挖掘結果。

2.3 基于協同過濾的隱私保護技術

協同過濾推薦技術基于相似用戶群的興趣向目標用戶產生推薦,是當前數據庫服務中最成功、使用最廣泛的推薦技術之一。它只依賴于用戶對項目的評分矩陣,因此對于各種特定應用都有很好的適應性,可提高數據應用系統的可擴展性和推薦質量。與其他數據挖掘技術一起,在協同過濾算法中加入隱私保護機制近年來引起了越來越多的學者的研究興趣,是一個嶄新的領域,需要得到更多的關注。目前協同過濾中隱私保護技術基本可以分為基于密碼學的方法和數據變換兩大類[7]。

基于密碼學的方法是通過對原始數據進行加密處理的方法。安全多方計算是分布式環境下的一種加密方法,是目前數據服務協同過濾中最行之有效的隱私保護方法。

數據變換是對原始數據進行變換處理的方法。Clifton等人討論了幾種防止對數據過分挖掘的方法,主要包括對數據增加噪聲、消除數據中的附加信息、故意增加錯誤數據等。數據變換在協同過濾的隱私保護中得到了廣泛應用。

3 數據隱私保護技術的發展

在總結當前數據隱私保護現狀的前提下,對于未來數據隱私保護技術的發展,可以從如下幾點入手:

(1)高準確度的方法。盡可能完整地生成相應規則,而不遺漏重要規則,并且所生成規則的準確度也不應有明顯的降低。

(2)高性能的方法。提出具有優良性能的相關方法,包括時間性能與空間開銷,以及網絡開銷。

(3)適用于分布環境的方法。隨著網絡技術的發展,如何在分布式環境下進行各種隱私保護的數據挖掘,也將是一個重要的研究方向。

4 結束語

本文綜述了數據隱私保護技術研究的發展現狀,并分別對當前主流的三類隱私保護技術進行了分析總結,還對未來數據隱私保護技術的發展提出了幾點看法。然而數據隱私保護技術的研究仍然面臨著許多挑戰,需要更深入的研究使其在實際系統中得到更多應用,真正有效保護用戶的信息和隱私安全。隨著信息技術的發展,數據庫系統的廣泛應用,數據庫服務中隱私保護技術也會得到更多的重視和研究。(作者單位:天津師范大學計算機與信息工程學院)

參考文獻:

[1] 周水庚,李豐,陶宇飛,等.面向數據庫應用的隱私保護研究綜述[J].軟件學報,2009,32(5):847-858.

[2] 華蓓,鐘誠.數據挖掘中的隱私保護技術進展分析[J].微電子學與計算機,2009,26(8):38-41.

[3] 田秀霞,王曉玲,高明,等.數據庫服務——安全與隱私保護[J].軟件學報,2010,21(5):991-1006.

[4] 朱勤,駱軼姝,樂嘉錦.數據庫隱私保護技術研究[J].東華大學學報(自然科學版),2006,32(5):21-25.

[5] 王平水,王建.匿名化隱私保護技術研究綜述[J].小型微型計算機系統,2011,32(2):248-252.

第6篇

Linear Algebra Tools for Data Mining

2012,880 p

Hardcover

ISBN9789814383493

Dan A Simovici著

隨著大數據時代的到來,數據挖掘技術逐漸走向了應用的前臺。從文本檢索到社交關系挖掘,從計算機視覺到語音識別,從推薦系統到網絡安全,眾多應用領域都需要數據挖掘技術的支撐。而隨著數據規模的膨脹,數據挖掘技術也面臨著如何提高效率、提高可擴展性的挑戰。為此科學家們提出很多解決思路,其中基于矩陣計算或線性代數的數據挖掘技術因其易于并行化且計算效率相對較高等優勢而受到研究人員的青睞。而對于計算機科學或者工科計算技術的教材來說,一般只對線性代數的理論和技術進行講解,很少能與實際應用進行結合。本書的目的就是希望彌補這一空白,把傳統的線性代數內容與最新的數據挖掘技術結合在一起展示給人們。

本書分為線性代數理論部分和數據挖掘應用部分,共包含16章。線性代數部分,含第1-10章:1.通過基本代數結構的建立引入線性空間;2.矩陣的概念;3.MATLAB的基本編程;4.行列式;5.線性空間中的范式;6.內積空間;7.凸性;8.特征值;9.相似和譜;10.矩陣的SVD(奇異值分解)。第2部分講解了線性代數在數據挖掘中的應用,含第11-16章:11.矩陣在圖中的應用;12.數據采樣矩陣;13.最小二乘近似和數據挖掘;14.維度約減技術;15.kMeans聚類;16.圖的譜和譜聚類。

本書非常好地把線性代數和數據挖掘結合起來進行介紹,使得科研人員不僅能深化對于矩陣和線性代數理論的認識,又可以從應用中理解各種方法的作用。本書的作者Dan A Simovici教授是馬薩諸塞波士頓大學計算機科學系的教授,多年來致力于將基本數學理論與數據挖掘技術相結合的教學研究工作。他目前還在撰寫另一本圖書《數據挖掘的數學工具(Mathematical Tools for Data Mining)》,預計2014年會由Springer出版。本書非常適合在讀研究生和相關科研人員閱讀。

張志斌,副研究員

(中國科學院計算技術研究所)

第7篇

關鍵詞:大數據環境 數據挖掘 具體技術分析

中圖分類號:TP39 文獻標識碼:A 文章編號:1003-9082(2016)10-0004-02

技術在快速進步,現今時期內的網絡正在深入生活,網絡體現出重要的意義。從本質上看,大數據不僅代表了日益增長的數據量,同時也表現出更復雜的數據關系。增長的過程中,達到特定規模的數據量將會發生質變。大數據的具體類型包含了視頻和文本等信息[1]。對于信息搜集以及處理等,也應當確保更快的處理速度。大數據環境下,數據挖掘的相關技術具備了獨特的技術優勢,然而同時也面對新階段的技術挑戰。面對新階段的新環境,有必要給出數據挖掘的特定技術流程以及技術方式。結合現階段面臨的挑戰,給出完善思路。

一、數據挖掘在大數據環境下的重要價值

面對信息化的新時期,各行業都不可缺少數字化技術作為支持。最近幾年,互聯網正在快速普及,在這種基礎上也誕生了云計算和物聯網的相關技術。在當前形勢下,全球范圍內的網絡技術正在加快發展,爆炸式的數據增長趨勢也因此變得更明顯。信息化沖擊著各個行業,傳輸信息的方式也在相應改變。信息化形勢下,對于信息形成、信息運用以及信息共享都可以做到有效的整合[2]。在企業發展中,大數據起到了不可忽視的作用,同時也匯聚了各個層面的物力和人力。

從信息化角度看,企業在整合處理各類的數據時都需要借助電子化的方式。針對大量的資源和信息,應當符合交互式的處理方式和數據傳輸方式。數據化處理可以為企業提供精確的決策依據,因此也創造了更高層次的生產效能。云計算方式能夠用來處理實時的數據,從而減少了整體投入。

隨著技術進步,云計算技術正在變得更成熟。與此同時,云計算也配備了信息化的新式平臺。這樣做,在根本上確保了信息化的效能提高。在當前時期內,大數據代表著全新的發展階段。這是因為,大數據技術可以用來篩選數據、存儲數據或者調用數據,這些步驟和流程都不必耗費額外的資源。從行業本身來看,數據交換以及信息交易的總數都變得更大,因此也構建了規模更大的數據庫。針對存儲量很大的數據庫,應當經過篩選和分類,提取必需的信息數據。這樣做,就可以為各類用戶提供必需的信息。由此可見,大數據環境中的數據挖掘具備更高的價值,有必要深入探析數據挖掘的相關技術方式[3]。

二、現今階段的技術難點

從技術構架來看,數據庫表現出更復雜的技術架構,因而也增加了整體數據庫的管理難度。在傳統模式下,數據庫能夠用來處理較低層次的數據,然而針對較高層次的信息數據并不能給予很好的處理。最近幾年,數據總量正在增大,數據庫管理也相應改變了常用的流程和模式。近些年,分布式的全球數據庫也被創造出來,在這種形勢下亟待擴展整體的處理規模,以此來適應現今階段的數據處理。然而應該注意:傳統數據庫仍缺乏相應的分區和類型,非結構化的傾向十分明顯。

從實時性來看,數據處理中的實時性需求正在變得更強,用戶希望獲得實時的處理方式和技術。最近幾年,數據庫表現出智能性和商業化的整體趨勢,因此也相應提高了實時性的需求。針對各類型的信息,用戶都有必要給予實時的解析和處理。大數據的整體背景有別于傳統背景,這是因為智能式的商業處理方式正在被推廣采用。因此,如果仍沿用常用的處理流程,那么很難符合新階段的實時處理需要[4]。

從硬件和軟件的存儲方式看,傳統類型的軟硬件也不再滿足需求。現今時期內,數據處理達到了更大的總量。與此相應,在信息保存的過程中也應當符合更高層次的精確性需求。數據量不斷增大的狀態下,只有配備高性能的軟硬件,才能夠給予必要的保障。實際上,軟件更新的整體速度仍較慢,無法適應現有的形勢。

從技術分析的具體方式看,傳統方式的數據分析特指結構化的分析。經過分析之后,就可以歸納得到全面的體系,確保實效性的處理。然而,大數據形勢下的各行業數據總量都變得更大,因此也挑戰了常用的分析方式。

三、數據挖掘的技術優勢

首先,數據挖掘符合了更強的實效性,滿足實時的處理。信息技術的新時期內,不同類型的數據也蘊含了更多的知識價值。大數據環境下,數據分析更多表現為線性處理,這種趨勢符合了新階段的處理需求。如果選擇了大數據這種處理形式,那么優先選擇數據挖掘的相關技術方式。這是由于,數據挖掘可以運用于流處理的過程,從而也確保了批量式的處理。針對大數據而言,業務處理也在客觀上需要設置實時性的處理框架,以此來滿足實效性的新需要。

其次,在動態環境下,數據挖掘設置了特定的索引類型,能夠符合動態變化的環境。從關系數據庫的角度看,索引可以加快整體的檢索速度。然而,傳統類型的數據檢索只設置了較少的幾類索引[5]。近些年來,大數據的具體種類正在不斷增多,這種形勢下創建的索引就必須具備更簡潔的特征,同時也必須符合高效化的整體要求。在數據挖掘中,索引形式是多樣的,并且可以實時調整。因此,大數據環境中的索引形式應當更新,這樣做才能便于提高實時查詢的效率。

第三,大數據環境中的數據挖掘還具備豐富的先驗知識。傳統模式的數據分析通常選擇了關系型的信息存儲,這種模式隱含了先驗知識。具體而言,在探求特定對象的屬性時,首先就需要明確可以取到的數值范圍。在進入分析之前,有必要初步了解這種取值范圍。然而,大數據包含了更多的非結構性信息,因此在客觀上也要求構建與之匹配的內部數據關系。數據是實時性的,因此并不具備先驗知識。針對這種問題,數據挖掘也可以給予妥善的處理。

四、具體技術實現

在新的環境下,數據挖掘技術受到了更多行業的認可和接受,同時也逐漸擴展了應用范圍。大數據環境下,數據挖掘具體可以劃分為數據遺傳、神經網絡算法、粗糙集的算法、決策樹算法等類型。現今社會中的信息呈現爆炸的趨勢,數據挖掘因此也逐漸具備了獨立性,構成了獨立學科。用戶運用分類技術,就能夠針對特性類型的數據和信息予以分類,然后進入數據挖掘的過程中。由此可見,數據挖掘更加符合了大數據的特定環境和背景[6]。具體而言,數據挖掘的方式和技術手段包含了如下:

1.構建矩陣模型

存儲大數據過程中,應當構建精確的矩陣模型。在建模的基礎上,才能夠適當運用數據挖掘的方式。針對不同來源的數據,也需要給出各異的處理方式。傳統處理方式下,通常構建單一的數據庫,用來存儲信息并且分析信息。實際上,這種方式在具體落實時也很困難,因為不同類型的信息包含了繁雜的內容。大數據環境下,依照數據挖掘的思路,相關人員可以嘗試構建相關的數據模型。這樣做,就能夠在根本上確保通用性,數據模型也能夠容納更多的數據內容。矩陣模型屬于三維模型,模型具備立體性,因此更加便于數值分析。

2.設置關聯規則

如果要順利進行數據挖掘,那么先要挖掘關聯規則。從特定屬性來看,關聯規則通常是隱含在屬性內部的,是不可以預知的。對于此,只能依照選擇的統計方法來實現。從興趣度的角度看,關聯規則通常取決于置信度和支持度這兩個指標。為了達到平衡,用戶就應當給出最小的置信度和支持度數據。數據挖掘的具體方式可以用來實現可靠的關聯規則,建立必要的存儲模型,用這種方式來集中表達關聯規則。

3.聚類算法的運用

針對高維的空間,通常可以構建特定的聚類算法。為了詳細區分不同類型的超圖,數據挖掘選擇了區分投影的方式。選擇這種方式,能夠細化不同類型的算法,進而也提高了算法整體的精細度。利用數據挖掘,實現了更優的超圖劃分,聚類計算得到的結果也表現得更加精確[7]。

結論

大數據背景下,數據庫更需要數據挖掘作為支持。通過數據挖掘,能夠篩選并且獲得可利用的數據信息,滿足新階段的用戶需求。經濟在不斷增長,然而與此同時資源消耗的總量也相應變得更大。大數據可以用于多領域的數據挖掘,因此也在根本上改變了原有的處理過程和處理方式。面對劇烈的市場競爭,數據挖掘的新方式也可以用于更廣的領域,同時也起到了更大作用。未來的實踐中,相關人員還需要結合大數據的特定背景,不斷修正并完善現今階段的數據挖掘手段。只有這樣,才可以為各行業提供必要的決策依據,服務于數據挖掘的整體質量提高。

參考文獻

[1]朱東華,張嶷,汪雪鋒等. 大數據環境下技術創新管理方法研究[J]. 科學學與科學技術管理,2013(04):172-180.

[2]王蘭成,劉曉亮. 網上數字檔案大數據分析中的知識挖掘技術研究[J]. 浙江檔案,2013(10):14-19.

[3]李海林.大數據環境下的數據挖掘課程教學探索[J].計算機時代,2014(02):54-55.

[4]盧建昌,樊圍國. 大數據時代下數據挖掘技術在電力企業中的應用[J]. 廣東電力,2014(09):88-94.

[5]黃取治. 大數據環境下O2O電商用戶數據挖掘探討[J]. 湖南科技學院學報,2015(05):122-124.

[6]杜鋼虎. 大數據時代背景下數據挖掘技術芻議[J]. 電子技術與軟件工程,2015(14):221.

第8篇

 

數據的挖掘是一項復雜的系統工程,其主要指的是在龐大數據中收集有價值信息數據的過程。對數據挖掘技術在軟件開發信息管理中的應用展開研究,有著十分重要的現實意義。

 

1 數據挖掘技術概述

 

1.1 數據挖掘流程

 

通常而言,數據挖掘可劃分成四個階段,分別為選擇、預處理、挖掘以及吸收,如圖1所示。其中,選擇是就有著極強交互性的龐大數據而言的,在工作期間受信息數據不斷更新影響,通常要對數據展開重新選擇;預處理則是將沒有得到加工的信息數據變換成適宜挖掘處理的形式;挖掘是經由科學計算方法將預處理數據輸入系統,在龐大數據中收集有價值的信息內容,從而完成分類、聚類等工作;吸收也就是數據的后處理,其是為了將有價值的信息數據反饋給用戶,使數據預處理、挖掘環節具備真實意義。

 

1.2 數據挖掘技術

 

現階段,在軟件開發中數據挖掘技術諸如分析、聚類、預測及統計等已經得到較好的應用,這些技術的應用能夠使數據挖掘繁雜工程得到一定的簡化,也就是在海量的數據中盡可能快的時間內找出人們所需的信息,且對系統予以反饋供人們使用。在數據挖掘工程中,較為常見的技術包括關聯發現、分類樹、課時數據挖掘等,同時還有一些較為特殊的數據挖掘技術包括回歸建模、統計分析等。在軟件開發信息管理中應當對數據挖掘技術進行科學合理的選擇,以完成好軟件開發信息管理工作。

 

2 軟件開發信息管理數據挖掘面臨的挑戰

 

2.1 軟件開發數據較為復雜

 

現階段,軟件開發數據以結構化數據和非結構化數據為主,前一種數據多牽涉軟件版本對應信息及缺陷報告等,后一種數據主要涵蓋相關軟件代碼及文檔等。該兩方面數據無法使用同一種算法,然而它們相互又有著很大的相關性。換而言之,在數據挖掘算法開發方面,為了盡可能權衡到兩方面數據的復雜關聯,很大程度上提升數據挖掘難度。

 

2.2 分析手段并非傳統模式

 

軟件開發數據挖掘后續工作是把取得的信息提供給需要的用戶。在以往數據挖掘應用期間,就好比電子商務或者金融行業,就是把信息轉化為文字或圖表。然而,軟件開發人員所需信息并非如此簡單,其還涉及了缺陷定位、編程模板等用戶信息,所以對數據挖掘技術提供較高的要求。

 

2.3 數據挖掘結果評價標準不統一

 

現如今,數據挖掘技術在諸多行業得到普及推廣,同時在結果呈現及評價標準等內容上相對完備。然而,在軟件開發新型管理中數據挖掘技術的應用卻并非如此。軟件開發人員要獲取諸多、繁雜的信息,且信息表示方法各不相同,如此很大程度上提升了對數據挖掘結果展開定量準確分析的難度。

 

3 數據挖掘技術在軟件開發信息管理中的應用

 

在軟件開發信息管理過程中,經對數據挖掘技術科學合理應用,可為軟件開發帶來極有利的幫助,達到軟件開發信息管理低成本、高質量、短工期的要求,消除軟件開發信息管理期間存在的一系列問題。全面軟件開發行業在時展新形勢下,要與時俱進,大力進行改革創新,運用先進的科學技術不斷優化數據挖掘技術研究。

 

3.1 數據挖掘技術在開源軟件開發中的應用

 

開源軟件,即源代碼為開放的軟件,此類軟件現階段大部分對用戶是不收取費用的,也正是受此影響提升了開源軟件控制管理難度,鑒于此,可應用數據挖掘技術來改善開源軟件的資料。就好比,日本某高校學生推出了一個分布式數據挖掘系統,該系統一方面可對大型系統開展數據挖掘,一方面能夠一系列開源軟件開展數據挖掘。

 

3.2 數據挖掘技術在軟件項目管理中的應用

 

軟件項目管理中數據挖掘多表現于兩個方面,一方面為對組織關系開展的挖掘,一方面為對版本控制信息開展的挖掘。軟件項目管理作為一個系統工程,對組織關系開展挖掘主要是指對人力資源開展協調分配。就好比,一個龐大工程可能同時有千百余人參與,在工程運行期間人員相互會出現頻繁的信息數據交互,經對數據挖掘技術的有效應用,能夠對人員組織關系展開合理劃分,積極促進軟件項目管理的有序開展。同時,數據挖掘技術還可應用于挖掘版本控制信息,能夠有效縮減系統維護成本,改善軟件項目管理水平。

 

3.3 數據挖掘技術在程序代碼及機構中的應用

 

在數據庫中收集有價值的代碼、構件,現階段,較為常用的手段包括經由關鍵詞開展索引、經由記錄輸入-輸出關系索引以及以建立交互關系圖為基礎的方法等,我們常常使用的百度、搜狗等搜索引擎均能夠開展數據檢索。

 

4 結束語

 

總而言之,在軟件開發信息管理過程中,經對數據挖掘技術科學合理應用,可為軟件開發帶來極有利的幫助,達到軟件開發信息管理低成本、高質量、短工期的要求,消除軟件開發信息管理期間存在的一系列問題。基于此,相關人員務必要明確認識軟件開發信息管理數據挖掘面臨的挑戰,不斷鉆研研究、總結經驗,積極促進軟件開發信息管理有序開展。

 

作者簡介

第9篇

摘 要 面對當前企事業單位普遍存在各類數據龐大,但快速提取有效信息卻十分困難的現狀,如何在海量數據中發現有用的數據,即所謂的數據挖掘技術便應運而生。針對財務決策中數據海洋的現狀,本文提出了如何采用數據挖掘技術,來提高財務決策的效率。

關鍵詞 數據挖掘 財務決策 應用

隨著計算機、網絡技術的發展,獲得有關資料非常簡單易行。但對于數量大、涉及面寬的數據,傳統統計方法無法完成這類數據的分析,特別是公司財務數據之類。因此,一種智能化的、綜合應用各種統計分析、數據庫、智能語言來分析龐大數據資料的“數據挖掘”技術應運而生。數據挖掘技術的產生和發展使得人們可以利用這些數據挖掘出有用的、隱藏的商業和科學信息。

一、數據挖掘含義

1.數據挖掘的定義

目前普遍認同的一個數據挖掘(DM-Data Mining)定義是:從數據庫中抽取隱含的、以前未知的、具有潛在應用價值的模型或規則等有用知識的復雜過程,是一種深層次的數據分析方法。

數據挖掘可以根據企事業單位的既定業務目標和存在的問題,對大量的業務數據進行探索,揭示隱藏其中的規律,并將其模型化,指導并應用于實際的企事業單位經營管理中。是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以對財務信息做出預測。

2.數據挖掘的主要功能

數據挖掘的目標是從數據庫中發現隱含的、有意義的信息,它主要有以下功能:

(1)估計與預測:估計是根據已有積累的資料來推測某一屬性未知的值,預測是根據對象屬性的過去觀察來估計該屬性未來之值。數據挖掘技術能夠自動在大型數據庫中尋找預測性信息。

(2)關聯和序列發現:關聯是要找出在某一事件或是資料中會同時出現的東西;序列發現與關聯關系很密切,所不同的是序列發現中相關的對象是以時間來區分的。

(3)聚類:數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術的要點是在劃分對象時不僅考慮對象之間的距離,還要劃分出類具有某種內涵描述,從而避免了傳統技術的某些片面性。

(4)偏差檢測:數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的信息,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等①。

二、數據挖掘在財務決策支持系統的應用

1.財務決策支持系統

財務決策支持系統是在傳統電算化會計信息系統的基礎上建立和發展起來的,傳統會計信息系統輸出的企事業單位財務數據及非財務數據都存在數據過剩而信息不足的情形,而財務決策的精確程度又取決于所用信息的正確程度。隨著競爭的增加,財務決策的時效性也變得越來越重要了,面對這些結構化或半結構化的海量數據,將數據挖掘技術應用到系統中充分有效的預測企事業單位未來的發展趨勢,有利于輸出財務決策信息供高層管理者使用,提高企事業單位的競爭②。

(1)會計信息系統結構

會計信息系統可分為三個層次:會計核算層、財務管理層和財務決策層,分別屬于事后核算、事中控制和事前預測與決策過程。財務決策支持系統是最高層,也是會計信息系統發展的最終目標。會計核算層和財務管理層輸出的企事業單位財務數據及非財務數據都存在數據過剩而信息不足的情況,這嚴重影響了財務決策層發揮有效作用。

(2)財務決策支持系統的概念

財務決策支持系統(FDSS―Financial Decision Support System)是以現代管理科學和信息技術為基礎,以電子計算機為工具,運用經濟學、模糊數學、控制論和模型技術,對財務管理中的結構化、半結構化以及非結構化問題進行決策分析的人機交互系統。

在財務決策支持系統中,為了支持管理決策,首先必須建立各種數據庫以備決策之需。其次要建立各種數學模型,組成模型庫對數據庫中的數據進行深加工以便探索其內部規律,對數據的運算結果進行比較、分析和評價。同時,為了充分利用管理者的經驗、知識和智慧,系統還設置人機交互接口和專家知識庫,采用人工智能技術判斷環境生成方案、評價決策。

(3)財務決策系統國內外發展現狀

在國內,會計核算系統和財務管理系統已發展良好,逐步地為用戶理解和接受,但財務決策支持系統的發展尚處初級階段。

在國外,財務決策支持系統已較為完善,以財務管理為核心構造財務決策支持系統,做到了賬務系統與管理系統的有機融合,做到了事前預測與決策、事中控制、事后分析為一體的網絡化、科學化的決策管理,數據挖掘在財務決策支持系統中的運用也較為成熟。

2.數據挖掘在財務決策支持系統的應用

數據挖掘技術在財務決策支持系統中的應用研究始于1995 年,研究內容包括將DSS 的結構體系引入過來,從二庫、三庫結構到四庫、五庫結構的研究,也就是從傳統的FDSS 研究到智能的或高級的FDSS 的研究。隨著信息技術的不斷完善,把數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)也引入到財務決策支持系統中,出現了基于數據倉庫和數據挖掘技術的財務決策支持系統結構,數據挖掘技術在財務決策支持系統中的應用主要包括:

(1)財務狀況分析

財務狀況分析是財務管理的重要組成部分,包括企事業單位償債能力分析、企事業單位營運能力分析、企事業單位獲利能力分析、企事業單位發展能力分析。它是利用已有的財務數據對企事業單位的財務狀況、經營成果進行分析與評價。財務分析系統可以運用數據挖掘分類、預測等技術,根據企事業單位過去和現在的財務數據做進一步的加工、整理、分析和評價,在預測未來的財務狀況的同時從中取得有用的信息供決策者使用。

(2)財務預測

財務預測系統是FDSS 的重要組成部分,其功能分為兩個方面:一是利用已有的財務數據對企事業單位未來的財務狀況和經營成果進行預測。二是利用專家經驗和專門知識對某項財務專題進行預測。財務預測的主要內容包括銷售預測、利潤預測、成本預測、資金預測、財務指標預測等。利用回歸,神經網絡等技術根據已有的財務數據預測企事業單位未來的財務狀況,進而判斷企事業單位未來發生財務危機的可能性。

(3)籌資決策

籌資是指企事業單位何時、采用何種方式、獲得何種規模資金的過程。企事業單位籌資決策主要包括籌資數量決策、籌資方式決策和債務償還決策。一般地說,企事業單位籌資首先應考慮自有資本,即所有者權益籌資;其次再考慮債務籌資,其目的是使財務風險最小化。利用數據挖掘中的分類、聚類等技術可根據單位經營管理的需要進行決策信息輸出,確定一個合理的籌資方案。

(4)投資決策

企事業單位的投資決策主要包括企事業單位內部長期投資決策、聯營投資決策和證券投資決策。投資決策問題是決策問題中較為復雜的問題,其決策問題一般分為半結構化或非結構化問題。我們可利用預測、關聯等技術對投資時機、投資規模、投資方式等方面來確定投資方案。通過在眾多可投資項目中選擇出最具價值的項目決策信息,實現投資資金效率最大化。

(5)成本決策

成本決策涉及企事業單位銷、生產經營和資本運作等各個領域,可以說凡是發生成本費用支出的各項經濟活動,都存在成本決策問題。企事業單位成本決策包括:存貨成本決策、生產成本決策、資金成本決策、銷售成本決策、服務成本決策等,其中銷售成本決策和服務成本決策,其非結構化因素較多,包括促銷費用、廣告費用、銷貨服務費等,從而使其決策方案的確定更加復雜化。這就需要利用數據挖掘技術中的時間序列分析,關聯分析等技術對歷史數據進行分析預測,以確定最優方案。

(6)股利分配決策

股利分配是指公司向股東分派股利。股利分配決策的合理與否,將會對公司的持續發展和股東利益產生重大影響。股利分配決策包括股利發放決策、股利支付比率決策和股利發放形式決策等。由于股利分配決策要受到法律、經濟、公司政策、股東利益、以及股票市場等諸多因素的影響,其決策問題大多為半結構化和非結構化問題,我們可利用數據挖掘技術中的分類技術來提供支持。

(7)存貨決策

存貨決策主要是指原材料和產成品的決策,即確定合理的經濟訂貨量以及何時訂貨才是最佳時機,力求使存貨上耗費的成本最低。銷售的不確定性使得存貨決策成為一種風險性決策,它需要根據以往的經驗儲存、歷史統計資料的分析以及輸入用戶的調研數據,運用數據挖掘技術中的決策樹方法幫助決策者確定需求變量的范圍及發生概率,并提供最優方案的參考數據。隨著數據庫技術和網絡技術的迅速發展,傳統會計核算層及財務管理層的不斷完善,人們獲取數據的能力越來越強,將海量的數據存儲在數據庫和數據倉庫中。將數據倉庫(DW)、數據挖掘(DM)和聯機分析(OLAP)等信息技術應用于財務決策支持系統,更能將數據倉庫里的海量數據從執行系統中篩選出來,減少冗余,完成一系列轉換處理,便于決策者從宏大的信息系統中分辨、析取、整理、挖掘出對財務決策有用的信息,極大提高企事業單位管理信息系統的工作效率③。

三、數據挖掘技術在財務決策支持系統中應用的難點與展望

數據挖掘技術在財務決策支持系統中的應用還是一門嶄新的技術或方法,接受數據挖掘的概念容易,但將其落在實處卻比較困難。其中最重要的就是成本問題。數據挖掘功能對企事業單位財務數據進行分析雖然存有優勢,但前提條件是具備完整、正確的數據,即在建立數據倉庫系統基礎后,與此功能結合運用以達到事半功倍的效果。但目前單位財務部門提供的數據本身就可能存在水分,因此需要數據信息使用者在經過會計信息質量分析等前提下調整或重新估計,然后再利用數據挖掘等技術應用到財務決策支持系統中。數據挖掘僅依靠計算機或者軟件是無法完成任務的,更多的是需要依靠專業人士的職業判斷。

雖然在單位財務決策支持系統中利用數據挖掘技術還不十分成熟,但是伴隨著科學技術的迅猛發展,以及數據挖掘技術在財務決策支持系統中的廣闊市場前景,相信基于數據挖掘的財務決策支持系統必將更加成熟!

但是,數據挖掘作為一門新興的科學和技術,它的發展還處于幼年期,要想基于數據挖掘的財務決策支持系統模型得到更為廣泛的應用,面臨的挑戰為:

1.建立基礎的數據挖掘理論體系;

2.提高數據挖掘算法的效率和處理能力;

3.良好的人機交互界面;

4.挖掘各種數據類型,包括半結構和無結構數據。

注釋:

①何京舟.淺議數據挖掘技術與財務分析.中國集體經濟.2009(6):155-156.

②湯九斌.基于數據挖掘技術的決策支持系統及其關鍵技術研究.中國優秀博士論文全文數據庫.南京理工大學.2009.

③周喜,王加陽.數據挖掘技術在財務決策支持系統中的應用研究.湖南商學院學報.2009(4):99-101.

參考文獻:

[1]何京舟.淺議數據挖掘技術與財務分析.中國集體經濟.2009(6).

[2]鄭日軍.數據挖掘綜述.科協論壇(下半月).2008(10).

[3]洪沙,向芳.數據挖掘與決策支持系統.科學咨詢(決策管理).2008(4).

第10篇

關鍵詞:數據挖掘;技術;神經網絡技術

1 數據挖掘技術的方法

數據挖掘技術的方法主要分為統計、聚類和遺傳分析[1]。統計方法可以滿足數據庫處理分析,包括:有線、非線、回歸等多項統計方法;聚類方法應用于數據挖掘的內部處理,梳理內部數據的關系,基于聚類方法的存在,數據挖掘技術可以滿足經濟、模擬等多項數據領域的需求;遺傳分析是數據挖掘方法的重點,以生物進化為導向,將重組、變異導入到數據庫內,推進數據的后續發展,將后續模擬的數據,應用在現代數據庫的某個部分,發揮同樣作用,遺傳算法高度模擬生物進化的方式,結合繁殖、基因、突變、重組的概念,引入新數據,促使數據庫中新個體的形成,所以數據挖掘中的遺傳算法,既可以作為數據分析的方法,也可以體現預算和評估的特點。

2 數據挖掘的技術支持

2.1 神經網絡技術

神經網絡主要以數學模型為主,重點針對復雜數據,快速完成數據抽取。神經網絡技術處理的能力,可以超出計算機的分析水平,保障輸入神經網絡中的數據屬于數值型,即可快速導出趨勢性變化的數據。神經網絡技術通過模擬大腦的神經元結構,利用MP,實現非線性規劃,根據數據信息的特性,決定信息的存儲位置,實現自主處理。神經網絡技術在數據挖掘中,不僅可以實現數據的快速分類,還可以對數據進行模擬預測,促使數據挖掘處于優化的狀態,完成難度聚類。神經網絡技術的代表為RBF和BP。

2.2 決策樹技術

此技術以模擬離散函數為主,借助樹木模型,對實際案例進行綜合分類處理。決策樹的葉子,代表不同結點,而結點則是組成實例不同屬性的測試,未來枝葉的分支,表示可能覆蓋的屬性預測[2]。決策樹在根部向枝葉推進的過程中,蘊含豐富的數據挖掘,目的是得出有價值的屬性信息,所以決策樹理論支持數據挖掘的分析和分類,對相同屬性的數據進行歸類存儲,進而挖掘數據分類中遵循的規則。

3 數據挖掘技術的應用領域

3.1 通信服務行業

在數據挖掘技術的帶動和參與下,通信服務行業逐漸趨向于“三網融合”,即:電信、互聯和電視,勢必涉及諸多數據運營,數據挖掘技術可以針對三網狀態,實行模式分析,挖掘商業潛能。例如:數據挖掘技術可以對通信數據進行分析,得出通信系統實時運行的參數和狀態,以聚類的方式,歸類系統數據,還可直接分析用戶的實際行為,拓寬業務途徑,同時發現發展機遇,提升通信服務行業的社會效益。

3.2 高校管理系統

數據挖掘技術在高校中的應用較為明顯,例如:學生信息管理系統、教務評價系統、成績查詢系統、選課系統等,都可體現數據挖掘技術的優點。高校學生數量較多,通過數據挖掘技術,可以為學生提供一體化服務,學生在入學之際,即可將信息錄入在管理系統內,整個在校期間,都可通過管理系統,查詢個人信息,管理者也可以根據管理系統,快速調取學生信息,如:圖書借閱、飯卡充值等,隨時關注學生的信息動態[3]。高校在數據管理方面,已經實現多系統的融合發展,在數據挖掘技術的支持下,將不同功能的數據系統,兼容于統一系統,不論是學生,還是教務人員,利用獨立賬號、密碼,都可實現個人信息管理或查詢,對數據挖掘技術提供更高的發展要求。

3.3 醫學領域

醫學領域不僅涉及大量的信息數據,而且數據的編排、匯總非常復雜,大量數據同時出現的過程中,幾乎不會出現相同數據,因此,醫學領域的數據管理,具備一定難度。數據挖掘技術成功應用于醫院數據管理中,特別是在病歷管理、醫藥信息管理方面,例如:數據挖掘技術可以整合醫藥信息,將醫藥信息存儲于數據庫系統內,醫務人員可以通過檢索的方式,在管理系統內,迅速獲得所需信息,避免信息篩選錯誤,提高信息識別的能力。由此,醫務人員在信息管理和校對方面,提高操作效率,確保數據挖掘的質量。

3.4 金融行業

金融行業中的數據分類比較明確,如:信貸數據、儲蓄數據等,需對數據采取合理的分配和管理。數據挖掘技術在金融行業中,為數據管理提供可靠的空間,成為管理金融數據的最佳方式[4]。數據挖掘技術具備獨立分析的能力,可以在數據庫中,設置多維參考點,對不同類型的數據實行嚴格區分,根據數據的異同性質,實行準確處理,發揮數據挖掘的優勢,維持金融數據的運行。數據挖掘技術還可以根據金融數據的動態變化,有效發現影響金融活動的不良因素,防止金融行業出現數據漏洞,造成管理弊端。

綜上所述,隨著數據挖掘技術的發展,其在行業領域中的應用越來越廣泛,為數據運行提供強大的技術支持。數據挖掘技術可以迅速獲取有效信息,體現準確識別的能力,改善數據運行,因此,數據挖掘技術成為行業發展與進步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價值,同時提高行業信息技術水平。

[參考文獻]

[1]羅斌.數據挖掘研究進展[J].中國水運,2012(07):90-92.

[2]張昀.數據挖掘技術研究[J].軟件導刊,2012(09):45-47.

第11篇

關鍵詞:云計算;概述;發展現狀;研究方向

中圖分類號:TP3

1 云計算概述

什么是云計算?目前廣為接受的是美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,它存在一個計算資源共享池,包括網絡、服務器、存儲、應用軟件和服務等資源能夠被快速提供,并且只需投入很少的管理工作,或是與服務供應商進行很少的交互。云計算本質上是一種基于互聯網的超級計算模式,它由很多廉價服務器組成,可以提供動態的網絡資源池、虛擬化和高可用性的下一代計算平臺等的核心計算機技術,使得互聯網成為用戶的數據和計算中心,為用戶提供安全便捷的數據存儲和網絡服務。云計算的發展建立在并行計算、分布式處理、網絡計算的基礎上,是當今信息技術一個重要的發展方向。

2 云計算發展現狀

目前云計算正在如火如荼的發展,但尚處于初級階段。在國外,IT界巨頭Google因為其自身發展的軟硬件優勢,其在云計算方面的成就已經走在了時代的前列,對外公布的云計算技術主要包括MapReduce、GFS和BigTable,旨在將全球多所大學都納入到云計算中。微軟也注資10個億建立云計算的服務器農場,平均占地超過7個足球場,設置10萬臺計算機服務器。IBM在2007年高調推出“藍云(Blue Cloud)”計劃,并表示“云計算將是IBM接下來的一個重點業務”,它將為企業客戶搭建分布式、可通過互聯網訪問的云計算體系,是一個企業級的解決方案。同年亞馬遜也向開發者開放了名為“彈性計算機云”的服務,使得軟件公司可以按需購買亞馬遜數據中心的處理能力。雅虎也將一個小規模的服務器群,即“云”,開放給卡內基―梅隆大學的研究人員。惠普、英特爾和雅虎三家公司聯合創立一系列數據中心,目的同樣是推廣云計算技術。我國的相關科研研究結構也緊跟著時代的發展,紛紛展開了對云計算技術的研究。2008年3月17日,Google全球CEO埃里克?斯密特(Eric Schmidt)在北京訪問期間,宣布在中國大陸推出“云計算”計劃,清華大學將是第一所和Google合作的高校。清華將與Google合作開設“大規模數據處理”課程,并協助學校在現有的運算資源上構建“云計算”實驗環境。未來Google將把課程推廣到其他多所高校。中國電子學會也在2008 年專門成立了中國電子學會“云計算專家委員會”,旨在更深入的探索和研究云計算問題。我國電商行業的先鋒―阿里巴巴,也首次建立起“電子商務云計算中心”,開發更多云產品供應市場。

3 未來云計算主要研究的問題

3.1 并行計算。并行計算是云計算的核心技術,可以說云計算得以提出的最初的思想來源就是并行計算。是未來云計算研究領域的一個重點研究問題。并行計算是指在一個時間點同時利用多臺計算設備完成計算問題的過程,它將計算能力從單個處理器擴展到多處理器,主要被用來提高計算機的處理速度和處理能力,同時它也解決了大主存容量的求解問題。并行計算的基本思想是將計算問題分解成多個部分,每個部分用一立的處理設備進行處理,然后再匯總形成問題的最終解,它需要多臺處理器共同參與工作。并行計算系統既可以是專門設計的、含有多個處理器的超級計算機,也可以是以某種方式互連的若干臺的獨立計算機構成的集群。通過并行計算集群完成數據的處理,再將處理的結果返回給用戶。目前并行計算的發展還面臨著很多困難,比如說并行程序的實際達不到規范化標準,可讀性差;并行程序開發難度大,一般的程序員難以將算法進行并行化實現,這就有了自動并行技術的需求,但目前還未實現;云計算多并行計算的要求高于現在的大部分應用,但現在的并行計算技術超過一定的處理器后就很難再提高加速比。并行計算是云計算的核心,只有實現了并行計算的突破,才能順利解決云計算中大規模的求解和擴展問題。

3.2 大規模數據挖掘。計算機技術的發展和普及使得海量的信息數據產生,人類已經進入了大數據時代。大規模數據挖掘,就是對海量數據進行提取分析,來獲得數據中潛藏的知識的過程,也是當今信息技術研究的一個熱點。比如說電商的商品推薦服務,就是利用數據挖掘算法,對用戶在網上購物過程中產生的相關數據進行分析預測,從而進行個性化的商品推薦。但是由于信息數據一般規模較大,對海量數據進行處理所需的時間和空間復雜度都相對很高,因此數據處理效率一直是數據挖掘領域所要面對和解決的問題。云計算的數據挖掘也要解決處理效率的問題,只有提高數據處理效率,才能讓用戶在短時間內獲得他們的需求。提高數據的處理效率,可以考慮從數據挖掘算法和并行計算兩方面著手。現在已經成熟的數據挖掘算法有很多,數據挖掘工程師要根據具體的數據格式和用戶需求選取不同的算法進行數據處理,要在實踐中分析和改進算法,以提高數據挖掘的效率。另外,原創性數據挖掘算法的研究應該被提升到一定的高度。并行計算也是解決大規模數據挖掘效率問題的一個重要手段,如果并行計算的發展受到制約,數據挖掘也無法實現突破。

3.3 云安全。緊隨云計算和云存儲之后,云安全也出現了。云安全是指是指基于云計算商業模式應用的安全軟件、硬件、用戶、機構、安全云平臺的總稱。云安全”是“云計算”技術的重要組成部分,已經在反病毒領域獲得了廣泛應用。云安全是通過大量的網狀客戶端,對網絡中的軟件行為進行異常監測,在獲得網絡中木馬、惡意程序信息之后,將其推送到服務端進行自動分析和處理,再把病毒和木馬的解決方案分發到每一個客戶端。云安全最終的目標是把整個互聯網變成一個超級殺毒軟件,是決定云計算發展規模和前景的重大因素,已經成為網絡安全界研究的主要問題之一。云安全技術是P2P技術、網格技術、云計算技術等分布式計算技術混合發展,自然演化的結果。云安全技術的應用還要解決很多問題,要建立云安全系統不是那么容易的事情,海量的客戶端、專業的反病毒技術和經驗、大量的資金和技術投入、開放的系統都是必不可少的組件,而且還需要大量合作伙伴的加入。國內云安全技術已經有一些初步的發展,比如金山毒霸的“云安全”,它是為了解決木馬商業化之后的互聯網嚴峻的安全形勢應運而生的一種全網防御的安全體系結構,包括智能化客戶端、集群式服務端和開放的平臺三個層次。

3.4 系統級容錯技術。利用云計算,用戶不管在什么時間、什么地點都可以利用互聯網來查看自己在云端存儲的文件,完成未完成的工作,他不用依賴特定的計算機來共享網絡資源,甚至不需要安裝任何應用軟件就可以在云端順利地可用所需的應用,用戶所需的各種資料和軟件都存在云端。因此,云計算安全系統必須具備容災和數據恢復的功能,以保證用戶的資料不丟失。但是由于云計算本身的龐大,以往的系統容錯技術已不能滿足需要,進一步的研究系統容錯是十分必要的。保障容錯系統的高可靠性要從系統結構的設計出發,目前經常用到的容錯技術包括服務器群集技術、雙機冗余服務器技術和單機容錯技術,云計算系統級容錯則是一種多機容錯技術。云計算系統中有成千上萬臺服務器,其中存放著大量的數據、服務和應用,容錯系統也必須可以解決大范圍失效問題。目前使用較多的是應用層面的檢查點和重啟技術,但這回增加云計算容錯技術的開發難度和工作量,降低系統運行性能。所以急需提出新的技術和設計方法,來為云計算發展提供可靠穩定的保障。

4 結束語

現在商用和科學計算的計算量在日益增大,云計算必將成為解決這些問題的不二選擇,未來云計算的發展前景會是一片大好。明確云計算發展需解決的問題,將有助于我們準確把握未來云計算研究的方向,為云計算的進一步發展做出貢獻,使中國的云計算技術研究和云計算產品在世界IT領域占有一席之地。

參考文獻:

[1]方巍,文學志,潘吳斌.云計算:概念?技術及應用研究綜述[N].南京信息工程大學學報(自然科學版),2012(04).

第12篇

關鍵詞:學前教育;信息素養;數據挖掘

一、研究背景

20世紀90年代以來,教育界出現了以信息技術的廣泛應用為特征的發展趨勢,國內學者稱之為教育信息化。教育的信息化逐漸成為教育現代化的重要平臺,而學前教育是整個教育大廈的奠基石,它的信息化對整個教育信息化起著強大的推動作用。教育信息化是一個系統工程,有了好的軟、硬件環境,教師們具備較高的信息素養,對于教育信息化的推進有著重要意義。

信息素養,通俗的理解是對信息的搜索、加工、處理,再結合自己的知識結構,對信息內化,提出自己的看法。這種素養、能力在網絡時代顯得尤為重要,也是幼兒教師朝專業化發展的重要素質。幼兒園教師的信息素養應當是“知道如何利用計算機和網絡技術以獲取相關學前教育教學信息,創造性地開發、豐富幼兒園教育資源,合理、靈活運用多種信息解決幼兒園教育教學實際問題的技術技能”。

泉州兒童發展職業學院,是閩南地區重要的學前教育培養基地,每年都會為社會輸送300~500名學前教育專業的學生,分布在閩南、閩西和閩北等地區,為提升海峽西岸的學前教育質量做出貢獻。為適應學前教育信息化進程,學院每年都會舉辦幼兒園信息技術師資培訓,培訓內容從以前單一的辦公化軟件應用基礎,發展到現在的多媒體軟件應用、課件制作等更高技能。

由于幼兒園教師多來自閩南三地,數量龐大,可以利用深度訪談、網上問卷、網下答卷等多種形式收集所需的信息,從而建立起相關的數據庫。隨著調查研究的展開,數據資料和信息量將會急劇增大。以泉州地區為例,截止到2004年共有幼兒園604所,加上各種幼教機構,將達到700個單位,一個普通幼兒園一般師資有40人左右,這樣單單泉州地區從事幼教行業的人員就有近3萬人,而每個教師的數據資料包含有多方面,其中包含著巨大的信息資源。要如何合理地、高效地挖掘出這些數據之間的關系,從而為我們的教育培訓提供指導,單靠傳統的數據分析手段是無法勝任的。因此結合筆者的實際工作以及所在單位的需要,引入一個新的研究方向:面向學前教育師資信息素養的數據挖掘技術研究。

數據挖掘,現在已經在一些領域上得到成功的應用,在高層次的教育管理領域的應用得到越來越廣泛的重視,不僅是師范院校、綜合大學,包括很多大公司、大企業也參與到這項造福未來的事業中。

在學前教育管理領域上,數據挖掘還是個全新的課題。本文將利用數據挖掘方法,分析被研究對象——幼兒園教師在使用信息技術過程中表現出來的信息素養,包括:

1.個人信息意識與態度,包括教師的業務能力、信息環境建設,以及教師的信息意識,利用信息手段解決工作和生活問題的主動性。

2.個人信息知識和技能水平,包括教師多媒體軟件使用情況、多媒體課件制作能力、網絡技能、知識技能與課件制作的能力。

3.個人信息素養綜合因素以及學習目標,包括信息化教學意識、信息道德與安全、信息技術培訓要求以及信息技術困難。

通過對以上三方面的研究分析,我們希望能從中找出影響教師信息素養提升的主觀和客觀因素,從而指導教師信息技術培訓方案的制訂,更有助于學前教育師資職前教學計劃的制訂以及培養目標的調整。

二、教育領域的數據挖掘技術應用現狀

在教育管理領域內,數據挖掘技術正在慢慢地被推廣,主要是應用在圖書管理、教務管理、教學評價、數據分析等事務中,但總體上研究不夠成熟。當前國內各大師范院校也意識到數據挖掘的重要性,在教育專業課程設置方面均開設了“數據挖掘”等相關課程,如南京師范大學的“Web數據挖掘與推理”、“數據庫與數據挖掘”等課程。隨著關聯分析、聚類、概念描述、偏差檢測等技術的不斷發展和完善,數據挖掘必將在教育領域中發揮越來越大的作用,同時隨著人們對這一技術的日益關注,相信其在教育領域的應用范圍也會越來越廣,從而快速推進教育的改革和發展。

在學前教育領域內,由于管理人員在技術上的不足,數據挖掘的相關應用基本上是空白,更多的是利用Excel圖表或SPSS等工具對調查結果進行簡單的匯總分析,得出結論。隨著信息技術的廣泛應用,學前教育界的專家也開始注意到信息素養的培養問題,并對幼兒園教師信息素養進行調查研究,但對于得到的數據、問題之間的內在關聯、相互制約等關系,沒能進行更有意義的發現、推理。

三、研究意義及方法

在學前教育領域中,作為主體的幼兒教師是一個特殊的年輕群體,她們普遍學歷不高,研究水平有限,學習能力也不如中小學教師,但卻是個充滿朝氣、積極向上的群體。由于特殊的教育環境、教學對象,使得她們需要借助更多高效的教學手段、教學模式來豐富課堂,吸引幼兒的注意力,提高教學效果,而信息技術正是最好的工具。因此,如何加強幼兒教師的信息技術能力,提升幼兒教師的信息素養,是一項非常重要的任務。筆者已通過調查問卷、網絡答題等方式,不斷地收集、積累相關數據,構建數據庫,而如何利用有效的途徑,并從這些數據中發現有用的信息,進而對信息技術教育課程改革提供指導,有著長遠的意義。

因此,本次研究的主要內容和所采用的研究方法可以概括為:

1.持續地通過問卷調查,網絡答題等方式獲取數據,形成“學前教育師資信息素養數據庫”,并結合個別訪談形式,探討泉、莆、廈、漳、龍巖等地幼兒教師信息技術整體水平;

2.根據領域專家要求,將各因素分成11個挖掘問題,并利用挖掘工具探索各因素之間的關系;

3.設計數據挖掘模型,利用數據挖掘工具,對不同的挖掘問題分別采用關聯規則、聚類方法進行研究;

4.探討不合理規則,利用測試數據集對挖掘結果進行檢驗;

5.挖掘結果可視化、直觀化,方便用戶對結果的理解。

參考文獻

[1] 杜安平,周期玉.Big6與當代大學生的信息素養構建[J].實踐研究,2006,(6):730-734.