資料順序性之研究

資料順序性之研究

ID:44320190

大小:56.50 KB

页数:6页

时间:2019-10-20

資料順序性之研究_第1页
資料順序性之研究_第2页
資料順序性之研究_第3页
資料順序性之研究_第4页
資料順序性之研究_第5页
资源描述:

《資料順序性之研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、資料順序性之硏究•問題的說明與定義資料順序性硏究最基礎的問題在於從交易記錄中尋找有趣的順序性樣式(SequentialPattern),循序樣式的特點在於樣式中每個項目的前後位置爲樣式的識別特徵之一,也就是樣式中的項目之間是含有順序性的,因此在尋找循序樣式時,我們會有一個用以決定項目先後次序的衡量方式(如時間),所有的項目或項目集合依據該衡量方式在一維的方向上呈現順序排列,而尋找循序樣式就是要在這些循序排列的資料中找到有趣的規則;以在銷售記錄中進行順序性樣式的探勘爲例,資料庫中的交易與交易之間可以依發生時間的先後加以順序排列,例如在時點1

2、顧客甲購買了A物品,在時點2甲購買了B、C二項物品,在時點3甲又購買了D物品,經過排序與分析所有顧客的交易記錄之後,也許我們會發現有許多人在購買了A物品後,會冉購買D物品,這就是一種順序性樣式的資料探勘問題。•現有應用順序性硏究在交易資料庫盛行的現在是一個很有價値的方向,資料庫中的交易資料通常是有時間上的順序性的,如在零售交易資料庫中交易發生的時間、時間序列資料庫中事件發生的時間、以及網站日誌中請求/回覆發生的時間等,如果在對這些資料進行探勘時,能導入順序性的限制,一方面可以在產生探勘結果時去蕪存菁,另一方面其所呈現的資訊將會更具有意義。

3、目前順序性資料探勘的硏究與應用主要可槪分爲四大類,第一類是在銷售記錄資料庫的探勘中,將交易發生時間的順序列入考量,以期得到跨交易的顧客購買模式,上文所舉的例子就是這一類的探勘應用,這類的硏究主要在挖掘方法,如[1、2、3],其中[2]可以避免反覆的讀取資料庫,[3]則強調處理較長的循序樣式的能力,另外[4]可以對所得的循序樣式進行漸進式的更新維護,[5]則改善尋找循序樣式時進行序列的比對的成本,[6、7、8]則是一些結合本類探勘技術與其他領域的應用'例如應用於資料探勘系統、計畫管理、資料庫系統等。順序性資料探勘的第二類是在時間序列資料庫中

4、尋找相似的循序樣式,或是於時間序列資料庫中進行相似性的查詢;因爲時間序列資料庫的應用十分廣泛,所以順序性探勘也被大量的應用,例如在股價歷史資料庫中挖掘各股股價變動的相似樣式、在氣象資料中尋找符合某相似(循序)樣式的記錄、電信網路的警報分析[15]、在疾病資料中探勘時間序列樣式[16]等;目前這一類的順序性探勘硏究包括了一般化的時間序列樣式的探勘演算法[9、10、11]、關鍵技術的改良[12]、特別化的時間序列探勘與應用[13、14、15、16]。順序性資料探勘的第三類是於WWW的環境中尋找使用者的路徑尋訪樣式,我們可以將使用存取網頁的日誌

5、合倂、拆解成許多的路徑序列,然後從中挖掘相似的路徑尋訪樣式,目前這類的探勘硏究包括了一般化的WWW路徑尋訪樣式挖勘[17、18、19、20、21、22],其中[22]將探勘的範圍擴大到一個提供多項服務的環境,另外因爲WWW的日誌資料異於一般探勘所處理的交易資料,因此本類硏究還包括了探勘程序中的前置處理以及探勘系統的架構[23、24、25]o除了上述的三類,因爲文字探勘(TextMining)也是處理循序文字資料,並應用所得的循序樣式,因此我們將之視爲順序性資料探勘的第四類,本類主要是於文字資料庫中探勘文字序列樣式,硏究的方向包括了一般化的

6、探勘演算法[26]、特殊化的探勘系統與探勘效率的改良[27、28]、文字序列樣式的應用[29、30、31]。•硏究展望與議題呈上文,我們將資料順序性硏究的領域劃分爲四個議題-交易資料庫中的循序樣式探勘、時間字列資料庫中的時間字列樣式探勘、分散式資訊服務環境下的使用者的路徑尋訪樣式探勘、文字資料中的文字序列樣式探勘,這四個議題從一般化的探勘演算法、特殊化的探勘演算法、效率相關的關鍵計算技術,到特殊的應用範例都已經有了一個完整的硏究脈胳,然而相較於尋找大項項目集合的交易資料探勘,順序性資料探勘在尋找大項序列時,會需要更多的計算成本與空間成本,

7、因此發展更有效率的探勘演算法是上述四個議題共同的未來發展方向,效率的改善一方面可以減少所需處理的候選樣式'另一方面可以則從降低過濾候選樣式的計算成本,就這此而言,目前的演算法尙有的改進空間;另外由於序列的特性,循序樣式有趣性的衡量,以及在預防資訊過量的考量下,探勘系統與使用者的互動,也都是値得注意的發展方向。在四個議題之中,第三類使用者尋訪樣式探勘必需有資料準備的前置處理動作,以將使用者存取日誌中的資料轉換成進行探勘的記錄,因此前置處理與整個探勘架構的有效性也是可能的硏究方向。整體而言,我們期望資料順序性的硏究可以朝更有效率、針對使用者提

8、供最價値的資訊的方向發展。•參考文獻[1]R.Agrawal,R・Srikant:"MiningSequentialPatterns11,Proc,oftheInt*lConferenceon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。