Rough集理論在數據約簡中的應用

Rough集理論在數據約簡中的應用

2004年5月安徽教育學院學報

M ay.2004第22卷第3期

Journal of A nhui Institute o f Educatio n

V ol.22N o.3

[收稿日期] 2003-10-20

[作者簡介] 于海濤(1981-),男,陜西省西安人,安徽省合肥工業大學2003級計算機與信息學院碩士研究生。

Rough 集理論在數據約簡中的應用

于海濤

(合肥工業大學理學院,安徽合肥230009)

  [摘 要]Ro ugh 集是由Z.P awlak 于1982年提出的,它是一種新的處理模糊和不確定知識的數學工具。它能有效地分析不確定,不精確,不一致等各種不完備信息。其優點是無需任何關于數據的初始的或附加的信息,如統計學中的概率分布。而隨著數據庫系統中所包含的信息量地擴大,人們越來越認識到信息系統中數據急度膨脹的危害性,因此人們對數據進行約簡的要求也越來越強烈。本文主要介紹Ro ugh 集的基本理論在數據約簡中的應用。  [關鍵詞]R ough 集合;數據約簡;核

  [中圖分類號]T P 391    [文獻標識碼]B     [文章編號]1001-5116(2004)03-0021-03

1 引言

Ro ug h 集合做為一種模糊性數學模型,它的出現彌補了模糊集不能計算,并且無法計算出模糊對象邊界上所具有的含糊元素數目的缺陷。Ro ug h 集理論能有效的處理下列問題:不確定或不精確知識的表達;經驗學習并從經驗中獲取知識;不一致信息的分析;根據不完整,不確定的知識進行推理;在保留信息的前提下進行數據約簡;近似模式分類;識別并評估數據之間的依賴關系。

本文主要講述利用Rough 集來對數據庫中的數據進行分析,并生成確定與可能形式的規則,來達到數據約簡的目的。2 數據約簡

利用Rough 集進行數據約簡通常需要三個步驟:1.屬性約簡;2.屬性值的約簡;3.決策規則的約簡。在具體介紹方法之前,我們需要討論如下兩個問題:什么是數據約簡,約簡的目的是什么。

數據約簡是在保持知識庫的分類或決策能力不變的條件下,刪除其中不相關或不重要知識,簡單的說就是通過對數據庫系統中已有數據及其關系的分析,在不影響原系統功能的情況下,將一些無關或多余的信息去掉,以達到信息約簡的目的。

但是為了保持原有決策系統的功能,我們不能無限制地對已有數據進行約簡。我們把維持系統功能的最小數據集合稱之為核,而這正是我們約簡的目的。

由于篇幅的限制,我們用一個實例來說明如何利用Rough 集來進行數據約簡。

下表是一醫療信息系統,試計算表中決策屬性與條件屬性之間的相依關系及其最小決策算法。

A

U a b c d e 1正常無無無無2正常無有有無3低燒無有有有4低燒有無無無5低燒有有無有6高燒無無無無7高燒有無無無8高燒有無有有9高燒

(其中a ——體溫;b ——干咳;c ——頭痛;d ——肌肉痛,為條件屬性;e ——流行性感冒,為決策屬性)

解:在用自然語言處理問題時往往會產生不一致的現象,所以我們在處理中應先將自然語言量化。

依據該信息系統,其中a ,b ,c ,d 為條件屬性,e 為決策屬性,設它們取值為:

e=(0-無,1-有);a=(1-正常,2-低燒,3-高燒);

b =(0-無,1-有);

c =(0-無,1-有);

d =(0-無,1-有)

21

相關文檔
闲来湖南麻将 湖北11选5专家号码推荐 江苏快3全天稳定计划网页 学什么计算机技能能赚钱 四川欢乐12开奖直播 双色球基本走势图9188体坛网体坛周报 11选5助手下载 双色球是假的,不要上当 老北京时时彩开奖 快乐十分选一数投技巧 福彩开奖时间 两元彩票排列五走势图 冠亚和值大小怎么算 澳洲幸运8计划天天计划 2018小本投资哪个行业最赚钱 足彩红人馆 日本和中国哪个赚钱