機械專業外文文獻翻譯-外文翻譯---不完整測量數據的概念建構 中文版
《機械專業外文文獻翻譯-外文翻譯---不完整測量數據的概念建構 中文版》由會員分享,可在線閱讀,更多相關《機械專業外文文獻翻譯-外文翻譯---不完整測量數據的概念建構 中文版(12頁珍藏版)》請在裝配圖網上搜索。
不完整測量數據的概念建構 王壽宏,王海 摘要 : 對資料挖掘來說,未經加工的調查數據通常是不完整的。資料挖掘中缺失數據的問題在知識發現過程中常被忽略。這篇文章介紹了在不完整調查數據中資料挖掘的基礎概念,以及計劃知識發現中的咨詢過程,和在調查資料挖掘咨詢功能在概念解釋上的發展趨勢。這篇文章通過一個事例,論證了通過使用人工智力工具譬如自組織映射,不完整數據的概念解釋可以完成。 數據挖掘就是分析數據以圖從中找出有用模型的過程。而數據挖掘與傳統的 統計分析有所不同,因為數據挖掘的目的是找出對數據所有 者或數據挖掘員有價 值而又確定的關系。鑒于數據的維數和數據量本身的巨大,傳統的的統計分析方 法在數據挖掘時有其局限性。為滿足數據挖掘的最新需要,在數據挖掘領域里面 已經廣泛采用基于人 數據挖掘時有很多非統計技術?;?經網絡的自組織映射 (是其中一種比較有前途的方法?;诩杭夹g的 對其他方法來說有優勢。通常數據挖掘技術處理一些十分高維的數據,也就是說做數據挖掘的數據庫通常是由很多變量決定的?!熬S數災難”使得對數據關系的統計分析變得毫無意義,這也使得 統計方法變得無能為力了。然而 而被認為是處理多維數據的有效方法。更為重要的是 種特色是其他任何數據分析方法都不具備的。它允許數據挖掘者分析該問題域中的集群。 測量只是數據采集中的一種普通數據獲取方法。在數據挖掘的中,我們得到的調研數據集通常很難滿足每個變量都有填寫完全的觀測結果。一般地,被調查者只部分地完成調研和問卷調查的內容。當事實上我們無法再次面向被調查者完成調研和問卷調查的全部內容時,我們并不知道缺失數據的嚴重性 ,但這是數據掘中有待發現的最重要部分之一。事實上,在知識工程領域缺失數據是一個重要而具有爭議的問題。 通過集群分析在挖掘由不完整數據構成的調查數據庫過程中,缺失數據的類 型及缺失數據對數據挖掘的潛在影響是一門學問。例如,數據挖掘者通常希望能 知道集群分析的可信程度;一些有價值的類型通常是什么時候和怎樣丟失的;以 及丟失有價值數據的時候哪些變量與之有關系。這些有價值東西在缺失數據集部 分被充分發掘之后才能發現。 這篇文章討論了知識發現中在發掘調研數據庫過程中數據缺失的問題,并介 紹了概念解釋的概 念基礎,以及建議設立基于 下部分是這樣安排的:第二部分討論數據缺失與數據挖掘的關系問題;第三部分介紹數據挖掘中 四部分說明了挖掘不完整數據的 4個概念的知識發現;并提供了應用 五部分建立用于操控 六部分介紹一個例子,該例子應用咨詢工具對一個學生判斷測量的數據集進行熟練操作 后,第七部分作了結束語。 2 數據缺失問題 不完整數據集普遍存在于數據挖掘中。數據缺失的解決辦法有許多 種 ,其中對付不完整數據的一種方便辦法是將那些已記錄沒有價值的數據集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬一缺失數據的比重較大,從篩選過的數據中得出的結論就會有偏頗或引起誤導。 另一種處理丟失數據的簡單方法是用一類通用的“未知”來代替所有丟失數 據項。數據挖掘中,不確定的“未知”通常在丟失數據項中引起混亂和誤解。 對付缺失數據的第三種辦法是排除數據域中沒有價值的數據。對于時序數列,可觀察到的相鄰數據點可以插補。一般情況下,數據域中預期值可用于統計測量。然而,數據挖掘中,調研數據類型通 常是隊、類,有多項選擇的,二進制的。這些例子中,插補及特殊缺失數據變量的使用通常是不夠的。更為重要的是, 研究表明,解決缺失數據的有效辦法應該總是獨立于問題之外去研究。 新近,發現損缺失數據集的合計概念方向有了精確的方法。這些方法與傳統 逼近法處理缺失數據截然不同,它著眼于缺失數據的整體,而不是個別缺失的價 值。這些方法的這個高級特征使不完整數據的數據挖掘得以加強。然而這些統計 方法有其局限性。首先,得假定缺失價值存在于隨機方式或者新遵循一定的分配 儀式。這些關于數據分配嚴格假定通常是無效的,特別對不完 善數據的測定。第 二,這些數學模型通常是數據驅動,而不是“問題領域驅動”。實際上,由于數 據挖掘的目標常常與具體問題域有關聯,一個單獨普通概念建構算法不足以應付 數據挖掘的多樣目標。 數據庫的知識發現是鑒別有效的、新奇的、有潛在作用并最終可以理解的數 據模式的有實際意義的過程。根據這個定義,這項研究強調利用不完整數據進行 數據挖掘概念構建的兩個方面。首先,利用不完整數據進行數據挖掘中,有效、 新奇、有用的標準隨問題而定。那就是,一個數據模式不單獨依賴于該模式估計 的統計力,也依賴于數據挖掘者。第二, 通過對建立于計算機和人類認識理論的 組合空間的啟發式研究,可以完成基于不完整數據的概念建構。人機協作進行概 念建構就是在數據挖掘者和計算機之間發掘出新奇、似是而非、有用的、相關的 和有趣味性與缺失數據相關的知識的人機交互式過程。 照我們看來,數據挖掘與傳統統計在處理缺失數據方面有很多不同。 (1)數據挖掘試圖從數據中去發掘出無疑的、潛在的有用模式,是由于數據挖掘者的新奇目標在于缺失數據而不在于估計個別缺失數據的價值。 (2)數據挖掘是人類知識發現環道中心環節工具 ,該過程是通過人機交互 而認 識到由集合水平上缺失數據引起的沖擊,更甚于僅用基于未經證實的假設的數學 方法得出的結論。 映射組織( 假如有一個很大多維集調研的例子,通常就會有很大一部分觀察資料丟失 價值,然而并非所有的缺失數據都引起數據挖掘者的興趣。因此,對于一個有巨 大數據來說,任何簡單的強力搜索缺失數據的方法都是不可行,而且,當數據挖 掘者通過數據挖掘僅為了找出問題或者發展概念時該方法是沒有用的。為明確問 題或創建概念,數據挖掘者需要一種工具來觀察可利用數據與缺失數據的確定模 式。 由于自映射組織( 流行的 此在群集分組中廣泛應用。更為重要的是, 數據挖掘者提供數據的可視化,用來觀察多維數據。研究表明, 別是, 用在多變量測量數據的集群分析。這個研究更進一步,把完整數據的概念建構是為了研究缺失數據的模式,如同這些缺失數據對基于完整數據的挖掘結果的潛在沖擊。下面例子說明, 通過無人監督(競爭的)學習過程 ,學會一定有用的特征, 以及把多維數據繪制到低維圖片,這樣數據挖掘者可觀測到集群圖片。圖 1描述了研究中應用二層 層節點(輸入節點)通過采樣數據點接收輸入數值。高層節點(輸出節點)在無人監督學習后回饋輸入的組織映象。每個低層節點都經過一個可變聯接權量,聯結到每個高層節點。 始時聯結承載較小隨機數學。輸入節點接收由采樣數據點引入的輸入代表向量。輸入向量經過聯接傳送到輸出節點。激活的輸出節點依賴于輸入。 在勝者通吃的競爭制度中,與輸入向量有最相似的權量的輸出節點被激活。在學習階段,權量依照 權量更新僅存在于激活的輸出節點以及拓撲鄰點(如圖 1)。在這種一維空間輸出事例中,我們假定了一個線性鄰域。該鄰域開始很大,尺寸隨時間慢慢減小。因為學習速度將趨于零,學習進程也將最終集于一點。 引入足夠的輸入向量后,權量將指定群集以便本地群集密度函數趨于接近輸 入向量的密度函數。由于共享相似拓撲的節點對相似輸入敏感,所以權量得組織。因而 時,在預先并不了解 聚類中心的情況下,也體現真實自映射組織聚類。讀者可到 12章中看更詳細內容。 4、不完整數據的概念建構 這篇文章中,不完整數據的概念建構通過兩個階段來完成的。首先, 示了引入聚類的數據的不同尋常的模式。基于這些聚類,數據挖掘者能鑒別出明確的數據模式,并清晰說清楚問題。其次,與正被討論的聚類有關聯的缺失價值的不完整數據,構造出新概念。這一段中,數據挖掘者估計了缺失數據對問題鑒別以及發展與缺失數據相關的知識的沖擊。第一階段的任務跟大部分 篇文章 集中目標于第二階段,并計劃了不完整數據數據挖掘的概念建構的方法。下一步,我們建造四個概念作為不完整數據數據挖掘的知識發現。如同本文后面所講的,通過人協作和基于些概念能夠建造出來。 靠性 依照正被調查的問題,可靠性概念顯示了缺失數據的范圍。有兩個指數應用 于該概念。 S/ 使用的聚類鑒定的完整價值的數據采樣的數量。顯然,值越高,聚類的觀測可靠性越低。 i)/CV(i) i)是變量 V(i)是使用的聚類鑒定的采樣變量 i 的數值。再則,根據變量 i, i)/CV(i)的值越大,聚類的觀測可靠性越低。 匿 隱匿的概念揭示一次觀測結果的值在一定范圍內變化意味著將在另一個變量中丟失價值。 i)|x(j)=(a,b) i)是變量 x(j)是變量 ( a,b)是 x(j)的值的范圍。 索引揭示了測量疑問的不確定答案的程度,例如“未知”和 “中立的”,或者組織缺失數據的意圖,例如“不想告訴”。 求運算 反求運算的概念揭示了變量同時更可能缺失值。 i,j)/ i) i,j)是變量 i 和 j 的漏測值 , i)是變量 個概念揭示兩個變量的漏測值的相互關系。 i,j)/ i)的值越大,漏測值之間的相互關系越緊密。 件效應 條件效應這個概念揭示了聚類鑒別的潛在變化,若缺失價值已完成。 P? | )(=k P? 是數據挖掘者感覺到的聚類的變化量, )(代表變量 i 的所有漏測值,而 k 是測量中可能出現 的可能值。特別地,k={p}, 刻度的最大值, 刻度的最小值,而 漏測值來說,賦予 據挖掘者可能觀測到聚類的變化,然后重新限定問題。 簡言之,不完整數據的概念建構是一門學問的發展過程。不完整數據中建造一個新概念,需要數據挖掘者去明確建構中的特別問題。漏測值的四個概念是可靠性、隱匿性、求反運算及條件效應。下一步我們逐步展開不完整數據概念建構中的質疑。我們質疑的目的是使數據挖掘者能夠通過使用 而建造 出新的與問題相關的概念。 5、概念建構的詢問處理 結構化查詢語言( 種查詢工具具有特征,這種標準查詢語言常用于相關數據庫管理系統。對于數據挖掘,由于數據庫信息檢索的最終目標是通過應用多變技術的明確表達的知識,創造一種單純的標準查詢語言能滿足數據挖掘的各個目的是不太可能的。然而,為了維持人機協作高效運轉,數據挖掘中可視化詢問處理很必要。這個研究通過基于 展一套查詢函數來幫助數據挖掘者建造與缺失數據相關的概念。 基于 這使資料庫、 序與詢問處理有可能整合為一個單純環境。應用微軟的 靠電子表格,數據得以儲存;通過宏指令( 序得以執行;圖形函數支持數據可視化;宏指令也使得查詢處理函數能夠運行。圖 2描述了系統結構的技術細節。解決了基于 軟件問題,系統結構變得簡單而易于執行。然而,從實際應用的觀點來看,軟件系統限制了數據挖掘中數據庫的規模。 七組查詢函數已發展起來,對應于上一節所描述數據挖掘中的四個概念以及一般操作函數。通過圖形用戶界面,數據挖掘者使用詢問處理系統。 得完整數據的聚類 數據挖掘者使用查詢函數來觀測聚類及鑒定不用懷疑的完整價值數據集模式?;谀切┚垲?,數據挖掘者明確問題所在。數據挖掘者能夠選擇適合 設置拓撲和 類的數量非常依賴于自然數據和 數間的復雜關系。然而,通過減少 據挖掘者通常能夠減少聚類的數量;反之亦然。 應用這個查詢函數,數據挖掘者能夠描繪所查詢的 于一個聚類的邊界線在圖中通常是模糊不清的,對聚類的描繪只能基于他或她對聚類的感知。在內部, 對應觀測采樣,輪廓與聚類的 使電腦程序追溯聚類到數據成為可能。查詢函數返回該聚類的變量的值的范圍。 查詢是為了保存和更正的 一般操作,如同設置數據樣值的參數、變量。數據挖掘者能夠把一系列的 明 據挖掘者想知道的是觀測到的聚類的可靠性如何。這個查詢允許數據挖掘者去查明 訓所用變量。如果 據挖掘者能夠發現個別變量的可靠性,如下面所述的。 明 (i)/CV(i) 數據挖掘者可能對某一變量感興趣。應用這個查詢,他能夠根據這個別的變量來核查聚類的觀測是否可靠。 查明 (i)/x(j)=(a,b) 該查詢函數能夠讓數據挖掘者查明一個變量的缺失值與別一變量的值的范圍之間的相互關系。這種關系提供如數值什么時候會丟失之類的信息。應用該查詢,數據挖掘者詳細查明兩個變量如缺失值之間可能的相互關系、已一個變量知值的范圍及在其他變量中發現有缺失值的觀測的數量。 查明 (I,j)/ i) 該查詢函數能夠讓數據挖掘者找出兩個變量間缺失值的 相互聯系。應用該查詢,數據挖掘者首先選擇兩個與問題相關的變量進行調查,然后查明這兩個變量可能總共多久一次丟失值。 查明 )(| ? =k 該查詢函數允許數據挖掘者用假定值代替缺失值,及觀察聚類的變化。假定值可能是最大與最小值中間的任何數。與返回詳細數據不同,查詢函數返回多樣的映射以便數據挖掘者用不同的 于假定分析試驗,數據挖掘者能夠在感知缺失值在確定問題中的沖擊。 6、用一個例子來學習概念建構 這一節中我們用一個例子來闡明不完整測量數據 的概念建構中基于 查詢系統的應用。學生的教師調查法在大學中廣泛應用于估評教授的教學質量。研究中沿用的數據來自加拿大大學一個學生對教師調查法(附件 A)。在這個例子中二十一個問題描述了一個教師的表現特征。每個問題都有五個等級的答案讓學生回答。一個問題得高分表明問題的答案是積極的。這些問題的加權平均數由聯系于評價教學效果的多種數據組成。學校教學中心的一個任務是了解教學中的問題,以便采取相應方法(例如,教學研究會及研究所)去攻克這些問題。 由于二十個問題與一個班級學期教學效果評估相關,二十個變量組成 后一個問題與教師分級相關。研究中,該變量用于與低效教學相關的選擇,而這些教學基于該問題全部測量數據的中間值。 表 1 概念建構的例子 聚類 (采樣 %) 問題相關變量 基于完整數據的問題鑒別 不完整數據的概念建構 1 (生測試結果需要更 多令人信服的解釋 測試和分配不能夠對 學生提供反饋作用 對即時分級不滿意的學生, 通常對他們能否得到對 工作有益注解漠不關心 2 (該更好規劃測試和分配 對課程學習經驗忽略看法 的學生通常對適當測試或 者布置規劃漠不關心 3 (V1,能很好描述困難概念;特 別是,課本沒有給出太多幫 助時 雖然 缺失值率最高, 缺失值對問題鑒定不具 嚴重沖擊 收集 3823 個無效教學質量觀測采樣數據后可確認這個學校的教學問題。這些數據中, 2788個是完整的。 用 300 個 200個初始化領域節點后,初始學習率是 2000個學習疊代后, 個聚類表明有一組存在低值,該值在進一步分析后排除幾乎所有變量后得出的。三個聚類有蘊含意義。 根據聚類分析,發現接收到低值的變量 v1, 較特別,與無效教學有關,如表 1中前三行所述。 然后不完整數據用于建造該問題的新概念。 1: 雖然觀測資料的不完整率達對整個測量來說高達 37%,根據關系密切的變量( v1, 這說明最初識別的問題通常有效的。 2: i)/ )(失值率最高是 這說明這變量(例如,無用的課本和教學材料)指示的無效教學的可靠性可能不如其他相關變量可靠。 3: )(|)( (a,b) 然而, 缺失值來 自觀測函數 x([1,3]。這說明不滿意即時分級通常對他們能否收到對他們工作有益意見漠不關心。 4: )(|),( M 然而 14(|)19,14( M =密相聯在一塊。這說明忽略課程學習經驗的看法的學生,通常對測試或分配要適當計劃漠不關心。 )(| ? =k 這個例子中, 失值最高 (達 。數據挖掘者可能 想了解缺失數據的潛在沖擊。在完整數據中, 最小值是 1,最大值是 5, 概率分布是{, , , , }。設置好的試驗數據用來為 完整數據中應用相同的 撲,假定分析試驗是引導。 如圖 3 所示,這個例子的全部的結論是, 這個例子中,缺失值新的概念建構在表 1的第四欄中總結出來了。 這個例子闡述了被提議的概念 建構方法的使用,并提供一個提議方案的實驗試驗。容易看出,這個例子研究的數據挖掘的數值范圍相當小。一般來說,比起這個例子來,數據挖掘應用于在規模和維數大得多的數據集。 7. 結論 在數據挖掘領域,不完整數據通常受到不公正對待。這篇文章提議不完整數據的概念建構,并提及了四個種類的缺失值概念。對于問題鑒別、數據隱藏意圖、兩個變量的缺失值求反運算以及缺失數據的條件效應,這些是可靠的。由于 被選作概念建構的工具?;?類分析,這篇文章接著建議七類查詢函數來建構不完整 數據概念。使用這些查詢函數,數據挖掘者能夠建構與數據挖掘問題鑒別相關的新的概念。雖然與真實事例不同,但它已被證明,概念建構的模式能更好用在知識發現方面。 知識發現在數據庫是個正在成長的領域。一般來說,知識發現開始于原始的問題鑒別。然而問題鑒別典型地證實為數據庫和一般統計算法力所不及的。在知識發現過程中,必須建造新的概念使數據不那么神秘??傊煌暾麛祿母拍罱嫗橹R發展提供有效的技術,因而,基于數據細節問題領域和挖掘者的對缺失數據的感知,他能夠說明數據挖掘的結果。以后的工作包括在數據庫系統主機上執 行軟件系統,并進一步評估被提議在更大范圍的數據集的方法。
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創性部分享有著作權。
- 關 鍵 詞:
- 機械 專業 外文 文獻 翻譯 完整 測量 數據 概念 建構 中文版
鏈接地址:http://www.flmh8.cc/p-16929.html