淺談數據挖掘的基本概念及其最常用算法
淺談數據挖掘的基本概念及其最常用算法
2020-06-04 13:47:34 來源:今日頭條
搶沙發
2020-06-04 13:47:34 來源:今日頭條
摘要:當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。很多人對大數據的基本概念和特點已經有所了解,
關鍵詞:
數據
挖掘
當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。很多人對大數據的基本概念和特點已經有所了解,那么我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎么樣才能在大數據中找出未知的且有價值的信息和知識呢?
知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。
數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。大部分人是通過一個案例認識到數據挖掘:這是因為沃爾瑪通過數據分析發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段;沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個故事很可能是假的, 但是確實讓不少人開始接觸數據挖掘。
數據挖掘的最常用的幾種算法:
(1)預測建模:將已有數據和模型用于對未知變量的語言。
分類,用于預測離散的目標變量
回歸,用于預測連續的目標變量
(2)聚類分析:發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。
(3)關聯分析(又稱關系模式):反映一個事物與其他事物之間的相互依存性和關聯性。用來發現描述數據中強關聯特征的模式。
(4)異常檢測:識別其特征顯著不同于其他數據的觀測值。
有時也把數據挖掘分為:分類,回歸,聚類,關聯分析。
第三十屆CIO班招生
法國布雷斯特商學院碩士班招生
北達軟EXIN網絡空間與IT安全基礎認證培訓
北達軟EXIN DevOps Professional認證培訓
責編:zhangwenwen