❶ 數據挖掘中的聚類(比如K均值,模糊C均值...)可不可以用來預測
可以,一般預測指的是分類預測、回歸預測、時間序列預測等等,這里首先聚類(不屬於預測)是歸納推理,聚類後得到了類別,然後對新的數據就可以進行KNN等分類啦,這就是預測啦。這種在客戶群分類預測中用的比較多。
❷ K-means演算法實現屬於數據挖掘聚類演算法,知道的進
這個演算法真不難,把你的程序發我看看[email protected]
❸ 股票的數據挖掘用什麼演算法最合適
寫個貝葉斯分類演算法
對文本進行分類
❹ 數據挖掘中的經典演算法
大家都知道,數據挖掘中有很多的演算法,不同的演算法有著不同的優勢,它們在數據挖掘領域都產生了極為深遠的影響。那麼大家知道不知知道數據挖掘中的經典演算法都有哪些呢?在這篇文章中我們就給大家介紹數據挖掘中三個經典的演算法,希望這篇文章能夠更好的幫助大家。
1.K-Means演算法
K-means algorithm演算法是一個聚類演算法,把n的對象根據他們的屬性分為k個分割,k大於n。它與處理混合正態分布的最大期望演算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量,並且目標是使各個群組內部的均方誤差總和最小。這種演算法在數據挖掘中是十分常見的演算法。
2.支持向量機
而Support vector machines就是支持向量機,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,這種方法廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。這些優點也就成就了這種演算法。
3.C4.5演算法
然後我們給大家說一下C4.5演算法,C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點,並對ID3演算法進行了改進,這種改進具體體現在四個方面,第一就是在樹構造過程中進行剪枝,第二就是能夠完成對連續屬性的離散化處理,第三就是用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足,第四就是能夠對不完整數據進行處理。那麼這種演算法的優點是什麼呢?優點就是產生的分類規則易於理解,准確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致演算法的低效。
相信大家看了這篇文章以後對The k-means algorithm演算法、Support vector machines、C4.5演算法有了比較是深刻的了解,其實這三種演算法那都是十分重要的演算法,能夠幫助數據挖掘解決更多的問題。大家在學習數據挖掘的時候一定要注意好這些問題。
❺ 簡述K-means演算法的基本過程及其不足。《數據挖掘》作業題追分100
過程:
1、 從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
2、 根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
3、 重新計算每個(有變化)聚類的均值(中心對象)
4、循環步驟2和3,直到每個聚類不再發生變化為止
缺點:
1、聚類個數K需要自己決定,因此在不知道具體有多少類時需要從2開始多次嘗試,選擇最好的
2、當k確定時,聚類效果和初始中心選擇有關,所以演算法很不穩定
3、演算法在維數較多時,由於需要多次迭代,花費時間較長
❻ 如何用kmean是演算法預測評分
聚類分析是一種靜態數據分析方法,常被用於機器學習,模式識別,數據挖掘等領域。通常認為,聚類是一種無監督式的機器學習方法,它的過程是這樣的:在未知樣本類別的情況下,通過計算樣本彼此間的距離(歐式距離,馬式距離,漢明距離,餘弦距離等)來估計樣本所屬類別。從結構性來劃分,聚類方法分為自上而下和自下而上兩種方法,前者的演算法是先把所有樣本視為一類,然後不斷從這個大類中分離出小類,直到不能再分為止;後者則相反,首先所有樣本自成一類,然後不斷兩兩合並,直到最終形成幾個大類。
常用的聚類方法主要有以下四種: //照搬的wiki,比較懶
Connectivity based clustering(如hierarchical clustering 層次聚類法)
Centroid-based clustering(如kmeans)
Distribution-based clustering
Density-based clustering
Kmeans聚類是一種自下而上的聚類方法,它的優點是簡單、速度快;缺點是聚類結果與初始中心的選擇有關系,且必須提供聚類的數目。Kmeans的第二個缺點是致命的,因為在有些時候,我們不知道樣本集將要聚成多少個類別,這種時候kmeans是不適合的,使用hierarchical 或meanshift來聚類。第一個缺點可以通過多次聚類取最佳結果來解決。
Kmeans的計算過程大概表示如下
隨機選擇k個聚類中心. 最終的類別個數<= k
計算每個樣本到各個中心的距離
每個樣本聚類到離它最近的中心
重新計算每個新類的中心
重復以上步驟直到滿足收斂要求。(通常就是中心點不再改變或滿足一定迭代次數).
❼ 數據挖掘常用演算法有哪些
1、 樸素貝葉斯
樸素貝葉斯(NB)屬於生成式模型(即需要計算特徵與類的聯合概率分布),計算過程非常簡單,只是做了一堆計數。NB有一個條件獨立性假設,即在類已知的條件下,各個特徵之間的分布是獨立的。這樣樸素貝葉斯分類器的收斂速度將快於判別模型,如邏輯回歸,所以只需要較少的訓練數據即可。即使NB條件獨立假設不成立,NB分類器在實踐中仍然表現的很出色。它的主要缺點是它不能學習特徵間的相互作用,用mRMR中的R來講,就是特徵冗餘。
2、邏輯回歸(logistic regression)
邏輯回歸是一個分類方法,屬於判別式模型,有很多正則化模型的方法(L0,L1,L2),而且不必像在用樸素貝葉斯那樣擔心特徵是否相關。與決策樹與SVM相比,還會得到一個不錯的概率解釋,甚至可以輕松地利用新數據來更新模型(使用在線梯度下降演算法online gradient descent)。如果需要一個概率架構(比如,簡單地調節分類閾值,指明不確定性,或者是要獲得置信區間),或者希望以後將更多的訓練數據快速整合到模型中去,那麼可以使用它。
3、 線性回歸
線性回歸是用於回歸的,而不像Logistic回歸是用於分類,其基本思想是用梯度下降法對最小二乘法形式的誤差函數進行優化。
4、最近鄰演算法——KNN
KNN即最近鄰演算法,其主要過程為:計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);對上面所有的距離值進行排序;選前k個最小距離的樣本;根據這k個樣本的標簽進行投票,得到最後的分類類別;如何選擇一個最佳的K值,這取決於數據。
5、決策樹
決策樹中很重要的一點就是選擇一個屬性進行分枝,因此要注意一下信息增益的計算公式,並深入理解它。
6、SVM支持向量機
高准確率,為避免過擬合提供了很好的理論保證,而且就算數據在原特徵空間線性不可分,只要給個合適的核函數,它就能運行得很好。在動輒超高維的文本分類問題中特別受歡迎。可惜內存消耗大,難以解釋,運行和調參也有些煩人,而隨機森林卻剛好避開了這些缺點,比較實用。
❽ 數據挖掘演算法有哪些
統計和可視化要想建立一個好的預言模型,你必須了解自己的數據。最基本的方法是計算各種統計變數(平均值、方差等)和察看數據的分布情況。你也可以用數據透視表察看多維數據。數據的種類可分為連續的,有一個用數字表示的值(比如銷售量)或離散的,分成一個個的類別(如紅、綠、藍)。離散數據可以進一步分為可排序的,數據間可以比較大小(如,高、中、低)和標稱的,不可排序(如郵政編碼)。圖形和可視化工具在數據准備階段尤其重要,它能讓你快速直觀的分析數據,而不是給你枯燥乏味的文本和數字。它不僅讓你看到整個森林,還允許你拉近每一棵樹來察看細節。在圖形模式下人們很容易找到數據中可能存在的模式、關系、異常等,直接看數字則很難。可視化工具的問題是模型可能有很多維或變數,但是我們只能在2維的屏幕或紙上展示它。比如,我們可能要看的是信用風險與年齡、性別、婚姻狀況、參加工作時間的關系。因此,可視化工具必須用比較巧妙的方法在兩維空間內展示n維空間的數據。雖然目前有了一些這樣的工具,但它們都要用戶「訓練」過他們的眼睛後才能理解圖中畫的到底是什麼東西。對於眼睛有色盲或空間感不強的人,在使用這些工具時可能會遇到困難。聚集(分群)聚集是把整個資料庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數據盡量相似。與分類不同(見後面的預測型數據挖掘),在開始聚集之前你不知道要把數據分成幾組,也不知道怎麼分(依照哪幾個變數)。因此在聚集之後要有一個對業務很熟悉的人來解釋這樣分群的意義。很多情況下一次聚集你得到的分群對你的業務來說可能並不好,這時你需要刪除或增加變數以影響分群的方式,經過幾次反復之後才能最終得到一個理想的結果。神經元網路和K-均值是比較常用的聚集演算法。不要把聚集與分類混淆起來。在分類之前,你已經知道要把數據分成哪幾類,每個類的性質是什麼,聚集則恰恰相反。關聯分析關聯分析是尋找資料庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相關性。序列模式與此類似,他尋找的是事件之間時間上的相關性,如對股票漲跌的分析。關聯規則可記為A==>B,A稱為前提和左部(LHS),B稱為後續或右部(RHS)。如關聯規則「買錘子的人也會買釘子」,左部是「買錘子」,右部是「買釘子」。要計算包含某個特定項或幾個項的事務在資料庫中出現的概率只要在資料庫中直接統計即可。某一特定關聯(「錘子和釘子」)在資料庫中出現的頻率稱為支持度。比如在總共1000個事務中有15個事務同時包含了「錘子和釘子」,則此關聯的支持度為1.5%。非常低的支持度(比如1百萬個事務中只有一個)可能意味著此關聯不是很重要,或出現了錯誤數據(如,「男性和懷孕」)。要找到有意義的規則,我們還要考察規則中項及其組合出現的相對頻率。當已有A時,B發生的概率是多少?也即概率論中的條件概率。回到我們的例子,也就是問「當一個人已經買了錘子,那他有多大的可能也會買釘子?」這個條件概率在數據挖掘中也稱為可信度,計算方法是求百分比:(A與B同時出現的頻率)/(A出現的頻率)。讓我們用一個例子更詳細的解釋這些概念: 總交易筆數(事務數):1,000包含「錘子」:50包含「釘子」:80包含「鉗子」:20包含「錘子」和「釘子」:15包含「鉗子」和「釘子」:10包含「錘子」和「鉗子」:10包含「錘子」、「鉗子」和「釘子」:5 則可以計算出: 「錘子和釘子」的支持度=1.5%(15/1,000)「錘子、釘子和鉗子」的支持度=0.5%(5/1,000)「錘子==>釘子」的可信度=30%(15/50)「釘子==>錘子」的可信度=19%(15/80)「錘子和釘子==>鉗子」的可信度=33%(5/15)「鉗子==>錘子和釘子」的可信度=25%(5/20)
❾ 數據挖掘題目,K—均值演算法應用
這種問題明顯是取巧的題目,是不是老師布置的作業呀。建議你還是自己認真做做吧,如果有具體的問題我想會有很多人幫你的。但不是幫你偷懶。
幫你修改好了,從你所犯錯誤看,你的編程水平還處於初級階段。希望我花費的時間對你編程有幫助,我是一個大學老師,經常發現我的學生對改過的作業根本不看。希望你不是如此。建議你把我改過的地方,以及為什麼這樣改給我回個帖。
x1=1.2*randn(10,1)+3
y1=1.1*randn(10,1)+6
a=[x1,y1]
x2=1.2*randn(10,1)+5
y2=1.1*randn(10,1)+8
b=[x2,y2]
x3=1.2*randn(10,1)+1
y3=1.1*randn(10,1)+4
c=[x3,y3]
x=[a;b;c]
[idx,c]=kmeans(x,
3,
'dist','city',
'rep',5,
'disp','final')
plot(x(idx==1,1),x(idx==1,2),'r.','markersize',12)
hold
on
plot(x(idx==2,1),x(idx==2,2),'b.','markersize',12)
hold
on
plot(x(idx==3,1),x(idx==3,2),'g.','markersize',12)