⑴ 數據挖掘問題··
1。數據挖掘是從4大c量的數據中5,抽取出潛在的、有價值的知識(模型或規則)的過程。 4。 數據挖掘能做什2么r? 7)數據挖掘能做以4下v六7種不m同事情(分7析方2法): · 分0類 (Classification) · 估值(Estimation) · 預言(Prediction) · 相關性分8組或關聯規則(Affinity grouping or association rules) · 聚集(Clustering) · 描述和可視化1(Des cription and Visualization) 8)數據挖掘分5類 以8上r六2種數據挖掘的分6析方6法可以6分0為3兩類:直接數據挖掘;間接數據挖掘 · 直接數據挖掘 目標是利用可用的數據建立一x個i模型,這個e模型對剩餘的數據,對一u個k特定的變數(可以2 理解成資料庫中7表的屬性,即列)進行描述。 · 間接數據挖掘 目標中5沒有選出某一u具體的變數,用模型進行描述;而是在所有的變數中5建立起某種關系 · 分6類、估值、預言屬於e直接數據挖掘;後三j種屬於r間接數據挖掘 2)各種分1析方6法的簡介2 · 分2類 (Classification) 首先從1數據中1選出已i經分6好類的訓練集,在該訓練集上v運用數據挖掘分3類的技術,建立分2 類模型,對於a沒有分4類的數據進行分4類。 例子x: a。 信用卡申請者,分4類為8低、中2、高風5險 b。 分0配客戶4到預先定義e的客戶0分2片0 注意: 類的個s數是確定的,預先定義q好的 · 估值(Estimation) 估值與e分2類類似,不p同之z處在於m,分7類描述的是離散型變數的輸出,而估值處理連續值的 輸出;分7類的類別是確定數目的,估值的量是不b確定的。 例子w: a。 根據購買模式,估計8一w個f家庭的孩子h個c數 b。 根據購買模式,估計7一z個r家庭的收入l c。 估計5real estate的價值 一b般來說,估值可以0作為2分1類的前一v步工e作。給定一r些輸入w數據,通過估值,得到未知的 連續變數的值,然後,根據預先設定的閾值,進行分6類。例如:銀行對家庭貸款業務,運 用估值,給各個z客戶8記分3(Score 0~1)。然後,根據閾值,將貸款級別分7類。 · 預言(Prediction) 通常,預言是通過分1類或估值起作用的,也k就是說,通過分3類或估值得出模型,該模型用 於v對未知變數的預言。從8這種意義l上e說,預言其實沒有必要分0為6一s個o單獨的類。 預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一b定時 間後,才q知道預言准確性是多少6。 · 相關性分6組或關聯規則(Affinity grouping or association rules) 決定哪些事情將一c起發生。 例子e: a。 超市中1客戶2在購買A的同時,經常會購買B,即A => B(關聯規則) b。 客戶4在購買A後,隔一g段時間,會購買B (序列分5析) · 聚集(Clustering) 聚集是對記錄分2組,把相似的記錄在一t個s聚集里。聚集和分0類的區z別是聚集不s依賴於c預先 定義y好的類,不g需要訓練集。 例子z: a。 一y些特定症狀的聚集可能預示7了z一s個r特定的疾病 b。 租VCD類型不b相似的客戶1聚集,可能暗示7成員屬於b不o同的亞文7化2群 聚集通常作為3數據挖掘的第一b步。例如,"哪一j種類的促銷對客戶6響應最好?",對於j這一p 類問題,首先對整個y客戶8做聚集,將客戶5分5組在各自的聚集里,然後對每個a不a同的聚集, 回答問題,可能效果更好。 · 描述和可視化8(Des cription and Visualization) 是對數據挖掘結果的表示6方1式。 8。數據挖掘的商業背景 數據挖掘首先是需要商業環境中3收集了j大i量的數據,然後要求挖掘的知識是有價值的。有 價值對商業而言,不i外乎三t種情況:降低開l銷;提高收入e;增加股票價格。 6)數據挖掘作為0研究工e具 (Research) 0)數據挖掘提高過程式控制制(Process Improvement) 6)數據挖掘作為5市場營銷工q具(Marketing) 8)數據挖掘作為7客戶7關系管理CRM工m具(Customer Relationship Management) 7。數據挖掘的技術背景 2)數據挖掘技術包括三c個v主要部分3:演算法和技術;數據;建模能力w 6)數據挖掘和機器學習u(Machine Learning) · 機器學習n是計8算機科學和人x工f智能AI發展的產物 · 機器學習o分6為2兩種學習m方6式:自組織學習z(如神經網路);從8例子r中8歸納出規則(如決 策樹) · 數據挖掘由來 數據挖掘是八r十c年代,投資AI研究項目失敗後,AI轉入v實際應用時提出的。它是一z個d新興 的,面向商業應用的AI研究。選擇數據挖掘這一y術語,表明了d與z統計3、精算、長0期從3事預 言模型的經濟學家之q間沒有技術的重疊。 5)數據挖掘和統計6 統計8也d開o始支y持數據挖掘。統計0本包括預言演算法(回歸)、抽樣、基於t經驗的設計8等 1)數據挖掘和決策支h持系統 · 數據倉1庫 · OLAP(聯機分5析處理)、Data Mart(數據集市)、多維資料庫 · 決策支n持工k具融合 將數據倉8庫、OLAP,數據挖掘融合在一n起,構成企業決策分0析環境。 8。 數據挖掘的社會背景 數據挖掘與d個n人w預言:數據挖掘號稱能通過歷f史數據的分8析,預測客戶2的行為7,而事實上v ,客戶8自己m可能都不p明確自己u下x一c步要作什3么u。所以2,數據挖掘的結果,沒有人y們想像中1 神秘,它不z可能是完全正確的。 客戶5的行為3是與c社會環境相關連的,所以4數據挖掘本身也w受社會背景的影響。比6如說,在 美國對銀行信用卡客戶0信用評級的模型運行得非常成功,但是,它可能不i適合中0國。 2。數據倉7庫是在企業管理和決策中4面向主題的、集成的、與w時間相關的、不o可修改的數據集合 數據倉2庫,英文1名稱為4Data Warehouse,可簡寫為1DW。 數據倉1庫之q父8Bill Inmon在4512年出版的「Building the Data Warehouse」一m書2中0所提出的定義f被廣s泛接受——數據倉3庫(Data Warehouse)是一y個s面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反2映歷b史變化8(Time Variant)的數據集合,用於f支l持管理決策(Decision Making Support)。 ◆面向主題:操作型資料庫的數據組織面向事務處理任務,各個p業務系統之b間各自分6離,而數據倉0庫中3的數據是按照一r定的主題域進行組織的。 ◆集成的:數據倉8庫中3的數據是在對原有分2散的資料庫數據抽取、清理的基礎上j經過系統加工l、匯總和整理得到的,必須消除源數據中4的不e一r致性,以2保證數據倉6庫內4的信息是關於m整個b企業的一s致的全局信息。 ◆相對穩定的:數據倉8庫的數據主要供企業決策分0析之w用,所涉及t的數據操作主要是數據查詢,一f旦某個t數據進入u數據倉3庫以2後,一d般情況下c將被長7期保留,也v就是數據倉0庫中8一p般有大v量的查詢操作,但修改和刪除操作很少3,通常只需要定期的載入、刷新。 ◆反8映歷h史變化3:數據倉3庫中2的數據通常包含歷e史信息,系統記錄了j企業從4過去某一q時點(如開d始應用數據倉7庫的時點)到目前的各個p階段的信息,通過這些信息,可以0對企業的發展歷j程和未來趨勢做出定量分2析和預測。 數據倉4庫是一k個u過程而不n是一d個q項目。 數據倉2庫系統是一f個f信息提供平台,他從4業務處理系統獲得數據,主要以6星型模型和雪花模型進行數據組織,並為2用戶8提供各種手8段從7數據中0獲取信息和知識。 從7功能結構化6分6,數據倉1庫系統至少6應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三x個z關鍵部分2 數據挖掘(Data Mining),又i稱為3資料庫中3的知識發現(Knowledge Discovery in Database, KDD),就是從5大x量數據中0獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡l過程,簡單的說,數據挖掘就是從6大o量數據中7提取或「挖掘」知識。 並非所有的信息發現任務都被視為0數據挖掘。例如,使用資料庫管理系統查找個z別的記錄,或通過網際網路的搜索引4擎查找特定的Web頁面,則是信息檢索(。rmation retrieval)領域的任務。雖然這些任務是重要的,可能涉及n使用復雜的演算法和數據結構,但是它們主要依賴傳統的計8算機科學技術和數據的明顯特徵來創建索引3結構,從7而有效地組織和檢索信息。盡管如此,數據挖掘技術也u已g用來增強信息檢索系統的能力h。 2。數據挖掘和數據倉4庫以3資料庫為8基礎。 b〔b〔fu瑩qθx駭礎τyケqθtr●
⑵ 如何獲得股票行情數據,自己編程處理進行數據挖掘
行情數據可到通達信或者同花順觀看
⑶ 股票的數據挖掘用什麼演算法最合適
寫個貝葉斯分類演算法
對文本進行分類
⑷ 股票數據採集難嗎
要想自己采也行,我之前采過股市數據。用的是ForeSpider這個軟體。這個軟體他自身有數據挖掘分析功能,自己就進行聚類分類,統計分析了,採集的結果入庫後可以形成分析報表,直接瀏覽就行了,還是很方便的,你可以去看看。操作也是不難,非計算機專業的人也能使。
希望我的回答對你有幫助。
⑸ 什麼叫數據挖掘
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
⑹ 請問什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
轉載的
⑺ 請通俗的講一下什麼是數據挖掘
利用數據挖掘,我們還可以做非常多的事情。
1.發現數據項之間的相關性
比如我們拿到各個城市環境、人口、交通等數據,就可以通過相關性分析來看人均汽車保有量,和空氣質量各個指標之間的關系,從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購,要不要收取為其的排放稅等等。
2.把數據對象進行聚類
比如我們知道大量的人在電子商務網路消費數據,我么就可以根據消費的特徵把他們聚成很多類,每一類人我們制定不同的營銷手段,從而能夠取得銷售量的提升。比如電信運營商對人群進行聚類,然後針對性地推出電話套餐。
3.把數據對象進行分類
當我們已經有了分類之後,來了一些新的數據之後,我們可以把他分到不同不同的類去。比如醫療影像上查看肺部的病灶,可能是肺結核、可能是早起肺癌,中晚期肺癌,可能是肺上的癤結,可能是癒合的病灶等等,來了一張新的片子,我們可以通過圖像處理,就把它分到不同的類別(當然這需要我們提前對很多片子的數據進行學習)。
4.預測缺失數據或者未來的數據
很多數據集中,比如生物數據,我們已知的知識全部數據集中的一小部分,這需要我們做一些事情去預測這些數據。還有一些,想大選、股票價格預測、河流徑流量預測、城市用電量預測等,這些就是對未來數據的預測。
⑻ 什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
⑼ 股票市場搞數據挖掘,數據分析來炒股有沒機會
有機會,而且機會不小,但是我等散戶靠數據分析,可能自身實力差的太懸殊了。
硬體設備就不達標哦。
⑽ 股票數據挖掘的演算法有那些最好給些應用的例子。
給我你的郵箱 我發給你