數據挖掘股票交易_股票市場搞數據挖掘數據分析來炒股有沒機會

㈠用數據挖掘的知識分析一支股票，論文最好

也要有好的軟體去輔助自己的啊

㈡如何獲得股票行情數據，自己編程處理進行數據挖掘

行情數據可到通達信或者同花順觀看

㈢求問什麼是數據挖掘

數據挖掘相關的10個問題 NO.1 Data Mining 和統計分析有什麼不同？硬要去區分Data Mining和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法，也都是由統計學者根據統計理論所發展衍生，換另一個角度看，Data Mining有相當大的比重是由高等統計學中的多變數分析所支撐。但是為什麼Data Mining的出現會引發各領域的廣泛注意呢？主要原因在相較於傳統統計分析而言，Data Mining有下列幾項特性： 1.處理大量實際數據更強勢，且無須太專業的統計背景去使用Data Mining的工具； 2.數據分析趨勢為從大型資料庫抓取所需數據並使用專屬計算機分析軟體，Data Mining的工具更符合企業需求； 3. 純就理論的基礎點來看，Data Mining和統計分析有應用上的差別，畢竟Data Mining目的是方便企業終端用戶使用而非給統計學家檢測用的。 NO.2 Data Warehousing 和 Data Mining 的關系為何？若將Data Warehousing（數據倉庫）比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術，也不是點石成金的煉金術，若沒有夠豐富完整的數據，是很難期待Data Mining能挖掘出什麼有意義的信息的。要將龐大的數據轉換成為有用的信息，必須先有效率地收集信息。隨著科技的進步，功能完善的資料庫系統就成了最好的收集數據的工具。數據倉庫，簡單地說，就是搜集來自其它系統的有用數據，存放在一整合的儲存區內。所以其實就是一個經過處理整合，且容量特別大的關系型資料庫，用以儲存決策支持系統（Design Support System）所需的數據，供決策支持或數據分析使用。從信息技術的角度來看，數據倉庫的目標是在組織中，在正確的時間，將正確的數據交給正確的人。許多人對於Data Warehousing和Data Mining時常混淆，不知如何分辨。其實，數據倉庫是資料庫技術的一個新主題，利用計算機系統幫助我們操作、計算和思考，讓作業方式改變，決策方式也跟著改變。數據倉庫本身是一個非常大的資料庫，它儲存著由組織作業資料庫中整合而來的數據，特別是指事務處理系統OLTP（On-Line Transactional Processing）所得來的數據。將這些整合過的數據置放於數據昂哭中，而公司的決策者則利用這些數據作決策；但是，這個轉換及整合數據的過程，是建立一個數據倉庫最大的挑戰。因為將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述，數據倉庫應該具有這些數據：整合性數據（integrated data）、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識，是建立數據倉庫與使用Data Mining的最大目的，兩者的本質與過程是兩回事。換句話說，數據倉庫應先行建立完成，Data mining才能有效率的進行，因為數據倉庫本身所含數據是干凈(不會有錯誤的數據參雜其中)、完備，且經過整合的。因此兩者關系或許可解讀為Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。 NO.3 OLAP 能不能代替 Data Mining？所謂OLAP（Online Analytical Process）意指由資料庫所連結出來的在線分析處理程序。有些人會說：「我已經有OLAP的工具了，所以我不需要Data Mining。」事實上兩者間是截然不同的，主要差異在於Data Mining用在產生假設，OLAP則用於查證假設。簡單來說，OLAP是由使用者所主導，使用者先有一些假設，然後利用OLAP來查證假設是否成立；而Data Mining則是用來幫助使用者產生假設。所以在使用OLAP或其它Query的工具時，使用者是自己在做探索（Exploration），但Data Mining是用工具在幫助做探索。舉個例子來看，一市場分析師在為超市規劃貨品架櫃擺設時，可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產品，接著便可利用OLAP的工具去驗證此假設是否為真，又成立的證據有多明顯；但Data Mining則不然，執行Data Mining的人將龐大的結帳數據整理後，並不需要假設或期待可能的結果，透過Mining技術可找出存在於數據中的潛在規則，於是我們可能得到例如尿布和啤酒常被同時購買的意料外之發現，這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關系，但OLAP僅能利用人工查詢及可視化的報表來確認某些關系，是以Data Mining此種自動找出甚至不會被懷疑過的數據模型與關系的特性，事實上已超越了我們經驗、教育、想像力的限制，OLAP可以和Data Mining互補，但這項特性是Data Mining無法被OLAP取代的。 NO.4 完整的Data Mining 包含哪些步驟？以下提供一個Data Mining的進行步驟以為參考： 1. 理解業務與理解數據； 2. 獲取相關技術與知識； 3. 整合與查詢數據； 4. 去除錯誤或不一致及不完整的數據； 5. 由數據選取樣本先行試驗； 6. 建立數據模型 7. 實際Data Mining的分析工作； 8. 測試與檢驗； 9. 找出假設並提出解釋； 10. 持續應用於企業流程中。由上述步驟可看出，Data Mining牽涉了大量的准備工作與規劃過程，事實上許多專家皆認為整套Data Mining的進行有80﹪的時間精力是花費在數據前置作業階段，其中包含數據的凈化與格式轉換甚或表格的連結。由此可知Data Mining只是信息挖掘過程中的一個步驟而已，在進行此步驟前還有許多的工作要先完成。 NO.5 Data Mining 運用了哪些理論與技術？ Data Mining是近年來資料庫應用技術中相當熱門的議題，看似神奇、聽來時髦，實際上卻也不是什麼新東西，因其所用之諸如預測模型、數據分割，連結分析（Link Analysis）、偏差偵測（Deviation Detection）等，美國早在二次世界大戰前就已應用運用在人口普查及軍事等方面。隨著信息科技超乎想像的進展，許多新的計算機分析工具問世，例如關系型資料庫、模糊計算理論、基因演算法則以及類神經網路等，使得從數據中發掘寶藏成為一種系統性且可實行的程序。一般而言，Data Mining的理論技術可分為傳統技術與改良技術兩支。傳統技術以統計分析為代表，統計學內所含序列統計、概率論、回歸分析、類別數據分析等都屬於傳統數據挖掘技術，尤其 Data Mining 對象多為變數繁多且樣本數龐大的數據，是以高等統計學里所含括之多變數分析中用來精簡變數的因素分析（Factor Analysis）、用來分類的判別分析（Discriminant Analysis），以及用來區隔群體的分群分析（Cluster Analysis）等，在Data Mining過程中特別常用。在改良技術方面，應用較普遍的有決策樹理論（Decision Trees）、類神經網路（Neural Network）以及規則歸納法（Rules Inction）等。決策樹是一種用樹枝狀展現數據受各變數的影響情形之預測模型，根據對目標變數產生之效應的不同而建構分類的規則，一般多運用在對客戶數據的分析上，例如針對有回函與未回含的郵寄對象找出影響其分類結果的變數組合，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。類神經網路是一種模擬人腦思考結構的數據分析模式，由輸入之變數與數值中自我學習並根據學習經驗所得之知識不斷調整參數以期建構數據的型樣(patterns)。類神經網路為非線性的設計，與傳統回歸分析相比，好處是在進行分析時無須限定模式，特別當數據變數間存有交互效應時可自動偵測出；缺點則在於其分析過程為一黑盒子，故常無法以可讀之模型格式展現，每階段的加權與轉換亦不明確，是故類神經網路多利用於數據屬於高度非線性且帶有相當程度的變數交感效應時。規則歸納法是知識發掘的領域中最常用的格式，這是一種由一連串的「如果…/則…（If / Then）」之邏輯規則對數據進行細分的技術，在實際運用時如何界定規則為有效是最大的問題，通常需先將數據中發生數太少的項目先剔除，以避免產生無意義的邏輯規則。 NO.6 Data Mining包含哪些主要功能？ Data Mining實際應用功能可分為三大類六分項來說明：Classification和Clustering屬於分類區隔類；Regression和Time-series屬於推算預測類；Association和Sequence則屬於序列規則類。 Classification是根據一些變數的數值做計算，再依照結果作分類。（計算的結果最後會被分類為幾個少數的離散數值，例如將一組數據分為 "可能會響應" 或是 "可能不會響應" 兩類）。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據歷史經驗已經分類好的數據來研究它們的特徵，然後再根據這些特徵對其他未經分類或是新的數據做預測。這些我們用來尋找特徵的已分類數據可能是來自我們的現有的客戶數據，或是將一個完整資料庫做部份取樣，再經由實際的運作來測試；譬如利用一個大型郵寄對象資料庫的部份取樣來建立一個Classification Model，再利用這個Model來對資料庫的其它數據或是新的數據作分類預測。 Clustering用在將數據分群，其目的在於將群間的差異找出來，同時也將群內成員的相似性找出來。Clustering與Classification不同的是，在分析前並不知道會以何種方式或根據來分類。所以必須要配合專業領域知識來解讀這些分群的意義。 Regression是使用一系列的現有數值來預測一個連續數值的可能值。若將范圍擴大亦可利用Logistic Regression來預測類別變數，特別在廣泛運用現代分析技術如類神經網路或決策樹理論等分析工具，推估預測的模式已不在止於傳統線性的局限，在預測的功能上大大增加了選擇工具的彈性與應用范圍的廣度。 Time-Series Forecasting與Regression功能類似，只是它是用現有的數值來預測未來的數值。兩者最大差異在於Time-Series所分析的數值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性，譬如時間的周期性、階層性、季節性以及其它的一些特別因素（如過去與未來的關連性）。 Association是要找出在某一事件或是數據中會同時出現的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現在該事件中的機率有多少。（例如：如果顧客買了火腿和柳橙汁，那麼這個顧客同時也會買牛奶的機率是85%。） Sequence Discovery與Association關系很密切，所不同的是Sequence Discovery中事件的相關是以時間因素來作區隔（例如：如果A股票在某一天上漲12%，而且當天股市加權指數下降，則B股票在兩天之內上漲的機率是 68%）。 NO.7 Data Mining在各領域的應用情形為何？ Data Mining在各領域的應用非常廣泛，只要該產業擁有具分析價值與需求的數據倉儲或資料庫，皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發生在零售業、直效行銷界、製造業、財務金融保險、通訊業以及醫療服務等。於銷售數據中發掘顧客的消費習性，並可藉由交易紀錄找出顧客偏好的產品組合，其它包括找出流失顧客的特徵與推出新產品的時機點等等都是零售業常見的實例；直效行銷強調的分眾概念與資料庫行銷方式在導入Data Mining的技術後，使直效行銷的發展性更為強大，例如利用Data Mining分析顧客群之消費行為與交易紀錄，結合基本數據，並依其對品牌價值等級的高低來區隔顧客，進而達到差異化行銷的目的；製造業對Data Mining的需求多運用在品質控管方面，由製造過程中找出影響產品品質最重要的因素，以期提高作業流程的效率。近來電話公司、信用卡公司、保險公司以及股票交易商對於詐欺行為的偵測（Fraud Detection）都很有興趣，這些行業每年因為詐欺行為而造成的損失都非常可觀，Data Mining可以從一些信用不良的客戶數據中找出相似特徵並預測可能的詐欺交易，達到減少損失的目的。財務金融業可以利用 Data Mining來分析市場動向，並預測個別公司的營運以及股價走向。Data Mining的另一個獨特的用法是在醫療業，用來預測手術、用葯、診斷、或是流程式控制制的效率。 NO.8 Web Mining 和Data Mining有什麼不同？如果將Web視為CRM的一個新的Channel，則Web Mining便可單純看做Data Mining應用在網路數據的泛稱。該如何測量一個網站是否成功？哪些內容、優惠、廣告是人氣最旺的？主要訪客是哪些人？什麼原因吸引他們前來？如何從堆積如山之大量由網路所得數據中找出讓網站運作更有效率的操作因素？以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限於一般較為人所知的log file分析，除了計算網頁瀏覽率以及訪客人次外，舉凡網路上的零售、財務服務、通訊服務、政府機關、醫療咨詢、遠距教學等等，只要由網路連結出的資料庫夠大夠完整，所有Off-Line可進行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的資料庫，實施更大規模的模型預測與推估，畢竟憑借網際網路的便利性與滲透力再配合網路行為的可追蹤性與高互動特質，一對一行銷的理念是最有機會在網路世界裡完全落實的。整體而言，Web Mining具有以下特性：1. 數據收集容易且不引人注意，所謂凡走過必留下痕跡，當訪客進入網站後的一切瀏覽行為與歷程都是可以立即被紀錄的；2. 以互動式個人化服務為終極目標，除了因應不同訪客呈現專屬設計的網頁之外，不同的訪客也會有不同的服務；3. 可整合外部來源數據讓分析功能發揮地更深更廣，除了log file、cookies、會員填表數據、線上調查數據、線上交易數據等由網路直接取得的資源外，結合實體世界累積時間更久、范圍更廣的資源，將使分析的結果更准確也更深入。利用Data Mining技術建立更深入的訪客數據剖析，並賴以架構精準的預測模式，以期呈現真正智能型個人化的網路服務，是Web Mining努力的方向。 NO.9 Data Mining 在 CRM 中扮演的角色為何？ CRM（Customer Relationship Management）是近來引起熱烈討論與高度關切的議題，尤其在直效行銷的崛起與網路的快速發展帶動下，跟不上CRM的腳步如同跟不上時代。事實上CRM並不算新發明，奧美直效行銷推動十數年的CO（Customer Ownership）就是現在大家談的CRM—客戶關系管理。 Data Mining應用在CRM的主要方式可對應在Gap Analysis之三個部分：針對Acquisition Gap，可利用Customer Profiling找出客戶的一些共同的特徵，希望能藉此深入了解客戶，藉由Cluster Analysis對客戶進行分群後再透過Pattern Analysis預測哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對象，進而降低成本，也提高行銷的成功率。針對Sales Gap，可利用Basket Analysis幫助了解客戶的產品消費模式，找出哪些產品客戶最容易一起購買，或是利用Sequence Discovery預測客戶在買了某一樣產品之後，在多久之內會買另一樣產品等等。利用 Data Mining可以更有效的決定產品組合、產品推薦、進貨量或庫存量，甚或是在店裡要如何擺設貨品等，同時也可以用來評估促銷活動的成效。針對Retention Gap，可以由原客戶後來卻轉成競爭對手的客戶群中，分析其特徵，再根據分析結果到現有客戶數據中找出可能轉向的客戶，然後設計一些方法預防客戶流失；更有系統的做法是藉由Neural Network根據客戶的消費行為與交易紀錄對客戶忠誠度進行Scoring的排序，如此則可區隔流失率的等級進而配合不同的策略。 CRM不是設一個（080）客服專線就算了，更不僅只是把一堆客戶基本數據輸入計算機就夠，完整的CRM運作機制在相關的硬軟體系統能健全的支持之前，有太多的數據准備工作與分析需要推動。

㈣股票數據挖掘的演算法有那些最好給些應用的例子。

給我你的郵箱我發給你

㈤什麼是數據挖掘

數據挖掘是從大量的數據中，抽取出潛在的、有價值的知識（模型或規則）的過程。
1. 數據挖掘能做什麼？
1)數據挖掘能做以下六種不同事情（分析方法）：
· 分類（Classification）
· 估值（Estimation）
· 預言（Prediction）
· 相關性分組或關聯規則（Affinity grouping or association rules）
· 聚集（Clustering）
· 描述和可視化（Des cription and Visualization）
2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類：直接數據挖掘；間接數據挖掘
· 直接數據挖掘

目標是利用可用的數據建立一個模型，這個模型對剩餘的數據，對一個特定的變數（可以

理解成資料庫中表的屬性，即列）進行描述。
· 間接數據挖掘

目標中沒有選出某一具體的變數，用模型進行描述；而是在所有的變數中建立起某種關系
· 分類、估值、預言屬於直接數據挖掘；後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類（Classification）

首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分

類模型，對於沒有分類的數據進行分類。

例子：
a. 信用卡申請者，分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片

注意：類的個數是確定的，預先定義好的
· 估值（Estimation）

估值與分類類似，不同之處在於，分類描述的是離散型變數的輸出，而估值處理連續值的

輸出；分類的類別是確定數目的，估值的量是不確定的。

例子：
a. 根據購買模式，估計一個家庭的孩子個數
b. 根據購買模式，估計一個家庭的收入
c. 估計real estate的價值

一般來說，估值可以作為分類的前一步工作。給定一些輸入數據，通過估值，得到未知的

連續變數的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運

用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。
· 預言（Prediction）

通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用

於對未知變數的預言。從這種意義上說，預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測，這種預測是需要時間來驗證的，即必須經過一定時

間後，才知道預言准確性是多少。
· 相關性分組或關聯規則（Affinity grouping or association rules）

決定哪些事情將一起發生。

例子：
a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)

b. 客戶在購買A後，隔一段時間，會購買B （序列分析）
· 聚集（Clustering）

聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類，不需要訓練集。

例子：
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如，"哪一種類的促銷對客戶響應最好？"，對於這一

類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集里，然後對每個不同的聚集，

回答問題，可能效果更好。
· 描述和可視化（Des cription and Visualization）

是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據，然後要求挖掘的知識是有價值的。有

價值對商業而言，不外乎三種情況：降低開銷；提高收入；增加股票價格。
1)數據挖掘作為研究工具（Research）
2)數據挖掘提高過程式控制制（Process Improvement）
3)數據挖掘作為市場營銷工具（Marketing）
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分：演算法和技術；數據；建模能力
2)數據挖掘和機器學習（Machine Learning）
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式：自組織學習（如神經網路）；從例子中歸納出規則（如決

策樹）
· 數據挖掘由來

數據挖掘是八十年代，投資AI研究項目失敗後，AI轉入實際應用時提出的。它是一個新興

的，面向商業應用的AI研究。選擇數據挖掘這一術語，表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法（回歸）、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP（聯機分析處理）、Data Mart（數據集市）、多維資料庫
· 決策支持工具融合

將數據倉庫、OLAP，數據挖掘融合在一起，構成企業決策分析環境。
4. 數據挖掘的社會背景

數據挖掘與個人預言：數據挖掘號稱能通過歷史數據的分析，預測客戶的行為，而事實上

，客戶自己可能都不明確自己下一步要作什麼。所以，數據挖掘的結果，沒有人們想像中

神秘，它不可能是完全正確的。

客戶的行為是與社會環境相關連的，所以數據挖掘本身也受社會背景的影響。比如說，在

美國對銀行信用卡客戶信用評級的模型運行得非常成功，但是，它可能不適合中國

㈥股票市場搞數據挖掘，數據分析來炒股有沒機會

有機會，而且機會不小，但是我等散戶靠數據分析，可能自身實力差的太懸殊了。
硬體設備就不達標哦。

㈦股票數據採集難嗎

要想自己采也行，我之前采過股市數據。用的是ForeSpider這個軟體。這個軟體他自身有數據挖掘分析功能，自己就進行聚類分類，統計分析了，採集的結果入庫後可以形成分析報表，直接瀏覽就行了，還是很方便的，你可以去看看。操作也是不難，非計算機專業的人也能使。
希望我的回答對你有幫助。

㈧用clementine數據挖掘工具計算股票MACD的公式怎麼表達

MACD：BAR=2×（DIF-DEA）

來自大科學團隊

㈨股票的數據挖掘用什麼演算法最合適

寫個貝葉斯分類演算法
對文本進行分類

㈩「基於數據挖掘的股票交易分析--模型分析」這個題目，是什麼意思哪位哥們，能給點具體解釋么

很難寫，主要牽涉到數據挖掘（軟體）和股票交易兩方面的專業。數據挖掘需要設計軟體進行建模，而股票交易需要進行實證（博士論文都可以寫了）。
建議：可以寫基於統計挖掘的股票交易分析--模型分析，這樣就簡單多了，只需要在股票軟體上得出一些統計數據，然後進行驗證就可以了，可操作性強。

導航:首頁 > 科創數據 > 數據挖掘股票交易

數據挖掘股票交易

與數據挖掘股票交易相關的資料