mongodb股票數據_目前國內做金融大數據的創業企業有哪些

㈠ Python爬蟲可以爬取什麼

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。
淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。
安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。
雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率

一

學習 Python 包並實現基本的爬蟲過程

大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。

當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。

二

了解非結構化數據的存儲

爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。

開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。

當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。

三

學習 scrapy，搭建工程化的爬蟲

掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。

scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。

學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。

四

學習資料庫基礎，應對大規模數據存儲

爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。

五

掌握各種技巧，應對特殊網站的反爬措施

當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。

遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。

往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了.

六

分布式爬蟲，實現大規模並發採集

爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。

Scrapy 前面我們說過了，用於做基本的頁面爬取，MongoDB 用於存儲爬取的數據，Redis 則用來存儲要爬取的網頁隊列，也就是任務隊列。

所以有些東西看起來很嚇人，但其實分解開來，也不過如此。當你能夠寫分布式的爬蟲的時候，那麼你可以去嘗試打造一些基本的爬蟲架構了，實現一些更加自動化的數據獲取。

你看，這一條學習路徑下來，你已然可以成為老司機了，非常的順暢。所以在一開始的時候，盡量不要系統地去啃一些東西，找一個實際的項目（開始可以從豆瓣、小豬這種簡單的入手），直接開始就好。

因為爬蟲這種技術，既不需要你系統地精通一門語言，也不需要多麼高深的資料庫技術，高效的姿勢就是從實際的項目中去學習這些零散的知識點，你能保證每次學到的都是最需要的那部分。

當然唯一麻煩的是，在具體的問題中，如何找到具體需要的那部分學習資源、如何篩選和甄別，是很多初學者面臨的一個大問題。

以上就是我的回答，希望對你有所幫助，望採納。

㈡如何用java redis hbase

比如 MongoDB 和 CouchDB。每個數據存儲都有其優勢和劣勢，特別是當應用於特定領域時。本期的 Java 開發 2.0 關注的是 Redis，一種輕量級鍵值對數據存儲。多數 NoSQL 實現本質上都是鍵值對，但是 Redis 支持非常豐富的值集，其中包括字元串、列表、集以及散列。因此，Redis 通常被稱為數據結構伺服器。Redis 也以異常快速而聞名，這使得它成為某一特定類型使用案例的最優選擇。當我們想要了解一種新事物時，將其同熟知的事物進行比較可能會有所幫助，因此，我們將通過對比其與 memcached 的相似性以開啟 Redis 探索之旅。接著我們將介紹 Redis 的主要功能，這些功能可以使其在某些應用場景可以勝過 memcached。最後我將向您展示如何將 Redis 作為一個傳統數據存儲用於模型對象。Redis 和 memcached Memcached 是一個眾所周知的內存對象緩存系統，通過將目標鍵和值導入內存緩存運行。因此，Memcached 能迴避讀取磁碟時發生的 I/O 成本問題。在 Web 應用程序和資料庫之間粘貼 memcached 時會產生更好的讀取性能。因此，對於那些需要快速數據查詢的應用程序，Memcached 是一個不錯的選擇。其中的一個例子為股票查詢服務，需要另外訪問資料庫獲取相對靜態數據，如股票名稱或價格信息。 MemcacheDB 將Redis 與 memcached 相比較並不公平，它與 MemcacheDB 相比要好的多，MemcacheDB 是一個分布式鍵值對存儲系統，專為數據持久化而設計。MemcacheDB 與 Redis 較為相似，其新增優勢可以使其輕松地與 memcached 實現的客戶端進行通信。但是memcached 也有其局限性，其中一個事實就是它所有的值均是簡單的字元串。Redis 作為 memcached 的替代者，支持更加豐富的功能集。一些基準 (benchmarks) 也表明 Redis 的速度要比 memcached 快很多。Redis 提供的豐富數據類型使其可以在內存中存儲更為復雜的數據，這是使用 memcached 無法實現的。同 memcached 不一樣，Redis 可以持久化其數據。 Redis 解決了一個重大的緩存問題，而其豐富的功能集又為其找到了其他用途。由於 Redis 能夠在磁碟上存儲數據以及跨節點復制數據，因而可以作為數據倉庫用於傳統數據模式（也就是說，您可以使用 Redis，就像使用 RDBMS 一樣）。Redis 還經常被用作隊列系統。在本用例中，Redis 是備份和工作隊列持久化存儲（利用 Redis 的列表類型）的基礎。GitHub 是以此種方法使用 Redis 的大規模基礎架構示例准備好 Redis，立即開始! 要開始使用 Redis，您需要訪問它，可以通過本地安裝或者託管供應商來實現訪問。如果您使用的 MAC，安裝過程可能就不那麼簡單。

㈢ NoSQL自動生成上千萬的數據可以有哪些方法

1. CouchDB

所用語言： Erlang
特點：DB一致性，易於使用
使用許可： Apache
協議： HTTP/REST
雙向數據復制，
持續進行或臨時處理，
處理時帶沖突檢查，
因此，採用的是master-master復制（見編注2）
MVCC – 寫操作不阻塞讀操作
可保存文件之前的版本
Crash-only（可靠的）設計
需要不時地進行數據壓縮
視圖：嵌入式映射/減少
格式化視圖：列表顯示
支持進行伺服器端文檔驗證
支持認證
根據變化實時更新
支持附件處理
因此， CouchApps（獨立的 js應用程序）
需要 jQuery程序庫

最佳應用場景：適用於數據變化較少，執行預定義查詢，進行數據統計的應用程序。適用於需要提供數據版本支持的應用程序。

例如： CRM、CMS系統。 master-master復制對於多站點部署是非常有用的。

（編注2：master-master復制：是一種資料庫同步方法，允許數據在一組計算機之間共享數據，並且可以通過小組中任意成員在組內進行數據更新。）

2. Redis

所用語言：C/C++
特點：運行異常快
使用許可： BSD
協議：類 Telnet
有硬碟存儲支持的內存資料庫，
但自2.0版本以後可以將數據交換到硬碟（注意， 2.4以後版本不支持該特性！）
Master-slave復制（見編注3）
雖然採用簡單數據或以鍵值索引的哈希表，但也支持復雜操作，例如 ZREVRANGEBYSCORE。
INCR & co （適合計算極限值或統計數據）
支持 sets（同時也支持 union/diff/inter）
支持列表（同時也支持隊列；阻塞式 pop操作）
支持哈希表（帶有多個域的對象）
支持排序 sets（高得分表，適用於范圍查詢）
Redis支持事務
支持將數據設置成過期數據（類似快速緩沖區設計）
Pub/Sub允許用戶實現消息機制

最佳應用場景：適用於數據變化快且資料庫大小可遇見（適合內存容量）的應用程序。

例如：股票價格、數據分析、實時數據搜集、實時通訊。

（編注3：Master-slave復制：如果同一時刻只有一台伺服器處理所有的復制請求，這被稱為
Master-slave復制，通常應用在需要提供高可用性的伺服器集群。）

3. MongoDB

所用語言：C++
特點：保留了SQL一些友好的特性（查詢，索引）。
使用許可： AGPL（發起者： Apache）
協議： Custom, binary（ BSON）
Master/slave復制（支持自動錯誤恢復，使用 sets 復制）
內建分片機制
支持 javascript表達式查詢
可在伺服器端執行任意的 javascript函數
update-in-place支持比CouchDB更好
在數據存儲時採用內存到文件映射
對性能的關注超過對功能的要求
建議最好打開日誌功能（參數 –journal）
在32位操作系統上，資料庫大小限制在約2.5Gb
空資料庫大約占 192Mb
採用 GridFS存儲大數據或元數據（不是真正的文件系統）

最佳應用場景：適用於需要動態查詢支持；需要使用索引而不是 map/rece功能；需要對大資料庫有性能要求；需要使用
CouchDB但因為數據改變太頻繁而占滿內存的應用程序。

例如：你本打算採用 MySQL或 PostgreSQL，但因為它們本身自帶的預定義欄讓你望而卻步。

4. Riak

所用語言：Erlang和C，以及一些Javascript
特點：具備容錯能力
使用許可： Apache
協議： HTTP/REST或者 custom binary
可調節的分發及復制(N, R, W)
用 JavaScript or Erlang在操作前或操作後進行驗證和安全支持。
使用JavaScript或Erlang進行 Map/rece
連接及連接遍歷：可作為圖形資料庫使用
索引：輸入元數據進行搜索（1.0版本即將支持）
大數據對象支持（ Luwak）
提供「開源」和「企業」兩個版本
全文本搜索，索引，通過 Riak搜索伺服器查詢（ beta版）
支持Masterless多站點復制及商業許可的 SNMP監控

最佳應用場景：適用於想使用類似 Cassandra（類似Dynamo）資料庫但無法處理
bloat及復雜性的情況。適用於你打算做多站點復制，但又需要對單個站點的擴展性，可用性及出錯處理有要求的情況。

例如：銷售數據搜集，工廠控制系統；對宕機時間有嚴格要求；可以作為易於更新的 web伺服器使用。

5. Membase

所用語言： Erlang和C
特點：兼容 Memcache，但同時兼具持久化和支持集群
使用許可： Apache 2.0
協議：分布式緩存及擴展
非常快速（200k+/秒），通過鍵值索引數據
可持久化存儲到硬碟
所有節點都是唯一的（ master-master復制）
在內存中同樣支持類似分布式緩存的緩存單元
寫數據時通過去除重復數據來減少 IO
提供非常好的集群管理 web界面
更新軟體時軟無需停止資料庫服務
支持連接池和多路復用的連接代理

最佳應用場景：適用於需要低延遲數據訪問，高並發支持以及高可用性的應用程序

例如：低延遲數據訪問比如以廣告為目標的應用，高並發的 web 應用比如網路游戲（例如 Zynga）

6. Neo4j

所用語言： Java
特點：基於關系的圖形資料庫
使用許可： GPL，其中一些特性使用 AGPL/商業許可
協議： HTTP/REST（或嵌入在 Java中）
可獨立使用或嵌入到 Java應用程序
圖形的節點和邊都可以帶有元數據
很好的自帶web管理功能
使用多種演算法支持路徑搜索
使用鍵值和關系進行索引
為讀操作進行優化
支持事務（用 Java api）
使用 Gremlin圖形遍歷語言
支持 Groovy腳本
支持在線備份，高級監控及高可靠性支持使用 AGPL/商業許可

最佳應用場景：適用於圖形一類數據。這是 Neo4j與其他nosql資料庫的最顯著區別

例如：社會關系，公共交通網路，地圖及網路拓譜

7. Cassandra

所用語言： Java
特點：對大型表格和 Dynamo支持得最好
使用許可： Apache
協議： Custom, binary (節約型)
可調節的分發及復制(N, R, W)
支持以某個范圍的鍵值通過列查詢
類似大表格的功能：列，某個特性的列集合
寫操作比讀操作更快
基於 Apache分布式平台盡可能地 Map/rece
我承認對 Cassandra有偏見，一部分是因為它本身的臃腫和復雜性，也因為 Java的問題（配置，出現異常，等等）

最佳應用場景：當使用寫操作多過讀操作（記錄日誌）如果每個系統組建都必須用 Java編寫（沒有人因為選用
Apache的軟體被解僱）

例如：銀行業，金融業（雖然對於金融交易不是必須的，但這些產業對資料庫的要求會比它們更大）寫比讀更快，所以一個自然的特性就是實時數據分析

8. HBase

（配合 ghshephard使用）

所用語言： Java
特點：支持數十億行X上百萬列
使用許可： Apache
協議：HTTP/REST （支持 Thrift，見編注4）
在 BigTable之後建模
採用分布式架構 Map/rece
對實時查詢進行優化
高性能 Thrift網關
通過在server端掃描及過濾實現對查詢操作預判
支持 XML, Protobuf, 和binary的HTTP
Cascading, hive, and pig source and sink moles
基於 Jruby（ JIRB）的shell
對配置改變和較小的升級都會重新回滾
不會出現單點故障
堪比MySQL的隨機訪問性能

最佳應用場景：適用於偏好BigTable:)並且需要對大數據進行隨機、實時訪問的場合。

例如： Facebook消息資料庫（更多通用的用例即將出現）

編注4：Thrift
是一種介面定義語言，為多種其他語言提供定義和創建服務，由Facebook開發並開源。

當然，所有的系統都不只具有上面列出的這些特性。這里我僅僅根據自己的觀點列出一些我認為的重要特性。與此同時，技術進步是飛速的，所以上述的內容肯定需要不斷更新。我會盡我所能地更新這個列表。

㈣大數據時代的案例分析

個案一
你開心他就買你焦慮他就拋
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一，就是利用電腦程序分析全球3.4億微博賬戶的留言，進而判斷民眾情緒，再以「1」到「50」進行打分。根據打分結果，霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單：如果所有人似乎都高興，那就買入；如果大家的焦慮情緒上升，那就拋售。
這一招收效顯著——當年第一季度，霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司（IBM）估測，這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街，這一時效至關重要。曾經，華爾街2%的企業搜集微博等平台的「非正式」數據；如今，接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃，和微博推特是合作夥伴。它分析數據，告訴廣告商什麼是正確的時間，誰是正確的用戶，什麼是應該發表的正確內容，備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture（著名的網頁流量分析工具）公司，你可以知道有多少人訪問你的網站，以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉，進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化：他把客戶請到辦公室，將包含這些公司的數據圖譜展現出來——有些是普通的時間軸，有些像蒲公英，有些則是鋪滿整個畫面的泡泡，泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型，弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈：
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。
3、NoSQL，membase、MongoDb
商用大數據生態圈：
1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

㈤如何搜集金融類數據

Tushare金融大數據開放社區,
1、擁有豐富的數據內容，如股票、基金、期貨、數字貨幣等行情數據，公司財務、基金經理等基本面數據。
2、SDK開發包支持語言，同時提供HTTP Restful介面，最大程度方便不同人群的使用。
3、提供多種數據儲存方式，如Oracle、MySQL，MongoDB、HDF5、CSV等，為數據獲取提供了性能保證。

㈥如何運用大數據

1.可視化分析
大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統
計
學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如
果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰，我們需要一套工具系統的去分析，提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

大數據的技術
數據採集： ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數
據處理：自然語言處理(NLP，Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言，所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支，另一方面它是人工智慧的核心課題之一。
統計分析：
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數
據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity
grouping or association rules）、聚類（Clustering）、描述和可視化、Description and
Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。

大數據的處理
1. 大數據處理之一：採集
大
數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的
數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據，除
此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時
有可能會有成千上萬的用戶
來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二：導入/預處理
雖然採集端本身會有很多資料庫，但是如果要對這些
海量數據進行有效的分析，還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫，或者分布式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鍾的導入量經常會達到百兆，甚至千兆級別。
3. 大數據處理之三：統計/分析
統
計與分析主要利用分布式資料庫，或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於
MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。
4. 大數據處理之四：挖掘
與
前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數
據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於

統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜，並
且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理。

㈦如何設置redis一秒鍾持久化一次

此外，我還討論過較為常見的基於伺服器的數據存儲，比如MongoDB和CouchDB。每個數據存儲都有其優勢和劣勢，特別是當應用於特定領域時。本期的Java開發2.0關注的是Redis，一種輕量級鍵值對數據存儲。多數NoSQL實現本質上都是鍵值對，但是Redis支持非常豐富的值集，其中包括字元串、列表、集以及散列。因此，Redis通常被稱為數據結構伺服器。Redis也以異常快速而聞名，這使得它成為某一特定類型使用案例的最優選擇。當我們想要了解一種新事物時，將其同熟知的事物進行比較可能會有所幫助，因此，我們將通過對比其與memcached的相似性以開啟Redis探索之旅。接著我們將介紹Redis的主要功能，這些功能可以使其在某些應用場景可以勝過memcached。最後我將向您展示如何將Redis作為一個傳統數據存儲用於模型對象。Redis和memcachedMemcached是一個眾所周知的內存對象緩存系統，通過將目標鍵和值導入內存緩存運行。因此，Memcached能迴避讀取磁碟時發生的I/O成本問題。在Web應用程序和資料庫之間粘貼memcached時會產生更好的讀取性能。因此，對於那些需要快速數據查詢的應用程序，Memcached是一個不錯的選擇。其中的一個例子為股票查詢服務，需要另外訪問資料庫獲取相對靜態數據，如股票名稱或價格信息。MemcacheDB將Redis與memcached相比較並不公平，它與MemcacheDB相比要好的多，MemcacheDB是一個分布式鍵值對存儲系統，專為數據持久化而設計。MemcacheDB與Redis較為相似，其新增優勢可以使其輕松地與memcached實現的客戶端進行通信。但是memcached也有其局限性，其中一個事實就是它所有的值均是簡單的字元串。Redis作為memcached的替代者，支持更加豐富的功能集。一些基準(benchmarks)也表明Redis的速度要比memcached快很多。Redis提供的豐富數據類型使其可以在內存中存儲更為復雜的數據，這是使用memcached無法實現的。同memcached不一樣，Redis可以持久化其數據。Redis解決了一個重大的緩存問題，而其豐富的功能集又為其找到了其他用途。由於Redis能夠在磁碟上存儲數據以及跨節點復制數據，因而可以作為數據倉庫用於傳統數據模式（也就是說，您可以使用Redis，就像使用RDBMS一樣）。Redis還經常被用作隊列系統。在本用例中，Redis是備份和工作隊列持久化存儲（利用Redis的列表類型）的基礎。GitHub是以此種方法使用Redis的大規模基礎架構示例准備好Redis，立即開始!要開始使用Redis，您需要訪問它，可以通過本地安裝或者託管供應商來實現訪問。如果您使用的MAC，安裝過程可能就不那麼簡單。如果您使用的是Windows??，您需要先安裝Cygwin。如果您正在尋找一個託管供應商，Redis4You擁有一個免費計劃。不管您以何種方式訪問，您都能夠根據本文下列示例進行操作，但是我需要指出的是，使用一個託管供應商進行緩存可能並不是很好的緩存解決方案，因為網路延遲可能會抵消任何性能優勢。您需要通過命令與Redis進行交互，這就是說，這里沒有SQL類查詢語言。使用Redis工作非常類似於使用傳統map數據結構，即所有的一切都擁有一個鍵和一個值，每個值都有多種與之關聯的數據類型。每個數據類型都有其自己的命令集。例如，如果您計劃使用簡單數據類型，比如某種緩存模式，您可以使用命令set和get。您可以通過命令行shell與一個Reids實例進行交互。還有多個客戶端實現，可以以編程方式與Redis進行交互。清單1展示了一個使用基礎命令的簡單命令行shell交互：清單1.使用基礎的Redis命令redis127.0.0.1:6379>setpageregistrationOKredis127.0.0.1:6379>keys*1)"foo"2)"page"redis127.0.0.1:6379>getpage"registration"在這里，我通過set命令將鍵"page"與值"registration"相關聯。接著，我發出keys命令（後綴*表示我想看到所有可用的實例鍵。keys命令顯示有一個page值和一個foo，我可以通過get命令檢索到與一個鍵關聯的值。請記住，使用get檢索到的值只能是一個字元串。如果一個鍵的值是一個列表，那麼您必須使用一個特定列表的命令來檢索列表元素。（注意，有可以查詢值類型的命令）。Java與Jedis集成對於那些想要將Redis集成到Java應用程序的編程人員，Redis團隊建議使用一個名為Jedis的項目，Jedis是一個輕量級庫，可以將本地Redis命令映射到Java方法。例如Jedis可以獲取並設置簡單值，如清單2所示：清單2.Java代碼中的基礎Redis命令JedisPoolpool=newJedisPool(newJedisPoolConfig(),"localhost");Jedisjedis=pool.getResource();jedis.set("foo","bar");Stringfoobar=jedis.get("foo");assertfoobar.equals("bar");pool.returnResource(jedis);pool.destroy();在清單2中，我配置了一個連接池並捕獲連接，（與您在典型JDBC場景中的操作非常相似）然後我在清單的底部設置了返回操作。在連接池邏輯之間，我設置了值"bar"和鍵"foo"，這是我通過get命令檢索到的。與memcached類似，Redis允許您將過期（expiration）時間關聯到一個值。因此我設置了這樣一個值（比如，股票臨時交易價格），最終將從Redis緩存中清除掉。如果我想在Jedis中設置一個過期時間，需要在發出set調用之後將其和一個過期時間關聯。如清單3所示：清單3.Redis值可以設置為終止jedis.set("gone","daddy,gone");jedis.expire("gone",10);Stringthere=jedis.get("gone");assertthere.equals("daddy,gone");Thread.sleep(4500);StringnotThere=jedis.get("gone");assertnotThere==null;在清單3中，我使用了一個expire調用將"gone"的值設置為在10秒鍾內終止。調用Thread.sleep之後，"gone"的get調用會返回null。Redis中的數據類型使用Redis數據類型，比如列表和散列需要專用命令用法。例如，我可以通過為鍵附加值來創建列表。

㈧ 10億級別的資料庫用什麼比較好mysql合適嗎

10億級別的什麼數據？

如果是關系型很強，而且數據很值錢的數據，例如顧客--交易--商品--金額一個系列的，那麼這種很重要的數據，建議是 Oracle，因為數據丟不起啊。

如果是關系型強，但是數據不是很值錢的數據，例如 A股從開市以來，所有股票的每日，每小時，30分，15分，5分鍾的行情數據。那麼你可以使用 Mysql。反正丟了就重新導入一次。

如果是關系型不強，數據也不是很值錢的數據，例如論壇的帖子這一類的，那麼用 mongodb 就更合適一些。

㈨目前國內做金融大數據的創業企業有哪些

金融是貨幣流通和信用活動以及與之相聯系的經濟活動的總稱，廣義的金融泛指一切與信用貨幣的發行、保管、兌換、結算，融通有關的經濟活動，甚至包括金銀的買賣，狹義的金融專指信用貨幣的融通。

金融的內容可概括為貨幣的發行與回籠，存款的吸收與付出，貸款的發放與回收，金銀、外匯的買賣，有價證券的發行與轉讓，保險、信託、國內、國際的貨幣結算等。從事金融活動的機構主要有銀行、信託投資公司、保險公司、證券公司，還有信用合作社、財務公司、投資信託公司、金融租賃公司以及證券、金銀、外匯交易所等。

㈩什麼是金融數據

怎麼給你說呢，學術化的定義很多，通俗點的例子，某隻股票一段時期的價格數據按既定的時間順序排列就可以稱之為一種金融時間序列數據。

導航:首頁 > 科創數據 > mongodb股票數據

mongodb股票數據

與mongodb股票數據相關的資料