⑴ 金融需要 hadoop,spark 等這些大數據分析工具嗎使用場景是怎樣的
看看用億信ABI做的相關案例
銀行大數據應用
國內不少銀行已經開始嘗試通過大數據來驅動業務運營,如中信銀行信用卡中心使用大數據技術實現了實時營銷,光大銀行建立了社交網路信息資料庫,招商銀行則利用大數據發展小微貸款。總的來看銀行大數據應用可以分為四大方面:
1、客戶畫像
客戶畫像應用主要分為個人客戶畫像和企業客戶畫像。個人客戶畫像包括人口統計學特徵、消費能力數據、興趣數據、風險偏好等;企業客戶畫像包括企業的生產、流通、運營、財務、銷售和客戶數據、相關產業鏈上下游等數據。值得注意的是,銀行擁有的客戶信息並不全面,基於銀行自身擁有的數據有時候難以得出理想的結果甚至可能得出錯誤的結論。比如,如果某位信用卡客戶月均刷卡8次,平均每次刷卡金額800元,平均每年打4次客服電話,從未有過投訴,按照傳統的數據分析,該客戶是一位滿意度較高流失風險較低的客戶。但如果看到該客戶的微博,得到的真實情況是:工資卡和信用卡不在同一家銀行,還款不方便,好幾次打客服電話沒接通,客戶多次在微博上抱怨,該客戶流失風險較高。所以銀行不僅僅要考慮銀行自身業務所採集到的數據,更應考慮整合外部更多的數據,以擴展對客戶的了解。包括:
(1)客戶在社交媒體上的行為數據(如光大銀行建立了社交網路信息資料庫)。通過打通銀行內部數據和外部社會化的數據可以獲得更為完整的客戶拼圖,從而進行更為精準的營銷和管理;
(2)客戶在電商網站的交易數據,如建設銀行則將自己的電子商務平台和信貸業務結合起來,阿里金融為阿里巴巴用戶提供無抵押貸款,用戶只需要憑借過去的信用即可;
(3)企業客戶的產業鏈上下游數據。如果銀行掌握了企業所在的產業鏈上下游的數據,可以更好掌握企業的外部環境發展情況,從而可以預測企業未來的狀況;
(4)其他有利於擴展銀行對客戶興趣愛好的數據,如網路廣告界目前正在興起的DMP數據平台的互聯網用戶行為數據。
2、精準營銷
在客戶畫像的基礎上銀行可以有效的開展精準營銷,包括:
(1)實時營銷。實時營銷是根據客戶的實時狀態來進行營銷,比如客戶當時的所在地、客戶最近一次消費等信息來有針對地進行營銷(某客戶採用信用卡采購孕婦用品,可以通過建模推測懷孕的概率並推薦孕婦類喜歡的業務);或者將改變生活狀態的事件(換工作、改變婚姻狀況、置居等)視為營銷機會;
(2)交叉營銷。即不同業務或產品的交叉推薦,如招商銀行可以根據客戶交易記錄分析,有效地識別小微企業客戶,然後用遠程銀行來實施交叉銷售;
(3)個性化推薦。銀行可以根據客戶的喜歡進行服務或者銀行產品的個性化推薦,如根據客戶的年齡、資產規模、理財偏好等,對客戶群進行精準定位,分析出其潛在金融服務需求,進而有針對性的營銷推廣;
(4)客戶生命周期管理。客戶生命周期管理包括新客戶獲取、客戶防流失和客戶贏回等。如招商銀行通過構建客戶流失預警模型,對流失率等級前20%的客戶發售高收益理財產品予以挽留,使得金卡和金葵花卡客戶流失率分別降低了15個和7個百分點。
3、風險管理與風險控制
在風險管理和控制方麵包括中小企業貸款風險評估和欺詐交易識別等手段
(1)中小企業貸款風險評估。銀行可通過企業的產、流通、銷售、財務等相關信息結合大數據挖掘方法進行貸款風險分析,量化企業的信用額度,更有效的開展中小企業貸款。
(2)實時欺詐交易識別和反洗錢分析。銀行可以利用持卡人基本信息、卡基本信息、交易歷史、客戶歷史行為模式、正在發生行為模式(如轉賬)等,結合智能規則引擎(如從一個不經常出現的國家為一個特有用戶轉賬或從一個不熟悉的位置進行在線交易)進行實時的交易反欺詐分析。如IBM金融犯罪管理解決方案幫助銀行利用大數據有效地預防與管理金融犯罪,摩根大通銀行則利用大數據技術追蹤盜取客戶賬號或侵入自動櫃員機(ATM)系統的罪犯。
4、運營優化
(1)市場和渠道分析優化。通過大數據,銀行可以監控不同市場推廣渠道尤其是網路渠道推廣的質量,從而進行合作渠道的調整和優化。同時,也可以分析哪些渠道更適合推廣哪類銀行產品或者服務,從而進行渠道推廣策略的優化。
(2)產品和服務優化:銀行可以將客戶行為轉化為信息流,並從中分析客戶的個性特徵和風險偏好,更深層次地理解客戶的習慣,智能化分析和預測客戶需求,從而進行產品創新和服務優化。如興業銀行目前對大數據進行初步分析,通過對還款數據挖掘比較區分優質客戶,根據客戶還款數額的差別,提供差異化的金融產品和服務方式。
(3)輿情分析:銀行可以通過爬蟲技術,抓取社區、論壇和微博上關於銀行以及銀行產品和服務的相關信息,並通過自然語言處理技術進行正負面判斷,尤其是及時掌握銀行以及銀行產品和服務的負面信息,及時發現和處理問題;對於正面信息,可以加以總結並繼續強化。同時,銀行也可以抓取同行業的銀行正負面信息,及時了解同行做的好的方面,以作為自身業務優化的借鑒。
⑵ 股票數據分析都有哪些
看盤的幾個小技巧:
第一:看盤的首要重點是看板塊和熱點個股的輪動規律,進而推測出行情的大小和持續性時間變化。比如每天應該注意是否有漲停個股開盤,如果有,那麼說明主力資金還在努力選擇突破口,如果兩市都有10隻以上的漲停個股開盤,則說明市場處於多頭氣氛,人氣比較旺,少於這個標准則說明市場人氣不佳,投資者應該當心大盤繼續下跌風險。如果每天盤面都有跌停板,並且是以板塊方式出現,那麼,應該警惕新一輪的中級調整開始。在熱點上,如果前一交易日漲停的個股或是上漲比較好的板塊難以維持兩天以上的行情,那麼,就說明主力資金屬於短炒性質,此個股或板塊不能成為一波行情的領頭羊,同時也意味著這一輪上漲屬於單日短線反彈。反過來講,如果熱點板塊每天都有2-3個以上,平均漲幅都在2%以上,並相互進行有效輪番上漲,則中期向好行情就值得期待。2010年7月初、中期,有色資源、煤炭資源、稀土資源以及新能源、智能電網等板塊交替上漲,從而產生中級行情。
第二:看盤應該注重關注成交量。根據兩市目前市值情況看,上海大盤成交量小於1000億應做震盪整理理解,700億以下為縮量,小於500億可以理解為地量,超過1100億應該理解為放量。地量背後往往意味著反轉,例如,2010年6月底和7月初之間,先後多個交易日上海股市成交量低於500億,這個時候空倉資金應為自己的重新進場做好准備。當大盤擺脫下降趨勢,走出一個緩慢的底部構築的形態下,成交量溫和狀態下,投資者可以以不超過半倉的水平買股持股。如果,當股票持續上漲,成交量放大,換手率超過15%(中小板、創業板個股特定條件下可以放寬到20%左右,另外新股、次新股、限售股、轉贈股、配股上市日不在此列),5-20日線開始死叉轉向,那麼此類短線題材股和概念股應該考慮逐步拋售。
第三:努力培養盤感,運用技術手段捕捉市場機會。不管是什麼品種的股票,如經過短期暴跌,跌幅超過50%,下跌垂直度越大,那麼關注價值就越高,當某一天突然縮量,短線買進的機會來了。因為急跌暴跌後,成交量突然萎縮就殺跌盤已經枯竭,肯定會出現反彈,這個時候可以堅決地戰勝自己恐慌情緒積極進去搶一把反彈就走人。同樣,如果股票價格在接連漲了很多時間,而且高位開始頻繁放量,可是價格始終盤旋在某個小區域,連續用小單在尾盤直線拉高製造高位串陽K線,籌碼峰密集嚴重擴散,則說明這個完全是主力在出貨!必須堅決清倉。
第四:別小看低位的三連陽,別漠視高位的三連陰。一般講股票價格在接連下跌一段時間後,突然在某天不那麼狂跌,而且,K線上接連出現紅三兵,價格波動幅度又不是那樣大,通常價格一串上去又被單子砸下來了,請你注意了,這個時候往往就是有主力潛伏著開始收貨中;反過來,如果在漲勢繼續了一段時間,股票價格已經很大幅度地脫離了主力原始成本,這個時候出現了高位幾連陰,股票價格重心開始下移,尤其是在一些時候,主力利用快要收盤的時候,突然用幾筆單把股票價格迅速買回日均線,在隨後的幾天里同樣的手法經常出現,K線圖上收出長下影,那說明主力出貨的概率已經達到80%以上,它的這些做法都是為了麻痹經驗不足的資金。假如某天連10日、20日、30日線都跌破,不管是賺還是賠,堅決離場。
第五:大漲買龍頭,如何發覺龍頭,其實在市場大跌氣氛里很容易判斷龍頭股,應密切注意漲幅榜中始終躍居前幾位的逆市紅盤股,特別是價格處於「三低」范疇,或是股價在15-20元之間,離新多主力拉升底部區域不足50%空間,在大盤大跌的當日或隨後幾天時間里,果斷用長陽反擊K線收復前期長陰失地的,則有望成為反彈的龍頭。市場的法則永遠是「強者恆強,弱者恆弱」。當中級以上行情出現的時候,投資者要善於提早發現誰是龍頭,並果斷追進,抓穩抓牢,別因一時盤面震盪輕易下馬。通常洗得越凶,後期飈漲概率越大。炒股搶佔先機概念很重要。有的股票難當龍頭最好在行情啟動初期果斷放棄,不要跟自己過不去。
第六:在漲勢中不要輕視冷門股、問題股。 你只要它漲得好,漲得牛就是,「漲時重勢,跌時重質」就是這個道理。任何時候,主力和莊家比我們聰明,他們不是傻瓜,當股票一個敢於在大勢不好的情況下縮量封出漲停板,肯定有其不被市場大眾知道的東西隱藏在後面。熊市裡,很多2-5元中小盤個股就是這樣無量快速漲停,通常這個時候非常考驗短線高手的看盤功力,因為這樣的股票往往留給人的思考、判斷、下單時間不會超過一分鍾,一般此類股很容易出現連續漲停,甚至是一字漲停,像2010年7月27日,很多ST股大跌的時候,ST黑化卻震盪走高,上方買盤都被逐步吃掉,並在臨近收盤的最後10分鍾封上漲停,這說明市場已有嗅覺靈敏的資金聞到了變盤氣息在重組前夜下手。
⑶ 股票市場的大數據量化分析是怎麼做的
會做的都不會和你說的,簡單來說就是收集數據,實現大數據ai
⑷ 股票數據分析方法
股票價格的漲跌,簡單來說,供求決定價格,買的人多價格就漲,賣的人多價格就跌。做成買賣不平行的原因是多方面的,影響股市的政策面、基本面、技術面、資金面、消息面等,是利空還是利多,升多了會有所調整,跌多了也會出現反彈,這是不變的規律。
⑸ hadoop怎麼數據分析
Hadoop被設計用來在大型數據集上能進行有效的工作。Hadoop有一個專為大尺寸文件(如幾G)設計的文件系統(HDFS)。因此,如果你的數據文件尺寸只是幾M的話,建議你合並(通過zip或tar)多個文件到一個文件中,使其尺寸在幾百M到幾G范圍內。HDFS把大文件們拆分存儲到以64MB或128MB或更大的塊單元中。
如果你的數據集相對較小,那它就不會是hadoop的巨型生態系統的最佳使用之地。這需要你去對你的數據比以往理解更多一些,分析需要什麼類型的查詢,看看你的數據是否真得「大」。另一方面,只是通過資料庫的大小來測量數據可能是騙人的,因為你的計算量可能會更大。 有時你可能會做更多的數學計算或分析小數據集的排列,這些可以遠遠大於實際的數據。所以關鍵是要「了解你的數據,並且很清楚它」。你的數據倉庫或是其它數據源中可能擁有數個TB的數據。然而,在建立 Hadoop 集群前,你必須考慮到數據的增長。
⑹ hadoop 數據分析---hive數據倉庫
用命令行吧。hive查詢語句和SQL非常類似,如果你能用SQL統計出想要結果,用HIVE也肯定沒問題。如果hive查詢結果集很大,你也可以把結果集直接寫進HDFS。
hive底層就是MapRece演算法,用Java寫的話代碼量肯定很大,而且邏輯也要復雜點
⑺ hadoop數據分析是程序員嗎
hadoop一般是應用於冷數據處理,對於實時數據,如果非要使用,可以變著方法使用。 方法一:在hadoop上使用hbase資料庫,以為hbase是不走Map/Rece的,所以操作在毫秒級。 方法二:將業務數據用程序分成實時數據和冷數據
⑻ 如何用hadoop完成數據分析案例 csdn
R是GNU的一個開源工具,具有S語言血統,擅長統計計算和統計制圖。廣大R語言愛好者藉助強大工具RHadoop,可以在大數據領域大展拳腳,這對R語言程序員來說無疑是個喜訊。RHadoop是一款Hadoop和R語言的結合的產品,由RevolutionAnalytics公司開發