⑴ 金融需要 hadoop,spark 等这些大数据分析工具吗使用场景是怎样的
看看用亿信ABI做的相关案例
银行大数据应用
国内不少银行已经开始尝试通过大数据来驱动业务运营,如中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。总的来看银行大数据应用可以分为四大方面:
1、客户画像
客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。值得注意的是,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论。比如,如果某位信用卡客户月均刷卡8次,平均每次刷卡金额800元,平均每年打4次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高流失风险较低的客户。但如果看到该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应考虑整合外部更多的数据,以扩展对客户的了解。包括:
(1)客户在社交媒体上的行为数据(如光大银行建立了社交网络信息数据库)。通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图,从而进行更为精准的营销和管理;
(2)客户在电商网站的交易数据,如建设银行则将自己的电子商务平台和信贷业务结合起来,阿里金融为阿里巴巴用户提供无抵押贷款,用户只需要凭借过去的信用即可;
(3)企业客户的产业链上下游数据。如果银行掌握了企业所在的产业链上下游的数据,可以更好掌握企业的外部环境发展情况,从而可以预测企业未来的状况;
(4)其他有利于扩展银行对客户兴趣爱好的数据,如网络广告界目前正在兴起的DMP数据平台的互联网用户行为数据。
2、精准营销
在客户画像的基础上银行可以有效的开展精准营销,包括:
(1)实时营销。实时营销是根据客户的实时状态来进行营销,比如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销(某客户采用信用卡采购孕妇用品,可以通过建模推测怀孕的概率并推荐孕妇类喜欢的业务);或者将改变生活状态的事件(换工作、改变婚姻状况、置居等)视为营销机会;
(2)交叉营销。即不同业务或产品的交叉推荐,如招商银行可以根据客户交易记录分析,有效地识别小微企业客户,然后用远程银行来实施交叉销售;
(3)个性化推荐。银行可以根据客户的喜欢进行服务或者银行产品的个性化推荐,如根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在金融服务需求,进而有针对性的营销推广;
(4)客户生命周期管理。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。如招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。
3、风险管理与风险控制
在风险管理和控制方面包括中小企业贷款风险评估和欺诈交易识别等手段
(1)中小企业贷款风险评估。银行可通过企业的产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效的开展中小企业贷款。
(2)实时欺诈交易识别和反洗钱分析。银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。如IBM金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪,摩根大通银行则利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。
4、运营优化
(1)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。
(2)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析,通过对还款数据挖掘比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。
(3)舆情分析:银行可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面判断,尤其是及时掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。
⑵ 股票数据分析都有哪些
看盘的几个小技巧:
第一:看盘的首要重点是看板块和热点个股的轮动规律,进而推测出行情的大小和持续性时间变化。比如每天应该注意是否有涨停个股开盘,如果有,那么说明主力资金还在努力选择突破口,如果两市都有10只以上的涨停个股开盘,则说明市场处于多头气氛,人气比较旺,少于这个标准则说明市场人气不佳,投资者应该当心大盘继续下跌风险。如果每天盘面都有跌停板,并且是以板块方式出现,那么,应该警惕新一轮的中级调整开始。在热点上,如果前一交易日涨停的个股或是上涨比较好的板块难以维持两天以上的行情,那么,就说明主力资金属于短炒性质,此个股或板块不能成为一波行情的领头羊,同时也意味着这一轮上涨属于单日短线反弹。反过来讲,如果热点板块每天都有2-3个以上,平均涨幅都在2%以上,并相互进行有效轮番上涨,则中期向好行情就值得期待。2010年7月初、中期,有色资源、煤炭资源、稀土资源以及新能源、智能电网等板块交替上涨,从而产生中级行情。
第二:看盘应该注重关注成交量。根据两市目前市值情况看,上海大盘成交量小于1000亿应做震荡整理理解,700亿以下为缩量,小于500亿可以理解为地量,超过1100亿应该理解为放量。地量背后往往意味着反转,例如,2010年6月底和7月初之间,先后多个交易日上海股市成交量低于500亿,这个时候空仓资金应为自己的重新进场做好准备。当大盘摆脱下降趋势,走出一个缓慢的底部构筑的形态下,成交量温和状态下,投资者可以以不超过半仓的水平买股持股。如果,当股票持续上涨,成交量放大,换手率超过15%(中小板、创业板个股特定条件下可以放宽到20%左右,另外新股、次新股、限售股、转赠股、配股上市日不在此列),5-20日线开始死叉转向,那么此类短线题材股和概念股应该考虑逐步抛售。
第三:努力培养盘感,运用技术手段捕捉市场机会。不管是什么品种的股票,如经过短期暴跌,跌幅超过50%,下跌垂直度越大,那么关注价值就越高,当某一天突然缩量,短线买进的机会来了。因为急跌暴跌后,成交量突然萎缩就杀跌盘已经枯竭,肯定会出现反弹,这个时候可以坚决地战胜自己恐慌情绪积极进去抢一把反弹就走人。同样,如果股票价格在接连涨了很多时间,而且高位开始频繁放量,可是价格始终盘旋在某个小区域,连续用小单在尾盘直线拉高制造高位串阳K线,筹码峰密集严重扩散,则说明这个完全是主力在出货!必须坚决清仓。
第四:别小看低位的三连阳,别漠视高位的三连阴。一般讲股票价格在接连下跌一段时间后,突然在某天不那么狂跌,而且,K线上接连出现红三兵,价格波动幅度又不是那样大,通常价格一串上去又被单子砸下来了,请你注意了,这个时候往往就是有主力潜伏着开始收货中;反过来,如果在涨势继续了一段时间,股票价格已经很大幅度地脱离了主力原始成本,这个时候出现了高位几连阴,股票价格重心开始下移,尤其是在一些时候,主力利用快要收盘的时候,突然用几笔单把股票价格迅速买回日均线,在随后的几天里同样的手法经常出现,K线图上收出长下影,那说明主力出货的概率已经达到80%以上,它的这些做法都是为了麻痹经验不足的资金。假如某天连10日、20日、30日线都跌破,不管是赚还是赔,坚决离场。
第五:大涨买龙头,如何发觉龙头,其实在市场大跌气氛里很容易判断龙头股,应密切注意涨幅榜中始终跃居前几位的逆市红盘股,特别是价格处于“三低”范畴,或是股价在15-20元之间,离新多主力拉升底部区域不足50%空间,在大盘大跌的当日或随后几天时间里,果断用长阳反击K线收复前期长阴失地的,则有望成为反弹的龙头。市场的法则永远是“强者恒强,弱者恒弱”。当中级以上行情出现的时候,投资者要善于提早发现谁是龙头,并果断追进,抓稳抓牢,别因一时盘面震荡轻易下马。通常洗得越凶,后期飚涨概率越大。炒股抢占先机概念很重要。有的股票难当龙头最好在行情启动初期果断放弃,不要跟自己过不去。
第六:在涨势中不要轻视冷门股、问题股。 你只要它涨得好,涨得牛就是,“涨时重势,跌时重质”就是这个道理。任何时候,主力和庄家比我们聪明,他们不是傻瓜,当股票一个敢于在大势不好的情况下缩量封出涨停板,肯定有其不被市场大众知道的东西隐藏在后面。熊市里,很多2-5元中小盘个股就是这样无量快速涨停,通常这个时候非常考验短线高手的看盘功力,因为这样的股票往往留给人的思考、判断、下单时间不会超过一分钟,一般此类股很容易出现连续涨停,甚至是一字涨停,像2010年7月27日,很多ST股大跌的时候,ST黑化却震荡走高,上方买盘都被逐步吃掉,并在临近收盘的最后10分钟封上涨停,这说明市场已有嗅觉灵敏的资金闻到了变盘气息在重组前夜下手。
⑶ 股票市场的大数据量化分析是怎么做的
会做的都不会和你说的,简单来说就是收集数据,实现大数据ai
⑷ 股票数据分析方法
股票价格的涨跌,简单来说,供求决定价格,买的人多价格就涨,卖的人多价格就跌。做成买卖不平行的原因是多方面的,影响股市的政策面、基本面、技术面、资金面、消息面等,是利空还是利多,升多了会有所调整,跌多了也会出现反弹,这是不变的规律。
⑸ hadoop怎么数据分析
Hadoop被设计用来在大型数据集上能进行有效的工作。Hadoop有一个专为大尺寸文件(如几G)设计的文件系统(HDFS)。因此,如果你的数据文件尺寸只是几M的话,建议你合并(通过zip或tar)多个文件到一个文件中,使其尺寸在几百M到几G范围内。HDFS把大文件们拆分存储到以64MB或128MB或更大的块单元中。
如果你的数据集相对较小,那它就不会是hadoop的巨型生态系统的最佳使用之地。这需要你去对你的数据比以往理解更多一些,分析需要什么类型的查询,看看你的数据是否真得“大”。另一方面,只是通过数据库的大小来测量数据可能是骗人的,因为你的计算量可能会更大。 有时你可能会做更多的数学计算或分析小数据集的排列,这些可以远远大于实际的数据。所以关键是要“了解你的数据,并且很清楚它”。你的数据仓库或是其它数据源中可能拥有数个TB的数据。然而,在建立 Hadoop 集群前,你必须考虑到数据的增长。
⑹ hadoop 数据分析---hive数据仓库
用命令行吧。hive查询语句和SQL非常类似,如果你能用SQL统计出想要结果,用HIVE也肯定没问题。如果hive查询结果集很大,你也可以把结果集直接写进HDFS。
hive底层就是MapRece算法,用Java写的话代码量肯定很大,而且逻辑也要复杂点
⑺ hadoop数据分析是程序员吗
hadoop一般是应用于冷数据处理,对于实时数据,如果非要使用,可以变着方法使用。 方法一:在hadoop上使用hbase数据库,以为hbase是不走Map/Rece的,所以操作在毫秒级。 方法二:将业务数据用程序分成实时数据和冷数据
⑻ 如何用hadoop完成数据分析案例 csdn
R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。RHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发