⑴ 数据挖掘问题··
1。数据挖掘是从4大c量的数据中5,抽取出潜在的、有价值的知识(模型或规则)的过程。 4。 数据挖掘能做什2么r? 7)数据挖掘能做以4下v六7种不m同事情(分7析方2法): · 分0类 (Classification) · 估值(Estimation) · 预言(Prediction) · 相关性分8组或关联规则(Affinity grouping or association rules) · 聚集(Clustering) · 描述和可视化1(Des cription and Visualization) 8)数据挖掘分5类 以8上r六2种数据挖掘的分6析方6法可以6分0为3两类:直接数据挖掘;间接数据挖掘 · 直接数据挖掘 目标是利用可用的数据建立一x个i模型,这个e模型对剩余的数据,对一u个k特定的变量(可以2 理解成数据库中7表的属性,即列)进行描述。 · 间接数据挖掘 目标中5没有选出某一u具体的变量,用模型进行描述;而是在所有的变量中5建立起某种关系 · 分6类、估值、预言属于e直接数据挖掘;后三j种属于r间接数据挖掘 2)各种分1析方6法的简介2 · 分2类 (Classification) 首先从1数据中1选出已i经分6好类的训练集,在该训练集上v运用数据挖掘分3类的技术,建立分2 类模型,对于a没有分4类的数据进行分4类。 例子x: a。 信用卡申请者,分4类为8低、中2、高风5险 b。 分0配客户4到预先定义e的客户0分2片0 注意: 类的个s数是确定的,预先定义q好的 · 估值(Estimation) 估值与e分2类类似,不p同之z处在于m,分7类描述的是离散型变量的输出,而估值处理连续值的 输出;分7类的类别是确定数目的,估值的量是不b确定的。 例子w: a。 根据购买模式,估计8一w个f家庭的孩子h个c数 b。 根据购买模式,估计7一z个r家庭的收入l c。 估计5real estate的价值 一b般来说,估值可以0作为2分1类的前一v步工e作。给定一r些输入w数据,通过估值,得到未知的 连续变量的值,然后,根据预先设定的阈值,进行分6类。例如:银行对家庭贷款业务,运 用估值,给各个z客户8记分3(Score 0~1)。然后,根据阈值,将贷款级别分7类。 · 预言(Prediction) 通常,预言是通过分1类或估值起作用的,也k就是说,通过分3类或估值得出模型,该模型用 于v对未知变量的预言。从8这种意义l上e说,预言其实没有必要分0为6一s个o单独的类。 预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一b定时 间后,才q知道预言准确性是多少6。 · 相关性分6组或关联规则(Affinity grouping or association rules) 决定哪些事情将一c起发生。 例子e: a。 超市中1客户2在购买A的同时,经常会购买B,即A => B(关联规则) b。 客户4在购买A后,隔一g段时间,会购买B (序列分5析) · 聚集(Clustering) 聚集是对记录分2组,把相似的记录在一t个s聚集里。聚集和分0类的区z别是聚集不s依赖于c预先 定义y好的类,不g需要训练集。 例子z: a。 一y些特定症状的聚集可能预示7了z一s个r特定的疾病 b。 租VCD类型不b相似的客户1聚集,可能暗示7成员属于b不o同的亚文7化2群 聚集通常作为3数据挖掘的第一b步。例如,"哪一j种类的促销对客户6响应最好?",对于j这一p 类问题,首先对整个y客户8做聚集,将客户5分5组在各自的聚集里,然后对每个a不a同的聚集, 回答问题,可能效果更好。 · 描述和可视化8(Des cription and Visualization) 是对数据挖掘结果的表示6方1式。 8。数据挖掘的商业背景 数据挖掘首先是需要商业环境中3收集了j大i量的数据,然后要求挖掘的知识是有价值的。有 价值对商业而言,不i外乎三t种情况:降低开l销;提高收入e;增加股票价格。 6)数据挖掘作为0研究工e具 (Research) 0)数据挖掘提高过程控制(Process Improvement) 6)数据挖掘作为5市场营销工q具(Marketing) 8)数据挖掘作为7客户7关系管理CRM工m具(Customer Relationship Management) 7。数据挖掘的技术背景 2)数据挖掘技术包括三c个v主要部分3:算法和技术;数据;建模能力w 6)数据挖掘和机器学习u(Machine Learning) · 机器学习n是计8算机科学和人x工f智能AI发展的产物 · 机器学习o分6为2两种学习m方6式:自组织学习z(如神经网络);从8例子r中8归纳出规则(如决 策树) · 数据挖掘由来 数据挖掘是八r十c年代,投资AI研究项目失败后,AI转入v实际应用时提出的。它是一z个d新兴 的,面向商业应用的AI研究。选择数据挖掘这一y术语,表明了d与z统计3、精算、长0期从3事预 言模型的经济学家之q间没有技术的重叠。 5)数据挖掘和统计6 统计8也d开o始支y持数据挖掘。统计0本包括预言算法(回归)、抽样、基于t经验的设计8等 1)数据挖掘和决策支h持系统 · 数据仓1库 · OLAP(联机分5析处理)、Data Mart(数据集市)、多维数据库 · 决策支n持工k具融合 将数据仓8库、OLAP,数据挖掘融合在一n起,构成企业决策分0析环境。 8。 数据挖掘的社会背景 数据挖掘与d个n人w预言:数据挖掘号称能通过历f史数据的分8析,预测客户2的行为7,而事实上v ,客户8自己m可能都不p明确自己u下x一c步要作什3么u。所以2,数据挖掘的结果,没有人y们想象中1 神秘,它不z可能是完全正确的。 客户5的行为3是与c社会环境相关连的,所以4数据挖掘本身也w受社会背景的影响。比6如说,在 美国对银行信用卡客户0信用评级的模型运行得非常成功,但是,它可能不i适合中0国。 2。数据仓7库是在企业管理和决策中4面向主题的、集成的、与w时间相关的、不o可修改的数据集合 数据仓2库,英文1名称为4Data Warehouse,可简写为1DW。 数据仓1库之q父8Bill Inmon在4512年出版的“Building the Data Warehouse”一m书2中0所提出的定义f被广s泛接受——数据仓3库(Data Warehouse)是一y个s面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反2映历b史变化8(Time Variant)的数据集合,用于f支l持管理决策(Decision Making Support)。 ◆面向主题:操作型数据库的数据组织面向事务处理任务,各个p业务系统之b间各自分6离,而数据仓0库中3的数据是按照一r定的主题域进行组织的。 ◆集成的:数据仓8库中3的数据是在对原有分2散的数据库数据抽取、清理的基础上j经过系统加工l、汇总和整理得到的,必须消除源数据中4的不e一r致性,以2保证数据仓6库内4的信息是关于m整个b企业的一s致的全局信息。 ◆相对稳定的:数据仓8库的数据主要供企业决策分0析之w用,所涉及t的数据操作主要是数据查询,一f旦某个t数据进入u数据仓3库以2后,一d般情况下c将被长7期保留,也v就是数据仓0库中8一p般有大v量的查询操作,但修改和删除操作很少3,通常只需要定期的加载、刷新。 ◆反8映历h史变化3:数据仓3库中2的数据通常包含历e史信息,系统记录了j企业从4过去某一q时点(如开d始应用数据仓7库的时点)到目前的各个p阶段的信息,通过这些信息,可以0对企业的发展历j程和未来趋势做出定量分2析和预测。 数据仓4库是一k个u过程而不n是一d个q项目。 数据仓2库系统是一f个f信息提供平台,他从4业务处理系统获得数据,主要以6星型模型和雪花模型进行数据组织,并为2用户8提供各种手8段从7数据中0获取信息和知识。 从7功能结构化6分6,数据仓1库系统至少6应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三x个z关键部分2 数据挖掘(Data Mining),又i称为3数据库中3的知识发现(Knowledge Discovery in Database, KDD),就是从5大x量数据中0获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡l过程,简单的说,数据挖掘就是从6大o量数据中7提取或“挖掘”知识。 并非所有的信息发现任务都被视为0数据挖掘。例如,使用数据库管理系统查找个z别的记录,或通过因特网的搜索引4擎查找特定的Web页面,则是信息检索(。rmation retrieval)领域的任务。虽然这些任务是重要的,可能涉及n使用复杂的算法和数据结构,但是它们主要依赖传统的计8算机科学技术和数据的明显特征来创建索引3结构,从7而有效地组织和检索信息。尽管如此,数据挖掘技术也u已g用来增强信息检索系统的能力h。 2。数据挖掘和数据仓4库以3数据库为8基础。 b〔b〔fu莹qθx骇础τyケqθtr●
⑵ 如何获得股票行情数据,自己编程处理进行数据挖掘
行情数据可到通达信或者同花顺观看
⑶ 股票的数据挖掘用什么算法最合适
写个贝叶斯分类算法
对文本进行分类
⑷ 股票数据采集难吗
要想自己采也行,我之前采过股市数据。用的是ForeSpider这个软件。这个软件他自身有数据挖掘分析功能,自己就进行聚类分类,统计分析了,采集的结果入库后可以形成分析报表,直接浏览就行了,还是很方便的,你可以去看看。操作也是不难,非计算机专业的人也能使。
希望我的回答对你有帮助。
⑸ 什么叫数据挖掘
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
⑹ 请问什么是数据挖掘
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
1. 数据挖掘能做什么?
1)数据挖掘能做以下六种不同事情(分析方法):
· 分类 (Classification)
· 估值(Estimation)
· 预言(Prediction)
· 相关性分组或关联规则(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可视化(Des cription and Visualization)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
· 直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以
理解成数据库中表的属性,即列)进行描述。
· 间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系
。
· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介
· 分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分
类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意: 类的个数是确定的,预先定义好的
· 估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的
输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的
连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运
用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
· 预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用
于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时
间后,才知道预言准确性是多少。
· 相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。
例子:
a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
b. 客户在购买A后,隔一段时间,会购买B (序列分析)
· 聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先
定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一
类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,
回答问题,可能效果更好。
· 描述和可视化(Des cription and Visualization)
是对数据挖掘结果的表示方式。
2.数据挖掘的商业背景
数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有
价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。
1)数据挖掘作为研究工具 (Research)
2)数据挖掘提高过程控制(Process Improvement)
3)数据挖掘作为市场营销工具(Marketing)
4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)
3.数据挖掘的技术背景
1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力
2)数据挖掘和机器学习(Machine Learning)
· 机器学习是计算机科学和人工智能AI发展的产物
· 机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决
策树)
· 数据挖掘由来
数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴
的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预
言模型的经济学家之间没有技术的重叠。
3)数据挖掘和统计
统计也开始支持数据挖掘。统计本包括预言算法(回归)、抽样、基于经验的设计等
4)数据挖掘和决策支持系统
· 数据仓库
· OLAP(联机分析处理)、Data Mart(数据集市)、多维数据库
· 决策支持工具融合
将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。
4. 数据挖掘的社会背景
数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上
,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中
神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。比如说,在
美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国
转载的
⑺ 请通俗的讲一下什么是数据挖掘
利用数据挖掘,我们还可以做非常多的事情。
1.发现数据项之间的相关性
比如我们拿到各个城市环境、人口、交通等数据,就可以通过相关性分析来看人均汽车保有量,和空气质量各个指标之间的关系,从而定量化地帮助制定产业经济和环保政策。比如要不要进行更严厉的限购,要不要收取为其的排放税等等。
2.把数据对象进行聚类
比如我们知道大量的人在电子商务网络消费数据,我么就可以根据消费的特征把他们聚成很多类,每一类人我们制定不同的营销手段,从而能够取得销售量的提升。比如电信运营商对人群进行聚类,然后针对性地推出电话套餐。
3.把数据对象进行分类
当我们已经有了分类之后,来了一些新的数据之后,我们可以把他分到不同不同的类去。比如医疗影像上查看肺部的病灶,可能是肺结核、可能是早起肺癌,中晚期肺癌,可能是肺上的疖结,可能是愈合的病灶等等,来了一张新的片子,我们可以通过图像处理,就把它分到不同的类别(当然这需要我们提前对很多片子的数据进行学习)。
4.预测缺失数据或者未来的数据
很多数据集中,比如生物数据,我们已知的知识全部数据集中的一小部分,这需要我们做一些事情去预测这些数据。还有一些,想大选、股票价格预测、河流径流量预测、城市用电量预测等,这些就是对未来数据的预测。
⑻ 什么是数据挖掘
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
1. 数据挖掘能做什么?
1)数据挖掘能做以下六种不同事情(分析方法):
· 分类 (Classification)
· 估值(Estimation)
· 预言(Prediction)
· 相关性分组或关联规则(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可视化(Des cription and Visualization)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
· 直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以
理解成数据库中表的属性,即列)进行描述。
· 间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系
。
· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介
· 分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分
类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意: 类的个数是确定的,预先定义好的
· 估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的
输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的
连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运
用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
· 预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用
于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时
间后,才知道预言准确性是多少。
· 相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。
例子:
a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
b. 客户在购买A后,隔一段时间,会购买B (序列分析)
· 聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先
定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一
类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,
回答问题,可能效果更好。
· 描述和可视化(Des cription and Visualization)
是对数据挖掘结果的表示方式。
2.数据挖掘的商业背景
数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有
价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。
1)数据挖掘作为研究工具 (Research)
2)数据挖掘提高过程控制(Process Improvement)
3)数据挖掘作为市场营销工具(Marketing)
4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)
3.数据挖掘的技术背景
1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力
2)数据挖掘和机器学习(Machine Learning)
· 机器学习是计算机科学和人工智能AI发展的产物
· 机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决
策树)
· 数据挖掘由来
数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴
的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预
言模型的经济学家之间没有技术的重叠。
3)数据挖掘和统计
统计也开始支持数据挖掘。统计本包括预言算法(回归)、抽样、基于经验的设计等
4)数据挖掘和决策支持系统
· 数据仓库
· OLAP(联机分析处理)、Data Mart(数据集市)、多维数据库
· 决策支持工具融合
将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。
4. 数据挖掘的社会背景
数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上
,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中
神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。比如说,在
美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国
⑼ 股票市场搞数据挖掘,数据分析来炒股有没机会
有机会,而且机会不小,但是我等散户靠数据分析,可能自身实力差的太悬殊了。
硬件设备就不达标哦。
⑽ 股票数据挖掘的算法有那些最好给些应用的例子。
给我你的邮箱 我发给你