大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
特点:大量、高速、多样、低价值密度、真实性。
应用:大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
技术:数据收集、数据存取、基础架构、数据处理、统计分析、、模型预测、结果呈现。
相关解释
数据挖掘 (data mining):数据挖掘关乎如下过程,从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。在数据挖掘中,你将会先对数据进行挖掘,然后对这些得到的结果进行分析。为了得到有意义的模式 (pattern),数据挖掘人员会使用到统计学 (一种经典的旧方法)、机器学习算法和人工智能。
etl:etl 代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗 / 丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使 etl 源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。
hadoop:当人们思考大数据的时候,他们会立即想到 hadoop。hadoop 是一个开源软件架构,它由 hadoop 分布式文件系统 (hdfs) 构成,它允许使用分布式硬件对大数据进行存储、抽象和分析。
机器学习 (machine learning):机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法,它们持续地逼近「正确的」行为和想法,随着更多的数据被输入到系统,它们能够进一步提升。
行为分析 (behavioral analytics):用户行为分析,是指在获得网站或 app 等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或 app 等平台的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。这是狭义的只指网络上的用户行为分析。
商业智能 (business intelligence):商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。