什么是数据挖掘
数据挖掘是利用复杂的计算机算法,通过对海量数据的统计、分析、搜索等技术手段,从中发现有价值的、有用的、有意义的和隐藏的知识信息的一种过程,从而提升企业的管理能力及决策水平,实现企业经营及科学研究的过程。
数据挖掘具有跨学科性质,依赖于不同的学科,特别是计算机科学、数学、统计学、信息技术、管理学和经济学,数据挖掘利用大数据中的有价值的信息,通过有效的数据处理以及有效的分析手段,进行深入的挖掘,发现和分析隐藏的关联、模式及结构,以解决实际问题,解决实际问题,检索高价值的信息。
传统的数据挖掘技术主要表现为矿山技术(Mining),它涉及数据库中隐藏的关系及关联,如数据挖掘分类、回归、聚类、关联规则、水平度分析等技术。其中,数据挖掘的分类技术,是解决归纳性推论问题的核心技术,即从已知的样本案例中学习将要遇到的新案例进行分类把握。
目前,数据挖掘领域还出现了更新动态及技术研究,如智能运筹及其他新领域,如预测分析、模式推理能力、人工智能、信息可视化等技术,这些技术使数据挖掘能够更加快捷有效地实现,以应用于企业经济决策等领域,大大提升企业经营效率及科学研究的水平。
在大数据时代,数据挖掘有着更广泛的应用前景,它可以应用于市场分析、营销管理、影响机器学习、推荐系统的研发等诸多领域。目前,在已经有强大的计算机、软件及大量的海量数据的前提下即可实现数据挖掘技术的应用,同时,数据挖掘也可以在多种应用程序中运用,如搜索引擎、电子商务及政府等行业。同时,大数据技术也将与其他技术,如机器学习、人工智能等技术相结合,在后大数据时代拥有更多的发展前景。
数据挖掘技术
数据挖掘技术是一种从大量数据中发现有用信息的技术,它把“挖掘”的概念限定于数据的领域,而“挖掘”本身就是指对物体发掘情况进行研究、分析或开发新物体的行为。数据挖掘技术结合了人工智能、机器学习、数据建模和知识发现等多种技术,利用计算机技术从大型数据库、基本存储库等大量广义数据源中发现有价值和有用的信息,从而提取出这些信息的有用内容和价值,从而为业务管理层、决策人员和科学家提供数据支持。
数据挖掘技术在实际的应用过程中,可以有多种应用模式,其中最常见的模式有:预测/关系性挖掘、集群分析、关联规则挖掘、时间序列分析以及异常值处理等。预测模式主要是利用历史事件或数据得出未来某一时间点的预测值;关系性挖掘是对数据特征的关系性挖掘,它的目的是找出用于确定结果的决定性因素;集群分析主要是利用聚类、分组、联系等方法对数据进行分析;关联规则挖掘的目的是找出一系列的事件或者规律;时间序列分析则就是对时间序列数据的分析,它主要分析数据集中数据随时间的变化趋势;异常值处理可以说是数据挖掘技术应用的一个重要技术环节,它是将不符合一定规律的数据点排除出去,并发现他们的规律。
除了上述模式以外,数据挖掘技术还有许多分支技术和技术手段,例如,有机器学习、矢量机、模糊逻辑模型等,这些技术都可以用来帮助实现数据挖掘过程中的技术要求。为了获得最好的结果,数据挖掘过程中还使用了先进的数据分析技术,如数据集成、数据采样、模型融合等,以及丰富的数据挖掘工具,如WEKA、SAS、KNIME等。
数据挖掘技术在当今大数据密集型科学中发挥着重要的作用,它可以从有序的数据集中找出隐含的有用信息,有助于业务决策的信息建模和知识发现,并为数据分析师和从业者提供可靠的数据支持服务,从而有效的帮助用户管理大量的数据,并能有效的做出正确的决策。