数据挖掘什么专业?
数据挖掘,从广义上来说,属于计算机科学的一个分支; 从狭义上来说,它是利用各种分析方法从数据库中抽取信息加以处理并得出有价值结果的过程。 也就是说,数据挖掘是从大量数据中抽取有用信息和知识的过程。这个“大量数据”可以是特定主题的(如电子商务、移动设备等),也可以是由多个不同领域或行业的数据组合而成。 由于互联网的广泛使用,世界各地数据的快速流动和积累,以及云计算的不断深入,大数据的研究日益受到关注。目前,大数据还属于一个比较新的概念。与大数据相关的技术、产品、服务正在不断涌现,市场潜力巨大。 大数据的特点主要有:
(1)大规模(Volume)。所谓规模,是指数据体量的大,数据量往往是PB(百万亿级)数量级。在对海量数据进行存储和管理的同时,还需要有高效的数据处理算法和支持工具。
(2)多样化(Variety)。数据的来源广泛多样,不仅仅包括传统的结构化数据,还包括大量的非结构化及半结构化的数据。这些数据的类型包括了文本、图像、音频、视频和数据等多种媒体类型。不同数据类型的特征和处理方式各不相同,对数据分析的处理要求也各不相同。在大数据分析的过程中需要同时考虑多种数据类型的特点。
(3)快速实时性(Velocity)。大多数的现代数据都是在高速地更新着,比如社交网络上的数据,互联网流量的数据等等,它们都具有高频率更新的特性。对于实时的数据分析处理在满足时效性的前提下,还要保证其结果的准确性。
(4)价值(Value)。通过对大量数据的研究和分析,发现其中所隐藏的价值所在,从而为决策提供支持,创造价值。
学习数据挖掘要掌握的基础知识包括统计学、机器学习、优化理论、人工智能、可视化等技术。 目前开设数据挖掘专业的院校比较少,开设的相关课程也不多。所以学习的知识点相对较广而不深。很多学校的数据挖掘专业是以统计学专业为基础设立的,所以学习起来跟统计学专业也有一定的联系。 主要学习的内容可能有:
(一)数据挖掘基础(知识) 什么是数据挖掘、数据挖掘的任务、数据挖掘的应用、数据挖掘的技术等。
(二)数据库系统(知识) 数据库基本概念、数据库系统的构成、数据库系统的相关技术等。
(三)数据收集与整理(能力) 数据挖掘中有关数据的问题解决、数据清洗与整理、数据编码等。 (四)统计分析与处理(方法) 描述统计分析、推论统计分析、参数估计、假设检验、方差分析、卡方检验、相关分析、回归分析等。
(五)数据挖掘模型(方法) CART树模型、随机森林模型、支持向量机模型、神经网络模型、聚类分析模型、分类与预测模型等。
(六)实用项目经验(实战) 数据分析案例实战、数据挖掘软件实战、Python编程实战等。 除了以上六方面之外,还有一些其他的基础学科也需要具备一定的知识储备,才能顺利学习 data mining这一专业知识。