学习数据挖掘和数据科学的7个步骤
您可以通过这种方式最好地学习数据挖掘和数据科学,因此请尽快开始分析数据!但是,不要忘记学习这个理论,因为你需要一个良好的统计和机器学习基础来理解你在做什么,并在大数据的噪音中找到真正的价值。
以下是学习数据挖掘和数据科学的七个步骤。虽然它们已编号,但您可以并行或以不同顺序执行。
语言:学习R,Python和SQL
工具:了解如何使用数据挖掘和可视化工具
教科书:阅读入门教材以了解基础知识
教育:观看网络研讨会,参加课程并考虑数据科学的证书或学位(阅读更多Ben Lorica的“ 如何培养数据科学家”。)
数据:检查可用的数据资源并在那里找到一些东西
比赛:参加数据挖掘比赛
通过社交网络,小组和会议与其他数据科学家互动
在本文中,我可以互换地使用数据挖掘和数据科学。请参阅我的演示文稿,分析行业概述,其中我将介绍统计,知识发现,数据挖掘,预测分析,数据科学和大数据等不同术语的演变和流行。
1.学习语言
最近的KDnuggets民意调查发现,最流行的数据挖掘语言是R,Python和SQL。每个都有许多资源,例如:
免费的数据科学电子书与R
Python数据科学入门
用于数据分析的Python:用于真实世界数据的敏捷工具
不可或缺的Python:数据采集到数据科学
W3学校的学习SQL
2.工具:数据挖掘,数据科学和可视化软件
有许多用于不同任务的数据挖掘工具,但最好学习如何使用支持整个数据分析过程的数据挖掘套件。您可以从开源(免费)工具开始,例如KNIME,RapidMiner和Weka。
但是,对于许多分析工作,您需要了解SAS,这是领先的商业工具并广泛使用。其他流行的分析和数据挖掘软件包括MATLAB,StatSoft STATISTICA,Microsoft SQL Server,Tableau,IBM SPSS Modeler和Rattle。
可视化是任何数据分析的重要组成部分。了解如何使用Microsoft Excel(适用于许多更简单的任务),R图形(尤其是ggplot2)以及Tableau - 一个出色的可视化包。其他优秀的可视化工具包括TIBCO Spotfire和Miner3D。
3.教科书
有许多数据挖掘和数据科学教科书可供选择,但您可以查看以下内容:
数据挖掘和分析:基本概念和算法,免费PDF下载(草稿),由Mohammed Zaki和Wagner Meira Jr.撰写。
数据挖掘:实用机器学习工具和技术,来自Weka的作者Ian Witten,Eibe Frank和Mark Hall,并在示例中广泛使用Weka
统计学习,数据挖掘,推理和预测的要素,由Trevor Hastie,Robert Tibshirani,Jerome Friedman撰写。数学导向的一个很好的介绍
LIONbook:学习和智能优化,由Roberto Battiti和Mauro Brunato提供,可在网上免费获取,逐章
大规模数据集的挖掘,由A. Rajaraman,J。Ullman撰写
StatSoft电子统计教科书(免费),包括许多数据挖掘主题
4.教育:网络研讨会,课程,证书和学位
您可以先观看一些关于分析,大数据,数据挖掘和数据科学等最新主题的免费网络研讨会和网络广播。
还有许多在线课程,短期和长期,其中许多是免费的。
特别检查这些课程:
在Coursera的机器学习,由Andrew Ng教授
从 edX的数据中学习,由加州理工学院教授Yaser Abu-Mostafa教授
从Syracuse iSchool 开放应用数据科学在线课程
使用Weka进行数据挖掘,免费在线课程
还可以查看我的数据挖掘课程的免费在线幻灯片,这是一个为期一学期的数据挖掘入门课程
最后,考虑获得数据挖掘,数据科学或高级学位的证书,例如数据科学硕士学位。
5.数据
您将需要分析数据 - 请参阅数据集的数据集的KDnuggets目录,包括:
政府,联邦,州,城市,本地和公共数据站点和门户网站
数据API,集线器,市场,平台,门户和搜索引擎
免费的公共数据集
6.比赛
再次,您最好通过实践来学习,所以参加Kaggle比赛。从初学者比赛开始,例如使用机器学习预测泰坦尼克号生存。
7.互动:会议,团体和社交网络
您可以加入许多对等组。查看分析,大数据,数据挖掘和数据科学的前30个LinkedIn群组。
AnalyticBridge是一个活跃的分析和数据科学社区。
您可以参加许多有关分析,大数据,数据挖掘,数据科学和知识发现的会议和会议。
此外,考虑加入ACM SIGKDD,该组织每年举办一次KDD会议 - 该领域的领先研究会议。