学习数据挖掘和数据科学的7个步骤

资讯2020-08-27 16:44:06
导读您可以通过这种方式最好地学习数据挖掘和数据科学,因此请尽快开始分析数据!但是,不要忘记学习这个理论,因为你需要一个良好的统计和机

您可以通过这种方式最好地学习数据挖掘和数据科学,因此请尽快开始分析数据!但是,不要忘记学习这个理论,因为你需要一个良好的统计和机器学习基础来理解你在做什么,并在大数据的噪音中找到真正的价值。

以下是学习数据挖掘和数据科学的七个步骤。虽然它们已编号,但您可以并行或以不同顺序执行。

语言:学习R,Python和SQL

工具:了解如何使用数据挖掘和可视化工具

教科书:阅读入门教材以了解基础知识

教育:观看网络研讨会,参加课程并考虑数据科学的证书或学位(阅读更多Ben Lorica的“ 如何培养数据科学家”。)

数据:检查可用的数据资源并在那里找到一些东西

比赛:参加数据挖掘比赛

通过社交网络,小组和会议与其他数据科学家互动

在本文中,我可以互换地使用数据挖掘和数据科学。请参阅我的演示文稿,分析行业概述,其中我将介绍统计,知识发现,数据挖掘,预测分析,数据科学和大数据等不同术语的演变和流行。

1.学习语言

最近的KDnuggets民意调查发现,最流行的数据挖掘语言是R,Python和SQL。每个都有许多资源,例如:

免费的数据科学电子书与R

Python数据科学入门

用于数据分析的Python:用于真实世界数据的敏捷工具

不可或缺的Python:数据采集到数据科学

W3学校的学习SQL

2.工具:数据挖掘,数据科学和可视化软件

有许多用于不同任务的数据挖掘工具,但最好学习如何使用支持整个数据分析过程的数据挖掘套件。您可以从开源(免费)工具开始,例如KNIME,RapidMiner和Weka。

但是,对于许多分析工作,您需要了解SAS,这是领先的商业工具并广泛使用。其他流行的分析和数据挖掘软件包括MATLAB,StatSoft STATISTICA,Microsoft SQL Server,Tableau,IBM SPSS Modeler和Rattle。

可视化是任何数据分析的重要组成部分。了解如何使用Microsoft Excel(适用于许多更简单的任务),R图形(尤其是ggplot2)以及Tableau - 一个出色的可视化包。其他优秀的可视化工具包括TIBCO Spotfire和Miner3D。

3.教科书

有许多数据挖掘和数据科学教科书可供选择,但您可以查看以下内容:

数据挖掘和分析:基本概念和算法,免费PDF下载(草稿),由Mohammed Zaki和Wagner Meira Jr.撰写。

数据挖掘:实用机器学习工具和技术,来自Weka的作者Ian Witten,Eibe Frank和Mark Hall,并在示例中广泛使用Weka

统计学习,数据挖掘,推理和预测的要素,由Trevor Hastie,Robert Tibshirani,Jerome Friedman撰写。数学导向的一个很好的介绍

LIONbook:学习和智能优化,由Roberto Battiti和Mauro Brunato提供,可在网上免费获取,逐章

大规模数据集的挖掘,由A. Rajaraman,J。Ullman撰写

StatSoft电子统计教科书(免费),包括许多数据挖掘主题

4.教育:网络研讨会,课程,证书和学位

您可以先观看一些关于分析,大数据,数据挖掘和数据科学等最新主题的免费网络研讨会和网络广播。

还有许多在线课程,短期和长期,其中许多是免费的。

特别检查这些课程:

在Coursera的机器学习,由Andrew Ng教授

从 edX的数据中学习,由加州理工学院教授Yaser Abu-Mostafa教授

从Syracuse iSchool 开放应用数据科学在线课程

使用Weka进行数据挖掘,免费在线课程

还可以查看我的数据挖掘课程的免费在线幻灯片,这是一个为期一学期的数据挖掘入门课程

最后,考虑获得数据挖掘,数据科学或高级学位的证书,例如数据科学硕士学位。

5.数据

您将需要分析数据 - 请参阅数据集的数据集的KDnuggets目录,包括:

政府,联邦,州,城市,本地和公共数据站点和门户网站

数据API,集线器,市场,平台,门户和搜索引擎

免费的公共数据集

6.比赛

再次,您最好通过实践来学习,所以参加Kaggle比赛。从初学者比赛开始,例如使用机器学习预测泰坦尼克号生存。

7.互动:会议,团体和社交网络

您可以加入许多对等组。查看分析,大数据,数据挖掘和数据科学的前30个LinkedIn群组。

AnalyticBridge是一个活跃的分析和数据科学社区。

您可以参加许多有关分析,大数据,数据挖掘,数据科学和知识发现的会议和会议。

此外,考虑加入ACM SIGKDD,该组织每年举办一次KDD会议 - 该领域的领先研究会议。

免责声明:本文由用户上传,如有侵权请联系删除!