数据科学还是机器学习 以下是如何发现差异
在这个人工智能和数据管理的新世界中,很容易被IT世界中最常用的一些术语搞糊涂。例如,数据科学和机器学习有很多相互关系。毫不奇怪,许多只有这些学科知识的人才会弄清楚他们之间的差异。这是将数据科学与机器学习分离的最佳方式,作为原则和技术方法。
数据科学与机器学习:广泛而狭隘的术语
首先,数据科学实际上是一个广泛的,总体的技术类别,涵盖了许多不同类型的项目和创作。(有关数据科学工作涉及的更多信息,请参阅工作角色:数据科学家。)
数据科学本质上是处理大数据的实践。它出现了摩尔定律,更高效的存储设备的激增导致公司和其他各方收集了大量数据。然后,像Hadoop这样的大数据平台和工具开始通过改变数据管理的工作方式来重新定义计算。现在,随着云和集装箱化以及全新的模型,大数据已经成为我们工作和生活方式的主要驱动力。
在最简单的形式中,数据科学是我们管理数据的方式,从清理和改进数据到以洞察力的形式使用。
机器学习的定义要窄得多。在机器学习中,技术接收数据并将其通过算法,以模拟被称为“学习”的人类认知过程。换句话说,在接收数据并对其进行训练之后,计算机能够提供自己的结果这项技术似乎是从程序员实施的过程中学到的。
数据科学与机器学习技能集
对比数据科学和机器学习的另一种方法是查看对这些领域中的任何一个领域的专业人员最有价值的不同技能。
有一个普遍的共识是数据科学家深入分析的数学技能中受益,实践有经验的数据库技术和知识的编程语言一样的Python或其他程序包,用于分析大数据。
“任何有兴趣在(数据科学)建立强大职业生涯的人都应该获得三个部门的关键技能:分析,编程和领域知识,” Simplilearn的Srihari Sasikumar写道。“走出去更深一层,下面的技巧将帮助你闯出一片新天地作为一个数据科学家:Python中,SAS的强大的知识- [R (和)斯卡拉,动手的经验SQL数据库编码,能力与工作非结构化数据从各种来源,如视频和社交媒体,了解多种分析功能(和)机器学习知识。“
在机器学习方面,专家经常引用数据建模技巧,概率和统计知识以及更广泛的编程技能作为机器学习工程师工具包中的有用工具。
如何发现机器学习
关键在于各种各样的事情都包含数据科学工作,但它不是机器学习,除非你有一个非常严格的方案来帮助计算机从输入中学习。
当它到位时,它会产生一些令人惊讶的能够对我们的生活产生广泛影响的系统。
据报道,亚马逊创始人杰夫贝索斯说,“我们在机器学习方面所做的很多事情都发生在表面之下” ,并指出了这些类型系统的一些应用。“机器学习驱动我们的算法,用于需求预测,产品搜索排名,产品和交易建议,商品展示位置,欺诈检测,翻译等等。虽然不太明显,但机器学习的大部分影响都属于这种类型 - 悄然但有意义地改善核心运营。“
这里最有用的例子之一是神经网络的出现- 它是建立机器学习过程的常用且流行的方法。
在其最基本的形式中,神经网络由人造神经元层组成。每个人工神经元都具有与生物神经元相当的功能 - 但它不是突触和树突,而是具有输入,激活功能和最终输出。
神经网络就像人脑一样,机器学习专业人员经常利用这个模型来创建机器学习结果。
但是,这不是进行机器学习的唯一方法。一些更基本的机器学习项目只包括向计算机展示各种照片(或提供其他原始数据),通过使用监督机器学习和标签数据的过程输入想法,并使计算机最终能够区分视野中的各种形状或物品。
两个前沿学科
总之,机器学习是数据科学的重要组成部分。但数据科学代表着更广阔的前沿和机器学习发生的背景。
在某种程度上,你可以说没有大数据就永远不会发生机器学习。然而,大数据本身并没有创造机器学习 - 相反,在我们集体汇总了如此多的数据以至于我们几乎不知道如何处理它之后,顶尖的思想家们想出了这些生物模拟过程作为增压方式提供见解。
另外要记住的一件好事是,数据科学可以通过两种主要方式应用 - 我们可以拥抱机器学习和人工智能,让计算机为我们思考,或者我们可以将数据科学带回更加以人为本的方法,计算机简单地呈现结果,我们作为人类做出决定。
这导致一些专家,包括当今的一些顶级创新者,要求对我们使用这些技术的方式进行更有活力的说明。
“(AI)的能力远远超过几乎所有人都知道,并且改进的速度是指数级的,”Elon Musk 被引述说,同时警告机器学习和AI程序需要监督。
无论如何,数据科学和机器学习都是我们社会今天在技术方面取得进步的核心部分。