数据科学领域全景

首页 2021-04-22 13:30

入门尝试在复杂领域中提供结构和参考点

数据科学领域全景

> Photo by Shahadat Rahman on Unsplash

1.介绍

数据是21世纪的新石油-信息时代。

这种表述概括了这样一个事实,即从数据中提取洞察力对于大多数企业而言已变得至关重要。这种趋势是数据科学快速增长的根本驱动力。

但是,在该领域中应用的各个学科和术语仍然存在很多不确定性。处理与数据科学相关的问题可能会令人生畏,尤其是对于非技术主管而言。这篇简短的文章试图阐明数据科学领域及其学科,并提供一些结构和参考点。

2.数据科学领域

数据科学是计算机科学的一部分[1]。

它包括以下学科:i)分析,ii)统计和iii)机器学习。

数据科学领域全景

> The Data Science Landscape — Source: Own Illustration

2.1。分析工具

Analytics(分析)通过简单的数据表示,操作,计算或可视化从数据中产生见解。在数据科学的背景下,它有时也称为探索性数据分析。它经常用于使您熟悉主题并获得一些初步提示以进行进一步分析的目的。为此,分析通常用于为数据科学项目提出适当的问题。

分析的局限性在于它不一定为因果关系提供任何确凿的证据。而且,分析过程通常是人工执行的手动且耗时的过程,自动化的机会有限。在当今的商业世界中,即使更复杂的分析学科可以提供更大的价值,例如分析价值自动扶梯中列出的那些,许多公司也不会超出描述性分析的范围。

2.2。统计

在许多情况下,分析可能足以解决给定的问题。在其他情况下,此问题更为复杂,需要采用更复杂的方法来提供答案,尤其是在不确定情况下要做出重大决策的情况下。这是统计开始起作用的时候。统计学提供了一种方法论方法,可以以一定的置信度来回答分析师提出的问题。

分析师可以帮助您解决问题,而统计学家则可以为您带来很好的答案。统计人员提出了严谨的要求。

有时,简单的描述性统计数据足以提供必要的见解。然而,在其他情况下,需要更复杂的推论统计信息(例如回归分析)来揭示某种现象的因果关系[2]。统计数据的局限性在于,传统上它是使用SPSS和SAS等软件包进行的,这需要统计学家或受过培训的专业人员针对特定问题进行不同的计算。自动化程度相当有限。

2.3。机器学习

人工智能是指机器可以执行通常需要人类智能的任务的广泛思想,例如视觉感知,语音识别,决策和语言之间的翻译。在数据科学的背景下,机器学习可以被视为与决策有关的人工智能领域。实际上,机器学习最基本的形式就是大规模决策。机器学习是计算机算法的研究领域,计算机算法允许计算机程序识别并从数据中提取模式。因此,机器学习算法的一个共同目的是对数据进行概括和学习,以执行某些任务[3]。

在传统编程中,将输入数据应用于模型和计算机,以实现所需的输出。在机器学习中,将算法应用于输入和输出数据,以识别最合适的模型。因此,机器学习可以为传统编程提供补充,因为它可以提供一种有用的模型来解释现象。

数据科学领域全景

Traditional Programming vs. Machine Learning — Source: Own illustration adapted from Prince Barpaga

2.4。机器学习与数据挖掘

机器学习和数据挖掘这两个术语紧密相关,并且经常互换使用。数据挖掘是一个早于机器学习当前领域的概念。数据挖掘的想法(在学术背景下也称为数据库知识发现(KDD))在1980年代末和1990年代初出现时,当时就需要分析大型数据集[3]。本质上,数据挖掘是指一种利用机器学习算法从数据中提取见解的结构化方法。主要区别在于,数据挖掘是一个相当人工的过程,需要人工干预和决策,而机器学习(除了初始设置和微调之外)在很大程度上独立运行[4]。

2.5。组织机器学习世界

机器学习的世界非常复杂,一开始很难掌握。监督程度以及ML问题的类型被认为对提供某些结构特别有用。

2.5.1。有监督和无监督学习

大多数机器学习算法可以分为有监督的学习和无监督的学习。这些类型的机器学习之间的主要区别在于,对包含输入和输出数据的数据进行监督学习。它通常也称为"标签数据",其中标签是目标属性。因此,该算法可以通过检查正确的输出值来验证其模型。通常,监督式机器学习算法是回归和分类分析。相反,在无监督机器学习中,数据集不包含目标属性。因此,数据没有标签。无监督学习最常见的类型是聚类分析[3]。

除了监督和非监督机器学习算法的主流之外,还有其他变化,例如半监督和强化学习算法。在半监督学习中,少量标记的数据用于支持大量未标记的数据。强化学习通过奖励系统训练算法,当人工智能代理在特定情况下执行最佳操作时提供反馈[5]。

2.5.2。机器学习问题的类型-回归,分类和聚类

为了构建机器学习领域,通常将大量的ML算法按功能(工作方式)的相似性进行分组。基于树和神经网络的方法。考虑到大量不同的算法,这种方法相当复杂。取而代之的是,按应解决的问题类型对ML算法进行分组更有用。机器学习问题最常见的类型是回归,分类和聚类。有许多特定的ML算法,其中大多数都有许多不同的变种来解决这些问题。一些算法能够解决多个问题。

2.5.2.1。回归

回归是一种监督的机器学习方法。回归用于预测连续值。回归分析的结果是一个公式(或模型),该公式描述了一个或多个独立变量和相关目标值。回归模型有很多不同类型,例如线性回归,物流回归,岭回归,套索回归和多项式回归。但是,到目前为止,进行预测的最流行模型是线性回归模型。单变量线性回归模型的基本公式如下所示:

数据科学领域全景

> Linear Regression Formula — Source: Own illustration adapted from RPubs

其他回归模型尽管与线性回归有相似之处,但它们更适合分类,例如逻辑回归[1]。回归问题,即预测或预测数值,也可以通过受生物神经网络的结构和/或功能启发的人工神经网络来解决。它们是一个巨大的子领域,包含数百种通常用于回归和分类问题的算法和变体。如果存在大量变量,则与回归模型相比,首选神经网络。像人工神经网络一样,回归和分类任务也可以通过k最近邻居算法来完成。

2.5.2.2。分类

分类是根据一组输入属性的值预测实例的目标属性的值的任务,其中目标属性是标称或有序数据类型。因此,虽然通常将回归用于数值数据,但是将分类用于对非数值数据进行预测。决策树是最受欢迎的算法之一。其他算法是人工神经网络,k最近邻和支持向量机。由多层组成的神经网络称为深度学习模型[3]。

数据科学领域全景

> Deep Learning Model — Source: Researchgate

2.5.2.3。聚类

聚类分析或聚类是无监督的机器学习任务。它涉及自动发现未标记数据中的自然模式。与监督学习不同,聚类算法仅分析输入数据,目的是识别共享相似属性的数据点。K-均值聚类是最常用的聚类算法。它是基于质心的算法,也是最简单的无监督学习算法。该算法试图使群集中数据点的方差最小。

数据科学领域全景

> Clustering Model — Source: Adapted from Luigi Fiori

3.数据科学工具包

数据科学家使用各种各样的工具。在业务环境中,电子表格仍然非常占主导地位。对于探索性数据分析,可视化工具(例如Tableau和Microsoft Power BI)对于获得数据的理解和视觉印象很有用。对于统计,有许多已建立的统计软件包,例如SAS和SPSS。机器学习通常使用编程语言进行。机器学习最流行的语言是Python,C / C ++,Java,R和Java Script。上面提到的大多数工具都可以用于与数据科学相关的各种任务。例如,R编程语言主要是为统计应用程序而构建的。因此,它非常适用于统计任务以及使用流行的R包ggplot2进行的可视化。

4.数据科学过程

跨行业数据挖掘标准过程(CRISP-DM)是一个具有六个阶段的过程模型,自然地描述了数据科学生命周期。它是计划,组织和实施数据科学项目的框架。

它包括以下步骤:

· 业务了解-业务需要什么?

· 数据理解-我们拥有/需要什么数据?干净吗

· 数据准备-我们如何组织数据以进行建模?

· 建模-我们应采用哪些建模技术?

· 评估-哪种模型最符合业务目标?

· 部署-利益相关者如何获取结果?

数据科学领域全景

> The CRISP-DM Process — Source: Own Illustration adapated from Datascience-PM

该方法于1996年构思,成为业界如何最佳执行数据科学项目的标准方法。CRISP-DM过程不是线性过程,而是迭代过程。它评估了数据科学项目的各个方面,从而显着提高了成功完成数据的机会。因此,大多数项目经理和数据科学家都采用这种方法[6]。

5.成功原则

最后,有几个因素可以决定数据科学项目是否成功。首先,在初始阶段,至关重要的是,所有相关利益方都清楚潜在的业务问题。其次,必须为数据准备阶段分配足够的时间,这通常占大多数项目所花费的大部分时间。第三,数据科学家必须选择正确的变量。理想情况下,模型应仅包含尽可能少的具有相关解释力的变量。因此,特征选择的过程很重要,以便在降低模型噪声的同时最大化性能。

"不重要或部分相关的功能可能会对模型性能产生负面影响"。

第四,应避免模型的过拟合和欠拟合,因为过拟合会导致总体上较差的性能和较高的预测误差,而过拟合会导致较差的泛化和较高的模型复杂性。最后,必须以非技术人员可以理解的方式传达数据科学项目的结果。通信数据的合适方法是使用可视化技术。在业务环境中,提供数据的一个很好的参考是国际业务通信标准(IBCS)。

6.总结

数据科学是一个复杂且发展迅速的领域,具有独特的术语。这种贡献试图阐明术语,各个学科以及数据科学过程。Prezemek Chojecki以及Claire D. Costa提供了进一步阅读的指南。

文学

[1] O. Theobald,《面向绝对初学者的机器学习:简单的英语入门》(2018年),独立出版

[2] D. Spiegelhalter,《统计的艺术-从数据中学习》(2019年),企鹅

[3] J. Kelleher和B. Tierney,数据科学(2018年),麻省理工学院出版社的基本知识丛书

[4] Juhi Ramzai,明确解释:机器学习与数据挖掘有何不同(2020年),迈向数据科学

[5] Isha Salian,SuperVize Me:有监督,无监督,半监督和强化学习之间有什么区别?(2018),Nvidia博客

[6]以色列Rodriguez,CRISP-DM数据挖掘和大数据方法论负责人(2020年),迈向数据科学

(本文由闻数起舞翻译自Md Kamaruzzaman的文章《The Data Science Landscape》,转载请注明出处,原文链接:
https://towardsdatascience.com/the-data-science-landscape-f6f7842c9865)