无监督学习主要用于发现模式和检测数据中的异常值

人工智能2020-08-24 19:28:17
导读 尽管有监督的机器学习和深度学习取得了成功,但有一种思想流派认为无监督学习具有更大的潜力。监督学习系统的学习受到培训的限制; 也就

尽管有监督的机器学习和深度学习取得了成功,但有一种思想流派认为无监督学习具有更大的潜力。监督学习系统的学习受到培训的限制; 也就是说,有监督的学习系统只能学习它所训练的那些任务。相比之下,无监督系统理论上可以实现“人工一般智能”,这意味着能够学习人类可以学习的任何任务。但是,该技术还没有。

如果监督学习的最大问题是标记训练数据的费用,那么无监督学习(数据未标记)的最大问题是它通常不能很好地工作。然而,无监督学习确实有其用途:有时可以有利于减少数据集的维度,探索数据的模式和结构,查找类似对象的组,以及检测数据中的异常值和其他噪声。

一般而言,值得尝试无监督学习方法作为探索性数据分析的一部分,以发现模式和聚类,减少数据的维度,发现潜在的特征,以及删除异常值。您是否需要继续进行监督学习或使用预先训练的模型进行预测取决于您的目标和数据。

什么是无监督学习?

想想人类孩子的学习方式。作为家长或老师,您不需要向幼儿展示每一种狗和猫,他们都应该教他们识别狗和猫。他们可以从一些例子中学习,没有大量的解释,并自己概括。哦,他们第一次看到吉娃娃“Kitty”时可能会错误地叫它,但你可以相对快速地纠正它。

孩子们直观地将他们看到的一些东西归入课堂。无监督学习的一个目标实质上是允许计算机开发相同的能力。正如DeepMind的Alex Graves和Kelly Clancy在他们的博客文章“ 无监督学习:好奇的学生 ”中所说的那样。

无监督学习是一种范例,旨在通过奖励代理(即计算机程序)来创建自主智能,以便在不考虑特定任务的情况下了解他们观察到的数据。换句话说,代理人为了学习而学习。

为学习而学习的代理的潜力远远大于将复杂图片简化为二元决策(例如狗或猫)的系统。发现模式而不是执行预先定义的任务可以产生令人惊讶和有用的结果,正如劳伦斯伯克利实验室的研究人员在数百万种材料科学摘要上运行文本处理算法(Word2vec)以预测新热电材料的发现所证明的那样。

聚类方法

聚类问题是无监督学习问题,要求模型找到类似数据点的组。目前有许多聚类算法正在使用,它们往往具有略微不同的特征。通常,聚类算法查看数据点的特征向量之间的度量或距离函数,然后将彼此“接近”的那些进行分组。如果类不重叠,则聚类算法最有效。

分层聚类分析(HCA)可以是凝聚性的(您从单个点开始自下而上,以单个聚类开始构建聚类)或分裂(从单个聚类开始并将其分解,直到您结束单个点)。如果您很幸运,您可以找到反映有意义分类的聚类过程的中间阶段。

聚类过程通常显示为树形图(树形图)。HCA算法往往需要大量的计算时间[ O(n 3)]和内存[ O(n 2)]资源; 这些限制了算法对相对较小的数据集的适用性。

HCA算法可以使用各种度量和链接标准。欧几里德距离和平方欧几里德距离对于数值数据都是常见的; 汉明距离和Levenshtein距离对于非数字数据是常见的。单连杆和完全连杆是常见的; 这两者都可以简化聚类算法(分别是SLINK和CLINK)。SLINK是为数不多的保证找到最佳解决方案的聚类算法之一。

K均值聚类

k均值聚类问题试图使用欧几里德距离度量将n个观测值划分为k个聚类,目的是最小化每个聚类内的方差(平方和)。它是一种矢量量化方法,对特征学习很有用。

Lloyd的算法(具有质心更新的迭代聚类聚集)是用于解决问题的最常用的启发式算法,并且相对有效,但不保证全局收敛。为了改善这种情况,人们经常使用Forgy或Random Partition方法生成的随机初始聚类质心多次运行算法。

K-means假定球形簇是可分离的,以便平均值朝向簇中心收敛,并且还假设数据点的排序无关紧要。预计群集的大小相似,因此分配到最近的群集中心是正确的分配。

用于求解k均值聚类的启发式算法通常类似于高斯混合模型的期望最大化(EM)算法。

混合模型

混合模型假设观测的子群体对应于一些概率分布,通常是数值观测的高斯分布或非数字数据的分类分布。每个子群可以具有其自己的分布参数,例如高斯分布的均值和方差。

期望最大化(EM)是用于确定具有给定数量的组分的混合物的参数的最流行的技术之一。除了EM,混合模型可以用马尔可夫链蒙特卡罗,矩匹配,奇异值分解的谱方法(SVD)和图形方法来解决。

最初的混合模型应用是通过前额与体长比将两个岸蟹群分开。Karl Pearson在1894年使用矩匹配解决了这个问题。

混合模型的一个共同扩展是将定义混合组件标识的潜在变量连接到马尔可夫链,而不是假设它们是独立的相同分布的随机变量。生成的模型称为隐马尔可夫模型,是最常见的顺序层次模型之一。

DBSCAN算法

具有噪声的应用的基于密度的空间聚类(DBSCAN)是一种非参数数据聚类算法,其可以追溯到1996年。它被优化用于可以使用R *树或一些其他几何索引结构加速几何区域查询的数据库。 。

本质上,DBSCAN聚集的核心点在Epsilon的某个距离内具有超过一些最小数量的邻居,丢弃作为Epsilon中没有邻居的异常点,并且在该核心点的Epsilon中添加点到该集群。DBSCAN是最常见的聚类算法之一,可以找到任意形状的聚类。

OPTICS算法

用于识别聚类结构的订购点(OPTICS)是用于在空间数据中查找基于密度的聚类的算法。OPTICS类似于DBSCAN,但处理不同点密度的情况。

DBSCAN和OPTICS中的想法的变化也可用于简单的异常值和噪声检测和去除。

潜变量模型

潜变量模型是将一组可观察变量与一组潜在(隐藏)变量相关联的统计模型。潜变量模型对于揭示复杂和高维数据中的隐藏结构非常有用。

主成分分析

主成分分析(PCA)是一种统计过程,它使用正交变换将可能相关的数值变量的一组观察值转换为称为主成分的线性不相关变量的一组值。Karl Pearson于1901年发明了PCA.PCA可以通过数据协方差(或相关)矩阵的特征值分解或数据矩阵的奇异值分解(SVD)来完成,通常在初始数据的归一化步骤之后。

奇异值分解

奇异值分解(SVD)是实矩阵或复矩阵的分解。这是线性代数中的常用技术,通常使用Householder转换计算。SVD是解决主要组件的一种方法。尽管从头开始编写SVD是完全可能的,但在所有线性代数库中都有很好的实现。

时刻的方法

矩量法使用观测数据样本的时刻(均值,方差,偏度和峰度)来估计总体参数。该方法非常简单,通常可以手工计算,通常可以实现全局收敛。然而,在低统计量的情况下,矩的方法有时可以产生在参数空间之外的估计。矩量法是解决混合模型的简便方法(上图)。

期望最大化算法

期望最大化(EM)算法是一种迭代方法,用于在依赖于未观察到的潜在变量的模型中找到参数的最大似然估计。EM迭代在执行期望步骤(E)和最大化步骤(M)之间交替进行,期望步骤(E)创建用于期望使用参数的当前估计的对数似然的函数,最大化步骤(M)计算使预期对数最大化的参数。在E步骤中发现的可能性。

EM收敛到最大值或鞍点,但不一定达到全局最大值。您可以通过从参数的许多随机初始估计重复EM过程,或通过使用矩的方法来确定初始估计,来增加找到全局最大值的机会。

应用于高斯混合模型(上文)的EM可用于聚类分析。

无监督神经网络

神经网络通常在标记数据上进行训练以进行分类或回归,根据定义,监督机器学习。他们还可以使用各种无监督方案对未标记数据进行培训。

自动编码

自动编码器是在其输入上训练的神经网络。本质上,自动编码器是一个前馈网络,充当编解码器,将其输入从输入层编码到具有较低神经元数的一个或多个隐藏层,然后将编码表示解码为输出层,拓扑结构为输入。

在训练期间,自动编码器使用反向传播来最小化输入和输出之间的差异。自动编码器已被用于降维,特征学习,去噪,异常检测,图像处理和学习生成模型。

深刻的信念网络

深信念网络(DBN)是自动编码器或受限制的玻尔兹曼机器(RBN)的堆栈,可以学习重建其输入。然后这些层充当特征检测器。RBN通常使用对比分歧进行训练。

DBN已被用于生成和识别图像,视频序列和运动捕获数据。

生成性对抗性网络

生成对抗网络(GAN)同时训练两个网络,一个捕获数据分布的生成模型和一个估计样本来自训练数据的概率的判别模型。训练试图最大化发生器欺骗鉴别器的概率。

GAN可用于创建虚构人物的照片并改善天文图像。GAN还被用于升级旧视频游戏中的纹理,以用于高分辨率版本的游戏。在无监督学习之外,GAN已成功应用于游戏的强化学习。

自组织地图

的自组织映射(SOM)限定到一个常规的,通常为二维网格从一组给定的数据项目的有序映射。模型与每个网格节点相关联。数据项将被映射到其模型与数据项最相似的节点,即,在某个度量中与数据项的距离最小。

您需要采取一些预防措施,以确保映射稳定且排序良好。并非所有商业实施都遵循所有预防措施。

免责声明:本文由用户上传,如有侵权请联系删除!