12.22 自组织映射人工神经网络

自组织映射人工神经网络(self-organizing map,SOM,亦称Kohonen network)由芬兰数学家Teuvo Kohonen于1981年提出。SOM是一种无监督的人工神经网络,利用竞争原则来进行网络的学习,并将高维数据非线性地映射到低维空间中。这种投影通过近邻函数保持了输入空间的拓扑关系,因此通过训练,未知的相似样本输入将被投影到网格上相同或邻近的神经元或称节点(node)上。

拓扑结构

SOM的双层网络结构如图12-30所示,它由输入层(输入节点及权值)和输出层(竞争层)构成。其中输入层具有和输入空间相同的维数。输出层通常由神经元组成的二维平面网格(阵列)构成,每个神经元和一个权值向量相联系,权值向量具有和输入层相同的维数。神经元之间的连接方式采用正方形或六边形拓扑结构(图12-31)。

图12-30 自组织映射网络结构
图12-31 自组织映射网络的拓扑结构类型
左图为神经元网格的六边形拓扑结构,其中每个神经元与其相邻神经元之间的间距都为单位距离;右图为神经元网格的正方形拓扑结构,其中每个神经元与其相邻神经元存在两种间距。

工作原理

SOM的目标是对于特定的输入模式使得网络中的不同部分按照相关性程度进行反馈,这种工作机制在很大程度上来自对大脑皮质功能区如何处理视觉、听觉等感官信息的仿生学模拟,其核心实现架构包括两个重要方面:竞争性神经网络以及神经元突触的可塑性学习。

SOM是人工神经网络以及多元统计方法中不可多得的可视化分析方法之一,任意维数的原始数据都可以在保持拓扑结构不变的情况下映射到二维空间内,因此广泛适用于复杂体系数据的可视化、降维、模式识别以及数据挖掘。

图12-32 自组织映射网络的训练过程模拟
自组织映射网络训练的示意。蓝色区域代表训练集样本的分布,白色符号为当前待训练样本。起初(左图)网格中的神经元为线性(或随机)权值初始化,其中最接近样本的一个神经元(黄色所示)向样本方向移动,并带动邻近神经元也产生了不同程度的位移。经过多次递归后(右图),网格即完成了对样本分布的拓扑结构近似。wikipedia.org

SOM的基本算法可大致概括如下:

图12-33 自组织映射近邻结构示例
以一个训练完毕的由3个自变量所组成的输入向量构成的自组织映射网络为例,显示了神经元对于输入模式的记忆。左图为各神经元权重中3个自变量所占比例饼图,右图为3个自变量的数据折线图,显示了相似模式的样本一定都分布在彼此邻近的神经元中。

特点概述

与其它人工神经网络以及多变量分析方法相比,SOM具有以下显著特点:

图12-34 自组织映射分析实例
从左至右,从上至下:采用经典的Fisher's Iris数据对SOM神经网络进行训练为例,图1为SOM神经网络的无监督学习结果,显示3个鸢尾属植物品种都获得了清晰区分;图2为4个自变量中的花瓣长度值的权重分布,显示其与样本分布一致,并且对分类影响较显著;图3-4为SOM U矩阵(记录每个神经元之间空间距离的矩阵),其中图4叠加样本分布散点图。从图中可观察到山鸢尾(Iris setosa)与其它种区别明显,而变色鸢尾(I. versicolor)与维吉尼亚鸢尾(I. virginica)的区别相对不很显著,但其在SOM的拓扑投影中仍可得到正确的区分,说明二者存在系统差异。
图12-35 自组织映射网络学习过程
以前一个例子的神经网络训练为例(近邻半径系数0.96,学习速度系数0.99,初始学习速度1.0),从上方的聚类图中可观察到网络收敛速度较快,此外起初相似样本的BMU神经元之间的凝聚效应强烈,不同类别样本的距离较远。而当递归训练次数足够大时,样本的BMU神经元在投影平面形成均匀分布。从下方的U距离矩阵中可观察到整个映射图的收敛过程。

模型质量评价

对SOM模型质量的评价主要从模型残差、预测能力以及模型拓扑质量等几方面进行:

模型残差体现了模型对训练集的拟合程度,是评价训练质量的主要参数。但该值并非越低越好,在使用中需要对网络过度训练可能导致的模型泛化能力下降的问题引起足够的重视,并将递归训练次数作为模型优化时考察的参数之一。

神经元数目

对于网络神经元(网格)数目的选择及优化,有以下原则可供参考:

常见事项

最后是对SOM网络在应用过程中一些常见事项的建议:

图12-36 SOM不同网格尺寸的比较
参数 模型1 模型2
SOM网络宽度 8 48
SOM网络高度 16 96
神经元数量 128 4608
递归次数 200 90
训练耗时(秒) 7 50
模型残差(%) 3.39 0.01
拓扑拟合质量(%) 90.67 100
BMU重叠率(%) 30.67 0.67
BMU错误分类率(%) 0 0