IBM SPSS 产品

IBM SPSS 预测分析软件提供了统计分析、数据和文本挖掘、预测建模,决策优化以及部署软件等功能,能够帮助您预测变化,采取行动来提高业绩。

如果您有任何疑问:

400-858-0811, +86-21-54306097
021-61504333
  • 可视化的工具软件平台

    SPSS Modeler为用户提供了功能强大易用的数据挖掘工具平台。它包括10个节点区:收藏夹(Favorite)、源数据节点(Sources)、记录处理节点(Record Ops)、字段(变量)处理节点(Field Ops)、图形节点(Graphs)、建立模型节点(Modeling)、输出节点(Output)、导出节点、PASW Statistics和文本挖掘(Text Analytics)节点,用户建立模型的过程就是把各个节点区的节点以连线的方式连在一起。

    另外在SPSS Modeler中还包括对流、结果、模型的管理及整个数据挖掘项目按照CRISP-DM方法论管理的功能。

     

    易用性和强大功能完美结合

    SPSS Modeler对用户来说是个非常容易上手的软件,通过连接节点的方式建立模型,用户不需要编程就可以完成数据挖掘模型的建立工作,从而使用户可以将精力更多地集中于应用数据挖掘解决具体的业务问题,而不是工具软件的使用上。此外,SPSS Modeler提供了两种建模方式:简单模式和专家模式;在简单模式下,用户无需做任何设定,系统会按照默认的设置建立模型;在专家模式下,用户则可以根据自己的需要对模型中的参数进行适当地调整,从而使模型达到最佳效果。图6、图7分别是神经网络模型的简单。

     

    神经网络模型简单模式建模示意图

     

    神经网络模型专家模式建模示意图

     

    模式和专家模式建模示意图。SPSS Modeler中几乎所有的数据汇总、变换(包括比较复杂的数据变换)、合并等都可以在界面窗口下实现,而不需要编程来完成。

    卓越的项目管理功能

    SPSS Modeler完全遵循CRISP-DM标准建立,提供了完善的项目管理功能,可以对数据挖掘从商业理解到结果发布的全部过程进行有效的管理。具体地说,SPSS Modeler中提供了数据流管理功能和项目管理功能,在数据流管理功能中,用户可以对当前工作区域内的数据流、数据挖掘模型和数据挖掘结果进行有效地管理;在项目管理功能中,用户可以对整个项目进行管理——既可以按照CRISP-DM的六个阶段对相关项目文件进行管理,也可以按照数据流、节点、数据挖掘模型、结果和其他的方式对数据挖掘项目进行有效管理。

     稳健强大的发布功能

    SPSS Modeler可以把数据挖掘模型或者整个数据挖掘流程导出(发布)嵌入系统,和那些只能导出(发布)模型本身的数据挖掘软件相比,用户的劳动量降到最低,工作效率得到极大提高。

     高度的灵活性和可扩展性

    SPSS Modeler的灵活性和可扩展性主要体现在以下几个方面:

    A)      开放的数据库接口——支持几乎全部的关系型数据库,SPSS Modeler通过ODBC从数据库中读取数据,提供了SPSS Data Access Pack,可以与大多数主流数据库(如IBM DB2,Oracle,Sybase,SQL Server等)直接连接,也可以通过第三方提供的开放ODBC接口与其它数据库连接(如Teredata)。

    B)      工具扩展功能——提供了CLEF(Component-Level Extension Framework)技术,可以把其它模型、数据准备、结果展示等功能集成到SPSS Modeler中。

    具有针对性的数据挖掘模板

    SPSS在成功运做大量数据挖掘项目过程中,积累了丰富的数据挖掘经验,并将它整理成数据挖掘模板,使得用户可以通过成型的数据挖掘模板充分利用SPSS成功的数据挖掘经验。

  •  

    3.1. 数据读取

    从数据库中得到数据,通过ODBC从数据库或数据仓库中获得数据。包括Oracle、SQL Server、DB2、Sybase、Informix、Teradata等。

    直接导入文本格式数据、ExcelSAS数据。

    3.2. 数据整理

    从图形或者表格中直接获得子数据集。

    可以多角度对数据进行清理。

    对数据从字段和记录两个角度进行处理,包括:字段筛选、命名、生成新字段、值替换;记录选择、抽样、合并、排序、汇总和平衡;字段类型的转换。

    3.3. 模型与算法

    预测和分类包括:神经网络(多层神经元、Radial Basic Function);决策树和规则归纳(C5.0、C&RT、Quest、CHAID)、SVM、贝叶斯网络、SLRM、K最近邻、特征选择;线性回归、Logistic回归、多元Logistic回归、Cox回归等。

    聚类和细分包括:Kohonen神经网络、K-means聚类、两步聚类、异常值发现等。

    关联规则包括:Apriori,Carma、Sequence和网状图。

    数据降维:因子分析和主成分分析。

    时间序列预测:提供指数平滑、ARIMA等算法,并可以自动选择最优模型。

    可以将多种模型技术组合起来或者建立组合模型(Meta-Models)。

    可以直接读写SPSS数据文件,可以使用SPSS进行数据准备、报告、深度数据分析、作图等,可以调用SPSS所有分析方法,或在SPSS、SPSS Modeler中显示结果。

    通CLEF实现客户定制的算法。

    部分算法简介

    神经网络:神经网络的基本单元是神经元,它是集数据输入、运算、结果输出于一身的装置,既可以做模型预测,也可以提供信息给其他神经元。神经网络就是众多神经元系统的连接在一起组成的结构。在Clemetine中是前馈神经网络,也即多层感知器。神经元分布在各层中,通常有一个输入层、一个或多个中间处理层和一个输入层,并且每层中的神经元都跟相邻层的神经元充分连接。每个连接具有关联权重,描述神经元之间的影响力度。信息从输入层通过中间处理层到输出层的过程中,产生预测。并通过样本不断学习,自动调节关联权重,使预测越来越精确。RBFN (radial basis function network)是一种特殊的神经网络,包含三层:输入层、中间处理层和输出层。其中的中间处理层是聚类模式,类似于K-means模型中的聚类。神经网络是生理学上的真实人脑神经网络的结构和功能,以及若干基本特性的某种理论抽象、简化和模拟而构成的一种信息处理系统,从系统观点看,人工神经网络是有大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,即具有不可预测性、耗散性、不可逆性、高维性、广泛连接性与自适应性等。神经网络具有人脑功能的基本特征:学习、技艺和归纳。神经网络需要的经验知识比较少、适应性比较强、并行速度比较快,它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。

    C&RT决策树:C&RT(Classification and Regression Tree)算法是一种广泛应用的基于树结构产生分类和回归模型的统计过程。决策树是一种预测模型,是一个分层的一元二叉树结构,树中的每一个内部节点指定了一个对单一变量的二择一测试,对于实数值和整数值变量使用的是阀值,对于属性数据使用的是隶属关系子集。每一个数据由树根沿唯一路径下降到某个叶子节点,具体的路径取决于变量在各个内部节点的选择测试结果。每个叶子节点指定了那个叶子的最可能分类的类标签,更准确地说,叶子节点指定了分类值的条件概率分布,条件就是通往这个叶子的分支。树的结构是由数据得来的,而不是预先确定的。C&RT方法首先将数据在根节点处分为两组,可以采用不同的分裂标准,但所有标准实质上都是将数据在中间节点处划分为两个不相交的子集,并使子集之间差别最大。然后对每个子节点上的数据重复的应用这种分裂方法。最终树的大小取决于“修剪”过程,树太大可能会导致过度拟合,但太小又不能为精确分类提供足够的预测能力。修剪的主要任务是除去一些底层的对分类精度没有显著影响的分支。修剪时根据误分类损失函数来衡量树结构的质量。

    线性回归:回归分析是试图从实际数据中寻找某种规律的方法。回归分析确立和分析某种响应变量  (因变量)和重要因素  (自变量)之间的函数关系。回归值代表任意一个条件期望值,在数据建模中,经常是给定条件变量下因变量的条件期望值。将预测属性视为自变量,预测目标视为因变量,则可使用回归技术进行预测。对于形如下式的线性模型 常采用最小二乘法来估计参数 。最小二乘估计是一切线性无偏估计类中方差一致最小的估计。只有当数据中存在孤立点或数据间存在较严重的复共线性时,最小二乘估计的性质才变坏。

    Logistic回归:在线性回归中,样本点落在空间中的一条直线上或该直线的附近,因此可以使用一个线性函数表示自变量和因变量的对应关系。然而在一些应用中,变量间的关系呈曲线形式,需要使用非线性函数来表示。此时的计算仍采用最小二乘的形式,只是会以变量的函数形式参与回归。典型的是非线性回归中的Logistic回归。因变量 是只取0和1两值的随机变量(例如客户购买或者不购买),自变量 通过线性组合与因变量的期望产生影响,得到一个回归模型。当因变量 是取多值的属性数据时,则是多元Logistic回归。此模型在实用上,特别是经济、零售、生物、医学和社会数据的统计建模中被广泛采用。

    Kohonen神经网络:Kohonen模型是神经网络的一个特例,以无导师方式对自身进行训练,自动对输入模式进行聚类。包括输入层和输出层,每一个输入元都与输出元相连接,每一个连接都具有关联权值,并通过一定规则,不断的调整此关联权值。Kohonen网络中采用Euclidean距离 来描述第 个输入值与第 个输出值的距离,临近元函数采用Chebychev距离 代表方向 上 与 神经元的最大距离。Kohonen网络采用竞争学习机制,当输入时,对于某一个输入模式通过竞争在输出层中激活一个相应的输出神经元。并在输出层中抑制与自己邻近的神经元,获胜的输出神经元会调整连接权值,同时相邻神经元的连接权值也会随之调整。根据Kohonen网络的学习规则,神经元权值的调整趋势是减少权值向量和当前输入向量间的距离。因此,当出现与先前输入相类似的输入时,先前输入时获胜的神经元将更容易获胜,从而有效的实现了聚类。

    K-means聚类:K-means聚类的目标是把样本集分成 个类,使得类与类间的差距尽可能大,而每类里的数据差距尽可能小。通过分析数据库中的记录数据,根据一定的分类规则,合理的划分记录集合,确定每个记录所在类别。K-means聚类算法是一个反复迭代过程。首先定义 个类中心,这是一个采用maximin运算方法的迭代过程,把第一个记录记作一个类中心,计算所有记录与类中心的最小的Euclidean距离,把拥有这些距离中最大值的记录作为另一个类中心,然后计算所有记录与已有类中心的距离,寻找下一个新的类中心。反复此方法,直到确定 个类中心。之后仍是一个迭代过程,以精确聚类结果,把每个记录归入距离最近的类中,并根据归入的记录采用平均记录值的方法 来调整类中心;调整以后再次对记录分类,重复操作直到类中心不再变化为止。

    Apriori关联规则:Apriori是一种关联规则发现方法。侧重于找出数据库中某些特定事件一起发生的情况,找出那些可信的并且具有代表性的规则。此算法可以分为两步:第一步是识别所有的频繁集,第二步是从频繁集中构造规则。频繁集指数据集中所有大于等于用户指定的最小支持度 的集合。运算从扫描容量为1的频繁集开始,对那些小于最小支持度的集合不再考虑;然后采用归纳的方法,从容量为 -1的频繁集生成容量为 的频繁集,并修建掉其中包含 -1容量非频繁集的集合。确定了修剪后的容量为 的频繁集列表后,对频繁集计算容量为 -1的所有子集 和 ,使 包含输入信息, 包含输出信息,并且计算使 成立的信任值,如果大于等于用户定义的最小信任度,则列入关联规则。

    GRI关联规则:关联规则GRI(Generalized Rule Induction)能通过兴趣度这一数量尺度来产生规则去归纳数据的模式和关系。这个尺度对竞争尺度进行排序,识别出最好的描述数据的规则。尺度 定义为 + ,其中 , 分别是规则中的结果和原因的概率, 是条件概率。GRI规则具有以下形式:如果 ,则以概率 有 ,比较直观的反映了关联关系。

    主成分分析、因子分析:设法将原来众多具有一定相关性的指标重新组合成一组相互无关的综合指标,来代替原来的指标,这些较少的指标尽可能多的反映原来指标的信息。这样模型维数得以下降,大大减少了计算量。主成分分析和因子分析都是典型的降维方法。

     

    3.4. 交互图形功能

    可以通过鼠标选取图形中特定区域的数据。

    直方图、分布图和其他条形图。

    线型图和点图。

    网状图。

    3.5. 结果导出

    数据挖掘结果可以导出为表、图形

    数据挖掘结果可以写入文本文件、Excel文件和SAS文件等

    数据挖掘结果也可以导出到数据库中

    3.6. 可伸缩性

    可以在数据库中进行挖掘。

    提供C/S结构的分布式数据挖掘,使数据挖掘的效率更高。

    3.7. 系统要求

    客户端

    操作系统 

    Microsoft® Windows® 7 (Professional and Enterprise) x32 and x64 Editions 

    Microsoft Windows Vista (Business and Enterprise) with Service Pack 1 x32 and x64 Editions 

    Microsoft Windows XP Professional with Service Pack 3 x32 and x64 Editions. 

    硬件

    Intel® Pentium® or Pentium-class processor or higher (for 32-bit Windows); 

    x64 (AMD 64 and EM64T) processor family (for 64-bit Windows). 

    A monitor with 1024x768 resolution or higher. 

    A DVD-ROM drive is also required if you are installing from the installation disk. 

    Free disk space - 2 GB of available hard-disk space. 

    RAM - 2 GB or more recommended.

    软件- Microsoft® Internet Explorer® 6.0 or higher for online help. 

    服务器

    操作系统

    Windows Server 2008 (Standard and Enterprise) x32 and x64 Editions; 

    Windows Server 2003® (Standard and Enterprise) x32 and x64 Editions 

    Windows Server 2003 R2 (Standard and Enterprise) x32 and x64 Editions 

    Red Hat Enterprise Linux Advanced Platform 5.x (x32, EM64T and AMD64 processors) 

    Red Hat Enterprise Linux Advanced Server 4.x (EM64T and AMD64) 

    Red Hat Enterprise Linux Enterprise 4.x (x32, EM64T and AMD64) 

    Sun Solaris™ 9 or 10 (for SPARC 64-bit machines) 

    HP-UX 11i V3 for Itanium 64-bit machines 

    IBM AIX® 5L 64-bit, version 5.3 and 6.1. 

    硬件 

    Pentium® or Pentium-class processor or higher (for 32-bit Windows) 

    x64 (AMD 64 and EM64T) processor family (for 64-bit Windows), running at 1GHz or faster. 

    Pentium or Pentium-class processor or higher for 32-bit Linux 

    x64 (AMD 64 and EM64T) processor family for 64-bit Linux 

    UltraSPARC II or better (for Solaris™) 

    Itanium processor for HP-UX

    PowerPC processor, 233MHz or faster and IBM RS/6000® for AIX®. 

    A DVD-ROM drive if installing from media 

    A network adaptor running the TCP/IP network protocol. 

    Free disk space - 1 gigabyte (GB) or more recommended, 2 GB or more recommended if running on HP-UX.

    RAM - 4 GB or more is recommended. 

    • 11111