数据挖掘工具



 


 产品
   数据挖掘工具
 
Visual Mining Studio(简称VMStudio)
 
 
VMStudio是MSI独自开发的可视化通用数据挖掘工具软件系统
处理的数据规模更大
计算速度更快
使用更方便
顾客需求更易满足
费用更低廉
 
数理系统从1982年创立以来,集本身多年数理科学软件经验之大成,开发出了数据挖掘平台Visual Mining Studio。被誉为准确、易用、解析手法充实、实用价值高的数据挖掘平台。

荣获日本计算机学会的软件开发大奖


 产品
   数据挖掘工具
 
适用领域
 
 
商场购物篮分析(流通)
购物的时间序列分析
同时购物的组合分析:面包和牛奶同时购入
商品陈列方法的选定
库存量的合理安排
 
信贷审查(金融)
从客户的交易内容、债务状况、信用卡使用情况等个人数据来判断其“坏账”的风险程度
根据风险程度来决定最优信贷金额
信贷收益和风险间的仿真
 
通信贩卖
从客户的行为数据找出其爱好
对新产品可能产生的兴趣程度
对广告的反应程度的推测
在最佳时间、以最适当的方式,向最恰当的客户提供最受欢迎的产品
 
制定最佳网络广告战略 生产质量管理
在最佳时间内
以最低费用
以最吸引人的内容
登载网络广告
从制造工艺数据出发
对次品发生原因分析
降低次品的发生率
最大限度的提高生产效率和产品质量
 
库存管理 医药业
需求量分析
最佳存储品种
最佳存储量
决定最佳订货时机和订货量
遗传基因和疾病的因果
自动诊断
处方数据分析:药物与治疗的关系
医疗图像处理
 
人工智能及其他
模式识别 需要与供应的匹配
广告媒体的最佳选择 市场问卷调查数据分析
金融产品的走向分析:证券、汇率
布告栏的内容分析
客户呼叫中心支援 最佳物流战略
最佳新店地址选择 人才行业的人才与产业的匹配
 
 
 
   
 

 产品
   数据挖掘工具
 
经典应用案例:供需分析
 
 
分析范围
购买记录(顾客、商品、购买量)
互联网访问日志(访问者、网页、访问次数)
人事(工作、工作人员、经验年限)
文章分析(文章、单词、出现频度)
派遣记录(公司、派遣职员、服务年数)
 
目的
针对需求(顾客、访问者、工作)、提供合适的供给(商品、网页、工作人员)
从海量的需求和供给数据出发、根据双方关系的密切程度对供需双方进行分类
 
原理:VMStudio的二项软聚类分析功能
Zi内的需求对Zi内的供给很感兴趣
感兴趣的程度,用概率表(得分表)表示
 
P(Z|需求)=需求落在Z范围内的概率
P(Z|供给)=供给落在Z范围内的概率
P(需求|供给)=表示需求对供给感兴趣的程度
P(供给|需求)=表示供给对需求的吸引程度

 产品    数据挖掘工具
 
功能介绍
 
 
VMStudio能干什么?
VMStudio可以从大量的数据中找到您所需要的结论性的知识。
 
数据挖掘为什么有用?
 
数据挖掘是从既存的数据中提炼出对你的商务活动有价值的情报,它是一种新兴的数据分析技术,是将统计解析、人工智能、数据库、并行处理等技术结合到一起形成的最新智能型技术,其应用范围较统计解析更加广泛。与统计解析不同的是,在绝大多数的情况下,数据挖掘不需要假设数据的分布状态。同时,数据挖掘具有计算简单,结论可靠等特征。而且,数据挖掘的结果有一部分很容易理解,即使不是专家,您也可以使用该技术。
 
可视化编程功能
不断探索
无需编程即可完成多种挖掘功能
Windows用户 → 几乎不需要任何的学习时间
 
点鼠标就可以进行数据分析
数据和处理功能都是以图标的形式实现的。图标之间以带箭头的线段来连接,以此来定义数据流及其相应的数据处理分析,从而形成了可视化的编程环境。完成的数据流处理不仅在视觉上可以让您把握分析的动态,而且可以在画面上直接加上您所需要的各种注释,形成各种演示资料。
 
 
可多视角观察的图形功能
为了把握住数据变化趋势与状态,有效地评价分析结果,使用数据图形来帮助人们加深理解是一种理想的方法。本系统为此提供了散点图、柱形图、折线图、饼图等丰富的图形功能 。
 
丰富多彩的预处理功能
数据挖掘中最烦杂但同时也是最重要的作业就是数据的预处理功能。本系统不仅提供了缺损值的处理、分组、正规化等典型的加工方法,而且提供了独自开发的脚本语言,可以使用户按照自己的需求来柔性地对数据进行各种加工和演算。
 
预处理功能
数据过滤
数据统合
合计、总计
数据清洗
采样
排序
文件分割
脚本语言
 
分析功能
本系统提供
 
Classification Association 分析 Bayesian Network 统计解析软件包:S-PLUS
Clustering Time Series 分析 Text Mining    
  *注:S-Plus是美国TIBCO公司的产品
 
与S-PLUS的无缝连接
具有丰富的统计用函数和图形功能的各类图标
用户可以根据需要建立自己专用的S脚本语言的图标
 
与多种外部软件的无缝连接
本公司同时拥有用于文本挖掘的系统Text Mining Studio (TMS),本系统可以和TMS无缝连接使用。
本系统还可以和R、SAS、MATLAB、Perl等联合使用。如果您拥有这些系统的数据资源,本系统都可以为您充分利用起来。
 
 
   产品    数据挖掘工具
 
功能一览
 
 
数据前处理功能
功能 说明
清洗 对缺损值和异常值进行检查和修正
分组 对数据进行归类和范畴划分
采样 从数据中抽出一部分
正规化 对数据进行大小或分布上的变换
排序 对数据进行升序或降序的排列
数据文件分割 将数据分为学习用和验证用两部分
过滤 将符合所指定条件的数据提取出来
统合 将多个数据合成一个数据
数据列属性变更 变更数据列的性质、进行量化操作
数据处理加工 交互式的数据处理加工
再配置 对表中数据进行重新配置
匿名化 对数据进行加工,使其匿名化
日期及时间处理 对日期时间数据进行有关的计算处理
行选择 将满足条件的行抽取出来。可以对复数个表中的数据一次全部抽取出来
日期选择 将满足所指定条件的日期抽取出来
时间序列数据处理(基本操作) 可以表示时间序列数据的统计量和推移列
时间序列数据处理(线段表示) 用一组线段来近似时间序列数据
时间序列数据处理(距离计算) 将符合(或不符合)某个模式的时间序列数据抽取出来
 
数据挖掘处理功能-1
功能 说明
分组分析
(Classification)
Decision Tree 可做成多分枝的回归树、分类树。能够对应缺损值,和用户之间以对话形式进行分析
K-NN分析 根据近邻的k个值来建立回归模型和判别模型
神经网络 采用阶层型神经网络来建立回归模型和判别模型
Radial Basis Function Network 采用中间层的高斯函数来建立回归模型和判别模型
Support Vector Machine 采用支持向量来建立回归模型和判别模型
nuSVM 在支持向量机中的支持向量数可变
Support Ball Machine 采用聚类手法进行数据压缩,并与支持向量机方法一起来建立判别模型。该方法在处理大规模数据时尤为有效
预测 使用模型进行评价与预测
规则库预测 根据从学习用数据提炼出来的规则对未知数据进行分析、预测
模型集成 根据复数个模型间的权重比进行最优化的集团学习
Naive Bayes 考虑说明变量之间的相互依赖关系,根据朴素贝叶斯定理进行判别分析
交叉验证 利用不同的数据轮流重复进行学习,最后求得最合适的模型
Boosting 将复数个模型统合起来,求得一个高精度的模型
Bagging 使用复数个模型进行表决,根据少数服从多数的原则建立相应的避免过学习的模型
 
数据挖掘处理功能-2
功能 说明
统计量 统计 各个项目的计数、统计量计算(合计、平均、方差、最大、最小等)
相关 相关系数/卡方值/F值的计算
Feature Selection 搜索对目的变量有效的说明变量
簇间的比较 将数据分为复数的簇并自动将每个簇的特征提取出来
RFM分析 根据顾客购物的履历,从中筛选出优良顾客的信息
聚类分析
(Clustering)
BIRCH 先将数据进行压缩,然后对已经压缩过的数据采用K-Means法进行处理
K-Means法 指定k个簇,在此前提下对数据进行聚类处理
OPTICS 根据数据的密度进行聚类。特殊形状的簇也可以被抽取出来
自组织映射(SOM) 利用神经网络将数据映射在2维平面上
阶层化网络 根据各个街节点的连接情报,进行阶层型的聚类处理
One-Class SVM 使用支持向量,对未命中的值进行验证
阶层型聚类 进行阶层型聚类,结果用树状图标进行表示
Cluster Validation 对聚类进行评价
 
数据挖掘处理功能-3
功能 说明
组间关联分析(Association) 组间关联分析 抽取出多阶层间的关联规则(前提=>结论)
交互式规则分析 指定关联规则,在此前提下进行对话式探索
关联性图解分析 对指定的项目之间看其是否存在关联性
时间序列的组间关联分析 探索与时间序列有关的关联规则
簇间关联分析 对作为结论的列进行关联性分析
多变量分析 主成分分析 将数据中多个变量的信息归纳为少数的几个变量来表示
因子分析 从多变量数据众找到潜在的因子
对应分析 对定性数据量化后,进行主成分分析
Kernel主成分分析 使用核心法进行主成分分析
 
数据表示功能
功能 说明
数据视图 表及各种图形的表示
网络图形 网络形式数据的表示
S-PLUS图形 可以调用S-PLUS的图形功能
 
脚本语言功能
功能 说明
脚本语言 可定义自己的数据处理流程并重复执行
S的脚本语言 可直接调用执行S语言的脚本语言
外部脚本语言 可以调用R、SAS、NATLAB、Perl等脚本语言
 
插件
功能 说明
Text Mining Studio 可进行各种文本数据的分析
文本处理模块 可将文本数据转换为表的形式
BNModule 生成贝叶斯网络推理模型,进行概率推论
 
统计解析功能
·数据的基本运算及处理 ·时间序列解析
·线形代数演算 ·信号处理
·基本统计 ·生存时间解析
·多变量解析 ·检定
·回归分析 ·品质管理图
·方差分析 ·探索型的数据解析
  ·印象图形
  ·动态图形
 
其它功能
功能 说明
数据共享 可以对网络数据进行共享
批处理 根据指定的处理流程,可以对数据流进行外部批处理
数据库接续 通过ODBC可与数据库相连接。具有大容量、超高速的特征
批处理 可在外部直接运行所编制批处理文件
EXCEL接续 可直接对EXCEL文件的数据进行操作
文本整形 在某些情况下,可自动纠正文本数据中的输入错误
 
S语言与S-PLUS的小知识
· S语言是由AT&T贝尔实验室开发的一种解释型语言,主要是用来进行统计分析、数据探索和作图。具有丰富的数据类型(数组、列表、向量、对象等),可以方便地实现用户自己的新的统计算法。交互式的运行方式、强大的图形功能使得用户能够方便的探索数据。 S-PLUS则是由美国公司开发的一种基于S语言的统计学软件,是世界上公认的三大统计软件之一。同S语言一样,其最大特点在于它可以交互地从各方面发现数据中的信息,并可以很容易地实现一个新的统计方法。S-PLUS主要用于数据挖掘、统计分析和统计作图等应用领域
· 本公司是S-PLUS在日本的总代理公司
 
上一条:物联网应用   下一条:辐射速查
【返回上页】