数据挖掘--华为FusionInsight--华为开发者社区

数据挖掘
功能特点

多数据格式

支持四种数据导入方式:本地文件系统、远程文件系统、HDFS文件系统、数据库(JDBC导入)。

并行化数据分析

挖掘算法支持并行计算,支持运行在Spark之上,同时也支持运行在Hadoop 之上。

自动化应用建模

使用导航式的自动化建模流程,可快速创建和更新模型,降低建模难度、缩短建模时间。

模型实时应用

支持模型的导入导出,支持基于现有模型快速创建新的分析挖掘模型。模型应用时间达到秒级。

功能视图
功能描述
  • 文件管理收起
    • 数据导入
    • 集成预测套件提供文本格式和csv格式的文件导入功能。用户能够选择从本地导入到数据挖掘系统服务器或者HDFS文件系统(如流程中的文本导入节点),或直接从数据库导入数据。

      • 功能
      • 描述
      • 文本导入
      • 文本导入的作用是完成格式化文件的解析及读取。格式化文本文件包含的字段数固定,字段之间的分隔符固定,但字段包含的字符数可改变。文本导入节点从格式化文本文件中读取数据,每次读取一条记录,直到读完整个文件。
      • 特征库导入
      • 通过选择特征数据文件中特定的预测特征字段和多个输入特征字段,把特征数据文件对应的字段合并起来构成数据挖掘需要的样本。合并输入字段和输出字段时,文件应该具有相同的主键,如用户ID。合并过程中过滤掉不合法的数据。
      • 目录导入
      • 目录导入节点用来导入文件夹,展示文件夹目录信息以及文本信息。
      • 数据库导入
      • 数据库导入节点是对数据库数据进行抽取,支持从数据图中抽取数据。

      数据导入

    • 数据预处理
    • 集成预测套件支持对用于数据挖掘的数据进行预处理,包括定义数据类型、范围、输入输出;对数据进行分箱、分区、抽样和过滤操作,提高数据质量,保证后继数据分析的准确性。

      • 功能
      • 描述
      • 类型节点
      • 用来指定数据集中每个字段的数据角色、方向、缺省值、以及检查字段类型值是否合法。
      • 分箱节点
      • 通过“范围”类型的字段的属性值范围划分成区间来减少字段属性值的个数。分箱节点可以根据一个或多个现有数值范围字段的值自动创建新的集合字段。例如,可以将收入水平字段转换为包含若干等宽收入组的新的分类字段,或转换为与均值之间的偏差。
      • 分区节点
      • 用于生成分区字段,将数据分割为单独的子集或样本,以供模型构建的训练和测试阶段使用。用一个样本生成模型、另一个样本对模型进行测试,通过此种方法可以预判此模型对类似于当前数据的大型数据集的拟合优劣。分区节点会生成角色为标志的字段,该字段可以在类型节点指定为分区字段。
      • 过滤节点
      • 可根据分析字段和预测字段的相关性对数据进行过滤,或指定字段过滤。相关性过滤是根据分析字段和预测字段的“错误消减比率”对字段进行过滤,系统根据配置的保留最大字段数,自动保留“错误消减比率”大于设定阈值的输入字段,常用于过滤字段多的源数据。操作员也可以手工对字段进行过滤,过滤效果与“TextImport”节点中的“过滤”功能相同。
      • 特征选择节点
      • 用于根据设定的条件自动过滤掉不符合要求的字段,从而支持在大量的属性中识别并过滤无效的或者区分度低的属性。
      • 抽样节点
      • 随机抽样随机从数据中抽取一定比例的数据作为样本数据。例如存在用户数据一千万条,设置抽取比例为0.5,则随机抽取其中的五百万条记录。等距抽样从N条记录中抽取出一条记录。例如存在用户数据一万条,设置N为10,最大抽样本数量为100,则从一万条数据每10条抽取出一条,共抽取出100条记录。整群抽样设置抽样字段,以抽样字段为一个群体,抽取一定比例的数据,例如以学校为抽样字段,设置抽取比例为0.5,则抽取50%的学校记录,学校中所有的年级及班级数据均被抽取。抽样字段可设置为多个,当设置为多个时采用交叉抽样的方式。分层抽样设置抽样字段,当抽样字段为多个时,从每个抽样层中抽取一定比例的数据。平衡抽样平衡离散型的字段,属于放回重复抽样,即抽到的样本放回后重新参与抽样,使得最终抽取出的记录中不同的取值类别趋于平衡。

      数据预处理

    • 数据分析
    • 系统对单属性的特征分析即统计单属性相关的指标;对多属性的特征分析包括定性分析指标和定量统计指标。

      • 功能
      • 描述
      • 单属性特征分析
      • 单属性的特征分析即统计单属性相关的指标,统计指标包括:总记录数平均值最大值最小值总和极差方差标准差均值标准误差偏度偏度标准差峰度峰度标准差离群值
      • 多属性特征分析
      • 多属性的相关性指标分析包括定性分析指标和定量统计指标。定性分析指标包括:chisquare检验T检验F校验最小值定量统计指标包括:Kruskal TauPearsonEtaMAEMSERMSESpearman

      数据分析

  • 模型管理展开
    • 模型导入
    • 集成预测系统支持创建分析主题,然后在每个主题下面导入具有相同目标的多个数据挖掘模型。

      导入分析模型时,需要分别指定模型文件,模型关联的流程文件和模型关联的评估文件。

    • 模型串联
    • 用户如果想在建模应用后继续建模,可以不用重新导入源数据,通过将应用节点(文本分类应用节点除外)作为数据源节点,即可实现新的建模流程。应用节点后支持连接类型节点、数据审核节点、统计量节点、图形可视化节点、相关性分析节点和过滤节点。

      导入分析模型时,需要分别指定模型文件,模型关联的流程文件和模型关联的评估文件。

      模型串联

    • 模型评估
    • 数据挖掘系统提供可视化界面对模型的应用结果进行评估,各类算法包括不同的评估指标,如流程中的分类评估指标包括:真正率、假正率、F值、精度、提升、AUC。

      分类评估

      用于评估分类的准确性。

      分类评估

      推荐评估

      用于评估个性化推荐列表的评分指标、分类指标、覆盖率、准确性、多样性和新颖性。

      推荐评估

      数值评估

      用于评估数值预测的准确性。

      数值评估

      聚类评估

      用于评估聚类的准确性。

      聚类评估

  • 流程编排展开
    • 手工建模
    • 通过节点拖拽式操作手动配置流程,手动基于默认值调整各个功能节点参数,提升模型的准确率。适用于熟悉输入数据和算法原理的高级使用者。

      模型串联

    • 自动化建模
    • 通过向导的方式引导用户配置输入文件、选择建模算法和评估参数后,系统自动完成以下工作:

      自动预处理

      − 将原始数据自动清洗,提升数据质量。

      − 根据数据分布自动识别数据类型。

      − 根据数据分布、异常检查自动进行数据异常、缺失和标准化处理。

      自动参数选择

      − 根据AUC、TAU等指标自动进行数据特征筛选。

      − 采用渐进随机搜索。根据搜索的效果,自动分析出每个参数效果好的取值范围,逐渐缩小搜索范围。

      自动算法选择

      根据用户输入场景及历史模型积累的优化策略,自动选择初级、中级或高级算法,无需人工配置。

      自动建模

      − 自动根据预测目标选择匹配的算法。

      − 自动基于预测的反馈进行增强学习,自动优化。

      自动评估

      − 自动根据算法类别选择评估指标。

      − 根据评估指标自动选择最优模型。

  • 算子库展开
    • 集成预测系统提供不同种类的共20+算法来训练模型,包括分类算法、聚类算法、预测算法、影响力评估算法、推荐算法。

      • 分类
      • 算法名称
      • 功能描述
      • 分类算法
      • 朴素贝叶斯
        朴素贝叶斯分类是统计学分类方法,可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。通过朴素贝叶斯节点,可以利用对真实世界认知的判断力并结合所观察和记录的证据,使用看似不相关的属性建立事件发生的几率,从而构建概率模型。
        决策树
        通过决策树算法,可以开发分类系统,此分类系统可以基于一组决策规则来预测或分类未来的观测值。
        逻辑回归
        逻辑回归算法用于确定变量之间的因果关系,建立回归模型,研究现象之间是否相关、相关的方向和密切程度。
        随机森林
        随机森林算法支持大量特征属性标签,通过随机抽样创建多个决策树模型来提取分类规则,避免单一决策树的过拟合问题。
        邻接点分析
        邻接点分析即用于找出任意两个存在重合邻接点的节点对。
        稀疏线性
        稀疏线性支持大量特征属性标签,充分利用高维度数据进行精确分析建模。
      • 聚类算法
      • Kmeans
        Kmeans算法将数据集聚类到不同聚类中心(或簇)。此方法将定义固定数量的聚类,将记录迭代分配给聚类,以及调整聚类中心,直到进一步优化无法再改进的模型。Kmeans节点作为一种非监督学习机制,它并不试图预测结果,而是揭示隐含在输入字段集里的模式。
        EM
        EM算法将数据聚类到不同聚类中心(或簇)。EM算法进行聚类计算的前提是:假设样本符合多维高斯分布,并采用最大期望方法分析样本的隐藏分类,从而进行自动聚类。此方法将定义固定数量的聚类,计算每个数据隶属于某个聚类中心的概率,并迭代更新,直到结果相对变化小于终止迭代阈值或达到最大迭代次数。
      • 推荐算法
      • Apriori
        Apriori算法通过对数据的关联性进行分析和挖掘,挖掘出在决策制定过程中具有重要参考价值的信息。
        最小哈希
        最小哈希算法用于快速检测两个集合的相似性。
        协同过滤
        协同过滤用于分析用户与用户、项目与项目之间的相似性,同时基于相似性向单个用户进行个性化的推荐。
        社交网络推荐
        社交网络推荐算法节点利用SNS的拓扑进行建模,获得隐藏在网络后的可以用于推荐的信息。
        个性化标签
        个性化标签算法用来支持根据用户的初始偏好、浏览历史,并结合浏览内容的特征进行分析,对用户进行推荐。
        判别树
        基于已有用户群数据信息对新用户偏好的推荐,对于新加入的用户,系统采用提问方式将用户匹配用户群,根据匹配的用户群找到这个群中的偏好(如观看次数最多,评分最高的电影),推荐给新用户。
        相似特征
        相似特征分析算法即根据内容的特征信息及其特征权重计算内容相似性。
        全联通图形分析
        全连通图形分析算法通过找出图中的一些全连通的子图,可用于家庭网络社交圈的分析。
        LDA
        LDA(Latent Dirichlet Allocation)是一个计算节点重要性的算法,例如对用户感兴趣的内容进行过滤,从而像用户推荐最合适的结果。
      • 影响力评估算法
      • 影响力传播
        影响力传播算法基于SNS网络扩散影响力进行用户识别。使用影响力传播算法可以实现分类预测,如预测客户的流失率,预测客户是否会购买offer。以流失率预测为例,假设在SNS网络中预先定义一批流失的用户,然后根据用户间的通话频率,时间定义用户间的影响力,根据影响力传播的公式将用户可能流失的概率进行扩散,扩散以迭代方式运行,直到用户可能流失的概率变化不再显著。
        PageRank
        PageRank是一个计算节点重要性的算法,例如可以计算网页的重要性,从而对网页进行排名。
      • 预测算法
      • 时间序列
        时间序列算法是从序列数据中发现隐含的规则,即数据随时间变化的趋势,从而预测将来的值。
        线性回归
        线性回归算法用于确定变量之间的因果关系,建立回归模型,研究现象之间是否相关、相关的方向和密切程度。
        GDBT
        GBDT算法是一种迭代的决策树算法,该算法由多棵决策树组成,每轮迭代的回归树能够按照权重进行合并。GBDT节点可用于数值预测和分类预测。
      • 降维算法
      • 主成分分析
        主成分分析算法用于将多个指标化为少数几个不相关的综合指标。
      • 自然语言算法
      • 文本分类
        文本分类算法用于对文本进行分词并预测其分类。
        分词
        中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,即将无结构的原始文本转化为结构化的计算机可以识别处理的信息,以此把文本中抽取出的特征词进行量化来表示文本信息。数据挖掘系统中的分词节点算法基于Ansj框架,Ansj框架是ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)的java实现,主要功能包括中文分词、词性标注、支持用户词典。数据挖掘系统加入了分词的并行化计算功能,提高了分词速度和精度。
      • 位置轨迹分析算法
      • 停留点分析
        在一段移动轨迹中,人们会在某些地点停留较长时间,例如商场、景点或加油站,这些点被称为“停留点”。集成预测系统通过分析客户的轨迹数据,输出客户的停留点经纬度。

      数据建模功能清单