数据集成--华为FusionInsight--华为开发者社区

数据集成
功能特点

异构存储

跨异构数据存储系统。

弹性扩展

资源按需分配,弹性伸缩。

多数据源

支持数十种数据源。

全自动化

基于丰富的数据积累和机器学习实现自动化数据特征识别和关系映射。

功能视图
功能描述
  • 流程配置收起
    • 数据流/控制流配置
    • 提图形化配置界面来实现控制流配置和数据流配置,配置界面如图所示。

      控制流配置界面

    • 调度计划
    • 数据集成套件提供web图形界面,用于配置流程的调度时间和周期等。

    • 在线测试
    • 提供具体流程执行进度的显示,通过图标展示不同的执行状态,如图所示。

      在线测试界面

  • 任务调度展开
    • 提供多种调度触发方式,提供按时间调度、手工调度、接口调度方式。支持优先级控制,使得高优先级的流程优先调度,配置界面如图所示。

      设置调度时间

  • 控制流引擎展开
    • 控制流用于对任务的编排,用于控制任务之间的执行流程。控制流各个任务之间没有数据流向。

      控制流功能清单如表所示。

      • 功能
      • 描述
      • FTP/SFTP上传、下载
      • 通过FTP协议将存放在节点机服务器主机(FTP主机)上的数据与HDFS或数据集成服务器之间互传。
      • 存储过程
      • 用于调用执行数据库存储过程的任务。
      • 外部脚本调用
      • 数据集成系统提供外部程序调用接口,用户可以使用这个功能执行操作系统命令、第三方程序,或自行开发的应用程序。
      • 转换
      • 调用执行数据流的任务。
      • 计算
      • 用于改变控制流变量的取值。
      • 触发器
      • 触发任务是从当前控制流触发启动另一个控制流。触发任务并不执行实际的数据处理功能,只能用于创建控制流或任务触发关系。
      • 汇接
      • 将多个任务流程汇聚到一起的任务。汇接任务不执行实际的数据处理功能,仅起汇总连接作用。
      • 文件等待
      • 当等待的文件已经到达且数量满足要求时,文件等待任务执行成功。若超过等待超时时间,并且文件仍未到达或到达文件的数目不足时,则文件等待任务执行失败或上报告警。
      • 依赖
      • 依赖任务是添加跨控制流依赖关系的任务。依赖任务并不执行实际的数据处理功能,只能用于创建任务、控制流依赖关系。
      • 指标稽核
      • 指标稽核任务主要是通过校验表达式对转换任务中数据处理过程中的各项指标进行校验,并提供有效预警。
      • 自定义节点
      • 自定义节点任务是在控制流中调用用户自定义的控制流任务。
      • 循环入口
      • 用来作为一个循环体的入口,本身不做任何操作。只有当流程中使用了“循环入口”节点,才能够配置循环流程。
      • 空白任务
      • 空白任务是不执行任何处理的任务。引入空白任务,当控制流的流程图中存在多个任务,而其中一个或多个任务功能不清楚时,可以暂时引入空白任务来代替。待用户确认该任务功能后,再用实际的任务取代空白任务。您也可以引入其他任务作为起始任务,之所以建议引入空白任务,是因为空白任务不产生问题数据。

      控制流功能清单

  • 数据流引擎展开
    • 用于对数据集的处理流程,主要负责对数据集进行抽取、转换和加载。

      数据流抽取功能清单如表所示。

      • 功能
      • 描述
      • HDFS文本抽取
      • 从Hadoop分布式文件系统上进行数据抽取。HDFS文件抽取节点可以从不同类型的文件中读取数据,也可以从不同格式的文件(定长格式文件、列分隔符字段文件和"名称-值"对文件)中读取数据。
      • HDFSXML抽取
      • 从Hadoop分布式文件系统(HDFS)上进行XML文件抽取。
      • XML抽取
      • 从数据集成服务器上进行XML文件抽取。
      • JDBC抽取
      • 采用JDBC数据库连接技术从数据库表中抽取数据。支持JDBC数据库连接技术的数据库,都可以通过JDBC抽取从数据库表中抽取数据。
      • Oracle抽取
      • Oracle抽取节点采用ORACLE数据库提供的OCI(Oracle Call Interface)接口来读取Oracle数据库中的数据。与JDBC抽取节点相比有处理速度快的优点。
      • DB2抽取
      • DB2抽取节点采用DB2数据库提供的CLI(Call-Level Interface)接口来读取DB2数据库中的数据。与JDBC抽取节点相比有处理速度快的优点。
      • HBase抽取
      • 从HBase中抽取数据。HBase是一个分布式的、面向列的开源数据库,其基于列的而不是基于行的模式,适用于非结构化数据存储。
      • Hive抽取
      • 从Hive数据仓库中抽取数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的HQL(Hive Query Language)查询功能。
      • 内存抽取
      • 内存抽取节点从VCU(VecSurf Compute Unit 内存计算单元)的共享内存中读取指定XDR表(X Detail Record 详单)的数据。
      • 文本抽取
      • 文件抽取节点可以从不同类型的文件(普通文件和“.gz”文件)中读取数据,也可以从不同格式的文件(定长格式文件、列分隔符字段文件和"名称-值"对文件)中读取数据。

      数据流-抽取功能清单

      数据流转换功能清单如表所示。

      • 功能
      • 描述
      • 过滤
      • 过滤节点用于对数据集根据函数表达式进行过滤。在过滤节点中,用户可以设置过滤条件输出过滤记录。系统根据用户设置的过滤条件对输入的数据进行过滤,并将结果输出。
      • 分组
      • 支持对分组字段做求平均值、求和、求最大值、求非0个数的计算,并支持自定义表达式计算。
      • 查找
      • 查找节点提供精确查找、递减查找、区间查找和模糊查找的功能。
      • 连接
      • 连接节点用于将两个数据集按字段进行连接,支持按照内连接、左外连接、右外连接和全外连接输出字段。
      • 剔重
      • 剔重节点用于根据关键字段把输入数据源中的重复记录剔除出去,保证输出记录中不会出现关键字段重复的记录。
      • 路由
      • 使用路由节点将数据拆分成多份。用户可以指定数据拆分规则,原始文件将根据拆分规则拆成多份。按指定字段拆分,例如地市分公司、月份或者数据值大小。
      • 合并
      • 用于将对两个数据集进行合并成一个数据集。数据集是通过数据抽取节点从数据源中读取出来的一组数据,在合并节点中分为主数据集和增量数据集。在合并节点中对于增量数据集中的每一条记录,需要根据关键字段检查主数据集中是否存在相同的记录。当主数据集与增量数据集存在相同记录时,则使用增量数据集中的记录替换主数据集中的记录;否则,将增量数据集中的记录添加到主数据集中。
      • 排序
      • 排序字段根据关键字段将源数据进行排序,用户可根据需求对任意字段进行排序。
      • 转换
      • 在转换中,用户可新增字段,并为该字段定义函数表达式。系统根据用户定义的表达式对相关的输入字段进行计算。用户可以输出该字段到目标文件或数据集中。在转换节点中还可以直接对数据类型进行转换。
      • 联合
      • 联合节点将多个数据集中配置的关联字段进行追加,生成一个新的数据集。与合并节点不同的是联合节点不会根据关键字段对数据集中的相同内容进行合并。
      • 列转行
      • 列转行节点支持将多列转换成多行,转换的列数需要大于等于2行。
      • 增量合并
      • 将增量数据与主数据合并,根据增量数据中的插入、删除和更新关键字将增量数据合并到主数据中。

      数据流-转换功能清单

      数据流加载功能清单如表所示。

      • 功能
      • 描述
      • 文本加载
      • 文件加载节点可以将经系统加工处理后的数据加载到数据集成服务器上的目标文件,可以加载到一个目标文件,也可以加载到多个目标文件,还可以输出记录的行号。
      • HDFS文本加载
      • HDFS文本加载节点可以将经系统加工处理后的数据加载到Hadoop文件系统上的目标文件,可以加载到一个目标文件,也可以加载到多个目标文件,还可以输出记录的行号。
      • HDFSXML加载
      • 将数据加载到Hadoop分布式文件系统的XML文件中。
      • XML加载
      • XML文件加载节点可以根据配置的文件格式信息,将数据集加载到XML文件中进行保存。
      • JDBC加载
      • JDBC加载采用JDBC连接技术将经过系统计算、过滤等加工处理的数据加载入库。支持JDBC连接技术的数据库,都可以采用JDBC加载节点。
      • Oracle加载
      • Oracle加载采用Oracle SQL*Loader工具将经系统计算、过滤加工处理的数据加载到Oracle数据库。
      • DB2加载
      • DB2加载节点调用DB2 Loader命令将系统计算、过滤加工处理后的数据加载到DB2数据库,因此,DB2加载具有专用性和高效性(加载速度快)特点。
      • HBase加载
      • 将转换处理后的数据加载到HBase数据库。
      • Greenplum加载
      • 将转换处理后的数据加载到Greenplum数据库。
      • Hive加载
      • 将数据加载到Hive数据仓库。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的HQL(Hive Query Language)查询功能。
      • 缓慢变化维数据加载
      • 当加载的管控模型的“实体类型”为Oracle“维表拉链表(Typ2 Dimension Table)”时,默认通过JDBC缓慢变化维(TYPE 2)方式加载到Oracle数据库。
      • 数据模型加载
      • 支持与数据治理模块对接从数据模型抽取加载数据。

      数据流-记载功能清单

  • 流程监控展开
    • 实时流程监控
    • 查询正在执行的流程信息,包括正在运行和被挂起的流程。

    • 历史流程监控
    • 查询已经执行完毕的流程信息,包括运行成功、运行失败和被终止的流程。

    • 消息预警
    • 提供设置预警消息功能。BDI系统支持按任务类型和按具体任务新增、修改、删除和查询预警消息的功能。

    • 过程回溯
    • 以某个元数据为起始节点,以图形化方式展示后端与其有关系的所有元数据,反应数据的流向与加工过程。使用影响分析可用于判断数据流向和定位数据转换中的错误,如图所示。

      设置过滤条件

    • 进度监控
    • 支持查看调度任务的时间分布情况,如图所示。

      进度监控