可持续的数据环境方案 - Macaca DataHub

环境问题一直困扰我们各位，缺乏数据或数据管理不善都会导致研发整体效率低下。行业内也有许多 Mock平台，以集中式服务为主。

Macaca DataHub 是开源的数据环境提供方案，能为项目研发全周期提供服务，`Hub` 顾名思义。

DataHub - Continuous data provider for development, testing, staging and production.

起初我们一直面临以下几个问题，并在寻求最优解的过程中基于 Eggjs 开发了 DataHub 项目。

数据源问题

研发期数据缺失，终端同学与服务端根据产品需求，或者已有服务，约定业务交互字段。此时终端同学会根据业务字段创建可以用来 Mock 的数据，数据源需要满足如下几个原则：

标准化：由于终端几乎都基于同一层面的数据协议，各业务在数据交互上的通用性足以满足统一的要求，这里杜绝的个性化引入数据源附加的学习成本和 backup 成本
非侵入：数据源注入不侵入项目代码本身，也就是说业务逻辑的代码不会感知数据来自哪里
去中心：无中心服务依赖，工程本地即有数据备份，任何人可离线开发

场景问题

在面向复杂场景时，最常讲到的就是场景问题，除富交互编辑器一类的业务外，展示型业务的复杂往往意味着场景多，场景组合情况多，业务流转过程中分支多。组合场景的情况很容易遗漏关键场景，而且不好管理。一旦多人交叉协同，前后交互字段有调整导致信息流反复，追溯成本变高。

可管理：场景数据需要可维护和管理，支持场景数据的语义化和基本的增删改
版本化：场景数据需要与业务逻辑一样，具备可版本化能力，场景数据以明文形式在当前工程中集成

生命周期问题

研发期的数据相对好解决，但从研发全环节覆盖的视角看待这个问题时，需要考虑后续的问题才能从整体上解决。

可迭代：场景数据可以随项目通过 Git timeline 管理，并作为交付必要部分
一致性：数据源应该由上一个周期延续，并在系统集成测试时对接真实数据源
文档化：一致性使得接口文档维护不再散乱、滞后，接口文档自动生成并保持迭代能力是最优解
可测试：无论是进行交付前的函数单元测试、UI 单元测试，还是测试期的系统集成测试都需要依赖可组合数据源，集成测试阶段稳定性要求高，需要数据源服务对外围服务做屏蔽

其它问题

录入成本：数据源人工初次录入成本较高，尤其是在联调期应该支持由请求快照自动录入
问题排查：生产环境应该支持切换数据源，支持代理和快照记录

多环节覆盖

DataHub 支持从本地开发阶段，到集成测试阶段，以及上线前验证阶段的一系列数据环境需求，研发同学与测试同学直接面向 DataHub 管理数据即可，DataHub 可支持 iOS, Android 和前端工程。

去中心化

DataHub 采用去中心化设计，本地研发阶段每项实例都拥有一份独立的数据备份，数据为明文，可随当前项目版本管理工具进行版本化归档，使得项目数据能做到随开随用，支持离线开发。

另外，每份数据都可向远端服务推送并同步，满足不同阶段中心化协同的需要。

数据流动管理

DataHub 采用单向数据流动的原则，使当前项目下的数据内容及时变更并写入。

文档一致性

DataHub 将数据与字段描述整合处理，自动生成接口文档。使得文档能够与交互字段随时保持一致。

场景管理

DataHub 采用多场景设计，能够根据场景名称进行数据分组，同时提供了场景数据编辑功能，可以通过 DataHub 的面板界面进行操作。

请求快照

DataHub 兼备代理功能，会将最近请求的实时响应保存下来，便于归档。也就是说你可以通过已归档的快照随时复现和追溯当时的场景。

无缝接入

DataHub 提供命令行客户端，可以在任何时间拥有完整服务，Web 工程接入可以直接使用 Webpack 中间件无缝集成，与 Vue, React 等页面构建框架配合完成研发、测试以及覆盖率统计，客户端工程只需适配网络库即可接入。

无论你是前端，还是Noder？或者客户端开发？都可以从以下提供一些开源的样板示例得到参考。

多语言栈

为满足自动化测试随时对场景组合的要求，DataHub 提供了多语言客户端，开放的 API 可以完成更多定制化的操作和集成方式。目前支持 Node.js, Java 和 Python 三个技术栈，适用于更深入的工程实践。

支持多协议的探索

也尝试对 JAVA 栈 SOA 类服务层的数据做同样的管理，以完成集成测试阶段对环境的种种要求，提供任意协议的 RPC 数据内容，如 Dubbo 所使用的 hession，在实践的过程中发现映射为同一套描述成本很高，原因是在这类微服务框架的应用层面直接使用 Java Interface 来定义传输体结构，泛型的返回使得反序列化变难了，除非所有接口都返回 JSONObject。目前来看无论是基于 hession 还是 grpc，在框架层面都统一序列化成 JSON 协议最为通用，或者选择 RAML 一类的规范化 DSL 作为定义方式才会降低维护成本。

上手试试？

接下来我们来体验 DataHub。

1 通过 NPM 全局安装

$ npm i macaca-datahub -g

2 启动 DataHub 服务

$ macaca-datahub server

可以看到如下的提示，可以看到 DataHub 面板启动在 9200 端口，socket 启动在 9300 端口。

DataHub server start at: http://127.0.0.1:9200
websocket server start at: 9300

如果你习惯使用 Docker，那部署就更方便了，一个命令就可以搞定。DataHub 可以随时一键部署到你的研发系统中。

$ docker run -it -p 9200:9200 -p 9300:9300 macacajs/macaca-datahub

接下来就可以通过官方文档来创建 Hub 和 API 接口，上手文档。

欢迎使用，欢迎共同探讨。

zhangyuheng 1楼•8 年前

欢迎讨论欢迎提 issue

yllziv 2楼•8 年前

已经在项目中用起来了，大大提高研发和测试效率！

Chan-Chun 3楼•8 年前

用过Datahub来开发，Datahub不仅可以生成对应场景的Mock数据，也能保存和共享Mock数据。Datahub的场景管理方便且易于上手，数据都能可视化操作。除此之外，Datahub能良好支持多端使用，可以为复杂工程提供数据支持。点个赞！

atian25 4楼•8 年前

赞!

okoala 5楼•8 年前

xuemengfei 6楼•8 年前

很方便的数据管理及多场景切换功能，再配合自动化测试简直太省心了

Sunshine168 7楼•8 年前

赞！

dengnan123 8楼•8 年前

👍

elrrrrrrr 9楼•8 年前

👍

xiekw2010 10楼•8 年前

👍

tsj1107 11楼•8 年前

用过就知道好用！

jsw0528 12楼•8 年前

如果你的业务面临数据环境不稳定、质量回归成本高、跨团队协作重复劳动效能低，那么 DataHub 绝对不会让你失望。

Macaca DataHub 是开源的数据环境提供方案，能为项目研发全周期提供服务，Hub 顾名思义。