使用great_expectations做数据校验
由于网上的关于数据质量平台的方案比较少,目前datavines看上去很不错,但是目前这个项目还在起步阶段,有兴趣的话,可以一起参与这个项目共建。
所以笔者暂时先用great_expectations来尝试做质量校验。
1.安装great_expectations
1 | // 为了方便控制环境,我这边使用conda 创建python38的环境 |
2.创建mysql
为了方便,我这边直接使用docker创建一个mysql
3.安装python需要的mysql依赖
1 | 这里是一个注意点,目前2.0的sqlalchemy还是有些bug的,目前还不能完美支持,请使用1.4.0的版本 |
4.初始化great_expectations
1 | great_expectations init |
5.用great_expectations cli添加新数据源
1 | great_expectations datasource new |
连接会自动跳转到一个jupyter notebook
这里需要特别注意一下,不然会报错(object supporting the buffer API required):
我们依次完成对应的配置。最后的结果图:
我们打开文件夹删除掉添加用到notebook
6.创建Expectations
1 | great_expectations suite new |
1 | 这里有一个issue,目前我已经提上去了,还在和官方交流中 |
https://github.com/great-expectations/great_expectations/issues/7030