录制线上流量做回归测试的正确打开方式
线上流量什么是录制线上流量回放
为什么需要录制线上流量回放项目大迭代更新,容易漏测,或者有很多没用评估到的地方。如果用线上流量做一次回归测试,可以进一步减少bug的风险。大大节省构造测试数据,或者构造测试数据脚本的时间,提高效率。线上流量回放的限制是什么只回放GET请求
因为其他请求的回放,会对用户数据进行操作,有风险,需要排除。
除非构建多套备份数据库,但成本太高,不是很有必要。需要对比回放前后的流量
不然回放就没有意义了,你都不知道回放前后对比的差异是什么。需要去噪音
对比完了,对于一些类似时间戳的值,其实就是噪音,这些不一样很正常,我们需要剔除,不然差异没有价值。
由此可见,想要正确打开线上流量录制回放,需要解决很多问题。
而重中之重,就是diff。回放差异diffdiff实现对比和去噪
demo实现dockercomposeversion:2services:httpdemorecord:image:shaonianhttpdemo:gortestv2。9ports:8080:8080httpdemoreplayold:image:shaonianhttpdemo:diffold1httpdemoreplayoldnoise:image:shaonianhttpdemo:diffold2httpdemoreplaynew:image:shaonianhttpdemo:diffnewdiff:image:shaoniandiff:v0。1command:candidatehttpdemoreplaynew:8080master。primaryhttpdemoreplayold:8080master。secondaryhttpdemoreplayoldnoise:8080service。protocolhttpserviceNameDiffTestproxy。port:8880admin。port:8881http。port:8888rootUrllocalhost:8888summary。emailyouremail。comports:8881:88818888:8888diff效果
diff限制
diff的归类有问题。
因为url能携带各种各样的param,所以diff设计里面不会直接把url作为归纳名,需要通过在请求的header里面增加CanonicalResource:httpdemo来设置。
这就出来一个问题,线上转发的流量,无法根据具体的路由来动态设置归纳名,只能统一设置成是一个服务的,比如httpdemo这样,但是我这个httpdemo下有很多api,出来的差异具体是哪一个api呢,我也不知道,得看返回字段去猜,就很华而不实。
所以做到这里,只能自嗨,无法落地到实际项目中,想要真正落地,这一步也是一定一定要解决的!缺陷
以上实现的方法总结起来,就是把录制gor组件写进Dockerfile,并在项目运行的时候,实时录制线上流量,转发到测试环境,然后进行diff去噪对比。
但是这样就大功告成了吗?
并没有。
还有几个问题需要自我反问一下。我们真的需要实时录制转发吗?
其实不需要。
我们只是希望能够录制线上请求,然后根据再迭代之后用来回放测试。
如果开启实时回放,会在我们不需要测试的时候,浪费服务器的性能和资源。线上录制的回放,真的就代表全部场景吗?
其实也不对。
用户不一定不触发的场景,其实我们也需要覆盖。
录制只是让我们更容易更便捷生成测试数据而已。线上录制会有性能损耗吗?
或多或少都有影响,毕竟gor和服务处于同一个容器中。
所以三个反问以后,我们的需求逐渐明确了。
我们需要一个不会影响线上服务性能的,又能快速生成测试数据回放,并且能自定义补全更多场景的测试回放。
同时,我们还需要解决diff的路由智能匹配的问题。
这样可以吗?
我觉得可以。尝试的解决方案可以通过复制粘贴人为构造回放所需的测试数据日志
上图是录制流量以后保存的log文件,我们可以清楚看到它的结构,所以这是不是意味着,只要我们写出来这份相同格式的log,我们就能直接凭借这份log来回放呢?
对的。
此外,这个log里面,你可以直接根据具体的url,设置好相应的CanonicalResource,就直接解决了diff路由归纳名的问题。
而且,我们根本不需要真的到线上去录制,伪造一份这样格式的log,甚至还可以直接修改补全一些没有的场景进去,就可以直接以此为范本,作为回放log的效果了。
这样也根本不需要担心线上录制会影响线上服务器的性能和资源。解决所有问题以后,还有什么不优雅的地方
那log我也得复制粘贴去生成,而且log里面的时间戳排序,我也得自己造,这样看似方便,其实只是方便了不用手写代码来编造测试数据,可以直接通过编写log就能回放流量。
也就是,这样的方案,只是降低了测试技术栈的门槛,提高了一点点的效率。
而且还有个问题,很多的数据,我其实是动态生成的,我传进去之前,还得通过其他接口去获取返回值,再动态填进去,这样写log并不能实现啊。
还有,很多参数也有时效问题,过段时间token过期了,我替换token也很麻烦。
就算,设置成万能的token,那涉及到用户的数据,比如有些业务场景token里面包含了某类用户具体信息的时候,万能token就不管用了,因为有很多自定义的数据要去测。
所以,看似解决完所有技术栈问题以后,其实还有很多业务问题,导致它使用场景有限,甚至无法完全落地。正确打开方式
为什么要拘泥于用线上流量来回放呢?
如果我的脚本能够批量构造大量且覆盖众多场景,且可高度自定义的请求,再将这些请求直接去请求diff,不就能直接对比出前后有什么差异吗?
何况,就算我的内部rpc服务调用更改,变得更加复杂,但是暴露在外给用户的业务操作,是不会发生大改的。
而且此前,基于项目shaonianboomerlocust的压测工具,我之前已经实现了全链路压测的业务逻辑覆盖。
所以这里完全可以引出一个全新的概念,用可控速度的压测工具,以及高度灵活的编程脚本,实现大批量构造测试数据,模拟业务场景压力,并直接实现前后对比差异的不同。
因为数据全部都是新构造好的,所以不止GET请求我可以做,POSTPUTDELETE请求我也可以,因为数据都是我构造上传的,如果在测试环境中,完全删掉都不会有影响,而且只要设置好前后的测试脏数据的清理,其实线上数据库都能做。(当然,直接做到stage环境数据库就可以了,prod没必要。)进一步完善
既然正确打开了前后版本的快速diff测试,那么如何进一步完善呢?
当然是提高脚本的业务覆盖场景,已经代码覆盖率。
如何判断自己的构造回归流量,尽可能覆盖完全呢?
我们可以引入代码的实时染色,在本地就先测好覆盖率,再去部署上线。
这个代码实时染色,可以基于goc在vscode的插件来实现。
至此,快速构造测试数据,对比前后版本的方案成型,且可根据业务定制脚本,可落地实现,真正意义上地实现回归diff测试。
由此为基础以后,下一步,当然就是精准化测试,也是未来测试的大势所趋。