缓存空间优化实践
作者:京东科技董健
缓存Redis,是我们最常用的服务,其适用场景广泛,被大量应用到各业务场景中。也正因如此,缓存成为了重要的硬件成本来源,我们有必要从空间上做一些优化,降低成本的同时也会提高性能。
下面以我们的案例说明,将缓存空间减少70的做法。场景设定
1、我们需要将POJO存储到缓存中,该类定义如下publicclassTestPOJOimplementsSerializable{privateStringtestStatus;privateStringuserPin;privateStringinvestor;privateDatetestQueryTime;privateDatecreateTime;privateStringbizInfo;privateDateotherTime;privateBigDecimaluserAmount;privateBigDecimaluserRate;privateBigDecimalapplyAmount;privateStringtype;privateStringcheckTime;privateStringpreTestStatus;publicObject〔〕toValueArray(){Object〔〕array{testStatus,userPin,investor,testQueryTime,createTime,bizInfo,otherTime,userAmount,userRate,applyAmount,type,checkTime,preTestStatus};returnarray;}publicCreditRecordfromValueArray(Object〔〕valueArray){具体的数据类型会丢失,需要做处理}}
2、用下面的实例作为测试数据TestPOJOpojonewTestPOJO();pojo。setApplyAmount(newBigDecimal(200。11));pojo。setBizInfo(XX);pojo。setUserAmount(newBigDecimal(1000。00));pojo。setTestStatus(SUCCESS);pojo。setCheckTime(20230202);pojo。setInvestor(ABCD);pojo。setUserRate(newBigDecimal(0。002));pojo。setTestQueryTime(newDate());pojo。setOtherTime(newDate());pojo。setPreTestStatus(PROCESSING);pojo。setUserPin(ABCDEFGHIJ);pojo。setType(Y);
常规做法System。out。println(JSON。toJSONString(pojo)。length());
使用JSON直接序列化、打印length284,这种方式是最简单的方式,也是最常用的方式,具体数据如下:
{applyAmount:200。11,bizInfo:XX,checkTime:20230202,investor:ABCD,otherTime:2023041017:45:17。717,preCheckStatus:PROCESSING,testQueryTime:2023041017:45:17。717,testStatus:SUCCESS,type:Y,userAmount:1000。00,userPin:ABCDEFGHIJ,userRate:0。002}
我们发现,以上包含了大量无用的数据,其中属性名是没有必要存储的。
改进1去掉属性名System。out。println(JSON。toJSONString(pojo。toValueArray())。length());
通过选择数组结构代替对象结构,去掉了属性名,打印length144,将数据大小降低了50,具体数据如下:
〔SUCCESS,ABCDEFGHIJ,ABCD,2023041017:45:17。717,null,XX,2023041017:45:17。717,1000。00,0。002,200。11,Y,20230202,PROCESSING〕
我们发现,null是没有必要存储的,时间的格式被序列化为字符串,不合理的序列化结果,导致了数据的膨胀,所以我们应该选用更好的序列化工具。
改进2使用更好的序列化工具我们仍然选取JSON格式,但使用了第三方序列化工具System。out。println(newObjectMapper(newMessagePackFactory())。writeValueAsBytes(pojo。toValueArray())。length);
选取更好的序列化工具,实现字段的压缩和合理的数据格式,打印length92,空间比上一步又降低了40。
这是一份二进制数据,需要以二进制操作Redis,将二进制转为字符串后,打印如下:
SUCCESSABCDEFGHIJABCDj6XXj6?bMiQY20230202PROCESSING
顺着这个思路再深挖,我们发现,可以通过手动选择数据类型,实现更极致的优化效果,选择使用更小的数据类型,会获得进一步的提升。
改进3优化数据类型
在以上用例中,testStatus、preCheckStatus、investor这3个字段,实际上是枚举字符串类型,如果能够使用更简单数据类型(比如byte或者int等)替代string,还可以进一步节省空间。其中checkTime可以用Long类型替代字符串,会被序列化工具输出更少的字节。publicObject〔〕toValueArray(){Object〔〕array{toInt(testStatus),userPin,toInt(investor),testQueryTime,createTime,bizInfo,otherTime,userAmount,userRate,applyAmount,type,toLong(checkTime),toInt(preTestStatus)};returnarray;}
在手动调整后,使用了更小的数据类型替代了String类型,打印length69
改进4考虑ZIP压缩
除了以上的几点之外,还可以考虑使用ZIP压缩方式获取更小的体积,在内容较大或重复性较多的情况下,ZIP压缩的效果明显,如果存储的内容是TestPOJO的数组,可能适合使用ZIP压缩。
但ZIP压缩并不一定会减少体积,在小于30个字节的情况下,也许还会增加体积。在重复性内容较少的情况下,无法获得明显提升。并且存在CPU开销。
在经过以上优化之后,ZIP压缩不再是必选项,需要根据实际数据做测试才能分辨到ZIP的压缩效果。
最终落地
上面的几个改进步骤体现了优化的思路,但是反序列化的过程会导致类型的丢失,处理起来比较繁琐,所以我们还需要考虑反序列化的问题。
在缓存对象被预定义的情况下,我们完全可以手动处理每个字段,所以在实战中,推荐使用手动序列化达到上述目的,实现精细化的控制,达到最好的压缩效果和最小的性能开销。
可以参考以下msgpack的实现代码,以下为测试代码,请自行封装更好的Packer和UnPacker等工具:dependencygroupIdorg。msgpackgroupIdmsgpackcoreartifactIdversion0。9。3versiondependencypublicbyte〔〕toByteArray()throwsException{MessageBufferPackerpackerMessagePack。newDefaultBufferPacker();toByteArray(packer);packer。close();returnpacker。toByteArray();}publicvoidtoByteArray(MessageBufferPackerpacker)throwsException{if(testStatusnull){packer。packNil();}else{packer。packString(testStatus);}if(userPinnull){packer。packNil();}else{packer。packString(userPin);}if(investornull){packer。packNil();}else{packer。packString(investor);}if(testQueryTimenull){packer。packNil();}else{packer。packLong(testQueryTime。getTime());}if(createTimenull){packer。packNil();}else{packer。packLong(createTime。getTime());}if(bizInfonull){packer。packNil();}else{packer。packString(bizInfo);}if(otherTimenull){packer。packNil();}else{packer。packLong(otherTime。getTime());}if(userAmountnull){packer。packNil();}else{packer。packString(userAmount。toString());}if(userRatenull){packer。packNil();}else{packer。packString(userRate。toString());}if(applyAmountnull){packer。packNil();}else{packer。packString(applyAmount。toString());}if(typenull){packer。packNil();}else{packer。packString(type);}if(checkTimenull){packer。packNil();}else{packer。packString(checkTime);}if(preTestStatusnull){packer。packNil();}else{packer。packString(preTestStatus);}}publicvoidfromByteArray(byte〔〕byteArray)throwsException{MessageUnpackerunpackerMessagePack。newDefaultUnpacker(byteArray);fromByteArray(unpacker);unpacker。close();}publicvoidfromByteArray(MessageUnpackerunpacker)throwsException{if(!unpacker。tryUnpackNil()){this。setTestStatus(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setUserPin(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setInvestor(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setTestQueryTime(newDate(unpacker。unpackLong()));}if(!unpacker。tryUnpackNil()){this。setCreateTime(newDate(unpacker。unpackLong()));}if(!unpacker。tryUnpackNil()){this。setBizInfo(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setOtherTime(newDate(unpacker。unpackLong()));}if(!unpacker。tryUnpackNil()){this。setUserAmount(newBigDecimal(unpacker。unpackString()));}if(!unpacker。tryUnpackNil()){this。setUserRate(newBigDecimal(unpacker。unpackString()));}if(!unpacker。tryUnpackNil()){this。setApplyAmount(newBigDecimal(unpacker。unpackString()));}if(!unpacker。tryUnpackNil()){this。setType(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setCheckTime(unpacker。unpackString());}if(!unpacker。tryUnpackNil()){this。setPreTestStatus(unpacker。unpackString());}}场景延伸
假设,我们为2亿用户存储数据,每个用户包含40个字段,字段key的长度是6个字节,字段是分别管理的。
正常情况下,我们会想到hash结构,而hash结构存储了key的信息,会占用额外资源,字段key属于不必要数据,按照上述思路,可以使用list替代hash结构。
通过Redis官方工具测试,使用list结构需要144G的空间,而使用hash结构需要245G的空间(当50以上的属性为空时,需要进行测试,是否仍然适用)
在以上案例中,我们采取了几个非常简单的措施,仅仅有几行简单的代码,可降低空间70以上,在数据量较大以及性能要求较高的场景中,是非常值得推荐的。:
使用数组替代对象(如果大量字段为空,需配合序列化工具对null进行压缩)
使用更好的序列化工具
使用更小的数据类型
考虑使用ZIP压缩
使用list替代hash结构(如果大量字段为空,需要进行测试对比)