技术求助帖，关于 redis 大 value 存储的问题

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2064 days ago, the information mentioned may be changed or developed.

这是我在 V2EX 的第一个帖子

最近遇到一个业务场景，外部接口每隔 5 秒种会给我一批温度参数, 分别为每个机器上的不同温度,需要在前台动态曲线图实时显示，前台每次只能看某 1 天和某一个机器的温度参数, 历史数据曲线图可以查询

技术上我做了分表,每一天的数据建一张表，大概 100 台左右的机器数量，每一天的数据 172 万, 单台机器的温度数据每天大概为 1.7 万

前置条件： 任何一台机器温度数据一旦生成是不会变的，我的思路能不能放缓存中，这样就不用去 100 多万条数据，拿机器编号去匹配了

但是我尝试把 1.7 万条数据放入 redis 中，这个时候 redis 直接报了个命令超时，应该是 value 过大，导致性能下降，IO 瓶颈太大

所以这种场景的需求究竟要怎么处理呢？ 感觉我这个需求和股票的实时曲线很像好难啊呜呜呜

Supplement 1 · Dec 1, 2020

感谢大家的一些建议,第一次 V2EX 发帖,受宠若惊,V2EX 果然很程序员
谢谢大家

Supplement 2 · Dec 1, 2020

我尝试了使用文件的方式，因为技术上代价最小，很快，文件一旦生成，通过 json 反序列化能基本能在 100ms 内,把所有的数据整出来，剩下的时间基本就花在网络传输上了，但是后续我会研究研究大家说的时序数据库，你们的建议对我的帮助很大，谢谢你们

Redis

机器

温度

数据

73 replies • 2020-12-01 16:32:58 +08:00

6IbA2bj5ip3tK49j

Nov 30, 2020

每台机器的 1.7 万条数据，放到一个 list/zset 里面去。

hehe12980

Nov 30, 2020

一条一条放取的时候批量取么

hehe12980

Nov 30, 2020

@xgfan 一条一条放取的时候批量取么

6IbA2bj5ip3tK49j

Nov 30, 2020

@hehe12980 采集一次放一次呗。取的时候批量取。
看起来用 zset 比较合适。用生成时间做为 score，也方便清理过时数据。

Jooooooooo

Nov 30, 2020

大 key 简单的做法是打散

散到 100 个 sub key 里去, 然后捞这个 key 数据的时候直接 pipeline 去捞这 100 个 sub key 然后组装起来

XDJI

Nov 30, 2020

可以切下比如机器 1 切 10 个 key 存的时候批量存取得时候批量取就是

pushback

Nov 30, 2020

可以参考 hashmap 的切法

qwerthhusn

Nov 30, 2020

时序数据库是不是更适合。。

sagaxu

Nov 30, 2020 via Android

历史数据存 db，不用缓存，一张表存明细，一张表每行是一个设备一天所有数据。

实时数据存 hashmap，key 为设备 ID，field 为时间 slot(0 到 17280)，绘制实时曲线的时候，首次取整个 hash，之后只要取比上次最大 slot 更大的值。

digitv

Nov 30, 2020

为什么用 redis ？你的查询量多大？

chengz

Nov 30, 2020

应该是拿 redis 当缓存用
存入可以数据可以实时存
读取数据分批量取，还有大 key 就考虑将大 key 拆分

lyy16384

Nov 30, 2020

你的机器编号没索引的吗

hehe12980

Nov 30, 2020

@lyy16384 有索引你也是得扫 1.7 万啊

hehe12980

Nov 30, 2020

@dynastysea 没啥查询量就是历史数据去数据库查感觉慢, 历史数据是固定的

rrfeng

Nov 30, 2020

建议上个时间序列数据库，influxdb 或者直接上个 prometheus （如果不要求持久化的话）

rrfeng

Nov 30, 2020

这数据量对专业的 TSDB 来说是小儿科~

hehe12980

Nov 30, 2020

@rrfeng 上新数据库应该不考虑了毕竟引一个数据库就干这么一个事 ==

rrfeng

Nov 30, 2020

1.7w 个 float 也没多大啊，改一下超时时间呗

hehe12980

Nov 30, 2020

@rrfeng 不止温度一个字段，有 6 个业务字段，绘制 6 条曲线，实时的，所以放 redis 没问题，取的时候设置 3s 超时直接爆了感觉还没 mysql 快感觉 redis 用的有问题==

hehe12980

Nov 30, 2020

@sagaxu 历史数据存 mysql, 查的时间大概是 0.5s 到 1.1 秒之间，感觉这个响应时间还是有点慢了

lyy16384

Nov 30, 2020

@hehe12980 #13 这 1.7 万都是你的要取的数据，具体从 redis 取还是从数据库取根本没什么区别

sagaxu

Nov 30, 2020 via Android

@hehe12980 一次取 1.7 万条数据？那为何不把这 1.7 万条放一行里面呢？ mysql 也有数组或者 json 吧。

hehe12980

Nov 30, 2020

@lyy16384 去 mysql 还有通过索引检索但是如果我做一个 k-v 映射提前放入 redis 会好点把

hehe12980

Nov 30, 2020

@sagaxu 没想过放一行的方式感觉有点疯狂毕竟几 M 的数据

qq316107934

Nov 30, 2020

按照时间做分表，每小时存一个 key，然后像 1 楼说的用 list/zset，取的时候根据时间范围去批量拿，这样可以避免超时。

SlipStupig

Nov 30, 2020

你这个用法不太对，redis 单个 key 是有大小限制的，这要做非常不利于检索，机器肯定是是有标识符的，用机器名称拆分作为 namesapce，然后用小时生成一个命令空间，使用 zset 作为数据存储类型，例如：Machine1:2020-11-30:00，这个 key 代表就某一机器在 2020-11-30 的 0 点~1 点之间产生的数据，要匹配机器或者时间范围的时候，可以使用 zscan 去扫描前缀，对特定温度可以用 zscore 去检索，对于 KEY 的如果只查当天缓存，可以使用 TTL 值过期，如果性能压力特别大，就需要自己实现一个 TTL 机制去销毁 key 了

optional

Nov 30, 2020 via iPhone

这个需求直接存数据库加索引就行，没必要 redis，redis 不适合批量取。

lyy16384

Nov 30, 2020

@hehe12980 #23 而且只有整页刷新的时候才会查全天的数据，实时更新曲线只要查增量数据，用数据库完全不会成为性能瓶颈

614457662

Nov 30, 2020 via Android

时序数据库或者 elastic search 吧，现成的轮子用着方便快捷。

digitv

Nov 30, 2020

@hehe12980 我晕，一堆人也是需求没搞清楚就乱出主意，没啥查询量你告诉我用 redis 干什么？ redis 解决什么问题？？

4771314

Nov 30, 2020

redis 不是这样用的吧 QAQ
直接时序数据库吧，场景很合适

funky

Nov 30, 2020

timescladb

ixiaohei

Nov 30, 2020

用时序数据库吧，influxdb 你值得了解一下

makdon

Nov 30, 2020

可以了解下 Apache 的 druid，这种场景很适合

rrfeng

Nov 30, 2020

你非要用 mysql 也可以，我给你造个方案，但是估计你不会想采用：

首先如上面某同学所说，这场景根本不用 Redis，因为你每次都是取全量数据，根本没有冷热之分，而且 Redis 并发支持还有问题，不如直接从 mysql 里取。

那么现在的问题就变成了怎么从 mysql 取最快：压缩。
可以一张表暂存 push 上来的 1 小时内的数据，在某小时过去 x 分钟之后，前一小时的数据可以认为已经固化了，启动个后台线程压缩存到另一张表里。

压缩算法用什么呢？抄一下 prometheus 或者相关衍生产品的压缩算法（专门针对大量 float ），大概可以做到 1-2Byte 每个数字。这样每小时只有 1MB 的数据。

kingfalse

Nov 30, 2020 via Android

字段太大的话可以先压缩一下，再放，gzip 一下，效果很明显

iyaozhen

Nov 30, 2020

我之前是历史的存 MySQL，redis 只存最近几小时的。用 unix 时间戳做 key，反正几小时多少秒是固定的，批量拿 key 就行

hehe12980

Nov 30, 2020

@dynastysea 难道 redis 只能解决，查询量大的需求，如果我有一个查询效率不是很高的 sql （出于业务场景可能要连表查询或者数据量太大）, 如果结果是固定不变的冷数据，为什么不能放缓存呢？

MineDog

Nov 30, 2020

我觉得时序数据库更符合你的要求

liuhuansir

Dec 1, 2020 via Android

opentsdb

akira

Dec 1, 2020

influxdb + prometheus

no1xsyzy

Dec 1, 2020

你这是把 redis 当 kv store 了？

no1xsyzy

Dec 1, 2020

我跟你说，你只是作一个复杂 query 的缓存的话，取巧的，直接拿文件做

noparking188

Dec 1, 2020

我咋感觉分表分得更难做了，也许应该换个分表方式

noqwerty

Dec 1, 2020 via Android

这两天刚好在玩类似的东西，influxdb+grafana 完美契合

Yuansir

Dec 1, 2020

这应该是时序数据干的活

jhhhh

Dec 1, 2020

redis 不合适，mysql 不想用。
那可以尝试下文件方式。按你后续要搜索的条件去存储响应格式内容的文件。

xuanbg

Dec 1, 2020

这个需求不适合用 redis，内存会炸。influxdb 还是比较合适的。

问题是你画曲线直接用 5 秒的原始数据？这 x 轴 17280 个坐标点？什么显示器能把 1 天的数据给显示全了，18K 么？？？

hehe12980

Dec 1, 2020

@xuanbg 那个可以曲线图可以伸缩的

hehe12980

Dec 1, 2020

@xuanbg 像股票的曲线图是秒级的一天差不多也 1 万多个点它们的曲线图不就显示全了，只要曲线很平滑就能显示的很舒服

fengpan567

Dec 1, 2020

K 线图都没你这数据量大，时间周期短的也是 1 分钟

Mithril

Dec 1, 2020

直接上时序数据库。懒得折腾 influxdb 的花，直接 prometheus 。
连代码都不用写。。

digitv

Dec 1, 2020

@hehe12980 因为从你的场景出发，这个是完全没必要的，你说的这个 sql 完全就可以满足，没必要提早过度优化。

stevenkang

Dec 1, 2020

5 秒钟上报一次，按天的维度下，并不需要 5 秒钟刷新一次前端展示。

按天算，24 小时 x 60 分钟 = 1440，一分钟刷新一次足以满足需求。多了也看不出来有啥变化。

按小时算，60 分钟 x 60 秒 = 3600，算一半 1800，两秒钟刷新一次也满足需求，多了同样看不出来啥变化。

总之，不要在一个时间范围很大的维度上，展示的数据粒度又很小，那样无意义（参考各种监控系统的设计）。