基本情况: 1. 数据量 TB 级 数据基于 HTTP 协议、KAFKA 、日志文件等方式进行传输(暂不考虑直接从数据库等存储中抽取数据的情况) 2. 数据格式可能是 Json 、syslog 、xml 、有固定格式的文本日志如 Nginx 日志 3. 编程语言 Python(能力所限,大佬勿喷,可拓展), 中间件是开源就行 需求: 1. 可以通过编写配置文件的方式,对异构数据进行采集及格式的统一化。 2. 对上一条的补充说明,实际工作中需要对接的设备会比较多,并会在未来的时间里对接很多的不同种类的设备。所以现在希望写一套能减轻这部分工作成本的代码 /系统。
跪求思路,请大佬们不吝赐教 祝身体健康,工作顺利!