hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,
hadoop 具有 hdfs 文件系统管理功能,
hive 则是 hadoop 的 hql 管理版增强包,
那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象
但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?
换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗
1
liprais 343 天前
你要读 excel 自己写个 serde 就行了
hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义 |
3
Alias4ck 343 天前
你这种非结构化的数据 ,hive 是无法处理的,
对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据 你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es 不过主流方案也是存储它在 hdfs 上面的路径吧 |
4
rrfeng 343 天前 via Android
hdfs 是 ext4
hive 是 mysql 这样对比是不是容易理解了 |
7
rrfeng 343 天前 via Android
HBase 是 MongoDB 。
不如说一下你的原始需求 |
9
xue777hua 343 天前
可以实现 增加一个 udf 就行 用来解析文件
|