V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  dangluren  ›  全部回复第 4 页 / 共 4 页
回复总数  75
1  2  3  4  
2018-07-30 17:21:39 +08:00
回复了 engineer9 创建的主题 Hadoop hadoop or spark 大数据去重(10 亿)
为什么 spark,hadoop 不适合你们的场景。
是考虑到 A B B A 无法判断相同? 这种情况可以将每一条看成一个对象,重写 equals 方法啊。
又或者是考虑到资源不足?
2018-07-25 13:09:42 +08:00
回复了 forkon 创建的主题 程序员 谁能精辟地解释一下什么是初级、中级、高级开发者?
初级:这个需求我不会做
中级:这个需求我可以做
高级:这个需求我不做
2018-07-02 13:14:48 +08:00
回复了 beijixiong 创建的主题 职场话题 纠结 offer 和是否留武汉,请大家指点
是我的话,就北京京东吧,先镀个金,生命在于奋斗
能在家远程上班感觉好爽
2018-06-15 13:26:51 +08:00
回复了 Shynoob 创建的主题 程序员 北漂第 40 天,分享一下并提问
大连三倍是多少
2018-06-14 19:09:59 +08:00
回复了 Allianzcortex 创建的主题 职场话题 回看这两年,真的是唏嘘不已
我们很相似,我觉得不必要去自我否定,吾性自足,不假外求
2018-06-11 14:27:04 +08:00
回复了 MrXiong 创建的主题 Java Java 超大文件统计
你好,这种问题,就和 mapreduce 类似了。如果你不用 mapreduce,可以这样做(其实也是 mapreduce 的原理)
假如数据有 10G,你内存 1G, 假设比较均匀,不存在数据倾斜情况(倾斜不能太严重)。
1. 你先一行一行的读取,然后得到 key 的 hashcode, 然后对%20,得到的数是几,就写到第几个文件去。
2. 由第一步你就得到了 20 个文件了,如果数据没倾斜,大概一个就 500M, 这时候同一个 key 的肯定在同一个文件,进行处理就可以了。
3. 如果有点数据倾斜,就%30, %50 的尝试。如果某一个 key 就超过了 1G,某个 key 很大的情况下,你可以先把这个 key 过滤出来,写入到一个文件中,然后再使用布隆过滤器或者其他什么方法
2018-05-27 13:48:48 +08:00
回复了 zhuzhuyule 创建的主题 职场话题 offer 如何选择呢?
C
2018-04-29 14:08:23 +08:00
回复了 0207 创建的主题 职场话题 [应届非技术岗] 微软和头条的 offer,怎么选?
想都不想就要去微软啊!!!! 你不知道一个公司的品牌多重要。即使不在核心部门又怎么样,做这行肯定会跳槽,微软出来跳槽相对于头条,更加的香饽饽。
2018-04-28 13:49:16 +08:00
回复了 shadowHunter 创建的主题 程序员 就业项目组选择?
集群分布式专家, 这个要一定难度,国内大多数只会造轮子用框架,这方面人才较缺
2018-03-30 13:11:57 +08:00
回复了 xiamuguizhi 创建的主题 Blogger 各位大佬能发下你们的博客吗?仅供参考!
hexo
http://dangluren.top/
欢迎关注 github
基本就是 csdn,偶尔去 github page 上写一写,不过懒得布局(没有设置好摘要)
http://dangluren.top/
2018-03-20 13:13:00 +08:00
回复了 Leigg 创建的主题 数据库 [面试] 关于海量数据存储的数据库选型问题
才近百万条数据,就算是海量数据吗,这么点数据,mysql 检索慢和选型有关系吗? 你直接反问他
2018-03-11 22:52:23 +08:00
回复了 herozem 创建的主题 分享发现 分享一下最近作为面试官得到的体悟
感谢分享的经验,参考部分,但是还有很多地方和楼主看法不一样。希望大家也要保持自己的辨识与见解
我也在科兴附近上班,然后在宝安西乡。预算 3500 的话,建议去宝安西乡步行街附近,或者去坪洲地铁站附近,多花点时间两室一厅大概 2500 即可(环境还过得去那种,当然也不是太好,本人找了一个月,在西乡步行街附近找到一个 1600 两室一厅,面积还挺大,里面也挺干净),早上坐公交车去西乡步行街,建议坐优点巴士都有座位,实在不行坐 4 路车,都是 25-30 分钟左右到科技园。 如果是坪洲附近,就坐地铁到深大站。
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2872 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 15:04 · PVG 23:04 · LAX 07:04 · JFK 10:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.