V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
itskingname
V2EX  ›  推广

数据工程师妹子养成手记——数据库篇[盖楼送书]

  •  
  •   itskingname · 2019-02-23 14:44:31 +08:00 · 8559 次点击
    这是一个创建于 2101 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这篇文章没有代码,请放心阅读。

    程序员最宝贵的东西是生命,生命属于程序员只有一次。一个程序员的一生应该这样度过:当她回首往事的时候,她不会因为搭建环境浪费时间而悔恨,也不会因为集群无法运行而羞耻。这样,在她开发的时候,她能够说:“我的整个生命和全部精力,都已经献给了开发中最重要的事情——设计程序,实现程序和调 Bug。” —— P 酱。

    P 酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?

    于是我和 P 酱~~生活~~工作在了一起。

    P 酱你会些什么?

    “我叫 P 酱,在 XX 大学读研二,爱好是拍照和被拍,大家可以在 B 站找到我跳舞的视频,比如 av170001。我的另外一个爱好是写代码……”

    当一个文科妹子说自己喜欢写代码的时候,整个办公室热闹了起来。

    “ P 酱,听说你喜欢写代码,那你写过什么东西吗?”新人介绍会议结束以后,我问 P 酱。

    “一般都是各种分析程序,我们的专业要做很多调查报告,他们都是用 Excel 来计算的。我喜欢用 Python 来把这些统计过程自动化。后来也写过自动写诗的程序、鬼畜视频生成器等等。”

    “真不敢相信你是文科生。这么说你的兴趣是数据分析方向咯?”

    “其实我对师父你做的爬虫很有兴趣。但是听说会经常和网站发生对抗?女孩子还是不要打打杀杀的好~”

    于是我让 P 酱负责对爬虫的原始数据进行清洗、整理并做简单的分析。

    一种船新的数据储存方式

    “ P 酱,爬虫抓到的原始数据是存放在 MongoDB 里面的,你的 Python 还不错吧,你试一试用 Python 来读写 MongoDB 看看。”

    “ MongoDB 是什么呀?”

    “是一个和 MySQL 不太一样的数据库。”

    “ MySQL 我知道,MongoDB 和 MySQL 有什么不一样呢?”

    “我举个例子,当你要插入数据的时候,你需要做的,就是‘插入’。咳咳,你不要脸红,我是指你不需要写 SQL 语句、不需要建表、不需要提前定义字段。仅仅只需要一行代码就能够实现了。我这里给你写了一篇文档,讲到了 MongoDB 的增删改查,你试一试。数据库已经给你搭建好了,你直接连上去用吧”

    半天以后。

    “师父,我已经会使用 MongoDB 啦。”

    “你读爬虫的原始数据,主要涉及到的就是查询操作,为了巩固插入、修改和删除的操作,再给你一个小任务吧。试一试写一个人员管理系统吧。”

    既然有关系,就整整齐齐放在一起看吧

    “ P 酱,你看起来很高兴的样子啊。”

    “因为我觉得 MongoDB 比起 MySQL 太简单了啊~”

    “你确定?那我看看你怎么对整行数据去重的?”

    “师父,我知道 distinct 关键字可以对一个字段去重。但是整行数据我是读出来用 Python 来去重的。”

    “这个时候你就要用到 MongoDB 的聚合查询了。文档已经给你写好了,拿去看吧。”

    “还有还有,这里你把店铺信息和菜单信息放在了两个集合里面,我怎么样才能把他们联表查询出来呢?”

    “联表查询是 MySQL 里面的操作,在 MongoDB 里面,没有,只有集合,所以叫做联集合查询更恰当一些。这也是要用到聚合查询,也在这个文档里面了。”

    再给你一个玩具吧。

    “ P 酱,之前让你做的爬虫数据监控系统怎么样了?”

    “功能已经做好了,但是有一个地方查询起来特别慢。我已经加过索引了,但还是很慢。怀疑是同时联了四个集合的数据造成的。”

    “这边的数据实际上每小时才更新一次,你没有必要每次刷新页面都去查询 MongoDB 的。我觉得是时候让你用一下 Redis 做缓存了。”

    “ Redis 就是那个内存数据库吗?我知道我知道。”

    “给你写了一份文档,包含 Redis 里面的各种数据类型和使用方式。你试一试把 Redis 和 MongoDB 结合起来看看能不能提高速度。”

    你怎么擅自加功能啊!

    “ P 酱,你怎么在爬虫监控系统的网页上加了一个广播窗口?”

    “呀,被师父发现了。因为我想到同一个爬虫可能会被几个人监控,所以就用 Redis 的发布订阅功能做出来了这个广播的功能。一旦爬虫状态发生改变,所有人都能收到推送。”

    “既然你这么闲,那不如加上账号登录功能,把权限验证也做上去?不同的人只能看到自己负责的爬虫。顺便你可以试一试用 Redis 实现……”

    “实现布隆过滤器和 Session 管理是吗?”

    “你怎么知道我要说什么?”

    “因为我早上看到你在文档上面更新了布隆过滤器和 Session 管理相关的内容啊~”

    红色的锁?

    “师父师父,你知道什么是 RedLock 吗?”

    “你学得这么快?都知道 RedLock 了? RedLock 是 Redis 官方给出的分布式锁的算法。已经有很多编程语言实现它了。”

    “原来 RedLock 只是一个算法啊……”

    为什么我学的这么快呢?

    “师父师父,我觉得很奇怪啊,为什么 MongoDB 和 Redis 我学得这么快呢?难道是因为他们本来就简单?还是因为我太聪明了?”

    “为什么你不说是因为你师父教的好呢?“

    “因为这是事实啊~不用我说出来~”

    “咳咳,实际上是因为两个原因。一是你一直通过项目驱动来学习,先有需求,然后再去学习实现这个需求所要涉及到的技能。所以你知道你学的东西能用来干什么,自然就能学得快……”

    “那第二个原因是什么呢?”

    “第二个原因,我先问你一个问题,你会搭建 Redis 集群吗?会搭建 MongoDB 集群吗?知道什么叫做哨兵吗?你知道如何优化 MongoDB 的启动参数吗?”

    “这…………好像都不知道额…………”

    “因为你的角色是数据工程师,不是数据库工程师,所以数据库搭建、底层优化这些内容我都给你跳过了。”

    “这些听起来都很重要啊,师父你会教我吗?”

    “你想经常值夜班吗?想半夜 3 点被人打电话叫起来修数据库吗?认清自己的定位啊,数据库工程师的技能当然很重要,但你是要成为数据工程师的人,技能树应该点在合适的方向。”

    后记

    后来,P 酱成了别人的女朋友。

    幸好我还有左手和右手,于是我把我给 P 酱总结的文档编撰成了《左手 MongoDB,右手 Redis ——从入门到商业实战》这本书。本书现在已经在京东、亚马逊、淘宝上架。

    这本书的定位是 MongoDB 和 Redis 的应用,所以有意弱化了数据库的搭建、维护和底层优化。所以本书可能不适合数据库工程师。

    希望本书能够给那些一直想掌握 MongoDB、Redis,但是又不知道从何处下手的读者,提供一个学习的方向。

    福利时间

    感谢你读到了这一行,希望我这篇蹩脚的软文没有让你觉得讨厌。新书上架,回馈 V 友。我将会从所有留言的 V 友中选中 6 人,一人赠送一本《左手 MongoDB,右手 Redis ——从入门到商业实战》。

    按照惯例,选人的方式如下:

    1. 2019 年 2 月 26 日早晨 10 点,我会打开网易财经查询 2019 年 2 月 25 日的网易收盘价。
    2. 网易收盘价转成字符串分别加上『 P 』、『 y 』、『 t 』、『 h 』、『 o 』、『 n 』获得 6 个字符串。例如『 2,806.81P 』、『 2,806.81y 』等等
    3. 通过 Python 自带的 hashlib 中的 sha256 算法,计算这 6 个字符串的哈希值。
    4. 哈希值转换为十进制以后除以截至 2019 年 2 月 26 日 10:00 的总楼层数,获得 6 个余数
    5. 6 个余数对应的楼层数将会获得赠书。
    6. 如果同一个人中奖两次,第二次自动顺延给下一层楼。
    7. 顺丰包邮(港澳台、新疆西藏除外)

    抽奖用到的数据,如下图红框框住的这一列。

    第 1 条附言  ·  2019-02-23 15:40:53 +08:00
    第 2 条附言  ·  2019-02-26 12:35:54 +08:00

    @tianrandai @ouyangpiao @abellee000 @houzhimeng @imNull @chotow

    恭喜以上同学中奖,请使用 base64 编码自己的邮箱回复到本帖并 @我。我会使用 Y29udGFjdEBraW5nbmFtZS5pbmZvCg== 对应的邮箱给各位发送邮件确认领奖事宜。

    抽奖代码:

    238 条回复    2019-03-12 09:39:50 +08:00
    1  2  3  
    crystom
        101
    crystom  
       2019-02-23 20:14:26 +08:00
    标题怎么好像换了
    itskingname
        102
    itskingname  
    OP
       2019-02-23 20:19:06 +08:00
    @crystom V 站可不支持换标题的功能啊
    itskingname
        103
    itskingname  
    OP
       2019-02-23 20:19:50 +08:00
    @ebony0319 千万不要去 B 站搜索这个代码。
    xhemm
        104
    xhemm  
       2019-02-23 20:20:08 +08:00 via iPhone
    6666
    mingyun
        105
    mingyun  
       2019-02-23 20:37:42 +08:00
    排队
    Shynoob
        106
    Shynoob  
       2019-02-23 20:39:04 +08:00
    去搜完 av 号的我回来了
    ranleng
        107
    ranleng  
       2019-02-23 20:50:15 +08:00 via Android   ❤️ 1
    文案厉害。
    itskingname
        108
    itskingname  
    OP
       2019-02-23 20:51:23 +08:00
    @Shynoob 什么想法。
    i0error
        109
    i0error  
       2019-02-23 20:51:41 +08:00
    分母。
    dyxang
        110
    dyxang  
       2019-02-23 20:59:51 +08:00 via Android
    @itskingname 这个公仔太真实了,若不是笔套之类的我还以为那个洞是削笔刀开的孔
    Tvulin
        111
    Tvulin  
       2019-02-23 21:02:33 +08:00 via iPhone
    分母~
    iamshang
        112
    iamshang  
       2019-02-23 21:07:41 +08:00 via Android
    加个分母😁
    B1ock
        113
    B1ock  
       2019-02-23 21:16:44 +08:00
    分母 qwq
    itskingname
        114
    itskingname  
    OP
       2019-02-23 21:20:00 +08:00 via iPhone
    @dyxang 那是黑色的球,不是洞。
    liuxingbaoyu
        115
    liuxingbaoyu  
       2019-02-23 21:21:34 +08:00
    @itskingname 妹子跑了,差评!
    green15
        116
    green15  
       2019-02-23 21:21:50 +08:00 via iPhone
    分母吧
    ialva
        117
    ialva  
       2019-02-23 21:22:34 +08:00 via Android
    666
    hzw94
        118
    hzw94  
       2019-02-23 21:22:38 +08:00
    刚刚吃饱饭就来成为一个有自知之明的分母了.
    lostspirit0
        119
    lostspirit0  
       2019-02-23 21:22:39 +08:00 via iPhone
    留名
    slogon
        120
    slogon  
       2019-02-23 21:26:41 +08:00
    支持
    reticentfat
        121
    reticentfat  
       2019-02-23 21:49:33 +08:00
    分母
    onlyonen
        122
    onlyonen  
       2019-02-23 22:03:50 +08:00
    来凑个数
    itskingname
        123
    itskingname  
    OP
       2019-02-23 22:06:20 +08:00 via iPhone
    @liuxingbaoyu 不用担心,都在计划中
    sixm
        124
    sixm  
       2019-02-23 22:15:25 +08:00
    凑个分母
    input2output
        125
    input2output  
       2019-02-23 22:22:27 +08:00
    分母
    xfcy
        126
    xfcy  
       2019-02-23 22:28:52 +08:00 via Android
    好奇,想要书ヽ(*´з`*)ノ
    frankyxu
        127
    frankyxu  
       2019-02-23 22:30:12 +08:00
    凑个分子
    Fulminit
        128
    Fulminit  
       2019-02-23 22:32:07 +08:00
    分。。。分母
    Les1ie
        129
    Les1ie  
       2019-02-23 22:33:09 +08:00
    计算楼层的方式有点意思耶
    web88518
        130
    web88518  
       2019-02-23 22:43:47 +08:00 via Android
    先看看书学习学习
    Wa1k3r
        131
    Wa1k3r  
       2019-02-23 22:49:01 +08:00 via iPhone
    拉低中奖率
    zerozz
        132
    zerozz  
       2019-02-23 22:52:04 +08:00
    分子来了
    lekai63
        133
    lekai63  
       2019-02-23 22:59:35 +08:00 via iPhone
    楼主给力
    mongodb 加油
    viko16
        134
    viko16  
       2019-02-23 23:00:12 +08:00 via Android
    突然有点喜欢这种软文风格…😂
    eryuan
        135
    eryuan  
       2019-02-23 23:00:26 +08:00
    好,好赞!
    itskingname
        136
    itskingname  
    OP
       2019-02-23 23:01:40 +08:00 via iPhone
    @viko16 我另一篇也是这个风格,看 append
    abellee000
        137
    abellee000  
       2019-02-23 23:08:54 +08:00 via Android
    我认真的去碧站搜了下 av170001 …
    5qwang
        138
    5qwang  
       2019-02-23 23:14:47 +08:00 via iPhone
    凑个分子
    itskingname
        139
    itskingname  
    OP
       2019-02-23 23:26:41 +08:00 via iPhone
    @abellee000 什么感觉
    lawler
        140
    lawler  
       2019-02-23 23:30:38 +08:00
    管他呢,万一中了呢
    x97bgt
        141
    x97bgt  
       2019-02-23 23:36:27 +08:00
    我还以为是真妹子....拉低中奖率
    liuxingbaoyu
        142
    liuxingbaoyu  
       2019-02-23 23:41:12 +08:00
    @itskingname 抽奖送妹子还差不多
    blackstarry
        143
    blackstarry  
       2019-02-23 23:42:13 +08:00 via Android
    分母
    kkkhs
        144
    kkkhs  
       2019-02-23 23:44:05 +08:00 via Android
    分母
    fuxinya
        145
    fuxinya  
       2019-02-24 00:04:00 +08:00 via Android
    最近在学习 Redis
    wenning
        146
    wenning  
       2019-02-24 00:43:05 +08:00 via Android
    分母+1
    quericy
        147
    quericy  
       2019-02-24 00:57:33 +08:00
    170001 一打开就感觉不妙了
    ooTwToo
        148
    ooTwToo  
       2019-02-24 00:59:31 +08:00 via Android
    odk
    chuhades
        149
    chuhades  
       2019-02-24 01:00:33 +08:00
    计算方式 cool
    liu19931020
        150
    liu19931020  
       2019-02-24 01:01:27 +08:00
    蹭蹭
    aristotll
        151
    aristotll  
       2019-02-24 01:13:36 +08:00
    plus one
    lqzhgood
        152
    lqzhgood  
       2019-02-24 01:43:44 +08:00
    这个妹子有点快。。
    ouyangpiao
        153
    ouyangpiao  
       2019-02-24 01:58:23 +08:00
    我早就记住那个 av 了
    kang666
        154
    kang666  
       2019-02-24 02:05:01 +08:00 via Android
    牛牛逼了老铁
    hdjs5264
        155
    hdjs5264  
       2019-02-24 02:25:49 +08:00
    分母
    llpy
        156
    llpy  
       2019-02-24 08:11:50 +08:00
    666
    nervdy
        157
    nervdy  
       2019-02-24 08:14:12 +08:00
    要不写个 P 酱的后续
    claymore94
        158
    claymore94  
       2019-02-24 08:16:21 +08:00
    分母+1
    AngryPanda
        159
    AngryPanda  
       2019-02-24 08:24:18 +08:00 via Android
    想起了一本书: 大话数据结构。

    希望楼主的作品也能成为经典吧。
    itskingname
        160
    itskingname  
    OP
       2019-02-24 08:29:28 +08:00 via iPhone
    @AngryPanda 感谢
    itskingname
        161
    itskingname  
    OP
       2019-02-24 08:29:52 +08:00 via iPhone
    @nervdy 保密
    cdlnls
        162
    cdlnls  
       2019-02-24 08:31:01 +08:00 via iPhone
    随缘加一个分母
    mutou99
        163
    mutou99  
       2019-02-24 08:53:00 +08:00
    有点意思哟
    testlc
        164
    testlc  
       2019-02-24 09:00:20 +08:00 via iPhone
    文笔有点意思
    cwcauc
        165
    cwcauc  
       2019-02-24 09:03:34 +08:00 via iPhone
    分母,数据库教科书还没看。。
    IntFloat
        166
    IntFloat  
       2019-02-24 09:25:55 +08:00
    这小故事小的可以啊
    flyzero
        167
    flyzero  
       2019-02-24 09:26:00 +08:00 via Android
    万一中奖呢
    itskingname
        168
    itskingname  
    OP
       2019-02-24 09:29:59 +08:00 via iPhone
    @IntFloat 还有大故事
    itskingname
        169
    itskingname  
    OP
       2019-02-24 09:30:56 +08:00 via iPhone
    @cwcauc 正好通过目录对比一下,看看我的书和教科书哪一本更适合你。
    running17
        170
    running17  
       2019-02-24 09:37:44 +08:00 via Android
    666
    tianrandai
        171
    tianrandai  
       2019-02-24 09:45:21 +08:00
    去 b 站搜了 av 号的我回来了哈哈哈哈
    itskingname
        172
    itskingname  
    OP
       2019-02-24 09:47:41 +08:00 via iPhone
    @tianrandai 什么感受
    kingcc
        173
    kingcc  
       2019-02-24 09:51:39 +08:00
    抽奖方式越来越有趣了
    itskingname
        174
    itskingname  
    OP
       2019-02-24 09:59:06 +08:00 via iPhone
    @kingcc 第二次用这种方式了
    Applenice
        175
    Applenice  
       2019-02-24 10:04:32 +08:00
    那个 av 号有毒
    trying
        176
    trying  
       2019-02-24 10:09:33 +08:00 via iPhone
    分母
    itskingname
        177
    itskingname  
    OP
       2019-02-24 10:34:00 +08:00
    @Applenice 彩蛋
    jimages
        178
    jimages  
       2019-02-24 10:39:38 +08:00
    我来做分子了
    AppxLite
        179
    AppxLite  
       2019-02-24 11:32:13 +08:00
    分母
    itskingname
        180
    itskingname  
    OP
       2019-02-24 11:34:41 +08:00 via iPhone
    @jimages 可以
    Rcnaec
        181
    Rcnaec  
       2019-02-24 11:51:49 +08:00
    分母!
    cyrbuzz
        182
    cyrbuzz  
       2019-02-24 11:58:21 +08:00
    跟着我左手右手....
    leohuachao
        183
    leohuachao  
       2019-02-24 13:15:25 +08:00
    分母!!
    byron
        184
    byron  
       2019-02-24 13:23:35 +08:00
    很好
    itskingname
        185
    itskingname  
    OP
       2019-02-24 13:34:18 +08:00 via iPhone
    @cyrbuzz 看慢动作学 NoSQL
    FaiChou
        186
    FaiChou  
       2019-02-24 13:43:02 +08:00 via iPhone
    分母
    BruceYuan
        187
    BruceYuan  
       2019-02-24 13:46:51 +08:00 via Android
    看完才意识到是广告
    uasier
        188
    uasier  
       2019-02-24 13:49:09 +08:00 via Android
    。。。
    halfer53
        189
    halfer53  
       2019-02-24 13:53:09 +08:00
    分母
    y9u9h1
        190
    y9u9h1  
       2019-02-24 13:53:50 +08:00 via Android
    觉得是真的故事,不过是楼主不想泄露小徒弟隐私才诙谐的搞了个保加利亚妖王的链接而已
    itskingname
        191
    itskingname  
    OP
       2019-02-24 13:57:28 +08:00 via iPhone
    @y9u9h1 哈哈哈
    itskingname
        192
    itskingname  
    OP
       2019-02-24 13:58:13 +08:00 via iPhone
    @BruceYuan 不是广告
    xyzxiaoking
        193
    xyzxiaoking  
       2019-02-24 14:04:19 +08:00 via Android
    这年头挑个分子都这么复杂了吗。。
    ID2333
        194
    ID2333  
       2019-02-24 14:18:40 +08:00
    一看,就是充满哲学的大佬!
    kimibob
        195
    kimibob  
       2019-02-24 15:13:33 +08:00
    有故事!
    itskingname
        196
    itskingname  
    OP
       2019-02-24 16:22:57 +08:00
    @xyzxiaoking 要确保真正随机啊。
    itskingname
        197
    itskingname  
    OP
       2019-02-24 16:23:13 +08:00
    @ID2333 绅士向。
    itskingname
        198
    itskingname  
    OP
       2019-02-24 16:23:30 +08:00
    @kimibob 没有故事
    jsyzdej
        199
    jsyzdej  
       2019-02-24 16:26:44 +08:00 via Android
    当我看到 av 号时我就直接跳到了后记
    itskingname
        200
    itskingname  
    OP
       2019-02-24 16:57:23 +08:00 via iPhone
    @jsyzdej 那我精心写的东西你都没有看到
    1  2  3  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5884 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:26 · PVG 14:26 · LAX 22:26 · JFK 01:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.