V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MySQL 5.5 Community Server
MySQL 5.6 Community Server
Percona Configuration Wizard
XtraBackup 搭建主从复制
Great Sites on MySQL
Percona
MySQL Performance Blog
Severalnines
推荐管理工具
Sequel Pro
phpMyAdmin
推荐书目
MySQL Cookbook
MySQL 相关项目
MariaDB
Drizzle
参考文档
http://mysql-python.sourceforge.net/MySQLdb.html
noble4cc
V2EX  ›  MySQL

mysql 索引工作的原理

  •  
  •   noble4cc · 2020-05-15 16:16:44 +08:00 · 2921 次点击
    这是一个创建于 1679 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如 in 这个查询 in(1,2,3,4) 索引是分别拿 1,2,3,4 去索引查,查四次索引,还是查一次索引

    如果是查四次索引,那我们查出来的数据很多的话比如说一千条,io 的次数不就超级多了

    14 条回复    2020-05-19 15:52:00 +08:00
    LYEHIZRF
        1
    LYEHIZRF  
       2020-05-15 16:34:47 +08:00
    ??
    Philyu
        2
    Philyu  
       2020-05-15 16:49:18 +08:00
    mysql 的索引基础结构是 B+树,如 id in ( 1,2,3,4 ),那么会将 id 列的索引加载到内容,分布找到对应 id=1,2,3,4 的四行数据的偏移量,最少只需要一次 IO 。具体几次,涉及到你这表每一行的数据大小,因为磁盘读取,一次 IO 是 64K,有可能这 4 条数据都在了。
    noble4cc
        3
    noble4cc  
    OP
       2020-05-15 16:55:44 +08:00
    @Philyu 意思还是查索引树查 4 次,io 看情况,一般挨着比较近就一次 io 搞定了
    Philyu
        4
    Philyu  
       2020-05-15 17:02:41 +08:00
    正常是这样,而且 mysql 会将部分用到的索引加载到内存,4 次或 1 次都很快;如果 in 里面是连续的值,大概率会被优化器优化。
    noble4cc
        5
    noble4cc  
    OP
       2020-05-15 17:07:38 +08:00
    @Philyu 我的理解会把索引的 root 加载到内存,每次从 root 向下找,1,2,3,4 分别走四次 root,分别往下找,如果欧优化的话一次找到 1,2,3,4 就不再走 root 找了,这样理解对吗
    2379920898
        6
    2379920898  
       2020-05-15 17:07:57 +08:00
    光 mysql 索引这一部分就可以写一本书,并且 50%的程序员没有掌握这项技能
    2379920898
        7
    2379920898  
       2020-05-15 17:08:46 +08:00
    索引策略很多的,基本上最优的索引策略学下来 要赶上 学两次 C1 证了
    2379920898
        8
    2379920898  
       2020-05-15 17:09:22 +08:00
    IO 和索引不要一起提,毕竟你这样一问,显得很不专业。
    cxshun
        9
    cxshun  
       2020-05-15 17:10:29 +08:00
    @noble4cc #5 其实不需要走四次根结点,因为 B+树的叶子结点是一个链表,它可以在上面找到你所有的数据。所以只会是在取下一个子结点的时候会触发 IO,一般情况下 3-4 次 IO 就可以了。
    noble4cc
        10
    noble4cc  
    OP
       2020-05-15 17:14:28 +08:00
    @cxshun 但是如果 id 值比较离散呢,10 10000 1000000 呢,这种恐怕一个叶子节点很难包括在一起,不走 root 怎么个搜出来呢
    shenmimu
        11
    shenmimu  
       2020-05-15 17:17:22 +08:00
    索引逻辑结构是有序的 B+树,查找一列时间复杂度是 O(log(n)),物理结构是分页的硬盘存储
    in 查询结果和分别查询结果相同,读多少次索引取决与引擎有没有预加载到条件需要的页,
    再加上多次从索引到聚集索引的 fetch 和多次网络开销
    in 查询绝大部分情况下比多次查询更快
    Philyu
        12
    Philyu  
       2020-05-15 17:21:27 +08:00
    我明白 lz 的意思,其实没有你想象的那么多 IO,首先索引是有序的,可以连续读取;就算 key 很分散,IO 次数也还跟 key 的数量在一个量级;查询到的记录再多,还是成片的,可以连续读取。
    thinkmore
        13
    thinkmore  
       2020-05-19 15:48:16 +08:00
    thinkmore
        14
    thinkmore  
       2020-05-19 15:52:00 +08:00
    @thinkmore 贴错了,这个才是 https://juejin.im/post/5ea273f951882573cd41c7a4.

    如果对于 in 有疑问,你完全可以 explain 分析下,看看是怎么走的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5300 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 07:21 · PVG 15:21 · LAX 23:21 · JFK 02:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.