如果对 2K 万条记录的某个字段查重？

https://github.com/search?l=Python&q=bloom&type=Repositories
布隆过滤器（英语：Bloom Filter ）是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

felix021

May 16, 2020 via Android

2000 万不是大什么数据，学一点 c 吧同学。

xAI

May 16, 2020

2000W 不算多，把 N 张表的 BSM 、表名，ID 放在一个视图里面，然后 SQL Group by 应该会好点

laminux29

May 16, 2020

不是学 C，而是要学数据结构与算法。

内存不够的情况下，用外排序就行了。

ackoly

May 16, 2020

SQL 处理不是更简单吗？

ackoly

May 16, 2020

-- 如果 BSM 字段长度低于 32，不用做 md5，直接使用 BSM 字段就好
-- 1. 创建汇总表
create table data_total as
select 1 as flag,id,BSM,md5(BSM) as md5_value from table_a union all
select 2 as flag,id,BSM,md5(BSM) as md5_value from table_b union all
select 3 as flag,id,BSM,md5(BSM) as md5_value from table_c union all
select 4 as flag,id,BSM,md5(BSM) as md5_value from table_d union all
select 5 as flag,id,BSM,md5(BSM) as md5_value from table_e
;

-- 2. 查出哪些值有重复
create table value_mult as
select
md5_value
,count(1) as cnt
from data_total t1
group by md5_value
having count(1) > 1
;

-- 3. 为 data_total 表创建索引
CREATE INDEX ix_md5_value ON data_total(md5_value);

-- 4. 查询出结果
select t1.*
from data_total t1
inner join value_mult t2
on t1.md5_value=t2.md5_value
;