wiki

布隆过滤器（Bloom Filter）

定义

布隆过滤器（Bloom Filter）是一种概率型数据结构，用于在超大规模数据集中快速判断一个元素是否存在，仅使用少量内存空间，且具备数据隐私性。

核心原理

布隆过滤器不存储具体数据，而仅仅存储数据指纹（哈希值），通过多个哈希函数将数据映射到位图（bitmap） 中的多个位置，通过比对指纹来判断数据是否存在。

基本操作：

添加元素：用 k 个哈希函数计算哈希值，将位图中对应的 k 个位置设为 1
查询元素：用同样的 k 个哈希函数计算哈希值，检查位图中对应的 k 个位置：
- 如果任意一位为 0 → 元素一定不存在（无假阴性）
- 如果所有位都为 1 → 元素可能存在（有假阳性）

特性

特性	说明
空间效率	极高，仅存储哈希值，不存储实际数据
查询时间	$O(k)$，k 为哈希函数个数，通常为常数
假阴性（False Negative）	不存在（如果查询说不存在，就一定不存在）
假阳性（False Positive）	可能存在（如果查询说存在，可能实际上不存在）
数据隐私性	高（不存储实际数据）
删除元素	不支持（位图中的位置可能被多个元素共享）

与哈希集合的对比

维度	哈希集合	布隆过滤器
空间复杂度	$O(N)$	$O(m)$，m << N
数据存储	存储实际数据	仅存储哈希指纹
数据隐私	无	有
假阳性	无	有（可调整误差率）
假阴性	无	无
删除支持	支持	不支持
适用规模	小规模到中规模	超大规模（亿级+）

应用场景

恶意 URL 检测：判断 HTTP 请求 URL 是否在恶意 URL 列表中（亿级数据），仅消耗少量内存
大数据存储系统：为每个数据文件维护布隆过滤器，快速判断目标数据是否存在，避免无效磁盘 IO
缓存穿透防护：判断请求的数据是否存在于数据库中
爬虫 URL 去重：判断 URL 是否已被爬取
垃圾邮件过滤：判断邮件地址是否在黑名单中

误差率与参数选择

布隆过滤器的假阳性率取决于：

位数组大小（m）：越大，误差率越低
哈希函数个数（k）：需要权衡（太少会增加冲突，太多会占用更多空间并降低性能）
已插入元素数量（n）

公式：假阳性率 $p \approx (1 - e^{-kn/m})^k$

位图的基础作用

布隆过滤器使用位图（bitmap） 作为底层存储结构：

位图用 1 bit 表示状态（0/1），相比布尔数组节省 7/8 内存
布隆过滤器将元素的多个哈希值映射到这个位图中

局限性与补充方案

无法删除元素：因为多个元素可能共享某些位，删除一个元素可能会误删其他元素
- 解决方案：使用 Counting Bloom Filter（用计数器替代位）
假阳性问题：可能误判元素存在
- 解决方案：结合白名单、二次确认等方法
无法获取实际数据：只能判断存在性，不能获取原始数据
- 解决方案：需要时使用布隆过滤器 + 哈希表组合

相关概念

哈希表：对比参照（确定存在性，无假阳性）
位图：基础组件（待第2篇来源后创建独立页）
哈希函数：核心依赖

Link to this note

位图

type: concept tags: [数据结构, 位图, BitMap, 哈希表] created: 2026-05-04 updated: 2026-05-04位图（BitMap）定义位图（BitMap）是一种用二进制位（bit）来表示状态的数据结构，每个 bit 对应一个元素的存在状态（1 表示存在，0 表示不存在）。核心优势空间效率极高：相比布尔数组（1 byte/元素），位图仅用 1 bit/元素，节省 7/8 的空间适合超大规模数据：如判断 10 亿个整数中是否存在某个数，仅需 ~120MB 空间局限性仅支持整数类型的数据无法处理字符串等其他类型布隆过滤器是其扩展，支持更多数据类型 → [[布隆过滤器]]相关概念[[哈希表]]：位图可作为哈希表的简化替代（仅判断存在性）[[布隆过滤器]]：基于位图的扩展[[数组]]：底层用位数组（bit array）实现

哈希集合

type: concept tags:数据结构哈希表集合 created: 2026-05-06 updated: 2026-05-06哈希集合（HashSet）基于哈希表实现的集合数据结构，提供 O(1) 平均时间复杂度的插入、删除和查找操作。定义哈希集合（HashSet）是一种基于哈希表实现的集合数据结构，它存储不重复的元素。与哈希表（HashMap）存储键值对不同，哈希集合只存储元素本身。核心特性| 特性 | 说明 | |------|------| | 元素唯一性 | 集合中不包含重复元素 | | 无序性 | 元素存储顺序不保证（除非使用 LinkedHashSet） | | 允许 null | 大多数实现允许存储一个 null 元素 | | 基于哈希表 | 底层使用哈希表实现，依赖 hashCode() 和 equals() |基本原理哈希集合的工作原理与哈希表类似：调用元素的 hashCode() 方法计算哈希值根据哈希值确定元素在底层数组中的存储位置如果该位置已有元素（哈希冲突），使用链表或红黑树解决冲突插入前检查元素是否已存在（使用 equals() 方法比较）插入元素 e: 1. hash

index

Harness Engineering Wiki - 内容索引本页面由 Claude 自动维护，每次 ingest 新资料后更新📊 Stats总页面数: 151实体页: 2概念页: 81摘要页: 62对比页: 6最后更新: 2026-05-09📚 摘要页 (Summaries)| 页面链接

位图-总结

type: summary tags: [位图, 数据结构, 空间优化, bitmap] source: "[[raw/articles/2026/05/位图-原文]]" created: 2026-05-02 updated: 2026-05-02位图（BitMap）基础一句话总结位图（BitMap）是一种极致节省空间的数据结构，用 1 个比特位（bit）的 0/1 来标记元素是否存在，相比布尔数组节省 7/8 的内存空间，适用于超大规模数据场景。核心原理问题背景在算法题中，常用 boolean[] visited 布尔数组记录元素访问状态：boolean[] visited = new boolean[nums.length]; visited[10] = true;空间浪费问题：布尔类型只需 1 bit（0/1）即可表示但大部分编程语言中，一个 boolean 占用 1 字节（8 bits）内存布尔数组实际浪费了 7/8 的存储空间位图设计位图直接用 1 个 bit 表示一种状态：0 表示元素不存在 /

布隆过滤器-总结

type: summary tags: [布隆过滤器, 数据结构, 概率型数据结构, 空间优化] source: "[[raw/articles/2026/05/布隆过滤器-原文]]" created: 2026-05-03 updated: 2026-05-03布隆过滤器（Bloom Filter）⚠️ 内容不完整提示：原文使用 JavaScript 动态加载，仅获取到 35 行简介，核心原理、实现代码、详细分析等内容缺失。一句话总结布隆过滤器的核心能力是：在超大规模的数据集中，仅使用少量内存空间，即可快速判断一个元素是否存在。具备数据隐私性。即，可以在不暴露具体数据的情况下，判断一个元素是否存在。它的核心原理是，不存储具体数据，而仅仅存储数据指纹（哈希值），通过比对指纹来判断数据是否存在。核心原理布隆过滤器不存储具体数据，而仅仅存储数据指纹（哈希值），通过比对指纹来判断数据是否存在。与哈希集合的对比：| 特性 | 哈希集合 | 布隆过滤器 | |------|---------|------------| | 空间复杂度 | $O(N)$ | 远低于 $O(N)$ | | 数据存储 | 存储实际数据 | 仅存储哈希值（指纹） | | 数据隐私性 | 无（暴露实际数据） | 有（不存储实际数据） | |