线性探查法（Linear Probing）

定义

线性探查法（Linear Probing）是一种开放寻址（Open Addressing）的哈希冲突解决方法。

核心思想：当发生哈希冲突时，从冲突位置开始线性向后探查（index+1, +2, +3, ...），直到找到空位或目标 key。

基本原理

冲突处理流程

插入键值对 (key, value):
1. 计算初始索引：index = hash(key)
2. 若 table[index] 为空 → 直接插入
3. 若 table[index] 不为空：
   - 若 key 相同 → 更新值
   - 若 key 不同 → index++，继续探查
4. 重复步骤 3，直到找到空位或相同 key

探查特性

特性	说明
探查序列	`hash(key), hash(key)+1, hash(key)+2, ...`
探查窗口	从初始哈希值到空位之间的连续区域
聚集问题	连续占用区域会形成"聚集"，导致后续冲突概率增加
缓存友好	数据存储在连续数组中，比链表的指针跳转更利于 CPU 缓存

核心操作伪代码

Put（插入/更新）

public void put(int key, int value) {
    int index = hash(key);
    // 向后探查，直到找到 key 或者找到空位
    while (index < table.length
           && table[index] != null
           && table[index].key != key) {
        index++;
    }
    // 找到空位或相同 key，插入/更新
    table[index] = new KVNode(key, value);
}

Get（查找）

public int get(int key) {
    int index = hash(key);
    // 向后探查，直到找到 key 或者找到空位
    while (index < table.length
           && table[index] != null
           && table[index].key != key) {
        index++;
    }
    if (table[index] == null) {
        return -1;  // 未找到
    }
    return table[index].value;
}

Remove（删除）—— 核心难点

问题：不能直接置为 null！

错误示例：
table[index] = null;  // ❌ 破坏探查链

后果：
- 后续元素依赖于这条探查链才能被找到
- 如果中间断开，后面的元素会"丢失"（查找时遇到空位就停止）

解决方案（常见方法）：

标记删除法：使用特殊标记（如 deleted）表示"曾有过但已删除"
- 查找时：deleted 位置视为"非空"，继续探查
- 插入时：deleted 位置可以复用
重新插入法：删除后，将后续元素重新插入哈希表
- 从删除位置开始，向后找到下一个空位
- 将中间的所有元素重新执行 put 操作

线性探查法的两个难点

根据文章分析，实现线性探查法有两个主要难点：

难点 1：删除操作的特殊处理

问题：直接删除会破坏探查链，导致后续元素无法被查找
解决方案：使用 deleted 标记或重新插入后续元素
权衡：标记法简单但会产生"幽灵"位置；重插法正确但开销大

难点 2：探查序列的边界处理

问题 1：如何处理数组末尾？需要循环回开头（环形缓冲区）
问题 2：如何检测表已满？避免无限循环
问题 3：负载因子控制与扩容时机

环形探查伪代码：

public void put(int key, int value) {
    int startIndex = hash(key);
    int index = startIndex;

    do {
        if (table[index] == null || table[index].key == key) {
            table[index] = new KVNode(key, value);
            return;
        }
        index = (index + 1) % table.length;  // 环形探查
    } while (index != startIndex);  // 表满检测

    // 表已满，需要扩容
    resizeAndRehash();
}

与拉链法的对比

维度	线性探查法（开放寻址）	拉链法（链地址法）
存储方式	纯数组	数组 + 链表
冲突处理	向后找空位	同一桶内链表存储
缓存友好性	✅ 较好（连续内存）	❌ 较差（指针跳转）
删除操作	❌ 复杂（需保持探查链）	✅ 简单（链表删除）
负载因子	必须 <1（表不满）	可以 >1（链表长度不限）
聚集问题	❌ 有（Primary Clustering）	✅ 无
空间开销	✅ 无需额外指针	❌ 链表指针开销
实现复杂度	中等（边界处理）	简单

探查聚集（Primary Clustering）

现象：线性探查容易产生"聚集"——连续被占用的区域越来越长。

原因：

新元素哈希到聚集区时，会进一步延长聚集区
聚集区越长，后续元素冲突到该区域的概率越大
形成正反馈，导致性能下降

影响：平均查找长度增加，最坏情况退化为 O(n)。

改进方案（本文未详细涉及）：

二次探查：步长按平方增长 hash(key) + 1², +2², +3², ...
双重哈希：使用第二个哈希函数计算步长，避免固定步长 1

时间复杂度

操作	平均情况	最坏情况	说明
查找	O(1)	O(n)	最坏情况为整个表都是聚集区
插入	O(1)	O(n)	可能触发扩容
删除	O(1)	O(n)	取决于探查链长度

注意：由于聚集问题，线性探查法的常数因子通常比拉链法大。

应用场景

缓存友好的场景：数据量不大，内存访问模式重要
负载因子较低的场景：冲突少，聚集问题不明显
实现简单的场景：不想处理链表指针的额外复杂度

待补充

完整文章内容（"两个难点"的具体实现细节）
代码示例（Java/C++ 完整实现）
可视化示例（探查过程动画）
性能测试数据（与拉链法对比）

Link to this note

拉链法vs线性探查法

type: comparison tags: [哈希表, 冲突解决, 数据结构] created: 2026-05-03 updated: 2026-05-03拉链法 vs 线性探查法两种哈希表冲突解决方法的多维度对比分析：| 维度 | 拉链法（链地址法） | 线性探查法（开放寻址） | |------|------------------|----------------------| | 底层结构 | 数组 + 链表（每个桶存储冲突元素的链表） | 纯数组（冲突时线性向后探查空位） | | 平均时间复杂度 | O(1) 查找/插入/删除 | O(1) 查找/插入/删除 | | 缓存友好性 | 差（链表节点分散在内存中） | 好（连续内存空间，局部性优） | | 聚集问题 | 无

哈希冲突

type: concept tags: [哈希表, 数据结构, 哈希冲突] created: 2026-05-04 updated: 2026-05-04哈希冲突定义哈希冲突是指两个不同的键通过哈希函数计算后得到相同的哈希值的现象。由于哈希表的大小有限，而键的空间可能无限，冲突是不可避免的。冲突解决方法链地址法（拉链法）每个哈希桶维护一个链表，冲突的元素追加到链表末尾 → [[拉链法]]开放寻址法冲突时按照某种探测序列寻找下一个空位，包括：线性探查法 → [[线性探查法]]二次探查法双重哈希法相关概念[[哈希表]]：冲突发生的场景[[哈希函数]]：均匀的哈希函数可减少冲突负载因子：负载因子过高会加剧冲突

哈希函数

type: concept tags: [哈希表, 数据结构, 哈希函数] created: 2026-05-04 updated: 2026-05-04哈希函数定义哈希函数是将任意长度的输入（键）映射为固定长度输出（哈希值）的函数，是哈希表的核心组件。理想的哈希函数应满足：计算速度快哈希值分布均匀（减少冲突）相同的键必须产生相同的哈希值常见哈希函数除法哈希法：h(k) = k mod m（m 为哈希表大小）乘法哈希法：h(k) = floor(m * (kA mod 1))（A 为常数）全域哈希：随机选择哈希函数族中的函数，避免最坏情况相关概念[[哈希表]]：哈希函数的应用场景[[哈希冲突]]：哈希函数不均匀会导致冲突[[拉链法]]：冲突解决方法[[线性探查法]]：另一种冲突解决方法

哈希表

type: concept tags:哈希表数据结构HashMap键值对哈希函数 created: 2026-05-03 updated: 2026-05-03哈希表（Hash Table）定义哈希表（Hash Table，也称散列表）是一种基于哈希函数实现的数据结构，能够在平均 O(1) 时间内完成插入、删除和查找操作。核心思想：通过哈希函数将键（key）映射到数组的某个索引位置，直接访问该位置获取数据。基本原理键值对 (key, value) │ ▼ 哈希函数 hash(key) → 数组索引 index │ ▼ 数组 table[index] = value伪码表示put(key, value): index = hash(key)

开放寻址法

type: concept tags: [哈希表, 数据结构, 开放寻址法] created: 2026-05-04 updated: 2026-05-04开放寻址法定义开放寻址法是一种哈希冲突解决方法：所有元素都存储在哈希表数组本身中，冲突时按照某种探测序列寻找下一个可用的空位。与链地址法不同，不需要额外的链表结构。常见探测方法线性探查法：冲突时依次检查下一个位置（d_i = i）→ [[线性探查法]]二次探查法：冲突时检查 d_i = i² 的位置双重哈希法：使用第二个哈希函数计算步长优缺点优点：所有数据在连续数组中，缓存友好缺点：存在聚集现象（线性探查尤其明显），删除操作复杂相关概念[[哈希表]]：应用场景[[哈希冲突]]：要解决的问题[[线性探查法]]：最常用的开放寻址法[[拉链法]]：对比方法（链地址法）

负载因子

type: concept tags: [哈希表, 负载因子, 性能指标, 哈希冲突] created: 2026-05-06 updated: 2026-05-06负载因子（Load Factor）负载因子衡量哈希表的装满程度，是决定哈希冲突概率和扩容时机的关键指标。定义负载因子（Load Factor）是哈希表中已存储元素数量与数组容量的比值：负载因子 = 已存储元素数量 / 数组容量 λ = n / m其中：n = 已存储的元素数量m = 数组的容量（桶的数量）核心特性| 特性 | 说明 | |------|------| | 取值范围 | λ ≥ 0，通常在实际使用中 λ ≤ 1（开放寻址法）或 λ 可 > 1（拉链法） | | 冲突概率

index

Harness Engineering Wiki - 内容索引本页面由 Claude 自动维护，每次 ingest 新资料后更新📊 Stats总页面数: 151实体页: 2概念页: 81摘要页: 62对比页: 6最后更新: 2026-05-09📚 摘要页 (Summaries)| 页面链接

log

Harness Engineering - 操作日志本页面记录所有 Claude 的操作记录，仅追加，不修改历史记录[2026-05-02] init | 初始化仓库结构创建 raw/ 目录结构（articles, papers, images）创建 wiki/ 目录结构（entities, concepts, summaries, comparison）创建 wiki/index.md 索引页创建 wiki/log.md 操作日志仓库初始化完成[2026-05-02] ingest | 时间空间复杂度入门保存原始内容到 raw/articles/复杂度分析基础.md创建摘要页 wiki/summaries/2026-05-02 时间空间复杂度入门.md侧重：复杂度分析的实用方法（Big O 简化估算技巧）更新 wiki/index.md：摘要页数量 0→1注意：labuladong 实体和复杂度概念首次出现，暂不创建独立页（需 ≥2 篇来源）[2026-05-02] ingest | 数组基础（labuladong）提取网页内容（defuddle）并创建摘要页 wiki/summaries/2026-05-02 数组基础.md创建实体页

哈希表基础

type: summary tags: [哈希表, HashMap, 数据结构, Java, 哈希函数, 负载因子, 哈希冲突, 拉链法, 线性探查法] created: 2026-05-03 updated: 2026-05-03哈希表基础[[raw/articles/2026/05/哈希表基础]]核心要点1. 哈希表 vs MapMap 是接口，仅声明操作方法（get/put/remove），未指定实现方式HashMap 是 Map 的一种实现，底层使用哈希表，增删查改复杂度 O(1)其他实现如 TreeMap（红黑树，O(logN)）、LinkedHashMap（保持插入顺序）不能假设所有键值对操作都是 O(1)，需看具体实现的数据结构2. 哈希表基本原理哈希表 = 加强版数组核心机制：通过哈希函数将 key 映射到数组索引，实现 O(1) 访问伪码逻辑：put(key, value): table[hash(key)] = value get(key): return table[hash(key)] remove(key): table[hash(key)] = null3. 哈希函数设计作用：将任意类型

用数组加强哈希表

type: summary tags: [数据结构, 哈希表, 数组, 随机算法, 数据结构设计] created: 2026-05-03 updated: 2026-05-03用数组加强哈希表[[raw/articles/2026/05/用数组加强哈希表]]核心问题在标准哈希表 API 基础上，添加 randomKey() API，要求 O(1) 时间复杂度随机返回一个键（均匀随机）。interface Map<K, V> { V get(K key); void put(K key, V value); void remove(K key);

线性探查法的两个难点

type: summary tags: [哈希表, 线性探查法, 开放寻址法, 数据结构, 算法原理, 哈希冲突] created: 2026-05-03 updated: 2026-05-03线性探查法的两个难点[[raw/articles/2026/05/线性探查法的两个难点]]⚠️ 注意：原文使用 JavaScript 动态加载内容，未能获取完整正文（仅获取到"简化场景"部分，缺少"两个难点"的核心内容）。以下为基于现有内容的摘要，待补充完整内容。核心要点（侧重算法原理理解）前置知识本文建立于以下基础知识之上：[[哈希表基础]]哈希冲突解决方法对比| 方法 | 别名 | 基本原理 | 特点 | |------|------|---------|------| | 拉链法 | 链地址法 | 数组每个位置存储链表，冲突元素追加到链表 | 实现简单，每个桶独立 | | 线性探查法 | 开放寻址法 | 冲突时往后找空位（index+1, +2, ...） | 所有元素存在数组中，缓存友好 |![[images/hash-collision.jpeg]]线性探查法基本原理核心思想：当发生哈希冲突时，从冲突位置开始，线性向后探查，直到找到：相同的 key（更新值）空位（插入新键值对）到达数组末尾（探查失败，需特殊处理）算法特性：所有数据存储在同一个数组中（不像拉链法需要额外链表）探查序列：hash(key),

线性探测哈希表实现

type: summary tags: [哈希表, 线性探测, 代码实现, 数据结构] created: 2026-05-03 updated: 2026-05-03线性探测哈希表实现[[raw/articles/2026/05/线性探测哈希表实现]][!warning] 内容不完整本文原始页面使用 JavaScript 动态加载，仅获取到静态部分（19行）。核心代码实现部分缺失。文章要点（基于静态内容）本文目标提供线性探查法（Linear Probing）的完整代码实现，包括：简化实现（帮助理解增删查改过程）完整实现（生产级代码）简化实现的假设为聚焦核心逻辑，作者做了以下简化：| 简化项 | 说明 | |--------|------| | key 类型 | 仅支持 int | | value 类型 | 仅支持 int，key 不存在时返回 -1 | | 哈希函数 | 简单取模 hash(key) = key % table.length | | 数组大小

线性探查法（Linear Probing）

定义

基本原理

冲突处理流程

探查特性

核心操作伪代码

Put（插入/更新）

Get（查找）

Remove（删除）—— 核心难点

线性探查法的两个难点

难点 1：删除操作的特殊处理

难点 2：探查序列的边界处理

与拉链法的对比

探查聚集（Primary Clustering）

时间复杂度

应用场景

相关概念

待补充

Link to this note

Interactive Graph