裸机互斥的 vlocks¶

投票锁，或“vlocks”，提供了一种简单的低级互斥机制，对内存系统具有合理但最小的要求。

它们旨在用于协调 CPU 之间原本不一致的关键活动，在硬件不提供其他机制来支持此活动并且无法使用普通自旋锁的情况下。

vlocks 利用内存系统为写入单个内存位置提供的原子性。为了仲裁，每个 CPU 通过将唯一的数字存储到公共内存位置来“为自己投票”。当所有投票都已投出时，在该内存位置看到的最终值标识获胜者。

为了确保选举在有限时间内产生明确的结果，CPU 只会在尚未选择获胜者并且选举似乎尚未开始的情况下才首先进入选举。

算法¶

解释 vlocks 算法的最简单方法是使用一些伪代码

int currently_voting[NR_CPUS] = { 0, };
int last_vote = -1; /* no votes yet */

bool vlock_trylock(int this_cpu)
{
        /* signal our desire to vote */
        currently_voting[this_cpu] = 1;
        if (last_vote != -1) {
                /* someone already volunteered himself */
                currently_voting[this_cpu] = 0;
                return false; /* not ourself */
        }

        /* let's suggest ourself */
        last_vote = this_cpu;
        currently_voting[this_cpu] = 0;

        /* then wait until everyone else is done voting */
        for_each_cpu(i) {
                while (currently_voting[i] != 0)
                        /* wait */;
        }

        /* result */
        if (last_vote == this_cpu)
                return true; /* we won */
        return false;
}

bool vlock_unlock(void)
{
        last_vote = -1;
}

currently_voting[] 数组为 CPU 提供了一种确定选举是否正在进行的方式，并且扮演着类似于 Lamport 的面包店算法 [1] 中“entering”数组的角色。

但是，一旦选举开始，底层内存系统原子性用于选择获胜者。这避免了需要使用静态优先级规则来充当决胜局，或者任何可能溢出的计数器。

只要 last_vote 变量对所有 CPU 全局可见，它将只包含一个值，该值一旦每个 CPU 清除其 currently_voting 标志就不会更改。

特性和限制¶

vlocks 并非旨在公平。在争用情况下，尝试获取锁的_last_ CPU 最有可能获胜。

因此，vlocks 最适合需要选择唯一获胜者，但哪个 CPU 实际获胜无关紧要的情况。
与其他类似机制一样，vlocks 不能很好地扩展到大量 CPU。

vlocks 可以在投票层次结构中级联，以便在必要时实现更好的扩展，如下面的 4096 个 CPU 的假设示例所示
/* first level: local election */
my_town = towns[(this_cpu >> 4) & 0xf];
I_won = vlock_trylock(my_town, this_cpu & 0xf);
if (I_won) {
        /* we won the town election, let's go for the state */
        my_state = states[(this_cpu >> 8) & 0xf];
        I_won = vlock_lock(my_state, this_cpu & 0xf));
        if (I_won) {
                /* and so on */
                I_won = vlock_lock(the_whole_country, this_cpu & 0xf];
                if (I_won) {
                        /* ... */
                }
                vlock_unlock(the_whole_country);
        }
        vlock_unlock(my_state);
}
vlock_unlock(my_town);

ARM 实现¶

当前的 ARM 实现 [2] 包含一些超出基本算法的优化

通过将 currently_voting 数组的成员紧密地打包在一起，我们可以在一个事务中读取整个数组（前提是可能争用锁的 CPU 数量足够小）。这减少了外部内存所需的往返次数。

在 ARM 实现中，这意味着我们可以使用单个加载和比较
LDR     Rt, [Rn]
CMP     Rt, #0
...代替等效于以下代码：
LDRB    Rt, [Rn]
CMP     Rt, #0
LDRBEQ  Rt, [Rn, #1]
CMPEQ   Rt, #0
LDRBEQ  Rt, [Rn, #2]
CMPEQ   Rt, #0
LDRBEQ  Rt, [Rn, #3]
CMPEQ   Rt, #0
这减少了快速路径延迟，以及可能减少争用情况下的总线争用。

该优化依赖于 ARM 内存系统保证不同大小的重叠内存访问之间的一致性这一事实，类似于许多其他架构。请注意，我们不关心 currently_voting 的哪个元素出现在 Rt 的哪些位中，因此无需担心此优化中的字节序。

如果有太多的 CPU 无法在一个事务中读取 currently_voting 数组，那么仍然需要多个事务。该实现为此情况使用一个简单的字大小加载循环。事务的数量仍然少于单独加载字节所需的数量。

原则上，我们可以通过使用 LDRD 或 LDM 进一步聚合，但为了保持代码的简单性，在初始实现中没有尝试这样做。
vlocks 目前仅用于在无法启用其缓存的 CPU 之间进行协调。这意味着该实现删除了在缓存内存中执行该算法时所需的许多屏障。

除非所有争用锁的 CPU 都是缓存一致的，否则 currently_voting 数组的打包不适用于缓存内存，因为一个 CPU 的缓存写回会破坏其他 CPU 写入的值。（虽然如果所有 CPU 都是缓存一致的，那么您可能应该改用正确的自旋锁）。

用于 last_vote 变量的“尚无投票”值为 0（而不是伪代码中的 -1）。这允许通过简单地将静态分配的 vlocks 放入 .bss 中来将其隐式初始化为未锁定状态。

为了设置此变量，将偏移量添加到每个 CPU 的 ID，以便没有 CPU 将值 0 用于其 ID。

版权页¶

最初由 Dave Martin 为 Linaro Limited 创建和记录，用于基于 ARM 的 big.LITTLE 平台，并衷心感谢 Nicolas Pitre 和 Achin Gupta 的审查和意见。感谢 Nicolas 从相关的邮件线程中获取了大部分文本并编写了伪代码。

参考文献¶

[1] Lamport, L. "Dijkstra 并发编程的新解决方案"

问题”，ACM 通讯 17, 8 (1974 年 8 月), 453-455。

https://en.wikipedia.org/wiki/Lamport%27s_bakery_algorithm

[2] linux/arch/arm/common/vlock.S, www.kernel.org.

Linux 内核

目录

本页

裸机互斥的 vlocks¶

算法¶

特性和限制¶

ARM 实现¶

版权页¶

参考文献¶