Kernel Connection Multiplexor¶

Kernel Connection Multiplexor (KCM) 是一种机制，它为通用应用程序协议提供基于消息的 TCP 接口。通过 KCM，应用程序可以使用数据报套接字有效地通过 TCP 发送和接收应用程序协议消息。

KCM 在内核中实现了一个 NxM 多路复用器，如下图所示

+------------+   +------------+   +------------+   +------------+
| KCM socket |   | KCM socket |   | KCM socket |   | KCM socket |
+------------+   +------------+   +------------+   +------------+
    |                 |               |                |
    +-----------+     |               |     +----------+
                |     |               |     |
            +----------------------------------+
            |           Multiplexor            |
            +----------------------------------+
                |   |           |           |  |
    +---------+   |           |           |  ------------+
    |             |           |           |              |
+----------+  +----------+  +----------+  +----------+ +----------+
|  Psock   |  |  Psock   |  |  Psock   |  |  Psock   | |  Psock   |
+----------+  +----------+  +----------+  +----------+ +----------+
    |              |           |            |             |
+----------+  +----------+  +----------+  +----------+ +----------+
| TCP sock |  | TCP sock |  | TCP sock |  | TCP sock | | TCP sock |
+----------+  +----------+  +----------+  +----------+ +----------+

KCM 套接字¶

KCM 套接字为多路复用器提供了用户界面。绑定到多路复用器的所有 KCM 套接字都被认为具有相同的功能，并且不同套接字中的 I/O 操作可以并行完成，而无需用户空间中线程之间的同步。

多路复用器¶

多路复用器提供消息控制。在发送路径中，在 KCM 套接字上写入的消息以原子方式在适当的 TCP 套接字上发送。类似地，在接收路径中，消息在每个 TCP 套接字 (Psock) 上构建，并且完整的消息被引导到 KCM 套接字。

TCP 套接字 & Psocks¶

TCP 套接字可以绑定到 KCM 多路复用器。为每个绑定的 TCP 套接字分配一个 Psock 结构，该结构保存用于在接收时构造消息的状态以及 KCM 的其他连接特定信息。

连接模式语义¶

每个多路复用器都假定所有连接的 TCP 连接都连接到同一目标，并且可以在发送时使用不同的连接进行负载平衡。可以使用正常的 send 和 recv 调用（包括 sendmmsg 和 recvmmsg）从 KCM 套接字发送和接收消息。

套接字类型¶

KCM 支持 SOCK_DGRAM 和 SOCK_SEQPACKET 套接字类型。

消息划分¶

消息通过 TCP 流发送，并带有某种应用程序协议消息格式，该格式通常包括一个帧消息的标头。可以从应用程序协议标头（通常只是一个简单的长度字段）推断出接收到的消息的长度。

必须解析 TCP 流才能确定消息边界。 Berkeley Packet Filter (BPF) 用于此。将 TCP 套接字附加到多路复用器时，必须指定 BPF 程序。该程序在开始接收新消息时被调用，并提供一个包含到目前为止收到的字节的 skbuff。它解析消息头并返回消息的长度。鉴于此信息，KCM 将构造指定长度的消息并将其传递到 KCM 套接字。

TCP 套接字管理¶

当 TCP 套接字附加到 KCM 多路复用器时，数据就绪 (POLLIN) 和可用的写入空间 (POLLOUT) 事件由多路复用器处理。如果 TCP 套接字上发生状态更改（断开连接）或其他错误，则会在 TCP 套接字上发布错误，以便发生 POLLERR 事件，并且 KCM 停止使用该套接字。当应用程序收到 TCP 套接字的错误通知时，它应该从 KCM 分离该套接字，然后处理错误情况（典型的响应是关闭套接字并在必要时创建新连接）。

KCM 将最大接收消息大小限制为附加 TCP 套接字上接收套接字缓冲区的大小（套接字缓冲区大小可以通过 SO_RCVBUF 设置）。如果 BPF 程序报告的新消息的长度大于此限制，则会在 TCP 套接字上发布相应的错误 (EMSGSIZE)。 BPF 程序还可以强制执行最大消息大小，并在超出该大小时报告错误。

可以为在接收套接字上组装消息设置超时。超时值取自附加 TCP 套接字的接收超时（这由 SO_RCVTIMEO 设置）。如果在组装完成之前计时器到期，则会在套接字上发布错误 (ETIMEDOUT)。

用户界面¶

创建多路复用器¶

通过套接字调用创建新的多路复用器和初始 KCM 套接字

socket(AF_KCM, type, protocol)

type 是 SOCK_DGRAM 或 SOCK_SEQPACKET
protocol 是 KCMPROTO_CONNECTED

克隆 KCM 套接字¶

在使用上述套接字调用创建第一个 KCM 套接字后，可以通过克隆 KCM 套接字来为多路复用器创建额外的套接字。这是通过 KCM 套接字上的 ioctl 来完成的

/* From linux/kcm.h */
struct kcm_clone {
      int fd;
};

struct kcm_clone info;

memset(&info, 0, sizeof(info));

err = ioctl(kcmfd, SIOCKCMCLONE, &info);

if (!err)
  newkcmfd = info.fd;

附加传输套接字¶

通过在多路复用器的 KCM 套接字上调用 ioctl 来执行将传输套接字附加到多路复用器。例如

/* From linux/kcm.h */
struct kcm_attach {
      int fd;
      int bpf_fd;
};

struct kcm_attach info;

memset(&info, 0, sizeof(info));

info.fd = tcpfd;
info.bpf_fd = bpf_prog_fd;

ioctl(kcmfd, SIOCKCMATTACH, &info);

kcm_attach 结构包含

fd：正在附加的 TCP 套接字的文件描述符

bpf_prog_fd：已下载的已编译 BPF 程序的文件描述符

分离传输套接字¶

从多路复用器分离传输套接字非常简单。使用 kcm_unattach 结构作为参数完成“分离” ioctl

/* From linux/kcm.h */
struct kcm_unattach {
      int fd;
};

struct kcm_unattach info;

memset(&info, 0, sizeof(info));

info.fd = cfd;

ioctl(fd, SIOCKCMUNATTACH, &info);

禁用 KCM 套接字上的接收¶

使用 setsockopt 来禁用或启用 KCM 套接字上的接收。禁用接收时，套接字的接收缓冲区中的任何挂起消息都会移动到其他套接字。如果应用程序线程知道它将对一个请求执行大量工作并且暂时无法为新消息提供服务，则此功能非常有用。使用示例

int val = 1;

setsockopt(kcmfd, SOL_KCM, KCM_RECV_DISABLE, &val, sizeof(val))

用于消息划分的 BPF 程序¶

可以使用 BPF LLVM 后端编译 BPF 程序。例如，用于解析 Thrift 的 BPF 程序是

#include "bpf.h" /* for __sk_buff */
#include "bpf_helpers.h" /* for load_word intrinsic */

SEC("socket_kcm")
int bpf_prog1(struct __sk_buff *skb)
{
     return load_word(skb, 0) + 4;
}

char _license[] SEC("license") = "GPL";

在应用程序中使用¶

KCM 加速应用层协议。具体来说，它允许应用程序使用基于消息的接口来发送和接收消息。内核提供了必要的保证，即消息以原子方式发送和接收。这减轻了应用程序在将基于消息的协议映射到 TCP 流上的许多负担。 KCM 还使应用层消息成为内核中的工作单元，用于控制和调度，这反过来又允许在多线程应用程序中使用更简单的网络模型。

配置¶

在 Nx1 配置中，KCM 在逻辑上为同一 TCP 连接提供多个套接字句柄。这允许 TCP 套接字上的 I/O 操作之间存在并行性（例如，数据的 copyin 和 copyout 是并行化的）。在应用程序中，可以为每个处理线程打开一个 KCM 套接字并将其插入 epoll 中（类似于使用 SO_REUSEPORT 来允许同一端口上的多个侦听器套接字）。

在 MxN 配置中，与同一目标建立多个连接。这些用于简单的负载平衡。

消息批处理¶

KCM 的主要目的是在 KCM 套接字和线程之间进行负载平衡，因此在正常用例中。完美的负载平衡（即将接收到的每条消息引导到不同的 KCM 套接字，或者将每条发送的消息引导到不同的 TCP 套接字）可能会对性能产生负面影响，因为这不允许建立亲和性。基于组或批量消息进行平衡可能有利于性能。

在发送时，应用程序可以通过三种方式在 KCM 套接字上批量处理（流水线化）消息。

在单个 sendmmsg 中发送多条消息。

发送一组消息，每条消息都有一个 sendmsg 调用，其中除最后一条消息外的所有消息在 sendmsg 调用的标志中都有 MSG_BATCH。

创建由多条消息组成的“超级消息”，并使用单个 sendmsg 发送它。

在接收时，KCM 模块尝试在每个 TCP 就绪回调期间将同一 KCM 套接字上接收到的消息排队。目标 KCM 套接字在 KCM 套接字上的每次接收就绪回调时都会更改。应用程序不需要配置此项。

错误处理¶

应用程序应包含一个线程来监视 TCP 连接上引发的错误。通常，这将通过将附加到 KCM 多路复用器的每个 TCP 套接字放置在 epoll 中设置为 POLLERR 事件来完成。如果附加的 TCP 套接字上发生错误，KCM 会在该套接字上设置 EPIPE，从而唤醒应用程序线程。当应用程序看到错误（可能只是断开连接）时，它应该从 KCM 中分离该套接字，然后将其关闭。假设一旦在 TCP 套接字上发布了错误，数据流就无法恢复（即，可能在接收消息的中间发生了错误）。

TCP 连接监控¶

在 KCM 中，没有办法将消息与用于发送或接收该消息的 TCP 套接字相关联（除非只有连接了一个 TCP 套接字）。但是，应用程序确实保留了套接字的打开文件描述符，因此它将能够从套接字获取统计信息，这些信息可用于检测问题（例如套接字上的高重传）。

Linux内核

目录

本页