经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
记一次 splice 导致 io.Copy 阻塞的排查过程
来源:cnblogs  作者:小胖西瓜  时间:2024/2/26 15:06:53  对本文有异议

记一次 splice 导致 io.Copy 阻塞的排查过程

简而言之,net.TCPConn 的 ReadFrom 零拷贝实现 splice1.21.0 - 1.21.4 删除了 SPLICE_F_NONBLOCK 参数,导致在 CentOS7.2(内核版本 3.10.0) 上 splice 被阻塞。

相关的 issuehttps://github.com/golang/go/issues/59041

这个问题在 1.21.5 中被修复,commithttps://github.com/yunginnanet/go/commit/35afad885d5e046a4a14643b5b530b128ca953de

背景

由于环境的问题,需要有一个 TCP 的代理,之前一直用 ncat -vl 10022 -k -c 'ncat -nv 127.0.0.1 22' 方式将 10022 端口的流量代理至 127.0.0.1:22,但是 ncat 是一个连接一个进程,如果要做短连接压测的,代理会成为瓶颈。

所以决定换个代理的软件,因为 Go 写一个代理特别简单,十行代码就能实现一个性能不错的服务,那就直接自己写一个。

  1. package main
  2. import (
  3. "flag"
  4. "fmt"
  5. "io"
  6. "net"
  7. "sync"
  8. "github.com/sirupsen/logrus"
  9. )
  10. func main() {
  11. f := flag.String("from", "", "source addr")
  12. t := flag.String("to", "", "dest addr")
  13. flag.Parse()
  14. if *f == "" || *t == "" {
  15. fmt.Println("Invalid from/to address")
  16. return
  17. }
  18. logrus.WithFields(logrus.Fields{"from": *f, "to": *t}).Info("Setup proxy server")
  19. lis, err := net.Listen("tcp", *f)
  20. if err != nil {
  21. panic(err)
  22. }
  23. logrus.WithField("addr", lis.Addr()).Info("Listen on")
  24. for {
  25. conn, err := lis.Accept()
  26. if err != nil {
  27. panic(err)
  28. }
  29. go handleConn(conn, *t)
  30. }
  31. }
  32. func handleConn(uConn net.Conn, to string) {
  33. logrus.WithField("addr", uConn.RemoteAddr()).Info("New conn")
  34. defer uConn.Close()
  35. rConn, err := net.Dial("tcp", to)
  36. if err != nil {
  37. logrus.WithError(err).Error("Fail to net.DialTCP")
  38. return
  39. }
  40. logrus.WithField("local", rConn.LocalAddr()).Info("Start proxy conn")
  41. wg := sync.WaitGroup{}
  42. wg.Add(2)
  43. go func() {
  44. defer wg.Done()
  45. io.Copy(uConn, rConn)
  46. rConn.Close()
  47. uConn.Close()
  48. }()
  49. go func() {
  50. defer wg.Done()
  51. io.Copy(rConn, uConn)
  52. uConn.Close()
  53. rConn.Close()
  54. }()
  55. wg.Wait()
  56. }

编译操作系统为 Debian12,Go 版本为 1.21.1

因为默认路由的原因,我把这个服务部署在了一个 CentOS7.2 的虚拟机里面,压测发现QPS总是上不去。

用 tcpdump 抓包定位到是这边的代理程序有问题,流量没有被正确的进行转发。

为避免出现敏感数据,用下面的图来做模拟,在 A 使用 scpB 发送文件,中间经过了个我们写的服务 PROXY

  1. +----------------+ +-------------------------------+
  2. | (A) Debian12 | | (B) CentOS7.2 |
  3. | | <--> | 192.168.32.251:10022 |
  4. | 192.168.32.251 | | └─> PROXY |
  5. | | | └─> 127.0.0.1:22 |
  6. +----------------+ +-------------------------------+
  7. # 生成一个大的文件
  8. # dd if=/dev/zero of=/tmp/1.txt bs=1M count=1024
  9. # 使用命令模拟压测
  10. # scp -P 10022 /tmp/1.txt root@192.168.32.245:/tmp/

排查

ps 看到这个进程还在运行,所以不是进程退出导致的。

top 观察进程 CPU 占用也不高,所以不是代码写出死循环来了。

由于程序没有加日志,通过 strace -p $(pidof PROXY) 来分析一下当前哪些系统调用在执行,看起来是 epoll_pwait 没有就绪事件返回。

  1. [pid 26877] splice(14, NULL, 18, NULL, 1048576, 0) = -1 EAGAIN (Resource temporarily unavailable)
  2. [pid 26790] epoll_pwait(5, <unfinished ...>
  3. [pid 26788] nanosleep({tv_sec=0, tv_nsec=20000}, <unfinished ...>
  4. [pid 26790] <... epoll_pwait resumed>[], 128, 0, NULL, 0) = 0
  5. [pid 26877] epoll_pwait(5, <unfinished ...>
  6. [pid 26790] epoll_pwait(5, <unfinished ...>
  7. [pid 26877] <... epoll_pwait resumed>[], 128, 0, NULL, 0) = 0
  8. [pid 26877] futex(0xc000040d48, FUTEX_WAIT_PRIVATE, 0, NULL <unfinished ...>
  9. [pid 26788] <... nanosleep resumed>NULL) = 0
  10. [pid 26788] futex(0x5ea8a0, FUTEX_WAIT_PRIVATE, 0, {tv_sec=60, tv_nsec=0} <unfinished ...>
  11. [pid 26790] <... epoll_pwait resumed>[{EPOLLIN|EPOLLOUT, {u32=2345140225, u64=9221451948300435457}}], 128, -1, NULL, 0) = 1
  12. [pid 26790] epoll_pwait(5, [], 128, 0, NULL, 0) = 0
  13. [pid 26790] epoll_pwait(5, [{EPOLLIN|EPOLLOUT, {u32=2345140225, u64=9221451948300435457}}], 128, -1, NULL, 0) = 1
  14. 多条 epoll_pwait 省略

看看连接缓冲区里面有没有数据 netstat -ntp | grep 10022,在接受缓冲区内还有 1666120 个字节的数据没有被读出

  1. tcp6 1666120 0 192.168.32.245:10022 192.168.32.251:49440 ESTABLISHED 26787/PROXY

当时想着看看重启能不能复现,在重启之前先 kill -3 把堆栈打印出来,拿到了一个关键的栈信息。

  1. goroutine 19 [syscall]:
  2. syscall.Syscall6(0x7ff92db08be8?, 0xc000068c88?, 0x45fca5?, 0xc000068c98?, 0x48ed3c?, 0xc000068cb0?, 0x48eea7?)
  3. /usr/local/go1.21/src/syscall/syscall_linux.go:91 +0x30 fp=0xc000068c60 sp=0xc000068bd8 pc=0x481b50
  4. syscall.Splice(0xc000102000?, 0xc000068d08?, 0x0?, 0x4e70c0?, 0x4e70c0?, 0xc000068d20?)
  5. /usr/local/go1.21/src/syscall/zsyscall_linux_amd64.go:1356 +0x45 fp=0xc000068cc0 sp=0xc000068c60 pc=0x480d05
  6. internal/poll.splice(...)
  7. /usr/local/go1.21/src/internal/poll/splice_linux.go:155
  8. internal/poll.spliceDrain(0xc000102100?, 0xc000102000, 0x5a800?)
  9. /usr/local/go1.21/src/internal/poll/splice_linux.go:92 +0x185 fp=0xc000068d68 sp=0xc000068cc0 pc=0x4917c5
  10. internal/poll.Splice(0x0?, 0x0?, 0x7fffffffffffffff)
  11. /usr/local/go1.21/src/internal/poll/splice_linux.go:42 +0x173 fp=0xc000068e00 sp=0xc000068d68 pc=0x491413
  12. net.splice(0x0?, {0x53bca8?, 0xc000106000?})
  13. /usr/local/go1.21/src/net/splice_linux.go:39 +0xdf fp=0xc000068e60 sp=0xc000068e00 pc=0x4cc29f
  14. net.(*TCPConn).readFrom(0xc000106008, {0x53bca8, 0xc000106000})
  15. /usr/local/go1.21/src/net/tcpsock_posix.go:48 +0x28 fp=0xc000068e90 sp=0xc000068e60 pc=0x4cd0c8
  16. net.(*TCPConn).ReadFrom(0xc000106008, {0x53bca8?, 0xc000106000?})
  17. /usr/local/go1.21/src/net/tcpsock.go:130 +0x30 fp=0xc000068ed0 sp=0xc000068e90 pc=0x4cc770
  18. io.copyBuffer({0x53bd68, 0xc000106008}, {0x53bca8, 0xc000106000}, {0x0, 0x0, 0x0})
  19. /usr/local/go1.21/src/io/io.go:416 +0x147 fp=0xc000068f50 sp=0xc000068ed0 pc=0x47d587
  20. io.Copy(...)
  21. /usr/local/go1.21/src/io/io.go:389
  22. main.handleConn.func2()
  23. /home/devel/demo/app/demo/main.go:73 +0xb2 fp=0xc000068fe0 sp=0xc000068f50 pc=0x4db672
  24. runtime.goexit()
  25. /usr/local/go1.21/src/runtime/asm_amd64.s:1650 +0x1 fp=0xc000068fe8 sp=0xc000068fe0 pc=0x464641
  26. created by main.handleConn in goroutine 17
  27. /home/devel/demo/app/demo/main.go:71 +0x368

分析看到在 io.Copy 这条路线有问题,先看看 io.Copy 的源码

分析 io.Copy

io.Copy 内部有这么一段代码,优先于 read/write 调用,上面的堆栈打印看起来也是这个 ReadFrom 里面有问题。

  1. if wt, ok := src.(WriterTo); ok {
  2. return wt.WriteTo(dst)
  3. }
  4. // Similarly, if the writer has a ReadFrom method, use it to do the copy.
  5. if rt, ok := dst.(ReaderFrom); ok {
  6. return rt.ReadFrom(src)
  7. }

OK 先跳过这个 ReadFrom 看看能不能行呢,于是把 io.Copy 里面的 WriteTo/ReadFrom 注释,并且直接放到外面来,使用一般的 read/write 调用。

编译运行,可行!!!

那么问题就只能在这个 ReadFrom 里面了,照着上面的堆栈,一路追到了 poll.Splice 内,但是之前没有用过 splice 这个函数,只知道是一个零拷贝相关的函数。好吧,Go 在这里还做了一些优化。

那看来还是得研究一下,这个 splice 系统调用。

分析 poll.Splice

在这之前先搜索了一些文档看了一下,这个 splice文档写的相当好,很快就能够理解。

文章里面的的这张图清晰的描述了两次 splice 就能通过 pipe 在内核就将数据发送出去,没有把数据从内核空间拷贝至用户空间。

为了减少语言的干扰,使用 C 照着 poll.Splice 重写了一遍,代码如下。在 splice_readfrom 内部,每次循环调用两次 splice,一次将源 sockfd 的数据放至 pipe 中,一次将 pipe 中的数据写入目的 sockfd 中。

  1. #define _GNU_SOURCE 1
  2. #include <arpa/inet.h>
  3. #include <assert.h>
  4. #include <errno.h>
  5. #include <fcntl.h>
  6. #include <inttypes.h>
  7. #include <netinet/in.h>
  8. #include <poll.h>
  9. #include <pthread.h>
  10. #include <stdio.h>
  11. #include <string.h>
  12. #include <unistd.h>
  13. #include <thread>
  14. static ssize_t splice_drain(int fd, int pipefd, size_t max) {
  15. while (1) {
  16. ssize_t n = splice(fd, NULL, pipefd, NULL, max, 0);
  17. if (n >= 0)
  18. return n;
  19. // error handle
  20. if (errno == EINTR)
  21. continue;
  22. else if (errno != EAGAIN)
  23. return -1;
  24. }
  25. }
  26. static ssize_t splice_pump(int pipefd, int fd, size_t in_pipe) {
  27. ssize_t written = 0;
  28. while (in_pipe > 0) {
  29. ssize_t n = splice(pipefd, NULL, fd, NULL, in_pipe, 0);
  30. if (n >= 0) {
  31. in_pipe -= n;
  32. written += n;
  33. continue;
  34. }
  35. if (errno != EAGAIN)
  36. return -1;
  37. }
  38. return written;
  39. }
  40. static const size_t kMaxSpliceSize = 1 << 20;
  41. ssize_t splice_readfrom(int dstfd, int srcfd) {
  42. int pipefd[2];
  43. if (pipe2(pipefd, 0) < 0)
  44. return -1;
  45. ssize_t written = 0;
  46. ssize_t remain = INT64_MAX;
  47. while (remain > 0) {
  48. size_t max = kMaxSpliceSize;
  49. if (max > (size_t)remain)
  50. max = remain;
  51. ssize_t in_pipe = splice_drain(srcfd, pipefd[1], max);
  52. if (in_pipe < 0)
  53. return -1;
  54. else if (in_pipe == 0)
  55. break;
  56. ssize_t n = splice_pump(pipefd[0], dstfd, in_pipe);
  57. if (n > 0) {
  58. remain -= n;
  59. written += n;
  60. }
  61. }
  62. close(pipefd[0]);
  63. close(pipefd[1]);
  64. return written;
  65. }
  66. int main(int argc, char **argv) {
  67. int sockfd = socket(AF_INET, SOCK_STREAM, 0);
  68. if (sockfd < 0) {
  69. perror("Fail to socket");
  70. return -1;
  71. }
  72. int opt = 1;
  73. setsockopt(sockfd, SOL_SOCKET, SO_REUSEADDR, (const void *)&opt, sizeof(opt));
  74. fcntl(sockfd, F_SETFL, fcntl(sockfd, F_GETFL, NULL) | O_NONBLOCK);
  75. struct sockaddr_in addr;
  76. addr.sin_family = AF_INET;
  77. addr.sin_port = htons(10022);
  78. addr.sin_addr.s_addr = htonl(INADDR_ANY);
  79. if (bind(sockfd, (struct sockaddr *)&addr, sizeof(addr)) < 0) {
  80. perror("Fail to bind");
  81. return -1;
  82. }
  83. if (listen(sockfd, 10) < 0) {
  84. perror("Fail to listen");
  85. return -1;
  86. }
  87. printf("listen on\n");
  88. int timeout = 3000;
  89. struct pollfd fds = {sockfd};
  90. fds.events |= POLLIN;
  91. while (1) {
  92. int ret = poll(&fds, 1, timeout);
  93. if (ret > 0) {
  94. struct sockaddr_in in;
  95. socklen_t len = sizeof(in);
  96. int connfd = accept(sockfd, (struct sockaddr *)&in, &len);
  97. if (connfd < 0) {
  98. perror("Fail to accept");
  99. return -1;
  100. }
  101. fcntl(connfd, F_SETFL, fcntl(connfd, F_GETFL, NULL) | O_NONBLOCK);
  102. std::thread t(
  103. [](struct sockaddr_in addr, int u_connfd) {
  104. int sockfd = socket(AF_INET, SOCK_STREAM, 0);
  105. if (sockfd < 0) {
  106. perror("Fail to socket");
  107. return;
  108. }
  109. struct sockaddr_in dst_addr;
  110. dst_addr.sin_family = AF_INET;
  111. dst_addr.sin_port = htons(10022);
  112. dst_addr.sin_addr.s_addr = htonl(INADDR_LOOPBACK);
  113. if (connect(sockfd, (struct sockaddr *)&dst_addr,
  114. sizeof(dst_addr)) < 0) {
  115. perror("Fail to connect");
  116. return;
  117. }
  118. char dst_txt[INET_ADDRSTRLEN];
  119. char src_txt[INET_ADDRSTRLEN];
  120. inet_ntop(AF_INET, &addr.sin_addr, src_txt, sizeof(src_txt));
  121. printf("New conn from %s:%d\n", src_txt, ntohs(addr.sin_port));
  122. std::thread t1([&]() { splice_readfrom(sockfd, u_connfd); });
  123. std::thread t2([&]() { splice_readfrom(u_connfd, sockfd); });
  124. t1.join();
  125. t2.join();
  126. close(sockfd);
  127. close(u_connfd);
  128. },
  129. in, connfd);
  130. t.detach();
  131. }
  132. }
  133. return 0;
  134. }

测试下来,和 Go 版本表现一样,也是被阻塞,不过现在问题就更清晰一些,splice 的使用有问题。

于是仔细看了一下文档,里面有一个参数 SPLICE_F_NONBLOCK,要不加上试一下看看,加上之后程序是正常运行的。

所以会是这个参数的问题?在 Go 的实现里面,spliceflags 参数是为 0 的,也就是意味着是没有设置为非阻塞状态的。

想到我们之前的代理程序都没有出现这个情况,难道是 Go 版本的原因?于是使用 Go1.18 对 PROXY 进行编译运行,正常运行!

看了两个版本的实现,果然 Go1.18 是含有这个 SPLICE_F_NONBLOCK 参数的,在之后的版本内被删除了;继续搜索,发现了有人提了个上面的 issue。

对代码追踪发现 受影响版本为 1.21.0 - 1.21.4

扩展分析

issue 里面 Go 的开发者说所有的 case 都正常能跑过,所以把这个参数删除了。既然开发者测试没有问题,但是实际使用又有问题,那就有可能是环境不一致导致的。

分析未在不同内核上splice表现不一致

在上面的排查过程中,我还把 PROXY(Go1.21.1) 放到 A 中运行,代理至 192.168.32.245:22 上,表现也是正常的。经过测试,io.Copy 在不同的系统上的影响如下:

Kernel\Go 1.18.0 1.21.1
3.10 正常 不正常
6.1 正常 正常

1.18 是没有 BUG 的版本,也就是增加了 SPLICE_F_NONBLOCK 参数。那为何 1.21.1 版本没有增加这个参数的可以在 6.1 的内核上运行呢。

没有很好的头绪,难道是 pipe 导致的问题吗,pipe 太小了?于是调整 pipe 大小

  1. fcntl(pipefd[0], F_SETPIPE_SZ, 1 << 20);
  2. fcntl(pipefd[1], F_SETPIPE_SZ, 1 << 20);

使用 Go1.21.1 版本进行编译,并且进行测试,结果如下:

Kernel\Go 1.21.1
3.10 正常
6.1 正常

pipe 太小,那测试数据小于默认大小 65536 的看看会不会有问题

  1. dd if=/dev/zero of=/tmp/1.txt bs=1 count=65536

测试结果如下:

测试数据大小 测试结果
65536 不正常
32768 不正常
25000 不正常
16384 正常

splice 还有一个参数 len,为从 fd_in 到 pipe_w 中的字节数,如果我减少这个大小,那么结果会如何。测试下来 和调整 pipe 大小带来的结果相同

splice 在不同内核上表现的结果不同这个问题,可以缩小一些排查的范围了:和 pipe 相关

不同内核的 splice 实现

看代码之前确认要关注的点:在哪里存在阻塞的动作

splice 实现位于 fs/splice.c 中,下面的代码取自 kernel-6.1(3.10 的内核代码也相似,主体逻辑没有变化)

  1. SYSCALL_DEFINE6(splice, ...) // fs/splice.c
  2. -> __do_splice
  3. -> do_splice
  4. -> splice_file_to_pipe // 将 sockfd 的数据传输至 pipe 中,走这条路径
  5. -> do_splice_to
  6. -> tcp_splice_read (in->f_op->splice_read) // net/ipv4/tcp.c
  7. -> __tcp_splice_read
  8. -> tcp_read_sock
  9. -> tcp_splice_data_recv
  10. -> skb_splice_bits // net/core/ipv4/skbuff.c
  11. -> splice_to_pipe // fs/splice.c

经过 TCP 的读取,兜兜转转又回到 fs/splice.c 中。

kernel-6.1 的实现

在 kernel-6.1 的实现中,spclie_to_pipe 的实现没有阻塞

  1. ssize_t splice_to_pipe(struct pipe_inode_info *pipe,
  2. struct splice_pipe_desc *spd)
  3. {
  4. // ....
  5. while (!pipe_full(head, tail, pipe->max_usage)) {
  6. struct pipe_buffer *buf = &pipe->bufs[head & mask];
  7. buf->page = spd->pages[page_nr];
  8. buf->offset = spd->partial[page_nr].offset;
  9. buf->len = spd->partial[page_nr].len;
  10. buf->private = spd->partial[page_nr].private;
  11. buf->ops = spd->ops;
  12. buf->flags = 0;
  13. head++;
  14. pipe->head = head;
  15. page_nr++;
  16. ret += buf->len;
  17. if (!--spd->nr_pages)
  18. break;
  19. }
  20. if (!ret)
  21. ret = -EAGAIN;
  22. out:
  23. while (page_nr < spd_pages)
  24. spd->spd_release(spd, page_nr++);
  25. return ret;
  26. }

向上回溯,在 splice_file_to_pipe 中,wait_for_space 中如果 pipe 满了则进行等待 pipe_wait_writable(pipe)

  1. long splice_file_to_pipe(struct file *in,
  2. struct pipe_inode_info *opipe,
  3. loff_t *offset,
  4. size_t len, unsigned int flags)
  5. {
  6. long ret;
  7. pipe_lock(opipe);
  8. ret = wait_for_space(opipe, flags);
  9. if (!ret)
  10. ret = do_splice_to(in, offset, opipe, len, flags);
  11. pipe_unlock(opipe);
  12. if (ret > 0)
  13. wakeup_pipe_readers(opipe);
  14. return ret;
  15. }
  16. static int wait_for_space(struct pipe_inode_info *pipe, unsigned flags)
  17. {
  18. for (;;) {
  19. if (unlikely(!pipe->readers)) {
  20. send_sig(SIGPIPE, current, 0);
  21. return -EPIPE;
  22. }
  23. if (!pipe_full(pipe->head, pipe->tail, pipe->max_usage))
  24. return 0;
  25. if (flags & SPLICE_F_NONBLOCK)
  26. return -EAGAIN;
  27. if (signal_pending(current))
  28. return -ERESTARTSYS;
  29. pipe_wait_writable(pipe);
  30. }
  31. }

调整测试代码,对 pipe 只生产而不不消费数据。

  1. ssize_t splice_readfrom(int dstfd, int srcfd) {
  2. ...
  3. ssize_t in_pipe = splice_drain(srcfd, pipefd[1], max);
  4. sleep(1);
  5. written += in_pipe;
  6. printf("+%ld written=%ld\n", in_pipe, written);
  7. continue;
  8. ssize_t n = splice_pump(pipefd[0], dstfd, in_pipe);
  9. }

为避免 ssh 的元数据干扰,不再使用 sshd 127.0.0.1:22 作为最后点,转而写了一个 io.Discard 的 Go 服务。
测试客户端为 ncat -nv 192.168.32.251 10022 < /tmp/1.txt

在 Debian12(kernel-6.1) 上进行测试,结果如下

  1. +65509 written=65509
  2. +57344 written=122853
  3. +49152 written=172005
  4. +36864 written=208869
  5. +28672 written=237541
  6. +20480 written=258021
  7. +16384 written=274405
  8. +8192 written=282597
  9. +4096 written=286693
  10. // 之后阻塞

pipe 的大小为 65536(PAGE_SIZE * 16),但是写入的数据大于了 pipe 的缓冲区后,还能够继续写入,这点和可能和 skbuff/pipe 的 PAGE 有关,这里先跳过,直接测试一下在 CentOS7.2 上表现如何,结果直接阻塞,第一个 splice 都没有返回,好吧看看代码。

kernel-3.10 的实现

同样找到关键的 splice_to_pipe 函数

  1. ssize_t splice_to_pipe(struct pipe_inode_info *pipe, struct splice_pipe_desc *spd)
  2. {
  3. // ...
  4. for (;;) {
  5. if (pipe->nrbufs < pipe->buffers) {
  6. int newbuf = (pipe->curbuf + pipe->nrbufs) & (pipe->buffers - 1);
  7. struct pipe_buffer *buf = pipe->bufs + newbuf;
  8. buf->page = spd->pages[page_nr];
  9. buf->offset = spd->partial[page_nr].offset;
  10. buf->len = spd->partial[page_nr].len;
  11. buf->private = spd->partial[page_nr].private;
  12. buf->ops = spd->ops;
  13. if (spd->flags & SPLICE_F_GIFT)
  14. buf->flags |= PIPE_BUF_FLAG_GIFT;
  15. pipe->nrbufs++;
  16. page_nr++;
  17. ret += buf->len;
  18. if (!--spd->nr_pages)
  19. break;
  20. if (pipe->nrbufs < pipe->buffers)
  21. continue;
  22. break;
  23. }
  24. if (spd->flags & SPLICE_F_NONBLOCK) {
  25. if (!ret)
  26. ret = -EAGAIN;
  27. break;
  28. }
  29. pipe->waiting_writers++;
  30. pipe_wait(pipe);
  31. pipe->waiting_writers--;
  32. }
  33. return ret;
  34. }

代码删除了和信号相关的逻辑,整个循环内的关键路径

  • if (!--spd->nr_pages) 为数据页都被挂在 pipe 后退出循环
  • if (pipe->nrbufs < pipe->buffers) 为 pipe 中还有空间则继续运行
  • if (spd->flags & SPLICE_F_NONBLOCK) 为 pipe 没有空间但是设置了非阻塞,则直接返回
  • pipe_wait 为数据没有读完,但是 pipe 已经没有空间则直接被挂起

在上面分析未在不同内核上splice表现不一致的结果中,可以看到 16K 的数据是能够返回的,数据的大小大一些就被阻塞了。

对比分析

kernel-6.1 对 splice 的实现相较 kernel-3.10 做了关键的两点变化:

  1. 提前做了 pipe 的空判断,这样数据挂载函数 splice_to_pipe 内部就不用进行阻塞了,而 3.10 将空判断和数据的转移放在一起做了
    1. static int wait_for_space(struct pipe_inode_info *pipe, unsigned flags)
    2. {
    3. for (;;) {
    4. if (unlikely(!pipe->readers)) {
    5. send_sig(SIGPIPE, current, 0);
    6. return -EPIPE;
    7. }
    8. if (!pipe_full(pipe->head, pipe->tail, pipe->max_usage))
    9. return 0;
    10. if (flags & SPLICE_F_NONBLOCK)
    11. return -EAGAIN;
    12. if (signal_pending(current))
    13. return -ERESTARTSYS;
    14. pipe_wait_writable(pipe);
    15. }
    16. }
  2. 限制了单次 splice 读取的大小
    1. static long do_splice_to(struct file *in, loff_t *ppos,
    2. struct pipe_inode_info *pipe, size_t len,
    3. unsigned int flags)
    4. {
    5. /* Don't try to read more the pipe has space for. */
    6. p_space = pipe->max_usage - pipe_occupancy(pipe->head, pipe->tail);
    7. len = min_t(size_t, len, p_space << PAGE_SHIFT);
    8. return in->f_op->splice_read(in, ppos, pipe, len, flags);
    9. }

结合代码和测试程序进行分析一下
kernel-3.10 里面的实现可能在 splice_to_pipe 中就被阻塞了,pipe 可容纳的空间小于 skbuff 中的数据
kernel-6.1 由于每次都会判断是否为空,只向 pipe 中写入可容纳的数据,所以只要有空间就不会被阻塞。

那么就遗留另外一个问题,pipe 的可容纳大小在不同版本内核上的不一样,和文档里面的 65536 都有一些明显出入,但是测试 pipe 的 write,则是准确的 65536. 据查资料得到的结论,fd -> pipe -> fd 这个过程只是 skbuff 的 PAGE 变化,内核不会再进行额外的内存分配。

上面的分析还需要通过调试来进行证明,那可以再写一篇文章通过kprobe分析 splice 了,这里再挖一个坑。

结论

这个问题只在低版本的内核上有问题,在高版本 Debian12 是正常的,在 Go1.21.5 中已经修复,建议使用 Go1.21.5 及以上的版本。

TODO

通过 kprobe 来分析 splice 下的 pipe 空间变化

参考

原文链接:https://www.cnblogs.com/shuqin/p/18031269

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号