前言:我们做内核开发的时候,我们经常要去跟踪linux内核的函数调用关系,对于我们来说ftrace是一个十分好用的工具,值得我们好好学习。ftrace不只是一个函数跟踪工具,它的跟踪能力之强大,还能调试和分析诸如延迟、意外代码路径、性能问题等一大堆问题。它也是一种很好的学习工具。
首先,在学习ftrace之前,我们要知道它是什么?根据linux ftrace的详细介绍,ftrace是一个linux内部的一个trace工具,用于帮助开发者和系统设计者知道内核当前正在干什么,从而更好的去分析性能问题。
ftrace是由Steven Rostedy和Ingo Molnar在内核2.6.27版本中引入的,那个时候,systemTap已经开始崭露头角,其它的trace工具包括LTTng等已经发展多年,那么为什么人们还需要开发一个trace工具呢?
SystemTap项目是 Linux 社区对 SUN Dtrace 的反应,目标是达到甚至超越 Dtrace 。因此 SystemTap 设计比较复杂,Dtrace 作为 SUN 公司的一个项目开发了多年才最终稳定发布,况且得到了 Solaris 内核中每个子系统开发人员的大力支持。 SystemTap 想要赶超 Dtrace,困难不仅是一样,而且更大,因此她始终处在不断完善自身的状态下,在真正的产品环境,人们依然无法放心的使用她。不当的使用和 SystemTap 自身的不完善都有可能导致系统崩溃。
Ftrace的设计目标简单,本质上是一种静态代码插装技术,不需要支持某种编程接口让用户自定义 trace 行为。静态代码插装技术更加可靠,不会因为用户的不当使用而导致内核崩溃。 ftrace 代码量很小,稳定可靠。
同时Ftrace 有重大的创新:
ftrace的名字由function trace而来。function trace是利用gcc编译器在编译时在每个函数的入口地址放置一个probe点,这个probe点会调用一个probe函数(gcc默认调用名为mcount的函数),这样这个 probe函数会对每个执行的内核函数进行跟踪(其实有少数几个内核函数不会被跟踪),并打印log到一个内核中的环形缓存(ring buffer)中,而用户可以通过debugfs来访问这个环形缓存中的内容。
各类tracer往ftrace主框架注册,不同的trace则在不同的probe点把信息通过probe函数给送到ring buffer中,再由暴露在用户态debufs实现相关控制。其主要的框架图如下图所示

学习直通车:
内核资料直通车:
其主要由两部分构成:
对于ftrace有两种主要的跟踪机制往缓冲区写数据:
ftrace利用了gcc的profile特性,gcc 的 -pg 选项将在每个函数的入口处加入对mcount的代码调用。

如果ftrace编写了自己的mcount stub函数,则可借此实现trace功能。但是,在每个内核函数入口加入trace代码,必然影响内核的性能,为了减小对内核性能的影响,ftrace支持动态trace功能。当COFNIG_DYNAMIC_FTRACE被选中后,内核编译时会调用recordmcount.pl脚本,将每个函数的地址写入一个特殊的段:__mcount_loc。
要使用 ftrace,首先就是需要将系统的 debugfs 或者 tracefs 给挂载到某个地方,幸运的是,几乎所有的 Linux 发行版,都开启了 debugfs/tracefs 的支持,所以我们也没必要去重新编译内核了。
在比较老的内核版本,譬如 CentOS 7 的上面,debugfs 通常被挂载到 /sys/kernel/debug 上面(debug 目录下面有一个 tracing 目录),而比较新的内核,则是将 tracefs 挂载到 /sys/kernel/tracing,无论是什么,我都喜欢将 tracing 目录直接 link 到 /tracing。后面都会假设直接进入了 /tracing 目录,在讲解 ftrace 的 tracer 之前,我们先来看看 tracing 目录下的文件,它们提供了对 ftrace trace 过程的控制。

tracing 目录下的文件分成了下面四类:




ftrace 提供了不同的跟踪器,以用于不同的场合,比如跟踪内核函数调用、对上下文切换进行跟踪、查看中断被关闭的时长、跟踪内核态中的延迟以及性能问题等。
系统开发人员可以使用 ftrace 对内核进行跟踪调试,以找到内核中出现的问题的根源,方便对其进行修复。
使用 ftrace ,首先要将其编译进内核,内核源码目录下的 kernel/trace/Makefile 文件给出了 ftrace 相关的编译选项
- CONFIG_FTRACE=y
- CONFIG_HAVE_FUNCTION_TRACER=y
- CONFIG_HAVE_FUNCTION_GRAPH_TRACER=y
- CONFIG_HAVE_DYNAMIC_FTRACE=y
- CONFIG_FUNCTION_TRACER=y
- CONFIG_IRQSOFF_TRACER=y
- CONFIG_SCHED_TRACER=y
- CONFIG_ENABLE_DEFAULT_TRACERS=y
- CONFIG_FTRACE_SYSCALLS=y
- CONFIG_PREEMPT_TRACER=y
Ftrace 由 RedHat 的 Steve Rostedt 负责维护。到 2.6.30 为止,ftrace 提供了不同的跟踪器,以用于不同的场合,比如跟踪内核函数调用、对上下文切换进行跟踪、查看中断被关闭的时长、跟踪内核态中的延迟以及性能问题等。

Ftrace 的实现依赖于其他很多内核特性,比如 tracepoint[3],debugfs[2],kprobe[4],IRQ-Flags[5] 等。