2019-10-08

tcpdump and ebpf

以内核v6.6代码，介绍tcpdump程序如何与内核交互，加载bpf程序的。

加载：

libpcap通过sockopt里的“SO_ATTACH_FILTER“，
在 packet socket下的”sk_filter“挂载prog呈现。

运行：

当skb报文到达packet_rcv时候，通过调用___bpf_prog_run函数（注意，这个函数是3个下滑线，区别于2个下划线的函数）
运行”sk_filter“对应的prog。
其中prog的
==>packet_rcv
==> ==> run_filter
==> ==> ==>bpf_prog_run_clear_cb

2019-09-25

socket

how tcpdump work with cbpf

tcpdump通过libpcap库以及内核的af_packet对数据包问题进行抓取。
关于这两部分的如何协作抓包，之前blog里已经写过。
这里主要记录分析，在ebpf之前的内核(以v3.0)如何处理tcpdump里的filter的。

filter编译后，如何加载到内核里的：

在filter被翻译为一系列的指令后，这个指令buff被libpcap，
通过sockopt里的SO_ATTACH_FILTE选项，
最终挂载到AF_PACKET socket下的sk_filter上。

2019-07-15

bpf

tcpdump如何实现参数-报文抓取长度

用法

tcpdump -s len

原理

tcpdump会把这个长度值编译到ebpf代码中。 ebpf代码执行完后，如果filter成功，则作为返回值（return）返回给调用方（内核协议栈），内核协议栈根据返回值，修改 skb报文到指定的长度，并借助 af socket 返回给用户空间。

tcpdump命令解析

tcpdump snaplen参数: ebpf指令对比

2018-10-09

route

fib: how ipv4 lookup route with rule route

概述

规则路由（rule route）

这部分详见ip rule命令帮助手册，
https://man7.org/linux/man-pages/man8/ip-rule.8.html
简要总结:

支持多种形式的路由查找，不再仅仅局限于根据目的地址查找一种模式。
rule route采用了类似match-action模式，不过rule route称之为SELECTOR和ACTION。
SELECTOR 支持多种形式，比如IP、PORT、进出网口、tos以及非操作(not)
ACTION 中几个重要的类型：
- table：到指定的TABLE_ID对应的路由表里查找（所以这里要求必须支持多table）
- nat: 支持IP地址nat
- goto：跳转到指定的rule route，通过这个可以做成多级级联。

几点说明

优先级

rule route是支持优先级的。通过 ip rule show命令我们可以看到每条rule对应的优先级。添加rule时候，默认的是当前除0以外最高优先级的值-1，即默认新建的rule优先级高。

2018-10-03

xfrm

xfrm: configure xfrm state and policy with iproute2

测试环境

ip netns exec ns1 ip l s veth1 down
ip l delete veth0
ip netns delete ns1

ip l add type veth
ip netns add ns1

ip l s dev veth1 netns ns1
ip l set veth0 up
ip netns exec ns1 ip l set veth1 up

ip a a dev veth0 192.168.100.1/24
ip netns exec ns1 ip a a dev veth1 192.168.100.2/24
ip netns exec ns1 ip r a default via 192.168.100.1

2017-05-15

irq

slabinfo 惹的祸

mysql访问延迟问题分析

问题背景

收到数据库同学的问题排查的请求，
同一个数据中心里，dbproxy到mysql的连接失败率偏高，其tcp connect调用的超时时间是20ms+。

2016-11-23

socket

WHAT is TFO

什么是tcp fast open（TFO）

背景

网络上有大量的短连接，传输的数据很少。google统计显示，其访问请求里有30%左右的流量是短连接。

原理

针对tcp 短连接的一个优化。在syn请求里携带请求数据，让server端尽早处理，进而降低一个RTT的延迟。
client端发送时候在syn报文里，增加一个tcp option选项(TFO)，server端通过它校验client端的合法性。

2016-11-23

netdev

configure rss for ixgbe

配置ixgbe网卡的RSS

ethtool -K em1 ntuple on
ethtool --show-ntuple em1
ethtool --config-ntuple em1  flow-type tcp4 dst-port 60001 action 1
ethtool --config-ntuple em1  flow-type tcp4 dst-port 60002 action 2
ethtool --show-ntuple em1

2016-11-07

debug

How to use kpatch

搭建kpatch builder

以centos7.2为例。

默认centos7.2的安装的内核版本是3.10.0-327.el7.x86_64,这个内核版本当初是通过gcc 4.8.3编译的。
而centos7.2自带gcc rpm包的版本则是 4.8.5

kpatch build命令执行的时候，首先检查gcc的版本是否一致，
因为两者的版本不一致，所以kpatch build命令会失败。
当然我们可以使用--skip-gcc-check，跳过这个检查，我也测试发现在一些简单补丁下可以打包通过。
但是系统不推荐这样做的，会有一定的风险。

2016-10-26

netdev

udp rss hash causes low iperf perforamnce

vxlan下iperf性能问题

VXlan网络下，在两个容器(分别在两个host上)上，使用iperf进行tcp网络性能测试，带宽只能达到3.5Gb/s左右。
而两个容器所在的host机器之间是万兆网络环境，host上的网卡是ixgbe 10G网卡

解决方法

发送端使用多线程参数 -P
1
iperf -c 192.168.51.2 -P8 -t 1000
接收端IXGBE网卡RSShash使用hash(SrcIP, DstIP, SrcPort, DstPort)
1
ethtool -N em2 rx-flow-hash udp4 sdfn
Read More