2018-03-02 补充监控内容

judasn · judasn · commit 1f0ee1d86544 · 2018-03-02T14:56:11.000+08:00
diff --git a/monitor.md b/monitor.md
@@ -1,9 +1,214 @@
 # 常见日常监控
 
-## 系统查看
+## 系统信息
 
 - 查看 CentOS 版本号：`cat /etc/redhat-release` 
 
+## 系统负载
+
+#### 命令：w（判断整体瓶颈）
+
+```
+ 12:04:52 up 16 days, 12:54,  1 user,  load average: 0.06, 0.13, 0.12
+USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
+root     pts/0    116.21.24.85     11:57    4.00s 16:18   0.01s w
+```
+
+- 第一行：
+	- `12:04:52` 表示当前系统时间
+	- `up 16 days` 表示系统运行时间
+	- `1 user` 表示登录用户数
+	- `load average` 表示平均负载，0.06 表示一分钟内系统的平均负载值，0.13 表示五分钟内系统的平均负载值，0.12 表示十五分钟内系统的平均负载值。一般这个字不要超过服务器的 CPU 线程数（process）就没有关系。
+		- 查看 CPU 总的线程数：`grep 'processor' /proc/cpuinfo | sort -u | wc -l`
+- 第二行：
+	- 开始表示各个登录用户的情况，当前登录者是 root，登录者 IP 116.21.24.85
+
+
+#### 命令：vmstat（判断 RAM 和 I/0 瓶颈）
+
+- 命令：`vmstat 5 10`，每 5 秒采样一次，共 10 次。
+
+```
+procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
+ r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
+ 2  0      0  72648      0 674564    0    0     0     7    0   26  1  1 99  0  0
+ 0  0      0  72648      0 674596    0    0     0     0  442  557  1  0 99  0  0
+ 0  0      0  72648      0 674596    0    0     0    12  438  574  0  1 99  0  0
+ 0  0      0  72648      0 674596    0    0     0     0  430  540  0  0 100  0  0
+ 0  0      0  72648      0 674596    0    0     0     0  448  567  0  1 99  0  0
+ 0  0      0  72648      0 674596    0    0     0     0  459  574  1  0 99  0  0
+ 0  0      0  72648      0 674596    0    0     0     0  425  543  0  1 99  0  0
+ 0  0      0  72276      0 674600    0    0     0     0  480  643  2  3 95  0  0
+```
+
+- 第二行：
+	- `r` 表示运行和等待CPU时间片的进程数，该数字如果长期大于服务器CPU的进程数，则说明CPU不够用了。
+	- `b` 表示等待资源的进程数，比如等I/O，内存等。该数字如果长时间大于 1，则需要关注一下。
+	- `si` 表示由交换区写入到内存的数据量
+	- `so` 表示由内存写入到交换区的数据量
+	- **如果 si 和 so 的数字比较高，并且不断变化时，说明内存不够了。而且不断变化也表示对系统性能影响很大。**
+	- `bi` 表示从块设备读取数据的量（读磁盘）
+	- `bo` 表示从块设备写入数据的量（写磁盘）
+	- **如果bi和bo两个数字比较高，则说明，磁盘IO压力大。**
+	- `wa` 表示I/O等待所占用CPU的时间比
+
+
+#### 命令：iostat（判断 I/0 瓶颈）
+
+- 命令：`iostat -x -k 3 3`，每 3 秒采样一次，共 3 次。
+
+```
+avg-cpu:  %user   %nice %system %iowait  %steal   %idle
+           0.55    0.00    0.52    0.00    0.00   98.93
+
+Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
+vda               0.00     0.04    0.02    0.62     0.44     6.49    21.65     0.00    1.42    1.17    1.42   0.25   0.02
+
+avg-cpu:  %user   %nice %system %iowait  %steal   %idle
+           0.34    0.00    0.00    0.00    0.00   99.66
+
+Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
+vda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
+
+avg-cpu:  %user   %nice %system %iowait  %steal   %idle
+           2.02    0.00    0.34    0.00    0.00   97.64
+
+Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
+vda               0.00     0.00    0.00    1.68     0.00    16.16    19.20     0.00    0.20    0.00    0.20   0.20   0.03
+```
+
+- 列说明：
+	- `rrqm/s`: 每秒对该设备的读请求被合并次数，文件系统会对读取同块(block)的请求进行合并
+	- `wrqm/s`: 每秒对该设备的写请求被合并次数
+	- `r/s`: 每秒完成的读次数
+	- `w/s`: 每秒完成的写次数
+	- `rkB/s`: 每秒读数据量(kB为单位)
+	- `wkB/s`: 每秒写数据量(kB为单位)
+	- `avgrq-sz`:平均每次IO操作的数据量(扇区数为单位)
+	- `avgqu-sz`: 平均等待处理的IO请求队列长度
+	- `await`: 平均每次IO请求等待时间(包括等待时间和处理时间，毫秒为单位)
+	- `svctm`: 平均每次IO请求的处理时间(毫秒为单位)
+	- `%util`: 采用周期内用于IO操作的时间比率，即IO队列非空的时间比率
+- **总结**
+	- `iowait%` 表示CPU等待IO时间占整个CPU周期的百分比，如果iowait值超过50%，或者明显大于%system、%user以及%idle，表示IO可能存在问题。
+	- `%util` 表示磁盘忙碌情况，一般该值超过80%表示该磁盘可能处于繁忙状态
+
+#### 命令：sar（综合）
+
+- sar(system activity reporter 系统活动情况报告)
+- sar 是目前 linux 上最为全面的系统性能分析工具之一，可以从多方面对系统的活动情况进行报告。包括（文件的读写、系统调用、磁盘I/O、cpu效率、内存使用、进程活动以及IPC有关的活动）
+- 如果没安装，运行：`yum install -y sysstat`
+
+##### sar 之 CPU 使用情况（判断 CPU 瓶颈）
+
+- 命令：`sar -u 5 10`，每 5 秒采样一次，共 10 次
+
+```
+01:57:29 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
+01:57:34 PM     all      1.81      0.00      0.40      0.00      0.00     97.78
+01:57:39 PM     all      0.20      0.00      0.40      0.00      0.00     99.39
+01:57:44 PM     all      0.40      0.00      0.60      0.00      0.00     98.99
+01:57:49 PM     all      0.20      0.00      0.40      0.00      0.00     99.39
+01:57:54 PM     all      0.80      0.00      1.41      0.00      0.00     97.79
+01:57:59 PM     all      0.40      0.00      0.60      0.00      0.00     98.99
+01:58:04 PM     all      0.20      0.00      0.40      0.00      0.00     99.39
+01:58:09 PM     all      0.20      0.00      0.40      0.00      0.00     99.39
+01:58:14 PM     all      0.40      0.00      0.61      0.00      0.00     98.99
+01:58:19 PM     all      0.20      0.00      0.61      0.00      0.00     99.19
+Average:        all      0.48      0.00      0.59      0.00      0.00     98.93
+```
+
+- 列说明：
+	- `CPU：all` 表示统计信息为所有 CPU的平均值。
+	- `%user`：显示在用户级别(application)运行使用 CPU 总时间的百分比。
+	- `%nice`：显示在用户级别，用于nice操作，所占用 CPU总时间的百分比。
+	- `%system`：在核心级别(kernel)运行所使用 CPU总时间的百分比。
+	- `%iowait`：显示用于等待I/O操作占用 CPU总时间的百分比。
+	- `%steal`：管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟 CPU 的百分比。
+	- `%idle`：显示 CPU空闲时间占用 CPU总时间的百分比。
+- **总结**：
+	- 1.若 `%iowait` 的值过高，表示硬盘存在I/O瓶颈
+	- 2.若 `%idle` 的值高但系统响应慢时，有可能是 CPU 等待分配内存，此时应加大内存容量，可以使用内存监控命令分析内存。
+	- 3.若 `%idle` 的值持续低于1，则系统的 CPU 处理能力相对较低，表明系统中最需要解决的资源是 CPU。
+
+##### sar 之 RAM 使用情况（判断内存瓶颈）
+
+- 命令：`sar -B 5 10`，每 5 秒采样一次，共 10 次
+
+```
+02:32:15 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
+02:32:20 PM      0.00      0.81    258.47      0.00     27.22      0.00      0.00      0.00      0.00
+02:32:25 PM      0.00      0.00    611.54      0.00    300.20      0.00      0.00      0.00      0.00
+02:32:30 PM      0.00     26.61     10.08      0.00     11.90      0.00      0.00      0.00      0.00
+02:32:35 PM      0.00      1.62      3.64      0.00      3.84      0.00      0.00      0.00      0.00
+02:32:40 PM      0.00      0.00      3.42      0.00      4.43      0.00      0.00      0.00      0.00
+02:32:45 PM      0.00      0.00      3.43      0.00      3.83      0.00      0.00      0.00      0.00
+02:32:50 PM      0.00      1.62      3.84      0.00      5.86      0.00      0.00      0.00      0.00
+02:32:55 PM      0.00      0.00      3.41      0.00      3.82      0.00      0.00      0.00      0.00
+02:33:00 PM      0.00      2.42    763.84      0.00    208.69      0.00      0.00      0.00      0.00
+02:33:05 PM      0.00     13.74   2409.70      0.00    929.70      0.00      0.00      0.00      0.00
+Average:         0.00      4.68    406.50      0.00    149.69      0.00      0.00      0.00      0.00
+```
+
+- `pgpgin/s`：表示每秒从磁盘或SWAP置换到内存的字节数(KB)
+- `pgpgout/s`：表示每秒从内存置换到磁盘或SWAP的字节数(KB)
+- `fault/s`：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)
+- `majflt/s`：每秒钟产生的主缺页数
+- `pgfree/s`：每秒被放入空闲队列中的页个数
+- `pgscank/s`：每秒被kswapd扫描的页个数
+- `pgscand/s`：每秒直接被扫描的页个数
+- `pgsteal/s`：每秒钟从cache中被清除来满足内存需要的页个数
+- `%vmeff`：每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比
+
+##### sar 之 I/O 使用情况（判断 I/O 瓶颈）
+
+- 命令：`sar -b 5 10`，每 5 秒采样一次，共 10 次
+
+```
+02:34:13 PM       tps      rtps      wtps   bread/s   bwrtn/s
+02:34:18 PM      3.03      0.00      3.03      0.00     59.80
+02:34:23 PM      0.00      0.00      0.00      0.00      0.00
+02:34:28 PM      0.00      0.00      0.00      0.00      0.00
+02:34:33 PM      0.00      0.00      0.00      0.00      0.00
+02:34:38 PM      1.61      0.00      1.61      0.00     24.80
+02:34:43 PM      0.00      0.00      0.00      0.00      0.00
+02:34:48 PM      0.40      0.00      0.40      0.00      4.86
+02:34:53 PM      0.00      0.00      0.00      0.00      0.00
+02:34:58 PM      0.00      0.00      0.00      0.00      0.00
+02:35:03 PM      0.00      0.00      0.00      0.00      0.00
+Average:         0.50      0.00      0.50      0.00      8.94
+```
+
+- `tps`：每秒钟物理设备的 I/O 传输总量
+- `rtps`：每秒钟从物理设备读入的数据总量
+- `wtps`：每秒钟向物理设备写入的数据总量
+- `bread/s`：每秒钟从物理设备读入的数据量，单位为块/s
+- `bwrtn/s`：每秒钟向物理设备写入的数据量，单位为块/s
+
+##### sar 之 DEV（网卡）流量查看（判断网络瓶颈）
+
+- 命令：`sar -n DEV`，查看网卡历史流量（因为是按时间显示每棵的流量，所以有很多）
+- 如果要动态显示当前的网卡流量：`sar -n DEV 1`
+- 采样收集网卡流量：`sar -n DEV 5 10`，每 5 秒采样一次，共 10 次
+- 如果要查看其他日期下的记录，可以到这个目录下：`cd /var/log/sa` 查看下记录的文件，然后选择一个文件，比如：`sar -n DEV -f /var/log/sa/sa01`）
+
+```
+01:46:24 PM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
+01:46:25 PM        lo      3.00      3.00      0.18      0.18      0.00      0.00      0.00
+01:46:25 PM      eth0      4.00      4.00      0.55      0.56      0.00      0.00      0.00
+```
+
+- `01:46:25 PM` 表示时间
+- `IFACE` 表示网卡名称
+- `rxpck/s` 每秒钟接收到的 **包数目**，一般如果这个数字大于 4000 一般是被攻击了。
+- `txpck/s` 每秒钟发送出去的 **包数目**
+- `rxkB/s` 每秒钟接收到的数据量(单位kb)，一般如果这个数字大于 5000 一般是被攻击了。
+- `txkB/s` 每秒钟发送出去的数据量(单位kb)
+- `rxcmp/s`：每秒钟接收到的压缩包数目
+- `txcmp/s`：每秒钟发送出去的压缩包数目
+- `txmcst/s`：每秒钟接收到的多播包的包数目
+
+
 ## CPU 的基本信息查看
 
 - Demo CPU 型号：[Intel® Xeon® Processor E5-2620 v2(15M Cache, 2.10 GHz)](http://ark.intel.com/products/75789/Intel-Xeon-Processor-E5-2620-v2-15M-Cache-2_10-GHz)
@@ -109,7 +314,6 @@ Timing cached reads:   3462 MB in  2.00 seconds = 1731.24 MB/sec
 Timing buffered disk reads: 806 MB in  3.00 seconds = 268.52 MB/sec
 ```
 
-
 ## 网络监控
 
 - 安装 iftop（需要有 EPEL 源）：`yum install -y iftop`
@@ -161,13 +365,19 @@ tcp6       0      0 :::8066                 :::*                    LISTEN
 tcp6       0      0 :::43107                :::*                    LISTEN      12011/java 
 ```
 
+- 查看当前连接80端口的机子有多少：`netstat -an|grep 80|sort -r`
+- 查看已经连接的IP有多少连接数：`netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n`
+
+
 
 ## 参考资料
 
 - <http://man.linuxde.net/dd>
 - <https://linux.cn/article-6104-1.html>
 - <http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858923.html>
 - <http://coolnull.com/3649.html>
+- <http://www.rfyy.net/archives/2456.html>
+- <http://programmerfamily.com/blog/linux/sav.html>