MLC——内存延迟及带宽测试工具_mlc内存测试-程序员宅基地

技术标签: 测试工具  云测试  

why MLC

影响程序性能的两个重要因素:

①应用程序从处理器缓存和从内存子系统获取数据所消耗的时间,其中存在各种延迟

带宽b/w(bandwidth 非Bilibili World)

mlc正是做这个的

测试内容

Node访问速度

NUMA(Non-Uniform Memory Access 非一致性内存访问)构架下,不同的内存器件和CPU核心从属不同的 Node,每个 Node 都有自己的集成内存控制器(IMC,Integrated Memory Controller),解决了“每个处理器共享相同的地址空间问题”,避免总线带宽,内存冲突问题。

(补充:core=物理cpu,独立的物理执行单元;thread=逻辑cpu,线程

socket = node 相当于主板上的cpu插槽。node内部,不同核心间使用IMC Bus通信;不同node间通过QPI(Quick Path Interconnect)进行通信

同城速达的速度肯定与国际邮件不同,所以QPI(remote)延迟明显高于IMC Bus(local

测试样例:

查询内存访问延迟 指令

./mlc --latency_matrix

结果

        Numa node
Numa node        0       1  
       0      82.2   129.6  
       1     131.1    81.6

表示node之间/内部的空闲内存访问延迟矩阵,以ns为单位

带宽

带宽反映了单位时间的传输速率马路越宽,就不会堵车了。带宽反映了单位时间的传输速率

Measuring Peak Injection Memory Bandwidths for the system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using traffic with the following read-write ratios
ALL Reads        :  69143.9 
3:1 Reads-Writes :  61908.4 
2:1 Reads-Writes :  60040.5 
1:1 Reads-Writes :  54517.6 
Stream-triad like:  57473.4 

r:w 表示不同读写比下的内存带宽

一般情况下,内存的写速度慢于读取速度(Talk is easy, show me the CODE)

所以当读写比下降时,带宽会下降(路窄了,塞车了)

问题分析:如果带宽急剧下降,可能是写入程序增多;或者是写入程序出问题,速度太慢了

测试样例

查询存访问带宽 指令(单独判断numa节点间内存访问是否正常还可以使用 )

./mlc --bandwidth_matrix

结果

Measuring Memory Bandwidths between nodes within system 
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
        Numa node
Numa node        0       1  
       0    35216.6 32537.9 
       1    31875.1 35048.5 

问题分析:如果副对角线数值相差过大,表明两个node相互访问的带宽差距较大

解决方法:出现不平衡的时候一般从内存插法、内存是否故障以及numa平衡等角度进行排查

内存访问带宽和内存延迟的关系(读操作)

Measuring Loaded Latencies for the system
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
Inject  Latency Bandwidth
Delay   (ns)    MB/sec
==========================
 00000  523.74    69057.4
 00002  589.55    68668.7
 00008  686.99    68571.4
 00015  549.87    68873.6
 00050  575.48    68673.0
 00100  524.74    68877.5
 00200  197.61    64225.8
 00300  131.60    47141.0
 00400  110.39    36803.0
 00500  117.32    30135.2
 00700  100.90    22179.1
 01000  100.93    15762.8
 01300   91.74    12351.6
 01700   98.61     9475.2
 02500   86.66     6927.8
 03500   88.13     5132.6
 05000   87.68     3818.6
 09000   85.36     2473.5
 20000   84.83     1538.7

可以观察内存在负载压力下的响应变化,以及是否在到达一定带宽时,出现不可接受的内存响应时间

测量CPU cache到CPU cache之间的访问延迟

Measuring cache-to-cache transfer latency (in ns)...
Local Socket L2->L2 HIT  latency    38.6
Local Socket L2->L2 HITM latency    43.6
Remote Socket L2->L2 HITM latency (data address homed in writer socket)
        Reader Socket
Writer Socket         0         1
            0         -     133.4
            1     133.7         -
Remote Socket L2->L2 HITM latency (data address homed in reader socket)
        Reader Socket
Writer Socket         0         1
            0         -     133.5
            1     133.7         -

峰值带宽

指令

mlc --peak_bandwidth

结果

Using buffer size of 100.000MB/thread for reads and an additional 100.000MB/thread for writes

Measuring Peak Memory Bandwidths for the system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using traffic with the following read-write ratios
ALL Reads        :    50035.2
3:1 Reads-Writes :    48119.3
2:1 Reads-Writes :    47434.3
1:1 Reads-Writes :    48325.5
Stream-triad like:    44029.0

空闲内存延迟

指令

mlc --idle_latency

结果

Using buffer size of 200.000MB
Each iteration took 260.5 core clocks (    113.3    ns)

有负载内存延时

指令

mlc --loaded_latency

结果

Using buffer size of 100.000MB/thread for reads and an additional 100.000MB/thread for writes

Measuring Loaded Latencies for the system
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
Inject    Latency    Bandwidth
Delay    (ns)    MB/sec
==========================
 00000    217.32      49703.4
 00002    258.98      49482.4
 00008    217.48      49908.1
 00015    220.12      49973.7
 00050    206.33      49185.7
 00100    174.02      43811.8
 00200    141.63      27651.1
 00300    130.65      19614.6
 00400    126.05      15217.0
 00500    122.70      12506.0
 00700    121.46       9253.0
 01000    120.55       6690.6
 01300    118.75       5314.9
 01700    120.18       4148.7
 02500    119.53       3055.7
 03500    119.60       2349.4
 05000    116.60       1816.9
 09000    116.17       1257.8
 20000    116.87        867.6

其余操作(未完待续

  • 测量指定node之间的访问延迟

  • 测量CPU cache的访问延迟

  • 测量cores/Socket的指定子集内的访问带宽

  • 测量不同读写比下的带宽

  • 指定随机的访问模式以替换默认的顺序模式进行测量

  • 指定测试时的步幅

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_53169429/article/details/121296269

智能推荐

linux devkmem 源码,linux dev/mem dev/kmem实现访问物理/虚拟内存-程序员宅基地

文章浏览阅读451次。dev/mem: 物理内存的全镜像。可以用来访问物理内存。/dev/kmem: kernel看到的虚拟内存的全镜像。可以用来访问kernel的内容。调试嵌入式Linux内核时,可能需要查看某个内核变量的值。/dev/kmem正好提供了访问内核虚拟内存的途径。现在的内核大都默认禁用了/dev/kmem,打开的方法是在 make menuconfig中选中 device drivers --> ..._dev/mem 源码实现

vxe-table 小众但功能齐全的vue表格组件-程序员宅基地

文章浏览阅读7.1k次,点赞2次,收藏19次。vxe-table,一个小众但功能齐全并支持excel操作的vue表格组件_vxe-table

(开发)bable - es6转码-程序员宅基地

文章浏览阅读62次。参考:http://www.ruanyifeng.com/blog/2016/01/babel.htmlBabelBabel是一个广泛使用的转码器,可以将ES6代码转为ES5代码,从而在现有环境执行// 转码前input.map(item => item + 1);// 转码后input.map(function (item) { return item..._让开发环境支持bable

FPGA 视频处理 FIFO 的典型应用_fpga 频分复用 视频-程序员宅基地

文章浏览阅读2.8k次,点赞6次,收藏29次。摘要:FPGA视频处理FIFO的典型应用,视频输入FIFO的作用,视频输出FIFO的作用,视频数据跨时钟域FIFO,视频缩放FIFO的作用_fpga 频分复用 视频

R语言:设置工作路径为当前文件存储路径_r语言设置工作目录到目标文件夹-程序员宅基地

文章浏览阅读575次。【代码】R语言:设置工作路径为当前文件存储路径。_r语言设置工作目录到目标文件夹

background 线性渐变-程序员宅基地

文章浏览阅读452次。格式:background: linear-gradient(direction, color-stop1, color-stop2, ...);<linear-gradient> = linear-gradient([ [ <angle> | to <side-or-corner>] ,]? &l..._background线性渐变

随便推点

【蓝桥杯省赛真题39】python输出最大的数 中小学青少年组蓝桥杯比赛 算法思维python编程省赛真题解析-程序员宅基地

文章浏览阅读1k次,点赞26次,收藏8次。第十三届蓝桥杯青少年组python编程省赛真题一、题目要求(注:input()输入函数的括号中不允许添加任何信息)1、编程实现给定一个正整数N,输出正整数N中各数位最大的那个数字。例如:N=132,则输出3。2、输入输出输入描述:只有一行,输入一个正整数N输出描述:只有一行,输出正整数N中各数位最大的那个数字输入样例:

网络协议的三要素-程序员宅基地

文章浏览阅读2.2k次。一个网络协议主要由以下三个要素组成:1.语法数据与控制信息的结构或格式,包括数据的组织方式、编码方式、信号电平的表示方式等。2.语义即需要发出何种控制信息,完成何种动作,以及做出何种应答,以实现数据交换的协调和差错处理。3.时序即事件实现顺序的详细说明,以实现速率匹配和排序。不完整理解:语法表示长什么样,语义表示能干什么,时序表示排序。转载于:https://blog.51cto.com/98..._网络协议三要素csdn

The Log: What every software engineer should know about real-time data's unifying abstraction-程序员宅基地

文章浏览阅读153次。主要的思想,将所有的系统都可以看作两部分,真正的数据log系统和各种各样的query engine所有的一致性由log系统来保证,其他各种query engine不需要考虑一致性,安全性,只需要不停的从log系统来同步数据,如果数据丢失或crash可以从log系统replay来恢复可以看出kafka系统在linkedin中的重要地位,不光是d..._the log: what every software engineer should know about real-time data's uni

《伟大是熬出来的》冯仑与年轻人闲话人生之一-程序员宅基地

文章浏览阅读746次。伟大是熬出来的  目录  前言  引言 时间熬成伟大:领导者要像狼一样坚忍   第一章 内圣外王——领导者的心态修炼  1. 天纵英才的自信心  2. 上天揽月的企图心  3. 誓不回头的决心  4. 宠辱不惊的平常心  5. 换位思考的同理心  6. 激情四射的热心  第二章 日清日高——领导者的高效能修炼  7. 积极主动,想到做到  8. 合理掌控自己的时间和生命  9. 制定目标,马..._当狼拖着受伤的右腿逃生时,右腿会成为前进的阻碍,它会毫不犹豫撕咬断自己的腿, 以

有源光缆AOC知识百科汇总-程序员宅基地

文章浏览阅读285次。在当今的大数据时代,人们对高速度和高带宽的需求越来越大,迫切希望有一种新型产品来作为高性能计算和数据中心的主要传输媒质,所以有源光缆(AOC)在这种环境下诞生了。有源光缆究竟是什么呢?应用在哪些领域,有什么优势呢?易天将为您解答!有源光缆(Active Optical Cables,简称AOC)是两端装有光收发器件的光纤线缆,主要构成部件分为光路和电路两部分。作为一种高性能计..._aoc 光缆

浏览器代理服务器自动配置脚本设置方法-程序员宅基地

文章浏览阅读2.2k次。在“桌面”上按快捷键“Ctrl+R”,调出“运行”窗口。接着,在“打开”后的输入框中输入“Gpedit.msc”。并按“确定”按钮。如下图 找到“用户配置”下的“Windows设置”下的“Internet Explorer 维护”的“连接”,双击选择“自动浏览器配置”。如下图 选择“自动启动配置”,并在下面的“自动代理URL”中填写相应的PAC文件地址。如下..._設置proxy腳本