影响程序性能的两个重要因素:
①应用程序从处理器缓存和从内存子系统获取数据所消耗的时间,其中存在各种延迟;
②带宽b/w(bandwidth 非Bilibili World)
mlc正是做这个的
在NUMA(Non-Uniform Memory Access 非一致性内存访问)构架下,不同的内存器件和CPU核心从属不同的 Node,每个 Node 都有自己的集成内存控制器(IMC,Integrated Memory Controller),解决了“每个处理器共享相同的地址空间问题”,避免总线带宽,内存冲突问题。
(补充:core=物理cpu,独立的物理执行单元;thread=逻辑cpu,线程
socket = node 相当于主板上的cpu插槽。node内部,不同核心间使用IMC Bus通信;不同node间通过QPI(Quick Path Interconnect)进行通信
同城速达的速度肯定与国际邮件不同,所以QPI(remote)延迟明显高于IMC Bus(local)
测试样例:
查询内存访问延迟 指令
./mlc --latency_matrix
结果
Numa node Numa node 0 1 0 82.2 129.6 1 131.1 81.6
表示node之间/内部的空闲内存访问延迟矩阵,以ns为单位
带宽反映了单位时间的传输速率马路越宽,就不会堵车了。带宽反映了单位时间的传输速率
Measuring Peak Injection Memory Bandwidths for the system Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec) Using all the threads from each core if Hyper-threading is enabled Using traffic with the following read-write ratios ALL Reads : 69143.9 3:1 Reads-Writes : 61908.4 2:1 Reads-Writes : 60040.5 1:1 Reads-Writes : 54517.6 Stream-triad like: 57473.4
r:w 表示不同读写比下的内存带宽
一般情况下,内存的写速度慢于读取速度(Talk is easy, show me the CODE)
所以当读写比下降时,带宽会下降(路窄了,塞车了)
问题分析:如果带宽急剧下降,可能是写入程序增多;或者是写入程序出问题,速度太慢了
测试样例
查询存访问带宽 指令(单独判断numa节点间内存访问是否正常还可以使用 )
./mlc --bandwidth_matrix
结果
Measuring Memory Bandwidths between nodes within system Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec) Using all the threads from each core if Hyper-threading is enabled Using Read-only traffic type Numa node Numa node 0 1 0 35216.6 32537.9 1 31875.1 35048.5
问题分析:如果副对角线数值相差过大,表明两个node相互访问的带宽差距较大
解决方法:出现不平衡的时候一般从内存插法、内存是否故障以及numa平衡等角度进行排查
Measuring Loaded Latencies for the system Using all the threads from each core if Hyper-threading is enabled Using Read-only traffic type Inject Latency Bandwidth Delay (ns) MB/sec ========================== 00000 523.74 69057.4 00002 589.55 68668.7 00008 686.99 68571.4 00015 549.87 68873.6 00050 575.48 68673.0 00100 524.74 68877.5 00200 197.61 64225.8 00300 131.60 47141.0 00400 110.39 36803.0 00500 117.32 30135.2 00700 100.90 22179.1 01000 100.93 15762.8 01300 91.74 12351.6 01700 98.61 9475.2 02500 86.66 6927.8 03500 88.13 5132.6 05000 87.68 3818.6 09000 85.36 2473.5 20000 84.83 1538.7
可以观察内存在负载压力下的响应变化,以及是否在到达一定带宽时,出现不可接受的内存响应时间
Measuring cache-to-cache transfer latency (in ns)... Local Socket L2->L2 HIT latency 38.6 Local Socket L2->L2 HITM latency 43.6 Remote Socket L2->L2 HITM latency (data address homed in writer socket) Reader Socket Writer Socket 0 1 0 - 133.4 1 133.7 - Remote Socket L2->L2 HITM latency (data address homed in reader socket) Reader Socket Writer Socket 0 1 0 - 133.5 1 133.7 -
指令
mlc --peak_bandwidth
结果
Using buffer size of 100.000MB/thread for reads and an additional 100.000MB/thread for writes Measuring Peak Memory Bandwidths for the system Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec) Using all the threads from each core if Hyper-threading is enabled Using traffic with the following read-write ratios ALL Reads : 50035.2 3:1 Reads-Writes : 48119.3 2:1 Reads-Writes : 47434.3 1:1 Reads-Writes : 48325.5 Stream-triad like: 44029.0
指令
mlc --idle_latency
结果
Using buffer size of 200.000MB Each iteration took 260.5 core clocks ( 113.3 ns)
指令
mlc --loaded_latency
结果
Using buffer size of 100.000MB/thread for reads and an additional 100.000MB/thread for writes Measuring Loaded Latencies for the system Using all the threads from each core if Hyper-threading is enabled Using Read-only traffic type Inject Latency Bandwidth Delay (ns) MB/sec ========================== 00000 217.32 49703.4 00002 258.98 49482.4 00008 217.48 49908.1 00015 220.12 49973.7 00050 206.33 49185.7 00100 174.02 43811.8 00200 141.63 27651.1 00300 130.65 19614.6 00400 126.05 15217.0 00500 122.70 12506.0 00700 121.46 9253.0 01000 120.55 6690.6 01300 118.75 5314.9 01700 120.18 4148.7 02500 119.53 3055.7 03500 119.60 2349.4 05000 116.60 1816.9 09000 116.17 1257.8 20000 116.87 867.6
测量指定node之间的访问延迟
测量CPU cache的访问延迟
测量cores/Socket的指定子集内的访问带宽
测量不同读写比下的带宽
指定随机的访问模式以替换默认的顺序模式进行测量
指定测试时的步幅
文章浏览阅读451次。dev/mem: 物理内存的全镜像。可以用来访问物理内存。/dev/kmem: kernel看到的虚拟内存的全镜像。可以用来访问kernel的内容。调试嵌入式Linux内核时,可能需要查看某个内核变量的值。/dev/kmem正好提供了访问内核虚拟内存的途径。现在的内核大都默认禁用了/dev/kmem,打开的方法是在 make menuconfig中选中 device drivers --> ..._dev/mem 源码实现
文章浏览阅读7.1k次,点赞2次,收藏19次。vxe-table,一个小众但功能齐全并支持excel操作的vue表格组件_vxe-table
文章浏览阅读62次。参考:http://www.ruanyifeng.com/blog/2016/01/babel.htmlBabelBabel是一个广泛使用的转码器,可以将ES6代码转为ES5代码,从而在现有环境执行// 转码前input.map(item => item + 1);// 转码后input.map(function (item) { return item..._让开发环境支持bable
文章浏览阅读2.8k次,点赞6次,收藏29次。摘要:FPGA视频处理FIFO的典型应用,视频输入FIFO的作用,视频输出FIFO的作用,视频数据跨时钟域FIFO,视频缩放FIFO的作用_fpga 频分复用 视频
文章浏览阅读575次。【代码】R语言:设置工作路径为当前文件存储路径。_r语言设置工作目录到目标文件夹
文章浏览阅读452次。格式:background: linear-gradient(direction, color-stop1, color-stop2, ...);<linear-gradient> = linear-gradient([ [ <angle> | to <side-or-corner>] ,]? &l..._background线性渐变
文章浏览阅读1k次,点赞26次,收藏8次。第十三届蓝桥杯青少年组python编程省赛真题一、题目要求(注:input()输入函数的括号中不允许添加任何信息)1、编程实现给定一个正整数N,输出正整数N中各数位最大的那个数字。例如:N=132,则输出3。2、输入输出输入描述:只有一行,输入一个正整数N输出描述:只有一行,输出正整数N中各数位最大的那个数字输入样例:
文章浏览阅读2.2k次。一个网络协议主要由以下三个要素组成:1.语法数据与控制信息的结构或格式,包括数据的组织方式、编码方式、信号电平的表示方式等。2.语义即需要发出何种控制信息,完成何种动作,以及做出何种应答,以实现数据交换的协调和差错处理。3.时序即事件实现顺序的详细说明,以实现速率匹配和排序。不完整理解:语法表示长什么样,语义表示能干什么,时序表示排序。转载于:https://blog.51cto.com/98..._网络协议三要素csdn
文章浏览阅读153次。主要的思想,将所有的系统都可以看作两部分,真正的数据log系统和各种各样的query engine所有的一致性由log系统来保证,其他各种query engine不需要考虑一致性,安全性,只需要不停的从log系统来同步数据,如果数据丢失或crash可以从log系统replay来恢复可以看出kafka系统在linkedin中的重要地位,不光是d..._the log: what every software engineer should know about real-time data's uni
文章浏览阅读746次。伟大是熬出来的 目录 前言 引言 时间熬成伟大:领导者要像狼一样坚忍 第一章 内圣外王——领导者的心态修炼 1. 天纵英才的自信心 2. 上天揽月的企图心 3. 誓不回头的决心 4. 宠辱不惊的平常心 5. 换位思考的同理心 6. 激情四射的热心 第二章 日清日高——领导者的高效能修炼 7. 积极主动,想到做到 8. 合理掌控自己的时间和生命 9. 制定目标,马..._当狼拖着受伤的右腿逃生时,右腿会成为前进的阻碍,它会毫不犹豫撕咬断自己的腿, 以
文章浏览阅读285次。在当今的大数据时代,人们对高速度和高带宽的需求越来越大,迫切希望有一种新型产品来作为高性能计算和数据中心的主要传输媒质,所以有源光缆(AOC)在这种环境下诞生了。有源光缆究竟是什么呢?应用在哪些领域,有什么优势呢?易天将为您解答!有源光缆(Active Optical Cables,简称AOC)是两端装有光收发器件的光纤线缆,主要构成部件分为光路和电路两部分。作为一种高性能计..._aoc 光缆
文章浏览阅读2.2k次。在“桌面”上按快捷键“Ctrl+R”,调出“运行”窗口。接着,在“打开”后的输入框中输入“Gpedit.msc”。并按“确定”按钮。如下图 找到“用户配置”下的“Windows设置”下的“Internet Explorer 维护”的“连接”,双击选择“自动浏览器配置”。如下图 选择“自动启动配置”,并在下面的“自动代理URL”中填写相应的PAC文件地址。如下..._設置proxy腳本