David's random thoughts @david_random Channel on Telegram

David's random thoughts

@david_random


个人想法合集,主要同步来自Twitter (𝕏)、知乎、博客等账号发布的内容。

注:本频道并非纯粹包含技术相关内容(虽然以它们为主),本人不会刻意回避政治观点表达。可能包含一些直言不讳的主观评价,慎入。

个人博客:https://blog.hjc.im

David's random thoughts (Chinese)

如果您正在寻找一个充满随机想法和直言不讳评论的地方,那么@david_random就是您的理想选择!这个频道汇集了David的个人想法,可能会包含一些颇具启发性的见解和对各种话题的独特看法。作为一个真诚而坦率的频道,您可以期待在这里看到各种各样的话题,从生活琐事到全球时事,再到个人观点和情感体验。David不会害怕表达自己的想法,因此您可能会在这里找到一些独特而挑战性的观点,但正是这些观点使这个频道如此引人注目。无论您是想探索新观点,还是寻找一些奇思妙想,@david_random都能满足您的需求。加入我们,与David一起探讨各种话题,发现新的想法和见解!

David's random thoughts

15 Jan, 05:55


NS2平台的隐忧:CPU性能

NS2作为一个游戏主机平台,大概率会因为CPU追求determinism导致必须按照最坏的情况规划功耗分配和对应的频率。不同模式下CPU的性能差距也不宜过大,掌机模式的功耗限制会拖累底座模式的CPU性能潜力。

6-8核心如果只能跑在1GHz下,会导致其CPU综合性能不如2GHz的SteamDeck。

备注:Steam Deck单核心测试的最低点为1GHz,拐点是2 GHz,多核心测试最低点是1.7 GHz;Orin最低点均为1GHz。

David's random thoughts

11 Jan, 11:00


才看到llama.cpp合并了Phi3.5-MoE的支持,这种应该是最适合Mac或者大号APU运行的模型了。Mac Mini实测30+ t/s,等什么时候玩到Strix Halo也跑一下。

David's random thoughts

11 Jan, 02:49


Windows商店做了十几年,结果能用的东西还不如flathub多🙃

David's random thoughts

09 Jan, 08:09


我开始有点相信AMD CES不细讲RDNA4的说辞了,大概是时间真的不够吧(逃

https://x.com/0x22h/status/1877264593686233380

David's random thoughts

08 Jan, 09:58


世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃

David's random thoughts

07 Jan, 14:34


用了一段时间发现严肃地用LLM还得用vLLM。llama.cpp 目前两方面不尽人意,以双W7900运行Qwen 72B为例

1. 多卡row split的prefill性能较低,之前的测试里提到过;
2. flash attn超长上下文性能:32K上下文后性能从17t/s降到个位数,而vLLM只从24t/s降到17t/s。

很多坑还是很难从简单跑分里反映出来。

David's random thoughts

07 Jan, 03:52


以后nvidia只需要每代把DLSS FG生成的帧数提高一倍就可以延续摩尔定律了

David's random thoughts

03 Jan, 02:55


翻了下手头的数据,发现居然只有Crestmont LPE适合拿来给Orin作对比。

David's random thoughts

02 Jan, 13:37


肉眼粗略观测了Orin的几个CPU频率对应的功耗之后我有点怀疑NS2的CPU会像NS1一样锁到1GHz附近……也许最多1.5GHz。

David's random thoughts

31 Dec, 03:14


Windows团队现在还有人能理得清这些边边角角的东西并且做好计划翻新一遍吗……我表示怀疑。

https://twitter.com/zacbowden/status/1873416567289200909

David's random thoughts

22 Dec, 13:25


真这么搞的话当年GitLab抢走GitHub的用户和开源项目怕不是要全部还回去

https://x.com/felixonmars/status/1870821742685663719

David's random thoughts

19 Dec, 05:21


细看了一眼,这个里面大部分问题都是Windows 11 26100.2161修掉的,而这个版本10月就已经发布,这阵子各家评测应该已经包含这个更新。

0x114微码官方认为游戏性能只有个位数百分点提升,目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧?

David's random thoughts

19 Dec, 02:55


我真是服了,Telegram一个需要手机号注册的平台能做到anti spam比马一龙裁员之后的Twitter还狗屎也是很厉害。每天打开channel评论区都是一大堆发广告的ban都ban不过来。就这还想做超级应用跟微信竞争?

David's random thoughts

19 Dec, 02:47


一幅裁员裁到大动脉的感觉。。

https://x.com/aschilling/status/1869457604570657065

David's random thoughts

18 Dec, 17:04


还真是

https://x.com/hjc4869/status/1833833836805038350

David's random thoughts

17 Dec, 03:18


B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)

SYCL则是全盘比Linux还差,flash attention也没什么好实现

David's random thoughts

16 Dec, 15:59


拿长5B这种大国重器打互联网卫星,放在美国是不是相当于拿SLS发星链🙃

David's random thoughts

16 Dec, 15:35


B580虚拟化看起来也没什么问题,设备直通,驱动,虚拟显示器设备,以及关机重启reset之类的都ok。

David's random thoughts

15 Dec, 08:26


当年的偷懒最后害的还是自己!

https://x.com/hjc4869/status/1332569705912041475

David's random thoughts

14 Dec, 15:54


llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。

当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。

David's random thoughts

14 Dec, 15:08


我大概明白怎么回事了,不是toolkit不支持而是Debian的intel level zero版本不够新🙃

David's random thoughts

14 Dec, 14:43


白天忘记说,这个应该是BIOS没有开ReBAR导致,开了之后kmsg就不会出现atomic update failure了(timeout依然还是偶尔会在各种情况下触发)

amdgpu会进了OS之后驱动自己resize所以我一直没去BIOS里开,但是Intel i915/xe不会。而且对于Intel GPU来说ReBAR不是可选项,不开ReBAR连libva都会直接crash…

David's random thoughts

14 Dec, 14:14


2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。

David's random thoughts

14 Dec, 12:47


llama.cpp SYCL版本抛exception跑不起来,想着看看vulkan版怎么样,结果发现你I目前的cooperative matrix实现是废的。手动去掉这个check也跑不出符合xmx理论吞吐的性能。

David's random thoughts

14 Dec, 08:31


B580还需要一段时间才能在Debian下正常用,现在Debian和flatpak默认的mesa版本都太老,能正常玩的游戏比较少。flatpak的mesa-git似乎直接连Steam都起不来。

David's random thoughts

14 Dec, 08:08


还是有点不太可靠……

David's random thoughts

14 Dec, 05:41


AMD CPU + Intel GPU = ?

David's random thoughts

03 Dec, 18:01


最近Debian和Linux就是在反复以各种不同姿势炸我的smb client,从kernel cifs炸到kio,反正就是一个apt update下去就是一会这个爆炸一会那个停摆的!

David's random thoughts

03 Dec, 16:16


接下来一段时间比较感兴趣的硬件

- Intel B580单槽卡,如果有AIB愿意做(或者专业卡?)
- 旗舰Navi48游戏卡
- Strix Halo(优先mini pc,实在没有就笔记本)

2027年之前感觉就这点东西了🙃

David's random thoughts

03 Dec, 08:08


关于Pat为什么离开Intel,这一篇跟我的看法比较接近:https://www.zhihu.com/question/5766243909/answer/46339548233

有些人喜欢污名化职业经理人,但Intel三次严重走弯路全是技术背景CEO带领下公司经营或投资方向出现重大失误,是个反例。

另外今天很多《分析师》认为Pat领导下Intel技术方面没大问题也是半吊子,对Intel现状没基本认知。

David's random thoughts

03 Dec, 05:07


一个还不够了

David's random thoughts

03 Dec, 03:29


想起来之前Strix Point测试文章里这个表,可以更新32M L3 + DDR的数字了

David's random thoughts

03 Dec, 02:23


3分钟就能写完的代码折腾了大半个月还没进去,这样的公司怎么能造出伟大的产品呢🙃

David's random thoughts

01 Dec, 16:03


能把UI做的如此逆天也是要一定水平的

David's random thoughts

30 Nov, 18:25


😂 谈笑间KDE又被一个更新炸了(一半) https://www.reddit.com/r/debian/comments/1h2pgnf/recent_update_on_debian_trixie_rendered_kde_ui/

David's random thoughts

30 Nov, 15:26


我们Linux也要有自己的任务管理器显示NPU?(虽然啥都看不到

https://x.com/phoronix/status/1862829238161699185

David's random thoughts

29 Nov, 15:22


话说上个月就看到skydio这事,没想到的是沉寂了这么久突然这两天又被知乎一群赢学家翻出来……这年头找个赢学话题都这么难了要靠翻旧账了是吧

https://www.zhihu.com/question/5317782004/answer/43707008414

David's random thoughts

28 Nov, 05:45


RTX 6000 Ada可以把speculation decode的window开的比较大,单卡跑出90t/s

David's random thoughts

28 Nov, 03:29


Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s

David's random thoughts

26 Nov, 13:35


llama.cpp的server终于引入了speculative decode,现在我日常用的qwen 72B q8性能达到了>20 token/s😃

https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26

配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000

David's random thoughts

25 Nov, 16:32


悲报:M4 Pro的HEVC编码器画质相比M1 Max几乎没有任何变化😅

David's random thoughts

25 Nov, 09:16


USB4兼容性现状:以下4台机器任选两台出来组合,均无法使用USB4/雷电以太网

台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)

David's random thoughts

25 Nov, 02:56


🙃 Linux 6.12好不容易等来一堆期待已久的功能和fix,结果发现smb cifs又被搞炸了

David's random thoughts

23 Nov, 13:49


最后是多核心,本代M4 Pro使用单cluster 5核心纯读取可以跑出220+ GB/s内存带宽,不再有M1年代单cluster带宽限制。这可能是P cluster现在不仅可以使用另一个P cluster的缓存,也可以通过另一个P cluster的data path来读写内存

3个小核内存带宽大约是44 GB/s (单核32GB/s),cluster级别瓶颈比较明显

David's random thoughts

23 Nov, 13:40


M4 Pro的单线程带宽,以及对比x86。与延迟测试不同的是,在带宽测试里我们很容易看出单个核心可以全速访问两个P cluster所有32M L2缓存,带宽基本维持在120 GB/s附近。

除此之外也比较容易发现Apple相比x86目前大优势在于128bit SIMD吞吐。Zen5需要256/512bit SIMD才能使得每级缓存发挥出全部实力。

David's random thoughts

23 Nov, 13:36


测试M4 Pro 大/小核心的访存延迟曲线

L1d: 大核128K,小核64K,均为3周期(非简单pointer chase则4周期)
对4.5 GHz的大核来说,不论是绝对延迟、周期数还是容量,它L1性能都站在处理器的顶端

L2: 大核16+16 MB,从27(近)到90+(远)周期不等;小核4MB 14-15周期。大核L2从带宽上更容易理解结构

David's random thoughts

23 Nov, 06:41


M4 Pro E-core @ 2592 MHz,uncore拉满的情况下SPEC17 int性能可以来到5.17分。如果不动uncore则是4.42分(从omnetpp的成绩来看目前榜上那个M3 Pro的E-core应该也是没有拉高uncore的)

这一代的E核频率略下降(2.6 vs 2.75 GHz),IPC略提升,最终性能与M3 Pro的E-core接近。

感觉不如Skymont(逃

Geekbench 5/6分数也更新了:https://browser.geekbench.com/user/391511

David's random thoughts

20 Nov, 03:14


有趣的OS小细节:Linux使用4K页面并关闭THP时,由于内存映射粒度是页面所以无法触发Zen的TLB聚结,TLB覆盖范围是4K*entry。但Windows下由于粒度是64K所以可以正常观测到等效16K页面的TLB覆盖,未来理论上硬件还可无缝扩展至更大的64K。这也是近年来我见过的为数不多的Windows比Linux性能表现更好的地方

David's random thoughts

18 Nov, 09:26


Linux下nvidia和amdgpu有criu支持,不过我好像还没见过谁把它用在游戏图形应用上

https://www.zhihu.com/question/456048017/answer/34367726593

David's random thoughts

17 Nov, 13:24


补充一个Linux默认glibc malloc+更换16K page内核的成绩,520/523有一些提升,不过跟macOS还是差得远。

David's random thoughts

17 Nov, 09:30


图1: Linux vs macOS 默认malloc
图2: Linux vs macOS 统一jemalloc

均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。

David's random thoughts

17 Nov, 06:00


笑了,M4 Pro拿UTM/qemu开个linux虚拟机随手跑了下548结果发现比macOS host跑的还高

David's random thoughts

16 Nov, 16:21


M4 Pro跟自家3年前的M1 Max比,同样8线程运行SPEC int测试性能提升35.5%,如果算上核心数增长就达到了惊人的67.4%。

不过10大核版本的M4 Pro运行8线程测试并不会平衡到两个P cluster 4+4调度而是会先把一边填满形成5+3,所以可能会略低于同参数的8大核版本的分数。

David's random thoughts

16 Nov, 16:02


M4 Pro vs 9950X的同核心数的多核能效(开/关SMT)

David's random thoughts

15 Nov, 17:09


看了眼之前测的265K,感觉这代多核没必要带Intel玩了。

https://t.me/david_random/355

David's random thoughts

15 Nov, 16:42


M4 Pro的SPEC多核,核心功耗从25W到60W不等,package功耗不明。图1/2两个报告是纯大核的10线程和大小核14线程,分别略低于55W/88W package功耗的9950X。

比较亮眼的子项有gcc和mcf,这两项和内存带宽强相关所以AM5自然性能是一坨;比较差的子项有perlbench和xz以及古典AI三项,其中有几个比较喜欢SMT

David's random thoughts

15 Nov, 06:32


M4 Pro Geekbench 6.3 vs 6.2.2: https://browser.geekbench.com/v6/cpu/compare/8846063?baseline=8845664

其它成绩也更新在了GB个人主页。

David's random thoughts

13 Nov, 12:38


Apple统一内存适合运行LLM?理想很丰满,现实很骨感 https://blog.hjc.im/apple-uma-for-llms-problems.html

David's random thoughts

12 Nov, 13:42


今年测ARM处理器给我一个很不好的印象,就是频率极难跑满,仿佛整个Fmax就是专门给数码媒体玩干冰液氮刷分定制的一样。高通8E作为手机处理器也就算了,连Mac Mini都能在低温下分数足足高出一代,那到底该用哪个成绩呢?

我玩着玩着反正已经开始无比怀念当年M1 max不管怎么上强度都不降频的日子了。

David's random thoughts

12 Nov, 13:31


感觉Mac Mini常温下高性能模式的SPEC成绩就这样了,离低温测试的成绩略有一些差距

David's random thoughts

10 Nov, 10:16


受不了了,连续好几天听到路边外放短视频里面各种Trump相关内容。。。这么关心选举,是上海啥时候变成美国第五十一个州了吗?

David's random thoughts

09 Nov, 08:08


加入M4 Pro的测试成绩,感谢知乎网友 @计三水 的提供。
加入9800X3D默频与OC 5.7 GHz的成绩,正好可以拿来看看x86现在需要花多大代价才能在SPEC分数里摸到M4。

M4 Pro等我订的机器到货之后会做更多详细的分析。

https://blog.hjc.im/spec-cpu-2017