工作记录
Todo
基于 systemd 的 server 稳定性监控 【doing】
- health checker 吧 - 本地一个,server 一个?
docgate 开源 [DONE] => 已经推送了新版,就差加 README 啥的了吧
tts-server: 同步下在 docgate 上发现的一些改动(主要是 gunicorn 禁用 control socket)[DONE]
看看是否可以搞个 p2p 服务?TTS 音频还是有点慢啊 【简单看了下方案—可行,后续有刚需再搞】
年度总结
openclaw
Process
- tts-server 更新 [DONE]
看看是否可以搞个 p2p 服务?TTS 音频还是有点慢啊 【hold】
问了下,可以用
WebRTC P2P 数据传输方案。https://github.com/peers/peerjs 这个常见。现在还没有需求,后续再看看吧。
与其折腾这些,不如搞点有用的,到时有钱直接买服务器就行。是的,服务器也贵不了多少,折腾这些完全不值得。
openclaw:
调研了下,本地的 model 想要效果好基本不现实的。
不过可以学习研究下。
LLM runner: llama.cpp 单用户效率更好;ollama, 可以认为是 llama.cpp 的 UI 封装;vLLM, batch 处理更好(Python),耗更多内存; 还有个 SGLang, 没有看。
openclaw 支持 ollama 和 vLLM, 不过 llama.cpp 也支持 OpenAI 兼容接口,所以也可以被 openclaw 用。
LLM: 这个很难。要想在我的 3060 12G 上跑挺难的,看到 GLM 4.7 Flash, Qwen3-xxx,继续调研吧
openclaw: 除了这个,还有一个 https://github.com/HKUDS/nanobot, 看到一个 reddit 说了这个,比 openclaw 轻量点,所以上下文可能小一点。
不管咋说,整体还是不是说为了什么生产力,主要就是学习了解下,不能光在门外看吧。
I-quant, K-quant:
在 llama.cpp 中,量化就像是把高清电影(模型原文件)压缩成不同格式的 MP4。“I-quant” 和 “K-quant” 是两种不同的压缩技术路线,它们的区别在于压缩效率、运行速度以及对硬件的依赖。1. K-Quant (K-Means Quantization)这是 llama.cpp 的传统主流路线,以 Q4_K_M、Q5_K_S 这种格式命名。特点: 兼容性极强。无论是 CPU、NVIDIA 显卡(CUDA)还是 ARM 芯片,跑起来都非常稳。优势: 在 CPU 上运行速度极快。如果你没有显卡,只能靠 CPU 硬扛,选 K-quant 是最稳妥的。命名规则: * Q 后面的数字代表位数(Bit),数字越大(如 Q5),模型越聪明但体积越大。结尾的字母(S/M/L)代表模型权重的分配精细度(Small/Medium/Large)。2. I-Quant (Importance Matrix Quantization)这是新一代的量化技术,利用“重要性矩阵(imatrix)”来决定哪些数据该少压、哪些可以多压,格式如 IQ3_M、IQ4_XS。特点: 极致的压缩比。在同样的文件大小下,I-quant 的“脑力”(预测准确率)通常高于 K-quant。硬件偏好: 它是为 GPU(显卡) 量身定制的。在 NVIDIA (CUDA) 或 AMD 显卡上,它能发挥出极高性能。在 CPU 上的表现: 虽然能跑,但因为计算逻辑更复杂,CPU 跑 I-quant 会明显比 K-quant 慢。3. 如何二选一?(决策树)你可以根据你的硬件和对体积的要求来做决定:场景 A:你主要用 CPU 运行(比如你的 Linux aarch64 设备没有强大显卡)首选: K-quant (如 Q4_K_M)。理由: 速度最快,推理流畅度最高。场景 B:你有 NVIDIA/AMD 显卡,且显存够大首选: I-quant (如 IQ4_XS 或更高)。理由: 在同样的显存占用下,你能得到更聪明的模型响应。场景 C:你想用极小的体积跑大模型(比如 3-bit 以下)首选: I-quant (如 IQ2_M 或 IQ3_XXS)。理由: 在极低位数下,K-quant 的模型通常会“变傻”(胡言乱语),而 I-quant 还能保持基本的逻辑。总结对比表特性K-Quant (老牌稳健)I-Quant (新锐高效)典型命名Q4_K_M, Q5_K_SIQ3_M, IQ4_XSCPU 速度极快较慢GPU 速度快极快 (优化后)同体积下智力一般更高低位数表现4-bit 以下效果差3-bit 及以下依然可用
量化的分支还挺多的,
- unsloth
- 这还有这个:https://github.com/ikawrakow/ik_llama.cpp/ 可以试试(说是 hybrid CPU/GPU 更快)
量化方向:
方案 核心优势 推荐场景 GGUF (llama.cpp) 全能、跨平台 你的 aarch64 设备、Mac、没有显卡的 PC。 EXL2 GPU 速度巅峰 追求极致 Tokens/s 的 NVIDIA 显卡用户。 AWQ 智力保持最好 云端部署、对回复质量要求极高的生产环境。 Unsloth 微调(训练)极速 你想用自己的数据训练/微调模型。 BitNet 未来架构 关注极低功耗、嵌入式设备的未来发展。
帖子: https://www.reddit.com/r/LocalLLaMA/comments/1qtnz9s/best_local_model_for_openclaw/
候选模型:
- https://modelscope.cn/models/unsloth/Qwen3-Coder-30B-A3B-Instruct-1M-GGUF/summary
- glm 4.7 flash
- Nemotron 3 nano
是的,只需要下载那一个 .gguf 文件就足够了。
这正是 GGUF(GPT-Generated Unified Format)格式最大的优点:它是“全家桶”式的单文件封装。
为什么不需要下载 params 或 configuration.json? 在 Hugging Face 的原始仓库里,你通常会看到很多零散的文件(如 config.json, tokenizer.json, model-00001-of-00010.safetensors 等)。但当你使用 llama.cpp 时,转换程序已经把这些信息全都“揉”进了那一个 .gguf 文件里:
模型权重: 所有的参数(那些 30B 的权重)都已经按照你选的量化比例(如 IQ4_NL)压缩在里面了。
超参数配置: 对应的 configuration.json 里的信息(层数、头数、词表大小等)已经写入了 GGUF 的文件头。
分词器 (Tokenizer): 所有的词表信息也都在里面,不需要额外的 tokenizer.json。
./llama-cli \
-m ./models/qwen3-coder-30b-a3b-instruct/Qwen3-Coder-30B-A3B-Instruct-1M-IQ4_NL.gguf \
--jinja \
-ngl 99 \
-fa on \
-ot ".ffn_.*_exps.=CPU" \
-t 8 \
--ctx-size 32768 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.80 \
--top-k 20 \
--repeat-penalty 1.05
显存不到 5G,速度 [ Prompt: 49.8 t/s | Generation: 17.5 t/s ] 还行啊!
别说,还挺快的;
生活记录
跑步、打好燕麦,洗了个澡,出来燕麦温度刚好,从阳台窗户看到外面阳光灿烂,脚放在板凳上沥干水分,手里捧着杯子吃燕麦,哎呀,绝了。
晚上带着黄车车在外面去捡“煎饼“(叶子),回过头,奶奶在后面,黄车车跑过去抱着;奶奶抱着她飞了下,一下子觉得奶奶也好像年轻了一样呢。哎,时间。
情绪记录
Good
阳光巨好,开启喜悦的一天吧。
Bad
Reflect
早上盯着股票账户看了半天,想了下最近操作的得失:
- 化工科技:违背操作习惯的一笔交易,买后第二天还是涨的,第二天开始就暴跌了。今早财报出来直接跌停,目前没封死,但估计就这样了。暂时不动装死吧。
- 323 暴跌加仓:
- 还是加得太快了,导致当天后半段继续大跌的时候,已经又把仓位打满了—还是太渴望这种机会了,但是,这其实蕴含很大的危机呀
- 加仓分布不合理:
- 很弱势的船舶加了太多—觉得错杀;加了不报希望的桃李面包,希望等它回来做波段止损;加仓天康,同样想做波段;继续加了金域,越套越深了;
- 确定性极强的大盘指数才加了 2k,真是对稳定收益毫无兴趣了啊?
- 后面来看,稳定、又强势的电力自己么有加,后面涨势挺好的
其实反思下,最基本的问题是:
- 操作太随意了。明白为啥牛市才容易亏钱了—因为被前面的乐观行情给搞得掉以轻心了,真是「死于安乐」啊
- 这解释了买华工,加太快的原因
- 风险偏好过大,丢掉了稳健
- 同样是牛市放大了自己的风险偏好,最危机的时刻,如果你觉得是反弹的机会,那么按风险偏好,加稳定、不可能永久亏损的大盘、估值合理的电力才是正解啊。但是选择了更有风险的、弹性更大,或者说跌得更多的船
- 当然,这其实也可以归结为贪婪
- 不肯认输:总想在一个股票上把钱赚回来,越套越深了这是
投资就是修心啊。最近关注股票太多了,说明内心太浮躁了。去持续稳定地构建,而非投机。投资只是保值,而非想着暴富。
也是自己没收入,自己的动机才会有这样的偏差吧;着急了。哈哈哈,没事,又长教训了,再来嘛。