26 Mar 2026

工作记录

Todo

基于 systemd 的 server 稳定性监控【doing】
- health checker 吧 - 本地一个，server 一个？
docgate 开源 [DONE] => 已经推送了新版，就差加 README 啥的了吧
tts-server: 同步下在 docgate 上发现的一些改动（主要是 gunicorn 禁用 control socket）[DONE]
看看是否可以搞个 p2p 服务？TTS 音频还是有点慢啊【简单看了下方案—可行，后续有刚需再搞】
年度总结
openclaw

Process

tts-server 更新 [DONE]

看看是否可以搞个 p2p 服务？TTS 音频还是有点慢啊【hold】
问了下，可以用 WebRTC P2P 数据传输 方案。https://github.com/peers/peerjs 这个常见。
现在还没有需求，后续再看看吧。
与其折腾这些，不如搞点有用的，到时有钱直接买服务器就行。是的，服务器也贵不了多少，折腾这些完全不值得。
openclaw:

调研了下，本地的 model 想要效果好基本不现实的。

不过可以学习研究下。

LLM runner: llama.cpp 单用户效率更好；ollama, 可以认为是 llama.cpp 的 UI 封装；vLLM, batch 处理更好（Python），耗更多内存；还有个 SGLang, 没有看。

openclaw 支持 ollama 和 vLLM, 不过 llama.cpp 也支持 OpenAI 兼容接口，所以也可以被 openclaw 用。

LLM: 这个很难。要想在我的 3060 12G 上跑挺难的，看到 GLM 4.7 Flash, Qwen3-xxx，继续调研吧

openclaw: 除了这个，还有一个 https://github.com/HKUDS/nanobot，看到一个 reddit 说了这个，比 openclaw 轻量点，所以上下文可能小一点。

不管咋说，整体还是不是说为了什么生产力，主要就是学习了解下，不能光在门外看吧。

I-quant, K-quant:

在 llama.cpp 中，量化就像是把高清电影（模型原文件）压缩成不同格式的 MP4。“I-quant” 和 “K-quant” 是两种不同的压缩技术路线，它们的区别在于压缩效率、运行速度以及对硬件的依赖。1. K-Quant (K-Means Quantization)这是 llama.cpp 的传统主流路线，以 Q4_K_M、Q5_K_S 这种格式命名。特点：兼容性极强。无论是 CPU、NVIDIA 显卡（CUDA）还是 ARM 芯片，跑起来都非常稳。优势：在 CPU 上运行速度极快。如果你没有显卡，只能靠 CPU 硬扛，选 K-quant 是最稳妥的。命名规则： * Q 后面的数字代表位数（Bit），数字越大（如 Q5），模型越聪明但体积越大。结尾的字母（S/M/L）代表模型权重的分配精细度（Small/Medium/Large）。2. I-Quant (Importance Matrix Quantization)这是新一代的量化技术，利用“重要性矩阵（imatrix）”来决定哪些数据该少压、哪些可以多压，格式如 IQ3_M、IQ4_XS。特点：极致的压缩比。在同样的文件大小下，I-quant 的“脑力”（预测准确率）通常高于 K-quant。硬件偏好：它是为 GPU（显卡）量身定制的。在 NVIDIA (CUDA) 或 AMD 显卡上，它能发挥出极高性能。在 CPU 上的表现：虽然能跑，但因为计算逻辑更复杂，CPU 跑 I-quant 会明显比 K-quant 慢。3. 如何二选一？（决策树）你可以根据你的硬件和对体积的要求来做决定：场景 A：你主要用 CPU 运行（比如你的 Linux aarch64 设备没有强大显卡）首选： K-quant (如 Q4_K_M)。理由：速度最快，推理流畅度最高。场景 B：你有 NVIDIA/AMD 显卡，且显存够大首选： I-quant (如 IQ4_XS 或更高)。理由：在同样的显存占用下，你能得到更聪明的模型响应。场景 C：你想用极小的体积跑大模型（比如 3-bit 以下）首选： I-quant (如 IQ2_M 或 IQ3_XXS)。理由：在极低位数下，K-quant 的模型通常会“变傻”（胡言乱语），而 I-quant 还能保持基本的逻辑。总结对比表特性K-Quant (老牌稳健)I-Quant (新锐高效)典型命名Q4_K_M, Q5_K_SIQ3_M, IQ4_XSCPU 速度极快较慢GPU 速度快极快 (优化后)同体积下智力一般更高低位数表现4-bit 以下效果差3-bit 及以下依然可用

量化的分支还挺多的，

unsloth
这还有这个：https://github.com/ikawrakow/ik_llama.cpp/ 可以试试（说是 hybrid CPU/GPU 更快）

量化方向：

方案核心优势推荐场景 GGUF (llama.cpp) 全能、跨平台你的 aarch64 设备、Mac、没有显卡的 PC。 EXL2 GPU 速度巅峰追求极致 Tokens/s 的 NVIDIA 显卡用户。 AWQ 智力保持最好云端部署、对回复质量要求极高的生产环境。 Unsloth 微调(训练)极速你想用自己的数据训练/微调模型。 BitNet 未来架构关注极低功耗、嵌入式设备的未来发展。

帖子： https://www.reddit.com/r/LocalLLaMA/comments/1qtnz9s/best_local_model_for_openclaw/

候选模型：

https://modelscope.cn/models/unsloth/Qwen3-Coder-30B-A3B-Instruct-1M-GGUF/summary
- 对应的文档： https://unsloth.ai/docs/models/tutorials/qwen3-coder-how-to-run-locally#run-qwen3-coder-30b-a3b-instruct
glm 4.7 flash
Nemotron 3 nano

是的，只需要下载那一个 .gguf 文件就足够了。

这正是 GGUF（GPT-Generated Unified Format）格式最大的优点：它是“全家桶”式的单文件封装。

为什么不需要下载 params 或 configuration.json？在 Hugging Face 的原始仓库里，你通常会看到很多零散的文件（如 config.json, tokenizer.json, model-00001-of-00010.safetensors 等）。但当你使用 llama.cpp 时，转换程序已经把这些信息全都“揉”进了那一个 .gguf 文件里：

模型权重：所有的参数（那些 30B 的权重）都已经按照你选的量化比例（如 IQ4_NL）压缩在里面了。

超参数配置：对应的 configuration.json 里的信息（层数、头数、词表大小等）已经写入了 GGUF 的文件头。

分词器 (Tokenizer)：所有的词表信息也都在里面，不需要额外的 tokenizer.json。

./llama-cli \
    -m ./models/qwen3-coder-30b-a3b-instruct/Qwen3-Coder-30B-A3B-Instruct-1M-IQ4_NL.gguf \
    --jinja \
    -ngl 99 \
    -fa on \
    -ot ".ffn_.*_exps.=CPU" \
    -t 8 \
    --ctx-size 32768 \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.80 \
    --top-k 20 \
    --repeat-penalty 1.05

显存不到 5G，速度 [ Prompt: 49.8 t/s | Generation: 17.5 t/s ] 还行啊！

别说，还挺快的；

生活记录

跑步、打好燕麦，洗了个澡，出来燕麦温度刚好，从阳台窗户看到外面阳光灿烂，脚放在板凳上沥干水分，手里捧着杯子吃燕麦，哎呀，绝了。

晚上带着黄车车在外面去捡“煎饼“（叶子），回过头，奶奶在后面，黄车车跑过去抱着；奶奶抱着她飞了下，一下子觉得奶奶也好像年轻了一样呢。哎，时间。

情绪记录

Good

阳光巨好，开启喜悦的一天吧。

Bad

Reflect

早上盯着股票账户看了半天，想了下最近操作的得失：

化工科技：违背操作习惯的一笔交易，买后第二天还是涨的，第二天开始就暴跌了。今早财报出来直接跌停，目前没封死，但估计就这样了。暂时不动装死吧。
323 暴跌加仓：
1. 还是加得太快了，导致当天后半段继续大跌的时候，已经又把仓位打满了—还是太渴望这种机会了，但是，这其实蕴含很大的危机呀
2. 加仓分布不合理：
  1. 很弱势的船舶加了太多—觉得错杀；加了不报希望的桃李面包，希望等它回来做波段止损；加仓天康，同样想做波段；继续加了金域，越套越深了；
  2. 确定性极强的大盘指数才加了 2k，真是对稳定收益毫无兴趣了啊？
  3. 后面来看，稳定、又强势的电力自己么有加，后面涨势挺好的

其实反思下，最基本的问题是：

操作太随意了。明白为啥牛市才容易亏钱了—因为被前面的乐观行情给搞得掉以轻心了，真是「死于安乐」啊
- 这解释了买华工，加太快的原因
风险偏好过大，丢掉了稳健
- 同样是牛市放大了自己的风险偏好，最危机的时刻，如果你觉得是反弹的机会，那么按风险偏好，加稳定、不可能永久亏损的大盘、估值合理的电力才是正解啊。但是选择了更有风险的、弹性更大，或者说跌得更多的船
- 当然，这其实也可以归结为贪婪
不肯认输：总想在一个股票上把钱赚回来，越套越深了这是

投资就是修心啊。最近关注股票太多了，说明内心太浮躁了。去持续稳定地构建，而非投机。投资只是保值，而非想着暴富。

也是自己没收入，自己的动机才会有这样的偏差吧；着急了。哈哈哈，没事，又长教训了，再来嘛。

工作记录#

Todo#

Process#

生活记录#

情绪记录#

Good#

Bad#

Reflect#