工作记录

Todo

  • TTS 发音功能 【doing】

    昨天和好好探讨了下怎么放开关。晚上也想了下文案是啥样的,都想不到一个特别满意的。

    大概是:

    文案:

    • 显示句子发音按钮 [x]

    功能:开启后,在每个英语句子后面显示一个播放按钮,点击后显示加载模样,加载成功后,播放音频,同时按钮变为暂停模样;再次点击就暂停,再点击就播放。

    播放状态:

    idle => 显示播放 loading => 显示加载 playing => 显示暂停 暂停 => 显示播放

    开关状态:通过 cookie 序列化功能开启、关闭的状态

    TTS 能力:构建一个新的 TTS server, 使用 cached 非实时接口返回音频结果。

    • cache 构建:
      • 在 hugo 侧,基于 ts 完成英语句子抽取功能:
        • 输入:dist 接口
        • 输出:一个 {data: [{id: str, text: str, src_doc: list[str]}], project: dajuan} json 文件,annotated as $CACHED_TTS_TEXT
      • github action 里,在完成 hugo build 后,调用这个 ts,生成该文件
      • 然后 ssh 到 server,执行 cached-tts-gen --data $CACHED_TTS_TEXT --gen-model public
    • tts-server 接口
      • tts 生成接口:真正的 TTS 生成接口;给定 text, model, 生成音频【流式】
        • 支持模型:
          • public: 找到一个免费的,可以直接调用的接口
          • local-kokoro:本地的模型
          • local-dajuan: 本地的模型
      • cached-tts/gen 生成接口: 给定 id, project, 返回音频【流式】或者 None (不会去调用 tts) 注意,不需要 text,因为这里只读取
      • cached-tts/add 添加接口:给定 id, text, project, audio, 设置音频内容;
        • 需要 text.
        • 需要鉴权(先简单基于 api-key,api-key 固定即可)
      • cached-tts/list 返回所有的 cache 数据:给定 project, 返回 (id, text, project, audio-is-effective) 元组
    • 本地与云端同步:
      • 本地调用

    DOING

  • 准备写年终总结吧

  • 搭建基本本地 LLM 的小龙虾

  • 游戏开发:大概率还是用 cocos creator

Process


生活记录

状态还是不够集中。

卖掉了一些航运相关的票。之前追高买的华工科技果然大跌。

中午做了饭,晚上是好好做的,烤了饼饼。晚上黄车车还是不能早早睡觉,陪她看了 pepa,然后拉粑粑、在沙发上玩虫虫和气球,她躺在沙发上吃瓜子和饼饼,挺乖的,没闹,就是不愿意睡觉。

后面还是好好出马,把她哄睡了。

尝试挂号,但是系统不知道咋了,没挂上。晚上 11 点再看,结果就没有了。


情绪记录

Good

Bad


Reflect

今天情绪还是挺稳定的。早上跑步的时候在外面看了一个多小时的乔布斯传。挺悠闲的,但代价呢?其实就是把自己的压力,最终转移到了我爸身上。

所以说,还是要继续全力以赴啊。