工作记录

Todo

  • TTS 发音功能 【doing】

    继续设计:【页面构建完成】

    TTS 能力:构建一个新的 TTS server, 使用 cached 非实时接口返回音频结果。

    • cache 构建:
      • 在 hugo 侧,基于 ts 完成英语句子抽取功能:
        • 输入:dist 接口
        • 输出:一个 {data: [{id: str, text: str, src_doc: list[str]}], project: dajuan} json 文件,annotated as $CACHED_TTS_TEXT
      • github action 里,在完成 hugo build 后,调用这个 ts,生成该文件
      • 然后 ssh 到 server,执行 cached-tts-gen --data $CACHED_TTS_TEXT --gen-model public
    • tts-server 接口
      • tts 生成接口:真正的 TTS 生成接口;给定 text, model, 生成音频【流式】 【这个接口先不做,直接做离线的脚本就行】
        • 支持模型:
          • local-dajuan: 本地的模型

Process

关于 TS 抽取句子:

昨天已经和 Gemini 讨论了多轮,今天把它写完吧。

=> 完成了页面的渲染+整体流程,还缺:

  1. 从 dist 里抽取句子并生成 json, (需要把 project json 依赖的信息从 hugo toml 里放到这个离线脚本里;想来最好的方法还是从 hogo 里写到 dist 里)
  2. 更好的 tts model
  3. 此外,还想,在 github action 里直接就完成 tts 调用了,不要再跑到 server 去执行脚本了。感觉应该不难。

生活记录

下午没有睡觉,一直干活。

晚上困得不行了,最后好好接手的时候,已经没力气起来了。

发现好好给我发了关于“孩子哭泣的科学思考“,原来她的理解这么深刻。厉害!


情绪记录

Good

Bad


Reflect

又想,自己真的能做出东西吗?不管别人是否相信,先保证自己真的相信吗?是通过理性思考,还是咬定了就是可以呢?

晚上想自己是否可以做一个游戏,描绘一百种人生的结局呢?或者,先写小说,像《源代码》那样,在一个特定的点循环,触发多种分支?