工作记录
Todo
TTS 发音功能 【doing】
继续设计:【页面构建完成】
TTS 能力:构建一个新的 TTS server, 使用 cached 非实时接口返回音频结果。
- cache 构建:
- 在 hugo 侧,基于 ts 完成英语句子抽取功能:
- 输入:dist 接口
- 输出:一个
{data: [{id: str, text: str, src_doc: list[str]}], project: dajuan}json 文件,annotated as$CACHED_TTS_TEXT
- github action 里,在完成 hugo build 后,调用这个 ts,生成该文件
- 然后 ssh 到 server,执行
cached-tts-gen --data $CACHED_TTS_TEXT --gen-model public
- 在 hugo 侧,基于 ts 完成英语句子抽取功能:
- tts-server 接口
tts生成接口:真正的 TTS 生成接口;给定 text, model, 生成音频【流式】 【这个接口先不做,直接做离线的脚本就行】- 支持模型:
- local-dajuan: 本地的模型
- 支持模型:
- cache 构建:
Process
关于 TS 抽取句子:
昨天已经和 Gemini 讨论了多轮,今天把它写完吧。
=> 完成了页面的渲染+整体流程,还缺:
- 从 dist 里抽取句子并生成 json, (需要把 project json 依赖的信息从 hugo toml 里放到这个离线脚本里;想来最好的方法还是从 hogo 里写到 dist 里)
- 更好的 tts model
- 此外,还想,在 github action 里直接就完成 tts 调用了,不要再跑到 server 去执行脚本了。感觉应该不难。
生活记录
下午没有睡觉,一直干活。
晚上困得不行了,最后好好接手的时候,已经没力气起来了。
发现好好给我发了关于“孩子哭泣的科学思考“,原来她的理解这么深刻。厉害!
情绪记录
Good
Bad
Reflect
又想,自己真的能做出东西吗?不管别人是否相信,先保证自己真的相信吗?是通过理性思考,还是咬定了就是可以呢?
晚上想自己是否可以做一个游戏,描绘一百种人生的结局呢?或者,先写小说,像《源代码》那样,在一个特定的点循环,触发多种分支?