工作记录
Todo
TTS 发音功能 【doing】
昨天和好好探讨了下怎么放开关。晚上也想了下文案是啥样的,都想不到一个特别满意的。
大概是:
文案:
- 显示句子发音按钮 [x]
功能:开启后,在每个英语句子后面显示一个播放按钮,点击后显示加载模样,加载成功后,播放音频,同时按钮变为暂停模样;再次点击就暂停,再点击就播放。
播放状态:
idle => 显示播放 loading => 显示加载 playing => 显示暂停 暂停 => 显示播放
开关状态:通过 cookie 序列化功能开启、关闭的状态
TTS 能力:构建一个新的 TTS server, 使用 cached 非实时接口返回音频结果。
- cache 构建:
- 在 hugo 侧,基于 ts 完成英语句子抽取功能:
- 输入:dist 接口
- 输出:一个
{data: [{id: str, text: str, src_doc: list[str]}], project: dajuan}json 文件,annotated as$CACHED_TTS_TEXT
- github action 里,在完成 hugo build 后,调用这个 ts,生成该文件
- 然后 ssh 到 server,执行
cached-tts-gen --data $CACHED_TTS_TEXT --gen-model public
- 在 hugo 侧,基于 ts 完成英语句子抽取功能:
- tts-server 接口
tts生成接口:真正的 TTS 生成接口;给定 text, model, 生成音频【流式】- 支持模型:
- public: 找到一个免费的,可以直接调用的接口
- local-kokoro:本地的模型
- local-dajuan: 本地的模型
- 支持模型:
cached-tts/gen生成接口: 给定 id, project, 返回音频【流式】或者 None (不会去调用 tts) 注意,不需要 text,因为这里只读取cached-tts/add添加接口:给定 id, text, project, audio, 设置音频内容;- 需要 text.
- 需要鉴权(先简单基于 api-key,api-key 固定即可)
cached-tts/list返回所有的 cache 数据:给定 project, 返回 (id, text, project, audio-is-effective) 元组
- 本地与云端同步:
- 本地调用
DOING
准备写年终总结吧
搭建基本本地 LLM 的小龙虾
游戏开发:大概率还是用 cocos creator
Process
生活记录
状态还是不够集中。
卖掉了一些航运相关的票。之前追高买的华工科技果然大跌。
中午做了饭,晚上是好好做的,烤了饼饼。晚上黄车车还是不能早早睡觉,陪她看了 pepa,然后拉粑粑、在沙发上玩虫虫和气球,她躺在沙发上吃瓜子和饼饼,挺乖的,没闹,就是不愿意睡觉。
后面还是好好出马,把她哄睡了。
尝试挂号,但是系统不知道咋了,没挂上。晚上 11 点再看,结果就没有了。
情绪记录
Good
Bad
Reflect
今天情绪还是挺稳定的。早上跑步的时候在外面看了一个多小时的乔布斯传。挺悠闲的,但代价呢?其实就是把自己的压力,最终转移到了我爸身上。
所以说,还是要继续全力以赴啊。