智能离线语音输入工具CapsWriter-Offline v2.0.4（支持无限时长语音转文字+字幕转录）

雪儿 · 昨天 18:18

CapsWriter-Offline是一款免费开源且可完全离线识别的低延迟高精度可视化语音输入工具，基于年久失修的旧项目进行Python开发并fork翻新改进及较多功能优化整合升级。在原版的基础上融合新增了热键操作、声音提示、云端剪贴板、语音转翻译、更直观的GUI图形设置界面以及更好的标点符号 / 语音识别引擎等功能。
此款软件算是某些必须联网调用API或付费产品的平替工具，设置更直观，无登录接口，功能无限制，可离线使用，不联网翻译，基本能满足譬如会议记录、各种有输入光标的软件包括但不限于文档类、游戏输入窗口等出于不想打字且需要来回切换中英文输入法的大部分日常场合。可 CPU 处理（兼容 Cuda 加速），支持 Win10 – 11 系统。近期更新，有需自取~~~

软件特性：
1. 完全离线、无限时长、低延迟（仅针对性能较好较高的 CPU 而言）、高准确率、中英混输、简繁任意切换、自动阿拉伯数字、自动调整中英间隔、自动添加标点符号，无需二次复制剪贴。
2. 多引擎识别及文字图标声音提示：现支持中、粤、英、日、韩等多语种语音识别引擎输入（比旧时的 Whisper 识别更好）；光标处麦克风显示录音状态而确定输入输出会发出提示音。
3. 翻译功能：提供语音自动识别转离线或 DeepLX 在线翻译模式并直接输出。
4. 防干扰设计：录音时自动静音系统干扰音频，从而专注语音输入。
5. 云端协同：录音文本自动存档（按日期 / 关键词分类）；文本秒传至云剪切板（即用即走，兼容 iOS 设备分享）。
6.. 转录功能：将音视频文件拖动到客户端打开，即可转录生成通用的srt、txt等字幕文件。
7. 热词及关键词增强功能：可以在 hot-en.txt、hot-zh.txt、 hot-rule.txt、 keywords.txt中自定义添加，客户端动态识别载入。
8. 现默认支持客户端跟随服务端自动打开，可多开亦可服务多台客户端。

●以上特性均可在设置界面或 py 配置文件中自行任意 DIY ~~~

使用说明：
详细完整说明教程请戳 > >

游客，如果您要查看本帖隐藏内容请回复

以下仅作简明版扼要：
1. 为避免文件缺失，此处提供的是一键整合懒人包开箱即用版，已包含相关组件，无需 py 部署且不必过多折腾（而项目中为拆开版本需自行合并），解压使用前请先关掉杀软~~和必要时的 Windows防火墙~~。直接解压后双击 start_server_gui.exe 运行服务端，但需等待自动加载 py 依赖环境及标点语音引擎完成会在底部提示“连接成功”字样方可开始使用（加载等待时长视电脑配置而定）。
默认长按 Caps Lock 调用麦克风录制语音松开即可识别转文字，曾经有粘贴文字记录的请先清空（随便复制一个文件即可清空剪贴板记录）。自带服务端和客户端的系统托盘，右键对应图标点QUIT可退出程序。
-------------------------------------------------------------------------------------------------------------
2. 基本快捷键操作：（以默认快捷键设置为例，但请先排除部分软件按键冲突问题）
Caps Lock ：按下录音，松开识别并输入结果（类似按住说话）
Left（左） Shift  +  Caps Lock ：识别后离线翻译为英文并输入
Right（右） Shift  +  Caps  Lock：识别后在线翻译（默认日文）并输入
双击 CapsLock ：切换简 / 繁体语音输入
长按 CapsLock ：触发原大写锁定功能

Ctrl + Alt + P ：选中中文→离线译英并替换原文
Ctrl + Alt + [  ：选中文本→在线翻译并替换原文
Ctrl + Alt + F ：调用 Everything 搜索选中内容
Ctrl + 鼠标滚轮：放大 / 缩小  UI 界面文字大小

拖入音视频到 client 客户端：自动转录生成SRT字幕
云贴按钮：上传文本框内容至云剪贴板（生成链接+二维码）
-------------------------------------------------------------------------------------------------------------
※若需要修改相关设置，请先双击运行 edit_config_gui.exe ，比如允许多开服务端、修改端口、自定义修改为不常用的按键录音、录制内音；或关掉长按模式换为单击前后两次形式（适合较长语音）等。
修改完配置后建议直接长按保存服务/客户端配置并重启服务端（可在系统托盘处右击服务端图标的“Restart Client”），否则已修改的配置并不会生效。【若有不确定的选项建议勿修改，免得产生未知 bug 】

3. 设置开机自启：（非必要操作但可便于随时呼出调用，未修改配置且首次使用的前提下，当然也可调用系统自带或其它软件唤起软件自启服务）
右键新建服务端 start_server_gui.exe 文件的快捷方式文件，复制  shell:startup  此条命令到文件资源管理器的路径栏处并回车，然后将该快捷方式粘贴或移动到此目录下即可在开机时自动启动服务端和客户端。可在设置中调整为自动缩至系统托盘处。如下：

4. 尤其是识别人名同音字、数量词、网络热词等词语，需自行添加合适的规则到 hot-rule.txt 文件当中，否则软件会以默认自带库的字词输出。
另提一句，目录内的txt文件对应的内容可任意添加修改但不建议重命名，毕竟均与各种已编译的py配置文件息息相关，除非有能力折腾统一一致修改，否则会产生奇奇怪怪的问题 bug。

5. 可将音视频文件拖动到客户端start_client_gui.exe中打开，等待自动处理即可。但转录字幕功能需在 server 服务端加载完成后运行的情况下才可使用，否则会出现闪退不工作等问题。
默认转录之后生成的文件会跟着音视频文件的目录：
json 文件：字级时间戳；
txt 文件：分行结果；
merge.txt 文件：带标点的整段结果；
srt 文件：最常用的字幕文件（可导出 PR 剪辑类软件二次编辑）。
如果生成的字幕有微小错误，可以在分行的 txt 文件中修改，并将 txt 文件拖动到 client 客户端打开，最后自动修正其余字幕文件。
【毕竟只是程序附属的非主要小功能，其中纯中或纯英识别效果会好点，自然跟部分专业的字幕转录工具有些差距】

其余功能自行体验。。。

※已测 Win 10 LTSC 及Win 11 24H2 官方原版系统均可在飞行模式下离线正常使用并输出（如下，极限时长可自测，但其它精简类系统无法保证）~~~

PS：
1. 本软件已测火绒无拦截，代码完全的透明。因采用 py整合打包编译，故部分杀软纯属误报。另外，为满足本地化隐私优先、完全离线随时随地使用的需求，故软件整体本身并不会太小。担心的扔到虚拟环境运行或自行抓包软件行为验证便知，介意的勿下勿用，嫌弃的推荐删除文件目录并转用其它工具。。。
2. 处理效率及识别质量主要取决于设备CPU处理器（兼容低配）、语音输入时长、语音速度、声音环境、有无背景杂音等诸多情况，~~在一定条件下~~ CPU 越好、音频越短、语速越中等、语音越清晰准确、语种越常见自然处理效率越快且识别率越高，不排除偶尔性浮动，反之亦然。

服务端界面：（可任意处右键菜单复制粘贴、全选、撤销等）

相关设置：（此处已改为不常用的insert [即Ins ] 键激活录音，均可自行开合任意选项）

基本效果：（语音输入自动识别中粤英语模式输出，此处已省略录制音频等待时长过程，仅供参考）
1(1).gif