各位,「米八说」又开始更新推送了,一是把「尝」百码
系列更新完成,包括商业 SaaS 和开源的代码项目,二是人工智能时代
的全面来临,也会把一些 AI 人工智能工作流「智能体」
的实践分享给大家。不管怎样,目标还是一如既往地不变:做你数字化技能启蒙的引擎。
AI 大模型 + 声音 = 快速精准打字
今天给大家分享的是一款可以离线的语音输入法,对!就是离线,不用开会员,不用联网的语音输入转成文字,非常适合录短视频的口稿,或者用来当中语音输入法使用。
为什么 AI 类的软件都会有命令行的窗口?难道是为了神秘吗?
当然不是!因为大多数 AI 大模型都跟 Python 有关系,Python 是一个脚本,它需要命令行来运行。所以,我们经常看到关于大模型的都是有命令行的窗口,这看起来很像黑客帝国的感觉,比较酷。
拖动 + 视频 = 字幕生成器
支持无限时长语音转文字,视频文件生成字幕,只需要把视频文件拖到:start_client.exe
,它就会自动运行解析音频并生成字幕文件。
热词 + Tag + 规则 = 智能输入法秘书
举个例子,你说毫安时
的时候,其实是期望输出:mAh
,这个时候需要替换规则。还有一些专属名词,你期望不要输出其他的,就用热词文本提前录好。
另外,还支持 Tag 关键词作为文件命名,出现某个 Tag 词眼的话, 当识别结果以关键词开头时,会被记录到 「年份/月份/关键词-日期.md」文件中。
「CapsWriter」搭建流程
本文是基于 Win11 来搭建,该软件还支持 Linux 或者 Docker 部署的,这个后面再建一期写 Docker 部署服务端,然后电脑直接运行客户端,很方便!
一、下载保存
本软件主要是 Python + 大模型文件,属于开源的软件项目。但是鉴于国内不好下载,故我放到网盘了,网盘下载地址在文尾提供。
二、安装顺序
如果你的操作系统是 Win10/Win11 的话,请解压 CapsWriter-Offline-Windows-64bit.zip
进行使用,如果是 Win7 的话,请解压 CapsWriter-Offline-Windows-32bit-Client.zip
进行使用。
如果你的操作系统还没有安装运行库,也请先运行 VC_redist.x64.exe
「Win10/Win11」,或者 VC_redist.x86.exe
「Win7」
三、解压大模型文件到软件目录
把它解压拷贝到软件的目录,一定要有这个文件夹的,否则无法运行。
四、全家桶的目录
五、运行方法
先运行:start_server.exe
,稍微等待 50-70秒不等,如果有防火墙弹出来,请点击允许。
再运行:start_client.exe
,其实也没有先后顺序,这个是客户端,它会等待服务器端 start_server.exe
运行完成了才能正常工作。如果服务器端没有完成启动,你强行去运行是会提示错误的。
六、按住「Caps Lock」键盘讲话即输出文字
这也是这个软件的命令由来,即键盘的大小写切换键,按住那个键说话,就能完成文字输出。
以上是用动图的方式演示录入。
获取本软件网盘地址
1、本公众号回复 20250628
即可看到自动回复网盘链接。
2、如果网盘链接失效,请长按识别以下二维码,加微信发给你。
另外,本次启动推文,还有附带一个飞书的话题群「米八和他的伙伴们」,所有「米八说」读者都可以免费进话题群,每个话题都会产生一个帖子,比较方便非实时交流。
为迎接 AI 时代到来!欢迎你跟我一起学习数字化技能。
评论