产品名: Whisper Notes
它是一个离线的OpenAI Whisper模型,可以将你的语音输入以极高的准确率转成文字、支持多语言夹杂。
它是免费的:无内购、无广告、不联网。 (如果不缺钱,在未来很长一段时间我会维持它免费)
市场上已经有一些 Whisper 工具了,为什么我还要做一个呢?需求主要是:
记录梦境:有时我做了个奇特的梦,醒来想记录,但睡眼朦胧很难打字,希望有个工具能快速录入语音并文本化。
回微信消息:有时我需要回复很长的微信,但此时我在街上或在吃饭,在不回复语音消息的情况下,快速回信息。
捕捉灵感:和 2 类似,有时不方便打字的场合突然有了新念头,想记录下来。
市场上的工具,要么太大(速度慢)、要么太小(准确率低)、要么会上传你的音频。
Whisper Notes 在准确率和速度之间做了折衷:尽可能使用最大的模型,但速度不至于慢到等几分钟才完成转录。正常情况下,你录入一段语音,等待几秒钟就可以完成。
因为目的是「速记」,所以 Whisper Notes 的"日记"属性很弱。转录完,文字就会自动复制到剪贴板,你可以粘贴到微信、或真正的日记 /Memo 软件来整理。
欢迎下载体验 & 反馈👏
App Store: Whisper Notes
1
wwqgtxx 2023-04-06 10:14:04 +08:00 1
已经下载,支持楼主
|
2
wwqgtxx 2023-04-06 10:39:22 +08:00
试用了一下,当长录音的时候能否考虑到一定长度就开始计算了呢(并显示部分结果),现在仿佛是等到 stop 之后才会开始计算,这是否有点浪费时间
|
3
Zeco41 2023-04-06 10:44:00 +08:00
想支持一波,但手里的备用机还是 14.7.1 ,给你点个感谢吧。
|
5
DjvuLee 2023-04-06 12:29:49 +08:00
不错!不过和苹果自带的语音转文字效果比较起来如何
|
8
cest 2023-04-06 13:36:29 +08:00
@wwqgtxx #2 没法实时吧
whisper 比其他语音输入猜得准就是靠用超大的 30s sliding window 做上下文解析的 |
9
wseani OP |
10
OliverDD 2023-04-06 14:28:08 +08:00 via iPhone 1
赞!好用
|
11
johannhuang 2023-04-06 16:58:36 +08:00
有趣的应用,虽然安装包有些大。还有一个遗憾,whisper 对硬件的要求低到移动设备就够了么?或者用起来有些“烧硬件”(用起来就卡一会儿)?
|
12
johannhuang 2023-04-06 16:59:20 +08:00
(“遗憾”实为“疑惑”)
|
13
wankedKing 2023-04-06 17:08:00 +08:00
如果可以记录梦话就好玩了,让它在睡觉时检测声音,如果有音频就写入。
|
14
wseani OP @johannhuang
Whisper small 的参数量是 2 亿,不算很大,手机上应该是没问题的。不过发热会降低 Core ML 性能,所以长时间可能会卡,内存也会缓慢上升。 |
15
wseani OP @wankedKing
我用过 SleepCycle 就支持记录梦话和打鼾,那个开一整晚挺耗电的,满电睡一晚第二天就剩 20%了。 |
16
hackpro 2023-04-06 17:26:24 +08:00 via iPhone
可能的话可以支持下 iOS 15 吗😂
|
17
ShinomiyaKaguya 2023-04-06 19:09:45 +08:00 via iPhone
可以考虑做一个 mac 应用,然后允许上传音频或视频文件,语音转文字
|
18
Zchary 2023-04-06 20:35:49 +08:00 via iPhone
这个 app 体积主要是被 model 占用了吗?
|
20
wseani OP @ShinomiyaKaguya 因为是服务于我「不想在微信框打字」的需求,所以优先手机。Mac 端你可以搜 Aiko ,那个模型最大,最准确。
|
22
hanguofu 2023-04-06 21:26:22 +08:00
有没有人试过 用 普通话 的识别效果 ?
|
23
bbbb 2023-04-07 15:38:02 +08:00 via iPhone
@hanguofu 说了 1234 ,识别了好几分钟,出来了这个:
One, two, three, four, five, six, seven, eight, nine, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten |
26
yqf0215 2023-04-07 16:36:21 +08:00
超厉害的楼主,mac os m1 能支持吗?还是习惯用电脑。当前一打开,就报错。
|
29
wseani OP @yqf0215 确实,我试了下自己的 Mac 也是:
“This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an com.apple.security.device.audio-input key with a string value explaining to the user how the app uses this data. ” 看上去是没加麦克风权限申请导致的。 |
30
huazidev 2023-04-07 17:15:30 +08:00
请问用的哪个模型,各种语言支持的怎么样?
|
32
wseani OP @yqf0215
今天完成了 Mac 版开发,模型比 iOS 大,并且支持上传录音了。顺利的话,明天就可以在 Mac 商店下载啦! ![]( https://i.328888.xyz/2023/04/10/imrMNy.th.jpeg) |
33
wseani OP |
34
wseani OP @ShinomiyaKaguya
Mac 版预计明天也可以下载啦 |
35
saimax 2023-04-11 21:43:19 +08:00 via iPhone 1
我来补一下 mac 可以下载了
|
36
neilp 2023-04-12 22:40:15 +08:00
有没有可能把这个稍微改一下, 改成一个能实时对话翻译的 app.
可以选择语言, 当然能自动识别语言更好. 然后, 实时互译. 支持自己提供 openai api key. |
38
neilp 2023-04-13 13:18:21 +08:00
@wseani 前面最难的部分你这已经实现了. 后面就差调 api 翻译,并返回了. 这就能满足 99% 的用例了. 更进一步还可以朗读.
|
39
neilp 2023-04-13 13:20:54 +08:00
如果可以开源的话, 我愿意试试贡献. 虽然我目前还不会 ios
|
40
wseani OP @neilp 这并不是我的功劳,模型部分你可以看[whisper.cpp]( https://github.com/ggerganov/whisper.cpp)。在这个项目上我只是做了 UI+功能,以及中文的段落处理。之所以不用翻译 api ,是因为我希望这个 app 完全离线,一旦使用翻译 api ,这个软件将无法免费供人使用。
|
41
neilp 2023-04-13 18:13:26 +08:00
翻译只是另外一个功能而已, 如果你能上架翻译功能, 很多人会付费.
|
43
huyinjie 2023-05-05 11:47:25 +08:00
支持!可以做个导入录音的功能吗
|
45
Linvas 2023-07-18 17:47:36 +08:00
怎么做的训练?
|