1
ivyliner 2022-03-24 18:56:29 +08:00 3
|
5
ttgo 2022-03-24 19:31:11 +08:00
我用过一段时间 1 楼说那个做会议记录,但系统自带这个 api 识别率有点低。
|
6
findex 2022-03-24 21:11:43 +08:00
我刚刚试了一下,感觉还挺不错的。M1 上会启用苹果内置硬件的 coreML 。
正如官网说的 > BeMyEars 充分利用苹果的 CoreML 和 Speech 机器学习框架, 语音识别全部在本地设备完成, APP 本身不会主动上传任何语音 /视频数据 回复一下楼主,这款应用挺好用的,你创建一个虚拟声卡,将合成声音导入到虚拟声卡,用 BeMyEars 提取虚拟声卡的声音,就可以看视频(开会)看字幕了。还有导出字幕功能。将会从开启软件开始的字幕整体导入到一个 txt 文件。 这个应用有 in app purchase (内购)。只能试用 7 次,然后订阅制。每月 3 刀,年付 30 刀。美区贵一点。国区可能 6 元每月吧。 https://imgur.com/V0kmyef 试了一下,感觉实时识别率不高,有错误。感觉 50%的中文准确率都不到,支持 arm64 ,cpu 使用率 3-4%,coreML 因为是利用 macos 自带的语音识别,cpu 占用率,你会看到一个进程 com.apple.siri.embeddedspeech 107% assistantd 的使用率大约 47%。英文识别率高一点,能达到个 60%吧。但是对于听关键词还是比较有帮助的。 个人感觉这个应用就是套用系统内置的语音识别的壳。 网易推出一款语音同传的软件: https://tongchuan.youdao.com/ 有免费版,每天一小时: > 源语言:中、英, 目标语言:中、英、日、韩 支持的语言比较少,主要是中、英文。试过,比内置 siri 套壳准确多了。 |
7
ivyliner 2022-03-24 21:26:36 +08:00
@Chism
安装 BlackHole 可以读取大部分语音. 你说的选择 zoom 通道应该也可以, 不过也有人反馈过有问题, 我没有复现过. 目前也在研究新方法. 音量控制说明文档. https://www.engineerdraft.com/bemyears/docs.html#%E5%A6%82%E4%BD%95%E8%B0%83%E8%8A%82%E9%9F%B3%E9%87%8F |
8
ivyliner 2022-03-24 21:29:45 +08:00
@ttgo 目前中文准确率确实比较低, 但是英文应该还可以的. 我自己用够用, 主要场景和 OP 比较像辅助理解, 并没有完全依赖.
最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术. |
9
findex 2022-03-24 21:41:35 +08:00
@ivyliner 哇,原来你是这个 BeMyEars 原作者啊。哈哈。幸会。找了几个能提取 macos siri 语音识别的,也就只有你这款软件了。做的挺棒的。
> 最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术. 祝福老哥捷报频传,攻克各种难关,造福一方。(话说能推出买断制的 app 么,想买断,嘿嘿) |
10
ivyliner 2022-03-24 21:49:20 +08:00 2
@findex 看来对 BeMyEars 挺清楚的, 欢迎相互学习.
简单纠正一下几个小的问题. 1. 试用是 7 天, 不是 7 次. 如果是年付的话还可以免费试用七天, 一共是 14 天, 而且在 APP 订阅界面主动提供取消订阅的帮助文档, 自我感觉订阅算厚道. 2. 每月 3 刀, 年付 30 刀 在中国区之外价格是对的. 在中国区的价格是 美区 10 元, 年付 98 元. 针对中国区是特殊设置的, 因为如果统一汇率计算的话, 导致有些国家特别贵, 其实不太合理. BeMyEars 的定价标准是一顿饭价格 1/3 每月. 自我感觉性价比也算厚道. 3. BeMyEars 目前是调用系统内置的语言识别的接口, 但是并不是套一个壳那么简单, 里面还是有不少难度的. 另外你推荐的网易语音同传软件我好像没有找到 macOS 版本, 如果有的话, 麻烦给一下, 万分感谢. 因为我目前手上积累了不少听障的朋友, 他们特别需要一款 macOS 下面识别准确率高, 同时价格能够承担起的软件. |
11
wclebb 2022-03-24 22:36:18 +08:00 via iPhone
飞书可以,不过确实需要换。
|
12
findex 2022-03-24 22:49:30 +08:00 via iPhone
@ivyliner 价格来言国区这个确实还可以了。对有听力障碍的朋友很有用。就是 siri 内置的语音识别不准,只能看个大概,但是对于慢速的视频会议应该问题不大吧。
关于网易语音识别你可以虚拟机里试试,目前官方只支持 windows 版本.。但是网易有商用 API ,你可以申请成为网易二次开发作者,调用 API 。具体我没操作。我只是试过网易语音识别,识别度挺高的。每天的免费的 1 小时基本上可以开会 1 小时需求。 我已经把你的应用推荐给了几个外国朋友,这个对于语言教学应该挺有帮助的。虽然 Siri 不太准,但是支持的语言多。 |
13
ivyliner 2022-03-25 08:19:05 +08:00
@findex 非常感谢推荐啊.
其实在 windows 下面目前最好用的是, 联想语音 , 你可以试一下. 目前免费, 做的很好, 不过在 4.1 号之后要开始收费了. 使用 API 的话, 其实反而更简单, 而且还有很多选择, 阿里, 百度, 腾讯.... 都有对应的 API, 问题是都很贵, 就说这个网易语音每天免费 1 小时, 超过的话, 收费标准是 2 元 /分钟. 要是会议不小心延迟 5 分钟, 就够一个 BeMyEars 一个月订阅费用了, 当然你如果小心的话, 是可以保证不超出的, 但是开会沟通本来就需要比较专注, 然后还要分心做这些事情, 体验不太好. 还有一个最重要的原因 我看 @Chism 需要用外语沟通, 那么大概率是在外企, 很多外企对数据的安全性特别看重, 直接把会议的语音上传到服务器进行识别, 虽然我们不能恶意推测这些厂商不会拿着这些数据做啥. 但是总是一个风险点. 所以 BeMyEars 定位就是一款本地识别的软件, 尊重用户数据隐私. 当然弊端很明显 1. 本地计算资源消耗较大 解决思路: 苹果电脑硬件 M1, M2 算力提升较快, 问题到不是很大. 2. 识别准确性问题, 目前英语准确性还行, 汉语不是特别好用, 毕竟苹果是家美国企业. 解决思路: 1 苹果本身自己会不断提高准确性, 共享红利. 2. 自己调研语音识别方案, 已经在做了, 比较难 , 希望今年能有个比较好的产出吧. |
14
Jacklandrin 2022-03-29 17:43:05 +08:00
Zoom ,Microsoft Teams, Google Meets 这类会议服务都是可以通过 web 方式进行的,而 chrome 浏览器自带了英文字幕功能。Microsoft Teams, Google Meets 应该也可以在 app 里开启英文字幕,zoom 我不太确定是不是得主持人得开启。
https://support.google.com/chrome/answer/10538231?hl=zh-Hans |