V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
SuperMild
V2EX  ›  奇思妙想

完全语音控制不可行,但“语音快捷键”越想越可行啊,举几个特别有用的例子

  •  
  •   SuperMild · 2018-05-18 12:36:21 +08:00 · 4676 次点击
    这是一个创建于 2388 天前的主题,其中的信息可能已经有所发展或是发生改变。
    假设现在的电脑加入“语音快捷键”功能(可自定义)

    比如喊 “截屏” 就截屏
    比如喊 “中文” 就切换到中文输入法
    比如喊 “选择” 就自动选择当前鼠标指向的单词,再喊 “一句” 就扩大选择一句,再喊 “复制” 就复制了。
    比如播放 PPT (或看 PDF )时,喊一声 “过” 就切换到下一页,手就不用一直放在鼠标或键盘上了啊!

    还有一个重点,如果加入了语音快捷键,那就可以解放很多快捷键出来了,大大减小了快捷键冲突的几率。

    越想越觉得,有语音快捷键作为辅助非常不错,是辅助,不是强迫使用,就像鼠标手势一样,不爱用的人不用,爱用的人用,应该有不少一部分人会喜欢这个辅助功能的。
    39 条回复    2019-05-21 22:59:42 +08:00
    IceBay
        1
    IceBay  
       2018-05-18 13:22:28 +08:00
    siri ?
    zj299792458
        2
    zj299792458  
       2018-05-18 13:25:06 +08:00   ❤️ 7
    在公司大喊一声,关机,群体员工都可以下班了。
    zj299792458
        3
    zj299792458  
       2018-05-18 13:25:18 +08:00
    @zj299792458 全体员工
    SuperMild
        4
    SuperMild  
    OP
       2018-05-18 13:35:09 +08:00
    @IceBay 功能 Siri 有很大区别,Siri 偏重于人工智能,因此需要联网,速度慢。我说的是类似于鼠标手势的东西,反应速度可以很快。

    @zj299792458 影响多台机器的问题,不是难题,有很多办法可以解决。
    taojing10
        5
    taojing10  
       2018-05-18 13:41:21 +08:00 via iPhone
    截图?截哪块?是不是还是 qq 微信快捷键更容易控制?
    jiuu
        6
    jiuu  
       2018-05-18 13:45:50 +08:00
    那是不是还需要一个开启“开启语音快捷键”的快捷键呢?那就两步了。
    如果一直开启,那你就知道外面世界的声音有多美妙了。
    楼主不是做产品的,是个程序猿吧。
    SourceMan
        7
    SourceMan  
       2018-05-18 13:52:36 +08:00
    你说的这些可能连自己都没有说服吧,打回去重想
    chenyu8674
        8
    chenyu8674  
       2018-05-18 13:54:41 +08:00   ❤️ 3
    “小李啊,这个需求你搞清楚了没”
    “清楚,清楚……艹!没让你个傻逼清除!啊张总我没说你……”
    SuperMild
        9
    SuperMild  
    OP
       2018-05-18 14:43:29 +08:00
    @taojing10 快捷程度是一样,不分上下。但键盘快捷键占用一个少一个,语音快捷键是额外的,不占用键盘。
    est
        10
    est  
       2018-05-18 14:54:49 +08:00   ❤️ 1
    已经回复了多次,其实脚踏板才能增加生产力!
    fate
        11
    fate  
       2018-05-18 14:57:25 +08:00   ❤️ 1
    当你在王者荣耀里团战时,有人喊了一声 siri
    dex2jar
        12
    dex2jar  
       2018-05-18 15:04:31 +08:00
    喊截屏,然后整个屏幕截下来了?然后咋办?自己裁剪?
    还是喊截屏 qq 聊天记录框,不截取头像?
    喊中文这个倒是可行。。我半秒种按快捷键解决的,你得讲话,然后等待识别成功,然后等待切换,然后继续输入。注意,这里有个必然的等待时间,因为语音识别肯定要认定你讲完话了,而不是你讲一点就干活对吧。
    然后选择。。额,你在干啥,你鼠标都在这个字旁边了,然后你不想动半秒钟的鼠标,却让他自动判断位置?万一你想多选择一点呢。。
    ppt 这个倒是好主意。
    ZiLong
        13
    ZiLong  
       2018-05-18 15:07:03 +08:00
    @zj299792458 这个场景太美
    SuperMild
        14
    SuperMild  
    OP
       2018-05-18 15:08:10 +08:00
    @jiuu 重点是“语音快捷键”这个概念本身好不好,具体解决办法可以慢慢想,总有办法解决的。我暂时想到几个方法:

    1. 根据使用场景自动开启

    - 比如,在微信窗口输入文字,从停止输入起算 15 秒内,自动开启语音功能,此时可以识别“发送”命令,喊出该命令就发送,从此不再迷惑是 enter 发送还是 Ctrl+enter 发送了。

    - 又比如,在播放 PPT 时,自动进入状态,可以识别 “下一页” 命令。

    2. 检测周围噪音,当比较安静,或者噪音有规律可以过滤掉时,自动开启语音功能。

    3. 随时手动开启语音功能

    4. 现在一般屏幕都有摄像头,或可以轻松加装。以后眼神操控也将会进入主流,因此,摄像头一直监控使用者状态将会被消费者接受,那么,可以通过“持续目视镜头 3 秒”来临时开启语音,此时喊语音功能有效,1 分钟后自动关闭语音。

    5. 增加外设。一个形状大小像录音笔一样的无线麦克风。

    当然,这只是初步想法,细节做好了才能实用化。但重点是,办法总是有的。
    liuxey
        15
    liuxey  
       2018-05-18 15:08:29 +08:00
    语音辅助大方向是可行的,但切入点目前还没完整把握好,再等等看吧,语音+AI 结合可能更好找到切入点
    SuperMild
        16
    SuperMild  
    OP
       2018-05-18 15:13:37 +08:00
    @dex2jar 识别时间是个大问题!想起锤子的 TNT 产品,演示时很流畅,不知道是否解决了这个问题。按照演示情况来看,识别是瞬间完成的。但如果演示有假,那…… TNT 产品可能会遇到致命的麻烦。
    HypoChen
        17
    HypoChen  
       2018-05-18 15:17:33 +08:00
    - “连根拔起”
    - rm -f /
    dex2jar
        18
    dex2jar  
       2018-05-18 15:18:57 +08:00
    @SuperMild 我看过一点后来的视频,比如老罗喊,红色,是停顿至少半秒以上才变色的。。而且他这个场景下比较单一,就变颜色和字体,所以可能识别快一点?如果他自然语音一点,比如 把标题的颜色改成红色。 这时候肯定是有个停顿识别的过程的。
    SuperMild
        19
    SuperMild  
    OP
       2018-05-18 15:23:29 +08:00
    @dex2jar 那看来还是要等技术进步,看什么时候有大厂去优化识别问题了。我主要是提出语音辅助很好用,如果细节做好的话。
    Luckyray
        20
    Luckyray  
       2018-05-18 15:26:33 +08:00
    语音再快也快不过手指头...至少在生产力工具方面,你举得例子都不合适,按一下截屏键或者快捷键不比说几个词快多了。

    真想让语音发挥作用,还得强人工智能出现,你几个字描述一个复杂的任务,他就能去执行。
    SuperMild
        21
    SuperMild  
    OP
       2018-05-18 15:34:14 +08:00
    @Luckyray 快捷键有两个天然缺点,一是需要记忆,一是容易冲突。程序员爱用快捷键,但大多数用户其实截屏时是用鼠标去点一个小图标来启动截屏功能的,这就不如喊“截屏”来得轻松和自然了,也不用记忆,也没有冲突。
    rizon
        22
    rizon  
       2018-05-18 15:43:50 +08:00   ❤️ 1
    就没人觉得语音交互本身就是问题吗?
    语音识别的准确率可以提升,ai 的对语意的理解能力也可以改善提升。

    但是 语音的可应用场景太受限了吧。
    作为群居生活的人类,大多数时间都处在人群之中,任何会扩散到周围对外界产生影响的交互行为。都具有很大的局限性。
    oklai
        23
    oklai  
       2018-05-18 15:53:14 +08:00
    求和,求和,求和。。。
    MonoLogueChi
        24
    MonoLogueChi  
       2018-05-18 16:01:12 +08:00
    感觉想法不错唉,有些时候语音确实挺方便的。这东西就和快捷键一样,可以开启可以关闭,也可以自定义,在合适的场景就可以用,不合适的场景可以选择关闭。如果有想法就去做吧,别理那些整天抬杠的人
    ln1225707801
        25
    ln1225707801  
       2018-05-18 17:16:05 +08:00 via Android
    如果语音不比手动更快捷更方便,那语音操作就只能作为辅助操作,而不是次世代操作
    wdy3334
        26
    wdy3334  
       2018-05-18 17:26:48 +08:00
    @zj299792458 #2 6666,可以加个键,按住之后再说
    13036101641
        27
    13036101641  
       2018-05-18 17:30:33 +08:00
    我同事说话声音特别大,好几次居然把我的 siri 弄出来了
    DevNet
        28
    DevNet  
       2018-05-18 18:27:02 +08:00
    别的不说,ios 自带输入法里的语音输入真的很好用。谁用谁知道。
    安卓上讯飞输入法也就勉勉强强……
    kj
        29
    kj  
       2018-05-18 21:20:55 +08:00 via Android
    能不能通过声音定位发布命令者的位置,从而做到不被其他声源的干扰
    akring
        30
    akring  
       2018-05-18 21:51:50 +08:00
    @HypoChen #17
    “公司领导太特么扣了,搞得我都想删库跑路了”

    - rm -f /
    AA0
        31
    AA0  
       2018-05-18 23:07:39 +08:00
    加一个摄像头识别口型的辅助
    AA0
        32
    AA0  
       2018-05-18 23:09:20 +08:00
    以后还可以有声纹识别
    Zeonjl
        33
    Zeonjl  
       2018-05-18 23:11:04 +08:00 via Android
    语音快捷键 google 不是已经很赞了吗
    gamexg
        34
    gamexg  
       2018-05-19 01:02:13 +08:00 via Android
    没人说 win7 就实现了这些功能了吗?
    当时的 office 也支持语音命令,当时还玩过。
    wxufo
        35
    wxufo  
       2018-05-19 17:28:27 +08:00
    事实上语音还有一个技术要突破。就是口音呀!因为”煲冬瓜“不标准!
    bleaker
        36
    bleaker  
       2018-05-20 18:31:08 +08:00 via iPhone
    这个是基本的 accessibility 的功能啊,macOS 一直都有,针对盲人用户的
    flynaj
        37
    flynaj  
       2018-05-22 01:13:59 +08:00 via Android
    Windows10 你可以按 win+c 体验一下,基本可以用,但是用它来工作就 2 了,
    Xiqiuqiu
        38
    Xiqiuqiu  
       2018-05-30 16:18:58 +08:00
    其实这个问题,很大程度都是在现有的人机交互方式上去做拓展,即还要通过鼠标,键盘等介质;

    开个脑洞跳出现有的交互框架,重新思考下这个问题##

    假设,设备加入了人工智能来分析收到的语音指令,实现了结合前后语义的仿自然对话(请联想钢铁侠),通过人类发出“确认”指令,指导机器行动....##

    通过声纹和主人的口头禅,或日常习惯用词的组合,去不断优化计算主人的思维范式,从而做到辅助决策##
    chaisiyuan
        39
    chaisiyuan  
       2019-05-21 22:59:42 +08:00
    我最近找到一个语音宏输入控制,的输入硬件。据说可以支持无限语音宏的命令,楼主,出来交流交流
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2560 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:37 · PVG 23:37 · LAX 07:37 · JFK 10:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.