问下 AI 深度学习问题，谢谢！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3111 天前的主题，其中的信息可能已经有所发展或是发生改变。

本人产品狗，想问下目前深度学习的应用，比如人脸识别，采用的数据源是经过人工筛选标记的图片才能用来训练么

还有：比如我们现在应用产生的大量数据能在以后用于训练我们的算法么？因为目前团队无 AI 团队，但是每天会有很多数据产生包括语料和图片。这种数据我们有占硬盘的意义么？

深度学习

训练

人脸

标记

13 条回复 • 2017-08-30 14:28:59 +08:00

davy1995

2017 年 8 月 29 日 via Android

建议搜索下监督学习和无监督学习

davy1995

2017 年 8 月 29 日 via Android

机器之心 - 从自编码器到生成对抗网络：一文纵览无监督学习研究现状（分享自知乎网） https://zhuanlan.zhihu.com/p/26751367?utm_source=qq&utm_medium=social

XinLake

2017 年 8 月 29 日

图像识别是提取了图像的特征，用一些数据（计算机能理解的数据）去表达一些图像，比如人脸。
具体的技术算法 OpenCV 里有。

可以人工筛选出各种正常人脸拿去训练，得到的数据当然就比较容易识别。如果拿一堆鬼脸，带帽子人脸去训练那估计你也要做鬼脸或带帽子才更容易识别。

现在普通的应用与其说 “人脸识别”，不如说 “人脸检测” 更准确，因为只有人脸就判定 OK。
如果拿特定某一个人各种情况下的脸来训练，那识别出来的可能就是这个人，这才到了真正 “人脸识别” 即通过一张图认出你这个人。

timetolo

2017 年 8 月 29 日

入门级 ML\DL 从业人员前来回答

1.不是
2.1 可以
2.2 有

powtop

2017 年 8 月 29 日

@davy1995 好的，多谢，我在与 CTO 讨论时候，他说目前积累的数据没有任何用处，所以我来问下

cqcn1991

2017 年 8 月 29 日

对的，建议了解一下监督学习的概念
推荐看 andrew ng 的这个视频, https://www.douban.com/note/618193191/
应该算是一个对非专业人士不错的介绍

wzha2008

2017 年 8 月 29 日

对你们没用不一定对比别人没用啊，可以把不敏感的拿出来卖

st2udio

2017 年 8 月 29 日

数据很重要，也许现在没想好怎么用。不过可能以后就有用了。留好。占点硬盘罢了

marenight

2017 年 8 月 29 日 via iPhone

对于第一个问题，你了解一下聚类算法，根据生成的 embedding 计算图片之间的距离，自动分类。

zetary

2017 年 8 月 29 日

还是个学生,不过听说对于大部分 AI 创业公司来说技术都差不多是用论文能读到的那些,最有价值的部分就是数据和人才.数据不是一定要标注,这样会有半监督学习和无监督学习的方法可以用,但是目前最成熟的都是监督学习的.标注数据这件事情,有一段时间众包很火,但是现实中似乎很多大公司不缺钱都是用外包的形式去标注数据.

neosfung

2017 年 8 月 29 日

我举个很取巧的例子吧，如果你们经常登录 Google 或者 Facebook
他们的验证码就是让你填写一些他们扫描书籍中的识别出来但是 confidence 不高的单词，或者点击图片中含有汽车的方格

lightening

2017 年 8 月 29 日

1. 不是，但有人工筛选的数据难度远远低于没有人工筛选
2. 能。有。

TuSDK

2017 年 8 月 30 日

首先并不是经过人工筛选标记的图片才能用来训练，但是难度会降低。之前我们在做实时鉴黄的时候，训练的图片就是经过人工标记的，我们会把涉黄的部位分裸露的等级来进行标记，然后用于机器训练。
其次平常产生的大量数据都是可以拿来训练的，甚至在像我们这样的公司，平常在进行市场活动的时候，产品经理会希望我们能拿回更多的人脸图片，这都是非常宝贵的资料，所以把这些资料都留存下来吧，很有意义！
PS：楼主也可以了解下我们哦，传送门→https://tutucloud.com/docs/face/features