这是一个创建于 3062 天前的主题,其中的信息可能已经有所发展或是发生改变。
岗位职责:
1 、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析,按要求抓取金融数据;
2 、负责网页信息 /APP 数据抽取、数据清洗、数据消重等研发和优化工作,包括爬虫、调度、信息提取、信息存储等,提升平台的抓取效率;
3 、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;
4 、实时监控爬虫的进度和警报反馈;
任职要求:
1 、熟悉 Linux 系统,熟悉 Java 或者 Python ;
2 、熟悉网页抓取原理及技术,熟悉基于正则表达式、 XPath 、 CSS 等网页信息抽取技术,熟悉基于 Cookie 的登录原理;
3 、熟悉 APP 模拟及接口验签破解技术,熟悉 APP 用户授权访问机制及模拟;
4 、熟悉多线程、多进程、网络通信编程相关知识;
5 、熟悉 Selenium 优先,熟悉 APP 破解技术优先。
6 、有分布式爬虫架构,数据挖掘经验优先。
7 、对数据敏感,做过数据处理相关工作者优先,做过 ETL 工作者优先;
7 条回复 • 2016-11-22 14:44:14 +08:00
 |
|
1
sofasky 2016-11-16 18:47:19 +08:00
有没有意向的欢迎加 QQ : 1258083995 细聊
工作地点北京三元桥
|
 |
|
2
tumbzzc 2016-11-16 18:59:33 +08:00
我觉得我可以试一番
|
 |
|
3
sofasky 2016-11-16 19:03:50 +08:00
|
 |
|
6
linuxzpf 2016-11-16 22:18:28 +08:00 via Android
瞄了两眼,岗位职责就是我现在工作的一部分,我是爬取各大 P2P 平台的数据,实时同步,互联网金融。
|