V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
inksong
V2EX  ›  Python

我有个紧急的一次性扫描项目需要外包,有人可以接私活吗?项目需求很紧,工作量不大。

  •  
  •   inksong · 2018-04-22 11:11:39 +08:00 · 6908 次点击
    这是一个创建于 2436 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我有 3500 个网站的顶级域名,现在需要获取每个 website 内的全部子 url,并爬取子 url 内的 html 文字信息。

    举例来说,以 www.giftofwings.com 为例子: 得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url,注意这里不要.js 和.css 等,只要页面。 拿到这个 list 后在做一个简单的 html 爬取,最后提交的是这些 html 的源码,只要文字信息,不爬任何多媒体,所以应该比较快。

    详讯麻花腾:腰腰霸腰霸叁叁玲叁伍 null。

    22 条回复    2018-04-23 18:50:18 +08:00
    hourann
        1
    hourann  
       2018-04-22 11:44:36 +08:00 via iPhone
    没法保证爬干净吧?
    zuoakang
        2
    zuoakang  
       2018-04-22 12:02:54 +08:00
    上价格呗
    xgzxy
        3
    xgzxy  
       2018-04-22 12:03:14 +08:00
    @inksong 你做过爬虫吗?
    Leigg
        4
    Leigg  
       2018-04-22 12:06:24 +08:00 via iPhone
    腰霸好评
    gdtv
        5
    gdtv  
       2018-04-22 12:59:30 +08:00
    假如这 3 千多个网站没有任何防爬虫措施,并且这 3 千多个网站服务器性能扛得住爬虫,那么的确挺简单的。
    sunsh2017
        6
    sunsh2017  
       2018-04-22 13:03:42 +08:00
    报价格。
    KKKKKK
        7
    KKKKKK  
       2018-04-22 13:35:57 +08:00 via iPhone   ❤️ 1
    我的需求只有一个,news.qq.com ,只爬文字,不需要多媒体,应该挺简单的,所以比较快。急
    exalex
        8
    exalex  
       2018-04-22 13:38:02 +08:00   ❤️ 1
    急 预算 200 块 需求很简单 最多几小时的事情。

    楼主大概就这意思
    exalex
        9
    exalex  
       2018-04-22 13:40:04 +08:00   ❤️ 7
    有个不是很紧急的少量页面的项目需要外包,有人可以接私活吗?项目需求不算很紧,工作量很小。
    inksong • 53 天前

    我有个紧急的一次性 mapreduce 项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。
    inksong • 80 天前

    我有个紧急的一次性爬虫项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。
    inksong • 88 天前

    戏精?已 block
    murmur
        10
    murmur  
       2018-04-22 13:49:26 +08:00
    @exalex 工作量很小
    厉害厉害
    wenzhoou
        11
    wenzhoou  
       2018-04-22 15:52:47 +08:00 via Android
    这是在测试自己的自动灌水机啊。
    stzz
        12
    stzz  
       2018-04-22 16:56:02 +08:00 via Android
    好奇这人干嘛的…
    jingrui
        13
    jingrui  
       2018-04-22 18:26:20 +08:00 via iPhone
    15w,3 天,还有惊喜,愿意私信
    summerwar
        14
    summerwar  
       2018-04-22 18:39:52 +08:00
    标题中,倒数第二句和倒数第一句内容冲突
    zwzmzd
        15
    zwzmzd  
       2018-04-22 18:50:57 +08:00 via iPhone
    @stzz 不出意料就是贩子,淘宝上接了单,转包给 v 友
    missdeer
        16
    missdeer  
       2018-04-22 18:54:55 +08:00 via Android
    @stzz
    @zwzmzd
    估计就是外包中介,赚中间差价
    huluhulu
        17
    huluhulu  
       2018-04-22 20:44:29 +08:00 via iPhone
    我正好有全套代码……只需要输入域名即可,10 万,2 天
    imkerberos
        18
    imkerberos  
       2018-04-22 21:18:09 +08:00
    我正好有全套写好的代码. 连 SERVER + Browser 界面. 10 万, 同楼上 2 天.
    DeWhite
        19
    DeWhite  
       2018-04-22 21:48:08 +08:00
    楼上这个价格合理
    Leigg
        20
    Leigg  
       2018-04-23 08:22:02 +08:00
    @exalex 我联系了他,说价格上 k,估计被吓到了,直接不理人了。。我也是醉了,自称一个博士给人干活,就这尿性。。
    PythonAnswer
        21
    PythonAnswer  
       2018-04-23 09:24:45 +08:00 via iPhone
    看来要价不能超过 200
    winglight2016
        22
    winglight2016  
       2018-04-23 18:50:18 +08:00
    @Leigg 很正常了,之前也是碰到一单,同样是爬网站,报价 500,我说我这里是现成的代码,还带个 GUI 管理界面,2k,然后就没消息了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2560 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:06 · PVG 12:06 · LAX 20:06 · JFK 23:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.