V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  laoyur  ›  全部回复第 198 页 / 共 243 页
回复总数  4859
1 ... 194  195  196  197  198  199  200  201  202  203 ... 243  
估计只能靠 Google 站内了,尽量回想主题关键字 + 你的 id
应该是你回复的那些帖子被移到了某些首页不可见节点导致的吧
执行完 js 后等一会,再拿 page_source 不是最新的?
然而电信手机除非开离线,连手动改都不能?
如果服务端和客户端都是你做的,那你非要这么做当然可以,但是,一般的情况下服务端不是你控制的,
你都不知道服务端支持不支持 gzip ,就直接传了压缩过的数据过去,让人家怎么处理?
还有就是 4 楼提到的安全问题,如果服务端接受压缩过的数据,客户端扔一个 zip 炸弹上来,解压出来几十 G ,服务器处理不好的话岂不嗝儿屁
2016-08-19 09:35:32 +08:00
回复了 cai72738 创建的主题 Python 自动提取网页内容
用 readability
2016-08-19 09:32:38 +08:00
回复了 xiaoyu9527 创建的主题 Python Scrapy 的相关分页怎么写?
直接拿到『下一页』的 url
//a[@title='下一页']/@href
2016-08-19 09:14:36 +08:00
回复了 xiaoyu9527 创建的主题 Python Scrapy 的相关分页怎么写?
@xiaoyu9527 说清楚思路后需要你自己去实现,总不能什么都别人帮你做好吧
再说具体一点,你现在的情况比较简单, url 中不是有 page/2/这种嘛,说明你想爬哪一页,就直接构造对应的 url 就行了,那么最简单的实现,比如你要爬前 1000 页,就为你的 spider.start_urls 插入 一千个 url ,从 page/1/一直到 page/1000/不就完了嘛,你自己在 setting 里面设置好限流频次之类的, Scrapy 会自己逐个去抓
2016-08-19 08:59:08 +08:00
回复了 xiaoyu9527 创建的主题 Python Scrapy 的相关分页怎么写?
期待楼主发 Scrapy 系列教程……

url 已经告诉你真相 http://www.jdlingyu.moe/cosplay/page/2/
解完一页后,直接根据当前 url 构造下一个 request 不就完了嘛,当然,这样不是并发
真要并发的话,你直接根据 url 构造成百上千个 request 扔出去,再加上 delay 、限流控制不就欧了
2016-08-18 19:56:27 +08:00
回复了 zmrenwu 创建的主题 Python Ubuntu 16.04 下如何安装 virtualenv 以及 virtualenvwrapper ?
勘误:
『特别时候需要隔离的独立项目』——特别适合
2016-08-18 19:55:15 +08:00
回复了 zmrenwu 创建的主题 Python Ubuntu 16.04 下如何安装 virtualenv 以及 virtualenvwrapper ?
楼主不是不久前发过一个类似的帖子嘛
我还以为我穿越了

上个帖子中有人已经给你指了条明路,用 pyenv 一个搞定,它自带 virtualenv 插件
pyenv 来管理各种 Python 版本
pyenv 的 virtualenv 插件替代 virtualenv 来建基于各种 Python 版本的虚拟环境,甚至还能为某个目录建立特定的虚拟环境——特别时候需要隔离的独立项目
我也是 Python 初学者,以前也是用 virtualenv ,也是从你上个帖子中才学到的 pyenv ,楼主你真心应该听取人家意见的,直接上 pyenv ,别再折腾那什么 virtualenvwrapper 了
2016-08-18 17:01:33 +08:00
回复了 xiaoyu9527 创建的主题 问与答 xpath 用什么软件能准确抓取?
@xiaoyu9527 那还是建议你去看看 xpath 手册
@href 的意思是 a 的 href 属性啊
2016-08-18 16:32:51 +08:00
回复了 xiaoyu9527 创建的主题 问与答 xpath 用什么软件能准确抓取?
@xiaoyu9527 『如果我复制出来的这种 应该怎么写呢』
没看懂你在问什么, 5 楼已经说了,同一个元素的 xpath 有 N 种写法,你要测试自己写的对不对,直接在 Elements tab 下按 Ctrl + F 搜索,然后输入你自己写的就行了
2016-08-18 12:26:57 +08:00
回复了 rushcheyo 创建的主题 macOS Homebrew 这几天都没有更新吗?
见鬼了,为毛楼主的头像在外面列表跟这个帖内长得不一样

https://ooo.0o0.ooo/2016/08/17/57b53910ae863.png
https://ooo.0o0.ooo/2016/08/17/57b53910c2804.png
索尼也就那样

1. wifi 经常无故掉线,掉了之后也没法重连,是直接扫描都扫不到那种,它没给关闭 wifi 的选项,如果给了倒好办,关掉再开估计就能扫到,所以碰到这种情况,只能特么重启
2. wifi 输密码的框,输入之后没办法用遥控器点确定,刚买回来时候的系统版本是可以的,不知道从哪个版本更新后就成这鬼样了,妈的,我好几次都要接个 usb 鼠标才能搞定
3. 跟悟空遥控之类的兼容性不好,比如调节音量,悟空上面调一格,电视一下跑 14 格音量
4. Ram 不足,卡卡卡
5. 遇到好几次死机了,开不出来,要拔电源重插才行。我就装了几个电视 app ,没用各种电视管家
6. 待补充
第一次在 v 站看到 ref 帖如此受人欢迎......
好吧,我用 24 楼的注册成功了,也来接力一下
https://console.hyper.sh/register/invite/7m79exazMrh8pL0zWEGdu43QNax4B5h0
2016-08-12 12:02:25 +08:00
回复了 xiaoyu9527 创建的主题 Python 继续请教 scrapy 的问题。
抱歉,一楼记错了,我把你当成另外一个站友了,因为经常看见他在 Python 节点发帖
2016-08-12 11:59:26 +08:00
回复了 xiaoyu9527 创建的主题 Python 继续请教 scrapy 的问题。
楼主一人撑起了 Python 节点的半壁江山……

好吧,我也是 Python 新人 :)
Scrapy 我也学不久

parse 中,如果 return/yield 出来一个 Request ,那就加入调度器中,等候处理;如果 return/yield 出来一个 item ,那就进 pipelines ,你可以在 pipelines 里面自己对 item 进行处理,进数据库或者啥的。
所以你的问题有点模糊,『输出』到底是什么鬼?自己在 pipelines 中打 log ,或者直接在 parse_item 里面 log ,不都可以吗?
无所谓了,你怎么念都不会算你错的,就如同密钥,念『蜜月』还是『密药』( v 站还有人说一直念成密匙,偷笑); Python 念『拍森』还是『拍耸』(当然,之前看一个站友发的视频中,念成『拍 fong 』就有点诡秘了,也许是 /thon/念成了 /hon/,然后 h 跟 f 不分,就成了 /fon/)
最后借用某位站友的话:飞机图标,我只认 ss 和 telegram ……
1 ... 194  195  196  197  198  199  200  201  202  203 ... 243  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1015 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 53ms · UTC 21:38 · PVG 05:38 · LAX 13:38 · JFK 16:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.