已经会 requests,bs4,xpath,框架还不太熟,但 scrapy 也简单用过。 前几天爬了一个漫画站,http://www.shenmanhua.com/douluodalu/597.html 我需要的一段字符串,百度了下,说是没有解密的字符串。。 求接下来的学习路径,是学习 js 吗。(我现在连 python 都还是半吊子,也没有太多精力去学另一个编程语言啊。)
var mh_info = {imgpath: "J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L"
1
F1024 2018-04-04 21:48:51 +08:00
http://mhpic.manhualang.com/comic/D/斗罗大陆拆分版 /597 话 /1.jpg-smh.middle
http://mhpic.manhualang.com/comic/D/斗罗大陆拆分版 /597 话 /2.jpg-smh.middle http://mhpic.manhualang.com/comic/D/斗罗大陆拆分版 /1 话 /1.jpg-smh.middle http://mhpic.manhualang.com/comic/D/斗罗大陆拆分版 /1 话 /2.jpg-smh.middle 遍历吧。。。。。 |
2
SingeeKing 2018-04-04 22:12:56 +08:00
request_html 然后让它渲染 js 解密
|
4
huluhulu 2018-04-04 22:45:29 +08:00 via iPhone
pyv8 直接运行 js 得到结果,看看变量是啥就行了。
之前爬 smzdm 跳转链接居然还是混淆的,也是直接算出来的。 |
5
wjm2038 2018-04-04 22:50:54 +08:00 via Android
找 js 里调用 mhinfo 的地方,一定有解密方法的,找到之后直接拷贝下来本地 nodejs 搞就行
|
6
qsnow6 2018-04-04 22:56:07 +08:00
常见的加密方法 RSA、MD5、BASE64、urlcode、urlencode 都可以 看看
|
7
manzhiyong 2018-04-04 23:05:06 +08:00
selenium 了解一下
|
8
lozzow 2018-04-05 00:42:33 +08:00
推荐使用 request_html,好用的一批
|
9
Trim21 2018-04-05 01:36:49 +08:00
原来还会慢慢找加密方式,现在懒了直接用 selenium 跑结果了
|
10
locoz 2018-04-05 04:12:34 +08:00 via Android
全局搜索是个好东西,pyexecjs 也是个好东西,两者结合起来就是找到解密部分直接用 python 调用。。
|
11
emric 2018-04-05 05:40:46 +08:00 3
|
12
sunwei0325 2018-04-05 09:09:17 +08:00
request_html 加载 js 底层是用 pyppeteer, 可以了解一下
|
14
fiht 2018-04-05 09:26:31 +08:00
个人觉得,爬虫的发展方向应该是写越来越稳固,设计能够多机运行,部署简单,数据承载量大的爬虫。
死扣 JS 上升太慢了。MongoDB Hadoop Hbase Redis MQ 这种东西都可以了解了解。 DebugJS 真的费脑子,而且前景有限不方便以后转行。 |
15
dengshuang OP @F1024 这只能遍历一种漫画,每一种漫画都是不一样的
|
16
dengshuang OP @locoz 萌详细的说说吗?全局搜索
|
17
abcbuzhiming 2018-04-05 11:06:49 +08:00
说真的,除非你打算 JS 专精,否则真没必要去研究 JS 破解,这是一条逆向的道路,本身天赋和思路就和搞开发的不一样。再说了,再牛逼的 JS 加密你还不是要进浏览器,我上浏览器内核给你跑一遍,,什么结果不都出来了,无非就是慢一点,可能搜索引擎要求速度特快这个性能无法接受,但是我们自己的爬虫需要这么高的性能吗?
|
18
wizardforcel 2018-04-06 13:03:07 +08:00 via Android
@abcbuzhiming 爬虫不走逆向的道路就是等死,你连分内的事情都搞不定。
|
20
yamiedie 2018-04-06 23:57:01 +08:00
@wizardforcel 虽然爬虫不能做一辈子,但是也肯定要找好以后的出路...
|
21
locoz 2018-04-07 03:04:21 +08:00
@fiht #14 个人认为爬虫是有两个发展方向的,而且都很极端,区别很大。
一个是广撒网型的,就是你说的这种,问题在于碰到反爬的平台没办法,只能靠其他平台补充。 另一个是精准打击型的,主要是逆向、针对某一个平台的反爬去破解。 |
22
locoz 2018-04-07 03:07:35 +08:00
@dengshuang #16 打开浏览器的开发者工具,按 ctrl+shift+f ( Chrome-Windows 下),简单难度的 js 直接搜加密参数名就能找到加密函数。
|