1
lichao 2022-11-23 09:57:06 +08:00
建议做一个 Sitemap 给它
|
3
QKgf555H87Fp0cth 2022-11-23 10:06:42 +08:00
从最新的爬,没毛病。不过他没有检测内容,因为你随机输出一些东西,只要不是 404 ,他就保存了。建议返回 404 。
|
4
qqjt 2022-11-23 10:32:57 +08:00
无内容页得返回 http 404 啊
|
5
slime7 2022-11-23 11:29:44 +08:00
看楼上说返回 404 ,我问一下前后端分离的页面怎么优雅返回 404 状态?
|
6
Masterlxj 2022-11-23 11:31:18 +08:00
你给它个 robots 不就好了么
|
7
westoy 2022-11-23 11:45:08 +08:00
蜘蛛不会穷举的
这是被伪装成 google 爬虫的给定向采集了 |
8
Charrlles 2022-11-23 13:04:41 +08:00 via iPhone
10000 页显示成软 404 ,加上 noindex 就可以了吧,或者直接重定向到 404 页面
|
10
locoz 2022-11-23 13:15:42 +08:00 1
@westoy #7 注意看人家说的啊,“然后 search console 那给我告警说收录了上千页 bad page”,都在 Google 自己的地方提示了怎么可能还是假 Google...
|
11
lFOqSK OP @westoy 但是谷歌的 search console 上是显示是它自己爬的。它现在已经穷举了 5000 多页了。爬取结果都是 Duplicate without user-selected canonical 。然后最神奇最离谱的地方在于,理论上来说它应该告诉我它是从哪里知道我这个网址所以才来爬的。但是这些页面的 Referring page 全部都是页面自己。比如 ?page=10000 的 Referring page 就是 ?page=10000 ,一模一样一字不差。
我从来没见过这么离谱的事情……如果不是因为这个 Referring page 全部都是页面自己,我还真不会怀疑到谷歌的爬虫逻辑上…… |
13
terranboy 2022-11-23 13:26:16 +08:00
SSR 了没 不然爬啥
|
14
lFOqSK OP @qqjt
@Charrlles 谷歌是判定我的这些页面为软 404 ( Duplicate without user-selected canonical )的。但是我纠结的地方在于,它浪费太多时间在穷举我的这些页码上面了。而我每页的内容,就是那些文章链接什么的,它只爬了很小一部分。而且它这个穷举目前根本没有停下来的意思。 目前,正经内容它只爬了 800 页左右,而这些穷举的 404 页面它爬了 5000 页了。而且我不知道它这样是在干嘛,如果爬完 10000 以内的页面,它是不是还回去爬大于 10000 的页面?因为谷歌对每个网站的爬取是有每日频次限制的,它这样浪费时间穷举,以前一个月就可以索引完整个网站,现在都过去半个月了,正经的内容才 800 页。整个网站爬完估计要花一年时间…… |
15
lFOqSK OP @terranboy 我看它的 Crawled page 记录里显示的 html 是有把我特地给它准备的文章页和翻页隐藏超链接都渲染出来的,而且它确实有跟着这些超链接去爬我的文章页。所以我目前还没做 SSR 。之后研究下考虑弄一下 SSR 。
但是主要是它这个莫名其妙去穷举我没给过的页码的行为,太浪费时间了…… |
17
yazoox 2022-11-23 14:36:22 +08:00
楼主,怎么看 goolg 爬你的网站这些明细详细信息的?
|
20
blankmiss 2022-11-23 15:15:23 +08:00
爬虫有自己的想法 哈哈哈
|