V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  prasanta  ›  全部回复第 2 页 / 共 25 页
回复总数  488
1  2  3  4  5  6  7  8  9  10 ... 25  
2022-03-18 13:26:14 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
哪位大哥在测试黄色网站?别啊
2022-03-18 13:22:13 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tmkook 谢谢分享,刚刚简单浏览了一下源码,部分思路很像!
2022-03-16 13:08:47 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Bravoios 谢谢!希望能收到大家的建议和意见
2022-03-15 15:12:11 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@saimax 修复了
2022-03-15 14:55:30 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@saimax 这个网站监测了 headless 浏览器导致的,这是可以解决的。

是有长期提供服务的打算,不过目前只在 V2EX 和 hackernews 发了两个帖子,想先看看反响。因为 rss 的用户群体还是太小。目前纯 demo 阶段会慢慢修复很多问题。

后面我会把格局改大一点,“自动转 rss” 改为 “自动抽取结构化数据”
2022-03-14 13:29:44 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tfdetang

目前我这个算法最重要的东西是 getComputedStyle. 总的逻辑也是最后生成 xpath.
2022-03-14 08:57:00 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
更新了主页和优化了对英文的兼容
2022-03-13 16:07:09 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@ClarkAbe 对这个东东有什么建议吗?
2022-03-13 14:34:22 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@abersheeran 这不是最后的效果,最后调用端的感知是<100ms 的,因为会直接取缓存
2022-03-13 14:33:06 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@hackpro Demo 确实比较慢,但是最后的逻辑不会是实时解析。最后的方案是,定时解析后写入缓存即可,调用 rss 链接直接从缓存中取数据。
2022-03-13 14:31:55 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Sailwww 和 RSSHub 的区别就是不需要人维护了。
2022-03-13 00:16:41 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Sailwww 文字区块的位置,字体大小粗细长短,作为特征 /etc ,普通分类即可。
2022-03-13 00:15:04 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@xiaozizayang 等我找你沟通一波
2022-03-12 15:54:03 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tfdetang

我也发现了这个问题。
最后也是希望能够从网站和 App 中自动提取结构化信息。如果用传统的分析方法,需要写很多逻辑处理 html ,未来也难以操作 app/doc/pdf 等其他类型的输入

如果我能直接从截图中提取出结构化信息,那么我就不用关心输入是什么了,变成了和人眼一样的提取逻辑.

人眼也是,先分类,看到这个页面是列表 /详情 /评论 /etc ,然后对应不同的类型,去寻找结构化信息的特征,比如价格,那么就寻找字体大点的,红点的,位置靠近商品标题的数字信息(比如这里还直接消除了字体反爬虫的问题)。
2022-03-12 15:26:27 +08:00
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@ptsa 再试试呢 现在用内网穿透做的 demo
@dantangfan 最近才结束的
@tialias

有的,第三个岗位就是
@FlyingDough 后端开发算法要求不高,主要是问题解决能力的编码能力
@AmberJiang 所有岗位都是中高级岗位, 没有特别要求, 随便复制了一份 JD 是满足需求的:

1.计算机相关专业, 大学本科及以上学历,4 年以上工作经验
2.熟练使用 python 开发,有 flask,django,tornado 等 web 框架的实际使用经验
3.有 MySQL/MongoDB/ES/Redis/Kafka/Zookeeper 等组件的使用经验
4.熟悉 linux ,熟练使用 linux 常用命令及 docker 生态体系
@mrtallon 等你!
1  2  3  4  5  6  7  8  9  10 ... 25  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4901 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 07:40 · PVG 15:40 · LAX 00:40 · JFK 03:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.