V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wsb200514
V2EX  ›  Django

用 Django 创建的第一个网站+scrapy 写的爬虫

  •  
  •   wsb200514 · 2015-09-22 10:29:45 +08:00 · 12568 次点击
    这是一个创建于 3345 天前的主题,其中的信息可能已经有所发展或是发生改变。
    花了将近 2 周的时间:(1)用 django 搭了网站(2)用 scrapy 写了几十个爬虫。
    目前看来可以正常使用了。
    起初,是因为自己有每天浏览 36Kr 等科技博客、还有些技术帖子的习惯,之前一直用推酷,里面很全面,但还是想根据自己的喜好定制一个。所以如果正好也是你需要的话,倍感欣慰。
    网站叫三四秒: www.34miao.com
    谢谢。
    67 条回复    2015-10-09 16:36:35 +08:00
    fange01
        1
    fange01  
       2015-09-22 10:33:25 +08:00
    design 图挂错位?
    kepenj
        2
    kepenj  
       2015-09-22 11:08:54 +08:00
    赞一个
    jwenwang
        3
    jwenwang  
       2015-09-22 11:12:54 +08:00
    挺简洁的,可以分享到 NEXT 上来:)
    hjkl0001
        4
    hjkl0001  
       2015-09-22 11:13:59 +08:00
    感觉不错。。。
    wsb200514
        5
    wsb200514  
    OP
       2015-09-22 11:16:21 +08:00
    @jwenwang 我 products 频道聚合了 next,product hunt 这些产品信息,所以不知道发 next 会不会被 next 鄙视或者删掉啊?哈哈
    wsb200514
        6
    wsb200514  
    OP
       2015-09-22 11:16:40 +08:00
    @hjkl0001 谢谢^_^
    wsb200514
        7
    wsb200514  
    OP
       2015-09-22 11:16:56 +08:00
    @kepenj 谢谢哈
    wsb200514
        8
    wsb200514  
    OP
       2015-09-22 11:20:37 +08:00
    @fange01 谢谢指正。
    您是指有几张图加载不出来么? xueui.cn 站点做了图片防盗链的措施,可以虽然爬到图片但是在浏览器里还是没法直接打开,除非在其他选项卡中先打开他们的站点,然后欺骗浏览器才能刷出来。
    如果不是这个问题的话,请问一下您是用什么浏览器访问的,我也用试一下看看到底什么问题?我兼容性做的不是很好啊,请见谅,嘿嘿
    jwenwang
        9
    jwenwang  
       2015-09-22 11:21:26 +08:00
    @wsb200514 没事的呀,我就是审核的哈哈
    wsb200514
        10
    wsb200514  
    OP
       2015-09-22 11:24:00 +08:00
    @jwenwang 大神啊,那我赶紧发去,吼吼
    XianZaiZhuCe
        11
    XianZaiZhuCe  
       2015-09-22 11:37:53 +08:00
    我想知道内容是你自己有选择的放上去的,还是直接抓的某些频道?
    jwenwang
        12
    jwenwang  
       2015-09-22 11:52:49 +08:00
    @wsb200514 搞定哈哈
    wsb200514
        13
    wsb200514  
    OP
       2015-09-22 11:53:13 +08:00
    @XianZaiZhuCe 只是自己选择了一些抓取的网站,然后抓取到的内容会全部展示出来不做筛选。如果抓取了内容,再对内容做筛选有选择的展示,那对个人项目而言有点太累了。
    以后计划会加入一些其他功能,但针对信息维护这一块还是不想人工干预。所以其实网站抓取的信息质量只能取决于抓取的网站质量,所以前期只是筛选了一些自己浏览比较频繁的网站,质量有些保证。
    ps. iOS 版本已经被拒了好多次了,目前已再一次提交审核中,希望这一次能没什么问题。
    wsb200514
        14
    wsb200514  
    OP
       2015-09-22 11:54:46 +08:00
    @jwenwang 嗯,已经展示出来了。多谢,真幸运啊,第一次在 V2EX 和真神对话,嘿嘿
    jwenwang
        15
    jwenwang  
       2015-09-22 11:57:04 +08:00
    @wsb200514 别。。。都是普通人
    XianZaiZhuCe
        16
    XianZaiZhuCe  
       2015-09-22 13:17:46 +08:00
    @wsb200514 哦~ 我就是觉得很多网站内容质量挺差的,偶尔会有不错的。所以我比较少看。相对来说 看个人博客多点。
    shulen
        17
    shulen  
       2015-09-22 14:04:27 +08:00
    厉害,
    Wangxf
        18
    Wangxf  
       2015-09-22 14:07:57 +08:00
    厉害
    wsb200514
        19
    wsb200514  
    OP
       2015-09-22 14:27:22 +08:00
    @XianZaiZhuCe 是的,相比而言,个人博客质量高一点,网站发展大了新闻稿鸡汤文浅尝则止的文章就泛滥了。开发的那个版块收了一些 iOS 开发的个人博客,比如唐巧、 kitten yang ,南峰子,其他资讯类的不太清楚国内有哪些质量高的个人博客,所以……目前只能做到这么多。嘿嘿
    wsb200514
        20
    wsb200514  
    OP
       2015-09-22 14:29:43 +08:00
    @shulen @Wangxf 我也是刚入门啊,希望各大牛多携带携带,加快进步,嘿嘿……
    boro
        21
    boro  
       2015-09-22 14:36:09 +08:00
    强!
    wsb200514
        22
    wsb200514  
    OP
       2015-09-22 14:50:04 +08:00
    @boro 嘿嘿,谢谢哈
    hanfeng3015
        23
    hanfeng3015  
       2015-09-22 15:26:53 +08:00
    不错哦~
    wsb200514
        24
    wsb200514  
    OP
       2015-09-22 17:01:28 +08:00
    @hanfeng3015 嘿嘿,刚完成,比较粗糙,还得继续完善和努力,多谢多谢
    yield9tk
        25
    yield9tk  
       2015-09-22 17:04:19 +08:00
    源码何在?
    fyibmsd
        26
    fyibmsd  
       2015-09-22 17:30:08 +08:00
    能分享源码么
    Mellcap
        27
    Mellcap  
       2015-09-22 17:39:24 +08:00
    学 ing, 希望也可以像你一样做出自己的网站.
    situs
        28
    situs  
       2015-09-22 17:42:08 +08:00
    您这个前端是什么框架???
    wsb200514
        29
    wsb200514  
    OP
       2015-09-22 20:38:59 +08:00
    @fange01 图片位置下移 BUG 已解决。发现是在 chrome 上的问题, chrome 默认小于 12px 的字体都是 12px ,所以导致占据位置比设想的要大,把图片挤到下面去了。十分感谢提醒,嘿嘿
    wsb200514
        30
    wsb200514  
    OP
       2015-09-22 20:42:13 +08:00
    @situs 没有用框架 ,你也可以看出来,其实页面布局不复杂的,最上面菜单和最下面 footer 都是固定的,中间的内容因为布局都是类似的,所以很简单。所以就是自己想了下布局之后手撕了几行 html+css 代码,再用了一点点的 juqery 就够了。嘿嘿,框架太重,我这个小站点用的话的话有点大材小用了,哈哈
    wsb200514
        31
    wsb200514  
    OP
       2015-09-22 20:45:05 +08:00
    @yield9tk @fyibmsd 源码过一阵子再考虑分享出来,目前有 BUG ,现在就放出来有点对不起人民群众哈,待我再完善完善的,欢迎指教交流,谢谢哈
    88250
        32
    88250  
       2015-09-22 20:51:22 +08:00
    楼主,我能从你这里再爬数据么,哈哈~
    lizhiqing1996
        33
    lizhiqing1996  
       2015-09-22 21:11:15 +08:00
    然而 design 板块我看起来图片位置还是不对
    miaozaiye
        34
    miaozaiye  
       2015-09-22 22:07:19 +08:00 via iPhone
    作品不错呀!来我们客栈注册一个吧:)
    junnplus
        35
    junnplus  
       2015-09-22 22:50:46 +08:00
    Tink
        36
    Tink  
       2015-09-22 22:53:36 +08:00
    这个 logo 还是挺好看的
    LXVC
        37
    LXVC  
       2015-09-23 00:19:58 +08:00
    @wsb200514 分享源码的时候请告诉我声
    wsb200514
        38
    wsb200514  
    OP
       2015-09-23 07:11:30 +08:00
    @Tink 谢谢,嘿嘿
    wsb200514
        39
    wsb200514  
    OP
       2015-09-23 07:11:42 +08:00
    @LXVC OK
    wsb200514
        40
    wsb200514  
    OP
       2015-09-23 07:12:55 +08:00
    @lizhiqing1996 多谢提醒,请问一下您是用什么浏览器打开的?我再调试一下……
    wsb200514
        41
    wsb200514  
    OP
       2015-09-23 07:14:53 +08:00
    @88250 哈哈,这个……爬得时候温柔点就行啊,因为几十块钱的服务器经不住啊,你懂得……哈哈
    wsb200514
        42
    wsb200514  
    OP
       2015-09-23 07:23:13 +08:00
    @miaozaiye 多谢,已注册~~
    lijiacong0702
        43
    lijiacong0702  
       2015-09-23 09:13:03 +08:00
    厉害,赞一个
    lizhiqing1996
        44
    lizhiqing1996  
       2015-09-23 09:41:19 +08:00
    @wsb200514 Win8.1 + chrome
    wsb200514
        45
    wsb200514  
    OP
       2015-09-23 11:02:11 +08:00
    @lizhiqing1996 请问一下具体是什么问题啊?方便的话可以截图给我吗?我邮箱是: [email protected] ,万分感谢~~~
    wsb200514
        46
    wsb200514  
    OP
       2015-09-23 12:33:20 +08:00
    @lizhiqing1996 我在 win7+chrome 45.0 和 win10+chrome 45.0 上试了没有问题。估计问题出在 win8 上。可是我木有安装 win8 的机子啊,难道虚拟机走起么~~感叹 web 前端的同学不容易啊,现在不仅要兼容浏览器版本,还要兼容系统版本了啊,逆天了喂。我回头改改,应该还是 chrome 特殊默认字体的原因,想个替代方案。多谢了啊
    wsb200514
        47
    wsb200514  
    OP
       2015-09-23 13:25:29 +08:00
    @lizhiqing1996 刚对 development 那边也做了点修改,您再清除一下缓存后再试一下看看。有可能不是 win8 的问题,不知道是不是缓存的问题。
    lizhiqing1996
        48
    lizhiqing1996  
       2015-09-23 16:30:51 +08:00
    @wsb200514 Development 好了,但是 Design 还是不行,我试着用 F12 把图片的宽度改成 198px ,结果就正常了,
    wsb200514
        49
    wsb200514  
    OP
       2015-09-23 16:35:35 +08:00 via iPhone
    @lizhiqing1996 OK 。我再改改哈
    gulullu
        50
    gulullu  
       2015-09-23 17:20:39 +08:00
    logo 不是高清图,差评
    codercai
        51
    codercai  
       2015-09-23 18:34:05 +08:00
    想用 django 搭个博客,但是没有前端基础,估计比较吃力。楼主有什么建议没有呀
    raikecody
        52
    raikecody  
       2015-09-23 18:41:28 +08:00
    期待开源中
    wsb200514
        53
    wsb200514  
    OP
       2015-09-23 20:47:49 +08:00
    @codercai 前端学深了比较难,但是入门还是很快的, html+css 学一个星期就可以上手做简单的项目, js 和 jquery 估计半个月就可以做简单的效果了。没有你想的那么难。都是先入了门再说,然后就是不断做项目实践的时候一边被虐一边成长。加油
    wsb200514
        54
    wsb200514  
    OP
       2015-09-23 20:49:18 +08:00
    @gulullu 我自己连半个业余美工都算不上,所以效果你懂的,请见谅啊,哈哈
    wsb200514
        55
    wsb200514  
    OP
       2015-09-24 12:35:33 +08:00
    @lizhiqing1996 design 页面做了修改,放弃上下居中的排版,采用固定高度,自动缩放宽度,多余宽度自动隐藏,宽度不够图片就左右居中。您再清除缓存后试一下。多谢耐心地指教~~~
    tim520
        56
    tim520  
       2015-09-24 13:28:54 +08:00
    很牛逼啊,请问用 scrapy 爬虫新浪、网易的新闻容易吗?
    robotdiy
        57
    robotdiy  
       2015-09-24 15:07:01 +08:00
    这个设计,很喜欢。
    lizhiqing1996
        58
    lizhiqing1996  
       2015-09-24 20:54:40 +08:00
    @wsb200514 已经完美显示。指教算不上,我还是个菜鸟
    wsb200514
        59
    wsb200514  
    OP
       2015-09-24 21:10:27 +08:00
    @tim520 一般来说都是可以的,只是控制好频率,不要给对方服务器增加压力即可。方便自己也给她们带流量,大家和谐共存嘛,哈哈
    wsb200514
        60
    wsb200514  
    OP
       2015-09-24 21:12:33 +08:00
    @robotdiy 谢谢,因为不懂设计,所以一切从简变成这样了,只要能方便阅读就行~~~嘿嘿
    xiaozhu5
        61
    xiaozhu5  
       2015-09-28 22:28:59 +08:00
    虽然是简单了点,不过挺不错的
    lazyboy
        62
    lazyboy  
       2015-10-04 11:41:31 +08:00
    http://jikeyuedu.com/

    感觉我的更简单,初学者,用 flask+requestss 做的。
    lazyboy
        63
    lazyboy  
       2015-10-04 11:43:58 +08:00
    @88250 这个想法不错,哈哈,直接在这里爬取数据
    lazyboy
        64
    lazyboy  
       2015-10-04 11:46:23 +08:00
    建议来个手机端适配,响应式设计
    wsb200514
        65
    wsb200514  
    OP
       2015-10-05 20:52:42 +08:00
    @lazyboy 一开始没打算做响应式设计,因为开发了 iOS app 。但是 iOS app 审核没过,已无希望上架。后续再考虑响应式吧。
    agnewee
        66
    agnewee  
       2015-10-06 01:06:28 +08:00
    赞一个!
    Mess1ah
        67
    Mess1ah  
       2015-10-09 16:36:35 +08:00
    楼主大大什么时候考虑开源=-=想学习下~~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5582 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 06:51 · PVG 14:51 · LAX 22:51 · JFK 01:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.