V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Glink
V2EX  ›  Python

请教个 shell or Python 问题

  •  
  •   Glink · 2017-12-11 21:32:38 +08:00 · 2479 次点击
    这是一个创建于 2531 天前的主题,其中的信息可能已经有所发展或是发生改变。
    例如有个文本文件格式如下(带空格):
    aaa bbb ccc
    判断 aaa 是否满足条件,如果满足条件,再判断 bbb,bbb 满足条件再判断 ccc,
    aaa 大概有几十个条件,bbb 大概几百个,ccc 也大概几百个。这种方式怎么写合适,浪费各位大佬几分钟的时间,给个大概的方向,不甚感激,谢谢
    11 条回复    2017-12-12 20:14:44 +08:00
    johnsonqrr
        1
    johnsonqrr  
       2017-12-11 21:45:50 +08:00
    抛砖引玉,第一想法是用正则的 re.compile 来描述你的“条件”?
    为 a 建立一个 rule_list_a = [condition1, condition2...condition 几十],b 和 c 以此类推。
    然后写一个 def suit(string, rule_list) 遍历 rule_list,执行 re.match,返回一个 bool。
    外层主函数就用 if suit(a, rule_list_a) and suit(b, rule_list_b) and suit(c, rule_c),只要按照顺序写,就能实现先后逻辑。
    Glink
        2
    Glink  
    OP
       2017-12-11 21:50:49 +08:00
    @johnsonqrr 非常感谢
    inflationaaron
        3
    inflationaaron  
       2017-12-12 04:31:19 +08:00
    这我一般直接写 awk 脚本
    billgreen1
        4
    billgreen1  
       2017-12-12 07:54:07 +08:00
    如果数据是表格格式的,可以用 pandas 读取一下,对每个元素都判断一下,然后按行返回每行第一个为 True 的
    比如对于第 i 行,A 列 False,B 列 False,C 列 TRUE,你可以返回位置 2,也可以返回列名称。
    Glink
        5
    Glink  
    OP
       2017-12-12 08:46:47 +08:00
    @inflationaaron 用 awk 会很麻烦吧
    Glink
        6
    Glink  
    OP
       2017-12-12 08:47:15 +08:00
    @billgreen1 感谢,我试试看
    araraloren
        7
    araraloren  
       2017-12-12 09:07:00 +08:00
    In Perl6, you can use junction:

    say so "aaa" ~~ [aaa, bbb, ccc].all;
    zhangysh1995
        8
    zhangysh1995  
       2017-12-12 11:53:09 +08:00
    比较关心你的数据是什么形式的,两行之间什么关系,列之间是什么关系?如果是类似于 dict 这种有属性的可以考虑 Pandas ;如果是数据表的话直接数据库 SQL 会更好一些
    kiwi95
        9
    kiwi95  
       2017-12-12 13:09:22 +08:00
    几十个几百个条件,还有组合,我觉得第一件事是确定条件是否可以简化,现实中很少有这样几百个条件组合不能简化的场景吧
    omph
        10
    omph  
       2017-12-12 15:26:31 +08:00
    abc 三者的形式,和条件的内容,决定了用什么工具最合适,能不能快速搞定
    zyhao
        11
    zyhao  
       2017-12-12 20:14:44 +08:00   ❤️ 1
    想到一种 python 的做法,先将文本存入 list 中
    file_list = [ [1,2,3], [4,5,6] ]

    使用 filter 过滤,比如过滤掉第一列等于 1 的
    filter(lambda x: x[0] != 1, file_list)

    依次这么添加你的条件
    如果数据量很大还可以写成 map-reduce 程序,在集群上运行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2877 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:43 · PVG 16:43 · LAX 00:43 · JFK 03:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.