V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
DongDongXie
V2EX  ›  程序员

怎么把一个大数据集切出一小部分来做实验

  •  
  •   DongDongXie · 2018-01-10 10:22:33 +08:00 · 2100 次点击
    这是一个创建于 2506 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT。 Yelp 官网上面那个数据及太大了,信息比较全,要是全加载的话,机器会卡死,那么怎么样从里面取一小部分数据出来做实验啊,请问怎么做比较靠谱。

    4 条回复    2018-01-10 18:46:20 +08:00
    PythonAnswer
        1
    PythonAnswer  
       2018-01-10 10:25:22 +08:00 via Android
    头 1000 条尾 1000 条
    wayne1027
        2
    wayne1027  
       2018-01-10 10:29:57 +08:00
    随机 100 万
    Morriaty
        3
    Morriaty  
       2018-01-10 13:46:03 +08:00
    如果是和数据分布无关的操作,就随机抽呗,比如 Python 就是 generator 每隔一万行 yield 一个。

    如果是和数据分布有关,比如 1T 文件的排序,那你要有采样的过程。
    likuku
        4
    likuku  
       2018-01-10 18:46:20 +08:00
    head -n XXXX src.data.txt >> test.data.txt
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3344 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:26 · PVG 19:26 · LAX 03:26 · JFK 06:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.