V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sjmcefc2  ›  全部回复第 35 页 / 共 42 页
回复总数  827
1 ... 27  28  29  30  31  32  33  34  35  36 ... 42  
2018 年 8 月 7 日
回复了 sjmcefc2 创建的主题 程序员 如何搭建一个数据分析平台?
@xderam redash 收费啊。
2018 年 8 月 7 日
回复了 sjmcefc2 创建的主题 程序员 如何搭建一个数据分析平台?
@nullen 不多,几个 T,目前。目前用数据库存储。具体有好用工具吗?
@txydl 谢谢。不用云。
2018 年 7 月 28 日
回复了 sjmcefc2 创建的主题 程序员 有没有比较好的网盘搜索工具?
@twitch panc 貌似搜的比较多一些。
2018 年 7 月 28 日
回复了 sjmcefc2 创建的主题 程序员 有没有比较好的网盘搜索工具?
@twitch 怎么才能好用起来呢
2018 年 7 月 27 日
回复了 sjmcefc2 创建的主题 程序员 有没有比较好的网盘搜索工具?
@Caryatid 好吧,还真不是搜视频
@greatbody 好多不是种子,想搜索暂时的分享。
@luzhongqiu 不知道每个文件有多少行啊,迭代器我再学习下。

@necomancer 非常感谢。不过我这个是个 txt,要按照行来读取。

@huahuajun9527 这个太棒了我,试一下。
另外大家都怎么找到这些常用的模块,而不用自己封装一个呢?当然,高手,封装一个也是一秒钟的事儿。现成的模块对我这种外行来说,如何找到呢?
@wwwyiqiao 觉得还是站在各位巨人肩膀上更好。
@noqwerty 非常感谢。请教如何才能找到自己需要的轮子呢。这个太棒了。
@bbbai 能分享一下代码吗?机器配置如何?
@hustlibraco 很棒的思路啊。就是不知道如何校验数据,如何把能批量导入的弄出来,把不能批量的有错误数据弄出来。一个文件分成两个?
@limbo0 貌似这样的话,很难用 python 程序自动处理啊,数据可能只有一条错,也可能整个文件都错了。
@q2683252 另外这个单机 50w/s 是从哪里得出的数据?一直不知道怎么衡量性能。
我用的是 psycopg2 这个包,copy,但是没有返回任何信息让我比较苦恼。不知道哪里 copy 错了。不知道大家都怎么处理这种情况。
@q2683252 部分是编码问题;比如数据库要求所有数据是 gbk,而某条数据的几个字段是其他乱七八糟的编码拼凑的;或者是数据库设计时候类型是 int,在数据这边就变成了其他的;总之,就是体现为 insert 失败,copy 失败等等;错误条目数量不确定,有的吧可能也就一条,有的可能整个文件都乱了。

现在纠结在于如何快速导入,如何还能挑出(最好自动)不能导入的数据。
现在采取的就是 python 拼 insert sql,然后逐条 insert,失败了就另写文件。
@q2683252 假如 10w 条数据里面,中间一条或者 10 几条字段数据有问题,copy 出错,怎么处理?如何找到这几个错条?
@n2ex2 如何筛选呢?这个帅选的过程如何才能快?

@MonoLogueChi 瓶颈不是读取,不是语言;不能一条一条 insert,具体要怎么优化方法呢?

@zhs227 我现在是用 python 拼出 sql,但是我不知道这些拼出的 sql 哪些能够导入。如果分组( 5000 个一组)的话,倒是某些可能导入不了,但也能提高速度。问题我要知道哪些没有被导入。不知道是不是描述清楚了。

@xjmroot 并发 insert ?能提供一个模版参考吗

@limbo0 目前我用的就是 python 拼 sql,为了知道哪一条是坏数据,后面用的是逐条 insert。
@reus 具体还需要哪些信息判断 /

@daigouspy 是啊,也是觉得是数据库。但是具体哪里呢?
@ksupertu 组批量?主要是不知道哪条有问题,这些数据有些是有问题的,一下 copy 批量的话,不知道怎么把有问题的数据跳出来。

@liprais 使用了批量,这些余下的数据是有问题的数据,不知道哪条哪个字段就有问题了。这样的如何批量导入,还能把有问题的数据挑出来呢?
@liprais
@iwiki 这个开启事务倒是还没有试过。
目前我是用 python 一条一条的 insert,遇到不能 insert 的就写在新文件里面。因为有些字段有问题,copy 会中断,我想知道哪些数据没有被插入,所以想了这么弱智的办法。
2018 年 7 月 22 日
回复了 sjmcefc2 创建的主题 程序员 求一个 postgresql 优化教程。
@cstj0505
这样的 iostat,是不是说根本没有发挥出机器性能?
看着写入才 156kb/s,用 top 看资源,cpu 基本都是空闲的。
pgAdmin4 的 dashboard 上面,显示 1000 transaction per second。不过不太知道 pgadmin 的 dashboard 有什么含义。

大家能帮忙给看下问题在哪里呢?谢谢。

Linux 3.10.0-693.el7.x86_64 (localhost.localdomain) 2018 年 07 月 21 日 x86_64 (8 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle

0.16 0.00 0.10 0.01 0.00 99.73

Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn

sdb 0.50 1.00 156.12 191276 29798188

sda 0.36 2.69 1.26 513513 240387

sde 0.06 0.01 0.00 2668 0

sdd 0.10 0.59 0.61 113024 116556

sdc 0.07 0.01 2.38 2692 454700

dm-0 0.21 2.35 1.21 448851 230066

dm-1 0.00 0.01 0.00 2228 0

dm-2 0.52 1.73 159.16 329496 30377680
2018 年 7 月 21 日
回复了 jssyxzy 创建的主题 程序员 程序员有什么好的理财方案?
@edsgerlin 非常感谢。看了下网站,Madam President 给站台, 不过爱沙尼亚总统是个象征。问题不大。后面几个就是经济学人的总编和几个资本公司,fintech 公司。主页的缺憾是没有看到监管方是谁。或许因为是个 finteck 公司,并不需要监管?
2018 年 7 月 21 日
回复了 sjmcefc2 创建的主题 程序员 求一个 postgresql 优化教程。
@cstj0505 非常感谢您的提示。我的机器 32g 内存,是不是说可以用 32g*2=64g 的来测试,那样的话估计速度就很慢了。现在 12g 都只有 600mb 了,我很多要导入的文件要 40g。有点想知道,我这样的硬盘速度是不是有点不太正常?大家真正的 io 速度是多少呢
1 ... 27  28  29  30  31  32  33  34  35  36 ... 42  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   968 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 19:49 · PVG 03:49 · LAX 12:49 · JFK 15:49
♥ Do have faith in what you're doing.