发现一个用 Rust 重写的 Pandas 的替代品，支持 Python

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 1222 days ago, the information mentioned may be changed or developed.

我看 V2 好像没有人讨论，就是这个 Polars，库的设计方式就是对标 Pandas 的，API 设计基本相同，稍微改改就能迁移。

我电脑上同样的任务只需要 20% 的 Pandas 完成时间，有图有真相：

你们可以自己在自己机器上也跑跑看，这是我的测试代码： https://github.com/reycn/polars-pandas-bench

pandas

替代品

跑跑

img

28 replies • 2023-03-14 09:42:44 +08:00

cocomiko

Feb 17, 2023

看起来不错

ila

Feb 17, 2023 via Android

一直希望出个纯 go 或 rust 的人脸识别库

psyer

Feb 17, 2023 via Android

R 语言做这个是专业的

Baboonowen

Feb 17, 2023

@psyer R 我也会，也在磕盐用过，但是好多年没有用过了。

Baboonowen

Feb 17, 2023

@ila 听起来就不错

jenlors

Feb 17, 2023

好东西

tf2

Feb 17, 2023

Rust 有这功夫去把 R 重写了吧。。233

rocmax

Feb 17, 2023 via Android

@ila 我的理解模型使用的时候并不太吃资源吧，跟训练相比。所以应该是用 rust 重写 tensorflow 或者 pytorch ？

liuxu

Feb 18, 2023

正确的 rust 姿势

qiuyue0

Feb 18, 2023 via Android

明天试试

dw2693734d

Feb 18, 2023

Rust 语法劝退了，还是 go 香

tanjoe

Feb 18, 2023

@rocmax tensorflow 和 pytorch 的底层是 C++实现的，python 只是作为 binding ，改成 rust 对性能估计没啥提升

nizoukai

Feb 18, 2023 via Android

这种东西，更需要的是准确性吧，速度无所谓的，没有社区深度验证过的不敢用

shinession

Feb 18, 2023

感谢 OP 分享,第一次听说 Polars, pandas 天天用, 回头测试一下看如何

yuhangch

Feb 18, 2023

可以再来个，实现相关功能所需的时间🐶

mepwang

Feb 18, 2023

polar 使用了 apache arrow 格式进行内存数据组织，凡是使用这个思路的软件都快
这里
https://h2oai.github.io/db-benchmark/
有个十多个类似 pandas 软件的详细 benchmark ，可以看看哪几个速度快

mepwang

Feb 18, 2023

类似 pandas 的软件，表格数据在内存中都是按照行来保存，
但很多数据的存取是按列进行的，
apache arrow 的基本思路就是按列来组织数据，同一列的数据在内存中相邻存放，
因此在按列存取数据进行运算的时候速度会快很多

FightPig

Feb 18, 2023

晚点试下

panggmai

Feb 18, 2023

很早就发现这个库了，当初尝试过，具体问题是在读取大数据(csv 格式约 10G)，有时会出现一些错误，尤其是某列是某些混合类型的，比如中间有 int,str,还有时间的，pandas 会直接识别成 object ，polars 会报错，指定类型时候没有找到怎么去写的

NoOneNoBody

Feb 18, 2023

@nizoukai #13
看谁用吧，速度也很重要的，开始到收市只有只有四小时，自动操盘的计算时间极短

@panggmai #19
混合类型其实不止这个库，很多并发的库也处理不好
例如 np.nan 是浮点型，但很多时候其他类型需要表示“无”也会用到，批量计算尤其涉及相互比较的移动计算 /groupby 等就很麻烦