GAE: len()取字符串长度，中文也算一个字节怎么处理？我现在是正则取了中文*2 不知道有没简单的方法！？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Python Cookbook

› Using Google App Engine

推荐下载

› Latest Google App Engine SDK

其他兼容技术

› AppScale

这是一个创建于 5104 天前的主题，其中的信息可能已经有所发展或是发生改变。

中文

len

GAE

4 条回复 • 1970-01-01 08:00:00 +08:00

est

2011-02-27 15:51:12 +08:00

UTF8的中文是3字节

manhere

2011-02-27 16:09:13 +08:00

能不能配合decode encode统一编码后截取?

darasion

2011-02-27 16:41:27 +08:00

如果是unicode保存的东西，一个中文字符就算一个“字节”
如果是utf-8，那就算3个。
如果是GBxxx，就算2个。

Python 2.5.4 (r254:67916, Dec 23 2008, 15:10:54) [MSC v.1310 32 bit (Intel)] on
win32
Type "help", "copyright", "credits" or "license" for more information.
>>> len(u'哈哈')
2
>>> len(u'哈哈'.encode('gbk'))
4
>>> len(u'哈哈'.encode('utf-8'))
6
>>>

vivian

2011-02-27 16:45:45 +08:00

@darasion 谢谢

GAE: len()取字符串长度，中文也算一个字节怎么处理？ 我现在是正则取了中文*2 不知道有没简单的方法！？

GAE: len()取字符串长度，中文也算一个字节怎么处理？我现在是正则取了中文*2 不知道有没简单的方法！？