如何用代码识别文件是 *文本文件* 还是 *二进制文件*,只能通过后缀名吗

文件

文本

识别

unicode

41 条回复 • 2019-07-02 08:50:31 +08:00

1

Sylv

2019-07-01 15:32:43 +08:00 via iPhone

3

重新组织一下语言吧，你语文老师看到了应该会挺生气的。

2

binux

2019-07-01 15:34:47 +08:00

不是 UTF\GBK\或是 Unicode 什么的就是二进制文件呗，多简单的事啊

3

daijinming

OP

2019-07-01 15:37:06 +08:00

@binux 不是这个意思,我是说判断文本文件采用哪种编码比较简单,但是区分 *文本文件* 和 *二进制*文件比较困难

4

koebehshian

2019-07-01 15:38:07 +08:00

参考文本编辑器的做法

5

jasonyang9

2019-07-01 15:39:53 +08:00

1

https://github.com/file/file

6

daijinming

OP

2019-07-01 15:40:41 +08:00

@koebehshian 记事本打开图片文件也是可以,不过显示的是乱码

7

txy3000

2019-07-01 15:40:43 +08:00

你想以什么样的编码方式读取文件是由你决定的文件都是 2 进制序列

8

lotmany

2019-07-01 15:41:24 +08:00

哪些文件定义为二进制文件?哪些又是文本文件? 图片算二进制文件吗?不也是可以用文本编辑器打开.

9

daijinming

OP

2019-07-01 15:42:09 +08:00

@txy3000 二进制文件哪有编码呀,比如图片,只要程序识别出无法显示出文本就好,而不是用乱码展示

10

AlloVince

2019-07-01 15:42:20 +08:00

1

`file --mime-type /path_to_your_file`

11

binux

2019-07-01 15:43:08 +08:00

@daijinming 我意思是只要你能判断编码的就是文本文件，反之是二进制文件

12

hacher

2019-07-01 15:44:40 +08:00

stackoverflow 上的： https://stackoverflow.com/questions/6119956/how-to-determine-if-git-handles-a-file-as-binary-or-as-text/6134127#6134127
https://git.kernel.org/pub/scm/git/git.git/tree/xdiff-interface.c?id=HEAD#n188

13

hacher

2019-07-01 15:46:11 +08:00

8

git 是判断前 8000 字节是否含有"\x00"

14

daijinming

OP

2019-07-01 15:48:04 +08:00

@binux 理论上这么讲没问题,但是现有的网上的代码,都是这么判断是不是 utf 编码,是不是 unicode 编码,... 还不是默认就是 ASCII 了,比如 https://blog.csdn.net/zh_geo/article/details/85859026

15

yankebupt

2019-07-01 15:49:17 +08:00

1

unicode 的有超出文本区字符的直接判二进制。非 unicode....么....
上古时代(19xx)的判定方法是
第 8 bit 占用率接近 40%-60%的算二进制，占用不到 5%的判文本.....中文非常用字超 25%的判二进制....其他看着随便判就是

只适用于基本用途，因为....
会误杀各种奇葩文件，纯色多的位图，各种冷门语言的文件等等各类文件...随便找个硬盘扫一下误判率不低于 5%...

16

daijinming

OP

2019-07-01 15:49:27 +08:00

@hacher 这个听着靠谱

17

binux

2019-07-01 15:52:05 +08:00

@daijinming ASCII 才 128 个字符，是不是你自己不会判断吗，为什么要照着抄？

18

pkookp8

2019-07-01 15:54:03 +08:00 via Android

可以读到已知头的算已知格式
其余全算二进制

19

koebehshian

2019-07-01 15:55:11 +08:00

@daijinming 我又没说记事本，记事本压根没有判断是文本文件还是二进制文件。我用 emeditor, 它可以

20

daijinming

OP

2019-07-01 16:00:15 +08:00

@hacher 包含含有"\x00"就是二进制文件吗

21

msg7086

2019-07-01 16:01:31 +08:00

2

什么叫文本文件，什么叫二进制文件，你先定义一下再问问题好吗？
如果能以文本方式读取的都叫文本文件，那就是上面 @binux 说的，尝试以文本方式打开，不行就不是咯。

如果没有具体定义的话，文本文件也可以称作二进制文件。反正都是二进制、十六进制存在电脑里的。
怎么区分是「你」来决定的。

随便举个例子。
我们平时下载的种子文件，是用一种叫做 BEncode 的编码方式序列化的。
比如一个数字 30，会编码成 i30e，一个字符串 abc 会编码成 3:abc。
[1,'a']编码后就是 li1e1:ae。
你说这算文本文件吗？
但是种子里存的是文件的 hash，虽然编码结构都是文本，但是遇到 hash 的部分就很可能是二进制了。所以种子文件既可以算是文本文件，也可以算是二进制文件，而且并不能「识别」或者「区分」。

包括有些位图文件，如果颜色正好能对应文本的话，一样可以用文本方式读取。

历史上最著名的文本文件与二进制文件探测应用，是 FTP 协议里的传输方法。你可以用 TYPE I 切换成二进制传输，也可以用 TYPE A 切换成文本传输。至于后来人们因为文本文件类型误判而传坏了多少文件这个我就不多提了。

22

msg7086

2019-07-01 16:05:41 +08:00

最传统的文本文件就是只包括 ASCII 可显示字符，即 0x20-0x7E。所以像中文啊日文啊这些全都不属于传统的文本文件范畴。特别是像 UTF-8 之类的，大幅利用 7bit 以外的区域、大量使用多字节编码的复杂系统，早就已经可以归属于「二进制文件」了。

23

msg7086

2019-07-01 16:13:21 +08:00

1

总结一下。
1. 什么是文本文件，什么是二进制文件，需要「你」来定义。
2. 文本文件也是二进制文件。
3. 现在不是文本文件的，以后可能会变成文本文件。

关于 3，一个很常见的例子就是各种文字编码。
上面提了一个 UTF-8，本来是一堆乱码的，但是只要有解码器，就能解码成字。
还有包括 Windows 上很常见的 UTF-16 编码，正是用到了原先被认为只可能在二进制文件中出现的 0x00。
而现在的一些无法被 UTF-16 解码、被你认为是二进制的格式，说不定就会被以后开始普及的 UTF-32 解码呢。
你现在分辨出的二进制格式，很可能等新的解码方式出来以后，就可以被阐释成某种文本文件了。

24

v2overflow

2019-07-01 16:13:59 +08:00 via iPhone

文本文件就是二进制文件，如果文本规范的话，可以识别，主流的编码都有编码区间

25

shuax

2019-07-01 16:32:46 +08:00

chardet 一波

26

hacher

2019-07-01 16:39:34 +08:00

楼主的需求应该是区分文件是否纯 text 文件。只有文件包含'\x00'肯定不是纯文本~~

27

jinliming2

2019-07-01 17:15:42 +08:00 via iPhone

1

首先，所有文件都是二进制文件。
我们常说的 UTF-8，GBK 之类的是文本编码，是将人可读的文本，按照特定的编码表转成二进制序列的一种方式，转成二进制序列之后就可以进行存储了。在读取的时候再按照原来的方式还原，就可以得到原始文本了。
一般我们将这种把纯文本以特定编码存储的文件叫做纯文本文件。
所以，纯文本文件有一个重要属性，就是编码。
任何二进制文件都可以当作纯文本文件打开，只不过会显示为人不可读的字符序列，并且也确实都是字符！甚至使用部分编码打开显示的都是认识的字符（文化水平问题）。比如用 GBK 编码打开一张图片看看？你能说这张图片是纯文本文件吗？

也就是说，任何文件都是二进制文件，当你将其赋予一种文本编码后，它就是一个文本文件。
但这个编码不是随便给的，在有些编码里，特定的二进制序列是不会出现的，比如 0x00 几乎不会出现在任意编码规则里。所以，你可以通过猜测的方式去检查文件是否符合某个编码的规则，以此来确定是否为文本文件。
至于要检测多少种编码，就看你的爱好了。甚至你可以自创一个文本编码，这个文本编码里可以出现 0x00，也不是不可以！

28

Mithril

2019-07-01 17:53:41 +08:00

除非这文件是你自己写的，不然其他全是靠猜。
你如何区分：用文本编辑器打开二进制文件时显示的乱码和故意写成乱码的文本文件
就算你用编码范围限定也是会有误杀的，没什么万全的办法。

29

soy

2019-07-01 18:14:15 +08:00

Machine learning (狗头
http://cs229.stanford.edu/proj2007/KimPark-AutomaticDetectionOfCharacterEncodingAndLanguages.pdf

30

hx1997

2019-07-01 18:33:48 +08:00

@jinliming2 #24 一般说的“二进制文件”是与“文本文件”对立的，你非要说文本文件也是二进制也没错，但这不是通常的理解方式。你看维基百科： https://en.wikipedia.org/wiki/Binary_file
"A binary file is a computer file that is not a text file."

31

AX5N

2019-07-01 18:39:33 +08:00

@hx1997 你也说了，是“一般说”，大家都是理解计算机原理的人，还适用于一般这个概念吗？

32

Mo0o

2019-07-01 18:41:42 +08:00

不是，Linux 下，你把文件的一首歌的后缀名删点，你打开还是以音乐方式播放。

33

hx1997

2019-07-01 18:43:37 +08:00

@AX5N #28 可以不杠吗？ binary file 和 text file 的正常理解就是二元对立的，GNU diff 的手册里也是这么用的： https://www.gnu.org/software/diffutils/manual/html_node/Binary.html
你的意思是 GNU 的人不懂计算机原理吗？