为什么用文本分割器字会变乱码

今天我也碰到了这个问题,查了些资料,发现跟编码方式是没有直接关系的。

如果分割的TXT文件内容全是英文则不会出现乱码,如果TXT文件的内容里有汉字就有较大的几率出现乱码。这种情况通过更改编码方式是不能解决问题的。

造成这种现象的根本原因是:网上免费下载的文本分割器大部分只是单纯的将二进制流按字节的方式分割成小文件的,而一个汉字是由两个字节组成的,一个TXT文件里有只占一个字节的英文字母和标点符号,又有占两个字节的汉字,这时就有可能出问题了。

比如我们要将一个10K的文件分割成10个1K的小文件,1K=1024字节,而恰好在1024-1025字节的位置是一个汉字,这时就会导致第1个文件的末尾出现一个“?”,而第2个文件的开头会出现乱码,因为分割器把一个汉字分成了两半导致的。

解决办法:1.自己手动分割;

2.换一个功能更强大的文本分割器。