请问各位大大,使用io读取文件,如何识别文件的编码,以及统计中文字数。当文件中含有中文符号,特殊符号时,应该怎么忽略它们不计。
------解决思路----------------------
如果可以的话,乱码问题就能解决一半了,没有查到这样的函数。
统计中文用正则表达式,还得注意文件编码。
------解决思路----------------------
通常没法从文件的内容识别出文件的编码。
偶尔有些文件会把文件的编码放到文件的前几个字节里,如UTF-16,Windows下带BOM的UTF-8等。
------解决思路----------------------
之前好像是用过,使用需要用到三个第三方JAR包:antlr.jar、chardet.jar和cpdetector.jar
cpDetector是基于统计学原理的,不保证完全正确。
------解决思路----------------------
cpdetector.jar可以用来判断文件编码,但是不准确,后来我想,用excel打开txt文件的时候,或者打开word文档,都有编码不正确的,有时需要手动选择编码,那么微软都没解决的问题,我们怎么能解决呢?目前的判断编码,其实都是根据文件开头的几个字节,实际上是很多文件的格式都不规范。