http://bbs.chinaunix.net/thread-1857627-1-1.html
同学们近期编码问题很多,稍微总结下。
Windows的终端环境是GBK吧,读取UTF-8的 编码,自然会乱码。
比如文件abc.txt是UTF-8格式的,那么如何读取它 呢?
第一种方式:
使用带encoding参数的open打开和读入文件,并转换成gb2312输出:
- use strict;
- use Encode;
- open HD,"<:encoding(UTF-8)","abc.txt" or die $!;
- while(<HD>) {
- print encode("gb2312",$_);
- }
- close HD;
如上代码,<:encoding(UTF-8)表明在open时,已识别并转换了读入文件的UTF-8编码。
然后print encode("gb2312",$_)将内容用gb2312编码输出,这样就正确显示了。
第二种方式:
使用Encode模块的decode函数自己处理转换,如下:
- use strict;
- use Encode;
- open HD,decode("utf8",$_));
- }
- close HD;
用普通的open打开文件,然后对文件的每一行,先用decode将内容转换成
perl内部的编码格式(它的作用相当于open with "<:encoding(UTF-8)")。
然后,再调用encode将转换后的内容,以gb2312编码进行输出,这样也显示正常。
其他方式。。待总结。
其他编码之间转换,也按此类推。
-------------------------------------------
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。