2013年1月29日星期二

文件字符编码学习总结

在linux下处理win系统导出的csv文件时经常会遭遇中文‘被乱码’,这几天集中学习了一下字符编码的知识,总结如下。

主要的知识来源是博客园AstralWind的《Python字符编码详解》(页面存档)。另外一部来源参考啄木鸟《可爱的Python》中的一章页面存档)。

比较有用的一张思维导图(via 可爱的Python)

cday-1-encode

 

参考工具:

Chardet :当前版本2.1.1。Python库,用来侦测文件字符编码。

-安装 >>sudo easy_install chardet

-使用 >>python ..some/path/python/site-packages/chardet/test.py /target/path/file.file      红色部分请用chardet真实安装目录以及被测文件真实目录替换。

- 结果 会在stdout返回类似 “utf-8 with confidence 0.99” 的值,表示被测文件字符集以及置信度。

涉及标准库:

codecs :Python标准库

如果只是字符串转换转换unicode或其他编码方式,只需要使用 ‘’.decode(‘gb2312’).encode(‘utf-8’) 这样的字符串方法来转换字符串编码。

2011年11月23日星期三

北京的空气质量

印象中,今年秋天过后,北京就没怎么见过透亮的天,每天早晨好像都跟下雾一样,茫茫一片看不清100米外的远处.

好像也是从秋天之后,戴口罩上街的人也开始多起来了,不是防寒的厚口罩,更多的是那种过滤烟尘类似防毒面具的装备.奥运会过后,北京的空气质量是每况愈下.

有个很有意思的twitter.是美国驻中国大使馆的老外们,他们在使馆区搞了个小型的空气质量监测站.实时发布监测数据.众所周知使馆区所在的位置绿化程度在北京城区已算是比较高的水准,而且附近没有什么成规模的工业区,这么算下来那边的空气质量应该已经代表了北京城区比较高的水准.在这样的区域,美国佬都大惊小怪的说成影响健康,大概他们太小看`勤劳勇敢的中国人民`的生存能力了.

围绕着美国佬建监测站这个话题,广大官方媒体各大御用喉舌统一的展开了攻势,不从结果出发,却从动机出发,把这个事情描绘成为邪恶的米帝国主义颠覆我大中华帝国王统的恶毒奸计.

至于什么PM2.5,什么PM10.太专业了咱完全不懂.但俺有图为证,这就是北京的空气,这就是我们目前的生存环境.

test

It’s a test text.

hold up….