diary/Kojima/2010-08-26
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[diary/Kojima]]
・不明高齢者問題
今日もまた戸籍上だけで生存している150歳だかの高齢者がニュ...
こうまでこの問題ばかり取りあげるのは、マスゴミと行政が手...
本来問題とすべき年金の不正受給を隠そうとしているようにし...
#comment
・Pythonのchardetモジュール
Pythonの場合、Shift-JISで読み込んだファイルをEUC-JPで書き...
読み込んだデータをいったん内部表現のUTF-8に変換(decode)し...
EUC-JPに変換(encode)して書き出す、みたいな作業が必要にな...
decodeメソッドの引数には Shift-JISやEUC-JPみたいなコーデ...
(異なるコーディングだと、「このコーディングにはこんなコー...
何かいい方法が無いかな、と探してみたら、[[Universal Encod...
というコーディング判断用のモジュールを見つけた。
元々は Mozilla が使っていたコーディング判別用ルーティンを...
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}
みたいな感じで、判別したいデータを chardet.detect()に投げ...
いくつか試してみた感じでは、短いファイルだと confidence ...
# もっとも、手元には cp932 か UTF-8 か EUC-JP か ISO-2022...
これを使えば、読み込んだファイルやURLのコーディングを試行...
#comment
終了行:
[[diary/Kojima]]
・不明高齢者問題
今日もまた戸籍上だけで生存している150歳だかの高齢者がニュ...
こうまでこの問題ばかり取りあげるのは、マスゴミと行政が手...
本来問題とすべき年金の不正受給を隠そうとしているようにし...
#comment
・Pythonのchardetモジュール
Pythonの場合、Shift-JISで読み込んだファイルをEUC-JPで書き...
読み込んだデータをいったん内部表現のUTF-8に変換(decode)し...
EUC-JPに変換(encode)して書き出す、みたいな作業が必要にな...
decodeメソッドの引数には Shift-JISやEUC-JPみたいなコーデ...
(異なるコーディングだと、「このコーディングにはこんなコー...
何かいい方法が無いかな、と探してみたら、[[Universal Encod...
というコーディング判断用のモジュールを見つけた。
元々は Mozilla が使っていたコーディング判別用ルーティンを...
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}
みたいな感じで、判別したいデータを chardet.detect()に投げ...
いくつか試してみた感じでは、短いファイルだと confidence ...
# もっとも、手元には cp932 か UTF-8 か EUC-JP か ISO-2022...
これを使えば、読み込んだファイルやURLのコーディングを試行...
#comment
ページ名: