UTF-8 化
このサイトをUTF-8にしたのは良いが、これから問題出そう。
このまま記事を入力し[投稿する]ボタンを押せば当サイトに送信されます。
以下の文章は注意書きです。
名前はかならず記入してください。ハンドルネームでも構いません。
またパスワードを入力することをお勧めします。
その場合他人による *なりすまし* と区別出来るかもしれません。
さらにブラウザでクッキーを有効に設定してある場合あなたの記事は後で修正可能になります。
コメントスパム防止のため記事の内容を機械的にモデレート
(スパムである確率を計算)
する処理を通します。
どのような投稿であれ、たまたま計算誤差によりスパムとみなされ
秘密の場所
に収納される可能性があります。
その場合、管理人が手作業で正規の場所に移動しますのでお待ちください。
-
14
owa
2003/12/05 00:44
id: mJs8kxp1Zus
prob: 0.2%
-
-
いまのうちに UTF8 化しないとまずくない?
戦えないと話にならないので、ツール作成予定を発表することにした。
このツールでできること
フォルダの management_page_charset や基本的なオブジェクトのテキスト
部分のエンコードをインタラクティブに変換すること。
スケジュール
---
0.1.0. UTF-8 エンコード変更処理の実装を完了
0.1.1. β版公開
---
0.3.1. エンコード判別メソッドを独自に作る (精度と信頼性アップ)
0.3.2. 表示用文字列カットメソッド作る
0.3.3. コメントを入れる
0.3.4. セキュリティ関連追加
---
0.5.1. オブジェクトの種類を拡張できるようにリファクタリング
0.5.2. エンコーダの種類を拡張できるようにリファクタリング
---
とりあえず予定だけ。β版は今年中になんとか...
-
13
owa
2003/11/27 00:57
id: mJs8kxp1Zus
prob: 0.3%
-
-
あとでゆっくり見ようと思ったサイト
http://oss.software.ibm.com/icu/download/2.8/index.html
http://www.egenix.com/files/python/unicode-proposal.txt
今作ってるツールで kconv はうまく変換してくれるが pykf は何か変。
文字コードはゆっくり考えないといろいろボロが出そうです。
http://www.python.jp/Zope/download/JapaneseCodecs
-
12
kiyo
2003/11/26 00:14
id: M4qDt4tUHP2
prob: 4.8%
-
-
課題-2 は柴田さんでしょう。
僕じゃないよー。
課題-3 も ここから情報もらったものです。
あたしゃ、何にもしてない。
-
11
owa
2003/11/25 23:31
id: mJs8kxp1Zus
prob: 0.2%
-
-
課題-2,3 を kiyo さんに解決してもらったみたい;;
課題-1 は今作っているツールでいちおう解決する見込み。
ということで、当初の課題は短命で終わるかもしれないのだけど、
実際はこれから発生する問題で、いろいろ続くという予感がします。
とりあえず第一段は今年中に終了させるのを目標としよう。
# 作るのは一割、検証が九割ということですので
過程で作ったものとか、パクって修正したものは、どこかにまとめて置きます。
って終わったみたいだけど、ほとんどこれからです;;
-
10
owa
2003/11/23 23:24
id: mJs8kxp1Zus
prob: 0.0%
-
-
UTF変換プロダクトDTMLで作ってたけど繁雑なので内部でpythonに切替え中。
そろそろ自家製pythonスクリプトが心配になってきた。
文字列をsizeでちょん切るメソッドとか見直さないといけない。
pythonに既にutf対応メソッドあるのかもしれない、全く調査不足。
-
9
owa
2003/11/22 23:28
id: mJs8kxp1Zus
prob: 0.0%
-
-
>>8 大丈夫じゃないかなあー
おっ RDB 使いの御言葉ですので助かります。かたじけない。
Firebird 見捨てた訳じゃないんです。
仕事で大容量の画像ファイルなど扱うことあるので常に意識してます。
Windows や Macintosh のこと考えると、
SJIS ←→ EUC-JP が互換じゃないことが常にネックになりがちです。
Web や多言語化のこと考えてもベースは Unicode になる流れ。
EUC-JP は(日本人にとって)プログラミングの観点からは確かに便利でしたけど、
こだわる気はありません。
Unicode が良いとか悪いとかは別次元の話と思って進めてます。
コード変換プロダクトやっとフレームできました。
メソッド仕込む段階ですが Zope プロダクト面白いですね^^
# 馴れた人なら1〜2時間でコーディングできるんだろうな
-
8
kiyo
2003/11/22 19:45
id: M4qDt4tUHP2
prob: 0.3%
-
-
>>6 アダプタ Psycopg は大丈夫なのだろうか?
大丈夫じゃないかなあー。
まだ実験中だけど今のところ良いような
最近 Firebird の方が blob での UTF-8 にバグあるんじゃないかと
騒いでるよー。
うーん、一番安心できると思っていたのに。。。
-
7
owa
2003/10/04 22:09
id: mJs8kxp1Zus
prob: 0.0%
-
-
下調べの最後にコンテンツの変換。
最初は ftp で持ってきて変換して戻すとか、
ZODB ツールを改修して一発で変換することとか考えていたけど、
なぜか気が乗らない... そうだプロダクトを作ろう
とりあえず単純なプロダクト作ってみた。
設定文字コード、タイトル、生データが見えることを確認。
(Folder, DTML Document, DTML Method, Python Script, TinyTablePlus)
web 経由で使える文字コード変換ツールが作れそう。
という理由で、この辺から始めることにした。
1. コンテンツの変換
2. 例外への対応
3. RDB の UTF-8 化
-
6
owa
2003/10/03 22:38
id: mJs8kxp1Zus
prob: 4.1%
-
-
PostgreSQL は UTF-8 対応済みらしいけど、いろいろめんどうかも。
http://search.net-newbie.com/pgsql/multibyte.html
と正式に対応しているらしいので、RDB は UTF-8 に決定。
ターミナル(kterm)で見られるのかとか、dump したもののチェックとか
周辺に難点が見付かる可能性はある。
http://pop-club.hp.infoseek.co.jp/unix/postgres_utf.html
アダプタ Psycopg は大丈夫なのだろうか?
などと心配事があるので、一番後回しにしよう。
-
5
owa
2003/10/02 22:07
id: mJs8kxp1Zus
prob: 1.0%
-
-
LocalFS は UTF-8 未対応、というより
ファイルシステムが未対応なので、なるべく使わない方針でいく。
現状では UTF-8 にした場合、日本語ファイル名はエラーになって使えない。
Python Script で 'context.management_page_charset' を見れば、
エンコードタイプが取得できるので、
どうしても使おうと云うならコード変換を追加するしかない。
RDFSummary は変換するように書き換える。
エンコードのプロパティを追加することも考えられる。
|