UTF-8 化
このサイトをUTF-8にしたのは良いが、これから問題出そう。
このまま記事を入力し[投稿する]ボタンを押せば当サイトに送信されます。
以下の文章は注意書きです。
名前はかならず記入してください。ハンドルネームでも構いません。
またパスワードを入力することをお勧めします。
その場合他人による *なりすまし* と区別出来るかもしれません。
さらにブラウザでクッキーを有効に設定してある場合あなたの記事は後で修正可能になります。
コメントスパム防止のため記事の内容を機械的にモデレート
(スパムである確率を計算)
する処理を通します。
どのような投稿であれ、たまたま計算誤差によりスパムとみなされ
秘密の場所
に収納される可能性があります。
その場合、管理人が手作業で正規の場所に移動しますのでお待ちください。
-
11
owa
2003/11/25 23:31
id: mJs8kxp1Zus
prob: 0.2%
-
-
課題-2,3 を kiyo さんに解決してもらったみたい;;
課題-1 は今作っているツールでいちおう解決する見込み。
ということで、当初の課題は短命で終わるかもしれないのだけど、
実際はこれから発生する問題で、いろいろ続くという予感がします。
とりあえず第一段は今年中に終了させるのを目標としよう。
# 作るのは一割、検証が九割ということですので
過程で作ったものとか、パクって修正したものは、どこかにまとめて置きます。
って終わったみたいだけど、ほとんどこれからです;;
-
10
owa
2003/11/23 23:24
id: mJs8kxp1Zus
prob: 0.0%
-
-
UTF変換プロダクトDTMLで作ってたけど繁雑なので内部でpythonに切替え中。
そろそろ自家製pythonスクリプトが心配になってきた。
文字列をsizeでちょん切るメソッドとか見直さないといけない。
pythonに既にutf対応メソッドあるのかもしれない、全く調査不足。
-
9
owa
2003/11/22 23:28
id: mJs8kxp1Zus
prob: 0.0%
-
-
>>8 大丈夫じゃないかなあー
おっ RDB 使いの御言葉ですので助かります。かたじけない。
Firebird 見捨てた訳じゃないんです。
仕事で大容量の画像ファイルなど扱うことあるので常に意識してます。
Windows や Macintosh のこと考えると、
SJIS ←→ EUC-JP が互換じゃないことが常にネックになりがちです。
Web や多言語化のこと考えてもベースは Unicode になる流れ。
EUC-JP は(日本人にとって)プログラミングの観点からは確かに便利でしたけど、
こだわる気はありません。
Unicode が良いとか悪いとかは別次元の話と思って進めてます。
コード変換プロダクトやっとフレームできました。
メソッド仕込む段階ですが Zope プロダクト面白いですね^^
# 馴れた人なら1〜2時間でコーディングできるんだろうな
-
8
kiyo
2003/11/22 19:45
id: M4qDt4tUHP2
prob: 0.3%
-
-
>>6 アダプタ Psycopg は大丈夫なのだろうか?
大丈夫じゃないかなあー。
まだ実験中だけど今のところ良いような
最近 Firebird の方が blob での UTF-8 にバグあるんじゃないかと
騒いでるよー。
うーん、一番安心できると思っていたのに。。。
-
7
owa
2003/10/04 22:09
id: mJs8kxp1Zus
prob: 0.0%
-
-
下調べの最後にコンテンツの変換。
最初は ftp で持ってきて変換して戻すとか、
ZODB ツールを改修して一発で変換することとか考えていたけど、
なぜか気が乗らない... そうだプロダクトを作ろう
とりあえず単純なプロダクト作ってみた。
設定文字コード、タイトル、生データが見えることを確認。
(Folder, DTML Document, DTML Method, Python Script, TinyTablePlus)
web 経由で使える文字コード変換ツールが作れそう。
という理由で、この辺から始めることにした。
1. コンテンツの変換
2. 例外への対応
3. RDB の UTF-8 化
-
6
owa
2003/10/03 22:38
id: mJs8kxp1Zus
prob: 4.1%
-
-
PostgreSQL は UTF-8 対応済みらしいけど、いろいろめんどうかも。
http://search.net-newbie.com/pgsql/multibyte.html
と正式に対応しているらしいので、RDB は UTF-8 に決定。
ターミナル(kterm)で見られるのかとか、dump したもののチェックとか
周辺に難点が見付かる可能性はある。
http://pop-club.hp.infoseek.co.jp/unix/postgres_utf.html
アダプタ Psycopg は大丈夫なのだろうか?
などと心配事があるので、一番後回しにしよう。
-
5
owa
2003/10/02 22:07
id: mJs8kxp1Zus
prob: 1.0%
-
-
LocalFS は UTF-8 未対応、というより
ファイルシステムが未対応なので、なるべく使わない方針でいく。
現状では UTF-8 にした場合、日本語ファイル名はエラーになって使えない。
Python Script で 'context.management_page_charset' を見れば、
エンコードタイプが取得できるので、
どうしても使おうと云うならコード変換を追加するしかない。
RDFSummary は変換するように書き換える。
エンコードのプロパティを追加することも考えられる。
-
4
owa
2003/09/30 22:10
id: mJs8kxp1Zus
prob: 0.0%
-
-
vim-6.1 は UTF-8 も対応している
ということで試してみた。
まずは、使えるエディタがないと始まらないので。
~/.vimrc を修正
---
set fileencoding=euc-jp
set fileencodings=iso-2022-jp,utf-8,euc-jp
---
などとすると、external-editor のペン型アイコンをクリックするだけで、
utf-8 で書かれたページを、そのまま編修することができた。
ちなみに、新規ファイルの場合は vim 起動後
:set fileencoding=utf-8
と打ち込む。
これで external-editor を改造する必要は無さそう。
(仕事は減らすもの;;)
-
3
owa
2003/09/29 22:44
id: mJs8kxp1Zus
prob: 0.2%
-
-
ZenKaiからリンク拝借
http://www.atransia.co.jp/home/ZenKai/Members/kafka/CMFWiki/...
http://www.atransia.co.jp/home/ZenKai/Members/kafka/News/105...
http://www.atransia.co.jp/home/ZenKai/Members/kafka/News/104...
ついでに
http://www.openi18n.org/subgroups/utildev/dli18npatch2.html
ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO-4.html...
http://www.cl.cam.ac.uk/~mgk25/unicode.html#
あと、この辺も
http://www.linux.or.jp/JM/html/LDP_man-pages/man7/utf-8.7.ht...
http://www.debian.org/doc/manuals/intro-i18n/ch-languages.en...
きっと沢山あるだろうけど、後はテーマ毎に少しずつ...
-
2
owa
2003/09/29 22:32
id: mJs8kxp1Zus
prob: 0.0%
-
-
昔突然 XLocale 廃止の話が出て、右往左往したのも懐かしい。
ロケールは glibc でやってよ、X11 ではもう面倒見ないよと云う話。
(↑ちと記憶があやふやだけど) 国内の linux ユーザは困った。
その時、見付けたのが Vine というプロジェクト。
今も Vine を使っているのは、インストールしてすぐに日本語が使え、
C/C++開発環境も十分使えると云う理由が大きい。
きっと UTF-8 移行の時も似たようなことが起きるに違いない。
少しは賢いふりして、今のうちに準備しようと思っただけ。
もし国際化という観点から考えれば、Debian も選択枝のうち。
|