binWord/blog

WinとMacでUnicode文書を検索

4月 20th, 2004

[`evernote` not found]

仕事によっては、Unicodeのテキストファイルを積極的に利用していこうといろいろ試している。JISコード（正確にはJIS X 0208）にない文字も、OSやアプリケーションを問わずにやり取りできて便利だろうと思うからだ。
例えば、私は用語辞典の仕事をしており、紙とデジタルで同じデータを活用できると仕事が楽になる。ところが、丸数字（「?」など。カギ括弧内は環境によっては見えないかも）1つ取っても厄介だ。今までDTPオペレータにシフトJISで原稿データを渡していたが、Windowsの文字コード（シフトJISを拡張したCP932）とMacでは丸数字のコードも異なる。気の利いたDTPオペレータなら、Windows機種（プラットフォーム）依存文字の自動変換処理くらいはしてくれるから、紙に印刷する分には問題にはならない。ところが、一度DTPソフトに流し込んだテキストを抜き出して、再利用しようとするとこうした文字コードの違いが問題になってくる。そこで、Unicodeで文字コードを統一できれば、データの再利用がしやすくなるはずだ。

Unicodeの文字集合を実際に利用するには、UTF-8やUTF-16（2つの違いについてはこちら）などのエンコーディングスキーム（符号化の手法）を用いる。UTF-8だと、英数字で書かれた文書であればこれまでのものがそのまま使えるので、XMLなどではこちらが使われる。ちなみに、ブログでもUTF-8で書かれているものは多い。OSの内部処理などにはUTF-16が使われているようだ。

UTF-8とUTF-16の文書を作って、Windows XP（SP1）とMac OS X 10.3.3の標準機能で検索できるかどうか試してみた。その結果は、BOM（Byte Order Mark）付きのUTF-16であれば、ビッグエンディアンでもリトルエンディアンでもOKというものだった。UTF-8はBOM（というのかな？）ありなしどちらでもダメ。どちらのOSでも、標準のメモ帳やテキストエディットでUTF-8に対応しているのだから、OSの検索機能でも見つけられるようにしてほしいところだけど。ついでに言うと、メモ帳ではUTF-16をUnicodeと表記してあるとか、テキストエディットではUTF-16のエンディアンが書いてなかったりとか（Macだからビッグエンディアンだというのはみんなが知っている知識ではないだろう）、用語が不統一で混乱している。

なお、エンディアンやBOMについては、リンク先などを参照のこと。このあたりの説明はややこしいが、『文字コード超研究』でとても上手に解説されている。この本では、2進法・16進法の説明も丁寧に書かれているし、コンピュータでどういう風に文字を取り扱っているかに興味を持ったらぜひ読んでもらいたいと思う（そういえば、確かに最近は2進法・16進法の詳しい解説をあまり見かけなくなった）。本の分厚さにひるむかもしれないが、語り口が平易だから、かなり取っつきやすい。

This entry was posted on 火曜日, 4月 20th, 2004 at 13:53 and is filed under character_code, DTP, editing, Mac, Windows. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Tats_y: もちろん、かまいませんよ！ 1点、うちのMacBook Proのハードウェア的な問題、あるいは他のソフトウェアとのバッティングかもしれませんが、なぜか「ぺ」の入力がうまく...
大田: Karabiner Elements用NICOLA配列設定ファイルを完成していただきありがとうございます。「親指シフト表記付きUSBライトタッチキーボード」というキーボードを販売させていただいておりますライフラボ株式...
Tats_y: >dodosukeさんコメントの承認遅れてすみません。こういうマニアックな情報、ありがたいですね〜。お役に立てて、光栄です！
dodosuke: 初めまして。ここに記載されている情報を参考にして、研究社の英和活用大辞典の変換スクリプトを作ってみました。だいぶラフな作りですけれど。情報共有いただき、感謝です！...
Tats_y: >Borodinskiiさんああ、それはご苦労様でした！しかし、以前は問題なかったのに、不思議ですね。Appleの辞書変換ツールのアルゴリズムも時々変更されているのかもしれませんね。

kymblg: MacのExcelでセルの再編集のショートカット
Monoblogue of a security engineer: Movable TypeのDB移行
iOSの内蔵辞書にカスタム辞書を自由に追加: binWord/blog
iOSの内蔵辞書にカスタム辞書を自由に追加: binWord/blog
reliphone: このアプリがすごい No.003 Dictionary.appender

WinとMacでUnicode文書を検索

Leave a Reply

About

最近の投稿

最近のコメント

最近のトラックバック

カテゴリー

アーカイブ

これまでのアクセス数

広告