Googleが絵文字の世界共通化に取り組む
金曜日, 11月 28th, 2008日本の携帯電話で使われている絵文字。Googleは、この絵文字を世界共通化しようとしているそうな(Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ)。文字体系Unicodeのコードを割り当てて全世界のコンピュータで扱えるようにすることを目指すということで、これまた大きな話だ。
日本の携帯電話で使われている絵文字。Googleは、この絵文字を世界共通化しようとしているそうな(Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ)。文字体系Unicodeのコードを割り当てて全世界のコンピュータで扱えるようにすることを目指すということで、これまた大きな話だ。
Leopardの辞書アプリ(Dictionary.app)で英辞郎を使えるようにしたおかげで、海外のサイトを読むのもずいぶん楽になった。しかし、単語の意味などをもう少し詳しく知りたいという時は、英辞郎だとちと物足りない。そこで、だいぶ前に買ったまま、ほとんど活用していなかったランダムハウス英語辞典(第二版)をDictionary.app用に変換してみることにする。
ランダムハウス英語辞典が使えるMac用の辞書ソフトとしては、すでにJammingがあるが、できればDictionary.appにまとめたいところ。検索機能はJammingが格段に優れているが、日常的にさっと調べるならDictionary.appの方が使いやすく感じる。まあ、変換処理自体が面白くなってきたというのもあるのだけど。
先の記事でも書いたように、Mac OS X v10.5 “Leopard”の「辞書」アプリケーション(辞書.app / Dictionary.app)用の辞書はユーザーが追加できるようになっている。そこで、定番の英和辞書「英辞郎」を変換するツールを作ってみた。英辞郎は、現時点で最新のv108を使用している。
私はWebのニュースをチェックする場合、各サイトのトップページから興味のあるすべての項目をタブで開き、見終わったタブから次々閉じていくというやり方をしている。Firefoxなどのタブブラウザを利用している人ならば、ごく一般的な使い方だろう。
こうやってニュースチェックをしている途中で外出しなければならないことはよくある。そんな時、移動中にPDAや携帯電話のフルブラウザを使ってニュースチェックの続きができればなあと思っていた。複数パソコンでブラウザにFirefoxを使っているなら、Google Browser Syncを使えばいいが、携帯電話やPDAではそうもいかない。はてなブックマークのようなソーシャルブックマークを使うという手もあるが、記事ごとに登録していくのは面倒だ。また、不正な利用を避けるためか、こういうソーシャルブックマークサービスでは自動処理が行えなくなっている。
そこで、現在タブで開いているページへのリンクを1つのHTMLファイルとして生成し、自分が使っているWebページサービスやレンタルサーバーなどにアップロードすればよいのではないかと考えた。
JAGAT(日本印刷技術協会)が主催する「紙面制作の自動化とページデザイン」のセミナーに参加してきた。PCJapan用語辞典のワークフロー作りをお手伝いしたということで、無理を言ってタダで(←ここ重要(笑))聴講させてもらったのだ。
このワークフローについて簡単に述べておこう。ハッカー用語辞典2004まではMac OS 9+QuarkXPressの環境だったが、PCJapan用語辞典2005からはDTPプロダクションのビーワークスと話し合ってInDesignを使ってもらうことにした。私の立場からの理由は2つ。XMLとUnicodeである。
PCJapan用語辞典の制作ではデジタル版(WindowsのHTML Help形式)を作るためにDTPデータを再利用したい。そのために、XMLでデータをやり取りできれば作業がスムーズに行くと考えた。
Mac OS XはUNIXをベースにしたOSで、UNIX用に開発された多彩なソフトウェアを利用できる。こうしたソフトウェア群を簡単にインストールするため、Finkというパッケージが用意されているのだが、このFinkでは日本語環境のことが考慮されていなかった。そのため、日本語を使おうとすると、ユーザーがあれやこれやと設定ファイルをいじくり回す必要があった。
私もMac OS XでUNIXソフトウェアを使うことに興味はあったものの、ちょっと手が出せずにいた。こうした状況を、東大Finkチームが変えつつある。2003年末に東大ではiMacを大量導入し、同時にUNIX環境の整備を開始した。本家Finkプロジェクトと連携を取りつつ、Mac OS XのUNIX環境で日本語が扱える手軽なパッケージを作成している。
3月25、26日に開催されたオープンソースカンファレンス2005では、東大Finkチームの作成したインストーラCDも配布された。これはUNIXの知識がない人間でも日本語の扱えるUNIX環境を構築できる優れものなのだ。セミナーでは、Finkを日本語に対応する苦労話などが詳細に語られていた。以下、そのメモ(私はこの分野に詳しいわけではないので、誤解している部分もあると思う)
30代の男性なら、一度は民明書房発行の書籍を書店で探したことがあるのではないか。『魁!!男塾』の参考文献としてよく出てきたアレである(最近では、続編『暁!!男塾』がスーパージャンプ誌上で連載中)。最近、民明書房の書籍をまとめた『民明書房大全』が発行されたので、バカ中学生だった頃の思い出に浸ってみるのも楽しかろう。
民明書房大全には、見たこともない漢字がバンバン出てくる。例えば、私の大好きなネタ、李筴振(りばしぶる)が創始した凶獬面閶殺(きょうかいめんしょうさつ)。ネタの内容については同書を見てもらうとして、「獬」(かい)も「閶」(しょう)もJISコード(JIS X 0208)の第一水準、第二水準に含まれていない。ただし、Unicodeには収録されているので、Windows XPやMac OS Xなら問題なく扱えるし、このブログのようにUTF-8で書かれたWebページでも使える。男塾のファンサイトを運営するなら、UTF-8ベースじゃないときついかもしれない。
それにしても、民明書房大全の校正は大変だったんじゃないかな。やっぱり、DTPにはInDesignを使ったんだろうか。
書誌端末のところで述べたあいまい検索について、ちょっと気付いたことがある。
CLIeやLibrie、Exposeといった単語の最後の「e」は正確にはアクセント記号付きの「é」だ。こうした文字をHTMLで記述する場合、一般的には「é」といった「文字参照」を使う。文字参照を使って記述しておけば、アクセント記号付き「e」のフォントがない環境(auの携帯電話A5503SAもそうだった)でも、ブラウザが解釈してただの「e」として表示してくれる(ことが多い?)。
ところが、Googleで検索をしてみると、「Exposé」と書かれたページは「Expose」ではヒットしないのだ。Unicodeの文字を直接「Exposé」と入力すれば、ちゃんとヒットする。
では、Unicodeの文字を直接記述できるUTF-8のページ(このbinWord/blogもそうだ)で、文字参照を使わずに直接「Exposé」と記述した場合はどうなるか?「Expose」でも検索できるのだろうか? このような例をうまく見つけられなかったが、この記事がGoogleに収集されればこのあたりもはっきりするはず。
Googleは4月22日にデフォルトの文字コードをUTF-8に変更している(参考記事)。このことも、Unicode Normalizationと関係があるのかな?
三省堂書店が、日本IBMの検索用ソフトウェアを利用して店頭検索端末であいまい検索機能を実現した(CNET Japan)というニュース。記事によれば、
全角/半角や大文字/小文字の違い、長音記号の有無、「ヂ」や「ジ」など濁音の相違、誤記など、表記方法の揺れを吸収するという負荷の高い検索処理を高速処理できるようになったという。例えば、「芥川龍之介」で探す場合、「竜之介」や「龍之助」と間違った入力をしても、全著作を1秒以内に検索できた。
とのこと。
実際に三省堂書店神田本店で触ってみた。確かに、レスポンスが驚くほど速い。これまでの書誌検索端末とは、レベルの違う操作感だ。試しに「バイオリン」が書名に含まれる書籍を検索してみると、「ヴァイオリン」などを含むものも検索される。ただし、「バイリンガル」を含むものも結果に含まれていた。これはバグではなく、少しの打ち間違えは許容する仕様になっているからだろう。記事では漢字の打ち間違えにも対応すると書いてあるが、客が操作できる端末からは漢字の入力はできないので、これは社員用検索システムについてのことと思われる。
