Archive for the ‘character_code’ Category

アクセント記号付き文字をGoogleで検索

木曜日, 4月 29th, 2004
[`evernote` not found]
Facebook にシェア

書誌端末のところで述べたあいまい検索について、ちょっと気付いたことがある。
CLIeやLibrie、Exposeといった単語の最後の「e」は正確にはアクセント記号付きの「é」だ。こうした文字をHTMLで記述する場合、一般的には「é」といった「文字参照」を使う。文字参照を使って記述しておけば、アクセント記号付き「e」のフォントがない環境(auの携帯電話A5503SAもそうだった)でも、ブラウザが解釈してただの「e」として表示してくれる(ことが多い?)。
ところが、Googleで検索をしてみると、「Exposé」と書かれたページは「Expose」ではヒットしないのだ。Unicodeの文字を直接「Exposé」と入力すれば、ちゃんとヒットする。
では、Unicodeの文字を直接記述できるUTF-8のページ(このbinWord/blogもそうだ)で、文字参照を使わずに直接「Exposé」と記述した場合はどうなるか?「Expose」でも検索できるのだろうか? このような例をうまく見つけられなかったが、この記事がGoogleに収集されればこのあたりもはっきりするはず。
Googleは4月22日にデフォルトの文字コードをUTF-8に変更している(参考記事)。このことも、Unicode Normalizationと関係があるのかな?

あいまい検索に対応した書誌検索端末

水曜日, 4月 28th, 2004
[`evernote` not found]
Facebook にシェア

三省堂書店が、日本IBMの検索用ソフトウェアを利用して店頭検索端末であいまい検索機能を実現した(CNET Japan)というニュース。記事によれば、

全角/半角や大文字/小文字の違い、長音記号の有無、「ヂ」や「ジ」など濁音の相違、誤記など、表記方法の揺れを吸収するという負荷の高い検索処理を高速処理できるようになったという。例えば、「芥川龍之介」で探す場合、「竜之介」や「龍之助」と間違った入力をしても、全著作を1秒以内に検索できた。

とのこと。
実際に三省堂書店神田本店で触ってみた。確かに、レスポンスが驚くほど速い。これまでの書誌検索端末とは、レベルの違う操作感だ。試しに「バイオリン」が書名に含まれる書籍を検索してみると、「ヴァイオリン」などを含むものも検索される。ただし、「バイリンガル」を含むものも結果に含まれていた。これはバグではなく、少しの打ち間違えは許容する仕様になっているからだろう。記事では漢字の打ち間違えにも対応すると書いてあるが、客が操作できる端末からは漢字の入力はできないので、これは社員用検索システムについてのことと思われる。
sanseido.jpg

(さらに…)

超漢字原稿プロセッサの使い勝手はどんなものか

水曜日, 4月 21st, 2004
[`evernote` not found]
Facebook にシェア

パーソナルメディアから、原稿執筆用ソフト「超漢字原稿プロセッサ」が発売される。これはBTRON仕様OSの超漢字4上で動作するアプリケーション。超漢字の17万字を利用して豊かな文字表現力を実現する多漢字環境、原文のレイアウトを保持したまま文章の修正履歴を表示できる「赤ペン詳細モード」などの特長があり、編集者・ライターとしてはかなり気になる存在ではある。

(さらに…)

日中韓の3カ国が合意した文字コードとは?

火曜日, 4月 20th, 2004
[`evernote` not found]
Facebook にシェア

文字コードといえば気になっているのが、日中韓のLinuxの標準化活動(IT Pro)というニュース。3カ国共同で統一OSを作るという一部報道に関しては否定された(ITmedia)が、今度の会合では、OSSの普及促進に向けて、文書交換フォーマットやデバイスドライバなどの環境整備で協力できる面がないか、などOSS開発で連携できる部分を模索する予定となっている。
IT Proの記事でも、標準化する文書フォーマットや文字コードの候補はすでに上がっているが,政府機関などで文書をやり取りする際に,WordやExcelといった特定のソフトウエアに縛られない,アプリケーションに依存しない仕様とする方針と書かれているのに、4月3日の「北東アジアOSS推進フォーラム」でいったいどんなことが決まったのか一向に報道がない。中国情報局の記事日中間3カ国のオープンソース協力で政府間合意とあるのを見つけたが、具体的にどんなことに合意したのかわからない。
日中韓で連携できるということなので、文字コードはUnicodeなのだろうとは思うのだけど。この合意内容によっては、一般の文書で使われる文字コードも影響を受けることになるのか?

(2004年7月29日追記)
IT Proより)。記事によれば、

「Linux,文字コード,文書交換フォーマットなどの標準化に関して協力し,中国,日本,韓国の各国言語に対するLinuxのサポートを強化する」という合意に関しては,Linux標準化ワーキング・グループにおいて,すでにLinux標準案を作成した。日本側の担当者によれば,標準案は200ページ程度の内容で,ユーザー・インタフェースやAPIなど内容はわたるが,「標準使用というより,調達基準のようなものもあった」という。現在,日中韓の担当者により,内容について協議中である。

とのこと。
また、日中韓それぞれLinuxの標準化に対する思惑が違うという記事も。

WinとMacでUnicode文書を検索

火曜日, 4月 20th, 2004
[`evernote` not found]
Facebook にシェア

仕事によっては、Unicodeのテキストファイルを積極的に利用していこうといろいろ試している。JISコード(正確にはJIS X 0208)にない文字も、OSやアプリケーションを問わずにやり取りできて便利だろうと思うからだ。
例えば、私は用語辞典の仕事をしており、紙とデジタルで同じデータを活用できると仕事が楽になる。ところが、丸数字(「?」など。カギ括弧内は環境によっては見えないかも)1つ取っても厄介だ。今までDTPオペレータにシフトJISで原稿データを渡していたが、Windowsの文字コード(シフトJISを拡張したCP932)とMacでは丸数字のコードも異なる。気の利いたDTPオペレータなら、Windows機種(プラットフォーム)依存文字の自動変換処理くらいはしてくれるから、紙に印刷する分には問題にはならない。ところが、一度DTPソフトに流し込んだテキストを抜き出して、再利用しようとするとこうした文字コードの違いが問題になってくる。そこで、Unicodeで文字コードを統一できれば、データの再利用がしやすくなるはずだ。

(さらに…)

Windowsの独自拡張文字とUnicode

水曜日, 3月 31st, 2004
[`evernote` not found]
Facebook にシェア

最近、一部の仕事では、テキストの文字コードをUnicodeにしていこうかと考えている。DTP作業と密接に連携する必要のある仕事では、Unicodeをベースにすれば、扱える文字種が増え、なおかつ特殊な記号を別途DTPオペレーターに指示する必要がない。例えば、改行マークを入れたい場合、今までの(シフトJISベースの)ワークフローではテキストデータ中にオペレーターがわかるように指示を入れたり、打ち出した紙に指示を書き込んでおくといった手間がかかった。Unicodeが扱える環境なら、「?」(U+21B5)をそのままテキストデータに書き込んでおけばいい(カギ括弧内は改行マーク。フォント環境によっては画面上で見えないかも)。マークの書体に凝りたいといった場合にはやはり別途指示する必要はあるだろうが。
DTPソフトではInDesignのUnicode対応が進んでおり、Mac/Winが混在したワークフローでも何とかなりそうな気がする。
現在試行錯誤中なのだが、1つ気になったのは既存のテキストデータを利用する場合だ。シフトJIS形式で書かれたテキストデータをUnicode(のUTF-8形式)に変換する場合、OSやアプリケーションによって変換結果が異なることがあるようだ。例えば、丸数字(「?」など)。WindowsではJISコード(JIS X 0208)を独自に拡張して丸数字等を割り当てている。こうした文字を使ったシフトJISのテキストを、Windowsのメモ帳でUTF-8形式で保存すると、該当するUnicodeのコードに変換される。しかし、Mac OS Xのテキストエディットで元のシフトJISテキストを読み込み(Mac用フォントの該当コードは丸数字でないため表示されない)、UTF-8形式で保存してもWindowsのメモ帳とは同じ結果にならないのだ(文字化けしてしまう)。Mac OS X(というよりWindows以外のOS)では、Windows独自拡張文字に対応していないから、ある意味当然といえば当然なのかもしれないが……。機種依存文字を使った文書をUnicodeに変換する際には、注意する必要がありそうだ。

(補足)
このbinWord/blogは、UTF-8形式になっている。上記の文章中、改行マークや丸数字を使っているが、これはUnicodeで定義されているもの。WindowsXP等のMSゴシック・MS明朝、Mac OS Xのヒラギノフォントであれば問題なく閲覧できるはず。

(追記)
変換の相違についてまとめたページを発見。
シフトJISからUnicodeへの変換テーブルの相違

「フォント・トレーサビリティシステム」についての疑問と回答

日曜日, 3月 14th, 2004
[`evernote` not found]
Facebook にシェア

先日発表された「フォント・トレーサビリティシステム」について興味が湧いてきたので、YRPユビキタスネットワーキング研究所に直接お尋ねしてみた。以下は、私の疑問点と、それに対する研究所の回答だ。

Q:多漢字コンテンツ(TRONコードコンテンツ)は、超漢字上で作成するようになっているようですが、WindowsやMac OS X上で動作する多漢字コンテンツの制作環境を提供される予定はありますか?
A:WinやMac上のシステムを提供する予定は、短期的には予定しておりません。今後、ユーザの方々のご要望を伺いながら、ご要望の高いシステムから順番に開発を進めていきたいと思っておりますので、もしもそういう機能へのご要望が大きければ、開発予定にのせていく意思は十分にあります。
(Tats_y:多漢字コンテンツがほかのOS上で作成できてしまうと、超漢字(BTRON)の存在意義が薄れるだろうし、なかなか難しいところだと思う。ただ、「超漢字で原稿を作成して、DTPデータはMacやWindows」というワークフローだと、データの修正時に手間がかかるというのは容易に想像が付く。ぜひ、超漢字以外のOS上でも動作する多漢字コンテンツ制作環境を用意していただきたいところ)

(さらに…)

外字問題を解決する「フォント・トレーサビリティシステム」

金曜日, 3月 12th, 2004
[`evernote` not found]
Facebook にシェア

先日紹介した「旧字も網羅した文字システム」というのは、「トロン・フォント・トレーサビリティシステム」(発表資料)だとわかった。詳しくは、MYCOM PC WEBで紹介されている。
これまで、既存の文字体系(JISコードやUnicode等々)にない文字を使おうとすれば、外字を使うしかなかった。ところが、外字領域にどういった文字が割り当てられているかは環境によってまったく異なるため、外字を使った文書をやり取りすることができなかった。
この問題の解決策が、「フォント・トレーサビリティ・システム」だという。既存の文字体系にない文字を使ったコンテンツ(多漢字コンテンツ)を、このシステム(サーバ上にある)で変換処理し、WindowsやMac OSなどで普通に扱えるシフトJISコンテンツと、コンテンツ内で使われている外字フォントを生成する。両方のデータをWindowsやMacのDTPソフトなどで読み込んで利用する。
多漢字コンテンツでの文字は、TRONコードを使って表現される。外字として変換する際、外字表にはucodeを割り当てて管理する。あらかじめ標準的な外字表も用意されるようだ。

(さらに…)

旧字も網羅した文字システムとは?

木曜日, 3月 11th, 2004
[`evernote` not found]
Facebook にシェア

アサヒ・コムの経済欄に「旧字も網羅した文字システム開発 坂村教授の研究所など」という記事が掲載されている。今までTRONベースでしか使えなかった多文字システムが、WindowsやMac OS上で利用できるようになった……らしいのだが、なぜかIT系ニュースサイトはどこも報道していない。詳細がさっぱりわからないから何ともいえないが、これってかなり大きなニュースではないのか? もしかして、すでにどこかで発表されている内容なのか?
ニュースの掲載時刻から見て、トロン協会トロン多文字応用セミナーで発表されたものだと思われるが(このセミナーが行われると知っていれば出席したのに)。

多文字環境というところに興味を引かれて、だいぶ前にBTRON仕様OSの超漢字4も入れてみたのだが、けっきょくまったく使っていない(超漢字についてはMYCOM PC WEBの記事に詳しい)。OSの設計思想やユーザーインターフェイスに興味はあるのだけど、WindowsやMac OS X環境との間で、実用的な形で多文字データをやり取りできないのはやはりきつい。BTRONがその他のシステム(例えばPDF)とうまく組み合わされば面白いことになるのにとずっと思っていたから、Windows、Mac環境の多文字システムというのはとても気になる。Unicode対応アプリケーションと併用できるのか? フォントはどんなものが使えるのか? 「超漢字原稿プロセッサ」が移植されたということなのか?

(追記)
ZAKZAKで(これも一般紙系サイト!)で、もう少し詳しい情報が掲載されていた。

標準文字にない外字にそれぞれ識別番号を付けた文字コード(トロンコード)のデータベースを活用。専用の外字変換サーバーを使い、必要な文字をデータベースから検索して表示する仕組み。データベースや専用サーバーは無償で公開する。

また、新技術は自治体や企業合併の際、外字データを整理統合するケースなどでも有効だという。年内には個人でも利用できるようになる見込みだとのこと。