Unicode等の文字コードについての記事

2008年06月21日

日本Ruby会議2008のメモ(1)

日本Ruby会議2008で、面白いと思ったネタのメモ。あくまでも非プログラマの視点ですが。

"日本Ruby会議2008のメモ(1)"の続きを読む。
Posted by Tats_y at 22:09
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2008年05月11日

Leopardの「辞書」アプリで「ランダムハウス英語辞典」を使う

ランダムハウス英語辞典 第二版 CD-ROM版Leopardの辞書アプリ(Dictionary.app)で英辞郎を使えるようにしたおかげで、海外のサイトを読むのもずいぶん楽になった。しかし、単語の意味などをもう少し詳しく知りたいという時は、英辞郎だとちと物足りない。そこで、だいぶ前に買ったまま、ほとんど活用していなかったランダムハウス英語辞典(第二版)をDictionary.app用に変換してみることにする。
ランダムハウス英語辞典が使えるMac用の辞書ソフトとしては、すでにJammingがあるが、できればDictionary.appにまとめたいところ。検索機能はJammingが格段に優れているが、日常的にさっと調べるならDictionary.appの方が使いやすく感じる。まあ、変換処理自体が面白くなってきたというのもあるのだけど。

"Leopardの「辞書」アプリで「ランダムハウス英語辞典」を使う"の続きを読む。
Posted by Tats_y at 21:34
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2007年11月06日

Leopardの「辞書」アプリで「英辞郎」を使う

先の記事でも書いたように、Mac OS X v10.5 "Leopard"の「辞書」アプリケーション(辞書.app / Dictionary.app)用の辞書はユーザーが追加できるようになっている。そこで、定番の英和辞書「英辞郎」を変換するツールを作ってみた。英辞郎は、現時点で最新のv108を使用している。

"Leopardの「辞書」アプリで「英辞郎」を使う"の続きを読む。
Posted by Tats_y at 14:49
個別記事 | コメント(51) | トラックバック(2) | このエントリーを含むはてなブックマーク ブックマークに追加する

2007年09月02日

Firefoxで開いたページを携帯電話やPDAで閲覧する

私はWebのニュースをチェックする場合、各サイトのトップページから興味のあるすべての項目をタブで開き、見終わったタブから次々閉じていくというやり方をしている。Firefoxなどのタブブラウザを利用している人ならば、ごく一般的な使い方だろう。
こうやってニュースチェックをしている途中で外出しなければならないことはよくある。そんな時、移動中にPDAや携帯電話のフルブラウザを使ってニュースチェックの続きができればなあと思っていた。複数パソコンでブラウザにFirefoxを使っているなら、Google Browser Syncを使えばいいが、携帯電話やPDAではそうもいかない。はてなブックマークのようなソーシャルブックマークを使うという手もあるが、記事ごとに登録していくのは面倒だ。また、不正な利用を避けるためか、こういうソーシャルブックマークサービスでは自動処理が行えなくなっている。
そこで、現在タブで開いているページへのリンクを1つのHTMLファイルとして生成し、自分が使っているWebページサービスやレンタルサーバーなどにアップロードすればよいのではないかと考えた。

"Firefoxで開いたページを携帯電話やPDAで閲覧する"の続きを読む。
Posted by Tats_y at 12:54
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2005年10月20日

自動組版のセミナーに参加してきた

JAGAT(日本印刷技術協会)が主催する「紙面制作の自動化とページデザイン」のセミナーに参加してきた。PCJapan用語辞典のワークフロー作りをお手伝いしたということで、無理を言ってタダで(←ここ重要(笑))聴講させてもらったのだ。

このワークフローについて簡単に述べておこう。ハッカー用語辞典2004まではMac OS 9+QuarkXPressの環境だったが、PCJapan用語辞典2005からはDTPプロダクションのビーワークスと話し合ってInDesignを使ってもらうことにした。私の立場からの理由は2つ。XMLとUnicodeである。
PCJapan用語辞典の制作ではデジタル版(WindowsのHTML Help形式)を作るためにDTPデータを再利用したい。そのために、XMLでデータをやり取りできれば作業がスムーズに行くと考えた。

"自動組版のセミナーに参加してきた"の続きを読む。
Posted by Tats_y at 22:20
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2005年03月26日

東大FinkチームのUNIXパッケージインストーラ

Mac OS XはUNIXをベースにしたOSで、UNIX用に開発された多彩なソフトウェアを利用できる。こうしたソフトウェア群を簡単にインストールするため、Finkというパッケージが用意されているのだが、このFinkでは日本語環境のことが考慮されていなかった。そのため、日本語を使おうとすると、ユーザーがあれやこれやと設定ファイルをいじくり回す必要があった。
私もMac OS XでUNIXソフトウェアを使うことに興味はあったものの、ちょっと手が出せずにいた。こうした状況を、東大Finkチームが変えつつある。2003年末に東大ではiMacを大量導入し、同時にUNIX環境の整備を開始した。本家Finkプロジェクトと連携を取りつつ、Mac OS XのUNIX環境で日本語が扱える手軽なパッケージを作成している。
3月25、26日に開催されたオープンソースカンファレンス2005では、東大Finkチームの作成したインストーラCDも配布された。これはUNIXの知識がない人間でも日本語の扱えるUNIX環境を構築できる優れものなのだ。セミナーでは、Finkを日本語に対応する苦労話などが詳細に語られていた。以下、そのメモ(私はこの分野に詳しいわけではないので、誤解している部分もあると思う)

"東大FinkチームのUNIXパッケージインストーラ"の続きを読む。
Posted by Tats_y at 22:27
個別記事 | コメント(2) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年10月12日

民明書房とUnicode

30代の男性なら、一度は民明書房発行の書籍を書店で探したことがあるのではないか。『魁!!男塾』の参考文献としてよく出てきたアレである(最近では、続編『暁!!男塾』がスーパージャンプ誌上で連載中)。最近、民明書房の書籍をまとめた『民明書房大全』が発行されたので、バカ中学生だった頃の思い出に浸ってみるのも楽しかろう。

民明書房大全には、見たこともない漢字がバンバン出てくる。例えば、私の大好きなネタ、李筴振(りばしぶる)が創始した凶獬面閶殺(きょうかいめんしょうさつ)。ネタの内容については同書を見てもらうとして、「獬」(かい)も「閶」(しょう)もJISコード(JIS X 0208)の第一水準、第二水準に含まれていない。ただし、Unicodeには収録されているので、Windows XPやMac OS Xなら問題なく扱えるし、このブログのようにUTF-8で書かれたWebページでも使える。男塾のファンサイトを運営するなら、UTF-8ベースじゃないときついかもしれない。
それにしても、民明書房大全の校正は大変だったんじゃないかな。やっぱり、DTPにはInDesignを使ったんだろうか。

Posted by Tats_y at 22:08
個別記事 | コメント(0) | トラックバック(1) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年04月29日

アクセント記号付き文字をGoogleで検索

書誌端末のところで述べたあいまい検索について、ちょっと気付いたことがある。
CLIeやLibrie、Exposeといった単語の最後の「e」は正確にはアクセント記号付きの「é」だ。こうした文字をHTMLで記述する場合、一般的には「é」といった「文字参照」を使う。文字参照を使って記述しておけば、アクセント記号付き「e」のフォントがない環境(auの携帯電話A5503SAもそうだった)でも、ブラウザが解釈してただの「e」として表示してくれる(ことが多い?)。
ところが、Googleで検索をしてみると、「Exposé」と書かれたページは「Expose」ではヒットしないのだ。Unicodeの文字を直接「Exposé」と入力すれば、ちゃんとヒットする。
では、Unicodeの文字を直接記述できるUTF-8のページ(このbinWord/blogもそうだ)で、文字参照を使わずに直接「Exposé」と記述した場合はどうなるか?「Expose」でも検索できるのだろうか? このような例をうまく見つけられなかったが、この記事がGoogleに収集されればこのあたりもはっきりするはず。
Googleは4月22日にデフォルトの文字コードをUTF-8に変更している(参考記事)。このことも、Unicode Normalizationと関係があるのかな?

Posted by Tats_y at 11:37
個別記事 | コメント(1) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年04月28日

あいまい検索に対応した書誌検索端末

三省堂書店が、日本IBMの検索用ソフトウェアを利用して店頭検索端末であいまい検索機能を実現した(CNET Japan)というニュース。記事によれば、

全角/半角や大文字/小文字の違い、長音記号の有無、「ヂ」や「ジ」など濁音の相違、誤記など、表記方法の揺れを吸収するという負荷の高い検索処理を高速処理できるようになったという。例えば、「芥川龍之介」で探す場合、「竜之介」や「龍之助」と間違った入力をしても、全著作を1秒以内に検索できた。
とのこと。
実際に三省堂書店神田本店で触ってみた。確かに、レスポンスが驚くほど速い。これまでの書誌検索端末とは、レベルの違う操作感だ。試しに「バイオリン」が書名に含まれる書籍を検索してみると、「ヴァイオリン」などを含むものも検索される。ただし、「バイリンガル」を含むものも結果に含まれていた。これはバグではなく、少しの打ち間違えは許容する仕様になっているからだろう。記事では漢字の打ち間違えにも対応すると書いてあるが、客が操作できる端末からは漢字の入力はできないので、これは社員用検索システムについてのことと思われる。
sanseido.jpg

"あいまい検索に対応した書誌検索端末"の続きを読む。
Posted by Tats_y at 22:34
個別記事 | コメント(2) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年04月21日

超漢字原稿プロセッサの使い勝手はどんなものか

パーソナルメディアから、原稿執筆用ソフト「超漢字原稿プロセッサ」が発売される。これはBTRON仕様OSの超漢字4上で動作するアプリケーション。超漢字の17万字を利用して豊かな文字表現力を実現する多漢字環境、原文のレイアウトを保持したまま文章の修正履歴を表示できる「赤ペン詳細モード」などの特長があり、編集者・ライターとしてはかなり気になる存在ではある。

"超漢字原稿プロセッサの使い勝手はどんなものか"の続きを読む。
Posted by Tats_y at 11:26
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年04月20日

日中韓の3カ国が合意した文字コードとは?

文字コードといえば気になっているのが、日中韓のLinuxの標準化活動(IT Pro)というニュース。3カ国共同で統一OSを作るという一部報道に関しては否定された(ITmedia)が、今度の会合では、OSSの普及促進に向けて、文書交換フォーマットやデバイスドライバなどの環境整備で協力できる面がないか、などOSS開発で連携できる部分を模索する予定となっている。
IT Proの記事でも、標準化する文書フォーマットや文字コードの候補はすでに上がっているが,政府機関などで文書をやり取りする際に,WordやExcelといった特定のソフトウエアに縛られない,アプリケーションに依存しない仕様とする方針と書かれているのに、4月3日の「北東アジアOSS推進フォーラム」でいったいどんなことが決まったのか一向に報道がない。中国情報局の記事日中間3カ国のオープンソース協力で政府間合意とあるのを見つけたが、具体的にどんなことに合意したのかわからない。
日中韓で連携できるということなので、文字コードはUnicodeなのだろうとは思うのだけど。この合意内容によっては、一般の文書で使われる文字コードも影響を受けることになるのか?

(2004年7月29日追記)
第2回 北東アジアOSS推進フォーラムが開催された(IT Proより)。記事によれば、

「Linux,文字コード,文書交換フォーマットなどの標準化に関して協力し,中国,日本,韓国の各国言語に対するLinuxのサポートを強化する」という合意に関しては,Linux標準化ワーキング・グループにおいて,すでにLinux標準案を作成した。日本側の担当者によれば,標準案は200ページ程度の内容で,ユーザー・インタフェースやAPIなど内容はわたるが,「標準使用というより,調達基準のようなものもあった」という。現在,日中韓の担当者により,内容について協議中である。
とのこと。
また、日中韓それぞれLinuxの標準化に対する思惑が違うという記事も。

Posted by Tats_y at 13:56
個別記事 | コメント(0) | トラックバック(2) | このエントリーを含むはてなブックマーク ブックマークに追加する

WinとMacでUnicode文書を検索

仕事によっては、Unicodeのテキストファイルを積極的に利用していこうといろいろ試している。JISコード(正確にはJIS X 0208)にない文字も、OSやアプリケーションを問わずにやり取りできて便利だろうと思うからだ。
例えば、私は用語辞典の仕事をしており、紙とデジタルで同じデータを活用できると仕事が楽になる。ところが、丸数字(「①」など。カギ括弧内は環境によっては見えないかも)1つ取っても厄介だ。今までDTPオペレータにシフトJISで原稿データを渡していたが、Windowsの文字コード(シフトJISを拡張したCP932)とMacでは丸数字のコードも異なる。気の利いたDTPオペレータなら、Windows機種(プラットフォーム)依存文字の自動変換処理くらいはしてくれるから、紙に印刷する分には問題にはならない。ところが、一度DTPソフトに流し込んだテキストを抜き出して、再利用しようとするとこうした文字コードの違いが問題になってくる。そこで、Unicodeで文字コードを統一できれば、データの再利用がしやすくなるはずだ。

"WinとMacでUnicode文書を検索"の続きを読む。
Posted by Tats_y at 13:53
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年03月31日

Windowsの独自拡張文字とUnicode

最近、一部の仕事では、テキストの文字コードをUnicodeにしていこうかと考えている。DTP作業と密接に連携する必要のある仕事では、Unicodeをベースにすれば、扱える文字種が増え、なおかつ特殊な記号を別途DTPオペレーターに指示する必要がない。例えば、改行マークを入れたい場合、今までの(シフトJISベースの)ワークフローではテキストデータ中にオペレーターがわかるように指示を入れたり、打ち出した紙に指示を書き込んでおくといった手間がかかった。Unicodeが扱える環境なら、「↵」(U+21B5)をそのままテキストデータに書き込んでおけばいい(カギ括弧内は改行マーク。フォント環境によっては画面上で見えないかも)。マークの書体に凝りたいといった場合にはやはり別途指示する必要はあるだろうが。
DTPソフトではInDesignのUnicode対応が進んでおり、Mac/Winが混在したワークフローでも何とかなりそうな気がする。
現在試行錯誤中なのだが、1つ気になったのは既存のテキストデータを利用する場合だ。シフトJIS形式で書かれたテキストデータをUnicode(のUTF-8形式)に変換する場合、OSやアプリケーションによって変換結果が異なることがあるようだ。例えば、丸数字(「①」など)。WindowsではJISコード(JIS X 0208)を独自に拡張して丸数字等を割り当てている。こうした文字を使ったシフトJISのテキストを、Windowsのメモ帳でUTF-8形式で保存すると、該当するUnicodeのコードに変換される。しかし、Mac OS Xのテキストエディットで元のシフトJISテキストを読み込み(Mac用フォントの該当コードは丸数字でないため表示されない)、UTF-8形式で保存してもWindowsのメモ帳とは同じ結果にならないのだ(文字化けしてしまう)。Mac OS X(というよりWindows以外のOS)では、Windows独自拡張文字に対応していないから、ある意味当然といえば当然なのかもしれないが……。機種依存文字を使った文書をUnicodeに変換する際には、注意する必要がありそうだ。

(補足)
このbinWord/blogは、UTF-8形式になっている。上記の文章中、改行マークや丸数字を使っているが、これはUnicodeで定義されているもの。WindowsXP等のMSゴシック・MS明朝、Mac OS Xのヒラギノフォントであれば問題なく閲覧できるはず。

(追記)
変換の相違についてまとめたページを発見。
シフトJISからUnicodeへの変換テーブルの相違

Posted by Tats_y at 14:37
個別記事 | コメント(2) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年03月14日

「フォント・トレーサビリティシステム」についての疑問と回答

先日発表された「フォント・トレーサビリティシステム」について興味が湧いてきたので、YRPユビキタスネットワーキング研究所に直接お尋ねしてみた。以下は、私の疑問点と、それに対する研究所の回答だ。

Q:多漢字コンテンツ(TRONコードコンテンツ)は、超漢字上で作成するようになっているようですが、WindowsやMac OS X上で動作する多漢字コンテンツの制作環境を提供される予定はありますか?
A:WinやMac上のシステムを提供する予定は、短期的には予定しておりません。今後、ユーザの方々のご要望を伺いながら、ご要望の高いシステムから順番に開発を進めていきたいと思っておりますので、もしもそういう機能へのご要望が大きければ、開発予定にのせていく意思は十分にあります。
(Tats_y:多漢字コンテンツがほかのOS上で作成できてしまうと、超漢字(BTRON)の存在意義が薄れるだろうし、なかなか難しいところだと思う。ただ、「超漢字で原稿を作成して、DTPデータはMacやWindows」というワークフローだと、データの修正時に手間がかかるというのは容易に想像が付く。ぜひ、超漢字以外のOS上でも動作する多漢字コンテンツ制作環境を用意していただきたいところ)

"「フォント・トレーサビリティシステム」についての疑問と回答"の続きを読む。
Posted by Tats_y at 10:44
個別記事 | コメント(0) | トラックバック(0) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年03月12日

外字問題を解決する「フォント・トレーサビリティシステム」

先日紹介した「旧字も網羅した文字システム」というのは、「トロン・フォント・トレーサビリティシステム」(発表資料)だとわかった。詳しくは、MYCOM PC WEBで紹介されている。
これまで、既存の文字体系(JISコードやUnicode等々)にない文字を使おうとすれば、外字を使うしかなかった。ところが、外字領域にどういった文字が割り当てられているかは環境によってまったく異なるため、外字を使った文書をやり取りすることができなかった。
この問題の解決策が、「フォント・トレーサビリティ・システム」だという。既存の文字体系にない文字を使ったコンテンツ(多漢字コンテンツ)を、このシステム(サーバ上にある)で変換処理し、WindowsやMac OSなどで普通に扱えるシフトJISコンテンツと、コンテンツ内で使われている外字フォントを生成する。両方のデータをWindowsやMacのDTPソフトなどで読み込んで利用する。
多漢字コンテンツでの文字は、TRONコードを使って表現される。外字として変換する際、外字表にはucodeを割り当てて管理する。あらかじめ標準的な外字表も用意されるようだ。

"外字問題を解決する「フォント・トレーサビリティシステム」"の続きを読む。
Posted by Tats_y at 16:48
個別記事 | コメント(0) | トラックバック(2) | このエントリーを含むはてなブックマーク ブックマークに追加する

2004年03月11日

旧字も網羅した文字システムとは?

アサヒ・コムの経済欄に「旧字も網羅した文字システム開発 坂村教授の研究所など」という記事が掲載されている。今までTRONベースでしか使えなかった多文字システムが、WindowsやMac OS上で利用できるようになった……らしいのだが、なぜかIT系ニュースサイトはどこも報道していない。詳細がさっぱりわからないから何ともいえないが、これってかなり大きなニュースではないのか? もしかして、すでにどこかで発表されている内容なのか?
ニュースの掲載時刻から見て、トロン協会トロン多文字応用セミナーで発表されたものだと思われるが(このセミナーが行われると知っていれば出席したのに)。

多文字環境というところに興味を引かれて、だいぶ前にBTRON仕様OSの超漢字4も入れてみたのだが、けっきょくまったく使っていない(超漢字についてはMYCOM PC WEBの記事に詳しい)。OSの設計思想やユーザーインターフェイスに興味はあるのだけど、WindowsやMac OS X環境との間で、実用的な形で多文字データをやり取りできないのはやはりきつい。BTRONがその他のシステム(例えばPDF)とうまく組み合わされば面白いことになるのにとずっと思っていたから、Windows、Mac環境の多文字システムというのはとても気になる。Unicode対応アプリケーションと併用できるのか? フォントはどんなものが使えるのか? 「超漢字原稿プロセッサ」が移植されたということなのか?

(追記)
ZAKZAKで(これも一般紙系サイト!)で、もう少し詳しい情報が掲載されていた。

標準文字にない外字にそれぞれ識別番号を付けた文字コード(トロンコード)のデータベースを活用。専用の外字変換サーバーを使い、必要な文字をデータベースから検索して表示する仕組み。データベースや専用サーバーは無償で公開する。
また、新技術は自治体や企業合併の際、外字データを整理統合するケースなどでも有効だという。年内には個人でも利用できるようになる見込みだとのこと。

Posted by Tats_y at 16:56
個別記事 | コメント(0) | トラックバック(1) | このエントリーを含むはてなブックマーク ブックマークに追加する