2004年04月29日
[Unicode等の文字コード]
アクセント記号付き文字をGoogleで検索
書誌端末のところで述べたあいまい検索について、ちょっと気付いたことがある。
CLIeやLibrie、Exposeといった単語の最後の「e」は正確にはアクセント記号付きの「é」だ。こうした文字をHTMLで記述する場合、一般的には「é」といった「文字参照」を使う。文字参照を使って記述しておけば、アクセント記号付き「e」のフォントがない環境(auの携帯電話A5503SAもそうだった)でも、ブラウザが解釈してただの「e」として表示してくれる(ことが多い?)。
ところが、Googleで検索をしてみると、「Exposé」と書かれたページは「Expose」ではヒットしないのだ。Unicodeの文字を直接「Exposé」と入力すれば、ちゃんとヒットする。
では、Unicodeの文字を直接記述できるUTF-8のページ(このbinWord/blogもそうだ)で、文字参照を使わずに直接「Exposé」と記述した場合はどうなるか?「Expose」でも検索できるのだろうか? このような例をうまく見つけられなかったが、この記事がGoogleに収集されればこのあたりもはっきりするはず。
Googleは4月22日にデフォルトの文字コードをUTF-8に変更している(参考記事)。このことも、Unicode Normalizationと関係があるのかな?
Googleにこのページが収集されたようなのでちょっと実験。
「é」は文字参照であれ、直接入力したものであれ、「e」とは別の文字として扱われる模様です。
なお、Googleで「é」を検索した場合、文字参照・直接入力どちらの「é」もヒットします。
コメントを投稿する
(※このエントリーに対してトラックバックを送る際は、下記URLをコピーし、自分のエントリーの「TrackBack先のURL」欄に貼り付けてください)
(※この記事へのリンクは、http://www.binword.com/blog/archives/000234.htmlにお願いします。トラックバック用URLとは異なりますのでご注意ください)
以下は、このエントリーに送られたトラックバックです。