2004年12月03日

[英語学習] , [本・雑誌] , [辞書] , [ハードウェア] , [仕事術/ライフハック]

書類や雑誌、本をデジタル化する

紙文書のデジタル化は前からやりたいと思っていた。メーカーのプレスリリースだとか、打ち合わせの資料、雑誌の記事などなど、紙の状態だと場所を取るし、結局紙のままでは後から情報を探し出せないからだ。しかし、数年前フラットベッドスキャナで書類のスキャニングをやってみた時は、USB1.1で転送速度が遅かったし、1枚1枚スキャニングする手間に耐えかねて2枚目で早くも挫折。かといって、ADF(原稿自動送り装置)付きのスキャナを買うほどでもないよなあと思っていた。

ところが、プリンタの調子が悪くなって買い換えたMFC-5840CNAmazon)には、標準でADFが付いている。エー・アイ・ソフトの読んde!!ココと組み合わせて使ってみたところ、意外なほど実用的だった。

普通の書類はADFに流し込んで、自動傾き補正や認識を行って、透明テキスト付きPDFにする。透明テキスト付きPDFというのは、OCRで認識させたテキストデータも貼り込まれたPDF。外見はオリジナルの書類と同じで、なおかつテキストデータも取り出せる。
読んde!!ココで自動化の設定をしておけば、ボタンを1つ押してスキャニングの解像度を選ぶだけ。400×400dpiの解像度で、モノクロA4のプレスリリース10枚をPDF化してみると、だいたい4分半程度かかった(所用時間は文字量や画像によっても大きく変わってくる)。ADFに原稿をセットして放っておけばよいし、OCRの認識率も(文書によるだろうが)9割以上はあるようだ。これならそれほど苦にならずに使えそう。

ちと面倒なのが本や書籍で、こういったものはバラさないと手間がかかりすぎて無理。カッターで適当に切り分けて、端を裁断機で処理する。裁断機はあった方がいい、というか、ないとほぼ確実にADFで詰まってしまう。私は、カール事務機のディスクカッターDC-230を使用している。裁断機に詳しくはないが、それにしても最近の製品はよくできているものだ。スライダーを動かすだけで、40枚くらいスパッときれいに切れて気持ちがいい。本体内に予備カッター刃やマットを収納できるようになっていたりして、地道に進化しているのだな。
さて、バラした原稿をADFにかけるわけだが、読んde!!ココで両面スキャンを選ぶと、表面をまとめて読んだ後、ダイアログが出てくる。ここで原稿をひっくり返して再度ADFに入れれば、裏面を読み込んで適切な順番に並べ替えてくれる。あとは、同じように認識して、保存すればいい。
(補足:MFC-5840CNでスキャンする際、標準のWIAドライバだとなぜか両面スキャンがうまく行かないことがあった。TWAINドライバに変えたら問題は起こらなくなった)
A4の洋雑誌を400×400dpi(256色)で取り込んだところ、1枚の読み込みだけで1分ほどかかった。その後、領域抽出やら認識処理を行うのだが、雑誌はレイアウトが複雑なこともあってそれらの処理に1枚当たり1分以上かかることも。雑誌丸ごとスキャニングはさすがにやる気にならない。出来上がるPDFのサイズもかなりでかくなるし(400×400dpi、256色、A4サイズの雑誌100ページを透明テキスト付きPDFにすると、274MBになった)。
大量の書類や記事をスキャニングするなら、カラーで両面読み取りのできるScanSnap fi-5110EOXなどを使った方がいいだろう。ScanSnapで作られるPDFにはテキストデータが付いていないが、読んde!!ココなどであとから文字認識させることもできるようだ。

テキストデータ付きでPDF化した文書は、予想以上に使い勝手がいい。サーチクロスを使えば文書中の語句を指定してすぐに探し出せるから、超絶的に便利だ。あと、英語雑誌を読むのにいいかも。たまに英語雑誌を買うのだけど、1つ2つ記事を読んだら面倒くさくなってほったらかしにしていた。テキストデータ付きでPDF化しておけば、Babylon-Proなどの電子辞書で単語を調べられるから、ちょっとは読んでみようという気になってきた(長続きしなさそうな予感がするけど)。

Posted by Tats_y at 2004年12月03日 12:19 | このエントリーを含むはてなブックマーク ブックマークに追加する | この記事へのリンク
この記事へのトラックバック
(※このエントリーに対してトラックバックを送る際は、下記URLをコピーし、自分のエントリーの「TrackBack先のURL」欄に貼り付けてください)



(※この記事へのリンクは、http://www.binword.com/blog/archives/000329.htmlにお願いします。トラックバック用URLとは異なりますのでご注意ください)

以下は、このエントリーに送られたトラックバックです。
この記事に対するコメント

嵌ってますね~(笑)。

ふと思ったのですが、国立国会図書館あたりで、出版されてる全ての書籍・雑誌のデジタルデータ化をして、検索サービスやってくれませんかね。有料会員制にして、さらにページをアウトプットするときに課金するとかすれば受益者負担になるし、版権も守られる・・・

・・・いや、単にウチの本減らせないかな、と。

Posted by: yunnan at 2004年12月04日 01:34

国会図書館の方でも、デジタル化の構想はあるようです。
http://www.ndl.go.jp/jp/aboutus/elib_plan2004.html
しかし、効率的にスキャニングするならやっぱり本をバラさないといけないでしょうし、それでも相当な手間がかかるでしょうねえ。今なんか、昔の雑誌を製本する作業だけで半年もかかっていたりするんですよ!その間、閲覧できないし、まったく。まあ、すべての書籍のデジタル化は難しいでしょうね。
米国Amazonの全文検索サービスを日本でもやってくれないかなー。せめてこれから発売される書籍についてだけでも。

Posted by: Tats_y at 2004年12月04日 10:25

やはり回り道はおかしいのではないの。
という正直な声は、生まれた時からPCに接している世代からは聞かれるでしょう。
デジタルで作成→アナログは逆走ですから。
私は「紙課税」でデジタル優遇税制でいいと思いって居ます。
余りにも既存メディアは、保守的というか先見性が無さ過ぎます。

Posted by: 高橋 光男 at 2005年05月04日 15:16
コメントを投稿する









次回投稿するために、あなたのお名前やメールアドレスを記憶しておきますか?




コメントスパム防止のため、画像で表示されている文字を入力してください。