今回の記事では、実際に自炊により大量の書籍を電子化する際に、気がついたことをまとめます. 大量に処理をしていくと、いろいろとコツが分かってきたり、問題がでてきますね。
1. 本を裁断する
1.1 挟んであるものを取り除く
基本的なことですが、栞や栞紐は取り除いておかないといけません。パラパラと何回も捲って確実にとります。取り除きそびれるのが、レシートだったりします。レシートをとっておく習慣があるためか、意外と多いので、裁断後に裁断面側からもパラパラ捲りをして確実にとります。
ぱらぱらと捲る |
栞紐も取り除く |
1.2 裁断の位置決め
購入した裁断機DURODEX/200DX*1には、カットラインを示すライトがついています。このカットラインを使って、裁断位置を決め、ガイドを設定しますが、横から覗いてみないと、どこが切れるのかわかりにくいので、位置決めは、軽く刃で本の上に跡をつけて、調整することが多いです。一冊ごとに調整するのは面倒なので、いまは文庫本サイズの本だけを電子化しています。幸い文庫本は製本が均一で、一冊ごとに微調整する必要はありませんので、次々に裁断できました。
カットラインライトでの位置決めは結構難しい。
1.3 切り込む深さ
背表紙の糊が余裕を持って切り捨てておかないと、スキャンの際に重送したり、詰まって大変です。かと言って、深く切り込みすぎると、今度は文字が切れてしまいます。
文庫本の場合、背表紙側の7mm前後の深さ裁断すれば、ほとんど糊の部分が入り込むことはありませんでした(糊が残ってしまったのは、200-300冊の文庫本をスキャンした段階でわずか1冊)。大手の出版社であれば、ほとんど同じように製本されていて、本の大きさもあまりばらついていないことが大きいのかと思います。裁断機のガイドを変更せず切断しています。
これに対して、単行本は、サイズもいろいろでなので、文庫本に比べるとずっと面倒です。表紙や裏表紙に深く糊付けしてあることが多いですが、これは注意していれば手で剥がすなり、ハサミで切り直すなどすればよいのですが、困るのは、50ページおきぐらいに深く糊を入れている製本。スキャン中に重送して気がつくので、そういう製本の場合には、見つけ出して、ハサミで別途切り離しています。
切り取った部分を裁断面を左側、背表紙を右側にして並べてみる。
大手出版社のサイズは揃っている。
1.4 裁断機の切れ味
やはり裁断機は、切れ味がよい刃で、綺麗に切れるのに越したことはありません。当初、古い別の裁断機を使っていたのですが、どうも刃がなまっていたようで、購入した新品の裁断機とはまるで違います。どこがどう違うかというと、新しい刃では軽く切れるということもありますが、もっとも問題なのは、古い刃では、本を垂直に切ることができずに、斜めに切ってしまうことが多くなることです。
例えば、図1は裁断した面を横からみたところですが、斜めにずれてしまうと、図2のように深くきりこんでしまいます。運が悪いと、文字領域にまで食い込んで、1冊だめにしてしまいます。
また、古い裁断機を使っていたときには、本の幅方向のずれも大きくて、スキャンした画像が少し斜めになってしまうことが多々ありました。新しい裁断機を使うようになってから、スキャン画像が斜めになることも少なくなくなっています。
切り込みがずれる |
もう少しで裁断が深いと文字が切れる |
2. スキャンする
2.1 排紙トレイで紙詰まり多発
キャノンのスキャナDR-C240*2固有の問題だと思いますが、排紙のトレイで頻繁に紙が詰まります。原稿の長さの調整のため、紙受け用のストッパが可動式になっており、その段差で紙が引っかかります。当初は、最初の一枚だけ手で押さえて紙詰まりしないようにしていましたが、面倒になったので、テープで塞ぐことにしました。これで紙詰まりは激減しました。
紙詰まり |
段差部分をテープで塞ぐ |
2.2 重送検知はほぼ完璧、でも重送すると悲惨
キャノンのDR-C240を使っていますが、重送はほぼ完璧に検知します。いまのところ、検知漏れはなかったのではないかと思います。でも、重送しないというわけではなく、重送します。重送の原因は、次の2つでしょうか。
- (単純に)2枚の原稿が重なって紙送りされる。
- 糊などにより2枚につながっている原稿を紙送りしている。
単純に2枚の原稿が紙送りされることはほどんどありません(極まれにある)が、糊などで繋がったりしていて、裁断が悪いと、頻繁に重送します。このパターンの重送は、原稿がくちゃくちゃになって、運が悪いと切れてしまいます。ただ、原稿がくちゃくちゃになっても、その皺がスキャン画像で目立って残るようなことはないのが、救いです。
一回、重送が生じると、原稿を入れなおしたり、ページの初期値を変更したりするなど、かなり時間のロスになります。
2.4 ローラーの交換時期
500冊ぐらいスキャンしたあたりから、急に給紙の不具合が多くなりました。、マニュアル*3に従って、メインのローラーを湿った布でゴシゴシとお掃除。はじめは、富士通のクリーナ*4とキムワイプ*5で丁寧に掃除していたのですが、良くならないので、マニュアルを読んでみたら(汗)、水を含ませた布で掃除するということなので、ゴシゴシやっています。
最近(約650冊をスキャン)では10-20冊に一回はメンテナンスを入れないと、ローラーが空回りして、給紙できないような状態になってしまいました。よくよくみると、ローラーの溝が薄くなっています。1冊300ページとして、650 books * 300 pages/book = 195,000 pages。交換目安は20万枚とあるので*6、ちょうど、そろそろ交換時期でしょうかね。交換ローラーキットは、アマゾン価格*7で8,072円(8/3現在)、高い。もう少し延命させよう...(目の粗いヤスリでごりごり削れば、溝ができるような気がするのだけど、そのうちやってみるつもり。カッターでは弾性がありすぎてダメだったので、やはりダメかも。)。
(追記) 1本目のローラは700冊ぐらいまで使って、2本目を購入しました。2本目は300冊ぐらいで不具合が発生しだしました。埃を被った本をスキャンすることが多かったからでしょうかね。
ローラーのクリーニング。 |
内側の左3本、右2本の接触面の溝がなくなり始めている。 |
2.5 ページ番号の変更
重送などが発生して、ページ番号の初期値の変更すると、もとに戻すのを忘れて、次のスキャンで番号がずれてしまうということがまま発生します。こんなときには、awkコマンドを使って、番号の振替を行っています。書いたら長くなってしまったので、記事の最後で説明します。
3. スキャンデータの後処理
3.1 スキャンした 画像をチェックする。
CapturePerfectの表示スピードが高速なので、これを使って2ページ単位に表示して原稿チェックしています。原稿チェックといっても、1秒あたり数回クリックして(6-8pages/secぐらい?)のスピードでチェックしているので、ジャムったときのページなどをチェックしているだけです。ページの抜けなどは、原稿のページ数とスキャン数の一致で確認しています。
3.2 zipファイル化する。
何冊かスキャンしたところで、前回紹介したpage2book.cshを使ってまとめてzipファイルします。
3.3 ジャンル分けして保存する。
次に、zip化したファイルをジャンル分けして、保存します。たくさんの本があると、これもかなり面倒なので、スクリプトで実行するようにしました。現在は、オリジナル画像を2箇所、圧縮ファイルを1箇所(google drive)に保存しています。
4. おわりに
現在、1000冊程度電子化しましたが、実際に大量に電子化すると、裁断とローラーの耐久性が重要という印象です。本棚で2-3台分ぐらいは電子化しているはずですが、次から次へと本がでてきて、本棚を捨てる状況にないです。タイトルにある「本棚を捨てる!」という宣言は、当面実行できそうにありません(涙)。
(2016/8/3)
関連記事
ROOM
楽天ROOMに自炊関連の商品をまとめています(随時更新)。
Appendix: awkを使った連番ファイル名の変更
ここでは、awkコマンドを使って、連番のファイル名を変更する方法について説明します。
例えば、
page_005.jpg page_006.jpg page_007.jpg :
を
page_001.jpg page_002.jpg page_003.jpg :
に変更する場合には、
ls -1 page_*.jpg | awk 'BEGIN{n=1;}{printf("mv -i %s page_%03d.jpg\n",$1,n);n++;}'
とすると、
mv -i page_005.jpg page_001.jpg mv -i page_006.jpg page_002.jpg mv -i page_007.jpg page_003.jpg :
となります。これをシェルで実行することで、ファイル名の変更を行っています。
ls -1 page_*.jpg | awk 'BEGIN{n=1;}{printf("mv -i %s page_%03d.jpg\n",$1,n);n++;}' | csh
ファイル番号を減じる場合にはこれでいいのですが、増加させる場合、例えば、
mv -i page_005.jpg page_006.jpg mv -i page_006.jpg page_007.jpg mv -i page_007.jpg page_008.jpg
では、最初のmvが既にあるpage_006.jpgを上書きしようとするので、確認のメッセージがでます("-i"オプションをつけないと、上書きされて、悲惨なことになります)。このような場合は、sortコマンドを使って、処理の順番を逆順にします。
ls -1 page_*.jpg | awk 'BEGIN{n=6;}{printf("mv -i %s page_%03d.jpg\n",$1,n);n++;}' | sort -r | csh
タイプ量が多いのですが、別途スクリプトを書くほどではないので、いつもこんな感じで連番のファイル名を変更しています。
"page_"の部分を"book_"のように変更する場合も、同じようにawkを使って変更できますが、sedを使うともう少しシンプルにできます。
ls -1 page_*.jpg | awk '{printf("mv -i %s %s\n",$1,$1)}' | sed s/page/book/2 | csh
*1:
*2: Canon キヤノン ドキュメントスキャナ imageFORMULA DR-C240
*3:キャノンのページ:DR-C240ユーザーマニュアル(機能詳細編), 70ページ
*4:
*5: キムワイプ 12×21.5cm /1箱(200枚入) S-200
*6:キャノンのページ:DR-C240交換ローラー オプション・消耗品
*7: Canon キヤノン DR-M160?/M160/C240用交換ローラーキット