2008年02月03日

ミシガンのグーグル・ライブラリー・プロジェクト

 下書きですよ。

-----------------------------------------------------
 Google Library Projectは、Googleと提携図書館による蔵書スキャン・インデクシング事業です。Googleが各提携図書館の蔵書をデジタル画像として読み取り、データ化して、全文検索を可能にするというもので、著作権の切れたものや出版者許諾の得られた図書などについては、全文または一部を無料で見ることができます。
 2004年12月、Googleが最初に発表したLibrary Projectの提携先は、Harvard、Stanford、New Yorl Public Library、Oxford、そしてUniversity of Michigan(以下UM)の5つでした。他の多くの提携図書館が、その提供資料を著作権の切れたもの、評価・選択したものに限っているのに対し、このUMでは内容・分野、年代、著作権の有効・無効に関わらず、ほぼすべての図書館蔵書をGoogleに提供しています。2004年の試行段階を経てスタートし、2005年にはGoogle Print(当時)サイトから、2006年にはUMからも順次提供が始まっています。

 University of Michigan Library
 http://www.lib.umich.edu/
 MBooks - Michigan Digitization Project
 http://www.lib.umich.edu/mdp/
 Google Books Library Project
 http://books.google.com/googlebooks/library.html

 1月末、このUniversity of Michiganを訪問し、Google Library Project担当者の方にお話をうかがうことができました。

●概要
・対象となるのは、学内図書館ほぼ全蔵書である約700万冊。2004年から6年間かけてスキャンしていく予定。現在、週あたり3万冊のペースで処理されており、いまのところスケジュールとしては予定通りである。(プロジェクト終了後の蔵書については未定)
・スキャンした後、資料の画像データとOCR処理されたテキストデータが、GoogleからUMに提供される。UMではこのデータを「MBooks」として利用者に提供している。
・蔵書の全文テキスト検索は、原則としてすべての資料で可能。全文閲覧は、著作権の切れたもの、及び、パブリック・ドメインのものについてのみ可能。
・参加への理由。(1)蔵書への検索・アクセスの新しい形をユーザに提供できる。(2)資料保存のための大規模な媒体変換が可能になる。(3)蔵書をデータとして活用することで、単なる蔵書本体へのアクセスを越えた、新しい図書館活動を期待できる。
・あくまで図書の検索・発見のためのものであって、全文をオンラインで無料提供することが第一目的の事業ではない。また、紙媒体としての資料の購入が減ることはないし、提供を減らすこともない。

●対象資料
・学内700万冊の、製本された印刷資料のほとんどがスキャンされる予定。
・対象とならない資料は、製本されていない資料(新聞、パンフレット、地図など)。印刷されていない資料(写本など)。サイズの大きい資料。破損などの理由でスキャンに耐えられない資料。
・2004年発表当時は、プロジェクトのスタートと発表をスムーズにするため、協議・検討に時間をかける必要のある図書館(法学図書館、貴重書図書館など、学内であっても別組織である図書館)は対象としていなかった。が、法学図書館も貴重書図書館も姿勢としては積極的であり、現在では蔵書スキャンを実行する予定である。

●スキャン・データ化作業
・出納・運搬・スキャン・データ化などにかかるすべてのコストを、Googleが負担する。スタッフの雇用もGoogleが行なう。
・スキャンは保存書庫であるBuhr Shelving Facilityの蔵書から開始され、順次、各部局図書館の蔵書にとりかかる。
・UMのあるAnn Arbor近郊の場所に、Googleが専用の建物を設け、作業場としている。(他の提携図書館の場合は、遠隔地の拠点作業所まで資料を運搬してそこでスキャンされる、というようなところもある。)
・スキャンに関する技術、方法、規模は公には発表されておらず、すべて秘密である。スキャン作業場がどこにあるかについては、UMの担当者にも一切知らされていない。
・Googleはスキャンにあたって、製本を解いたり壊したりすることはない。通常の図書館利用と同様に(慎重に)取り扱う。
・Googleスタッフによる資料の取り扱いとスキャン方法については、UM図書館・保存部署の資料保存の専門家が事前にチェックし、問題ないことを確認済みである。
・スキャンにあたっては、まず書架にあるすべての蔵書がGoogle作業場に持ち込まれる。そこで、物理的条件などからスキャンが行なえないもの(例:破損が激しい、紙質がもろい、製本が弱い、サイズが大きい、対象外資料(写本・非製本)など)があれば、スキャンされずに図書館に戻される。図書館は戻されてきた資料について、「製本・修復後再送する」「自前でデジタル化作業を行なう」などを判断する。
・スキャンが可能かどうかの判断は、その本が古い時代のものであるか、貴重であるかどうかよりも、物理的状態やサイズによるところが大きい。
・スキャンのために持ち出された資料は、その資料が現在どこにあるかがOPACに表示される。2-3日から2週間で再び元通り利用可能になる。

●画像データ・テキストデータ
・GoogleからUMに提供されるのは、画像データ(600dpiのTIFF。図版があれば300dpiのJPEG2000(カラー&モノクロ))、OCRで読み取ったテキストデータ(UTF-8)。各ページに関するメタデータ。
・日本語の資料も同様にOCR処理される。読み取りの正確さは、言語・文字種よりもむしろ、紙質や印字の状態、画質がクリアかどうかなどに左右される。
・UMにデータが届くのは、資料スキャンから3-6ヶ月後。

●MBooks
・UMのデジタル化された蔵書を「MBooks」と呼んでいる。
・MBooksは、UMのOPACであるMirlynから検索可能である。
・MBooksのシステム(利用者用閲覧インタフェース、OPACへの自動リンク、著作権管理データベースなど)は、館内の電子図書館の部署で開発したものである。
・Googleに図書を送るときに、書誌レコードとアイテムレコードを添付する。UMに画像データ・テキストデータが届き、MBooksのサーバに格納されると、OPACの書誌レコード・アイテムレコードに各デジタルデータページへのリンクが自動的に形成される。
・Pageturner(利用者用閲覧インタフェース)では、資料内の全文テキスト検索、画像・テキスト閲覧、現物の所蔵場所確認などができる。資料間の横断検索や履歴保存などは今後の課題である。

 MBooksおよびGoogle Books Searchの例
 「Pleasantries of English Courts and Lawyers」(英語・全文閲覧可)
 http://hdl.handle.net/2027/mdp.39015063810850
 http://books.google.com/books?vid=UOM39015063810850
 「5年後、10年後の”経営環境”」(日本語・閲覧不可)
 http://hdl.handle.net/2027/mdp.39015067608540
 http://books.google.com/books?vid=UOM39015067608540&pgis=1

●著作権
・蔵書の全文検索は、原則としてすべての資料で可能。全文閲覧は、著作権の切れたもの、及び、パブリック・ドメインのものについてのみ可能。
・蔵書をデジタル化することによって、資料の購入が減ることはないし、利用者への提供を減らすことも、学生のテキスト購入に影響を与えることもしない。
・権利情報のデータベースを構築し、どの資料はどのように提供すべきか/しないべきかを判断・蓄積している。権利状態は「パブリックドメイン」「米国内ユーザに対してパブリックドメイン」「著作権有効」「著作権者不明」「学内のみ利用可能」「オープンアクセス」など。理由は、「書誌から判断」「契約による」など。
・著作権状態の調査・判断は、UM図書館の専門スタッフ(知的所有権の専門家)が行なっている。Googleの判断や公開状態に倣っているというわけではない。
・著作権に関する調査は継続して行なわれており、その著作が公開可能と判明した時点で随時公開していくかたちになる。
・UM出版局とはまだ提携できておらず、公開の許可はもらっていない。

●その他
・UMはパブリック大学(州立)であり、このGoogle Library Projectについても出来る限りオープンにするよう、MBooksのWebサイト(http://www.lib.umich.edu/mdp/)でドキュメント・FAQなどを適宜公開している。
・Google Library Projectとは別に、デジタル化による保存・公開事業も、引き続きこれまでどおり力を入れてやっていく。Googleの技術・取り扱いにそぐわないようなレアブックコレクションのデジタル化など、現在までに15000冊を実現している。
・このプロジェクトは「資料を利用可能にする」という、図書館の持つ中心的なミッションのひとつを実現させるものである。UMでこのプロジェクトと同じことをやろうとすると、1600年はかかることになり、それが6年で実現できることの意義は非常に大きい。そういった意味でも、日本でこういうプロジェクトに提携できる機会を得たときには、いろいろな問題はあるとは思うが、それでも積極的に参加すべきである。

posted by egamihvu at 12:10| Comment(0) | TrackBack(1) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/82197851
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック

[コラム]渦中のマイクロソフト、Live Search Booksは着々と一番手を追い上げ中
Excerpt: コロンビア大学はこのほど、マイクロソフトと共同で、同大学図書館が所蔵する資料のうち「大量の(a large number)」書籍をデジタル化することを発表しました。なお、デジタル化の対象となるのは著..
Weblog: 坂東慶太のブログ
Tracked: 2008-02-06 05:10
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。