読者です 読者をやめる 読者になる 読者になる

読売新聞社 (www.yomiuri.co.jp) が robots.txt で Internet Archive Wayback Machine をブロック (2016.299)

YOMIURI ONLINE (www.yomiuri.co.jp) は、発行部数 (では) 日本一の大新聞社である読売新聞社が運営するサイト。実際、同社の公式サイトでは以下のように紹介されている。

15年11月現在の朝刊部数は936万8504部(日本ABC協会報告)。読売新聞の発行部数世界一は、英国のギネスブックに認定されています。

 

すぐにネット記事を消す新聞社

同社や朝日新聞社、日本経済新聞社、毎日新聞社、産経新聞社、そのほか大小多数存在する日本の新聞社は、運営しているサイトに記事を掲載した後、非常に短い期間で記事をサイトから消してしまう。そのため、日本の新聞社のサイトにリンクを張ると、あっという間にリンク切れになる。

短いといっても各社ばらつきがあり、また「短い」という表現は主観的なものだけど、需要とは関係なく機械的に短い期間で消去されていることは事実っぽい。

 

Internet Archive の話

Internet Archive (IA) は、アメリカに所在する非営利団体でいわばインターネットの「デジタル図書館」としていろいろの活動をしているそう。たとえば、著作権の保護期間が満了したなどの理由で公有 (Public Domain) となった、書籍、ラジオ、テレビ、映画などをサイト上に掲載している。

しかしいろいろある IA のサービスの中でも、最大なのは Wayback Machine という、世界中のあらゆるウェブサイトを収集し公開しているサービス。その情報量は数十 PB にも上るという。

 

Internet Archive が運営する 1 サービス "Wayback Machine"

Wayback Machine はあくまでも IA のひとつのサービスにすぎないらしい。ただあまりにも存在感があるからか、Wayback Machine を単に Internet Archive と呼ぶ人も多い。インターネット = ワールド ワイド ウェブ という用法も結構定着している感もあるしね。Wayback Machine がサイトを収集する仕組みは、基本的には Google などのロボット型検索エンジンと同じで、自動プログラムにより機械的に収集されている。

Google などの検索エンジン会社や Wayback Machine が運用するクローラーは、インターネット上のあらゆるウェブサイトを駆け巡ってそれを収集しながら、そのデータを自前のコンピューター上に「キャッシュ」として保存する。

Wayback Machine が一般的な検索エンジンと違うのは、収集したサイトは、収集元のサイトがダウンした後も、特別な事情がない限りは無期限で保存され続け、また、過去に何度も収集したサイトであれば、より古い過去の版を見ることもできるという点。

ただし Wayback Machine では検索エンジンとは違い「検索」はできない。Wayback Machine を利用するにはサイトの URL を入力する必要がある。

インターネット・アーカイブ - Wikipedia

Wayback Machine - Wikipedia

 

すぐに記事を消す新聞社への対策

ニュース サイト に掲載されているネット記事を「出典」「引用」として利用したい場合、掲載期間が短いという点はちょっと困ったことになる。たとえば、出典として挙げられている記事内容を検証したいといった場合があるかもしれない。例えば、ウィキペディアで記事を書く人に課せられているルールとして、記事の記述には何事も「出典」を明示しなければならないというものがある。

Wikipedia:出典を明記する - Wikipedia

出典は「信頼できる第三者」による二次資料または三次資料であることが求められている。それはたとえば大新聞社といった「ちゃんとした報道機関」による記事のようなもの。個人の日記のようなものは出典として使えないっていう建前らしい。信頼できるものであれば出典は紙媒体による資料でも問題ないが、利便性の良い新聞社のネット記事が出典として利用されることが多い模様。上記のような日本の新聞社サイトは記事の掲載期間が短いため、出典としてリンクを張るとあっという間にリンク切れになってしまう。そこで、Wayback Machine に保存されたニュース記事にリンクを張るという取り扱いが、日本に限らず多くのウィキペディア編集者の間で行われている。

そういった中で、ウィキペディアには、朝日新聞、読売新聞、毎日新聞、産経新聞、日経新聞といった新聞社の ニュース サイト の記事をアーカイブした Wayback Machine へのリンクが張られている記事が多くある。

そんな中、2016-02-12 に、YOMIURI ONLINE の robots.txt が書き換えられた。

変更前の robots.txt

User-agent: *
Disallow: /adv/*.swf$
Disallow: /atcars/
Disallow: /book/
Disallow: /homeguide/
Disallow: /job/
Disallow: /otona/news/
Disallow: /otona/travel/
Disallow: /otona/partner/
Disallow: /otona/life/
Disallow: /otona/drink/
Disallow: /otona/hobby/
Disallow: /otona/yesno/
Disallow: /it/news/
Disallow: /it/report/
Disallow: /it/event/
Disallow: /it/interview/
Disallow: /it/newproducts/
Disallow: /it/column/

Sitemap:http://www.yomiuri.co.jp/sitemap.xml

 

https://web.archive.org/web/20160212060342/http://www.yomiuri.co.jp/robots.txt

 

変更後の robots.txt

User-Agent: wget
Disallow: /

User-agent: Megalodon
Disallow: /

User-Agent: ia_archiver
Disallow: /

User-agent: libwww
Disallow: /

User-agent: *
Disallow: /adv/*.swf$
Disallow: /atcars/
Disallow: /book/
Disallow: /homeguide/
Disallow: /job/
Disallow: /otona/news/
Disallow: /otona/travel/
Disallow: /otona/partner/
Disallow: /otona/life/
Disallow: /otona/drink/
Disallow: /otona/hobby/
Disallow: /otona/yesno/
Disallow: /it/news/
Disallow: /it/report/
Disallow: /it/event/
Disallow: /it/interview/
Disallow: /it/newproducts/
Disallow: /it/column/

Sitemap:http://www.yomiuri.co.jp/sitemap.xml

 

https://web.archive.org/web/20160212080604/http://www.yomiuri.co.jp/robots.txt

 

これは

User-Agent: ia_archiver
Disallow: /

という部分が、Wayback Machine を拒絶するという意味になっている*1

ここでは触れないことにするが、ほかにもいろいろなロボットを拒否する記述が加わっており、たとえば megalodon という「ウェブ魚拓」を拒絶する記述が加わっている。

アクセスすると、このような画面が表示される。

f:id:adulescentia:20161025170839p:plain

 

 

 

なぜそうした?

それは読売新聞社のみぞ知ること。以下は単なる憶測。

データベースと競合?

同社に限らず、一般に新聞社は、自社の過去記事を有料で提供するサービスを行っている。長い歴史を持つ新聞社の資産は膨大なもので、そういった情報を「資産」として収益化の対象していくことは当然の発想である。実際、過去記事を検索したりできるデータベースを有料で提供することは新聞社のビジネスの 1 つになっている。たとえばこれ。学校とか公共図書館は、よくこういった新聞過去記事を検索できるサービスを新聞社と契約して、閲覧用の端末を設置していたりするので、それらとの競合を嫌ったのかもしれない。あるいは、自社ないし他人の名誉や財産などにとって不都合な情報を制御するという意向もあるのかもしれない。

www.yomiuri.co.jp

 

 

影響

ウィキペディア編集者などの中には、今後同社のネット記事を出典として利用することを避けようと考える人が出てくるかも。掲載期間が過ぎれば当該記事の内容を確認する容易な手段はなくなってしまうわけなので。

似たような情報を掲載しているサイトがあったとして、片方はインターネット上で手軽に確認できるが、もう片方は図書館に出向かないと確認できないとなれば、後者はソースとして検証に難があることが嫌われ、利用を避けられていくのではないか?というわけ。

もっとも、いまどき情報は氾濫しているから、需要はその情報の代替品になだれ込むだけなんではないかと思う。こういった規制によって規制元の思惑が満たせるということはあんまりなさそうだし、いかほどの影響があるかといえば、それはほどんど何の影響もないように思われる。

 

話は変わって・・・アメリカでの事例

ウィキペディアの内部に、ウィキペディア編集者向けのヘルプがあり、その 1 つに Wayback Machine の使い方を解説する文章がある。

Help:Using the Wayback Machine - Wikipedia

そしてこの中に「中には Wayback Machine を排除しているサイトもある」ということを、ウィキペディアの編集者向けに説明する記述が。

ここでは、ニューヨーク タイムズ (http://www.nytimes.com/) が robots.txt により、一部の階層に存在する情報について、すべてのロボットを排除している例として例示されている。またもうひとつ ワシントン ポスト (https://www.washingtonpost.com) が、robots.txt により Wayback Machine を排除しているサイトとして例示されている。

The Internet Archive honors the robots exclusion standard. It will not archive sites that disallow access, and it will remove access to previous versions of a disallowed page.


For example, The New York Times has a robots.txt page at http://www.nytimes.com/robots.txt which includes:
User-agent: *
Disallow: /aponline/
Disallow: /archives/
Disallow: /reuters/
Thus, archive requests for URLs within those folders, and any other similarly listed folder of the New York Times website will be rejected.


The Washington Post uses the file http://www.washingtonpost.com/robots.txt which includes:
User-agent: ia_archiver
Disallow: /
This directive explicitly blocks the Internet Archive from accessing their entire website.

 

Washington Post の場合

ところが現在、この ワシントン ポスト の robots.txt を確認すると、すでに Wayback Machine を排除する ia_archiver Disallow: / の記述はなくなっている。いったいいつ頃そうなったのか?気になり、Wayback Machine で同サイトの robots.txt を見てみた。この改変は 2016-09-21 に行われたようである。

https://web.archive.org/web/20160921183747/https://www.washingtonpost.com/robots.txt

https://web.archive.org/web/20160921171826/https://www.washingtonpost.com/robots.txt

それぞれを比較すればわかるように、後者からは ia_archiver Disallow: / の記述が取り除かれている。

同サイトの robots.txt をたどってみると、2001 年にはすでに ia_archiver Disallow: / の記述が存在したっぽい。全部を見たわけではないので、途中で取り除かれたこともあったのかもしれないけど。

https://web.archive.org/web/20010505011311/http://www.washingtonpost.com/robots.txt

 

海外例

いくつかの ニュース サイト が Wayback Machine から排除されていることにも触れた記事。なお、この中で、USA Today というサイトが Wayback Machine から除外されている (“This URL has been excluded from the Wayback Machine,” と表示される) ことに言及されているが、現在アクセスしてみたところ普通にアクセスできるようになっていた。

また、Wayback Machine とは別?に IA が行っているニュース保存プロジェクトにより、日本の朝日新聞、日本経済新聞のサイトの スタンドアロン アーカイブ が存在しているが、読売新聞、毎日新聞、産経新聞のそれは存在していないことなどに言及。

www.forbes.com

過去にも公共的役割の大きいサイトでの robots.txt の内容の是非については何度も話題になった手あかのついた話題だけど、ただ 2016 年にもなって大手の ニュース サイト が robots.txt のほんのちょっとした記述を書き加えたり、消したりといった現象が興味深かったので。

 

いくつかの参考になるかもしれないリンク

毎日新聞が Google News を拒否 - Ceekz Logs (Move to y.ceek.jp)

【みんなの反応】“消えた”ウエブサイトを後世に|NHK NEWS WEB - ねとなび

新聞各社の robots.txt を眺める PE2HO

Robots.txt Disallow: 20 Years of Mistakes To Avoid | Hacker News

*1:Internet Archive は robots.txt による方法でサイト運営者による意向を尊重することになっている。robots.txt を設置して、その中に上記の 2 行の記述をするだけで、そのサイトを Wayback Machine に表示されないようにすることができるようになっている。しかし、robots.txt だけは引き続き、表示およびアーカイブされ続けるので確認できる。