インターネットアーカイブとは?過去のWebサイトの確認方法、おすすめツール紹介

258

こんにちは。ウィルゲートが提供するSEO分析ツール「TACT SEO」ライターチームです。

「過去のWebサイト情報が知りたい」「削除された文献をもう一度確認したい」などと思ったことのあるWebサイト運営者の方もいるのではないでしょうか。

インターネットアーカイブを活用することで、過去に公開されていたWebサイトの情報を辿ることができます。

インターネットアーカイブとは、Web上に公開されている膨大なページの情報を保存してアーカイブし、無償で閲覧することができる「Wayback Machine」といったサービスを運営する非営利団体のことです。

Webサイトの検索順位が変化したときの調査や、過去のWebサイトを閲覧したいときに役立ちます。

本記事では、インターネットアーカイブの概要や使い方、おすすめのツールについて解説します。

インターネットアーカイブとは

インターネットアーカイブとは、Web上に公開されている膨大なページの情報を保存してアーカイブし、無償で閲覧することができる「Wayback Machine」といったサービスを運営する非営利団体のことです。

1996年に、Brewster Kahle氏がインターネットアーカイブを設立し、さまざまな人からの寄付によって運営されています。

設立の目的は、デジタルで保存・公開された資料やデータを世界中の人が無料で閲覧できるようにすることです。

削除された過去のサイトを閲覧したい人や、取得したいドメインが過去に使われていたかどうかを確認したい人におすすめのツールです。

インターネットアーカイブを利用するタイミング

インターネットアーカイブをSEO対策において利用する主な3つのタイミングについて解説します。

検索順位の変動時にサイトがどう変化したのかを確認したいとき

検索順位の変動時にサイトがどう変化したのかを確認したいときに活用しましょう。

どのような傾向のあるコンテンツの順位が上がったのか分析でき、自社サイトの改善に役立ちます。

例えば競合があるコンテンツを追加したことによって順位が上がったと分析でき、かつ自社サイトにそのコンテンツがなかった場合、自社サイトにも追加するといった判断ができます。

過去のWebサイトを閲覧したいとき

過去に閲覧したはずのWebサイトが削除されていても、インターネットアーカイブにはサーバーから削除された情報も掲載されているため、サイトが保存されていれば過去の状態のサイトを閲覧できます。

倒産した会社のホームページや、ドメイン・名称が変わったWebサイトなど、もとのURLから確認できない場合に活用しましょう。

また、中古ドメインの購入する際に、検討しているドメインで過去に公開されていたサイト構成やコンテンツを確認することにより、過去にペナルティを受けている可能性があるかなど確認することができます。

削除したWebページをユーザーが閲覧できるようにしておきたいとき

サイトを管理する際に、維持は難しいが残したいページがある場合は、ウェブアーカイブサービスが保存しているページのURLを記載しておくことでページを閲覧できます。

情報を残しておきたいときや、いつか違うサイトに移管させたいと考えているときに活用できます。

過去のWebサイトを閲覧できる6つの無料ツール

過去のWebサイトを保存しているサービスを6つ紹介します。

今回紹介するツールは、日本語のサイトを確認できるツールに限定しました。

一番有名なのは、インターネットアーカイブが運営する「Wayback Machine」ですが、他にも使いやすい無料ツールがありますので、ご自身にとって相性のよいツールを見つけてください。

Wayback Machine

wayback machine

Wayback Machineはインターネットアーカイブが運営する公式サービスで、Webアーカイブサービスのなかで最もポピュラーです。

世界中のサイトを収集しており、Wikipediaによると保存されているWebページ数は2015年6月現在で4820億に達しているそうです。

クロールの頻度も飛び抜けて高いことが特徴です。

他のツールでは出てこない情報も、Wayback Machineなら閲覧できる可能性が高く、おすすめです。

Webページだけでなく、PDFや動画、電子書籍、音楽なども収集されています。

Stanford Web Archive Portal

Stanford Web Archive Portal

Stanford Web Archive Portalは、スタンフォード大学が収集しているウェブアーカイブです。

数はWayback Machineと比較すると少ないものの、日本語のサイトも収集されています。

見え方や使い方はWayback Machineに似ていますが、収集されている情報は異なります。

Library of Congress

Library of Congress

Library of Congressは、アメリカ議会図書館が提供するウェブアーカイブです。

数は少ないものの、日本語のサイトも収集されています。

1つのWebサイトに対して収集する頻度は週1・月1・四半期とさまざまです。

検索窓からはウェブアーカイブ以外にも、図書館資料の電子版も一緒に検索することが可能です。

もし、ウェブアーカイブのみに絞る場合は「Everything」のプルダウンを「Archived Web Sites」に変更してから検索しましょう。

UK Parliament Web Archive

UK Parliament Web Archive

UK Parliament Web Archiveは、英国議会が運営するウェブアーカイブサイトです。

Webサイト内のPDFや画像、映像も収集されており、毎年60〜70TBずつ保存容量が増えています。

収集されたアーカイブは英国図書館・英国図書館分館・スコットランド国立図書館・ウェールズ国立図書館の4つの図書館に保存されており、万が一どこかのデータが消失しても、ほかの図書館のデータから自動復元が可能です。

Web魚拓

Web魚拓

Web魚拓は、株式会社アフィリティーが平成18年(2006年)から運営しているインターネット上のサイトを複製・保存するサービスです。

釣った魚の魚拓を取るように、ページを複製して残すことからWeb魚拓と名付けられました。

Wayback Machineのようにクローラーを使って情報収集するのではなく、ユーザーURLを入力して保存する仕組みです。

残しておきたいWebサイトのURLを入力し、「検索と確認」を押し、さらに「取得」をクリックするだけでスクリーンショットを残してくれます。

WARP

WARP

WARPは、日本の国立国会図書館が行っているインターネット資料収集保存事業のサイトです。

日本国内のサイトに限定されており、対象は国の機関や自治体、法人・機構、国立大学、政党などです。

民間のWebサイトは、運営者の許諾に基づいて収集されています。

保存されているWebサイトは、URL・タイトル・公開社名・書誌IDなどから検索できます。

Wayback Machine(ウェイバックマシン)の使い方

上記で紹介したWebアーカイブサービスの中で最も有名な「Wayback Machine」をピックアップして、使い方について説明します。

サイトの過去の状態を確認する方法

Wayback Machine」にアクセスし、以下の手順に従ってWebサイトの過去の状態を確認しましょう。

  1. 過去の状態を確認したいサイトのURLを入力 過去の状態を確認したいサイトのURLを入力
  2. カレンダーから日付を選ぶカレンダーから日付を選ぶ

閲覧方法は以下の通りです。

  1. 画面上部の棒グラフが表示されている年をクリック
  2. 棒グラフ下に表示されるカレンダー内の背景が色青や緑色になっている日付をクリック
  3. その後表示される吹き出しの中の時間をクリック

1分あたり15回以上ページをリクエストすると、エラーとなり画面がブロックされることがあるので注意しましょう。

過去の状態が確認できない時の原因

Webサイトの過去の状態が確認できない場合、3つの原因が考えられます。

キャッシュがなくて見られない

Wayback Machineにキャッシュそのものがなければ、過去の状態を確認することはできません。

例えば、Wayback MachineのクローラーがWebサイトをクロールしていない場合や、Webサイトに訪れても何らかの問題でクロールできなかった場合などが考えられます。

サイト所有者がキャッシュを削除した

インターネットアーカイブにWebサイト所有者が削除要請をしていると、キャッシュが残りません。

サイトを削除するように申請する際には、サイトの所有者である証明として「Twitterアカウント」やメールアドレスが必要です。

クローラーを拒否している

Webサイトがクローラーを拒否していると、クローラーが情報を収集できません。

インターネットアーカイブのクローラーを拒否するには、robots.txtに以下のコードを記述して、サーバーのトップディレクトリにアップロードします。

User-agent: ia_archiver

Disallow: /

 

Wayback Machineにデータを収集されたくない場合は、対策しておきましょう。

ある時点のページの状態をキャッシュさせる方法

「Save Page Now」から手動でWebサイトを保存できます。

「Save Page Now」から手動でWebサイトを保存する場所

クローラーの巡回頻度が少なかったり、現時点でのキャッシュを残す必要があったりする場合に活用しましょう。

まとめ

本記事では、インターネットアーカイブの概要や使い方、おすすめのツールについて解説しました。

ドメイン取得前に過去に使われていなかったかどうかを確かめたり、過去のWebサイトの状態を検索順位の変動と一緒に見比べたりすることに活用できます。

インターネットアーカイブはコンテンツの変更点から競合のSEOの方針などを分析できるため、自サイトのSEO対策を検討する際に役立てましょう。

「TACT SEO」は、キーワード調査や日々の順位計測、サイト内のSEO課題の発見などSEO対策を行うために必要な機能が一つになったツールです。 自社サイトが上位表示できていない要因を網羅的に分析することが可能です。 入力時間は30秒!無料版、ぜひお試しください。

SEOに関して、何から着手すべきかわからない、なかなか成果がでないなどのお悩みがございましたら SEO無料相談も受け付けておりますので、お気軽にお問合せください。
Pocket

プロモニスタ編集部
プロモニスタでは、コンテンツマーケティングとコンテンツSEO、SEO対策を中心にwebマーケティング関連の最新情報やノウハウ、当社の事例を発信しています。