スクレイピングは違法?NGサイトの見分け方、安全に行う方法を解説

スクレイピングを活用して効率的にデータを収集したいと考えている方は多いでしょう。一方で、スクレイピングには違法性があるのではないかと不安に思う方もいるかもしれません。

本記事では、スクレイピングの違法性について解説します。また、スクレイピングを禁止しているサイトの見分け方や、安全にスクレイピングを行う方法についても触れます。

なおスクレイピングの概要は以下の記事でも解説しています。

目次

【結論】スクレイピングは違法ではない

結論から言うと、スクレイピング自体に違法性はありません。スクレイピングとは、ウェブサイト上の情報を自動的に収集する技術のことです。一般に公開されているウェブサイトから情報を集めること自体は、検索エンジンがクローリングを行うのと同様の行為であり、違法ではないとされています。

サイトによっては規約に違反する

ただし、ウェブサイトの中にはスクレイピングを禁止しているところもあります。サイトの利用規約でスクレイピングを禁止していれば、スクレイピングを行うことは規約違反になります。

規約違反をしたからといって、すぐに訴訟されるわけではありませんが、サイト運営者との関係が悪化する可能性はあるでしょう。特に企業が大規模にスクレイピングを行う場合、訴訟のリスクも高まります。実際に、オークションサイトのeBayがスクレイピングを行っていたBidder’s Edgeを提訴したケースがあります。

eBay vs Bidder’s Edge 訴訟 概要
  • Bidder’s Edge(以下BE)はオークションまとめサイトで、eBayを含む各サイトをスクレイピング
  • eBayはBEにクローリングを許可。ただし具体的な取り決めはなし
  • BEのクローリング頻度は1日10万回(eBay全体の1.53%)に及ぶ
  • eBayはBEにリクエストベースのクローリングを要求するがBEは拒否
  • eBayはBEにeBay情報のリスト削除を求めるが、BEは他サイトからeBay情報を取得し続ける
  • eBayはBEのスクレイピングを不法侵入と主張し、IPアドレスをブロック。BEはプロキシ経由でアクセスを継続
  • eBayがBEを提訴。BEも対抗してeBayの独占禁止法違反を主張
  • 最終的に両社は和解

禁止する理由はサーバーに負荷がかかるため

ウェブサイトがスクレイピングを禁止する主な理由は、サーバーに過度な負荷がかかるためです。スクレイピングでは短時間に大量のリクエストを送信するため、サーバーに高負荷をかける恐れがあります。運営会社にとっては、サーバーダウンなどのトラブルを避けたいという事情があるのです。

過度な負荷・著作権には注意

以上のように、スクレイピング自体に違法性はありませんが、いくつか注意点があります。

注意点①過度な負荷をかけない
  • 短時間に大量のリクエストを送らず、適度な間隔を空ける
  • サーバーに高負荷をかけると業務妨害になる恐れあり
注意点②著作権を侵害しない
  • 著作物をそのまま無断転載するのは著作権法違反
  • スクレイピングで収集したデータの利用には注意が必要

このように、仮にスクレイピングが認められていたとしても、サーバーに過度な負荷をかけたり、著作権を侵害したりするのはNGです。技術的・法的な配慮を怠らないようにしましょう。

規約を破ったスクレイピングは問題なのか

サイトの利用規約でスクレイピングを禁止していたとしても、そもそもその規約自体に法的拘束力はありません。利用者は規約に同意していないことも多いからです。

ただし規約違反のスクレイピングには以下のようなリスクがあります。

規約違反 スクレイピングのリスク
  • アクセス制限やアカウント停止などのペナルティを受ける可能性
  • 損害賠償請求や差止請求などの法的措置を取られる可能性

特に後者は企業が大規模にスクレイピングを行う際に起こりやすいリスクです。

したがって、規約違反のスクレイピングは法的にグレーゾーンではありますが、トラブルを避けるためにも控えめにするのが賢明でしょう。スクレイピング禁止の規約がある場合は、他の情報源を探すことをおすすめします。

実際にスクレイピングが禁止されているサイト

Amazon

利用規約でスクレイピングを禁止されています。ログイン前の情報なら違法性は低いですが、倫理的な問題があるため、APIを利用するのが安全でしょう。

取得可能API
  • Amazon SP-API
  • Product Advertising API

eBay

取得可能API
  • Finding API
  • Shopping API

X(Twitter)

規約で禁止されています。規約無視は倫理的にグレーゾーンでアカウント凍結リスクがあるため、公式のAPIを使用しましょう。

Google

スクレイピングでブロックされません。ただしCustom Search APIの利用を推奨します。

Instagram

Instagram Graph APIを提供しています。

Facebook

自動データ収集に関する規約でスクレイピングを制限。Metaの明示的許可が必要です。

Graph APIがあります。

YouTube

利用規約で禁止されています。
YouTube Data APIが利用可能です。

楽天

利用規約により、事前許可なしの自動化ツールによる商品購入や情報取得は禁止されています。
ただし、楽天が提供するAPIを利用すれば、一定のルールの下でデータ取得が可能です。主なAPIは以下の通りです。

主なAPI
  • 楽天市場API:商品情報や在庫情報などの取得が可能
  • 楽天ブックス書籍検索API:書籍情報の検索・取得が可能
  • 楽天トラベルAPI:宿泊施設や観光情報の検索・取得が可能

APIを利用することで、規約に違反せずに必要な情報を効率的に収集できるでしょう。スクレイピングする際は、まずはAPIの有無を確認するのがおすすめです。

スクレイピングが禁止されているか見分ける方法

利用規約を確認する

サイトの利用規約をチェックし、スクレイピングについての記載を探します。「データ収集」「クローリング」「ボット」といったキーワードで検索すると見つけやすいでしょう。

APIの有無を確認する

サイトがデータ提供用のAPIを用意している場合、基本的にはそちらの利用が推奨されています。APIがあるということは、「APIを使ってデータを取得し、スクレイピングはしないでください」というメッセージと受け取れます。

robots.txtを確認する

Webサイトのルートディレクトリにあるrobots.txtファイルを確認します。クローラーによるアクセスを拒否するDisallowディレクティブが設定されている場合、そのサイトではスクレイピングが好まれていないと判断できます。

実際に試してみる

実際にスクレイピングを試みると、禁止しているサイトでは警告が表示されることがあります。ブラウザのヘッドレスモードを検知して警告を出すなどの対策が取られているようです。

以上の方法を組み合わせることで、スクレイピングが禁止されているかどうかを見極められます。判断に迷う場合は、念のため控えめにするのが無難でしょう。

安全にスクレイピングを行う方法

可能な限りAPIを利用する

サイトが提供する公式APIがある場合は、公式APIを利用するのが最も安全です。APIの利用規約に従えば、スクレイピングよりも確実にデータを取得できます。

利用規約の範囲内で行う

サイトの利用規約を確認し、スクレイピングが禁止されていないことを確かめましょう。規約で許可された範囲内であれば、スクレイピングを行っても問題ありません。

過度・短期集中的なスクレイピングは避ける

大量のリクエストを短時間で送信すると、サーバーに高負荷がかかります。アクセス頻度を下げ、適度な間隔を空けるようにしましょう。

情報自体の著作権には注意する

スクレイピングで収集した情報の利用には注意が必要です。著作権のある文章や画像などをそのまま利用すると、著作権侵害に当たる可能性があります。

以上のポイントを押さえることで、スクレイピングを安全に行えます。技術的・法的リスクに配慮しつつ、有効活用していきましょう。

スクレイピングが許可されていても問題になるケース

スクレイピングが許可されていても、以下のようなケースでは問題となる可能性があります。

スクレイピングが問題になるケース

・著作物を無断で収集
・利用してしまう
・過剰なアクセス負荷をかけ、サーバーダウンを引き起こす

著作権法に触れたり、サイトの運営を妨げたりしないよう、十分注意しましょう。技術的・法的なリスクを理解した上で、適切な方法でスクレイピングを活用することが大切です。 Copy

スクレイピングが問題・訴訟になった事例

LinkedIn vs hiQ(2017年)
  • LinkedInがhiQのスクレイピングをブロックし停止を要求
  • hiQは事業存続のためブロック解除を求め提訴
  • 一審、控訴審ともにhiQ勝訴。スクレイピングは適法と判断
  • 理由:hiQは公開プロフィールのみ収集、スクレイピングによるLinkedInの被害は小さい
Facebook vs Power Ventures(2009年)
  • Power VenturesがFacebookユーザー情報を収集し自社サイトに表示
  • Facebookが著作権侵害などを主張し提訴
  • Power Venturesは事前にFacebookと提携交渉していたが不調
  • 技術的な防御措置を回避してスクレイピングを継続
Van Buren vs アメリカ政府(2021年)
  • CFAAの「不正アクセス」の解釈が争点に
  • 最高裁は技術的な障壁を超えた場合のみ違反とする判断
  • CAPTCHAなどの回避だけではCFAA違反にならないことを示唆
  • スクレイピングにとって有利な判例

以上の事例から、スクレイピングの適法性は状況によって判断されることがわかります。公開情報の収集や、サイトへの影響が小さい場合は認められやすい一方、技術的な防御を意図的に回避する行為は違法とみなされるリスクが高いでしょう。法的なグレーゾーンも残されているため、慎重な対応が求められます。

スクレイピングの開発ならニューラルオプト

ニューラルオプトは、スクレイピングの企画・設計・開発を一貫して行います。豊富な実績とノウハウを活かし、お客様のニーズに合わせた最適なソリューションをご提案します。スクレイピングに関する技術的・法的な課題にも柔軟に対応いたします。データ活用の可能性を広げるスクレイピング開発をぜひお任せください。

無料で開発・DXの相談をする

無料相談
AI/システム開発・マーケティングに関するご相談は
ニューラルオプトにお任せください。

このフォームに入力するには、ブラウザーで JavaScript を有効にしてください。

  • URLをコピーしました!

著者・監修者

合同会社ニューラルオプト代表。
東京外国語大学卒業後、大規模言語モデルBERTなどの機械学習を活用したマーケティングツールの研究開発を目的にニューラルオプトを創業。

目次