X(旧Twitter)のスクレイピングは可能?やり方や取得できる情報
Twitter(現在はX)は、世界中で利用されている人気のSNSです。ユーザーの投稿やプロフィール情報など、膨大なデータが蓄積されているため、ビジネスや研究に役立てようと考える人も少なくありません。そこで気になるのが、Twitterのデータをスクレイピングで取得することは可能なのか、という点です。本記事では、Twitterのスクレイピングについて詳しく解説します。
【結論】Twitter(X)のスクレイピングは規制されている
結論から述べると、Twitterのスクレイピングは規制されています。ただし、一定の条件の下では可能です。以下の3点を詳しく見ていきましょう。
・公式のAPIを使えば可能
・スクレイピング自体は合法
・ただ規約で禁止されておりグレーゾーン
公式のAPIを使えば可能
Twitterは公式のAPIを提供しており、これを利用すればデータの取得が可能です。APIを使う場合、Twitterが定めた利用規約に従う必要があります。例えば、大量のデータを一度に取得することは制限されています。利用するには、Twitterにアプリケーションを登録し、認証を受ける必要があります。手順は少し複雑ですが、ルールに則った正当な方法でデータを取得できます。
スクレイピング自体は合法
一方、APIを使わずにプログラムを組んでスクレイピングする方法もあります。一般に、ウェブサイトに公開されている情報をスクレイピングすること自体は違法ではありません。Twitterも例外ではなく、ユーザーが公開している情報をスクレイピングするのは問題ないと考えられています。
ただ規約で禁止されておりグレーゾーン
ただし、Twitterの利用規約では、スクレイピングは明確に禁止されています。つまり、スクレイピングを行うとルール違反になるのです。「そんな規約に同意した覚えはない」として、規約を無視する人もいるかもしれません。しかし、倫理的にグレーゾーンですし、アカウントを凍結されるリスクもあるため、おすすめできません。
以上のように、Twitterのスクレイピングは制限されているものの、一定の条件下では可能です。公式APIを利用するのが最も安全な方法だと言えるでしょう。次のセクションからは、APIを使ったスクレイピングの具体的な方法を解説します。
Twitter(X)から取得できる情報(API利用含む)
Twitterからどのような情報が取得できるのでしょうか。APIを使うか、リスクを承知でスクレイピングを行えば、以下のようなデータを入手できます。
ツイートの情報
ツイートに関する情報としては、大きく2つに分けられます。
・ツイート本文: テキスト内容、ハッシュタグ、メンション
・メタ情報: ツイートID、投稿日時、リツイート数、いいね数、引用リツイート数など
ツイート本文からは、そのツイートで何が語られているのかを知ることができます。ハッシュタグを分析すれば、トレンドのトピックが見えてきます。一方、メタ情報からは、そのツイートがどれだけ注目を集めているのかがわかります。リツイート数やいいね数が多ければ、興味を持たれている話題だと推測できるでしょう。
ユーザーに関する情報
ツイートを投稿しているユーザーについても、様々な情報が取得可能です。
・ユーザープロフィール: ユーザーID、表示名、ユーザーネーム(@xxxx)、プロフィール文、フォロー/フォロワー数など
・その他ユーザー属性: 位置情報(任意設定)、登録言語など
これらのデータから、ユーザーの属性や影響力を知ることができます。例えば、フォロワー数が多いユーザーは、発信力が高いと言えるでしょう。プロフィール文からは、ユーザーの興味関心を推し量ることもできます。
画像・動画などのメディア情報
ツイートには、画像や動画が添付されていることがあります。これらのメディアに関する情報も取得できます。
・メディアURL: 画像や動画のリンク
・メディアメタ情報: 解像度、サムネイルなど(APIのプランや権限により取得可否が異なる)
画像や動画は、テキストよりも多くの情報を含んでいる場合があります。人物や物が写っていれば、画像認識技術を使って分析することも可能です。ただし、高度な分析にはAPIの上位プランが必要になることが多いでしょう。
分析指標(公式API利用時)
公式のAPIを利用すると、より高度な分析指標も取得できます。
・インプレッション数やエンゲージメント率: 広告APIやエンタープライズ向けAPIで提供される指標
・拡散状況分析: リツイートツリーや会話スレッドの可視化(API/ツールにより範囲や取得方法が異なる)
これらの指標は、ツイートやアカウントのパフォーマンスを評価するのに役立ちます。特に、企業がTwitterを活用してマーケティングを行う際には、重要な判断材料になるでしょう。
以上のように、TwitterからはAPIやスクレイピングを通じて、実に様々な情報が取得可能です。次は、その情報をどのように活用できるのかを見ていきましょう。
Twitter(X)からは取得が難しい情報
TwitterのAPIやスクレイピングを使えば、多くの情報を取得できることがわかりました。しかし、いかなる方法でも入手が困難なデータもあります。ここでは、そうした情報について解説します。
非公開・制限付きデータ
プライバシー保護の観点から、一部のデータは取得が制限されています。
・DM(ダイレクトメッセージ): ユーザーの個人的やり取り(APIやスクレイピングでは取得不可)
・鍵アカウントのツイート: 公開範囲が制限されている場合、正規の権限なしでは取得できない
DMは、ユーザー同士のプライベートな会話です。第三者が覗き見ることはできません。また、鍵アカウントのツイートも、承認されたフォロワーにしか公開されていません。これらの情報を無理に取得しようとすれば、プライバシー侵害に当たる可能性があるので注意が必要です。
大量・長期間の過去データ
Twitterには膨大な量のデータが蓄積されていますが、全てを自由に取得できるわけではありません。
・大規模ヒストリカルデータ: 無料プランでは直近7日や30日分など制限があり、全期間データは有償や特定プランでのみ取得可能
・削除済みツイート: 公式APIやスクレイピングでも取得不可
過去のツイートを遡って大量に取得しようとすると、APIの利用制限に引っかかることがあります。全期間のデータを入手するには、高額な費用がかかるプランに契約する必要があるでしょう。また、ユーザーが削除したツイートは、もはや取得することができません。
内部データ・詳細統計
Twitterの内部的な仕組みに関わる情報は、一般に公開されていません。
・詳細なアルゴリズム関連情報: レコメンドやタイムラインの仕組みなど企業秘密的要素
・ユーザーの行動履歴
・クリック履歴: Twitter内部での細かい行動ログは公開されていない
例えば、あるツイートがどのようにユーザーに表示されるのか、その仕組みの詳細は明かされていません。また、ユーザーがどのようにTwitterを使っているのか、クリックやスクロールなどの細かい行動履歴も追跡することはできません。こうした情報は、Twitterのサービス改善には役立つでしょうが、ユーザーのプライバシーに関わるため、慎重に扱う必要があります。
以上のように、TwitterからはAPIやスクレイピングを使っても取得が難しいデータがあります。特に、個人のプライバシーに関わる情報は、たとえ技術的に可能だとしても、倫理的・法的な問題があることを認識しておくべきでしょう。Twitterのデータを活用する際は、公開されている情報の範囲内で分析を行うことが賢明だと言えます。
取得した情報の活用方法
Twitterから取得した情報は、様々な用途に活用できます。ビジネスにおいては特に、以下のような活用方法が考えられるでしょう。
・サービス・商品に対する評判を数値化する
・マーケティングの効果測定
・顧客サポート・リスク管理
・競合調査・リサーチ
それでは、それぞれの活用方法を詳しく見ていきましょう。
サービス・商品に対する評判を数値化する
ツイートのテキストデータを分析することで、自社のサービスや商品に対する評判を数値化できます。具体的には、テキストマイニングという手法を用いて、ツイートをポジティブ/ネガティブに分類します。これをセンチメント分析と呼びます。
分析の結果、ネガティブな評判が目立つようであれば、そこから改善点を洗い出すことができるでしょう。逆に、ポジティブな評判が多ければ、そのサービスや商品の強みとして活用できます。いずれにせよ、漠然とした評判を数値化することで、具体的なアクションにつなげやすくなります。
マーケティングの効果測定
Twitterは、マーケティングの効果測定にも役立ちます。例えば、キャンペーンで特定のハッシュタグを使ってもらうよう呼びかけた場合、そのハッシュタグの使用状況を追跡することで、キャンペーンの認知度や参加者数を測ることができます。
また、自社アカウントのツイートがどれだけリツイートされているかを分析すれば、コンテンツの拡散力を評価できるでしょう。こうした数値を継続的に追跡することで、マーケティング施策の効果を定量的に測定し、PDCAサイクルを回すことができます。
顧客サポート・リスク管理
Twitterはリアルタイムのコミュニケーションツールであるため、顧客の声を収集したり、リスク管理に活用したりするのに適しています。
例えば、自社の製品やサービスに対する意見やクレームがツイートされていないかを常にチェックしておけば、顧客の不満を早期に発見し、迅速に対応することができます。また、ネガティブなトレンドが広がりつつあれば、炎上のリスクを事前に察知し、適切にコントロールすることもできるでしょう。
競合調査・リサーチ
競合他社の動向を知るために、Twitterのデータは非常に有益です。競合他社の公式アカウントがどのような内容を投稿しているのか、どの程度エンゲージメントを獲得しているのか、フォロワー数がどう推移しているのかなどを分析すれば、競合の戦略や強み・弱みが見えてくるはずです。
また、キーワードや業界特有のハッシュタグがどのように使われているかを調べることで、市場のトレンドや顧客ニーズの変化を読み取ることもできます。このように、Twitterのデータを競合調査やリサーチに活用すれば、自社の戦略策定に役立つインサイトを得られるでしょう。
以上のように、Twitterから取得した情報の活用方法は実に多岐にわたります。特に企業にとっては、マーケティングや顧客対応、リスク管理など、様々な場面で価値を発揮してくれる存在だと言えるでしょう。Twitterのデータを効果的に活用することが、ビジネスを成功に導く鍵の一つになりそうです。
Twitter(X)から情報を収集する際の注意点
Twitterから情報を取得する際は、いくつか注意すべき点があります。
・基本的にはAPIを使うべき
・情報自体の著作権には注意する
・公式APIにも利用制限はある
順に見ていきましょう。
基本的にはAPIを使うべき
先述の通り、TwitterではAPIを提供しています。情報を取得する際は、このAPIを使うのが基本です。APIを使えば、Twitterの利用規約に則った正当な方法でデータを入手できます。
一方、スクレイピングは規約違反の可能性があります。ただ、APIでは取得できない情報もあるため、どうしてもスクレイピングを行う必要がある場合は、Twitterの規約をよく読み、注意深く行動することが求められます。
情報自体の著作権には注意する
Twitterから取得した情報を利用する際は、その情報自体の著作権にも気をつける必要があります。
例えば、ツイートの内容はそのユーザーに帰属する著作物です。つまり、ツイートをそのまま転載したり、無断で二次利用したりすることは、著作権侵害に当たる可能性があります。利用規約で認められている範囲内での利用にとどめるのが賢明でしょう。
画像や動画などのメディアについても同様です。たとえAPIを通じて入手したものであっても、権利者の許可なく再配布することは避けるべきです。
公式APIにも利用制限はある
公式のAPIを使う場合でも、無制限にデータを取得できるわけではありません。APIの利用には、以下のような制限があります。
・有償、無償プランごとの取得上限
・利用条項
・再配布可否
無償プランでは、取得できるデータ量に上限があります。大量のデータを取得するには、有償プランへの契約が必要になるでしょう。
また、APIの利用条項をよく読み、禁止されている行為は避けなければなりません。例えば、取得したデータを他者に再配布することは、多くの場合認められていません。
APIを使う際は、こうした制限事項を事前によく確認しておくことが大切です。知らずに利用規約に違反し、アカウントを停止されるようなことがあっては大変です。
以上のように、Twitterから情報を収集する際は、APIを基本とし、著作権や利用制限に十分注意を払う必要があります。SNSの情報を活用する際は、倫理的・法的な側面にも配慮することが求められます。データを適切に扱うことが、Twitter活用の大前提だと言えるでしょう。
スクレイピングの開発・活用ならニューラルオプト
スクレイピングの活用でお困りの方は、ニューラルオプトにご相談ください。弊社は、OpenAIが展開するChatGPTの強化学習プロジェクトにも携わっており、最新の技術に高い専門性を有しています。
弊社はコンサルティング会社でもあるため、そもそもスクレイピングを行う必要があるのか、どのような課題解決を目指すのか、そうした大局観を持って、分析の目的や手法・体制づくりまで丁寧にアドバイスいたします。
まずはお気軽にご相談いただければ幸いです。
無料でDX・開発の相談をする