【Python】スクレイピングに利用するライブラリの使い方と比較

2023年7月2日2025年9月9日

Webスクレイピングを実施する中で、利用するべきライブラリの選定が必要になります。

また、サイトごとに使い分けの必要性があり、どれを使うべきか悩むケースも少なくありません。

本記事では、サイトの特徴に合わせてスクレイピングに利用するライブラリの使い分けを解説します。

本記事のまとめ

Webスクレイピングとは
静的ページと動的ページの違い
Webスクレイピングのやり方・手順
スクレイピングに利用するライブラリの比較
特定サイトのクローリング＆スクレピング

▼【無料配布】Python基礎学習教材のプレゼント実施中！▼

本記事をお読み頂いているプログラミング初学者向けに、Python基礎学習教材の無料配布を実施しています。

以下に無料配布するPython資料をご紹介します。

配布するPython各資料

Python特化の教材配布（学習資料5つ, サンプルアプリ8つ）
迷わない学習用ロードマップシート
プログラミング関連のメルマガ情報
定期アンケートによる教材アップデート

また、メルマガ登録の特典も今後増やしていく予定です。

特典1	Pythonに限らずビジネス/その他技術関連の資料配布
特典2	メルマガ登録者限定のPython資料配布

資料データに関してはアンケートによる不定期更新になりますが、メルマガ登録者へ優先的にお知らせします。

記事ではお伝えできない内容を多分に含むため、メルマガ登録者限定にさせて頂きました。

＼メールアドレスのみで10秒登録！／

無料で今すぐ資料をダウンロードする　→

Webスクレイピングとは

Webスクレイピングとは、主にサイトからデータを収集する技術を指します。

そのため、サイト内の情報が収集可能かどうかによって、業務効率化できるか左右されます。

Webスクレイピングで何ができる？

Webスクレイピング自体は、データ収集する技術です。

ただ、Webスクレイピングだけでも様々な活用方法があります。

主に画像（動画含む）データ、テキストデータ、数値データを取り扱うことになります。

昨今、機械学習システムやAIに活用するため、学習データとしてスクレイピングを多用します。

また、業界問わずオンラインMTGやインサイドセールス活動が求められる案件がクラウドソーシングサイトで数多く募集されています。

そのため、スクレイピングを利用して営業リスト作成が求められるため、十分利用できる技術の一つになります。

データ収集時の考え方

Webスクレイピングによるデータ収集時に考えるべきことがあります。

一般的に、スクレイピングによって収集したデータを出力するだけではよくありません。

そのため、スクレイピング時に以下のプロセスを考えておくべきです。

スクレイピング時の準備プロセス

STEP

データ収集

API・クローラー/Webスクレイピング等で収集・リクエストし、データを収集します。

STEP

データ解析

HTML構造データを変換し、BeautifulSoupやSelenium等のライブラリで解析します。

STEP

データ抽出

解析から対象になるデータを特定要素（classやxpathなど）から抽出します。

STEP

データ加工・整形

抽出したデータからノイズ（ゴミ）を取り除き、正規化・画像処理などを実施します。

STEP

データ保存・出力

抽出・加工・整形したデータを保存し、目的に沿ったCSVやExcelファイルに出力します。

上記のプロセスをスクレイピング時に取り入れることで、すぐに利用できるデータの状態を作り出すことができます。

静的ページと動的ページの違い

静的ページは、Webサーバーで用意されたHTMLファイルを読み込み、ブラウザ側で表示されます。

一方で、動的ページはリクエストの度にHTMLファイルを再生成します。

そのため、Webスクレイピングの観点から動的ページより静的ページが処理しやすいです。

なぜなら、リクエストに応じて変化する動的ページは、スクレイピング処理だけでなく、ブラウザ操作もプログラムする必要があるためです。

Webスクレイピングが可能なサイトなどを詳しく知りたい人は、「【知らなきゃ危険】Webスクレイピング可能なサイトの見分け方とOK・禁止なサイト」といった記事を一読ください。

あわせて読みたい

Webスクレイピング可能なサイトの見分け方とOK・禁止なサイト Webスクレイピングを実施する中で、データ収集可能か不可能か判断する場面があります。また、スクレイピング実施がOKなサイトなのか、禁止されているサイトなのかも含…

関連記事は、Webスクレイピング可能なOKサイトや禁止サイト、許可されたサイトの確認方法を解説してます。
また、代表的なスクレイピング禁止サイトの実例も記載してます。

requestsとSeleniumの違い

requestsとSeleniumの違いは、ブラウザ操作・制御の有無になります。

requestsは、Seleniumと違ってブラウザ操作を実施しないため、URLをもとにサイト情報を取得します。

また、サイト情報をHTMLあるいはXMLなどのデータで取得するため、取得後はBeautifulSoupといった解析用ライブラリを利用する必要があります。

Webスクレイピングのやり方・手順

上記で静的ページと動的ページの違いを解説しましたが、スクレイピング処理の際もやり方・手順が異なります。

以下のページ分類にて、解説します。

Webスクレイピングのやり方・手順

静的ページをスクレイピングするやり方・手順
動的ページをスクレイピングするやり方・手順

静的ページをスクレイピングするやり方・手順

requestsモジュールにて、Webページへのアクセスを実施しHTMLファイルをダウンロードします。

HTMLファイルの解析では、BeautifulSoupモジュールを利用します。

最終的な出力ファイルは、csvモジュールなどを利用します。

これらをフレームワークとして利用できるScrapyでもスクレイピング可能です。

動的ページをスクレイピングするやり方・手順

動的ページは、静的ページと違ってURLによるページ遷移ができないため、Seleniumによる画面操作が必要になります。

SeleniumでWebページアクセスと画面操作の処理を実行し、データ要素をスクレイピングする工程まで一括します。

こちらも出力ファイルは、csvモジュールなどを利用します。

requestsのメソッドの使い方

requestsでは、以下の4つが代表的なメソッドになります。

メソッド名	説明
requests.get()	サーバーから情報を取得
requests.post()	サーバーへ情報を送信
requests.put()	サーバーの情報を更新
requests.delete()	サーバーの情報を削除

requestsの代表的なメソッド

本記事では、Webスクレイピングで多用される.get()メソッドを重点的に解説します。

requests.get()の引数の使い方

Webスクレイピングといったデータ収集などで頻繁に利用されるのがrequests.get()になります。

res = requests.get(URL, 任意の引数)

.get()メソッドを利用することで直感的に操作することができます。

また、以下が主な引数になります。

メソッド名	必須/任意	説明
URL	必須	対象URL
headers	任意	リクエスト時にヘッダーデータを辞書で指定
params	任意	リクエスト時にURLのクエリパラメータを辞書で指定
cookies	任意	リクエスト時にクッキーを辞書で指定
timeout	任意	リクエスト時のタイムアウトを指定

.get()メソッドの引数

スクレイピング業務では、引数にURLのみを利用することが多いです。

requests.get()によるresponseオブジェクトの確認

リクエスト後の戻り値（応答）として、responseオブジェクトが返ってきます。

以下がresponseオブジェクトの属性値になります。

属性	説明
status_code	ステータスコード
headers	レスポンスヘッダーのデータ
content	レスポンスのバイナリデータ
text	レスポンスのテキストデータ
encoding	エンコーディング（変換方式：utf-8など）
cookies	クッキーデータ

responseオブジェクトの戻り値

基本的にWebスクレイピングでは、responseオブジェクトのtext属性データのみを利用することが多いです。

requestsライブラリをさらに理解したい人は、「【データ収集に役立つ】requestsとは？インストールから使い方まで徹底解説！」を一読ください。

あわせて読みたい

【Python】requestsとは？インストールから使い方まで徹底解説！ Pythonで利用されるHTTPライブラリのrequestsに関する解説になります。以下の内容をまとめています。本記事のまとめ requestsモジュールとは何か requestsとSelenium…

関連記事は、pythonのrequestsモジュールを中心に解説してます。
また、インストールや使い方、詳細なメソッドによる具体的なコードも記載してます。

BeautifulSoupの代表的なメソッドの使い方

HTMLデータを解析した後、指定した箇所のデータを抽出する必要があります。

本記事では、スクレイピングの際に利用するBeautifulSoupの代表的なメソッドを記載します。

タイプ	1要素だけ返す	全要素をリストで返す	引数（検索条件指定）
find系	find()	find_all()	要素名, 属性指定（キーワード引数）
select系	select_one()	select()	CSSセレクタ

BeautifulSoupの代表的なメソッド

機能はどちらも同じですが、引数の違いによって探し出すアプローチ方法が異なります。

ただし、HTMLデータによってはクラス/idに対して属性値を持たないデータがあるため、その場合はselect系を利用しましょう。

BeautifulSoupをさらに理解したい人は、「【チートシート】BeautifulSoup4とは？インストールから使い方まで徹底解説！」を一読ください。

あわせて読みたい

【Python】BeautifulSoup4とは？インストールから使い方まで徹底解説！ BeautifulSoup4（bs4）は、Pythonによるスクレイピング技術で多用されるHTML/XML解析用ライブラリです。ネット上で様々なデータが存在しますが、基本的にサイト内で表…

関連記事は、beautifulsoup4に関するメソッドを中心に解説してます。
また、詳細な解析方法や使い方の具体的なコードも記載してます。

Seleniumのメソッドの使い方

代表的なSeleniumのメソッドは以下の4つです。

メソッド名	説明
.get()	対象URLを指定しアクセス/データ取得するメソッド
.find_element_by_〇〇(“”)	Selenium3にて利用されるfind系メソッド
.find_element(By.〇〇, “xx”)	Selenium4にて利用されるfind系メソッド
.send_keys()	対象にデータ送信するメソッド
.click()	対象をEnterするメソッド