- Published on
pythonでwebサイトをスクレイピングする簡単な方法
pythonでwebサイトをスクレイピングする簡単な方法
pythonを使って、webのページをスクレイピングして何かのデータを簡単に取得したい。 そんなケースは意外と多くあります。
そこで簡単にpythonでスクレイピングする方法を紹介します。
まず必要なモジュールをインストール
pip install requests pip install bs4
スクレイピングの方法
urlは厚生労働省のページを対象にしました。 ここからh2を全て取ってきて表示するプログラムは下記のようになります。
import requests from bs4 import BeautifulSoup url = "https://www.mhlw.go.jp/index.html" res = requests.get(url) # urlいリクエストを送り。返ってきたレスポンスを変数に入れます soup = BeautifulSoup(res.content) # res.contentでレスポンスの内容(content)をBeautifulSoupに渡します。 print(soup.title) #> <title>ホーム|厚生労働省</title> print(soup.title.text) #> ホーム|厚生労働省 for h2 in soup.findAll('h2'): print(h2.text)
このように簡単にスクレイピングができるようになります。