Published on

pythonでwebサイトをスクレイピングする簡単な方法

Authors
  • avatar
    Name
    ssu
    Twitter

pythonでwebサイトをスクレイピングする簡単な方法

pythonを使って、webのページをスクレイピングして何かのデータを簡単に取得したい。 そんなケースは意外と多くあります。

そこで簡単にpythonでスクレイピングする方法を紹介します。

まず必要なモジュールをインストール

pip install requests pip install bs4

スクレイピングの方法

urlは厚生労働省のページを対象にしました。 ここからh2を全て取ってきて表示するプログラムは下記のようになります。

import requests from bs4 import BeautifulSoup url = "https://www.mhlw.go.jp/index.html" res = requests.get(url) # urlいリクエストを送り。返ってきたレスポンスを変数に入れます soup = BeautifulSoup(res.content) # res.contentでレスポンスの内容(content)をBeautifulSoupに渡します。 print(soup.title) #> <title>ホーム|厚生労働省</title> print(soup.title.text) #> ホーム|厚生労働省 for h2 in soup.findAll('h2'): print(h2.text)

このように簡単にスクレイピングができるようになります。

参考: implementing-web-scraping-python-beautiful-soup