今回はサイト内のページタイトルを取得する方法を解説します。
- urllibはURLを扱う時に使用するPythonのライブラリです。
- urllibのrequestを使用することでサイト内のデータを扱うことができます。
- html.parserはHTMLを解析する時に記述するものです。
- pretifyメソッドを使用することでHTMLを整形することができます。
- urlopenはその名の通り、指定したURLのHTMLを取得することができます。
import urllib.request as req
from bs4 import BeautifulSoup
url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title)
これで実行すると、以下のようにページタイトルを取得することができます。
<title>Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ</title>
文字列のみ取得する場合はstring関数を使用
このままでも悪くないですが、titleタグは要らないという場合には、文字列のみ取得する場合はstring関数を使用し、以下のように記述します。
import urllib.request as req
from bs4 import BeautifulSoup
url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title.string)
実行すると以下のように表示され、titleタグがない状態で取得できます。
Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ
コメント