Pythonでタイトルの文字列のみを取得する方法を解説！stringでタイトルタグのない文字列を取得！

python

2022.01.302024.11.01

この記事は約2分で読めます。

今回はサイト内のページタイトルを取得する方法を解説します。

urllibはURLを扱う時に使用するPythonのライブラリです。
urllibのrequestを使用することでサイト内のデータを扱うことができます。
html.parserはHTMLを解析する時に記述するものです。
pretifyメソッドを使用することでHTMLを整形することができます。
urlopenはその名の通り、指定したURLのHTMLを取得することができます。

import urllib.request as req

from bs4 import BeautifulSoup

url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title)

これで実行すると、以下のようにページタイトルを取得することができます。

<title>Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ</title>

文字列のみ取得する場合はstring関数を使用

このままでも悪くないですが、titleタグは要らないという場合には、文字列のみ取得する場合はstring関数を使用し、以下のように記述します。


import urllib.request as req

from bs4 import BeautifulSoup

url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title.string)

実行すると以下のように表示され、titleタグがない状態で取得できます。

Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ