Pythonでタイトルの文字列のみを取得する方法を解説!stringでタイトルタグのない文字列を取得!

今回はサイト内のページタイトルを取得する方法を解説します。

  • urllibはURLを扱う時に使用するPythonのライブラリです。
  • urllibのrequestを使用することでサイト内のデータを扱うことができます。
  • html.parserはHTMLを解析する時に記述するものです。
  • pretifyメソッドを使用することでHTMLを整形することができます。
  • urlopenはその名の通り、指定したURLのHTMLを取得することができます。
import urllib.request as req

from bs4 import BeautifulSoup

url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title)

これで実行すると、以下のようにページタイトルを取得することができます。

<title>Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ</title>

文字列のみ取得する場合はstring関数を使用

このままでも悪くないですが、titleタグは要らないという場合には、文字列のみ取得する場合はstring関数を使用し、以下のように記述します。


import urllib.request as req

from bs4 import BeautifulSoup

url = "https://prorautatie.net/"
response = req.urlopen(url)
parse_html = BeautifulSoup(response, "html.parser")
print(parse_html.title.string)

実行すると以下のように表示され、titleタグがない状態で取得できます。

Windowsパソコンユーザーのお役立ちブログでありプログラミング技術ブログ

 

コメント