【スプレイピング】PythonでWebページのタイトルを取り出す方法!

スクリプト1

今回は最近流行りのスプレイピングについてやっていきます。
スプレイピングができれば、あなたはプログラミングについて深く知ることができます。私も最近学び始めて、スプレイピングの凄さに驚きました。

今回はWebページのタイトルを取り出す方法について解説します。

スプレイピングとは

Webページからテキストや画像を抽出する技術です。

今回はこちらのスプレイピングをPythonを使って行います。

無料オンライン相談を活用しよう!

Pythonというプログラミング言語は機械学習の人気の高まりなどもあり、様々なスクールが無料説明会を開催しています。

その中でも「Freeks(フリークス)|業界初!10,780円のサブスク型プログラミングスクール」がオススメです。Pythonを効率よく学びたいという方はまずは適性を知るためにも無料説明会を利用しましょう。

無料説明会を参加してみる!

HTMLタグ

まず、スプレイピングをやる上でHTMLを理解しなければなりません!!

下記は私たちのサイト【Python】画像内でクリックした箇所のRBG・HSVの値を取得しExcelに出力する方法のHTMLの一部となっています。このサイトでも600行程度のコードが使われています。

HTML

上のコード見ても、何書いてあるのか分からないよぉー

上のHTMLコードを全部読めなくてもいい!
スプレイピングに使うのは主にタグです。
なので、下のタグと意味が分かれば大丈夫!!

タグ意味
<html>Htmlのルート要素
<head>Htmlのヘッダ(メタデータ)
<title>文書のタイトル
<base>相対的な基準となるURL
<h1>~<h6>見出し
<section>文書内セクション
<a>リンク
<div>範囲指定
<p>段落
htmlタグ代表的

スクレイピングに便利なライブラリー

こちらでは、スプレイピングに便利なPythonライブラリを紹介します。実際に下の実行例でも使われています。

Requests

Requestsは、PythonのHTTP通信ライブラリです。

Requestsを使うとWebサイトの情報取得や画像の収集などを簡単に行えます。

Requests ライブラリは、他のライブラリと組み合わせて使用できます。

例えば「Beautiful Soup」と組み合わせると、Webサイトを解析して必要な情報だけを抜き出すことができます。また、「BytesIO」と「Pillow」と組み合わせて、Webサイト上の画像URLをもとに、画像ファイルを取得することもできます。

BeautifulSoup4

BeautifulSoup4は、HTMLやXMLからデータを取得・解析するためのライブラリーです。

取得したWebページから必要な要素やテキストを取り出すのに使います。

HTMLファイルからタイトルを取り出す

今回はWebページのタイトルを取り出すために、下のサイトを使用します。

【Python】画像内でクリックした箇所のRBG・HSVの値を取得しExcelに出力する方法

HTMLファイルを保存

まず、HTMLファイルを保存します。
作成方法は下の画像の様に、サイトを右クリックして、名前を付けて保存をします。
そして、PCにHTMLファイルを保存してください。

【Python】画像内でクリックした箇所のRBG・HSVの値を取得しExcelに出力する方法


HTMLファイルをGoogleドライブにアップロード

次に上で保存した、HTMLファイルをGoogleドライブにアップロードします。

下の画像の様にGoogleドライブで、ファイルをアップロードすれば大丈夫です。

Googleドライブにアップロード


Google Colaboratoryのマウント

今回はコードを実行するために、Google Colaboratoryを使いますGoogle Colaboratoryでは、Google ドライブのファイルにアクセスするためには、マウントする必要があります

やり方はGoogle Colaboratoryで新規作成を行い、下記の通りにクリックすると、
「このノートブックに Google ドライブのファイルへのアクセスを許可しますか?」といったものが出てきます。
「Google ドライブに接続」を選択すれば、マウントが完了します。

Google Colaboratoryマウント


マウントって何ですか???

マウントとは、認証といったアクセス許可のようなものです。
今回はGoogle ColaboratoryからGoogleドライブへのアクセスを許可させるといったイメージを持てば大丈夫!!

Pythonコードの作成

Python

サイトのタイトルであるPython】画像内でクリックした箇所のRBG・HSVの値を取得しExcelに出力する方法』が無事出力されておる。

URLから取り出す

上では、HTMLファイルを使用してきたが、実際のスプレイピングでは、プログラムでWebページを取得する必要があります。

今回はrequestsライブラリとget関数を使い、URLからHTMLを取り出して、サイトから要素を取り出します。
こちらの方法は先ほどのHTMLファイルから要素を取り出す方法より、手間いらず!!

Python

HTMLファイルからタイトルを取り出す方法とあまりコードが変わらない??

変わっているところ6行目と8行目のコードがそれぞれ違うので、間違えないようにしよう!!

まとめ

最後まで読んでいただきありがとうございます。

今回はスプレイピングの基礎のWebサイトからタイトルの要素を取り出すのことをやりました。

サイトでやっていることは非常に簡単なので、ぜひ参考にしてスプレイピングをやってみてください!

せっかくなので、HTMLファイルからタイトルを取り出す方法と、URLから取り出す方法を試してみてください!

無料の説明会を有効活用しよう!

独学での学習は孤独感を感じやすく挫折してしまう初心者も多いです。また、参考書を購入しても全く読む気にならないという方も多いはずです。

それでも、なんとかPythonの勉強を行い、高スキルなエンジニアを目指したいという方は無料で受けられるオンライン説明会に参加してみることも一つの手です。

Pythonというプログラミング言語は機械学習の人気の高まりなどもあり、様々なスクールが無料説明会を開催しています。

その中でも「Freeks(フリークス)|業界初!10,780円のサブスク型プログラミングスクール」がオススメです。Pythonを効率よく学びたいという方はまずは適性を知るためにも無料説明会を利用しましょう。

無料説明会を参加してみる!

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA