iタウンページの企業情報を収集(スクレイピング)するPHPスクリプト

2020-01-17PHP

はじめに

随分前に頼まれて作成した iダウンページ の一覧情報をかき集めてくるスクリプトです。
Guzzle の使い方の勉強も兼ねて作ったものです。

せっかく作って眠らせておいたので公開します。

※ソースコードは決してきれいではないです。一枚物のPHPです。

「email_picker_from_townpage」

説明文が長いですね。

アプリ名に "email" とありますが、メールアドレス以外も収集します。

genzouw/email_picker_from_townpage - GitHub

機能

収集してくれる情報は以下のとおりです。

  • 会社名
  • メールアドレス
  • 電話番号
  • 住所
  • 都道府県ID

インストール方法

$ git clone git@github.com:genzouw/email_picker_from_townpage.git

$ cd email_picker_from_townpage

$ composer install

使い方

のいずれか好きなものをどうぞ。

$ php ./index.php | tee addresses.txt
$ php ./index.php > addresses.txt
$ ./index.php | tee addresses.txt
$ ./index.php > addresses.txt

一応、2秒おきにアクセス するようにして負荷がかかりにくくはしていますが、以前図書館サイトに負荷をかけて捕まった方の事例もありますのでご注意を。

ひとこと

最近Bashでもスクレイピングしました。
DOM要素をパースするツールがあったので、ソッチのほうが便利でした。また紹介します。

2020-01-17PHP