めも帖

「めも帖」代わりにダラダラと書いていったり、めもしたりしているだけです。

Yahoo!や、Googleでのインデックス数を調べるPHPスクリプト

Yahoo!や、Googleでのインデックス数を知りたくて、「PHPのスクレイピングで帝国データーバンクの企業コードを抜き出してみた - めも帖」で利用したスクレイピング処理。エラー処理とか入れてないけれど、定期的に叩けば知ることができそうです

実行スクリプト

  • UTF8で保存
<?php
include( "scrape_func.php" );

// domain
$domain = 'd.hatena.ne.jp';

// google
$google = 'http://www.google.co.jp/search?ie=UTF-8&q=site:' . $domain;
$googleRawData = getURL($google);
$googleRawData = getBlock('<div id=resultStats>', '<nobr>', $googleRawData);
$googleRawData = mb_convert_encoding($googleRawData, "UTF-8", "sjis");

preg_match('/約 (.*) 件/', $googleRawData, $matches);
print ($matches[1]);

// Yahoo!
$yahoo = 'http://search.yahoo.co.jp/search?ei=UTF-8&p=site:' . $domain;
$yahooRawData = getURL($yahoo);
$yahooRawData = cleanString($yahooRawData);
$yahooRawData = getBlock('<div id="inf">', '</div>', $yahooRawData);

preg_match('/約(.*)件/', $yahooRawData, $matches);
print ($matches[1]);

// bing
$bing = 'http://www.bing.com/search?q=site:' . $domain;
$bingRawData = getURL($bing);
$bingRawData = cleanString($bingRawData);
$bingRawData = getBlock('<span class="sb_count" id="count">', '</span>', $bingRawData);

preg_match('/\((.*) 件中/', $bingRawData, $matches);
print ($matches[1]);
?>