ヘッダ収集

はじめにURLを書いたテキストファイル「URL.txt」を用意する。

www.google.co.jp
www.yahoo.co.jp
www.microsoft.com/

URL.txtの内容を読み込んで、それぞれのサイトのヘッダを表示するスクリプトを作ってみる。
[headget.py]

#!/bin/env python
# -*- coding: shift_jis -*-
import httplib
import string

urlFile = open('URL.txt','r')
for x in urlFile.readlines():
    print x
    conne = httplib.HTTPConnection(string.rstrip(x))
    conne.request("GET", "/index.html")
    res = conne.getresponse()
    print res.msg
    conne.close()
urlFile.close()

string.rstrip(x)
ファイルから読み出したxの改行をrstripで消している。

headget.pyで取得したヘッダ情報をファイルに保存したいときは、コマンドプロンプトで以下のように入力

C:\Python23jp>headget.py > log.txt

printで表示される内容がlog.txtに書き込まれる