ヘッダ収集
はじめにURLを書いたテキストファイル「URL.txt」を用意する。
www.google.co.jp www.yahoo.co.jp www.microsoft.com/
URL.txtの内容を読み込んで、それぞれのサイトのヘッダを表示するスクリプトを作ってみる。
[headget.py]
#!/bin/env python # -*- coding: shift_jis -*- import httplib import string urlFile = open('URL.txt','r') for x in urlFile.readlines(): print x conne = httplib.HTTPConnection(string.rstrip(x)) conne.request("GET", "/index.html") res = conne.getresponse() print res.msg conne.close() urlFile.close()
string.rstrip(x)
ファイルから読み出したxの改行をrstripで消している。
headget.py
で取得したヘッダ情報をファイルに保存したいときは、コマンドプロンプトで以下のように入力
C:\Python23jp>headget.py > log.txt
printで表示される内容がlog.txtに書き込まれる