2005-05-04から1日間の記事一覧

日本語で正規表現を使う

Shift-jisでは値にバックスラッシュ(=0x5c)が含まれる場合がある。(例えば"表"の字) Pythonではバックスラッシュはエスケープ文字として扱われるので、そのような文字が正規表現のパターンに含まれていると意図しない結果となる。 文字列をいったんunicodeに…

文字コード変換

>>>import pykf >>>import urllib >>>url = "http://www.yahoo.co.jp" >>>urlhandler = urllib.urlopen(url) >>>html = urlhandler.read() >>>html = pykf.tosjis(html, pykf.EUC) >>>print html yahooページの文字コードは「EUC」なので「SJIS」に変換する …

文字コードの推測

>>>import pykf >>>string = "あいうえお" >>>print pykf.guess(string) 2 対応表 ASCII = 1 ERROR = -1 EUC = 3 JIS = 4 SJIS = 2 UNKNOWN = 0 UTF16 = 7 UTF16_BE = 8 UTF16_LE = 7 UTF8 = 5

TCPWatchを使って、リクエストの中身を確認しながらテスト

http://hathawaymix.org/Software/TCPWatchコマンドラインからTCPWatchを起動する。 c:>tcpwatch.py -p 127.0.0.1:3128 TCPWatchをset_proxyしてリクエストを飛ばす >>>import urllib2 >>>req = urllib2.Request("http://www.google.co.jp") >>>req.set_prox…

プロクシを指定してリクエスト

>>>import urllib2 >>>req = urllib2.Request("http://www.google.co.jp") >>>req.set_proxy("proxy.example.com:8080", "http") >>>req.add_header("User-agent", "python") >>>req.add_header("Pragma", "no-cache") >>>site = urllib2.urlopen(req)

ヘッダーに色々追加してリクエスト

>>>import urllib2 >>>req = urllib2.Request("http://www.google.co.jp") >>>req.add_header("User-agent", "python") >>>req.add_header("Pragma", "no-cache") >>>urlhandler = urllib2.urlopen(req)

User-Agentを指定してリクエスト

>>>import urllib2 >>>req = urllib2.Request("http://www.google.co.jp") >>>req.add_header("User-agent", "python") >>>urlhandler = urllib2.urlopen(req)

webページをゲットする。

>>>import urllib2 >>>urlhandler = urllib2.urlopen("http://www.google.co.jp") >>>html = urlhandler.read() 一行ずつ読み込む >>>html = urlhandler.readline() 一行ずつリストに格納 >>>html = urlhandler.readlines()