Stanford Engineering Everywhere(SEE)からHandoutsとなっているpdfをかたっぱしからダウンロードしてくるRubyスクリプト

まあ、誰か書いてるだろうけど。

require 'rubygems'
require 'mechanize'

url = "http://see.stanford.edu/see/materials/icspmcs106a/handouts.aspx"

agent = WWW::Mechanize.new
source = Hpricot(agent.get_file(url))

(source/"a[@href^='http://coursedocs.stanford.edu/materials/icspmcs106a']").each{ |item|
  file = item["href"]
  file = agent.get(file)
  file.save
  sleep 1
}

この辺とか参照。

スクレイピングって激しく便利だけど、なんかコピペっぽい感じで動いてくれるから頭使わなくってなんか面白くないね(ぉ。