PythonによるWebスクレイピング 第2版

本日読了。 

PythonによるWebスクレイピング 第2版

PythonによるWebスクレイピング 第2版

  • 作者:Ryan Mitchell
  • 発売日: 2019/03/26
  • メディア: 単行本(ソフトカバー)
 

想定通りであるが、いわゆる狭い意味でのスクレイピングを司るBeautifulSoup(おいしいスープ)の解説は一瞬だけで、ほとんどはクローリングの解説であった。クローリングには、JavaScriptのページ全盛であるので、ScrapyとSeleniumの組み合わせがよさそうである。

人間らしく見せるには、ヘッダやクッキーの配慮も必要であるが、タイミングをとってゆっくりクローリングすることがベスト。中には隠し入力フォームに値を入れさせて機械だと見抜くサイトもあるとか。サイトを落とした日には訴えられるので注意。