本日読了。
想定通りであるが、いわゆる狭い意味でのスクレイピングを司るBeautifulSoup(おいしいスープ)の解説は一瞬だけで、ほとんどはクローリングの解説であった。クローリングには、JavaScriptのページ全盛であるので、ScrapyとSeleniumの組み合わせがよさそうである。
人間らしく見せるには、ヘッダやクッキーの配慮も必要であるが、タイミングをとってゆっくりクローリングすることがベスト。中には隠し入力フォームに値を入れさせて機械だと見抜くサイトもあるとか。サイトを落とした日には訴えられるので注意。