Ryan Mitchell
PythonによるWebスクレイピング 第3版
ガイド
Webスクレイピング全般を広く浅く理解できる
書誌
| author | Ryan Mitchell |
| editor | 嶋田 健志・新井 翔太(訳) |
| publisher | オライリー |
| year | 2025 |
| price | 3600?tax |
| isbn | 978-4-8144-0122-2 |
履歴
| editor | 唯野 |
| 2026.4.11 | 読了 |
| 2026.4.12 | 公開 |
これ一冊を読めばスクレイピングに関してはとりあえず分かるという、そういうスタンスで書かれた本。当然ながらWebなどの基礎的な仕組みを含めた解説もされているが、Python自体も含めてある程度の基礎知識がある人を前提としており、完全な入門書ではない。しかしながら、その一方で扱うトピックが広範なため、個々の話題を深堀りしているというわけでもなく、広く浅くという感じで関心があれば読者が後はそのトピックを追う、という内容になっている。
例えばPythonでのスクレイピングといえば実質的に現状ではScrapyだと思うが、もちろん1章を割いての紹介はあるものの、一通りの機能紹介で終わっており、もっと高度な使い方に関する説明があってもよい感じがした。またスクレイピングに伴う法的な指摘もされているが、グレーゾーンの部分もあるのが実情であるため、サーバ側から見たbot対策との絡みも限界のある記述になっていると思う。(もちろん著者の立場としての限界も分かるので、それが悪いわけではない。)
とはいうものの、第3版まで刊行されているだけのことはあり、最新のトピックまで網羅している点などは有益だと感じた。本書の帯にもあるようにAI時代だからこそ本当に必要なデータを確実に収集する需要はますます高くなっているのは確かであり、その意味でWebスクレイピングの需要も当面高いことは想像に難くない。そう考えると全体を俯瞰するには良い本だと思う。
抄録
vii
このような場合に、Webスクレイピングが登場するのです。わずかな例外を除いて、ブラウザで表示できるものなら、Pythonのスクリプトでアクセスできます。スクリプトでアクセスできるなら、それをデータベースに格納できます。そして、データベースに格納できたなら、そのデータでほとんど何でもできるはずです。
4
一時的な専用接続を介して電話をかけていた黎明期とは異なり、今日我々は永続的な回線網を介して自宅から世界中とビデオ通話できます。パケット交換というプロセスにより、データは回線から行先を指示されることなく、自ら目的地へ到達します。長年にわたり、我々が「インターネット」と考えるものに多くの技術が寄与してきましたが、「パケット交換」こそがすべての始まりとなった技術です。
おなじみのOSI参照モデルについて。
11
このサーバーサイドコードは、最終的にはブラウザに返し表示するためのデータのストリームのようなものを作成します。しかし、テキストの変更やドラッグアンドドロップといったような、ある種のインタラクションや動作を、追加でサーバーサイドコードを実行することなく実現したい場合はどうすればいいいでしょうか ? このような場合、クライアントサイドコードを使用します。
