7 Web Crawler

什麼是網路爬蟲?

爬蟲是...一種用來自動瀏覽全球資訊網的網路機器人....@_@!!?

爬蟲最困難的地方不在於程式撰寫，而在於對於網站的觀察。很多網站都有超過一種以上的爬蟲方法可以爬取，而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標。

學爬蟲最好的方法就是多爬幾個網站，看多就變高手了。列出簡易的爬蟲流程給大家參考：

觀察網站是靜態還是動態
觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
利用 pandas處理資料
存入 csv或 database

常用爬蟲工具

SelectorGadget or InfoLite -- 以CSS結構進行網頁觀察
Xpath Helper -- 以Xpath結構進行網頁觀察
JsonViewer -- 讓json格式資料美美搭=_+
Postman 搭配 httpbin -- 快速了解關於HTTP Request、Response
Quick javascript switcher -- 開關網頁的 javascript功能，幫助辨識哪些部分有用到 javascript

Python爬蟲常用packages

使用Python進行簡易爬蟲

結構簡單且無 js動態生成網頁 (靜態爬蟲)
a. PTT爬蟲
b. 淘寶爬蟲
c. 愛評網爬蟲

使用Open API進行爬蟲

python-twitter package.
- 範例程式碼
Facebook API.
Data Taipei API.
- 臺北市政府資料開放平台
  - ubike station information api

Python網站爬蟲範例程式碼

程式碼連結" 搬移中，將於2018/7更新至此。

Previous6 Python Advanced Next8 Visualization

Last updated 7 years ago