爬蟲是...一種用來自動瀏覽全球資訊網的網路機器人....@_@!!?
爬蟲最困難的地方不在於程式撰寫,而在於對於網站的觀察。很多網站都有超過一種以上的爬蟲方法可以爬取,而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標。
學爬蟲最好的方法就是多爬幾個網站,看多就變高手了。列出簡易的爬蟲流程給大家參考:
觀察網站是靜態還是動態
觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
利用 pandas處理資料
存入 csv或 database
什麼是爬蟲 ?arrow-up-right
關於request & responsearrow-up-right
關於網頁結構與爬蟲
HTML Tutorialarrow-up-right
XML Tutorialarrow-up-right
XML Path Tutorialarrow-up-right
SelectorGadgetarrow-up-right or InfoLitearrow-up-right -- 以CSS結構進行網頁觀察
Xpath Helperarrow-up-right -- 以Xpath結構進行網頁觀察
JsonViewerarrow-up-right -- 讓json格式資料美美搭=_+
Postmanarrow-up-right 搭配 httpbinarrow-up-right -- 快速了解關於HTTP Request、Response
Quick javascript switcherarrow-up-right -- 開關網頁的 javascript功能,幫助辨識哪些部分有用到 javascript
PyQueryarrow-up-right
BeautifulSouparrow-up-right
requestsarrow-up-right
結構簡單且無 js動態生成網頁 (靜態爬蟲)
a. PTT爬蟲arrow-up-right
b. 淘寶爬蟲arrow-up-right
c. 愛評網爬蟲arrow-up-right
python-twitter package.
範例程式碼arrow-up-right
Facebook API.arrow-up-right
探索Facebook 隱藏的秘密: 使用Graph APIarrow-up-right
探索Facebook 隱藏的秘密: 使用Python 存取 Facebook 資訊arrow-up-right
【爬蟲】用Facebook API搜集粉絲專頁資訊arrow-up-right
Data Taipei API.
臺北市政府資料開放平台arrow-up-right
ubike station information apiarrow-up-right
程式碼連結" 搬移中,將於2018/7更新至此。
Last updated 7 years ago