LearnPython
  • Data Science with Python
  • 1 GitHub Intro
  • 2 Environment Setup
  • 3 Python Basic
  • 4 Anaconda Intro
  • 5 Jupyter Notebook Intro and Markdown Intro
  • 6 Python Advanced
  • 7 Web Crawler
  • 8 Visualization
  • 9 Exploratory Data Analysis
  • 10 Text Mining
  • 11 Machine Learning
  • 12 Deep Learning
Powered by GitBook
On this page
  • 什麼是網路爬蟲?
  • 常用爬蟲工具
  • Python爬蟲常用packages
  • 使用Python進行簡易爬蟲
  • 使用Open API進行爬蟲
  • Python網站爬蟲範例程式碼

7 Web Crawler

Previous6 Python AdvancedNext8 Visualization

Last updated 6 years ago

什麼是網路爬蟲?

爬蟲是...一種用來自動瀏覽全球資訊網的網路機器人....@_@!!?

爬蟲最困難的地方不在於程式撰寫,而在於對於網站的觀察。很多網站都有超過一種以上的爬蟲方法可以爬取,而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標。

學爬蟲最好的方法就是多爬幾個網站,看多就變高手了。列出簡易的爬蟲流程給大家參考:

  1. 觀察網站是靜態還是動態

  2. 觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取

  3. 利用 pandas處理資料

  4. 存入 csv或 database

  • 關於網頁結構與爬蟲

常用爬蟲工具

Python爬蟲常用packages

使用Python進行簡易爬蟲

  • 結構簡單且無 js動態生成網頁 (靜態爬蟲)

使用Open API進行爬蟲

  • python-twitter package.

  • Data Taipei API.

Python網站爬蟲範例程式碼

程式碼連結" 搬移中,將於2018/7更新至此。

or -- 以CSS結構進行網頁觀察

-- 以Xpath結構進行網頁觀察

-- 讓json格式資料美美搭=_+

搭配 -- 快速了解關於HTTP Request、Response

-- 開關網頁的 javascript功能,幫助辨識哪些部分有用到 javascript

a.

b.

c.

什麼是爬蟲 ?
關於request & response
HTML Tutorial
XML Tutorial
XML Path Tutorial
SelectorGadget
InfoLite
Xpath Helper
JsonViewer
Postman
httpbin
Quick javascript switcher
PyQuery
BeautifulSoup
requests
PTT爬蟲
淘寶爬蟲
愛評網爬蟲
範例程式碼
Facebook API.
探索Facebook 隱藏的秘密: 使用Graph API
探索Facebook 隱藏的秘密: 使用Python 存取 Facebook 資訊
【爬蟲】用Facebook API搜集粉絲專頁資訊
臺北市政府資料開放平台
ubike station information api