[學無止境][Python]爬蟲實作成品 & 修改內容

[學無止境][Python]爬蟲實作成品 & 修改內容

直接上 Github頁面

更新內容(2018.05.07)

1. 改為互動式介面

具體包括 關鍵字、爬行頁數、爬行網站、是否在執行同時輸出、匯出格式(txt或csv)。

考慮新增 在執行時印出標題或完整資料

2. 改用Dictionary儲存資料

2-1 合併相同資料

2-2 將爬行到的資料依照標題作排序

3. 自動為檔案命名

在檔案名稱內加入 搜尋網站、頁數(若輸入終止頁大於執行頁數,則判定為全部搜尋,不會顯示頁數)

4. 搜尋不到結果時,提示關鍵字錯誤

在P網站若搜尋不到結果會有Search Not Found 的頁面,但在M網站則同樣是404 Not Found,因此做不同處理

5. 重新整理終止規則

終止條件有三:1.當前頁數 = 終止頁數;2.找不到當前頁數(404 Not Found)且非第一頁;3.關鍵字錯誤,在第一頁就找不到頁面或Search Not Found

未來更新方向 (2018.05.07)

1. 下載空間過濾 (未完成)

因為AllDebrid跟Real-Debrid似乎都不支援UploadGiG,所以當下載網址是UG時將其忽略

2. cfscrape失效時,重新執行 (未完成)

實際測試後發現cfscrape偶爾會不能繞過CDN,需重新執行整個程式,因此在內部加入重新執行的代碼,但目前仍無法在重新執行後繞過。→推測可能是導入套件時就出問題

3. 檢查雲端上的目錄,確認是否已經存在雲端

目標是只檢查番號(空格前面通常是番號)

2 thoughts on “[學無止境][Python]爬蟲實作成品 & 修改內容

    1. Github上已經有.py的檔案,有一定基礎的話已經足夠使用了
      封裝成EXE後也會不利修改,所以沒打算封裝成EXE

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *