搜索職位:
- 職位描述
- 【崗位描述】
負責設計和開發網絡爬蟲系統,進行多平臺的信息抓取和分析
設計爬蟲策略和防屏蔽規則,提升網頁和APP數據抓取的效率和質量
負責完成數據清洗、結構化、入庫、統計分析等需求
能夠獨當一面的完成數據聚合項目解決方案的制定,并完成方案的沉淀,以便后續復用
有分布式抓取經驗及運維經驗,保證項目順利、高質量運行
【崗位要求】
責任心較強,做事細致耐心,具有良好的團隊合作意識(此項有一票否決權)
根據需求制定爬取方案并執行,并有良好的代碼習慣及匯報習慣,抽象能力強
精通至少一個爬蟲框架(如Scrapy)或有相關實現
熟練掌握基于正則表達式、XPath、CSS等網頁信息抽取技術
熟悉了解HTML、CSS、JavaScript,熟練掌握JS逆向、斷點調試、HOOK等技能
熟悉常見的反爬機制,驗證碼識別
掌握熟練至少一種SQL語言,了解數據庫優化策略,設計過千萬級的表結構為加分項
熟悉Linux及Docker、K8S,有K8S集群使用經驗為加分項
熟悉應用Selenium+PhantomJS實施動態HTML抓取
熟悉應用IP池、Headers認證和Cookie等,提高爬取效率和質量
熟練使用HTTP代理工具Charles、Fiddler等,掌握移動端爬取
線性代數 / 高等數學 / 概率論基礎好,熟悉numpy / pandas,能夠通過公式描述現象
熱愛編程,喜歡折騰各類工具,熱衷于探尋技術背后的原理
- 企業介紹
- 工作地址
-
杭州
亚洲乱码精品久久久久.._一级全黄裸体免费观看视频_色欲av蜜臀一区二区三区_少妇无码在线