職位描述:
1、負責設計和開發(fā)分布式網絡爬蟲系統(tǒng),進行數(shù)據(jù)抓取和分析;
2、設計爬蟲策略和防屏蔽規(guī)則,提升網頁抓取的效率和質量;
3、參與分布式爬蟲和數(shù)據(jù)采集系統(tǒng)的架構設計和開發(fā),快速響應業(yè)務變動;
4、負責網絡數(shù)據(jù)抓取規(guī)劃、定期爬取指定網站的數(shù)據(jù);
5、參與數(shù)據(jù)層建設,專注于垂直領域數(shù)據(jù)爬取,進行多平臺信息的抓取和分析;
6、實現(xiàn)數(shù)據(jù)提取、清洗、結構化、入庫、統(tǒng)計分析等需求;
7、研究優(yōu)化算法,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性。
任職要求:
1、本科及以上學歷,5年以上爬蟲抓取采集相關工作經驗,爬蟲基礎扎實;
2、熟練Python和常用的開源庫,熟練使用Django/Flask等至少一種主流的web開發(fā)框架;
3、熟練Mysql,MongoDB, Redis,Es,隊列等數(shù)據(jù)庫的使用和優(yōu)化;
4、對進程、線程、協(xié)程、異步、非阻塞有一定了解和使用;
5、熟練掌握爬蟲主流框架Scrapy、Selenium、gocolly,webmagic等(深入了解其中一種);
6、熟悉應用IP代理池、Headers認證和Cookie等;
7、熟悉分布式爬蟲,JS防護、混淆、逆向分析等技能,熟悉各種瀏覽器檢測/反檢測手段;
8、熟悉Python/Java/Go/C++其中一種語言,具備扎實的編碼能力;
9、責任心強、工作積極、良好的服務意識、較強的工作適應能力,自我驅動;
10、加分項:逆向、分布式、數(shù)據(jù)分析、數(shù)據(jù)挖掘;有訓練過自己的模型;github或者碼云有相關開源項目;有海量代理池搭建經驗;有采集政府網址經驗優(yōu)先考慮;
1、負責設計和開發(fā)分布式網絡爬蟲系統(tǒng),進行數(shù)據(jù)抓取和分析;
2、設計爬蟲策略和防屏蔽規(guī)則,提升網頁抓取的效率和質量;
3、參與分布式爬蟲和數(shù)據(jù)采集系統(tǒng)的架構設計和開發(fā),快速響應業(yè)務變動;
4、負責網絡數(shù)據(jù)抓取規(guī)劃、定期爬取指定網站的數(shù)據(jù);
5、參與數(shù)據(jù)層建設,專注于垂直領域數(shù)據(jù)爬取,進行多平臺信息的抓取和分析;
6、實現(xiàn)數(shù)據(jù)提取、清洗、結構化、入庫、統(tǒng)計分析等需求;
7、研究優(yōu)化算法,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性。
任職要求:
1、本科及以上學歷,5年以上爬蟲抓取采集相關工作經驗,爬蟲基礎扎實;
2、熟練Python和常用的開源庫,熟練使用Django/Flask等至少一種主流的web開發(fā)框架;
3、熟練Mysql,MongoDB, Redis,Es,隊列等數(shù)據(jù)庫的使用和優(yōu)化;
4、對進程、線程、協(xié)程、異步、非阻塞有一定了解和使用;
5、熟練掌握爬蟲主流框架Scrapy、Selenium、gocolly,webmagic等(深入了解其中一種);
6、熟悉應用IP代理池、Headers認證和Cookie等;
7、熟悉分布式爬蟲,JS防護、混淆、逆向分析等技能,熟悉各種瀏覽器檢測/反檢測手段;
8、熟悉Python/Java/Go/C++其中一種語言,具備扎實的編碼能力;
9、責任心強、工作積極、良好的服務意識、較強的工作適應能力,自我驅動;
10、加分項:逆向、分布式、數(shù)據(jù)分析、數(shù)據(jù)挖掘;有訓練過自己的模型;github或者碼云有相關開源項目;有海量代理池搭建經驗;有采集政府網址經驗優(yōu)先考慮;
職位類別: 軟件工程師
舉報
水工工程師職業(yè)大全:
全選
申請職位
- 公司規(guī)模:100 - 499人
- 公司性質:民營企業(yè)
- 所屬行業(yè):網絡產品開發(fā)
- 所在地區(qū):
- 聯(lián)系人:姜女士
- 手機:會員登錄后才可查看
- 郵箱:會員登錄后才可查看
- 郵政編碼:
工作地址
- 地址: