spider相关

无标签

spider

发布日期: 2018-05-01

阅读次数:

爬虫大致分为三个部分

分布式爬虫(Nutch)问题：1.海量URL管理；2.网速；做搜索引擎可以选择
JAVA爬虫问题：不支持多线程、不支持代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环执行http请求。
非JAVA爬虫：在非JAVA语言编写的爬虫中，有很多优秀的爬虫。这里单独提取出来作为一类，并不是针对爬虫本身的质量进行讨论，而是针对larbin、scrapy这类爬虫，对开发成本的影响。

获取音乐的url，访问的时候，能直接播放音乐的地址 import urllib from urllib import parse def str2url(s): #s = '9hFaF2FF%_Et%m4F4%538t2i%795

2018-05-02 spider

music

获取音乐的url，访问的时候，能直接播放音乐的地址 import urllib from urllib import parse def str2url(s): #s = '9hFaF2FF%_Et%m4F4%538t2i%795

2018-05-01 spider

music