当前位置: 首页 > news >正文

朝阳网络公司搜索引擎优化与关键词的关系

朝阳网络公司,搜索引擎优化与关键词的关系,网站栏目变了怎么做跳转,爱空间家装公司电话创建crawlspider爬虫文件: scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.htmlLinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链…

创建crawlspider爬虫文件:

scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.html

LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链接会自动生成Request请求对象

class ReadSpider(CrawlSpider):name = "read"allowed_domains = ["www.dushu.com"]start_urls = ["https://www.dushu.com/book/1206_1.html"]# LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接。提取出的链接会自动生成Request请求对象rules = (Rule(LinkExtractor(allow=r"/book/1206_\d+\.html"), callback="parse_item", follow=False),)def parse_item(self, response):name_list = response.xpath('//div[@class="book-info"]//img/@alt')src_list = response.xpath('//div[@class="book-info"]//img/@data-original')for i in range(len(name_list)):name = name_list[i].extract()src = src_list[i].extract()book = ScarpyReadbook41Item(name=name, src=src)yield book

开启管道、
写入文件

class ScarpyReadbook41Pipeline:def open_spider(self, spider):self.fp = open('books.json', 'w', encoding='utf-8')def process_item(self, item, spider):self.fp.write(str(item))return itemdef close_spider(self, spider):self.fp.close()

运行之后发现没有第一页数据
需要在start_urls里加上_1,不然不会读取第一页数据

start_urls = ["https://www.dushu.com/book/1206_1.html"]
http://www.epmgrl.cn/news/78.html

相关文章:

  • 专业建设网站的企业网络营销策划书范文
  • 西安个人做网站简述网络营销的方法
  • 商业网站页面知名品牌营销案例100例
  • wordpress修改元内容win10最强优化软件
  • 做天然文化石的网站松原新闻头条
  • 在百度做网站百度权重5的网站能卖多少钱
  • 网站开发公司人员配备最近的重大新闻
  • 大学生网页设计作业源文件网站推广优化之八大方法
  • 网站在线客服链接百度广告推广收费标准
  • 网站开发qq头像百度软件应用中心下载
  • 牛商网营销型网站建设女生做sem专员的工作难吗
  • 保定市做网站的公司seo技术培训课程
  • 东莞市网站公司sem是什么意思
  • 一家只做性价比的网站公司网站建设推广
  • 杭州网络公司做网站报价创建网站的流程是什么
  • 北京b2c网站建设刷网站排名软件
  • 无锡企业网站建设苏州首页关键词优化
  • 字体艺术设计在线生成seo程序专员
  • 深圳集团网站建设哪家好seo 培训教程
  • DW做旅游网站毕业设计模板上海网站推广优化
  • 给公司做的东西放到私人网站上百度在西安的公司叫什么
  • 成都房地产网站开发哪里可以接广告
  • 景德镇做网站的公司网络营销平台名词解释
  • 张家港做英文网站杭州关键词排名工具
  • 文化网站建设凡科建站代理
  • wordpress canvas 粒子跟随特效seo网站整站优化
  • 舟山网站建设公司域名停靠网页推广大全2023
  • 深圳餐饮设计公司盐城seo培训
  • 设计师网站图片网站权重是什么意思
  • 建设网站需要花费什么费用怎样在百度上发布免费广告