关于爬虫并发量的疑问？

问答 280号炼丹师

Lv2 初级炼丹师

2020-07-14 16:56 发布在 Python编程 966 0

问答 280号炼丹师 966 0

我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?

1. 框架的并发设置是 500( 实际只有 50 )
2. 源网站性能应该是没问题的
3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右)
4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了
5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右
6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈)

求大佬们解惑第 1 条附言 · 16 小时 29 分钟前附加一下相关信息:

1. 单个页面大小在 3.4kb 左右
2. cpu 稳定在 40% - 50%
3. 内存在 14% 左右
4. 单次入库的数据, 每个请求大约是几百汉字

版权声明：作者保留权利，不代表意本站立场。如需转载请联系本站以及作者。

参与讨论

0/1000

Emoji表情发表 Ctrl+Enter

回复《关于爬虫并发量的疑问？》

EditorJs 编辑器

沙发，很寂寞~

举报

打赏TA

我的帖子列表
提问者信息

关注TA

280号炼丹师

Lv2 初级炼丹师

3

帖子

0

收到打赏

0

粉丝

这个人很懒，还没有填写座右铭
打赏记录

查看全部

打赏者尘埃理由

还没有人打赏TA，如果觉得作者写的不错，可以点击页面右上角的免费打赏作者噢！

打赏列表
等待回复
- python基础学习笔记
  
  讨论
  1058号炼丹师
  2021-06-09 11:21
- 不懂就问,关于 Python web 项目发布
  
  问答
  Jack
  2021-04-25 22:27
- 请教 request 模块， get url 回来的.text，有非 gbk 码(\xef)，无法正常 print...
  
  问答
  沉沉浮浮
  2021-03-05 20:57
- 上下文（context）管理
  
  讨论
  eustance
  2021-02-03 14:07
- 寻求 Python 代码管控方案
  
  问答
  oneforall
  2021-01-23 09:51
- Python 如何一次性终止某个子进程下面的所有子进程？
  
  讨论
  天天修改
  2020-12-29 22:01
- 上一篇
  一张图理清 Python3 所有知识点！
- 下一篇
  关于Python的装饰器使用方法(上)

反馈