关于爬虫并发量的疑问?

问答 280号炼丹师
Lv2 初级炼丹师
发布在 Python编程   966   0
问答 280号炼丹师   966   0

    我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?

    1. 框架的并发设置是 500( 实际只有 50 )
    2. 源网站性能应该是没问题的
    3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右)
    4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了
    5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右
    6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈)

    求大佬们解惑第 1 条附言  ·  16 小时 29 分钟前附加一下相关信息:

    1. 单个页面大小在 3.4kb 左右
    2. cpu 稳定在 40% - 50%
    3. 内存在 14% 左右
    4. 单次入库的数据, 每个请求大约是几百汉字  

    版权声明:作者保留权利,不代表意本站立场。如需转载请联系本站以及作者。

    参与讨论

    回复《 关于爬虫并发量的疑问?

    EditorJs 编辑器

    沙发,很寂寞~
    反馈
    to-top--btn