小红书数据采集教程，使用协程方式爬取小红书热门页下的数据

304次阅读

共计 1982 个字符，预计需要花费 5 分钟才能阅读完成。

from gevent import monkey
# 猴子补丁
monkey.patch_all()
from gevent.pool import Pool
from queue import Queue
import requests
import json
from lxml import etree

class RedBookSpider():
“””小红书爬虫”””

def __init__(self, pages):
“””初始化”””
self.url =‘https://www.xiaohongshu.com/web_api/sns/v2/trending/page/brand?page={}&page_size=20’
self.headers = {
“User-Agent”:“Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36”
}
self.url_queue = Queue()
self.pool = Pool(5)
self.pages = pages
pass

def get_url(self):
“””获取 url”””
for page in range(1, self.pages):
url = self.url.format(page)
self.url_queue.put(url)

def save_data(self, items):
“””数据保存”””
with open(‘./redbook.txt’,‘a’, encoding=’utf-8′) as f:
f.write(str(items) +‘\n’)

def deal_detail(self, detail_url, items, data):
“””详情页内容提取”””

resp = requests.get(url=detail_url, headers=self.headers)
eroot = etree.HTML(resp.text)
items[‘fans’] = eroot.xpath(‘//div[@data-v-64bff0ce]/div[@class=”extra”]/text()’)
items[‘articles’] = eroot.xpath(‘//div/span[@class=”stats”]/text()’)
items[‘introduce’] = eroot.xpath(‘//div[@class=”desc”]/div[@class=”content”]/text()’)
items[‘detail_url’] = detail_url
items[‘image’] = data[‘page_info’][‘banner’]
print(items)
self.save_data(items)

def deal_response(self, resp):
“””数据提取”””
dict_data = json.loads(resp.text)
dict_data = dict_data[‘data’]
for data in dict_data:
items = {}
items[‘name’] = data[‘page_info’][‘name’]
detail_url =‘https://www.xiaohongshu.com/page/brands/’ + data[‘page_id’]
self.deal_detail(detail_url, items, data)

def execute_task(self):
“””处理响应”””

url = self.url_queue.get()
resp = requests.get(url=url, headers=self.headers)
# print(resp.text)
self.deal_response(resp)
self.url_queue.task_done()

def execute_task_finished(self, result):
“””任务回调”””

self.pool.apply_async(self.execute_task, callback=self.execute_task_finished)

def run(self):
“””启动程序”””

self.get_url()
for i in range(3):
self.pool.apply_async(self.execute_task, callback=self.execute_task_finished)
self.url_queue.join()

pass

if __name__ ==‘__main__’:
user = RedBookSpider(4)
# 需要爬取几页数据就改为多少
user.run()

正文完

关注板板AI免费获得移动AI助手

小红书小红书数据采集小红书热门页小红书采集小红书采集教程

发表至：小红书推广优化

2023-03-24

转载说明：

本文由天天资讯网整理发布，转载请注明出处.
版权声明：部分文章内容或图片来源于网络，我们尊重作者的知识产权。如有侵犯,请联系我们在第一时间删除。

小红书运营之爆款封面拆解，教你做出小红书高点击封面图！

浅析如何在小红书获得强大的流量支持

小红书笔记采集 | 九个技巧教你玩转笔记功能

小红书怎么赚钱？分享你变现百万的50条经验和技巧

小红书采集技巧

文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
温馨提示：请在上面搜索\| 查找更多免费资源，如需广告位请联系站长QQ 48704478

小红书数据采集教程，使用协程方式爬取小红书热门页下的数据

🎁扫码关注板板AI 免费领取AI资料大礼包

史诗级更新！苹果终于可以通话录音了，网友却吵翻了

iPhone通话录音来了，网友炸了

在单位里，永远不要在同事面前，随便说出以下五句话。

在单位里，办公室里是没有朋友的，不管和同事多熟，都不要说的10句话。

在单位里，回报贵人的最佳方式，不是请客送礼，而是想办法做到这三件事：不辜负、不忘恩、不藏私

在单位里，永远不要在同事面前，随便说出以下五句话。

“公司年会“上台致词”，别只会说“新年好啊”，这样讲，轻松博得满堂彩！”

在单位里，办公室里是没有朋友的，不管和同事多熟，都不要说的10句话。

在单位里，为什么处处替别人着想，处处对别人好，别人还会想办法陷害你，那是因为你不懂人性。

奉劝大家：打个工而已，千万不要太老实，上周，我们单位一位兢兢业业，工作了20年的老员工，被公司辞退了

在单位里，能力很强却得不到提拔，大都有这3个毛病：1、太耀眼，产生威胁；2、太老实，不善经营；3、太随性，做事没谱

在单位里，回报贵人的最佳方式，不是请客送礼，而是想办法做到这三件事：不辜负、不忘恩、不藏私

iPhone通话录音来了，网友炸了

史诗级更新！苹果终于可以通话录音了，网友却吵翻了

在单位，成为骨干必须避开的三大“潜规则”，知道的人都悄悄逆袭了！

小红书数据采集教程，使用协程方式爬取小红书 热门页 下的数据

🎁扫码关注板板AI 免费领取AI资料大礼包

小红书数据采集教程，使用协程方式爬取小红书热门页下的数据