【晨飞】教你如何批量采集速卖通Aliexpress平台上的产品

很大一部分卖家都是从速卖通aliexpress平台开始的跨境电商之路的。虽然速卖通的超低价竞争,加上高昂的广告投入让卖家们都很头疼,利润也越来越薄,但凭借alibaba先天的走量优势,速卖通aliexpress薄利多销,成为几乎大部分跨境电商大卖家的必争之地。

近年来,alibaba加大了全球化战略部署,速卖通的主要订单量来自俄罗斯、巴西、美国、西班牙、法国、乌克兰、以色列、白俄罗斯、加拿大、荷兰等国家。接着又直接掌控了东南亚lazada平台,直接接触到6个国家中约5.5亿的顾客;国内就更不用说了,淘宝天猫已经足够庞大了。近期alibaba又投资了印度电商平台等等。这一系列动作,alibaba掌控了全球人口数量最多的电商平台。也是目前唯一能和亚马逊对抗的家伙。如果有一天,跨境电商只剩两个平台了,我想一个是亚马逊,那另一个一定是阿里巴巴了。

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 11

今天的话题是教大家如何批量采集速卖通上的产品。在众多不同平台中,速卖通在防采集方面下了不少功夫,做的工作也是最多的。所以,批量采集的要点并非分析内容抓取,而是想方设法如何对付防采集。按照之前的步骤,我们还是先一步一步来。

一、分析

我们仍然以类目为入口,通过类目进行翻页方式,得到所有要采集的产品内容页地址,然后在逐个爬取产品内容信心。

任何找一个类目,比如 墙贴  点击下方的翻页按钮,观察访问地址变化情况。

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 12

通过翻页操作,我们发现地址栏上除了.htm之前的数字变化了,其他没有出现变化。.htm后面的“?site=glo&g=y&needQuery=n&tag=”则是辅助信息,并不影响页面的访问。这样一来,我们就得到了需要的列表页信心。https://www.aliexpress.com/category/200002937/wall-stickers/【参数】.html

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 13

接下来,是进入内容页, 找到需要采集的内容。这次,我们采集产品标题和主图进行演示。

速卖通的页面中并未通过json数据包方式加载内容,所以,可以直接通过反敲右键查看源代码方式找到需要的内容。

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 14

前后截取方式,前面从<title>开始截取,以-in Wall Stickers from Home &amp; Garden on Aliexpress.com | Alibaba Group</title>结尾。即可获得标题内容;

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 15

主图就更简单了,我们发现在head区域中的<meta property=”og:image” 里面,直接放置了主图路径地址。有了这些,接下就可以开始抓取了。

二、采集

打开火车采集器,新建一个任务,命名为aliexpress;

在采集地址页中输入刚才得到的列表页地址,翻页部分用变量参数替代,然后进行列表页测试。

问题来了,第一次测试可以正常获得需要的内容,第二次则什么信息都无法获得。这是原因?很简单,速卖通的防爬虫机制生效了。当重新打开速卖通时,页面会被跳转到登录页面,告诉你,你得登录才能访问。

解决办法倒是不难,获取cookie信息。

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 16

设置采集列表页内容。

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 17

设置内容网址获取规则

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 18

需要登录才能继续访问页面,点击设置,登录网站

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 19点击试用浏览器获取网页登陆信息,在内置浏览器中完成登录操作,系统会自动记录下获取到的cookie信息,保存。

在内容采集规则选项卡中,填入采集规则,用前后截取方式,将上面分析出来的内容填入进去,然后进行测试是否获取正常

跨境电商批量采集系列教程四(速卖通 aliexpress)教你如何批量采集速卖通Aliexpress平台上的产品 20

最后,开始采集,发布数据。

到这里,采集过程就基本结束了。当然,如果你无法顺利采集到信息,也别奇怪,上面也说了,速卖通在防范爬虫批量抓取上下了很大功夫。当你的爬取速度太快时,你的IP地址也会被屏蔽掉,要求你手工输入验证码才能继续访问。当然,解决方法也有很多,这方面话题不适合公开讨论,大家可以自己摸索试试。如果你是会员,别担心,我在录制的演示讲解视频中做了一些解决方法分享,可以帮助解决一部分被屏蔽问题,稍晚些时候,可登录 会员区 查看演示讲解视频。

发表评论

您的电子邮箱地址不会被公开。