云裂变营销网

标题: 有没有能抓取微信小程序的采集器或爬虫工具？ [打印本页]

作者: 匿名 时间: 2023-3-20 10:50
标题: 有没有能抓取微信小程序的采集器或爬虫工具？
看了很多采集器都是只能抓取网页的数据，现在问题是很多不更新网页了，数据都更新在微信小程序上，求一款能采集微信小程序的工具或采集器

作者: ddd2089 时间: 2023-3-20 10:51
小程序爬虫

前言

对于开发者来说，小程序爬虫是一个非常有用的工具，可以通过爬取不同的数据源来丰富小程序的内容，提升用户体验。本文将介绍如何使用小程序爬虫，采集某些网站的数据，并展示一个具体的案例。
什么是小程序爬虫

小程序爬虫是指利用网络爬虫技术，获取指定目标网站的数据，并将数据以指定格式呈现在小程序上的一种开发技术。通过小程序爬虫，开发者可以在小程序中展示各类内容，包括但不限于新闻、文章、电影信息、音乐等等。
小程序爬虫的优缺点

小程序爬虫的优点有：

丰富小程序内容：通过小程序爬虫，可以获取各种网站的数据，从而为小程序提供更多的有价值的内容。
提升用户体验：通过小程序爬虫，可以为用户提供更多的新鲜信息和数据，从而提高用户体验。

小程序爬虫的缺点有：

法律风险：在爬虫过程中，需要遵守某些法律法规，比如不能侵犯他人的知识产权等。
数据可靠性：由于数据的来源不是官方渠道，因此数据的可靠性不如官方数据。
可能被封禁：如果爬虫频繁访问某些网站，可能会被网站封禁。

小程序爬虫的实现方式

小程序爬虫的实现方式有如下几种：

通过API获取数据：有些网站提供API接口，可以通过调用API获取数据。
解析HTML页面：有些网站没有提供API接口，可以通过解析HTML页面获取数据。
通过chrome-headless模拟浏览器：某些网站有反爬虫机制，可以通过模拟浏览器来防止被封禁。

一个小程序爬虫实战

在这个案例中，我们将使用第二种方式，即解析HTML页面的方式，来实现爬虫。这里我选择了豆瓣电影作为目标网站，通过爬虫获取正在上映的电影信息并在小程序中呈现。
1. 分析目标网站

在开始编写爬虫之前，我们需要先分析一下目标网站的网页结构，并确定我们需要抓取的数据。打开豆瓣电影首页，我们可以看到正在上映的电影信息：
我们想要在小程序中展示的信息有：

电影名
评分
导演
演员

为了获取这些信息，我们需要对源代码进行解析。
2. 编写爬虫脚本

在这个案例中，我们使用Python来编写爬虫脚本。具体的实现可以分为以下几步：

获取HTML页面：使用requests模块发送get请求，获取页面源代码；
解析HTML页面：使用beautifulsoup4模块解析HTML页面，获取我们需要的信息；
输出数据：将获取的数据以指定格式输出。

下面是完整的Python代码：

import requests
from bs4 import BeautifulSoup
# 请求头部信息
headers = {
&#34;User-Agent&#34;: &#34;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3&#34;}
# 豆瓣电影正在上映的URL
url = &#34;https://movie.douban.com/cinema/nowplaying/&#34;
# 发送get请求，获取页面源代码
try:
response = requests.get(url, headers=headers)
response.encoding = &#39;utf-8&#39;
except requests.exceptions.RequestException as e:
print(e)
exit(1)
# 解析HTML页面
soup = BeautifulSoup(response.text, &#34;html.parser&#34;)
movie_list = soup.find_all(&#34;li&#34;, class_=&#34;list-item&#34;)
# 输出数据
for movie in movie_list:
# 电影名
title = movie.find_all(&#34;a&#34;, class_=&#34;ticket-btn&#34;)[0][&#39;data-subject&#39;]
# 评分
score = movie.find_all(&#34;span&#34;, class_=&#34;subject-rate&#34;)[0].string.strip()
# 导演
director = movie.find_all(&#34;p&#34;)[0].string
# 演员
actor = movie.find_all(&#34;p&#34;)[1].string
# 输出结果
print(&#34;电影名：&#34;, title)
print(&#34;评分：&#34;, score)
print(&#34;导演：&#34;, director)
print(&#34;演员：&#34;, actor)
print(&#34;=======================&#34;)

复制代码

上面的代码中，我们首先为请求添加一个User-Agent头部信息，用于模拟浏览器发送请求。然后再发送get请求，获取页面源代码，并使用beautifulsoup4模块解析HTML页面，获取我们需要的信息。最后我们采用print函数将结果输出到控制台上。
在控制台中运行上面的代码，我们可以得到以下结果：

电影名：心灵奇旅
评分： 8.6
导演：彼得·多格特
演员：安吉丽娜·朱莉 / 丹尼尔·华斯顿 / 杰文·戴维斯 / 克里斯托弗·多尔顿 / 莫西斯·阿里
=======================
电影名：致命女人
评分： 6.4
导演：郭帆
演员：蔡鹭 / 谭卓 / 宋洋 / 曹炳琨 / 张乃歌
=======================
电影名：不管怎样
评分： 8.1
导演：蒂姆·斯卡利
演员：安德鲁·加菲尔德 / 蕾蒂西亚·赖特 / Jason Isaacs / Ruth Negga
=======================
电影名：杀手保镖2
评分： 7.0
导演：帕特里克·休斯
演员：瑞恩·雷诺兹 / 山姆·杰克逊 / 塞缪尔·杰克逊 / 格温妮斯·帕特洛
=======================
...

复制代码

3. 在小程序中展示数据

上面我们已经获取了豆瓣电影正在上映的电影信息，并将其输出到控制台上。现在我们需要在小程序中展示这些数据。
这里我使用了uni-app框架来开发小程序界面。具体的实现可以分为以下几步：

在page中添加一个list组件；
在js中通过异步请求获取数据，并通过setData方法传递到wxml中；
在wxml中展示数据。

下面是完整的js代码：

export default {
data() {
return {
movieList: [],
}
},
onLoad() {
wx.showLoading({
title: &#39;加载中...&#39;,
})
wx.request({
url: &#39;https://douban.uieee.com/v2/movie/in_theaters&#39;,
header: {
&#39;content-type&#39;: &#39;json&#39;
},
success: res => {
wx.hideLoading()
console.log(res.data.subjects)
this.setData({
movieList: res.data.subjects
})
}
})
}
}

复制代码

上面的代码中，我们首先定义了一个movieList变量，用于存储获取到的电影信息。然后在onLoad函数中，使用wx.request方法发送请求，获取豆瓣电影正在上映的电影信息。在请求成功后，通过setData方法将数据传递到wxml中。
下面是完整的wxml代码：

<view class=&#34;container&#34;>
<view class=&#34;header&#34;>正在上映</view>
<scroll-view class=&#34;list&#34; scroll-y=&#34;true&#34;>
<view class=&#34;movie&#34; wx:for=&#34;{{movieList}}&#34;>
<image class=&#34;poster&#34; src=&#34;{{item.images.large}}&#34; mode=&#34;aspectFill&#34;></image>
<view class=&#34;info&#34;>
<view class=&#34;title&#34;>{{item.title}}</view>
<view class=&#34;score&#34;>{{item.rating.average}}</view>
<view class=&#34;director&#34;>导演：{{item.directors[0].name}}</view>
<view class=&#34;actor&#34;>演员：{{item.casts[0].name}}/{{item.casts[1].name}}</view>
</view>
</view>
</scroll-view>
</view>

复制代码

在上面的代码中，我们展示了电影的封面图、电影名、评分、导演、演员等信息。通过wx:for指令，可以将数据渲染到wxml中。
结论

通过以上的案例，我们可以看出，小程序爬虫是一种非常方便的数据获取方式。在开发过程中，我们需要遵守一些法律法规，确保爬虫的合法性。除此之外，添闻数据公司可以为您提供完整的定制爬虫业务，可以使得数据获取的过程更为便捷。
小程序爬虫

作者: 江苏小鱼儿 时间: 2023-3-20 10:52
小程序云开发之--微信公众号文章采集篇

   相信不少小伙伴都有想过做一个属于自己的小程序,又苦于没有服务器以及备案域名、网站ssl证书等,微信小程序作为前端后端就有很多了诸如Spring全家桶等小程序能接收到后端返回的值需要小程序内添加合法域名(域名备案和https协议)
         这里直接进入教学
公众号中有专门的接口(也有专门的文档) 那么如何采集小程序的文章来做到为我所用呢？
第一步: 获取access_token

通过文档可以看出想要获取这个access_token需要以下三个参数

(, 下载次数: 186)

其中grant_type的值为client_credential用于获取access_token
appid和secret在公众号内可以找到

(, 下载次数: 206)

完成以上配置之后就可以采集文章了,
我们可以手动访问获取token或者postman等

(, 下载次数: 201)

有了token之后采集文章就很方便了下面开始操作
从官方文档中可以看到提供的接口还是挺多的

(, 下载次数: 209)

这里拿草稿箱做示范吧其他的像图文、视频等素材的采集方法都是一样的

(, 下载次数: 193)

第一个token我们已经有了接下来就是offset和count了最后一个参数可以不要
获取文章数据

获取到素材之后打印结果

(, 下载次数: 207)

说明我的草稿箱里有三条数据确实只有三条

(, 下载次数: 201)

文章数据的处理

我们需要把自己需要的参数获取然后添加进数据库
注意这里有个问题就是如果这个文章已经采集过了那么我们就跳过,如果全部数据都存在那么打印文章已经存在
最后就是把数据库没有的数据放入到数据库中
以下是测试结果

(, 下载次数: 204)

如果全部数据都存在

(, 下载次数: 209)

博客小程序：万神资源小栈
以上就是所有内容了  更多精彩内容请关注我～

作者: lovesbaobao 时间: 2023-3-20 10:52
前言

数据不再是以直接的网页形式展现，各类微信小程序或APP成为了新的数据源。以前写爬虫程序，都是折腾电脑网页，这次第一次爬取手机端数据，特此记录以备忘。
本次要爬取数据的对象是：西安市市民一码通小程序——停车诱导页面。

(, 下载次数: 211)

一码通页面

根据交换逻辑，手机端信息不过是将网页信息以手机UI形式展现，其运行逻辑和PC版网页没有较大区别。但在实际操作时发现，这玩意与PC网页不同的是，手机端没法像PC端可以直接按F12进入开发者调试页面，那么就得使用工具先把手机请求地址找出来。
Charles简介

“Charles is an HTTP proxy / HTTP monitor / Reverse Proxy that enables a developer to view all of the HTTP and SSL / HTTPS traffic between their machine and the Internet. This includes requests, responses and the HTTP headers (which contain the cookies and caching information).”——————官网介绍
翻译过来就是：它是用来测试网络请求响应交换的监控器。

(, 下载次数: 189)

Charles页面

抓包环节

初步判断

在手机上查看时，发现下拉该页面时页面会弹出请求网址，差点被这个地址给误导了。

(, 下载次数: 207)

电脑端访问这个地址，发现该页面其实是建大静态交通研究院做的停车管理平台，不过得登陆才能进入，对于普通访问者来说，这个请求地址是没有什么用的。
到此为止，大概确定了网址的组成结构应该是：http://zimoiot.com/+XXXX

(, 下载次数: 215)

Charles监测
Charles相关的配置与说明在此不过多赘述，主要是要将手机和电脑保持在同一网络内，在PC端安装证书后，还要在手机上同样安装证书，并设置信任权限和代理。

(, 下载次数: 206)

(, 下载次数: 190)

(, 下载次数: 194)

在配置好相关参数和参数后，操作手机端小程序时即可在Charles上看到相关的请求记录。

(, 下载次数: 214)

确定地址

通过手机点击小程序中的附近停车场列表，翻页查看可以发现是动态网页。根据Charles监测显示，请求方式为POST，请求网址应为https://jianda.zimoiot.com/app/getParkingListGetByDistance，请求data应为所在地经纬度、查找距离、页面显示数量等参数，默认为：“&#34;page&#34;: 1, &#34;limit&#34;: 10, &#34;userid&#34;: &#34;29&#34;, &#34;version&#34;: &#34;1.0.0&#34;, &#34;mchid&#34;: &#34;157&#34;, &#34;clienttype&#34;: &#34;4&#34;”，可将页面显示信息数量和查找范围都设置为99999，意为不限制距离和数量。
Python库

import pandas as pd
import requests
import re
import json
from pandas import json_normalize

复制代码

注意事项

经过多次测试发现，需要注意以下两点：

使用request发起请求，需要在headers中添加上参数，以便模拟为移动端访问。
在传入data时，应使用json.dumps() 函数将 Python 对象转换为 json 字符串，否则会报错。具体原因详见此。

headers = {
&#39;Host&#39;:&#39;jianda.zimoiot.com&#39;,
&#39;Content-Type&#39;:&#39;application/json&#39;,
&#39;Origin&#39;:&#39;https://jianda.zimoiot.com&#39;,
&#39;Accept-Language&#39;:&#39;zh-CN,zh-Hans;q=0.9&#39;,
&#39;Accept-Encoding&#39;:&#39;gzip, deflate, br&#39;,
&#39;User-Agent&#39;:&#39;Mozilla/5.0 (iPhone; CPU iPhone OS 15_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 MicroMessenger/8.0.18(0x18001236) NetType/WIFI Language/zh_CN miniProgram/wxec4343871c957260&#39;,
&#39;Referer&#39;:&#39;https://jianda.zimoiot.com/big-data/h5/pages/parking/list?lng=XXXXXXXX&lat=XXXXXXXXXX&#39;
}

复制代码

网页返回

(, 下载次数: 203)

(, 下载次数: 217)

响应结果是较为完整的json结构，为了将结果保存为DataFrame，进而快速存储为Excel文件，这里可通过pandas库0.25.0版本以上自带的json_normalize转换json。

pd.json_normalize(json.loads(res.content)[&#39;data&#39;][&#39;list&#39;])

复制代码

最终结果

共得到全市4158个停车场信息，包括所在区域、经纬度、泊位数、价格等信息。其中，已使用停车位数量与采集时间有关，应该是实时变化的。

(, 下载次数: 202)

声明

测试纯属科研用途

作者: oats 时间: 2023-3-20 10:53
请问，你找到学习资源了吗

作者: norris_vip 时间: 2023-3-20 10:54
大胸弟莫着急，我来跟你简单说一下微信小程序如何采集
首先类似火车头八爪鱼那种具体的工具就不要想了，
其次，兄弟你可以试试fiddler或者Charles抓包，弄好证书，分分钟抓到接口。
之后如果抓不到的话可以找个安卓手机root掉，然后找出来具体的微信小程序包，解一下也挺方便
最后，看看小程序开发文档，爬虫真的没门槛。

欢迎光临云裂变营销网 (https://www.yunliebian.com/yingxiao/)