颠覆传统:全新方法让你秒变公众号数据大师!

  |   0 评论   |   66 浏览

最近写公众号文章,同时也关注了很多优秀的同类型的公众号,里面的文章都很不错,但是阅读和点赞数参差不齐,所以就想着自己写个程序来获取这些数据。然后把这些阅读数和点赞数高的文章来分析学习。其实用上我下面说的方法, 可以获取任何你能看到的数据,可以说是比较通用的方案。

分析阶段

1. 首先我想到的是通过电脑打开公众号文章的链接,然后通过浏览器来打开文章链接,获取阅读数和点赞数。好家伙,用浏览器打开直接就没有了,只能在微信窗口中可以看到,所以这个方法不行。如果数据能在浏览器上显示的话,接下来就好操作了, 直接用爬虫就可以了,自动化程度比较高。

image-20241009142558126

上面图片可以看到, 微信窗口是有这些数据的,通过浏览器打开后,这些数据是无法找到的。

2. 既然上面方式不行, 就google一下,发现网上很多都是通过Fiddler或者其他的抓包工具, 抓取到数据包,然后再通过编程来获取阅读数和点赞数。这个方法也可以,但是我觉得太麻烦了, 而且还有很多的限制,比如说Cookie有时效性,还需要定期刷新微信文章来刷新Cookie。还有一种方式是通过anyproxy代理服务器来实现的抓取数据, 不过很久没有维护了, 也就没有花时间研究了。

3. 最后看了一下电脑版本的微信,发现有列表功能,需要的数据其实在电脑版中打开的窗口都能看到的,所以我直接在这个列表基础上来获取数据, 这样就可以不用抓包了, 也不用编程了,就能获取需要的数据, 这里我只是获取部分数据, 如果要获取全部数据, 操作复杂一点,也是一样的没有问题的。

image-20241009143123811

随意点开一个公众号,就能看到所有文章的列表, 里面有我需要的阅读数和点赞数。

实战方案

第一种方式

1. 首先打开微信, 然后在公众号列表中找到你要获取数据的公众号, 然后点击进入,这里最好是提前关注一下,毕竟写公众号也不易,支持一下作者。点击公众号名称,弹出窗口,这里双击一下窗口最上方,就会全屏到左边区域,下面我截图的是一个文章列表部分, 头部区域就不截图了。

image-20241009143434512

2. 有了这个图片后, 接下来我们打开kimi,直接添加图片,提示词。

image-20241009144318887

3. 输出结果如下

| 标题 | 阅读数 | 点赞数 | 日期 |

| 你管这破玩意叫网络 | 9775 | 135 | 未提供 |

| 能用到“退休”的600条 Linux命令,可以解决日常99%的问题~ | 1.4万 | 111 | 未提供 |

| 裁掉数千人、把工作外包给AI!一年多后,这家巨头的CEO恳求无人搭理,预… | 7834 | 18 | 未提供 |

| 细说进程为什么需要睡眠? | 839 | 1 | 未提供 |

| 比"千千静听"还老的装机必备播放器–Winamp公开源代码,但“白嫖”条款惹恼众人 | 4587 | 15 | 9月27日 |

| Linux创始人:C很简单,但易犯错,而Rust不是 | 5358 | 13 | 9月25日 |

| 3个完美替代Navicat的工具,香! | 6449 | 15 | 9月23日 |

| 又“刑”了!搞瘫公司三千多工作电脑,不给500万就删IT账户,网友:快乐的员工… | 6182 | 7 | 9月19日 |

| C++发布革命性提案:“借鉴”Rust精华,内存安全即将成为标配? | 1952 | 5 | 未提供 |

对比了一下,数据是没有问题, 只是有些日期列表上没有, 所以没有获取到。

4. 缺点就是这样截图手工操作, 即使你都截图好了,当你想全部添加到kimi中要求输出结果的时候, 它只给你返回10行,也真是够了。如下图,我也尝试添加了十几二十张图片,尝试了一下,看样子还要换别的方案。

image-20241009145003721

第二种方式

  • 其实是对上述的方式改进, 既然手动截图不行, 那就自动化工具。参考我之前介绍过的文章。

KeymouseGo:解放你的双手,让电脑自动化为你工作!

其实很简单,就是录制一个操作截图的动作, 截图的话, 可以用windows自带的快捷键,然后选中区域, 截图保存,滚动列表,停止录制。然后测试一下没有问题,就设置一下执行速度, 加速操作,这样我们就能得到很多的图片。

  • 得到图片后, 其实我们可以按照kimi一个操作,但是这样操作太繁琐了, 可以用之前我写过的文章批量OCR软件Umi-OCR 图文识别:免费开源!离线批量OCR神器,支持多语言识别, 把所有图片的文字都识别出来,然后用得到txt文件。复制内容到kimi中, 一样的提示词,等待输出, 这样能得到输出的数据,但是也有长度限制。一次只能输出20条的样子。还需要点击一下继续。

image-20241009153728815

如下图, 得到结果后, 还需要继续才能继续输出。

image-20241009153807751

第三种方式

上面还需要自己手动操作,现在我们获取到了OCR文本数据, 也就是txt文件内容, 我们可以把这些数据一股脑的丢给Dify,参考之前的公众号文章Dify:轻松打造属于自己AI应用。让Dify自动拆分, 合并结果, 只需要等待即可。

如果自己搭建了Dify的朋友可以,下载我已经配置好的dsl,导入后,配置一下大语言模型就行了,下载地址如下。

https://qn.jishijun.cn/img/pub/20241009/15/52236084jmp.yml

输入数据:

微信截图_20241009160409

输出结果:

image-20241009160842949

如果没有环境或者不想搭建,可以使用我提供的一下网址, 直接复制内容到粘贴到文本域中即可。

http://sily.cc:5680/workflow/AMucxu3F1lq923Vb

如果内容比较多, 可能花费的时间长一点,主要是调用LLM返回结果的时候需要等待下,一般4分钟左右。速度有点点慢, 后面再优化下,找个快一点的API,这个是调用了字节的免费接口,上次注册送了5亿的token,足够用一段时间, 就是请求响应有点慢。

image-20241009213727295

善忘技术夹公众号

评论

发表评论

validate