【技术交流】爬虫技术分享

日期: 2023-01-19 20:31:44

咨询了法律相关的朋友，了解到我的这个做法也是有法律风险，因此准备删帖

更新：

看了一下兰奏云后台，下载量有367，是我分享的文件里最高的下载量，得赶紧提桶跑路了。

已删除下载链接，那些我通知了还没来拿程序的，私信我拿程序，我会核对聊天记录

说明这是我半年前写的爬虫，目的是方便浏览网站和保存数据,，并为之后的机器学习分析xp，进行个性化推荐做数据准备。之前分享的福利：https://www.wnflb2020.com/forum.php?mod=viewthread&tid=176264&page=1&_dsign=d0654856本程序的编写是为了交流技术，请勿传播，如果传播带来了法律问题，皆与本人无关本。使用方法无压缩包可下载，但提供源码（旧版python和新版go，旧版有bug），需要你们自己编译运行，有技术交流需求的私信我(PS:清理python代码的时候才发现，我python版本还实现了结束标记后，自动提交给6盘进行离线下载，但6盘挂掉了，我的100块年费啊)（PPS：最近发现迅雷云盘好像不和谐视频了，有空搞一个标记后提交给迅雷云盘的，但应该只能给有技术交流需求的哥们分享go版本的代码，如果我不鸽的话）

程序设计项目架构

爬虫负责爬取每天的数据

label服务程序负责对爬取下来的数据进行标记

爬虫部分使用Go进行编写，流程是：

并发获取每个版块下的今日新帖

对于每个帖子，获取名称，图片，磁力，并生成jso文件

对于所有图片，开启25个协程进行下载

label流程使用Gin编写，流程是:

获取前端发过来的日期，若无日期，默认用当日日期

读取当日日期的对应结果

对前端的C作进行响应，对结果进行更新

有什么小设计考虑到可能在凌晨使用，因此在早上六点之前，获取到的“当日”数据其实是前一天的，标记程序获取的也是前一天的txt文件夹的设计是考虑到有些情况下——数据量太大，或者有什么事情耽误了，一天的数据可能会被标记多次。因此需要读取之前的标记结果，就需要一个序号来做定位直接结束按钮的加入基于以下场景：有些时候，目标网站的更新是在网上8,9点，而这时候我一般已经结束今天的标记任务了，因此需要重新打开爬虫，重新爬取数据并继续标记，如果标记到了历史数据，就可以点击直接结束，结束标记工作当前的爬虫只爬取部分板块的部分主题，也对帖子进行了过滤C作，因此可能会缺失部分数据

今后的展望：使用深度学习，分析我的xp，用于预测新影片的评分，并对高评分的影片实现自动下载

爬虫技术分享交流

上一篇：Linux就该这么学_刘老师版第25期完整版未加密已经更新完毕

下一篇：[搬运] 日本超性感妹子 [18P-154MB]