欢迎来到聚码网

【技术交流】爬虫技术分享

日期: 2023-01-19 20:31:44

咨询了法律相关的朋友,了解到我的这个做法也是有法律风险,因此准备删帖

更新:

看了一下兰奏云后台,下载量有367,是我分享的文件里最高的下载量,得赶紧提桶跑路了。

已删除下载链接,那些我通知了还没来拿程序的,私信我拿程序,我会核对聊天记录

说明这是我半年前写的爬虫,目的是方便浏览网站和保存数据,,并为之后的机器学习分析xp,进行个性化推荐做数据准备。之前分享的福利:https://www.wnflb2020.com/forum.php?mod=viewthread&tid=176264&page=1&_dsign=d0654856本程序的编写是为了交流技术,请勿传播,如果传播带来了法律问题,皆与本人无关本。使用方法无压缩包可下载,但提供源码(旧版python和新版go,旧版有bug),需要你们自己编译运行,有技术交流需求的私信我(PS:清理python代码的时候才发现,我python版本还实现了结束标记后,自动提交给6盘进行离线下载,但6盘挂掉了,我的100块年费啊)(PPS:最近发现迅雷云盘好像不和谐视频了,有空搞一个标记后提交给迅雷云盘的,但应该只能给有技术交流需求的哥们分享go版本的代码,如果我不鸽的话)

程序设计项目架构

爬虫负责爬取每天的数据

label服务程序负责对爬取下来的数据进行标记

爬虫部分使用Go进行编写,流程是:

并发获取每个版块下的今日新帖

对于每个帖子,获取名称,图片,磁力,并生成jso文件

对于所有图片,开启25个协程进行下载

label流程使用Gin编写,流程是:

获取前端发过来的日期,若无日期,默认用当日日期

读取当日日期的对应结果

对前端的C作进行响应,对结果进行更新

有什么小设计考虑到可能在凌晨使用,因此在早上六点之前,获取到的“当日”数据其实是前一天的,标记程序获取的也是前一天的txt文件夹的设计是考虑到有些情况下——数据量太大,或者有什么事情耽误了,一天的数据可能会被标记多次。因此需要读取之前的标记结果,就需要一个序号来做定位直接结束按钮的加入基于以下场景:有些时候,目标网站的更新是在网上8,9点,而这时候我一般已经结束今天的标记任务了,因此需要重新打开爬虫,重新爬取数据并继续标记,如果标记到了历史数据,就可以点击直接结束,结束标记工作当前的爬虫只爬取部分板块的部分主题,也对帖子进行了过滤C作,因此可能会缺失部分数据

今后的展望:使用深度学习,分析我的xp,用于预测新影片的评分,并对高评分的影片实现自动下载

爬虫 技术 分享 交流


上一篇:Linux就该这么学_刘老师版 第25期完整版未加密 已经更新完毕

下一篇:[搬运] 日本超性感妹子 [18P-154MB]

  • 会员中心
  • 浏览记录
  • 我的订单
  • 我的收藏
  • 在线客服

    官方微信

    仅处理投诉、举报及平台使用问题;
    商品问题请咨询商家客服!

  • 意见反馈
  • 返回顶部
浏览记录