AI编程案例:借助AI轻松爬取海量网盘链接

图片[1]-AI编程案例:借助AI轻松爬取海量网盘链接 - 360p.blog-360p.blog
今天,我们将展示如何利用AI快速开发一个网络爬虫,
使用的工具是Python和Claude 3.5 Sonnet(国内可用豆包替代)
我们的目标是爬取panhub.fun网站上的夸克网盘链接,
即使你是编程新手,也可以轻松完成这样的任务。

案例1-批量爬取panhub网盘整合包

环境准备

首先,确保你的Win11系统上已经安装了以下工具:
  • Python 3.10嵌入包(方便迁移到其他电脑使用)
  • Visual Studio Code (VSCode:微软开发的免费、开源的代码编辑器)
    • 下载:https://code.visualstudio.com/download
  • Git (用于版本控制)
    • 下载:https://git-scm.com/downloads/win
打包下载:https://pan.quark.cn/s/57a15dddcb95

设置VSCode

  1. 安装Python扩展:在左侧扩展栏搜索”Python”,安装Microsoft的官方Python扩展
  2. 安装扩展Continue
        1. 左侧扩展栏搜索 ”豆包“或”MarsCode“ 关键词
        2. 官网教程:https://docs.marscode.cn/docs/quickstart
          国内推荐使用:字节跳动旗下的AI编程助手MarsCode AI。注册地址:https://www.marscode.cn/events/s/iSVgTQH6/
           
  3. 创建新文件夹,如”panhub_crawler”
  4. Ctrl+Shift+p 选择解释器路径:选择python.exe所在路径,示例:
    e:/panhub_crawler/python310/python.exe

VSCode克隆仓库:

Ctrl+Shift+p 输入git:clone 提交网址
https://gitee.com/qianchilang/panhub_crawler

编写代码

现在,让我们借助AI来编写我们的爬虫代码。在VSCode中创建一个新文件crawler.py,然后我们向AI描述我们的需求:
  • 编程语言:Python 3.10
  • 系统:win11
  • 交互式页面:Streamlit
  • 数据库:SQLite
对话: “我需要一个Python脚本来爬取https://panhub.fun/网站上的夸克网盘链接。”
优化后的提示词:
创建一个Python脚本,使用Streamlit构建交互界面,用于爬取特定网页上的夸克网盘链接。具体要求如下:
目标网页:https://panhub.fun/d/8964.html
夸克网盘链接格式示例:https://pan.quark.cn/s/7212e1e2eb97
运行环境:Windows 11系统
用户界面:使用Streamlit创建
编程语言:Python
脚本功能需求:
从指定网页提取所有符合夸克网盘链接格式的URL
使用Streamlit创建简洁的用户界面,包含以下元素:
输入框:允许用户输入目标网页URL(默认值为https://panhub.fun/d/8964.html)
按钮:触发爬取过程
结果显示区域:以表格形式展示爬取到的链接
下载按钮:允许用户将结果导出为CSV文件
实现错误处理,在网页无法访问或未找到链接时显示适当的提示信息
考虑网站访问频率限制,实现适当的请求间隔
请提供完整的Python代码,包括必要的库导入、函数定义和主程序逻辑。同时,请简要说明如何在Windows 11系统上安装所需依赖并运行该脚本。
注意:在实现过程中,请确保遵守网站的使用条款和爬虫政策,避免对目标网站造成过大负担。
 

报错解决:

报错信息抛给AI

注意:

AI回复 会省略部分之前的代码;
回复内容过长会被截断,输入继续 接着回复;
 

夸克链接批量转存:

QuarkPanTool夸克网盘批量转存
下载链接:https://pan.quark.cn/s/67763d3945ca
 
记住,AI是一个强大的工具,但关键还在于你如何提出正确的问题和解释需求。
希望这个教程能激发你的编程兴趣。下一步,你可以尝试爬取其他网站,或者为这个爬虫添加更多功能。
© 版权声明
THE END
喜欢就支持一下吧
点赞7分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容