AI网络爬虫：批量下载某个网页中的全部链接

发布日期：2024-07-18 12:13:40 浏览次数： 2840

网页如下，有多个链接：

找到其中的a标签：

产品优势

</a>

在deepseek中输入提示词：

你是一个Python编程专家，要完成一个百度搜索页面爬取的Python脚本，具体任务如下：

解析网页：https://cloud.tencent.com/document/product/1093

定位class="rno-learning-path-wrap"的div标签；

然后定位div标签中所有a标签，提取title属性值作为网页文件名，提取href属性值作为网页下载地址，下载网页，保存网页到文件夹：F:\aivideo\腾讯云语音识别

注意：

每一步都要输出信息到屏幕上

每下载一个网页后，随机暂停3-6秒；

设置请求标头：

Accept:

text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7

Accept-Encoding:

gzip, deflate, br, zstd

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6

Cache-Control:

max-age=0

Priority:

u=0, i

Referer:

https://cloud.tencent.com/product/asr?from_column=20421&from=20421

Sec-Ch-Ua:

" Not A;Brand";v="99", "Chromium";v="127", "Google Chrome";v="127"

Sec-Ch-Ua-Mobile:

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

document

Sec-Fetch-Mode:

navigate

Sec-Fetch-Site:

same-origin

Sec-Fetch-User:

Upgrade-Insecure-Requests:

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36

Deepseek生成的源代码：

import requests

from bs4 import BeautifulSoup

import os

import time

import random

# 设置请求头

headers = {

"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",

"Accept-Encoding": "gzip, deflate, br, zstd",

"Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",

"Cache-Control": "max-age=0",

"Priority": "u=0, i",

"Referer": "https://cloud.tencent.com/product/asr?from_column=20421&from=20421",

"Sec-Ch-Ua": '" Not A;Brand";v="99", "Chromium";v="127", "Google Chrome";v="127"',

"Sec-Ch-Ua-Mobile": "?0",

"Sec-Ch-Ua-Platform": '"Windows"',

"Sec-Fetch-Dest": "document",

"Sec-Fetch-Mode": "navigate",

"Sec-Fetch-Site": "same-origin",

"Sec-Fetch-User": "?1",

"Upgrade-Insecure-Requests": "1",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36"

}

# 创建文件夹

output_folder = 'F:\\aivideo\\腾讯云语音识别'

if not os.path.exists(output_folder):

os.makedirs(output_folder)

# 请求网页

url = "https://cloud.tencent.com/document/product/1093"

response = requests.get(url, headers=headers)

response.encoding = 'utf-8'

# 解析网页

soup = BeautifulSoup(response.text, 'html.parser')

# 定位class="rno-learning-path-wrap"的div标签

div_tag = soup.find('div', class_='rno-learning-path-wrap')

# 定位div标签中所有a标签

a_tags = div_tag.find_all('a')

# 提取title属性值作为网页文件名，提取href属性值作为网页下载地址

for a_tag in a_tags:

title = a_tag.get('title')

href = a_tag.get('href')

if title and href:

# 输出信息到屏幕上

print(f"Found link: {title} - {href}")

# 下载网页

try:

response = requests.get(href, headers=headers)

response.encoding = 'utf-8'

file_path = os.path.join(output_folder, f"{title}.html")

with open(file_path, 'w', encoding='utf-8') as file:

file.write(response.text)

print(f"Downloaded {href} to {file_path}")

except Exception as e:

print(f"Failed to download {href}: {e}")

# 随机暂停3-6秒

time.sleep(random.uniform(3, 6))

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-02

Claude团队：别再逐条喂Prompt，学会给Agent设计循环

2026-07-02

Agent 怎么沉淀技能:把一个好 prompt 变成全队资产

2026-07-01

从 Prompt 到 Skill：专业工作流的结构升级

2026-07-01

别让 AI 写的文档误导用户：从单次 Prompt 到高可信文档工程化实践

2026-06-30

网传 Karpathy 的 CLAUDE.md 曝光，10条铁律管住Claude Code！

2026-06-29

AI Coding 的底层框架：一切优化都是在对抗熵增

2026-06-29

给模型写方法论：拆解一个跨法域隐私审计Skill

2026-06-28

别再手工调 prompt 了，让 Agent 自己改自己的"操作系统"

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT Image 2 提示词图库开源站点来了

2026-04-21

不再触发Claude使用限制，大幅降低Token的10个有效习惯！

2026-04-07

我逆向了 329 条 GPT-Image2 提示词模板，全部开源！

2026-04-25

Karpathy 的 CLAUDE.md，到底解决了什么问题

2026-04-14

Codex 从入门到精通

2026-05-02

50个 Claude Code 日常使用技巧与最佳实践

2026-04-20

Claude Design的提示词被扒出来了，我在里面发现了Anthropic最真实的设计哲学

2026-04-19

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Codex「自我蒸馏」提示词进化版！官方团队给出更强方案，一键打包你的专属工作流

2026-05-25

Opus 4.7 落地了，聊聊我摸出来的使用技巧

2026-04-18

大家都在问

怎么写一份 Claude 真正能看懂的 DESIGN.md 文件？

2026-06-17

Search Agent 要如何构造复杂有效的Query？

2026-05-23

写给产品经理的"AI工程"指南：提示词工程、上下文工程、Harness 工程到底是啥？

2026-05-16

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

Prompt caching 技术是如何实现 1 折的推理成本优化的？

2026-02-12

几句话就能复刻一个付费Skill，Skills商店还能卖什么？

2026-02-12

从 Prompt 到 Skills：如何把业务流程切开，塞进AI的“技能槽”里？

2026-02-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw