如何用Python把一个网页中所有的链接地址提取出来(去重)

# 把一个网页中所有的链接地址提取出来。
运行环境Python3.6.4-实现代码:
import urllib.request
import re
#1. 确定好要爬取的入口链接
url = "https://ahaoe.com"
# 2.根据需求构建好链接提取的正则表达式
pattern1 = '<.*?(href=".*?").*?'
#3.模拟成浏览器并爬取对应的网页 谷歌浏览器
headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')
# 4.根据2中规则提取出该网页中包含的链接
content_href = re.findall(pattern1,data,re.I)
# print(content_href)
# 5.过滤掉重复的链接
#    # 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}
set1 = set(content_href)
# 6.后续操作,比如打印出来或者保存到文件中。
file_new = "C:\\爬虫\\href.txt"
with open(file_new,'w') as f:
    for i in set1:
        f.write(i)
        f.write("\n")
# f.close()
    
print('已经生成文件')
版权声明:
作者:ahao
本文地址:https://ahaoe.com/py/75.html
来源:阿好SEO博客
注意:本站所有资源均来源于网络,仅供学习使用,请支持正版!所提供下载链接也是站外链接,网站本身并不存储相关资源文件,本链接资源仅供学习研究使用,不得用于商业用途,请在下载后24小时之内自觉删除,本站所有资源解释权归原作者或版权方所有,如果您有能力建议购买官方正版。如资源下载链接侵犯到版权方,请及时与本站联系删除相关内容。邮箱:kefu@ahaoe.com
THE END
分享
二维码
< <上一篇
下一篇>>