我需要解析一个站点,但我得到了一个错误403。
下面是一个代码:
url=”http://worldagnetwork.com/'
结果=请求。获取(url)
打印(result.content.decode())
其产出:
<;html>;
<;头>&书信电报;标题>;403禁止</标题></头>;
<;车身bgcolor=“白色”>;
<;中心>&书信电报;h1>;403禁止</h1></中心>;
<;人力资源>&书信电报;中心>;nginx</中心>;
</车身>;
</html>;
请说出问题所在
页面似乎拒绝了未识别用户代理的GET请求。我使用浏览器(Chrome)访问了该页面,并复制了GET请求的User-Agent标题(查看开发者工具的网络选项卡):
导入请求
url='1〕http://worldagnetwork.com/'
headers={'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_5)AppleWebKit/537.36(KHTML,像Gecko)Chrome/50.0.2661.102 Safari/537.36'}
result=requests.get(url,headers=headers)
打印(result.content.decode())
#<;!doctype html>;
#<--[如果低于IE 7]>&书信电报;html class=“no js ie ie6”lang=“en”>&书信电报;![endif]——>;
#<--[如果IE 7]>&书信电报;html class=“no js ie ie7”lang=“en”>&书信电报;![endif]——>;
#<--[如果IE 8]>&书信电报;html class=“no js ie ie8”lang=“en”>&书信电报;![endif]——>;
#<--[如果(gte IE 9)|!(IE)]><--&燃气轮机&书信电报;html class=“no js”lang=“en”><--&书信电报;![endif]——>;
# ...