(挖坑未填)第一个爬虫小实验尝试用bs4解析百度结果
截至文章发布近期,暂时不推荐使用python311,pip在线安装会出现奇怪的问题,找不到问题源,本地安装库可以使用。
听说Python更新了3.11的版本,据传此版本较3.10版本速度提升10%-60%,据官方称是目前Python最好的版本,于是我就闻讯升级了。在此打个补丁。每次pip换源都要百度,下次跳过百度直接进自己博客,复制粘贴。
1 |
|
众所周知,换源也就是在用户目录下生成一个配置文件,于是乎命令生成不比手动创建香吗。
OK,切入正题,这次准备练习的一个小爬虫是,百度搜索的词条(第一页,任意关键字),理论上就是
CSS选择器选择题目,然后搞定URL,然而当我正真实战的时候发现事实并不一样 痛哭。。。
此处出现一个问题,因为要安装库,首先要安装requests,还有bs4,再然后我的解析引擎选取的lxml,问题就出在这,lxml安装上去,各种报错,没有任何突出的指向性。很是头秃。
1 |
|
然后查阅各种博客,得到了一点启示,虽然有人说要去下载安装,确实是一个解决方案,但是我昨天上课在课堂上,一个人在线安装成功了,我就很纳闷为什么我不行。
然后我的解决方案还是下载自己安装,地址是lxml下载
我猜测是它pip拉取的版本不对导致安装不上去,按照道理python3.11就要选取cp311的,然后我就安装成功了,理论上,pip在线拉取和本地安装是一样的道理,没理由本地安装可以,直接install不行。所以我觉得是pip拉取的版本不对,可能没有更新11的版本。
反正本地安装是安装上去了。
回来填坑了,奶奶的,亲们请记住,请给requests的get方法加上headers=head这个参数,不然会读不到参数,所以我无论怎么爬都爬不到数据的原因就是这个,气死了。PS:如果还有问题请尝试登录的cookie或修改head。
1 |
|
好的首先这个代码是可以运行的,下一步就是编写analyse函数了,下次再写,鉴于太久没更新了,所以先把之前挖的几个坑上传一下,回头等我考完试,我再回来填大坑。