博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫-初步认识
阅读量:5740 次
发布时间:2019-06-18

本文共 626 字,大约阅读时间需要 2 分钟。

 特此声明:

  • 以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy

                                      http://cuiqingcai.com/

  • 根据需要整理到自己的笔记中,用于学习。

 

网络爬虫Web crawler):也叫网络蜘蛛Web spider),网络爬虫的基本操作就是抓取网页。

浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,

               向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.

HTML:是一种标记语言,用标签标记内容并加以解析和区分。

浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

URL(Uniform / Universal Resource Locator:称为统一资源定位符(也叫网址)

URL格式:

  • 协议
  • 服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)
  • 路径(即主机资源的具体地址)
  • 查询(以?为起点)

第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开

例如:

http:是协议

zh.wikipedia.org,是服务器

80,是服务器上的网络端口号

/w/index.php,是路径

爬虫最主要的处理对象就是URL 

 

 

转载于:https://www.cnblogs.com/wujiadong2014/p/4926313.html

你可能感兴趣的文章
Spring IoC容器初的初始化过程
查看>>
sql server 触发器
查看>>
[工具]前端自动化工具grunt+bower+yoman
查看>>
自动化测试之WatiN(2)
查看>>
关于完成生鲜电商项目后的一点总结
查看>>
noip2012 普及组
查看>>
第二阶段 铁大Facebook——十天冲刺(10)
查看>>
Java判断是否为垃圾_Java GC如何判断对象是否为垃圾
查看>>
多项式前k项和java_多项式朴素贝叶斯softmax改变
查看>>
java数组只能交换0下标和n_编程练习-只用0交换排序数组
查看>>
java的maxrow_聊聊pg jdbc statement的maxRows参数
查看>>
centos7安装mysql视频教程_centos7安装mysql(完整)
查看>>
php图片赋值,php如何优雅地赋值
查看>>
dz.27z.co index.php,dz7.2 伪静态规则
查看>>
如何解决OutOfMemoryError
查看>>
【探索HTML5第二弹01】HTML5的前世今生以及来世
查看>>
Failed to connect to remote VM. Connection refused. Connection refused: connect
查看>>
freeze
查看>>
JS时间转时间戳,时间戳转时间。时间显示模式。
查看>>
SAP HANA存储过程结果视图调用
查看>>