python爬虫-初步认识-白红宇

python爬虫-初步认识

阅读量：5740 次

发布时间：2019-06-18

本文共 626 字，大约阅读时间需要 2 分钟。

特此声明：

以下内容来源于博主：http://blog.csdn.net/pleasecallmewhy

http://cuiqingcai.com/

根据需要整理到自己的笔记中，用于学习。

网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：

协议

服务器（域名或IP地址），有时也包括端口号（以数字表示，可省略）

路径（即主机资源的具体地址）

查询（以？为起点）

第一部分协议和第二部分服务器用' :// '符合隔开，第二部分服务器和第三部分路径用' / '隔开

例如：

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL

转载于:https://www.cnblogs.com/wujiadong2014/p/4926313.html

你可能感兴趣的文章

[工具]前端自动化工具grunt+bower+yoman

第二阶段铁大Facebook——十天冲刺（10）

查看>>

Java判断是否为垃圾_Java GC如何判断对象是否为垃圾

查看>>

多项式前k项和java_多项式朴素贝叶斯softmax改变

查看>>

java数组只能交换0下标和n_编程练习-只用0交换排序数组

查看>>

java的maxrow_聊聊pg jdbc statement的maxRows参数

查看>>

centos7安装mysql视频教程_centos7安装mysql（完整）

查看>>

php图片赋值,php如何优雅地赋值

查看>>

dz.27z.co index.php,dz7.2 伪静态规则

查看>>

如何解决OutOfMemoryError

查看>>

【探索HTML5第二弹01】HTML5的前世今生以及来世

查看>>

Failed to connect to remote VM. Connection refused. Connection refused: connect

查看>>

freeze

查看>>

JS时间转时间戳，时间戳转时间。时间显示模式。

查看>>

SAP HANA存储过程结果视图调用

查看>>