在浏览器里,从输入 URL 到页面展示,这中间发生了什么?
# 在浏览器里,从输入 URL 到页面展示,这中间发生了什么?
详细探索一下这道经典的面试题,主要考察以下两个方面的知识点:
- 网络知识(HTTP、TCP、CDN)
- 浏览器知识(缓存、渲染原理)
# 总览
浏览器进程
主要负责用户交互、子进程管理和文件储存等功能。网络进程
是面向渲染进程和浏览器进程等提供网络下载功能。渲染进程
的主要职责是把从网络下载的 HTML、JavaScript、CSS、图片等资源解析为可以显示和交互的页面。因为渲染进程所有的内容都是通过网络获取的,会存在一些恶意代码利用浏览器漏洞对系统进行攻击,所以运行在渲染进程里面的代码是不被信任的。这也是为什么 Chrome 会让渲染进程运行在安全沙箱里,就是为了保证系统的安全。
从URL到页面显示大体流程如下:
浏览器进程
接收到用户输入的URL请求,将该URL请求转发给网络进程
- 在
网络进程
中发起URL相应的请求 网络进程
接收到了响应头数据,便解析响应头数据,并将数据转发给浏览器进程
浏览器进程
接收到网络进程的响应头数据之后,发送“提交导航(CommitNavigation)”消息到渲染进程
渲染进程
接收到“提交导航”的消息之后,便开始准备接收 HTML 数据,接收数据的方式是直接和网络进程
建立数据管道渲染进程
会向浏览器进程“确认提交”,这是告诉浏览器进程
:“已经准备好接受和解析页面数据了”浏览器进程
接收到渲染进程“提交文档”的消息之后,便开始移除之前旧的文档,然后更新浏览器进程中的页面状态
# 用户输入
当用户在地址栏中输入一个查询关键字时,地址栏会判断输入的关键字是搜索内容,还是请求的 URL。
- 如果是搜索内容,地址栏会使用浏览器默认的搜索引擎,来合成新的带搜索关键字的URL
- 如果判断输入内容符合URL规则,那么地址栏会根据规则,把这段内容加上协议,合成为完整的URL
当前页面即将要被替换成新的页面,不过在这个流程继续之前,当前页面还可以执行一次 beforeunload
事件,该事件允许页面在退出之前执行一些数据清理操作,也可以询问用户是否要离开当前页面,比如当前页面可能有未提交完成的表单等情况,因此用户可以通过 beforeunload
事件来取消导航,让浏览器不再执行任何后续工作。
当前页面没有监听 beforeunload
事件或者同意了继续后续流程。浏览器标签页上的图标便进入了加载状态。但此时图中页面显示的依然是之前打开的页面内容,并没立即替换为新的页面。因为需要等待提交文档阶段,页面内容才会被替换。
# URL 请求
浏览器进程
通过IPC将URL请求发送到网络进程
,由网络进程
发起URL请求流程,请求页面资源。
- 【
查缓存
】首先网络进程会查找本地缓存是否缓存了该资源。如果有缓存资源,那么直接返回资源给浏览器进程;如果在缓存中没有查找到资源,那么直接进入网络请求流程 - 【
域名解析
】请求前第一步是要进行 DNS 解析,以获取请求域名的服务器 IP 地址。 - 【
建立TLS连接
】如果请求协议是 HTTPS,那么还需要建立 TLS 连接 - 【
建立TCP连接
】利用 IP 地址和服务器建立 TCP 连接 - 【
构建请求信息
】连接建立之后,浏览器端会构建请求行、请求头等信息,并把和该域名相关的 Cookie 等数据附加到请求头中,然后向服务器发送构建的请求信息 - 【
服务端返回响应
】服务器接收到请求信息后,会根据请求信息生成响应数据(包括响应行、响应头和响应体等信息),并发给网络进程 - 【
解析响应
】等网络进程接收了响应行和响应头之后,就开始解析响应报文的内容了
# 重定向
在导航过程中,如果服务器响应行的状态码包含了 301、302 一类的跳转信息,浏览器会跳转到新的地址继续导航;如果响应行是 200,那么表示浏览器可以继续处理该请求。
# 响应数据类型处理
通过Content-Type响应头信息来判断请求的数据类型。浏览器会根据 Content-Type 的值来决定如何显示响应体的内容。
如果响应头中的 Content-type 字段的值是 text/html
,这就是告诉浏览器,服务器返回的数据是 HTML 格式。浏览器则会继续进行导航流程,准备渲染进程。
如果 Content-Type 的值是 application/octet-stream
,显示数据是字节流类型的,通常情况下,浏览器会按照下载类型来处理该请求。该请求会被提交给浏览器的下载管理器,同时该 URL 请求的导航流程就此结束。
# 准备渲染进程
同一站点(same-site)定义为根域名(例如,geekbang.org)加上协议(例如,https://),还包含了该根域名下的所有子域名和不同的端口
https://time.geekbang.org
https://www.geekbang.org
https://www.geekbang.org:8080
Chrome 的默认策略是,每个标签对应一个渲染进程。但如果从一个页面打开了另一个新页面,而新页面和当前页面属于同一站点的话,那么新页面会复用父页面的渲染进程。官方把这个默认策略叫 process-per-site-instance。
- 通常情况下,打开新的页面都会使用单独的渲染进程;
- 如果从 A 页面打开 B 页面,且 A 和 B 都属于同一站点的话,那么 B 页面复用 A 页面的渲染进程;如果是其他情况,浏览器进程则会为 B 创建一个新的渲染进程。
渲染进程准备好之后,还不能立即进入文档解析状态,因为此时的文档数据还在网络进程中,并没有提交给渲染进程,所以下一步就进入了提交文档阶段。
# 提交文档
提交文档是指浏览器进程将网络进程接收到的 HTML 数据提交给渲染进程,具体流程是这样的:
- 首先当浏览器进程接收到网络进程的响应头数据之后,便向渲染进程发起“提交文档”的消息;
- 渲染进程接收到“提交文档”的消息后,会和网络进程建立传输数据的“管道”;
- 等文档数据传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程;
- 浏览器进程在收到“确认提交”的消息后,会更新浏览器界面状态,包括了安全状态、地址栏的 URL、前进后退的历史状态,并更新 Web 页面。
这也就解释了为什么在浏览器的地址栏里面输入了一个地址后,之前的页面没有立马消失,而是要加载一会儿才会更新页面。
一旦文档被提交,渲染进程便开始页面解析和子资源加载了,就到了渲染阶段进行页面渲染。而一旦页面生成完成,渲染进程会发送一个消息给浏览器进程,浏览器接收到消息后,会停止标签图标上的加载动画。