编程实战:如何在程序中解析域名

由于域名比 IP 地址更便于记忆,我们通常使用它来访问网络服务。网络应用客户端想要跟服务端通信,必须先向 DNS 服务器查询域名对应的 IP 地址。

举个例子,读者访问我的网站 fasionchan.com 时,浏览器需要先根据域名查询网站的 IP 地址,再和网站的 Web 服务器进行通信。

那么,如何通过编程实现域名查询呢?这是开发网络应用无法回避的问题。

我们知道,DNS 服务器和客户端之间使用 DNS 协议进行通信:客户端先向服务器发送 请求报文 ,服务器将查询结果封装成 应答报文 ,回复客户端。DNS 可以使用 UDP 或 TCP 作为传输层协议,通信端口号为 53 。

假设客户端使用 UDP 协议,一次域名查询的步骤大致如下:

  1. 创建一个 UDP 套接字;
  2. 封装 DNS 请求报文,待查询域名位于问题节;
  3. 通过 UDP 套接字,将请求报文发给 DNS 服务器(服务端端口一般是 53 );
  4. 等待服务端响应,并从 UDP 套接字读取应答报文;
  5. 解析应答报文,获得查询结果;
  6. 关闭 UDP 套接字;

如果每个网络应用都需要自行封装 DNS 报文实现域名查询,未免太麻烦了!为此,C库提供了一系列工具函数。应用程序只需调用这些工具函数,即可完成域名查询,不用自己操作套接字,或者封装 DNS 报文。

示例程序

这个程序调用 C 库函数 gethostbyname ,将用户在命令行参数中指定的域名查询出来:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#include <arpa/inet.h>
#include <netdb.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
    if (argc != 2) {
        fprintf(stderr, "bad arguments");
        return -1;
    }

    char *name = argv[1];
    printf("resolve domain name: %s\n", name);

    struct hostent *result = gethostbyname(name);
    if (result == NULL) {
        if (h_errno == HOST_NOT_FOUND) {
            fprintf(stderr, "Hostname not found!\n");
        }

        if (h_errno == NO_DATA) {
            fprintf(stderr, "No such record\n");
        }

        if (h_errno == NO_RECOVERY) {
            fprintf(stderr, "\n");
        }

        if (h_errno == TRY_AGAIN) {
            fprintf(stderr, "Temporary error occurred, please try again!\n");
        }

        return -1;
    }

    int i = 0;
    while (result->h_addr_list[i] != NULL) {
        printf("IP: %s\n", inet_ntoa(*(struct in_addr *)result->h_addr_list[i]));
        i++;
    }

    return 0;
}

顾名思义,gethostbyname 根据域名查询主机的地址,结果一般是 IP 地址或者 IPv6 地址。

请看程序第 14 行,以待查询域名为参数调用 gethostbyname 函数;它返回一个 hostent 结构体指针,结构体中保存着域名查询结果。

第 15-33 行,检查域名解析结果,空表示出错;出错时根据 h_errno 的值,分情况处理(详情请见后文)。

第 35-39 行,从 hostent 结构体中取出查询结果,并打印到屏幕上。

那么, gethostbyname 库函数内部都做了些什么呢?答案其实不难猜到。它会帮我们创建 UDP 套接字、发送 DNS 请求报文、接收并解析应答报文。以这个程序为例,它的执行流(蓝线)大致如下:

域名查询库函数

实际上,C 库提供了一系列工具函数,用于域名查询:

  • gethostbyname ,查询指定域名,查询结果保存在 hostent 结构体中,指针被返回给调用者;
  • gethostbyname_r ,同上,为线程安全版本,可在多线程环境中使用;
  • gethostbyname2 ,同一,但支持通过 af 参数指定查询地址类型;
  • gethostbyname2_r ,同三,为线程安全版本,可在多线程环境中使用;

以 gethostbyname 为例,如果查询成功,它将返回一个 hostent 结构体指针,结构体保存着查询结果。如果查询出错,它将返回 NULL ,并将错误保存 h_errno 全局变量。一般而言,域名查询出错,可以分为这几种情况:

  • HOST_NOT_FOUND ,表示指定主机不存在,即域名不存在;
  • NO_DATA ,表示域名存在其他记录,但没有地址相关记录( A 或者 AAAA );
  • NO_RECOVERY ,域名服务器出现不可恢复错误;
  • TRY_AGAIN ,临时出错,可通过重试恢复;

当域名查询失败时,调用者必须检查 h_errno 变量,分情况进行处理。

局限性

在网络爬虫、Socks5 代理等应用场景,域名查询非常频繁。这时直接使用 gethostbyname 系列库函数,很有可能会面临性能瓶颈。

一方面,gethostbyname 库函数每次查询域名时,都要创建一个 UDP 套接字来跟 DNS 服务器通信。这意味着,频繁的域名查询背后,必然伴随着大量套接字的创建和销毁,开销可想而知!

另一方面,gethostbyname 库函数将一直阻塞,直到 DNS 服务器返回结果或者查询超时。这将严重制约系统的并发处理能力。

因此,在高频查询场景,不能直接使用 gethostbyname 等库函数,必须采用一些经过优化的异步域名解析库。

扩展阅读

小菜学网络】系列文章首发于公众号【小菜学编程】,敬请关注:

【小菜学网络】系列文章首发于公众号【小菜学编程】,敬请关注: