编程实战：如何在程序中解析域名

由于域名比 IP 地址更便于记忆，我们通常使用它来访问网络服务。网络应用客户端想要跟服务端通信，必须先向 DNS 服务器查询域名对应的 IP 地址。

举个例子，读者访问我的网站 fasionchan.com 时，浏览器需要先根据域名查询网站的 IP 地址，再和网站的 Web 服务器进行通信。

那么，如何通过编程实现域名查询呢？这是开发网络应用无法回避的问题。

我们知道，DNS 服务器和客户端之间使用 DNS 协议进行通信：客户端先向服务器发送 请求报文 ，服务器将查询结果封装成 应答报文 ，回复客户端。DNS 可以使用 UDP 或 TCP 作为传输层协议，通信端口号为 53 。

假设客户端使用 UDP 协议，一次域名查询的步骤大致如下：

创建一个 UDP 套接字；
封装 DNS 请求报文，待查询域名位于问题节；
通过 UDP 套接字，将请求报文发给 DNS 服务器（服务端端口一般是 53 ）；
等待服务端响应，并从 UDP 套接字读取应答报文；
解析应答报文，获得查询结果；
关闭 UDP 套接字；

如果每个网络应用都需要自行封装 DNS 报文实现域名查询，未免太麻烦了！为此，C库提供了一系列工具函数。应用程序只需调用这些工具函数，即可完成域名查询，不用自己操作套接字，或者封装 DNS 报文。

示例程序

这个程序调用 C 库函数 gethostbyname ，将用户在命令行参数中指定的域名查询出来：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42


#include <arpa/inet.h>
#include <netdb.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
    if (argc != 2) {
        fprintf(stderr, "bad arguments");
        return -1;
    }

    char *name = argv[1];
    printf("resolve domain name: %s\n", name);

    struct hostent *result = gethostbyname(name);
    if (result == NULL) {
        if (h_errno == HOST_NOT_FOUND) {
            fprintf(stderr, "Hostname not found!\n");
        }

        if (h_errno == NO_DATA) {
            fprintf(stderr, "No such record\n");
        }

        if (h_errno == NO_RECOVERY) {
            fprintf(stderr, "\n");
        }

        if (h_errno == TRY_AGAIN) {
            fprintf(stderr, "Temporary error occurred, please try again!\n");
        }

        return -1;
    }

    int i = 0;
    while (result->h_addr_list[i] != NULL) {
        printf("IP: %s\n", inet_ntoa(*(struct in_addr *)result->h_addr_list[i]));
        i++;
    }

    return 0;
}

顾名思义，gethostbyname 根据域名查询主机的地址，结果一般是 IP 地址或者 IPv6 地址。

请看程序第 14 行，以待查询域名为参数调用 gethostbyname 函数；它返回一个 hostent 结构体指针，结构体中保存着域名查询结果。

第 15-33 行，检查域名解析结果，空表示出错；出错时根据 h_errno 的值，分情况处理（详情请见后文）。

第 35-39 行，从 hostent 结构体中取出查询结果，并打印到屏幕上。

那么， gethostbyname 库函数内部都做了些什么呢？答案其实不难猜到。它会帮我们创建 UDP 套接字、发送 DNS 请求报文、接收并解析应答报文。以这个程序为例，它的执行流（蓝线）大致如下：

域名查询库函数

实际上，C 库提供了一系列工具函数，用于域名查询：

gethostbyname ，查询指定域名，查询结果保存在 hostent 结构体中，指针被返回给调用者；
gethostbyname_r ，同上，为线程安全版本，可在多线程环境中使用；
gethostbyname2 ，同一，但支持通过 af 参数指定查询地址类型；
gethostbyname2_r ，同三，为线程安全版本，可在多线程环境中使用；

以 gethostbyname 为例，如果查询成功，它将返回一个 hostent 结构体指针，结构体保存着查询结果。如果查询出错，它将返回 NULL ，并将错误保存 h_errno 全局变量。一般而言，域名查询出错，可以分为这几种情况：

HOST_NOT_FOUND ，表示指定主机不存在，即域名不存在；
NO_DATA ，表示域名存在其他记录，但没有地址相关记录（ A 或者 AAAA ）；
NO_RECOVERY ，域名服务器出现不可恢复错误；
TRY_AGAIN ，临时出错，可通过重试恢复；

当域名查询失败时，调用者必须检查 h_errno 变量，分情况进行处理。

局限性

在网络爬虫、Socks5 代理等应用场景，域名查询非常频繁。这时直接使用 gethostbyname 系列库函数，很有可能会面临性能瓶颈。

一方面，gethostbyname 库函数每次查询域名时，都要创建一个 UDP 套接字来跟 DNS 服务器通信。这意味着，频繁的域名查询背后，必然伴随着大量套接字的创建和销毁，开销可想而知！

另一方面，gethostbyname 库函数将一直阻塞，直到 DNS 服务器返回结果或者查询超时。这将严重制约系统的并发处理能力。

因此，在高频查询场景，不能直接使用 gethostbyname 等库函数，必须采用一些经过优化的异步域名解析库。

扩展阅读

gethostbyname

【小菜学网络】系列文章首发于公众号【小菜学编程】，敬请关注：