• libcurl库的网页爬虫程序


    示例代码:

    #include 
    #include 
    ​
    int main() {
        CURL *curl;
        CURLcode res;
    ​
        curl_global_init(CURL_GLOBAL_DEFAULT);
    ​
        curl = curl_easy_init();
        if(curl) {
            curl_easy_setopt(curl, CURLOPT_URL, "/");
            curl_easy_setopt(curl, CURLOPT_PROXY, "");
            curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
            curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, NULL); // 使用默认的写入函数
            curl_easy_setopt(curl, CURLOPT_ERRORFUNCTION, NULL); // 使用默认的错误处理函数
    ​
            res = curl_easy_perform(curl);
    ​
            if(res != CURLE_OK)
                std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
    ​
            curl_easy_cleanup(curl);
        }
    ​
        curl_global_cleanup();
    ​
        return 0;
    }

    解释:

    • #include :这是libcurl库的头文件,包含了libcurl的所有函数声明。

    • #include :这是C++的标准输入输出库的头文件,包含了iostream类。

    • curl_global_init(CURL_GLOBAL_DEFAULT):这是初始化libcurl全局变量的函数,CURL_GLOBAL_DEFAULT表示使用默认的设置。

    • curl = curl_easy_init():这是创建一个CURL对象的函数,返回一个CURL指针。

    • curl_easy_setopt(curl, CURLOPT_URL, "https://www.ctrip.com/");:这是设置CURL对象的URL的函数,参数是一个URL字符串。

    • curl_easy_setopt(curl, CURLOPT_PROXY, "www.duoip.cn:8000");:这是设置CURL对象的服务器的函数,参数是一个服务器的IP地址和端口号。

    • curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);:这是设置CURL对象是否跟随重定向的函数,参数是一个整数,1表示跟随重定向,0表示不跟随重定向。

    • curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, NULL);:这是设置CURL对象的写入函数的函数,参数是一个函数指针,这个函数在请求成功后会被调用,用来写入请求结果。

    • curl_easy_setopt(curl, CURLOPT_ERRORFUNCTION, NULL);:这是设置CURL对象的错误处理函数的函数,参数是一个函数指针,这个函数在请求失败后会被调用,用来处理错误。

    • curl_easy_perform(curl);:这是执行CURL对象的请求的函数,如果请求成功,这个函数会返回CURLE_OK,如果请求失败,会返回一个错误代码。

    • if(res != CURLE_OK):这是一个条件语句,如果curl_easy_perform()函数返回的错误代码不等于CURLE_OK,就会执行后面的语句。

    • std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;:这是打印错误信息的函数,如果curl_easy_perform()函数返回的错误代码不等于CURLE_OK,就会执行这个函数,打印出错误信息。

    • curl_easy_cleanup(curl);:这是销毁CURL对象的函数,释放CURL对象占用的资源。

    • curl_global_cleanup();:这是销毁libcurl全局变量的函数,释放libcurl占用的资源。

    • return 0;:这是主函数的返回值,表示程序正常结束。

  • 相关阅读:
    TensorFlow开源项目
    实验四 基本数据管理(一)
    【CMake】使用ctest配置googletest
    万字总结线程安全问题
    SAHI_Yolov8:小目标检测
    剑指offer.平衡二叉树
    背包问题学习笔记-01背包
    Shell编程
    算法提升:图的Dijkstra(迪杰斯特拉)算法
    Nginx
  • 原文地址:https://blog.csdn.net/weixin_73725158/article/details/134070127