C++项目实战：从零构建多线程网络爬虫，掌握现代C++工程化开发-尧图网络科技

1. 项目概述：从“西工大nojc++”说起

最近在和一些高校同学交流时，经常听到“nojc++”这个说法，尤其是在西北工业大学（西工大）的计算机相关专业圈子里。乍一听，这像是一个神秘的新技术或课程代号，但深入了解后你会发现，它其实是一个极具代表性的学习现象和项目实践模式的缩影。“nojc++”并非一个官方术语，更像是一个在学生群体中流传的“黑话”，其核心直指一个经典的学习困境：如何在脱离传统、按部就班的“教科书式”C++学习路径后，真正动手去构建一个有价值、能解决实际问题的项目。

简单来说，“nojc++”可以理解为“No Just C++”或“Not Only C++ Class”。它反映的是一种学习诉求——不满足于仅仅学习C++的语法、完成课后习题，而是渴望将C++作为工具，去实现一个具体的、完整的、有挑战性的项目。这个项目可能是一个小游戏、一个网络工具、一个算法可视化平台，或者任何能将C++知识串联起来的应用。对于西工大这样以工科见长、注重工程实践的高校学生而言，这种从“学知识”到“做项目”的跨越，是能力提升的关键一步，也是未来求职或深造时简历上最亮眼的部分。

那么，一个典型的“nojc++”项目应该是什么样的？它绝不是一个简单的“学生管理系统”或“计算器”。我认为，一个合格的、能真正锻炼人的项目，至少需要包含以下几个特征：第一，有明确且非玩具级的需求，比如一个简易的HTTP服务器、一个2D物理引擎、一个带界面的科学计算工具；第二，需要综合运用C++的核心特性，如面向对象设计、模板、STL容器与算法、内存管理（智能指针）、多线程等；第三，会接触到真实的开发工具链，如CMake构建、Git版本控制、单元测试（如Google Test）、性能分析工具（如gprof, Valgrind）；第四，必然会遇到并需要解决一系列“坑”，比如跨平台兼容性问题、第三方库的集成、内存泄漏的排查、并发数据竞争等。

接下来，我将以一个虚构但非常典型的“nojc++”项目——“基于C++17的多线程网络爬虫与数据分析终端”——为主线，拆解其从构思到实现的完整过程。这个项目涵盖了网络编程、数据解析、并发处理、数据存储和简单可视化等多个方面，非常适合作为从C++语法学习者迈向系统开发者的练手项目。我会详细阐述设计思路、关键技术选型、具体实现步骤以及那些只有踩过坑才知道的宝贵经验。

2. 项目整体设计与核心思路拆解

2.1 为什么选择“网络爬虫+数据分析”作为练手项目？

在决定做“nojc++”项目时，选型是第一道坎。一个合适的项目应该像一把“瑞士军刀”，能同时触及C++多个核心领域。网络爬虫+数据分析的组合完美符合这个要求。

从技术覆盖面来看：

网络编程：需要使用Socket或更高级的HTTP库（如cpr, libcurl）与远程服务器通信，理解HTTP协议、请求头、响应状态码。
并发编程：为了提高爬取效率，必须使用多线程甚至异步IO。这会深入涉及std::thread,std::async, 线程池、互斥锁(std::mutex)、条件变量(std::condition_variable)等。
数据解析：爬取的HTML或JSON数据需要解析。这可以练习字符串处理、正则表达式(std::regex)，或集成第三方解析库（如Gumbo for HTML, nlohmann/json for JSON）。
数据结构与算法：需要管理待爬取的URL队列（std::queue）、已爬取URL的集合（std::unordered_set去重），以及对抓取到的数据进行清洗、统计和排序。
文件与数据持久化：将结果保存到本地文件（std::fstream）或轻量级数据库（如SQLite）。
模块化与工程管理：项目必然会被拆分为网络模块、解析模块、任务调度模块、存储模块等，这是练习如何设计清晰的头文件(.h/.hpp)和源文件(.cpp)、如何用CMake组织跨平台构建的绝佳机会。

从学习曲线来看，这个项目难度呈阶梯式上升。你可以从单线程、爬取单个网页开始，逐步增加多线程、支持深度爬取、加入数据分析和简单图表输出。每一步都有明确的阶段性目标，成就感持续。

关于技术选型的核心考量：

HTTP客户端库：不推荐初学者直接从Socket写HTTP协议解析，那会分散核心精力。我推荐使用cpr库，它是一个对libcurl的C++11封装，API非常简洁现代。或者，如果你想更底层一些，libcurl本身也是C语言库，用C++包装一下也能用。
HTML解析库：手动写正则表达式解析HTML是条不归路，HTML结构复杂且不规范。Gumbo是Google开源的HTML5解析库，纯C实现，稳定可靠。我们可以用C++封装其接口，提供更易用的DOM遍历功能。
并发模型：直接创建大量std::thread不可取，线程创建销毁开销大。实现一个固定大小的线程池是本项目必做的核心组件。线程池负责管理一组工作线程，从一个线程安全的任务队列中获取URL爬取任务并执行。这是理解生产者-消费者模型的经典案例。
数据存储：初期可以用JSON或CSV格式将数据写到文件。当数据量变大或需要复杂查询时，集成SQLite是自然而然的选择。SQLite是单文件数据库，无需服务器，C接口清晰，有优秀的C++封装（如SQLiteCpp）。

注意：在项目初期，切忌追求大而全。定下一个最小可行产品(MVP)目标，例如：“能通过命令行参数指定一个起始URL，使用4个线程爬取10层深度内的所有链接，并将链接和标题保存到CSV文件”。先把这个跑通，再考虑增量添加功能。

2.2 系统架构设计草图

在动手写代码前，用纸笔或绘图工具画出系统模块图和数据流图，能极大避免后期混乱。我们这个爬虫的核心架构可以设计如下：

[主程序] (main.cpp) | |-- 初始化配置（线程数、深度、起始URL等） |-- 创建 [线程池] (ThreadPool) |-- 创建 [URL管理器] (UrlManager) (包含待爬队列和已爬集合) |-- 创建 [数据处理器] (DataProcessor) | |-- 将起始URL提交给URL管理器 | |-- 主循环： | 1. URL管理器从队列取一个URL（如果队列空且所有线程空闲则退出） | 2. 将URL打包为任务，提交给线程池 | 3. 线程池中的工作线程执行任务： | a. 调用 [网络爬取器] (Fetcher) 下载页面内容 | b. 调用 [内容解析器] (Parser) 提取新URL和有效数据 | c. 将新URL提交回URL管理器（控制深度） | d. 将有效数据提交给数据处理器 | 4. 重复1-3 | |-- 程序退出时，数据处理器将结果保存至文件/数据库。

模块职责分解：

线程池(ThreadPool)：管理线程生命周期，维护一个任务队列。提供SubmitTask(std::function)接口。
URL管理器(UrlManager)：线程安全的队列(std::queue+std::mutex)用于存放待爬URL；一个集合(std::unordered_set)用于去重。提供AddUrl,GetNextUrl等方法。
网络爬取器(Fetcher)：封装HTTP库（如cpr），实现fetch(const std::string& url)函数，返回页面内容或错误状态。
内容解析器(Parser)：封装HTML解析库（如Gumbo），实现extractUrls(...)和extractData(...)函数。
数据处理器(DataProcessor)：负责清洗、暂存爬取到的数据（如标题、正文摘要、发布时间等），并最终持久化。

这个架构清晰地将并发控制、任务调度、业务逻辑分离开，每个类的职责单一，便于独立开发、测试和调试。

3. 核心模块实现与关键技术细节

3.1 线程池的实现：从入门到避坑

线程池是本项目并发能力的核心。一个基础的线程池实现包含以下几个部分：

// ThreadPool.h #include <vector> #include <queue> #include <thread> #include <mutex> #include <condition_variable> #include <functional> #include <future> #include <memory> class ThreadPool { public: explicit ThreadPool(size_t thread_num); ~ThreadPool(); // 提交一个任务，返回一个future以便获取结果 template<class F, class... Args> auto SubmitTask(F&& f, Args&&... args) -> std::future<typename std::result_of<F(Args...)>::type>; void WaitAll(); // 可选：等待所有任务完成 private: std::vector<std::thread> workers_; // 工作线程组 std::queue<std::function<void()>> tasks_; // 任务队列 std::mutex queue_mutex_; // 保护任务队列的互斥锁 std::condition_variable condition_; // 条件变量，用于线程等待/唤醒 bool stop_; // 池是否关闭 };

实现要点与避坑指南：

任务队列的线程安全：tasks_队列会被多个线程（主线程提交任务，工作线程获取任务）同时访问，必须用queue_mutex_保护所有相关操作（push,pop,empty,size）。
条件变量的正确使用：工作线程在任务队列为空时应等待，而不是忙等待（busy-waiting）消耗CPU。这里使用std::condition_variable。在SubmitTask中，添加任务后需要调用condition_.notify_one()唤醒一个等待的线程。在工作线程函数中，等待的条件是[this]{ return stop_ || !tasks_.empty(); }，即池子没停且有任务。
优雅关闭：析构函数~ThreadPool()中，需要将stop_置为true，然后调用condition_.notify_all()唤醒所有线程，最后用join()等待每个线程结束。否则程序退出时可能还在执行任务或死锁。
处理任务返回值：SubmitTask使用了模板和std::future，这使得我们可以提交任何可调用对象，并能异步获取其返回值。这是现代C++并发编程的常用技巧。其内部实现通常是将任务包装进std::packaged_task，然后将其get_future()返回给调用者。
避免死锁：在持有锁时，不要调用可能阻塞或执行时间未知的用户代码（即任务函数f）。锁的范围应仅限于对任务队列的访问。通常的模式是：在锁保护下将任务推入队列，然后立刻释放锁，再通知条件变量。

实操心得：第一次实现线程池时，我最容易犯的错误是条件变量的虚假唤醒。标准规定，condition_variable.wait可能在未收到通知时返回，因此等待条件必须放在while循环中检查。我的惯用写法是：
std::unique_lock<std::mutex> lock(queue_mutex_); while(!stop_ && tasks_.empty()) { // 必须用while，不能用if condition_.wait(lock); } if(stop_ && tasks_.empty()) { return; // 线程退出 } auto task = std::move(tasks_.front()); tasks_.pop(); lock.unlock(); // 尽早释放锁 task(); // 执行任务（无锁状态下）

3.2 网络爬取器：使用cpr库处理HTTP请求

使用cpr库能让我们从繁琐的协议细节中解脱出来。首先需要通过CMake或vcpkg等工具安装cpr及其依赖（libcurl）。

// Fetcher.h #include <string> #include <optional> #include <cpr/cpr.h> class Fetcher { public: struct FetchResult { bool success; int status_code; std::string content; std::string error_message; }; FetchResult fetch(const std::string& url); };

// Fetcher.cpp #include "Fetcher.h" #include <spdlog/spdlog.h> // 推荐使用spdlog进行日志记录 FetchResult Fetcher::fetch(const std::string& url) { FetchResult result; try { // 设置超时和User-Agent是基本礼仪，避免被服务器拒绝 cpr::Response response = cpr::Get( cpr::Url{url}, cpr::Timeout{5000}, // 5秒超时 cpr::Header{{"User-Agent", "MyLearningCrawler/1.0 (for educational use only)"}} ); result.status_code = response.status_code; if (response.error) { result.success = false; result.error_message = response.error.message; spdlog::warn("Fetch failed for {}: {}", url, result.error_message); } else if (response.status_code == 200) { result.success = true; result.content = std::move(response.text); spdlog::info("Fetched {} successfully, size: {} bytes", url, result.content.size()); } else { result.success = false; result.error_message = "HTTP Status: " + std::to_string(response.status_code); spdlog::warn("Non-200 status for {}: {}", url, result.status_code); } } catch (const std::exception& e) { result.success = false; result.error_message = std::string("Exception: ") + e.what(); spdlog::error("Exception during fetch {}: {}", url, e.what()); } return result; }

关键细节与注意事项：

超时设置：必须设置合理的超时，否则网络不佳时线程会长时间阻塞。
User-Agent：设置一个友好的User-Agent，说明是学习用途，是对目标站点的基本尊重。
错误处理：网络请求充满不确定性。必须全面检查response.error和status_code，并将错误信息记录下来，便于后续分析和重试策略。
性能考虑：对于大量请求，可以考虑启用cpr的会话（cpr::Session）来复用底层连接，减少TCP握手开销。
遵守robots.txt：一个负责任的爬虫应该尊重网站的robots.txt协议。你可以增加一个RobotsChecker模块，在爬取前先获取并解析目标站点的robots.txt，判断当前User-Agent和路径是否被允许访问。这虽然会增加复杂度，但体现了良好的工程伦理。

3.3 内容解析器：集成Gumbo进行HTML解析

解析HTML是信息提取的关键。我们使用Gumbo库。

// Parser.h #include <string> #include <vector> #include <gumbo.h> class Parser { public: struct PageData { std::string title; std::string main_text_snippet; // 正文摘要 std::vector<std::string> links; // 提取出的所有超链接 }; static PageData parse(const std::string& html, const std::string& base_url); private: static void extractLinks(GumboNode* node, std::vector<std::string>& links, const std::string& base_url); static void extractText(GumboNode* node, std::string& text); static std::string buildFullUrl(const std::string& relative, const std::string& base); };

实现解析函数：

// Parser.cpp #include "Parser.h" #include <algorithm> #include <spdlog/spdlog.h> Parser::PageData Parser::parse(const std::string& html, const std::string& base_url) { PageData data; GumboOutput* output = gumbo_parse(html.c_str()); // 1. 提取标题 GumboNode* root = output->root; GumboVector* head_children = &root->v.element.children; for (int i = 0; i < head_children->length; ++i) { GumboNode* child = static_cast<GumboNode*>(head_children->data[i]); if (child->type == GUMBO_NODE_ELEMENT && child->v.element.tag == GUMBO_TAG_TITLE) { if (child->v.element.children.length > 0) { GumboNode* title_text = static_cast<GumboNode*>(child->v.element.children.data[0]); if (title_text->type == GUMBO_NODE_TEXT) { data.title = title_text->v.text.text; } } break; } } // 2. 提取所有链接（href属性） extractLinks(root, data.links, base_url); // 3. 简单提取正文（示例：取第一个<p>标签的内容） // 实际项目需要更复杂的启发式规则，这里仅作演示 std::string text; extractText(root, text); // 简单截取前200字符作为摘要 data.main_text_snippet = text.substr(0, std::min<size_t>(200, text.size())); gumbo_destroy_output(&kGumboDefaultOptions, output); return data; } void Parser::extractLinks(GumboNode* node, std::vector<std::string>& links, const std::string& base_url) { if (node->type != GUMBO_NODE_ELEMENT) return; if (node->v.element.tag == GUMBO_TAG_A) { GumboAttribute* href = gumbo_get_attribute(&node->v.element.attributes, "href"); if (href) { std::string url = buildFullUrl(href->value, base_url); if (!url.empty()) { links.push_back(url); } } } GumboVector* children = &node->v.element.children; for (int i = 0; i < children->length; ++i) { extractLinks(static_cast<GumboNode*>(children->data[i]), links, base_url); } } // ... 其他辅助函数（extractText, buildFullUrl）实现略

URL规范化：buildFullUrl函数至关重要。它需要处理相对路径（/about）、协议相对路径（//example.com）、以及../、./等，将其与base_url拼接成完整的绝对URL。一个健壮的URL规范化能避免重复爬取和无效链接。

踩坑记录：Gumbo解析后返回的DOM树节点是C结构体，需要小心内存管理（gumbo_destroy_output）。另外，HTML中的链接五花八门，可能包含javascript:void(0)、mailto:、锚点(#fragment)，甚至无效格式。在extractLinks中必须添加过滤逻辑，只处理http://或https://开头的有效URL，并去掉URL末尾的锚点。

4. 系统集成与任务调度逻辑

4.1 URL管理器：去重与深度控制

URL管理器是爬虫的“大脑”，负责调度。它需要是线程安全的。

// UrlManager.h #include <string> #include <queue> #include <unordered_set> #include <mutex> #include <optional> class UrlManager { public: UrlManager(int max_depth) : max_depth_(max_depth) {} bool addUrl(const std::string& url, int current_depth); std::optional<std::pair<std::string, int>> getNextUrl(); // 返回URL及其深度 size_t pendingCount() const; size_t visitedCount() const; private: std::queue<std::pair<std::string, int>> url_queue_; // <url, depth> std::unordered_set<std::string> visited_urls_; // 用于去重 mutable std::mutex mutex_; int max_depth_; };

关键逻辑：

addUrl：首先检查current_depth + 1是否超过max_depth_，再检查visited_urls_中是否已存在（需要先对URL做规范化处理，比如统一转为小写、去掉末尾斜杠等）。如果通过检查，则加入队列和已访问集合。
getNextUrl：从队列中取出一个URL及其深度。使用std::optional可以优雅地处理队列为空的情况。
线程安全：所有公共方法在访问url_queue_和visited_urls_前都必须加锁(std::lock_guard)。

4.2 主程序流程与数据流

将以上所有模块串联起来的主程序逻辑如下：

// main.cpp #include "ThreadPool.h" #include "UrlManager.h" #include "Fetcher.h" #include "Parser.h" #include "DataProcessor.h" #include <spdlog/spdlog.h> #include <atomic> int main(int argc, char* argv[]) { // 1. 初始化配置和日志 spdlog::set_level(spdlog::level::info); std::string start_url = "https://example.com"; int max_depth = 3; int num_threads = 4; // 2. 初始化核心组件 ThreadPool pool(num_threads); UrlManager url_manager(max_depth); Fetcher fetcher; DataProcessor data_processor; std::atomic<int> active_tasks{0}; // 用于判断程序是否结束 // 3. 添加种子URL if (!url_manager.addUrl(start_url, 0)) { spdlog::error("Failed to add seed URL."); return 1; } // 4. 主循环 - 提交任务 while (true) { auto next = url_manager.getNextUrl(); if (!next) { // 队列为空，检查是否还有任务在执行 if (active_tasks.load() == 0) { spdlog::info("No more URLs and all tasks finished. Exiting."); break; } std::this_thread::sleep_for(std::chrono::milliseconds(100)); // 稍等 continue; } auto [url, depth] = *next; active_tasks++; pool.SubmitTask([&, url, depth]() { spdlog::debug("Processing {} at depth {}", url, depth); // 4.1 爬取 auto fetch_result = fetcher.fetch(url); if (!fetch_result.success) { spdlog::warn("Failed to fetch {}", url); active_tasks--; return; } // 4.2 解析 auto page_data = Parser::parse(fetch_result.content, url); // 4.3 处理数据 data_processor.process(url, page_data.title, page_data.main_text_snippet); // 4.4 提取新链接并添加回管理器 for (const auto& new_link : page_data.links) { url_manager.addUrl(new_link, depth + 1); } active_tasks--; spdlog::info("Finished processing {}", url); }); } // 5. 等待所有线程任务完成（ThreadPool析构时会自动join） // 6. 保存数据 data_processor.saveToFile("crawler_results.csv"); spdlog::info("Crawling finished. Results saved."); return 0; }

这个流程清晰地展示了生产者（主循环从URL管理器取URL并生产任务）-消费者（线程池中的线程消费任务并处理）模型。std::atomic<int> active_tasks用于跟踪正在执行的任务数，是判断程序是否可以退出的重要标志。

5. 进阶优化与功能扩展

一个基础爬虫完成后，可以从以下几个方向进行深化，这正是一个“nojc++”项目价值的体现：

5.1 性能分析与优化

I/O瓶颈：网络请求是主要耗时操作。可以尝试：
- 异步I/O：将libcurl切换到异步模式（multi interface），或使用基于事件循环的库（如libuv），实现更高并发。
- 连接复用：使用cpr::Session保持HTTP持久连接。
内存与CPU分析：使用Valgrind的massif工具检查内存使用，用callgrind分析函数调用热点。你可能会发现HTML解析或字符串处理是CPU热点，考虑优化解析算法或使用更高效的数据结构（如std::string_view减少拷贝）。
配置化：将线程数、超时时间、请求间隔、User-Agent等参数写入JSON配置文件，使用如nlohmann/json库来读取，使程序更灵活。

5.2 数据存储升级：集成SQLite

当数据量增大，CSV文件查询不便时，引入SQLite。

// 使用SQLiteCpp库示例 #include <SQLiteCpp/SQLiteCpp.h> class DatabaseManager { public: DatabaseManager(const std::string& db_path) : db_(db_path, SQLite::OPEN_READWRITE | SQLite::OPEN_CREATE) { createTable(); } void insertPage(const std::string& url, const std::string& title, const std::string& snippet) { SQLite::Statement query(db_, "INSERT INTO pages (url, title, content_snippet) VALUES (?, ?, ?)"); query.bind(1, url); query.bind(2, title); query.bind(3, snippet); query.exec(); } private: void createTable() { db_.exec("CREATE TABLE IF NOT EXISTS pages (id INTEGER PRIMARY KEY, url TEXT UNIQUE, title TEXT, content_snippet TEXT, created_at DATETIME DEFAULT CURRENT_TIMESTAMP)"); } SQLite::Database db_; };

5.3 实现简单数据分析与可视化

数据爬取后，可以做一些简单的分析，并用C++生成图表。虽然C++不是数据科学的首选，但通过一些库也能实现。

数据分析：使用std::map或std::unordered_map统计词频，找出最常出现的词汇。可以集成cppjieba等库进行中文分词。
可视化：
- 控制台图表：使用gnuplot-iostream库，调用Gnuplot从C++程序生成PNG图片。
- 简单图形界面：使用Qt或Dear ImGui库，编写一个本地GUI程序来展示爬取结果的统计图（如柱状图、饼图）。这能将你的项目从命令行工具升级为桌面应用，技术栈更加丰满。

// 示例：使用gnuplot-iostream绘制词频柱状图 #include <vector> #include <utility> #include <gnuplot-iostream.h> void plotWordFreq(const std::vector<std::pair<std::string, int>>& word_freq) { Gnuplot gp; std::vector<std::pair<std::string, int>> top10(word_freq.begin(), word_freq.begin() + std::min<size_t>(10, word_freq.size())); gp << "set terminal pngcairo size 800,600\n"; gp << "set output 'word_freq.png'\n"; gp << "set style data histograms\n"; gp << "set style fill solid\n"; gp << "plot '-' using 2:xtic(1) notitle\n"; gp.send1d(top10); }

6. 常见问题、调试技巧与避坑指南

在实际开发中，你会遇到各种各样的问题。以下是我总结的一些典型问题及解决方法：

6.1 编译与链接问题

问题：找不到cpr、gumbo等第三方库的头文件或链接库。
解决：
1. 使用包管理器：强烈推荐使用vcpkg或conan管理C++依赖。在CMakeLists.txt中集成它们，可以自动处理查找和链接。
2. 手动配置CMake：如果手动安装，确保在CMakeLists.txt中正确使用find_package或find_library，并将头文件路径和库文件路径添加到target_include_directories和target_link_libraries。
3. 静态链接：对于发布，考虑将小型库静态链接，避免运行时依赖问题。

6.2 运行时问题

问题一：程序崩溃，错误信息模糊。
- 排查：首先确保所有指针和引用都有效（使用Gumbo、libcurl时尤其注意）。启用编译器所有警告（-Wall -Wextra -Werror）。使用AddressSanitizer(-fsanitize=address) 编译运行，它能检测内存错误（越界、泄漏）。
问题二：爬虫很快被目标网站封禁。
- 解决：
  - 设置请求间隔：在每个任务中增加std::this_thread::sleep_for(std::chrono::milliseconds(100))，降低请求频率。
  - 使用代理IP池：这是一个高级话题，需要维护一组代理IP并轮流使用。
  - 遵守robots.txt：如前所述。
  - 模拟浏览器：设置更完整的HTTP头，如Accept,Accept-Language,Referer等。
问题三：多线程下数据竞争或死锁。
- 排查：使用ThreadSanitizer(-fsanitize=thread) 编译运行，检测数据竞争。仔细检查所有共享数据（如URL管理器、数据处理器）的锁范围。确保锁的获取顺序一致，避免死锁。
问题四：内存使用量不断增长（疑似内存泄漏）。
- 排查：使用Valgrind --leak-check=full运行程序。重点检查：
  1. 使用new/malloc分配的内存是否都有对应的delete/free。
  2. Gumbo的gumbo_destroy_output是否在每个页面解析后都被调用。
  3. 标准库容器（如std::vector<std::string>）在大量数据下是否及时清空或复用。考虑使用std::vector.clear()+shrink_to_fit()，或使用移动语义减少拷贝。

6.3 工程化与代码质量

日志是生命线：一定要集成一个日志库（如spdlog）。将关键步骤（开始爬取、成功、失败、添加新URL）、错误信息、甚至性能耗时都记录下来。调试时，日志文件比调试器更有效。
单元测试：为UrlManager,Parser等核心业务逻辑编写单元测试（使用Google Test）。这能保证在修改代码后，基础功能依然正确。
使用现代C++特性：尽量使用智能指针（std::unique_ptr,std::shared_ptr）管理资源，使用std::string_view传递只读字符串参数，使用std::optional处理可能缺失的值。这能让代码更安全、更清晰。
版本控制：从一开始就使用Git。为每个新功能或修复创建分支，提交信息写清楚。.gitignore文件要忽略构建目录（如build/）和编译产物。

完成这样一个项目后，你收获的远不止一个爬虫程序。你系统地实践了C++面向对象设计、内存管理、现代并发编程、第三方库集成、工程构建、调试排错等一系列核心技能。这才是“nojc++”精神的真正内涵——跳出语法练习的舒适区，用工程实践驱动学习，构建出真正能运行、能解决实际问题的软件。这个过程会遇到无数问题，而每一个问题的解决，都是你技术能力的一次扎实提升。