当前位置: 首页 > news >正文

面向对象大作业——自主选题 网安2411 于鸿硕

面向对象大作业——自主选题

拟选题:基于学院网站的搜索引擎 网安2411 于鸿硕 202421336018


一、使用的AI工具辅助选题

在选题过程中,我使用ChatGPT进行辅助选题,


二、选题与前期调查

想要做什么

经综合考量课设题目书和扩展题目,基于网络空间安全专业的专业特性,我对Java Socket编程和Web html较感兴趣,希望了解网站架构逻辑与网络通信知识,加强网络开发者技能,选择了基于学院网站的搜索引擎

该系统的主要功能是,通过爬虫对学院网站行抓取、建索、排序、搜索、摘要显示;涉及网络爬虫、中文分词、Web。

下附ChatGPT归纳的选题价值、可行性以及难点:

img

img

图2.1 AI选题点

别人是怎么做的

在GitHub中找到了部分可参考的项目案例,附链接:

**1.Basic-Search-engine ** https://github.com/djmejiaamador/Basic-Search-engine?utm_source=chatgpt.com

说明用 Java 索引网站并使用 Socket 提供界面

2.Java-Web-Search-engine-and-Crawler https://github.com/pavitrakumar78/Java-Web-Search-engine-and-Crawler?utm_source=chatgpt.com

简单的 Java 搜索引擎 + 爬虫示例

3.SearchEngine https://github.com/smmorneau/SearchEngine?utm_source=chatgpt.com

Java 应用:爬取 seed 页面、建立倒排索引并提供搜索服务

准备实现的部分

抓取、建索(中文分词)、排序、搜索、摘要显示


三、系统功能设计

① 用户界面层(UI)

  • 提供搜索框、按钮
  • 显示标题、URL、摘要和高亮关键词
  • 与后台通过 Socket/HTTP 通信

② 搜索服务层

  • 负责接收用户请求(Socket)
  • 对搜索引擎核心进行调度
  • 将结果封装成前端友好的 JSON

③ 搜索核心层

  • 查询解析、中文分词
  • 从倒排索引中读取文档列表
  • 使用 TF-IDF/BM25 排序
  • 生成搜索摘要并返回结果

④ 索引构建层

  • 解析 HTML、提取正文
  • 对中文正文进行分词
  • 构建倒排索引
  • 持久化索引文件(可重启加载)

⑤ 爬虫抓取层

  • 使用 Socket 抓取学院网页
  • 维护 URL 队列、去重集合
  • 获取可索引的 HTML 页面
  • 输入到索引层进行处理
┌───────────────────────────────────────────────┐
│                   Web 前端层(UI)            │
│   - 搜索输入框(Search Page)                 │
│   - 搜索结果展示页面(Result Page)           │
│   - 关键字高亮、摘要展示                      │
└───────────────────────────────────────────────┘│ HTTP 请求 / 响应▼
┌───────────────────────────────────────────────┐
│                 Web Server 层(Java)         │
│  - 处理前端请求(Servlet / HttpHandler)      │
│  - 调用后端搜索服务(Socket 客户端)          │
│  - 组装 HTML / JSON 返回给前端               │
└───────────────────────────────────────────────┘│ Socket 通信(JSON)▼
┌───────────────────────────────────────────────┐
│              搜索引擎核心后端(Java)          │
│     【通过 Java Socket 单独运行的服务端】     │
│   - 页面抓取模块(Crawler)                   │
│   - 中文分词与倒排索引模块(Indexer + jieba) │
│   - 排序模块(Ranker,TF-IDF / BM25)         │
│   - 搜索模块(Searcher)                      │
│   - 摘要生成模块(Snippet Generator)         │
└───────────────────────────────────────────────┘│ 文件 I/O▼
┌───────────────────────────────────────────────┐
│                    数据存储层                 │
│   - 原始网页缓存(HTML)                       │
│   - 解析后的文本内容(JSON)                   │
│   - 倒排索引文件(JSON / Map 序列化)         │
│   - PageRank / 评分缓存                       │
└───────────────────────────────────────────────┘

图3.1 系统总体架构示意图

设计代码架构如下:

graph TD; src-->web-->|处理HTTP请求|SearchServlet.java web-->|Web首页|index.html web-->result.html src-->|搜索引擎|engine-->|爬虫|Crawler.java engine-->Indexer.java engine-->|搜索|Searcher.java engine-->Ranker.java engine-->SnippetGenerator.java engine-->Document&SearchResult.java engine-->Socket.Server.java src-->data-->|检索后的缓存|pages&index&log

四、拟使用的第三方Java生态工具

1.Crawler相关库

Jsoup HTML 解析 + 网页抓取 + DOM 提取

2.中文分词相关

jieba-java 中文文本分词

3.Web服务端相关

Java Servlet 构建 Web 页面、接收用户请求、调用 Socket 后端、返回 HTML 页面

4.JSON序列化

Gson Socket 通信时把对象转成 JSON、倒排索引落盘时序列化/反序列化


五、数据储存方式

1.抓取后的网页缓存(HTML Cache)

2.网页解析结构化后的JSON文件储存


六、界面

Web HTML


七、开发工具

IDE:IDEA 2024

Git+GitHub

Chrome Devtools

http://www.zskr.cn/news/81338.html

相关文章:

  • 《关于开始这件事》
  • Office 2024 安装包免费版永久使用+详细安装教程
  • 实验室反应釜/化工反应釜/高压反应釜/磁力反应釜哪家质量好?以及生产厂家推荐 - 品牌推荐大师
  • 专业水处理设备/全自动水处理设备/国产水处理设备/选哪家好?求推荐品牌生产厂家或制造商,水处理设备价格由什么因素决定 - 品牌推荐大师
  • 北京财产分割服务律所排名 2026专业能力与胜诉率测评 - 老周说教育
  • 梦境文本转换器
  • 境外上市辅导机构观察:顺安资本及多家美股上市辅导机构与中国境外券商投行机构的实践 - AIEO
  • 北京热拆迁纠纷服务律所排名 2026专业能力与胜诉率测评 - 老周说教育
  • 2025年艾灸仪器品牌排名:艾灸仪器厂家哪家好、外观设计及理 - 工业推荐榜
  • 2025年直流电阻测试仪哪个品牌好?生产厂家/源头厂家/制造商/供应商/生产商推荐盘点 - 品牌推荐大师1
  • 北京财产分割服务律师排名 2026专业能力评估 - 老周说教育
  • spring bean创建
  • 2025上海GEO领域哪家强?2025年末这份推荐榜单给你答案! - 速递信息
  • Qt 样式与 QLinearGradient 渐变详解
  • PP滑石粉加工与定制:厂家选择攻略及优质推荐 - mypinpai
  • 2025年沈阳知名艾灸仪器制造厂排行榜,专业测评精选售后好的 - 工业品牌热点
  • 【2025最新】qBittorrent 下载安装教程(增强版 EE 图文步骤 + 设置优化指南) - PC修复电脑医生
  • 2025武汉新华电脑学校好不好?权威测评指南:5大互联网职教 - 工业推荐榜
  • 2025年离心喷雾干燥机生产厂家推荐榜单:喷雾干燥机‌/中药浸膏喷雾干燥机‌/高速离心喷雾干燥机源头厂家精选 - 品牌推荐官
  • Apache 服务器 通俗解读:撑起无数网站的 “开源老大哥”
  • 2025年智能真空度测试仪/高精度真空度测试仪生产商|推荐厂家|源头厂家 - 品牌推荐大师1
  • 2025年年终副业平台推荐:基于多平台真实用户案例与收益数据深度解析的5款高可靠性选择 - 十大品牌推荐
  • 2025年中国隔音房安装公司推荐:隔音房生产商哪家好? - 工业品牌热点
  • 2025 年纸杯机、制杯机实力厂家推荐:全伺服、超声波、纸咖啡杯机、杯盖机、纸碗机、纸盘机制造商全覆盖 - 品牌2026
  • 2025 年纸碗机、机厂家一站式真相:从超声波纸杯机、杯盖机到纸盘机的制造与售后全解析 - 品牌2026
  • 2025年国产超声波均质机源头厂家/优质厂家/生产商/厂家排名/怎么联系/哪些品牌好 - 品牌推荐大师1
  • 2025广东精品咖啡豆烘焙服务商/厂家TOP5评测!全链路品质保障+场景化解决方案权威榜单发布,赋能咖啡产业升级 - 全局中转站
  • 广东咖啡奶茶开店指导培训公司TOP5 评测!广州奇豆咖啡领衔优质品牌,全链路赋能 + 实战案例验证权威榜单发布,助力创业者成功启航 - 全局中转站
  • 2025温度记录仪选购建议,GRAPHTEC日本图技GL860A-HP选购建议 - 品牌推荐大师1
  • 2025年-2026年国产高压反应釜/加氢反应釜选购建议:实力厂家口碑推荐! - 品牌推荐大师