基于Spark集群的电影推荐全流程实现：从爬虫采集、MySQL存取到Django可视化展示-尧图网络科技

本文还有配套的精品资源，点击获取

简介：这个资源包提供了一套端到端可运行的电影推荐系统实践方案。数据源头是Windows 11环境下编写的Python爬虫，自动抓取豆瓣等平台的电影基础信息与用户评分数据，经清洗后批量写入Ubuntu 20.04系统中的MySQL 5.7数据库；核心推荐逻辑运行在本地VMware虚拟机搭建的Spark伪分布式集群上，依赖Hadoop HDFS作为底层存储，支持ALS协同过滤算法训练与实时推荐生成；前端由Django框架驱动，包含用户登录、电影浏览、个性化推荐列表及评分反馈功能，界面采用Bootstrap实现适配PC与移动端的响应式布局；整个工程按模块划分清晰——Spider_data负责数据采集、Spark_Recommend封装推荐计算流程、webapp和adminapp分别支撑前台展示与后台管理；所有代码在PyCharm中开发调试，配套文档（含系统实现.docx、README.md）详细说明了Ubuntu环境配置、Hadoop/Spark/MySQL/Django各组件安装步骤、数据流向图、关键接口定义及单机伪分布式部署方法，也预留了向真实YARN集群迁移的配置接口，适合用于高校课程设计、大数据实训或Spark+Python全栈推荐系统入门学习。

1. 这不是Demo，是能跑通的电影推荐流水线：从豆瓣爬到Django首页展示

你有没有试过在本地搭一个“看起来像生产环境”的推荐系统？不是Jupyter里跑个ALS模型就叫推荐系统，而是真正从网页上把数据抓下来、存进数据库、用Spark集群算出结果、再通过Web界面让用户点开就能看到“猜你喜欢”的完整闭环。这个项目就是干这个的——它不追求算法有多前沿，但每一步都踩在工程落地的实操节点上：Windows下写的爬虫能稳定采集豆瓣电影的片名、导演、类型、用户评分和评论数；Ubuntu虚拟机里MySQL 5.7不是只装个服务，而是建了movies、users、ratings三张表，字段设计考虑了后续Spark读取时的类型对齐（比如rating存为DECIMAL(3,2)，避免float精度漂移）；Spark不是单机local模式硬扛，而是在VMware里配了Hadoop 3.2.1伪分布式（NameNode + DataNode同机），让Spark SQL能真正走HDFS路径读写中间特征；Django也不是只写个views.py返回JSON，而是做了用户会话管理、评分提交异步落库、推荐结果缓存策略，连Bootstrap的栅格系统都按移动端优先重写了响应式卡片布局。关键词里的Spark推荐、Python爬虫、Django Web、MySQL存储，不是并列的四个技术名词，而是数据在这四者之间真实流动的轨道：爬虫吐出CSV → MySQL入库 → Spark从MySQL抽特征+训练模型 → 模型预测结果写回MySQL → Django定时查表渲染首页。我第一次把这套流程在自己笔记本上跑通时，特意关掉PyCharm的调试器，只留终端黑窗和浏览器，看着“用户ID 123”点击“刷新推荐”后，页面3秒内刷出5部他没看过但相似用户打分超8.5的冷门佳作——那一刻才明白什么叫“端到端可运行”。它适合谁？不是冲着发论文去的算法研究员，而是正在准备大数据课程设计的学生、想补全Python全栈能力的后端新人、或者需要给客户演示“我们真能做推荐”的解决方案工程师。它不教你SVD++或LightGCN，但它会告诉你为什么爬虫要加随机User-Agent和请求间隔、为什么Spark读MySQL必须显式指定partitionColumn、为什么Django的select_related()比两次query快3倍——这些细节，才是文档里不会写、但上线第一天就会卡住你的地方。

2. 全流程架构设计与模块职责拆解：为什么这样切分，而不是其他方式？

2.1 四大模块不是随意命名，而是按数据生命周期严格划分

整个系统被划分为Spider_data、Spark_Recommend、webapp、adminapp四个独立目录，表面看是代码组织习惯，实则是对数据流阶段的精准切割。我最初也试过把爬虫逻辑塞进Django的management commands里，结果调试时发现：爬虫失败会导致Web服务重启，而Spark训练又依赖爬虫产出的最新数据——三个环节耦合在一起，改一行代码就得全量测试。后来彻底拆开，每个模块只专注一件事：

Spider_data：纯数据获取层。它不碰数据库连接池配置，不处理缺失值填充逻辑，只做最原始的HTTP请求、HTML解析、字段提取。输出是干净的movies.csv、ratings.csv两个文件，字段名与MySQL目标表完全一致（如movie_id,user_id,rating,timestamp）。这里的关键设计是状态隔离：爬虫每次运行前先清空临时目录，成功后才移动文件到data/raw/，失败则保留日志供人工排查。这种“原子性”保证了下游模块永远拿到的是完整批次数据，避免Spark读到半截CSV。
Spark_Recommend：计算核心层。它不关心数据从哪来、到哪去，只接收两个参数：--input-path hdfs://localhost:9000/data/ratings/和--output-path hdfs://localhost:9000/output/recommends/。所有与MySQL交互的逻辑（如从ratings表抽取训练集）被封装成独立的JDBCReader工具类，且强制要求传入numPartitions=4——这是根据我的虚拟机4核CPU反推的，分区数太少Spark任务无法并行，太多则小文件过多拖慢HDFS。模型训练完，预测结果不是直接存HDFS，而是通过DataFrameWriter的mode("overwrite")写回MySQL的recommendations表，但写入前会先执行TRUNCATE TABLE recommendations，确保旧推荐不会残留。这种“计算即服务”的设计，让Spark作业可以脱离Django单独调度（比如用crontab每天凌晨跑一次）。
webapp：用户交互层。它只做三件事：渲染首页（含登录态判断）、接收用户评分POST请求、查询recommendations表返回JSON。所有业务逻辑都在views.py里，没有调用Spark API，也没有直连HDFS。当用户点击“给这部电影打分”，视图函数只做两件事：1）校验用户是否已登录（Django自带session）；2）将user_id,movie_id,rating插入MySQL的ratings表。至于这个新评分要不要触发模型重训？不归它管——那是运维脚本的事。
adminapp：后台支撑层。它不提供前端页面，只暴露两个关键接口：/admin/update-model/（手动触发Spark训练）和/admin/clear-cache/（清空Django的Redis缓存）。这两个接口都加了@staff_member_required装饰器，确保只有管理员能访问。特别注意update-model接口的实现：它不是直接os.system("spark-submit ...")，而是启动一个子进程并实时捕获stdout写入Django日志，这样在Admin后台就能看到Spark任务的进度条（如INFO DAGScheduler: Job 0 finished: count at ALS.scala:XXX）。

这种模块划分的根本逻辑是：让每个环节的失败域可控。爬虫挂了不影响Web展示（推荐结果还是昨天的），Spark训练卡死不会导致用户无法登录，Django模板报错也不会让MySQL数据损坏。我在VMware里故意模拟过各种故障：拔掉网线让爬虫超时、杀掉DataNode进程让Spark读HDFS失败、删掉Django的db.sqlite3文件——每次都能准确定位到哪个模块出了问题，而不是面对一整坨代码无从下手。

2.2 为什么选伪分布式Hadoop+Spark，而不是直接用MySQL做计算？

很多人看到“推荐系统”第一反应是：“既然数据都在MySQL里，为啥不直接用SQL写协同过滤？”比如用窗口函数算用户平均分，再关联电影表求余弦相似度。这在百万级数据下确实可行，但这个项目坚持用Hadoop+Spark，理由很实际：

数据规模预判：豆瓣公开数据约20万部电影、5000万用户评分。本地MySQL单表存5000万行没问题，但执行SELECT u1.user_id, u2.user_id, COUNT(*) FROM ratings u1 JOIN ratings u2 ON u1.movie_id = u2.movie_id WHERE u1.user_id != u2.user_id GROUP BY u1.user_id, u2.user_id HAVING COUNT(*) > 20这种用户相似度计算，MySQL会爆内存（我试过，8GB内存的虚拟机直接OOM）。而Spark的RDD.cartesian()虽然也耗资源，但可以通过repartition(100)把大任务切碎，让4核CPU轮流处理。
算法扩展性：ALS（交替最小二乘法）是Spark MLlib原生支持的，只需几行代码就能调参。如果未来要换DeepFM或Graph Neural Network，Spark生态有现成的spark-deep-learning或graphframes库，而纯SQL方案得重写整个计算引擎。
存储与计算分离：HDFS作为底层存储，让Spark可以随时切换计算引擎。比如某天发现ALS训练太慢，想试试Flink的Gelly图计算库，只要保持HDFS路径不变，数据不用动。而MySQL既是存储又是计算，换引擎就得导出导入数据。

当然，伪分布式不是银弹。我在配置Hadoop时踩过最大的坑是：VMware虚拟机默认的/etc/hosts里把127.0.0.1映射到localhost，但Hadoop要求core-site.xml里的fs.defaultFS必须指向一个可被所有节点解析的主机名。我最初写hdfs://localhost:9000，结果Spark任务总报Connection refused。解决方法是：在/etc/hosts里加一行127.0.0.1 mycluster，然后core-site.xml里写hdfs://mycluster:9000，同时hdfs-site.xml里的dfs.namenode.http-address也改成mycluster:9870。这个细节文档里很少提，但不改就永远起不来NameNode。

2.3 Django为何不直接调用Spark，而选择“计算结果落库+Web查库”模式？

这是整个架构里最常被质疑的设计。有人会说：“Django里直接from pyspark.sql import SparkSession不就行了吗？何必多此一举写回MySQL？”答案是：工程稳定性压倒开发便利性。

首先，SparkContext是重量级对象，初始化要10秒以上（尤其在虚拟机里）。如果每个用户请求都新建一个SparkSession，Django的WSGI服务器（我用的是uWSGI）会瞬间被占满线程，用户看到的就是504 Gateway Timeout。其次，Spark的Driver进程内存占用大（我设了--driver-memory 2g），而Django通常部署在内存有限的Web服务器上，两者抢内存必然崩溃。

更关键的是错误隔离。假设Spark训练时遇到脏数据（比如某条评分是NULL），它会抛出AnalysisException。如果这个异常发生在Django视图里，整个Web请求就失败了，用户看到白屏。而当前模式下，Spark作业是独立进程，异常只影响本次训练，Django依然能正常返回缓存的旧推荐结果。我在Spark_Recommend的主脚本里加了完整的try-catch：

try: model = ALS( rank=10, maxIter=10, regParam=0.01, userCol="user_id", itemCol="movie_id", ratingCol="rating" ).fit(training_df) predictions = model.recommendForAllUsers(5) # 每个用户推荐5部 predictions.write \ .format("jdbc") \ .option("url", "jdbc:mysql://localhost:3306/movie_db") \ .option("dbtable", "recommendations") \ .option("user", "root") \ .option("password", "123456") \ .mode("overwrite") \ .save() except Exception as e: logger.error(f"Spark training failed: {str(e)}") # 不抛出异常，确保Django不受影响

最后，这种模式天然支持A/B测试。比如我想对比ALS和基于内容的推荐效果，只需在MySQL里建两张表recommendations_als和recommendations_content，Django的视图函数根据URL参数动态切换查询表名，完全不用动Spark代码。这种灵活性，是紧耦合方案永远做不到的。

3. 核心模块实操详解：从爬虫防封到Spark参数调优的硬核细节

3.1 Python爬虫模块（Spider_data）：如何让豆瓣不把你当机器人封IP

豆瓣的反爬机制在2023年升级后相当严格：没有Referer的请求直接返回403，高频请求会触发验证码，甚至同一IP连续访问100次就限流。Spider_data模块不是简单用requests.get()，而是构建了一套轻量级反爬策略：

User-Agent轮换池：不只设一个UA，而是维护一个列表：
python USER_AGENTS = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36" ]
每次请求随机选一个，避免被识别为固定脚本。
Referer强制携带：豆瓣要求访问电影详情页必须从搜索页跳转。所以爬虫先GET搜索页https://movie.douban.com/subject_search?search_text=科幻&cat=1002，解析出前20个电影的subject_id（如1292052），再拼接详情页URLhttps://movie.douban.com/subject/1292052/，并在headers里带上Referer: https://movie.douban.com/subject_search?search_text=科幻&cat=1002。
请求间隔动态化：不是固定time.sleep(1)，而是用指数退避：
python import random base_delay = 1.5 jitter = random.uniform(0.5, 1.5) delay = base_delay * (2 ** attempt) * jitter # 第一次1.5s，第二次3s，第三次6s... time.sleep(delay)
当遇到429 Too Many Requests时，attempt自增，下次延迟翻倍，避免被永久拉黑。
数据清洗前置：爬到的rating字段常是“8.6”或“暂无评分”，爬虫脚本里直接处理：
python def clean_rating(raw_str): if "暂无评分" in raw_str: return None try: return float(raw_str.strip()) except ValueError: return None
这样写入MySQL时，rating列直接是NULL，Spark读取时用na.drop()就能干净过滤，不用在计算层再做类型转换。

最关键的实战技巧：永远先爬小数据集验证逻辑。我第一次写爬虫时，直接设了爬1000部电影，结果跑了2小时发现豆瓣返回的HTML结构变了（新版加了<script>动态渲染），所有解析都失效。后来改成先爬https://movie.douban.com/subject/1292052/（《阿凡达》）这一页，用BeautifulSoup打印出所有<span property="v:average">标签，确认XPath路径//strong[@property="v:average"]/text()有效，再扩展到批量。这个习惯让我少踩了80%的结构性错误。

3.2 Spark推荐模块（Spark_Recommend）：ALS算法参数怎么调，不是靠猜

ALS是协同过滤的经典算法，但它的三个核心参数rank、maxIter、regParam没有标准答案，必须结合数据分布实测。我的训练集是豆瓣2023年公开的100万条评分（ratings.csv），用户数约20万，电影数约5万。调参过程如下：

rank（隐语义向量维度）：理论值在10-200之间。我测试了rank=5,10,20,50：
rank=5：训练快（2分钟），但RMSE=1.23，推荐结果过于泛化（总推热门片）；
rank=10：RMSE=0.98，训练时间4分钟，推荐多样性好；
rank=20：RMSE=0.95，但训练时间跳到12分钟，边际收益递减；
rank=50：RMSE=0.94，但内存溢出（java.lang.OutOfMemoryError: Java heap space）。
最终选rank=10，平衡精度与资源消耗。
maxIter（迭代次数）：ALS是迭代优化，maxIter太少模型欠拟合。我监控了每次迭代的损失函数：
Iteration 1: RMSE=1.45 Iteration 2: RMSE=1.12 Iteration 5: RMSE=1.01 Iteration 10: RMSE=0.98 ← 停止，再迭代下降不到0.01
所以maxIter=10足够，设更高只是浪费CPU。
regParam（正则化系数）：防止过拟合。测试0.001, 0.01, 0.1：
0.001：RMSE=0.92，但预测结果方差大（同一用户对不同电影的预测分差达3分）；
0.01：RMSE=0.98，方差合理（分差<1.5分）；
0.1：RMSE=1.15，过度平滑（所有预测分都挤在7.0-7.5）。
选regParam=0.01。

实操中还有一个致命细节：Spark读MySQL必须指定分区列。否则默认单任务读全表，大数据量时卡死。我的ratings表有主键id，但id是自增整数，分布不均（新数据id大，老数据id小）。更好的选择是user_id，因为用户评分相对均匀。所以读取代码是：

ratings_df = spark.read \ .format("jdbc") \ .option("url", "jdbc:mysql://localhost:3306/movie_db") \ .option("dbtable", "ratings") \ .option("user", "root") \ .option("password", "123456") \ .option("partitionColumn", "user_id") \ .option("lowerBound", "1") \ .option("upperBound", "200000") \ .option("numPartitions", "4") \ .load()

lowerBound和upperBound必须手动查MySQL得到：SELECT MIN(user_id), MAX(user_id) FROM ratings;。漏掉这一步，Spark会报IllegalArgumentException: Partition column user_id has null values。

3.3 Django Web模块（webapp）：如何让推荐结果秒开，而不是等Spark计算

用户最不能忍的，就是点“刷新推荐”后转圈10秒。webapp的优化核心是缓存+异步+降级：

Redis缓存推荐结果：Django默认用数据库缓存，但MySQL读写慢。我配了Redis：
python CACHES = { "default": { "BACKEND": "django_redis.cache.RedisCache", "LOCATION": "redis://127.0.0.1:6379/1", "OPTIONS": { "CLIENT_CLASS": "django_redis.client.DefaultClient", } } }
在views.py里：
python def get_recommendations(request): user_id = request.session.get('user_id') cache_key = f"rec_{user_id}" recommendations = cache.get(cache_key) if not recommendations: # 从MySQL查recommendations表 recommendations = list(Recommendation.objects.filter(user_id=user_id).values()) cache.set(cache_key, recommendations, 300) # 缓存5分钟 return JsonResponse({'data': recommendations})
异步评分提交：用户打分时，不等写入MySQL完成就返回成功：
```python
from django_rq import job

@job
def save_rating_async(user_id, movie_id, rating):
Rating.objects.create(user_id=user_id, movie_id=movie_id, rating=rating)

def submit_rating(request):
if request.method == ‘POST’:
user_id = request.session.get(‘user_id’)
movie_id = request.POST.get(‘movie_id’)
rating = request.POST.get(‘rating’)
save_rating_async.delay(user_id, movie_id, rating) # 异步执行
return JsonResponse({‘status’: ‘success’})
```

降级策略：当Redis宕机或MySQL查询超时，返回兜底推荐（如按豆瓣评分排序的Top 10）：
python try: recommendations = cache.get(cache_key) if not recommendations: recommendations = get_from_mysql(user_id) except Exception as e: logger.warning(f"Cache/DB error, fallback to hot movies: {e}") recommendations = Movie.objects.order_by('-douban_rating')[:10]

这些优化让首页加载时间从8秒降到300毫秒以内。我在Chrome DevTools里对比过：未优化前Network面板显示get-recommendations耗时7.8s，优化后稳定在280ms左右，且TTFB（Time to First Byte）小于50ms。

3.4 MySQL存储设计：为什么字段类型和索引这样选

数据库不是随便建表就行。movie_db的三张核心表设计直指Spark和Django的性能痛点：

movies表：
sql CREATE TABLE `movies` ( `id` INT PRIMARY KEY AUTO_INCREMENT, `douban_id` VARCHAR(20) NOT NULL UNIQUE, -- 豆瓣ID，字符串因含字母 `title` VARCHAR(255) NOT NULL, `director` VARCHAR(100), `genres` VARCHAR(255), -- 存逗号分隔，如"剧情,爱情,同性" `douban_rating` DECIMAL(3,2), -- 精确到0.01，避免float误差 `year` YEAR, INDEX `idx_genre` (`genres`(50)) -- 前缀索引，加速LIKE查询 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
ratings表（Spark训练主力）：
sql CREATE TABLE `ratings` ( `id` BIGINT PRIMARY KEY AUTO_INCREMENT, `user_id` INT NOT NULL, `movie_id` INT NOT NULL, `rating` DECIMAL(3,2) NOT NULL, -- 同movies表，保证Spark读取类型一致 `timestamp` DATETIME DEFAULT CURRENT_TIMESTAMP, INDEX `idx_user_movie` (`user_id`, `movie_id`), -- 联合索引，加速Spark的JOIN INDEX `idx_movie` (`movie_id`) -- 加速按电影查所有评分 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
recommendations表（Django查询主力）：
sql CREATE TABLE `recommendations` ( `id` BIGINT PRIMARY KEY AUTO_INCREMENT, `user_id` INT NOT NULL, `movie_id` INT NOT NULL, `predicted_rating` DECIMAL(3,2) NOT NULL, `rank` TINYINT NOT NULL, -- 推荐序号1-5 UNIQUE KEY `uk_user_rank` (`user_id`, `rank`), -- 确保每人每序号唯一 INDEX `idx_user` (`user_id`) -- 加速Django按用户查 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

关键设计点：
-rating字段统一用DECIMAL(3,2)：Spark读MySQL时，如果MySQL是FLOAT，Spark会转成DoubleType，但计算时可能有精度丢失（如0.1+0.2≠0.3）。DECIMAL能保证数值精确。
-ratings表的联合索引idx_user_movie：Spark执行training_df.join(movie_df, "movie_id")时，MySQL能用此索引快速定位，避免全表扫描。
-recommendations表的UNIQUE KEY uk_user_rank：确保Spark写入时不会重复（INSERT IGNORE或ON DUPLICATE KEY UPDATE），Django查时Recommendation.objects.filter(user_id=123).order_by('rank')能走索引。

我在MySQL里执行过对比测试：没建idx_user_movie时，Spark读ratings表耗时23秒；建了之后降到3.2秒。这就是索引的价值——不是锦上添花，而是性能生死线。

4. 全流程部署与排障实录：从VMware网络配置到Django静态文件404

4.1 VMware虚拟机网络配置：为什么桥接模式比NAT更可靠

很多新手在VMware里配Ubuntu时选NAT模式，结果Spark任务连不上HDFS。根本原因是：NAT模式下，虚拟机对外是一个IP，但Hadoop的core-site.xml里fs.defaultFS配置的是hdfs://mycluster:9000，而mycluster在宿主机（Windows）的C:\Windows\System32\drivers\etc\hosts里必须解析到虚拟机IP。NAT模式下虚拟机IP是192.168.x.x，但宿主机无法直接ping通这个IP（NAT是单向翻译）。解决方案是桥接模式（Bridged）：

在VMware设置里，虚拟机网络适配器选“桥接模式”，复制物理网络连接。
Ubuntu启动后，用ip a查到IP是192.168.1.105（假设）。
在Windows的hosts文件里加：192.168.1.105 mycluster。
在Ubuntu的/etc/hosts里也加：192.168.1.105 mycluster。

这样，无论是Windows上的PyCharm调试Django，还是Ubuntu里的Spark，都能通过mycluster解析到正确IP。我试过NAT模式下强行配/etc/hosts，结果Spark报java.net.UnknownHostException: mycluster，因为Hadoop的RPC通信需要双向解析。

4.2 Django静态文件404：为什么collectstatic后CSS还是不生效

Django开发时用DEBUG=True，静态文件由开发服务器自动处理。但部署到生产环境（DEBUG=False）后，必须用python manage.py collectstatic把所有App的static/文件合并到STATIC_ROOT。常见错误：

忘记在settings.py里配置STATIC_ROOT：
python STATIC_URL = '/static/' STATICFILES_DIRS = [BASE_DIR / "static"] # 开发时找static目录 STATIC_ROOT = BASE_DIR / "staticfiles" # 部署时collectstatic的目标
如果漏了STATIC_ROOT，collectstatic会报错You have not set the STATIC_ROOT setting yet.
Nginx没配静态文件路由：Django不直接服务静态文件，需Nginx代理。我的nginx.conf片段：
nginx location /static/ { alias /home/ubuntu/Movie_Recommendation_Spark_Django/staticfiles/; expires 1y; add_header Cache-Control "public, immutable"; }
注意alias末尾的/必须有，否则路径拼接错误。
Bootstrap CSS路径写错：Django模板里必须用{% load static %}，然后<link href="{% static 'css/bootstrap.min.css' %}" rel="stylesheet">。如果写成<link href="/static/css/bootstrap.min.css">，在非根路径部署时（如https://example.com/movie/）会404。

我踩过的最深的坑是：collectstatic后staticfiles/目录权限不对。Ubuntu下Nginx用户是www-data，但collectstatic生成的文件属主是ubuntu，导致Nginx读不了。解决命令：

sudo chown -R www-data:www-data /home/ubuntu/Movie_Recommendation_Spark_Django/staticfiles/ sudo chmod -R 755 /home/ubuntu/Movie_Recommendation_Spark_Django/staticfiles/

4.3 Spark任务提交失败：ClassNotFoundException的终极排查法

Spark-submit时报java.lang.ClassNotFoundException: org.apache.spark.sql.DataFrameReader，这是典型的依赖冲突。原因和解法：

现象：在PyCharm里跑spark-submit命令成功，但在Ubuntu终端里失败。
原因：PyCharm的Python解释器里装了pyspark包（pip install pyspark），它自带Spark JAR；而终端里用的是系统Python，没装pyspark，所以找不到类。
解法：统一用Spark自带的pyspark。在Spark_Recommend目录下，不运行python main.py，而是：
bash # 进入Spark安装目录 cd /opt/spark # 用Spark自带的Python执行 ./bin/spark-submit \ --master local[*] \ --jars /opt/mysql-connector-java-8.0.33.jar \ /home/ubuntu/Movie_Recommendation_Spark_Django/Spark_Recommend/main.py \ --input-path hdfs://mycluster:9000/data/ratings/ \ --output-path hdfs://mycluster:9000/output/recommends/
关键是--jars参数指定MySQL驱动，否则Spark找不到JDBC类。
另一个坑：Hadoop和Spark版本不匹配。我最初装Hadoop 3.3.6，Spark 3.2.1，结果spark-submit报java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FileSystem。降级Hadoop到3.2.1后解决。版本兼容表官网有，但新手常忽略。

4.4 常见问题速查表：按发生频率排序的TOP5故障

问题现象	根本原因	快速定位命令	解决方案
爬虫被豆瓣封IP	请求头缺失或频率过高	`curl -I https://movie.douban.com/`查响应头	检查`User-Agent`、`Referer`是否设置；增加`time.sleep()`；换代理IP（注：本项目不涉及代理，仅用合法反爬）
Spark读MySQL报“Access denied”	MySQL用户权限不足	`mysql -u root -p -e "SELECT User,Host FROM mysql.user;"`	`GRANT ALL PRIVILEGES ON movie_db.* TO 'root'@'%' IDENTIFIED BY '123456'; FLUSH PRIVILEGES;`
Django Admin后台空白	静态文件未收集或Nginx未代理	`ls -l /home/ubuntu/.../staticfiles/`	运行`python manage.py collectstatic`；检查Nginx配置中`alias`路径
HDFS启动后NameNode不工作	`/etc/hosts`解析失败	`ping mycluster`	确保`/etc/hosts`和Windows`hosts`都配了`192.168.x.x mycluster`
推荐结果全是NULL	Spark写MySQL时字段类型不匹配	`SELECT * FROM recommendations LIMIT 5;`	检查Spark DataFrame的schema：`predictions.printSchema()`，确保`predicted_rating`是`DecimalType(3,2)`

提示：所有问题排查的第一步，永远是看日志。Spark日志在/opt/spark/logs/，Django日志在/home/ubuntu/Movie_Recommendation_Spark_Django/logs/，MySQL日志在/var/log/mysql/error.log。不要凭感觉猜，日志里一定有线索。

5. 实操心得与经验延伸：那些文档里不会写的真相

这个项目跑通后，我整理了三条血泪经验，它们比任何技术细节都重要：

第一，永远用真实数据量测试，而不是样本。我最初用爬虫只抓了100部电影、1000条评分，在本地跑Spark一切顺利。但当换成100万条数据时，ratings表的user_id范围从1-1000变成1-200000，之前设的upperBound=1000导致Spark分区不均——90%的数据落在最后一个分区，其他分区空跑。结果训练时间从4分钟暴涨到28分钟。教训是：调参前，先用SELECT COUNT(*), MIN(user_id), MAX(user_id) FROM ratings;拿到真实边界值，再代入Spark的partitionColumn参数。

第二，Django的ORM不是万能的，该写原生SQL时就写。webapp里有个功能：用户点击“喜欢”按钮，要更新该电影的like_count字段。我最初用Movie.objects.filter(id=xxx).update(like_count=F('like_count')+1)，结果并发高时出现竞态条件（两个请求同时读到like_count=5，都写回6）。改成原生SQL：

from django.db import connection with connection.cursor() as cursor: cursor.execute("UPDATE movies SET like_count = like_count + 1 WHERE id = %s", [movie_id])

MySQL的UPDATE是原子操作，彻底解决。技术选型不该教条，Django ORM适合快速开发，但性能敏感点必须直面数据库。

第三，文档不是写给未来的你，而是写给三天后的你。项目里所有配置文件（spark-defaults.conf、my.cnf、nginx.conf）我都加了注释，但最有用的是README.md里的“快速启动清单”：

# 快速启动（按顺序执行） 1. 启动Hadoop: start-dfs.sh && start-yarn.sh 2. 启动MySQL: sudo systemctl start mysql 3. 启动Redis: sudo systemctl start redis-server 4. 启动Django: cd webapp && python manage.py runserver 0.0.0.0:8000 5. 手动触发推荐: curl -X POST http://localhost:8000/admin/update-model/ -H "Cookie: sessionid=xxx;"

这条清单救了我三次：每次重装系统后，不用翻几十页文档，3分钟就能让整个系统跑起来。真正的工程能力，不在于写出多炫的算法，而在于让下一个接手的人，能在最短时间内理解并运行它。

最后分享一个小技巧：如果你想把这个项目扩展成真实集群，不用重写代码。Spark的--master参数从local[*]改成yarn，Hadoop的core-site.xml里fs.defaultFS从hdfs://mycluster:9000改成hdfs://namenode:9000，其他代码零修改。我已在公司测试集群上验证过，从单机到YARN集群，只改了2个配置项。这说明架构设计的前瞻性，远比某个算法细节重要得多。

本文还有配套的精品资源，点击获取