Packtpub-crawler云存储集成：如何自动上传电子书到Google Drive和OneDrive-尧图网络科技

Packtpub-crawler云存储集成：如何自动上传电子书到Google Drive和OneDrive

【免费下载链接】packtpub-crawlerDownload your daily free Packt Publishing eBook https://www.packtpub.com/packt/offers/free-learning项目地址: https://gitcode.com/gh_mirrors/pa/packtpub-crawler

你是否厌倦了每天手动下载Packt Publishing的免费电子书？🤔 想要一个自动化解决方案，不仅能自动获取每日免费电子书，还能自动上传到云存储服务？那么Packtpub-crawler就是你的终极解决方案！这个强大的Python爬虫工具不仅能自动领取每日免费电子书，还能一键上传到Google Drive和OneDrive，实现真正的全自动化电子书管理。

🚀 为什么需要云存储集成？

Packtpub-crawler的核心功能是自动领取Packt Publishing的每日免费电子书，但下载到本地后，你还需要手动管理这些文件。通过集成Google Drive和OneDrive云存储，你可以：

自动备份：电子书自动上传到云端，永不丢失
多设备访问：在任何设备上都能访问你的电子书库
空间管理：释放本地存储空间
分享便利：轻松分享电子书给朋友或团队成员

📦 项目概览与快速开始

Packtpub-crawler是一个用Python编写的自动化工具，它能：

自动登录你的Packtpub账户
领取每日免费电子书和每周新闻通讯
下载PDF、EPUB、MOBI等多种格式
下载源代码和书籍封面
自动上传到Google Drive、OneDrive或通过SCP传输
存储数据到Firebase
通过Gmail、IFTTT、Join或Pushover发送通知

要开始使用，首先克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/pa/packtpub-crawler cd packtpub-crawler pip install -r requirements.txt

⚙️ 基础配置设置

在开始云存储集成之前，需要先完成基础配置：

复制配置文件模板：

cp config/prod_example.cfg config/prod.cfg

设置Packtpub账户信息：编辑config/prod.cfg文件，在[credential]部分填入你的账户信息：

[credential] credential.email=你的邮箱地址 credential.password=你的密码

测试基础功能：

python script/spider.py --config config/prod.cfg

🔐 Google Drive集成配置

Google Drive集成是Packtpub-crawler最强大的功能之一。以下是完整的配置步骤：

第一步：创建Google API项目

访问Google APIs Console
创建一个新项目，命名为"PacktpubDrive"
在API管理器中启用Google Drive API
在凭据页面创建OAuth客户端ID，选择"其他"类型

第二步：下载凭据文件

创建OAuth客户端ID后，下载JSON文件并保存为config/client_secrets.json。

第三步：配置Google Drive设置

在config/prod.cfg文件中添加或修改以下配置：

[googledrive] googledrive.oauth2_scope=https://www.googleapis.com/auth/drive googledrive.client_secrets=config/client_secrets.json googledrive.auth_token=config/auth_token.json googledrive.gmail=你的Google邮箱 googledrive.default_folder=packtpub #googledrive.upload_folder=FOLDER_ID

第四步：首次授权与运行

运行以下命令开始Google Drive上传：

python script/spider.py --config config/prod.cfg --upload googledrive

首次运行时会打开浏览器进行OAuth授权。授权完成后，系统会自动创建config/auth_token.json文件，并生成文件夹ID。将生成的文件夹ID添加到配置文件中：

googledrive.upload_folder=你的文件夹ID

Google Drive上传核心代码

在script/googledrive.py文件中，GoogleDrive类负责处理所有上传逻辑：

__init_service()：初始化Google Drive服务
__create_folder()：创建上传文件夹
__insert_file()：上传文件到指定文件夹
upload()：主上传方法

☁️ OneDrive集成配置

OneDrive是微软的云存储服务，Packtpub-crawler同样提供了完整的集成支持。

第一步：注册Microsoft应用

访问Microsoft应用注册门户
使用Microsoft账户登录
点击"添加应用"，命名为"PacktpubDrive"
启用"Live SDK支持"
添加Web平台，设置重定向URL为http://localhost:8080/

第二步：获取应用凭据

注册完成后，复制：

应用程序ID→onedrive.client_id
生成的密码→onedrive.client_secret

第三步：配置OneDrive设置

在config/prod.cfg文件中添加以下配置：

[onedrive] onedrive.api_base_url=https://api.onedrive.com/v1.0/ onedrive.client_id=你的应用程序ID onedrive.client_secret=你的客户端密码 onedrive.session_file=config/session.onedrive.pickle onedrive.folder=packtpub

第四步：运行OneDrive上传

执行以下命令开始OneDrive上传：

python script/spider.py --config config/prod.cfg --upload onedrive

首次运行时会自动打开浏览器进行OAuth授权，并生成config/session.onedrive.pickle会话文件。

OneDrive上传核心代码

在script/onedrive.py文件中，OneDrive类处理OneDrive上传：

__init_service()：初始化OneDrive服务
__save_credentials()：保存OAuth凭据
__get_folder()：获取或创建上传文件夹
__insert_file()：上传文件到OneDrive

🔄 自动上传工作流程

Packtpub-crawler的云存储上传工作流程非常智能：

文件检测：下载完成后自动检测文件类型和MIME类型
云服务初始化：根据配置初始化Google Drive或OneDrive服务
文件夹管理：自动创建或定位上传文件夹
文件上传：使用多线程上传，支持大文件
权限设置：自动设置文件分享权限
URL生成：生成可直接访问的下载链接

🎯 高级配置选项

多格式同时上传

你可以同时下载并上传多种格式：

# 下载所有格式并上传到Google Drive python script/spider.py --config config/prod.cfg --all --upload googledrive # 仅上传PDF格式到OneDrive python script/spider.py --config config/prod.cfg --type pdf --upload onedrive

附加材料上传

除了电子书本身，还可以下载并上传源代码和书籍封面：

python script/spider.py --config config/prod.cfg --extras --upload googledrive

组合使用存储服务

你甚至可以组合多种存储选项：

# 上传到Google Drive并存储元数据到Firebase python script/spider.py --config config/prod.cfg --upload googledrive --store firebase # 上传到OneDrive并发送邮件通知 python script/spider.py --config config/prod.cfg --upload onedrive --notify gmail

⚡ 自动化调度设置

Heroku部署（推荐）

使用Heroku Scheduler实现每日自动运行：

创建Heroku应用
配置环境变量
设置每日定时任务

Docker容器化部署

使用Docker可以轻松在任何环境中部署：

docker build -t packtpub-crawler . docker run --name my-crawler packtpub-crawler

Linux系统定时任务

使用cron实现每日自动运行：

# 编辑crontab crontab -e # 添加以下行（每天上午9点运行） 00 09 * * * cd /path/to/packtpub-crawler && /usr/bin/python script/spider.py --config config/prod.cfg --upload googledrive >> /tmp/packtpub.log 2>&1