当前位置: 首页 > news >正文

主动学习数据集划分

此代码在20次循环里通过样本idx将数据集划分为三部分:测试集、未标注样本、已标注样本(每个类至少有一个已标注样本)

df = pd.read_csv("datasets/Automobile.csv", header=None) X = df.iloc[:, :-1].to_numpy() y = df.iloc[:, -1].to_numpy() TEST_SIZE = 0.3 UNLABELED_SIZE = 0.85 # 未标注池占非测试部分的比例,较大 for split_i in range(20): print(f" 第 {split_i} 次循环") seed = 42 + split_i * 100 rng = np.random.default_rng(seed) # 1) 分层抽测试集 sss = StratifiedShuffleSplit(n_splits=1, test_size=TEST_SIZE, random_state=seed) rest_idx, test_idx = next(sss.split(X, y)) y_rest = y[rest_idx] X_test , y_test = X[test_idx] , y[test_idx] # 2) 每个类别至少 1 个放入 labeled classes = np.unique(y_rest) one_per_class = [rng.choice(np.where(y_rest == c)[0], size=1)[0] for c in classes] # 3) 余下部分按比例抽 unlabeled,其余全归 labeled remaining = np.setdiff1d(np.arange(len(y_rest)), one_per_class) #生成剩余数组下标 n_unlabeled = max(1, int(len(remaining) * UNLABELED_SIZE)) unlabeled = rng.choice(remaining, size=n_unlabeled, replace=False) labeled = np.setdiff1d(np.arange(len(y_rest)), unlabeled)
http://www.zskr.cn/news/1399508.html

相关文章:

  • 【高录用|线上召开|国家级人才主讲】2026年航空航天与智能制造国际学术会议(ICoAIM 2026)
  • 从PCF到K8s:企业级PaaS平台迁移实战与架构演进
  • 从《最后生还者Online》取消看游戏开发项目管理与技术决策
  • OpenAI 这个模型推翻离散几何猜想,说明 AI 已经开始碰基础数学的硬问题
  • 548个免费浏览器工具集:纯前端实现、零成本运维与开发者生产力实践
  • 解决 TensorBoard 启动报错:ModuleNotFoundError: No module named ‘pkg_resources‘
  • 影像技术实战21:视频关键帧提取重复、黑屏、模糊?FFmpeg + OpenCV 构建可解释的关键帧筛选方案
  • 大模型PII保护实战:5种方法109次测试,量化隐私与性能的权衡
  • 2026年靠谱的自动化精密工业设备零部件/精密工业设备零部件公司哪家好 - 行业平台推荐
  • 【限时解密】Lovable上线前72小时压测报告原文:千万级并发心跳包下的WebSocket集群熔断策略与自动降级清单
  • 新手小白Java学习日记
  • 2026年口碑好的防堵雾化喷头/佛山人造雾设备厂家推荐与选型指南 - 品牌宣传支持者
  • 别让Simulink仿真慢成蜗牛!手把手教你用Solver Profiler揪出性能瓶颈
  • 不止于水:用Obi Fluid和Unity粒子系统,打造从粘稠蜂蜜到喷泉烟雾的创意特效
  • 不止于画图:用嘉立创EDA封装管理器,高效管理你的个人元件库(以QFP、SOP封装为例)
  • Bloom(泛光):让画面“发光“的魔法,藏在每一束阳光背后的秘密
  • 如何解锁NVIDIA显卡隐藏性能:免费开源工具NVIDIA Profile Inspector终极指南
  • TypeScript与Zapier SDK构建智能HubSpot公司信息补全工作流
  • AI工程实践:从实验室到生产系统的治理、MLOps与风险控制
  • 从零构建548个免费Web工具:极简架构、自动化与性能优化实战
  • C51开发中PRECEDE指令导致的内存重叠问题解析
  • <<哈希表迭代器函数>>
  • 学生用户画像-考勤主题扩展标签构建、可视化实验文档
  • LinkSwift:5分钟掌握八大网盘直链下载的终极解决方案
  • Unity Recorder保姆级教程:从Timeline录制到独立窗口录屏,一次搞定所有格式
  • Iceberg方案:HLS建模范式革新与合成数据增强技术
  • 构建AI代理自动化数据管道:从连接器到向量检索的工程实践
  • 秒杀系统中如何处理超卖问题
  • 解决本地AI智能体遗忘问题:从上下文管理到向量记忆的完整方案
  • 从零构建AI记忆系统:基于向量数据库与LLM的持久化上下文实践