说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210624370.7 (22)申请日 2022.06.02 (71)申请人 江苏品生医疗科技 集团有限公司 地址 210000 江苏省南京市江北新区智达 路6号智城园区3号楼 2楼201室 申请人 南京品生医疗科技有限公司 (72)发明人 成晓亮 张磊 周岳 张伟 郑可嘉 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 初春 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种特征筛选方法、 装置、 存储介质及电子 设备 (57)摘要 本发明公开了一种特征筛选方法、 装置、 存 储介质及电子设备。 其中方法包括基于样本数据 中的数据特征确定多个特征验证子集; 基于样本 数据所属个体, 对样本数据进行个体组划分, 得 到不同个体对应的个体样本组, 并基于多个个体 样本组进行交叉验证划分, 确定划分得到的训练 数据集和验证数据集; 基于各所述特征验证子集 对应的训练数据集和验证数据集, 进行处理目标 的机器学习模 型训练; 基于各机器学习模型的训 练过程数据确定所述处理目标的对应的目标数 据特征组。 本实施例中, 通过对个体样本组进行 交叉验证划分, 避免同一个体的样 本数据同时划 分至训练数据集和验证数据集, 从而避免个体样 本数据对机器学习模型性能的影 响, 进一步提高 特征筛选的准确性。 权利要求书2页 说明书15页 附图4页 CN 114936205 A 2022.08.23 CN 114936205 A 1.一种特 征筛选方法, 其特 征在于, 包括: 基于样本数据中的数据特 征确定多个特 征验证子集; 基于所述样本数据所属个体, 对所述样本数据进行个体组划分, 得到不同个体对应的 个体样本组, 并基于多个个体样本组进行交叉验证划分, 确定划分得到的训练数据集和验 证数据集; 基于各所述特征验证子集对应的训练数据集和验证数据集, 进行处理目标的机器学习 模型训练; 基于各机器学习模型的训练过程数据确定所述处 理目标的对应的目标 数据特征组。 2.根据权利要求1所述的方法, 其特征在于, 在基于样本数据中的数据 特征确定多个特 征验证子集之前, 所述方法还 包括: 确定所述样本数据中各所述数据特征与处理目标的关联性, 并基于所述与处理目标的 关联性筛 选候选数据特 征; 相应的, 基于样本数据中的数据特征确定多个特征验证子集, 包括: 在所述候选数据 特 征中确定多个特 征验证子集。 3.根据权利要求1 ‑2任一项所述的方法, 其特征在于, 所述基于样本数据中的数据 特征 确定多个特 征验证子集, 包括: 基于特征验证子集中特征数量, 在样本数据中的数据特征或者候选数据 特征中确定多 个特征验证子集。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述样本数据所属个体, 对所述 样本数据进行个体组划分, 得到不同个体对应的个体样本组, 并基于多个个体样本组进行 交叉验证划分, 确定划分得到的训练数据集和验证数据集, 包括: 将同一个体的至少一组样本数据, 划分至一个体组内, 得到不同个体对应的个体样本 组; 基于预设的至少一个交叉验证规则, 对多个个体样本组进 行交叉验证划分, 确定划分得 到的训练数据集和验证数据集; 和/或, 所述基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征 组, 包括: 对于任一机器学习模型, 基于所述机器学习 模型训练过程数据中的训练数据和验证数 据, 分别确定训练指标和测试指标; 基于各机器学习模型的所述训练指标和测试指标, 对各 机器学习模型进 行排序和筛选; 将筛选出的机器学习模型对应的特征验证子集确定为所述 处理目标的目标 数据特征组, 其中, 所述训练指标和所述测试指标分别包括均方根 误差和拟合优度。 5.根据权利要求1所述的方法, 其特征在于, 在确定目标数据特征组之后, 所述方法还 包括: 对于任一目标数据特征, 基于所述目标数据特征对应的样本数据, 绘制所述目标数据 特征的数据分布图; 基于所述目标 数据特征的数据分布图对所述目标 数据特征进行验证。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述目标数据特征对应的样本数 据, 绘制所述目标 数据特征的数据分布图, 包括:权 利 要 求 书 1/2 页 2 CN 114936205 A 2确定所述目标数据特征的数据类型; 基于所述目标数据特征对应的样本数据, 绘制所 述数据类型对应 类型的数据分布图; 和/或, 所述基于所述目标数据特征的数据分布图对所述目标数据特征进行验证, 包括: 在所 述目标数据特征 的数据分布图不满足分布规则的情况下, 剔除所述 目标数据特征, 或者剔 除所述目标 数据特征所在的目标 数据特征组。 7.根据权利要求6所述的方法, 其特征在于, 所述确定所述目标数据特征的数据类型, 包括: 对所述目标数据特征的数据值进行去重处理, 得到去重后的数据值; 在去重后的各数 据值满足整数且数据值数量小于等于预设阈值的情况下, 确定所述目标数据特征的数据类 型为分类型, 以及在去重后的各数据值不满足整 数或者数据值数量小于等于预设阈值的情 况下, 确定所述目标 数据特征的数据类型为数值型; 和/或, 所述基于所述目标数据 特征对应的样本数据, 绘制所述数据类型对应类型的数据分布 图, 包括: 若所述目标数据 特征的数据类型为分类型, 则 基于所述目标数据 特征对应的样本数据 绘制所述 目标数据特征 的水平长条图, 以及所述 目标数据特征与处理目标的箱线图; 若所 述目标数据特征的数据类型为数值型, 则基于所述目标数据特征对应的样本数据绘制所述 目标数据特征的直方图, 以及所述目标 数据特征与处理目标的散点回归图。 8.一种特 征筛选装置, 其特 征在于, 包括: 特征验证子集确定模块, 用于基于样本数据中的数据特 征确定多个特 征验证子集; 数据集划分模块, 用于基于所述样本数据 所属个体, 对所述样本数据进行个体组划分, 得到不同个体对应的个体样本组, 并基于多个个体样本组进行交叉验证划分, 确定划分得 到的训练数据集和验证数据集; 模型训练模块, 用于基于各所述特征验证子集对应的训练数据集和验证数据集, 进行 处理目标的机器学习模型训练; 目标数据 特征组确定模块, 用于基于各机器学习 模型的训练过程数据确定所述处理目 标的对应的目标 数据特征组。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 特征筛选方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的特 征筛选方法。权 利 要 求 书 2/2 页 3 CN 114936205 A 3
专利 一种特征筛选方法、装置、存储介质及电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 00:11:56
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 25068.2-2020 信息技术 安全技术 网络安全 第2部分:网络安全设计和实现指南.pdf
T-CACM 1021.187—2018 中药材商品规格等级 紫苑.pdf
DB42-T 2040.1-2023 大球盖菇生产技术系列规程 第1部分:桑枝大球盖菇 湖北省.pdf
法律法规 中华人民共和国电信条例2016-02-06.pdf
GB-T 39205-2020 信息安全技术 轻量级鉴别与访问控制机制.pdf
ISO 11515 2022 Gas cylinders — Refillable composite reinforced tubes of water capacity between 450 l and 3000 l — Design, construction and testing.pdf
SY-T 5820-2020 天然源电磁法采集技术规程.pdf
CISP 注册信息安全专业人员培训教材 2019.pdf
CISA考试复习手册第26版(中文版).pdf
GB-T 35625-2017 公共安全 业务连续性管理体系 业务影响分析指南(BIA).pdf
中国银保监会监管数据安全管理办法(试行).pdf
AIGC白皮书 人工智能生成内容.pdf
GB-T 20021-2017 帆布芯耐热输送带.pdf
GB-T 19668.7-2022 信息技术服务 监理 第7部分:监理工作量度量要求.pdf
GB-T 36340-2018 防静电活动地板通用规范.pdf
易观分析 AIGC产业研究报告2023——音频生成篇.pdf
GB-T 28671-2012 制药机械 设备 验证导则.pdf
GB-T 24405.2-2010 - ISO IEC 20000-2-2005 信息技术 服务管理 第2部分:实践规则.pdf
GB-T 42109-2022 供应链资产管理体系实施指南.pdf
GB-T 41780.1-2022 物联网 边缘计算 第1部分:通用要求.pdf
1
/
3
22
评价文档
赞助2.5元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。