说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210624370.7 (22)申请日 2022.06.02 (71)申请人 江苏品生医疗科技 集团有限公司 地址 210000 江苏省南京市江北新区智达 路6号智城园区3号楼 2楼201室 申请人 南京品生医疗科技有限公司 (72)发明人 成晓亮 张磊 周岳 张伟  郑可嘉  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 初春 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种特征筛选方法、 装置、 存储介质及电子 设备 (57)摘要 本发明公开了一种特征筛选方法、 装置、 存 储介质及电子设备。 其中方法包括基于样本数据 中的数据特征确定多个特征验证子集; 基于样本 数据所属个体, 对样本数据进行个体组划分, 得 到不同个体对应的个体样本组, 并基于多个个体 样本组进行交叉验证划分, 确定划分得到的训练 数据集和验证数据集; 基于各所述特征验证子集 对应的训练数据集和验证数据集, 进行处理目标 的机器学习模 型训练; 基于各机器学习模型的训 练过程数据确定所述处理目标的对应的目标数 据特征组。 本实施例中, 通过对个体样本组进行 交叉验证划分, 避免同一个体的样 本数据同时划 分至训练数据集和验证数据集, 从而避免个体样 本数据对机器学习模型性能的影 响, 进一步提高 特征筛选的准确性。 权利要求书2页 说明书15页 附图4页 CN 114936205 A 2022.08.23 CN 114936205 A 1.一种特 征筛选方法, 其特 征在于, 包括: 基于样本数据中的数据特 征确定多个特 征验证子集; 基于所述样本数据所属个体, 对所述样本数据进行个体组划分, 得到不同个体对应的 个体样本组, 并基于多个个体样本组进行交叉验证划分, 确定划分得到的训练数据集和验 证数据集; 基于各所述特征验证子集对应的训练数据集和验证数据集, 进行处理目标的机器学习 模型训练; 基于各机器学习模型的训练过程数据确定所述处 理目标的对应的目标 数据特征组。 2.根据权利要求1所述的方法, 其特征在于, 在基于样本数据中的数据 特征确定多个特 征验证子集之前, 所述方法还 包括: 确定所述样本数据中各所述数据特征与处理目标的关联性, 并基于所述与处理目标的 关联性筛 选候选数据特 征; 相应的, 基于样本数据中的数据特征确定多个特征验证子集, 包括: 在所述候选数据 特 征中确定多个特 征验证子集。 3.根据权利要求1 ‑2任一项所述的方法, 其特征在于, 所述基于样本数据中的数据 特征 确定多个特 征验证子集, 包括: 基于特征验证子集中特征数量, 在样本数据中的数据特征或者候选数据 特征中确定多 个特征验证子集。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述样本数据所属个体, 对所述 样本数据进行个体组划分, 得到不同个体对应的个体样本组, 并基于多个个体样本组进行 交叉验证划分, 确定划分得到的训练数据集和验证数据集, 包括: 将同一个体的至少一组样本数据, 划分至一个体组内, 得到不同个体对应的个体样本 组; 基于预设的至少一个交叉验证规则, 对多个个体样本组进 行交叉验证划分, 确定划分得 到的训练数据集和验证数据集; 和/或, 所述基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征 组, 包括: 对于任一机器学习模型, 基于所述机器学习 模型训练过程数据中的训练数据和验证数 据, 分别确定训练指标和测试指标; 基于各机器学习模型的所述训练指标和测试指标, 对各 机器学习模型进 行排序和筛选; 将筛选出的机器学习模型对应的特征验证子集确定为所述 处理目标的目标 数据特征组, 其中, 所述训练指标和所述测试指标分别包括均方根 误差和拟合优度。 5.根据权利要求1所述的方法, 其特征在于, 在确定目标数据特征组之后, 所述方法还 包括: 对于任一目标数据特征, 基于所述目标数据特征对应的样本数据, 绘制所述目标数据 特征的数据分布图; 基于所述目标 数据特征的数据分布图对所述目标 数据特征进行验证。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述目标数据特征对应的样本数 据, 绘制所述目标 数据特征的数据分布图, 包括:权 利 要 求 书 1/2 页 2 CN 114936205 A 2确定所述目标数据特征的数据类型; 基于所述目标数据特征对应的样本数据, 绘制所 述数据类型对应 类型的数据分布图; 和/或, 所述基于所述目标数据特征的数据分布图对所述目标数据特征进行验证, 包括: 在所 述目标数据特征 的数据分布图不满足分布规则的情况下, 剔除所述 目标数据特征, 或者剔 除所述目标 数据特征所在的目标 数据特征组。 7.根据权利要求6所述的方法, 其特征在于, 所述确定所述目标数据特征的数据类型, 包括: 对所述目标数据特征的数据值进行去重处理, 得到去重后的数据值; 在去重后的各数 据值满足整数且数据值数量小于等于预设阈值的情况下, 确定所述目标数据特征的数据类 型为分类型, 以及在去重后的各数据值不满足整 数或者数据值数量小于等于预设阈值的情 况下, 确定所述目标 数据特征的数据类型为数值型; 和/或, 所述基于所述目标数据 特征对应的样本数据, 绘制所述数据类型对应类型的数据分布 图, 包括: 若所述目标数据 特征的数据类型为分类型, 则 基于所述目标数据 特征对应的样本数据 绘制所述 目标数据特征 的水平长条图, 以及所述 目标数据特征与处理目标的箱线图; 若所 述目标数据特征的数据类型为数值型, 则基于所述目标数据特征对应的样本数据绘制所述 目标数据特征的直方图, 以及所述目标 数据特征与处理目标的散点回归图。 8.一种特 征筛选装置, 其特 征在于, 包括: 特征验证子集确定模块, 用于基于样本数据中的数据特 征确定多个特 征验证子集; 数据集划分模块, 用于基于所述样本数据 所属个体, 对所述样本数据进行个体组划分, 得到不同个体对应的个体样本组, 并基于多个个体样本组进行交叉验证划分, 确定划分得 到的训练数据集和验证数据集; 模型训练模块, 用于基于各所述特征验证子集对应的训练数据集和验证数据集, 进行 处理目标的机器学习模型训练; 目标数据 特征组确定模块, 用于基于各机器学习 模型的训练过程数据确定所述处理目 标的对应的目标 数据特征组。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 特征筛选方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的特 征筛选方法。权 利 要 求 书 2/2 页 3 CN 114936205 A 3

.PDF文档 专利 一种特征筛选方法、装置、存储介质及电子设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种特征筛选方法、装置、存储介质及电子设备 第 1 页 专利 一种特征筛选方法、装置、存储介质及电子设备 第 2 页 专利 一种特征筛选方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:11:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。