说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221047832 9.3 (22)申请日 2022.05.05 (71)申请人 华东交通大 学 地址 330013 江西省南昌市经济技 术开发 区双港东大街808号 (72)发明人 屈志坚 吴广龙 池瑞 侯新星 帅诚鹏 梁家敏 (74)专利代理 机构 南昌卓尔精诚专利代理事务 所(普通合伙) 36133 专利代理师 刘文彬 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2453(2019.01) (54)发明名称 一种用于解决海量数据分布式索引集群缓 存失效的方法 (57)摘要 本发明适用于分布式索引集群技术领域, 提 供了一种用于解决海量数据分布式索引集群缓 存失效的方法, 包括以下步骤: 步骤1: 对搜索管 理器进行筛查, 筛选出热点数据; 步骤2: 将筛选 出来的热点数据进行热点数据的相关度分析, 并 依照相关度和搜索次数进行综合排序; 步骤3: 对 搜索器的性能进行分析, 计算预热查询花费的预 热时间与预热查询带来的时间增益效果的差值; 步骤4: 设置 预热查询语句, 并通过实验寻找最佳 预热查询的最佳数目; 步骤5: 在不同条件下测试 设置最佳预热查询数目带来的时间增益。 该方法 解决了提交操作时导致的系统缓存失效问题, 同 时实现了系统的热启动, 极大的节省了集群资 源, 提升了集群查询速度。 权利要求书2页 说明书6页 附图2页 CN 114817329 A 2022.07.29 CN 114817329 A 1.一种用于解决海量数据分布式索引集群缓存失效的方法, 其特征在于, 包括以下步 骤: 步骤1: 对搜索管理器进行筛查, 筛 选出热点数据; 步骤2: 将筛选出来的热点数据进行热点数据的相关度分析, 并依照相关度和搜索次数 进行综合 排序; 步骤3: 对搜索器的性能进行分析, 计算预热查询花费的预热时间与预热查询带来的时 间增益效果的差值, 分析设置预 热查询语句的设置数目与减少搜索时间的关系; 步骤4: 设置预 热查询语句, 并通过实验寻找最佳 预热查询的最佳 数目; 步骤5: 在不同条件下测试设置最佳 预热查询数目带来的时间增益。 2.根据权利要求1所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述步骤1包括以下具体步骤: 通过搜索管理器统计分布式索引集群的搜索器在工作 过程中所查询的数据, 获得查询次数排名高的查询词汇, 通过将排名高的查询词汇定义为 热点数据的方式为后续的缓存预 热做数据准备。 3.根据权利要求1所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤2包括以下 具体步骤: 步骤2.1: 统计热点数据在匹配文档中出现的次数, 计算热点频次; 步骤2.2: 统计热点数据的反向文档出现的次数, 根据文档频次计算它的逆, 从而计算 反向文档的频次; 步骤2.3: 通过匹配文档的权重、 匹配字段的权重及惩罚长文档的长度归一化因子计算 字段规范; 步骤2.4: 计算查询数据的权重平方和, 将之与相关度得分的其余部分相乘, 从而实现 查询规范化; 步骤2.5: 计算热点数据查询时占据匹配总文档的比例, 将该比例定义为协调 因子, 计 算协调因子; 步骤2.6: 利用步骤2.1至步骤2.5计算得出的热点频次、 反向文档频次、 字段规范、 查询 规范化以及协调因子进行 热点数据查询时和文档的相关度得分计算; 步骤2.7: 根据热点数据的相关度得分和搜索次数进行综合 排序。 4.根据权利要求1所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤3包括以下 具体步骤: 步骤3.1: 计算设置 了预热查询时的热点数据搜索时间; 步骤3.2: 计算未设置预 热查询时的搜索时间; 步骤3.3: 分析 预热查询所产生的最大时间收益与预 热查询数目之间的关系。 5.根据权利要求4所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤3.1包括以下 具体步骤: 步骤3.1.1: 设置的缓存预热查询的数量为 , 进行提交操作时, 新索引器的打开和关闭 时间, 分别为 和 , 系统未命中缓存的查询时间为 , 一条缓存预热查询命中时的查询 时间为 , 命中缓存预 热查询的概 率为 ; 步骤3.1.2: 设置 了预热查询时的热点数据搜索时间 ,权 利 要 求 书 1/2 页 2 CN 114817329 A 2。 6.根据权利要求4所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤3.2包括以下 具体步骤: 步骤3.2.1: 未设置缓存查询, 进行提交操作时, 新索引器的打开和关闭时间, 分别为 和 , 进行查询时, 系统的查询时间为 ; 步骤3.2.2: 未设置预 热查询时的搜索时间 。 7.根据权利要求4所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤3.3包括以下 具体步骤: 步骤3.3.1: 计算设置了预热查询所产 生的时间收益 , , 要产生时间收益 , 即要求 ; 步骤3.3.2: 无论是否进行缓存预热查询设计, 新缓存器的打开和关闭时间都是一样的 即 、 , 且在设计缓存预热查询的情况下, 未命中缓存时的查询时间与未设 置缓存预 热查询的查询时间是相等的, 即 ; 步骤3.3.3: 由上述条件推导产生时间收益的 的范围为: 不等式中, 、 、 以及 都是定值, 且未命中缓存的查询时间 , 即不等式右 边大于0, 即 存在极值, 当 不断增加, 到达极值点时, 时间收益同样会达极值点, 当 继续 增加时, 时间收益会开始减少。 8.根据权利要求1所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤4包括以下 具体步骤: 步骤4.1: 不断增加预热查询数目, 测试系统不断进行提交操作时, 设置预热查询的热 点数据的搜索时间; 步骤4.2: 寻找查询时间收益 开始下降时的n 值; 步骤4.3: 将此时的n定义 为最佳预热查询数目。 9.根据权利要求1所述的用于解决海量数据分布式索引集群缓存失效的方法, 其特征 在于, 所述 步骤5包括以下 具体步骤: 分别测试设置最佳预热查询数目n以及未设置预热查询时, 进行提交一 次后, 单条件查 询、 多条件查询时热点数据的查询时间, 同时分别测试设置最佳预热查询数目n和未设置预 热查询时, 不断进行提交时, 单 条件查询、 多条件查询的热点数据的查询时间。权 利 要 求 书 2/2 页 3 CN 114817329 A 3
专利 一种用于解决海量数据分布式索引集群缓存失效的方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 00:12:00
上传分享
举报
下载
原文档
(500.4 KB)
分享
友情链接
GB 42295-2022 电动自行车电气安全要求.pdf
T-HAEPI 08—2023 核技术利用单位辐射事故应急预案编制指南.pdf
GB 42250-2022 信息安全技术 网络安全专用产品安全技术要求.pdf
DB11-T 1448-2017 城市轨道交通工程资料管理规程 北京市.pdf
GB-T 42129-2022 数据管理能力成熟度评估方法.pdf
GB-T 36377-2018 计量器具识别编码.pdf
T-CEC 612—2022 港口岸电系统船用移动电源.pdf
GB-T 42453-2023 信息安全技术 网络安全态势感知通用技术要求.pdf
JR-T 0077-2014 集合资金信托计划文件示范文本.pdf
GoogleCloud 自动化安全运营中心soc建设指南 OfficeofCISO AutonomicSecurityOperations 10x 英文 .pdf
GB-T 406-2018 棉本色布.pdf
T-ZZB 0659—2018 马丁代尔耐磨及起毛起球性能试验仪.pdf
GB-T 14728.2-2008 双臂操作助行器具 要求和试验方法 第2部分:轮式助行架.pdf
《信息安全技术 关键信息基础设施安全保障指标体系》.pdf
GB/T 15055-2021 冲压件未注公差尺寸极限偏差.pdf
GM-T 0002-2012 SM4分组密码算法.pdf
ISO27002-2022中文版.pdf
ISO 27701-2019 隐私信息管理体系要求中文版.pdf
DB37-T 4646.4—2023 公共数据 数据治理规范 第4部分:资源服务目录 山东省.pdf
GB-T 35008-2018 串行NOR型快闪存储器接口规范.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(500.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。