您现在的位置:主页 > 365bet现金 > 基于多源函数挖掘的问题纠错方法研究

基于多源函数挖掘的问题纠错方法研究

推荐:365bet体育投注 2019.08.09
基于多源函数挖掘的问题纠错方法研究
Seki Koryu
[概述]在搜索引擎中检测和更正用户关键字是提高搜索引擎搜索效率和改善用户体验的重要方面。
搜索引擎查询的纠错是在用户提交查询请求之后,搜索引擎使用特定的算法模型来分析提交的字符串。如果发送的字符串中有错误,搜索引擎将根据用户输入字符串结合一些自然语言处理方法,提供了另一种类似于输入字符串的表单,信息是它将被搜索,并将返回给用户。
当前对中文搜索引擎的查询修改主要基于基于规则的方法和基于统计的方法。虽然基于规则的方法不考虑查询字符串上下文信息,但基于统计的方法具有单个错误更正策略。不仅如此,在大数据时代,错误检测和纠正没有考虑到寄存器分析和大型搜索引擎寄存器挖掘发布的记录分析中隐藏的巨大价值。
为解决上述问题,本课题使用搜索引擎搜索查询作为语料库,结合统计和查询字符串特征信息,建立纠正查询错误和检测链的模型。这已得到纠正。进行用户输入分析,查询记录分析和通过提取校正误差校正模型参数。
第一部分基于错误和查询校正模型以及统计和特征的组合。通过为查询关键字的每个单词创建候选术语,您将获得一组混淆的查询关键字,并将其与查询字符串的结构和统计特征相结合。从克,点击词频,词形相似度??,编辑距离等特征,建立混淆集分类模型,用于选择混淆集的最佳项并进行比较。你。原始链条达到纠正错误的目的。
BadCase挖掘模型的第二部分是补充和优化第一部分中提出的查询错误纠正模型。
通过对搜索引擎问题记录的分析,在纠正问题错误的过程中分析BadCase,量化模型,自动搜索具有这些特征的BadCase,并分析BadCase以优化模型完成了。更正查询错误,提高查询错误纠正的准确性。
该文件的主要创新是:我们提出了一种结合多个来源特征的查询错误纠正模型。该模型考虑了查询字符串的结构和统计特征,例如N-gram模型,单击字频率,字形相似性和编辑距离。精度提高和修正率恢复查询错误
已经提出了BadCase挖掘模型。记录挖掘改进了查询错误纠正模型的错误检测和纠正能力,从而提高了准确性和错误恢复率,并改善了用户体验。
实验结果表明,本研究提出的模型对搜索引擎的搜索和恢复有很好的效果。测试装置在110k的准确度和回收率达到92。
与N-gram误差修正模型相比,2%,95%,准确度和恢复率分别增加了13。
6%,8
3%
提高搜索引擎查询的准确性,改善用户的搜索体验。
[学位授予单位]:北方北方理工学院[逐步]:硕士课程[逐步]:2016年[分类号]:TP311
13年
下载全文
更多类似的文件