• 成功解决ES高亮内容引起的字段显示不一致问题


    在处理搜索引擎(如Elasticsearch)结果时,常见需求之一是对用户搜索的关键词进行高亮显示,这有助于用户快速识别搜索结果为何与其查询相关。但在实际应用中,如果处理不当,直接使用高亮片段可能会导致原始数据的部分内容丢失。

    问题描述,不同检索条件检索出同一内容, 显示的内容不一致问题

    在搜索结果中,通常需要将用户搜索的关键词高亮显示。搜索API(如Elasticsearch)通常会返回一个高亮字段,其中相关的搜索关键词被特定的HTML标签包围。如果简单地将这些高亮字段替换到原始文本中,那么未被高亮的原始文本部分可能会被覆盖丢失。

    问题截图

    在这里插入图片描述
    在这里插入图片描述

    原因截图

    在这里插入图片描述

    原因分析

    此问题通常发生在只将高亮字段作为完整字段内容插入到结果中时。由于高亮数组仅包含匹配的部分,直接替换可能会覆盖整个字段,导致原始文本中的非匹配内容被丢弃。

    解决方案

    正确的处理方式是将高亮文本与原始文本合并,确保原始数据的完整性。以下是具体实现的步骤和代码:

    private String mergeHighlightedText(String field, Map<String, HighlightField> highlightFields, Map<String, Object> originalData) {
        // 获取高亮字段
        HighlightField highlightField = highlightFields.get(field);
        if (highlightField != null) {
            // 构建高亮文本字符串
            Text[] fragments = highlightField.getFragments();
            StringBuilder highlightedTextBuilder = new StringBuilder();
            for (Text fragment : fragments) {
                highlightedTextBuilder.append(fragment.string());
            }
            String highlightedText = highlightedTextBuilder.toString();
    
            // 获取原始数据
            String originalText = originalData.getOrDefault(field, "").toString();
    
            // 替换原始文本中被高亮的部分,同时保留原始文本中未被高亮的部分
            // 假设高亮文本已经适当处理了原始文本中的文本片段
            String regex = "\\Q" + highlightedText.replaceAll("|", "") + "\\E";
            originalText = originalText.replaceAll(regex, highlightedText);
            return originalText;
        } else {
            // 如果没有高亮字段,使用原始数据
            return originalData.getOrDefault(field, "").toString();
        }
    }
    
    应用示例

    以下是如何在实际应用中使用上述方法:

    Map<String, Object> originalData = hit.getSourceAsMap();
    Map<String, HighlightField> highlightFields = hit.getHighlightFields();
    
    // 对每个需要处理的字段执行上述方法
    String title = mergeHighlightedText("title", highlightFields, originalData);
    String abstractX = mergeHighlightedText("abstract", highlightFields, originalData);
    // 继续处理其他字段...
    
    优点
    • 完整性保障:此方法确保了原始数据的完整性,不会因高亮处理而丢失。
    • 用户体验提升:通过高亮显示,用户可以更快地理解搜索结果的相关性。
    • 代码灵活性:可以根据实际需求调整正则表达式和替换逻辑,适应不同的搜索引擎和标记。
    结论

    正确处理搜索结果中的高亮显示与原始数据的整合对于提供清晰、全面的用户体验至关重要。上述方法提供了一种有效的方式来确保即使在内容以集合形式存在时,用户也能获得完整且准确的搜索结果显示。这种方法不仅增强了信息的可读性,还确保了数据的完整性。

  • 相关阅读:
    Hash、ContentHash、ChunkHash
    网络安全笔记 -- XSS跨站(原理、分类)
    栈、队列、字符串
    grafana接入OpenTSDB设置大盘语法
    vue清除动态路由
    前端控制小数点精度及数字千位分割
    WIFI6 2.4G模组 WB800DC移植和替换RTL8723过程记录
    程序员的产品思维
    创建javaEE项目(无maven),JSP(九大内置对象)、Servlet(生命周期)了解
    ucontext 上下文
  • 原文地址:https://blog.csdn.net/weixin_39973810/article/details/139966542