热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

搜索引擎架构设计

本文详细介绍了搜索引擎的主要组成部分,包括爬虫模块、索引模块和搜索模块。其中,索引模块采用了高效的二元分词技术进行数据存储,而搜索模块则基于ASP.NET框架实现了一个用户友好的界面和高效的搜索算法。
1. 爬虫模块
2. 索引模块
- 采用二元分词技术进行数据存储,提高搜索效率和准确性。
3. 搜索模块
3.1 ASP.NET界面
- 提供了用户友好的前端界面,方便用户输入查询条件并显示搜索结果。
3.2 搜索方法
- 实现了核心的搜索逻辑,包括分词处理、停用词过滤、搜索请求处理等。
None.gifprivate void Search() {
string searchStr = this.Q;
string prefix = this.T;
SearchTest searcher = new SearchTest();
DateTime start = DateTime.Now;

// 创建结果DataTable
this.Results.Columns.Add("title", typeof(string));
this.Results.Columns.Add("content", typeof(string));
this.Results.Columns.Add("url", typeof(string));

if ((searchStr.IndexOf(" ") == -1) && searchStr.Length > 3) {
List resultList = Sj110.Com.Chinese.Tokenizer.Tokenize(searchStr);
StringBuilder sb = new StringBuilder();
foreach (string result in resultList) {
bool bStop = false;
foreach (string stop in m_stopWords) {
if (result == stop) {
bStop = true;
break;
}
}
if (bStop == false) {
sb.Append(result);
sb.Append(" ");
}
}
sb.Remove(sb.Length - 1, 1);
searchStr = sb.ToString();
}

try {
string[] fields = { "content", "title" };
Hits h = searcher.search(searchStr, prefix);
this.m_total = GetValidLength(h);
this.m_startAt = initStartAt();
int resultsCount = smallerOf(m_total, this.m_maxResults + this.m_startAt);

if (h.Length() == 0) {
DataRow row = this.Results.NewRow();
row["title"] = "您查询的关键字" + searchStr + "暂无结果。

提示:多个关键字之间请加空格。“公交 线路”比“公交线路”更容易搜到结果。";
row["url"] = "default.aspx";
this.Results.Rows.Add(row);
return;
}

for (int i = m_startAt; i Document doc = h.Doc(i);
string url = doc.Get("url");
if (m_oldUrls.CheckRepeatUrl(url) || url.EndsWith("/")) {
m_invalidCount++;
resultsCount++;
continue;
}
string cOntent= doc.Get("content");
string title = doc.Get("title");
if (title.Trim() == "") title = "无标题";
string[] searchArr = searchStr.Split(' ');
cOntent= GetBestFragments(content, searchArr);
cOntent= Hilighter(content, searchArr);
title = Hilighter(title, searchArr);
DataRow row = this.Results.NewRow();
row["title"] = title;
row["content"] = content;
row["url"] = url;
this.Results.Rows.Add(row);
}

this.m_duration = DateTime.Now - start;
this.m_fromItem = this.m_startAt + 1;
this.m_toItem = smallerOf(this.m_startAt + m_maxResults, m_total);
} catch (Exception ex) {
Console.WriteLine(ex.Message);
return;
}
}

来源: https://www.cnblogs.com/jadepark/archive/2007/08/06/844982.html


推荐阅读
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 本文探讨了如何在iOS开发环境中,特别是在Xcode 6.1中,设置和应用自定义文本样式。我们将详细介绍实现方法,并提供一些实用的技巧。 ... [详细]
  • JavaScript实现表格数据的实时筛选功能
    本文介绍如何使用JavaScript实现对表格数据的实时筛选,帮助开发者提高用户体验。通过简单的代码示例,展示如何根据用户输入的关键字动态过滤表格内容。 ... [详细]
  • 本文详细介绍了如何解决OBS在全屏录制时出现黑屏的问题,并提供了关于正确配置显卡以实现高效推流的指导。通过调整操作系统和显卡设置,确保OBS能够稳定运行并提供高质量的直播或录制体验。 ... [详细]
  • 获取Jedis和Commons Pool JAR包的两种方法及详细步骤
    本文介绍如何通过网盘链接或官方网站获取Jedis和Commons Pool的JAR包,并提供详细的图文教程。同时,还附有导入JAR包到项目的相关建议。 ... [详细]
  • Python第三方库安装的多种途径及注意事项
    本文详细介绍了Python第三方库的几种常见安装方法,包括使用pip命令、集成开发环境(如Anaconda)以及手动文件安装,并提供了每种方法的具体操作步骤和适用场景。 ... [详细]
  • 深入理解Lucene搜索机制
    本文旨在帮助读者全面掌握Lucene搜索的编写步骤、核心API及其应用。通过详细解析Lucene的基本查询和查询解析器的使用方法,结合架构图和代码示例,带领读者深入了解Lucene搜索的工作流程。 ... [详细]
  • 本文深入探讨了二叉搜索树(Binary Search Tree, BST)及其操作,包括查找、插入和删除节点。同时,文章还介绍了平衡二叉树(AVL树)的概念及调整方法,并详细讨论了如何判断两个序列是否构成相同的二叉搜索树。 ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 在Linux系统中配置并启动ActiveMQ
    本文详细介绍了如何在Linux环境中安装和配置ActiveMQ,包括端口开放及防火墙设置。通过本文,您可以掌握完整的ActiveMQ部署流程,确保其在网络环境中正常运行。 ... [详细]
  • 如何在WPS Office for Mac中调整Word文档的文字排列方向
    本文将详细介绍如何使用最新版WPS Office for Mac调整Word文档中的文字排列方向。通过这些步骤,用户可以轻松更改文本的水平或垂直排列方式,以满足不同的排版需求。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • 并发编程 12—— 任务取消与关闭 之 shutdownNow 的局限性
    Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]
  • 本文详细介绍了头条搜索引擎对网站内容的抓取、解析及索引过程,探讨了收录量与索引量的区别,并提供了实用工具和技巧来监控网站的收录情况。通过这些信息,网站管理员可以更好地理解搜索引擎的工作机制,优化网站内容以提高其在搜索结果中的可见性。 ... [详细]
author-avatar
alian
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有