MacESearch企业搜索引擎
产品白皮书
全面的全文检索解决方案。为企业解决大量、海量数据下的全文检索应用,并向用户提供高效的、准确的、安全的、个性化的搜索体验。该产品不仅可以应用在网站的全文检索上,也可以中间件模式用于应用系统中的数据检索与分析。
2010316
f第一章前言
11绪论
随着信息技术的不断发展和对信息技术需求的不断增加,世界各国都在经历着前所未有的信息革命。国家的发展离不开信息化,企业的发展离不开信息化。
今日的企业在跟随时代的步伐向着信息时代迈进,而且呈现出巨大的生机与活力。信息革命的深入必然带来信息的爆炸性增长。企业信息化后,大量的文件档案信息聚集,从而导致有效信息获取的难度增强和垃圾信息量增加。于是,快速精准地获取有用信息的工具应运而生。宏天信业经过长期积累,形成了相应的企业搜索平台。
搜索引擎是信息检索的工具,因此对搜索引擎的研究应属于信息检索的分支。搜索引擎是帮助用户快速精准地从庞大的信息体中搜索到所需信息的工具。越来越多的企业对搜索技术有迫切的需求,这些需求有极强的差异,例如,有的需要的是对文档的搜索,有的需要对网页的搜索等等。图11展示了搜索引擎的基本思想。首先搜集目标信息,然后将信息进行分析处理,并按照一定得数据结构进行存储,最后用户从这些被存储的数据中检索出有用的信息。
信息搜集
分析处理
信息存储
图11搜索引擎基本思想
信息检索
搜索引擎在搜索引擎迫切的需求中诞生,经过多年的发展,我们也开发了适应于企事业的本产品搜索引擎。利用它可以快速地搭建像Google一样的搜索引
210
f擎;通过对其配置,可以实现许多强大的功能,而且索引和查询的效率都极高,利用它可以对MSWORD、PDF、MSEXCEL、TXT等文本进行处理。从而快速搜索到需要的数据。
第二章产品介绍
搜索引擎主要是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品。本公司搜索引擎产品主要由网络爬虫,索引器索引库,分词器,查询器四部分模块组成相对市场相关产品,本公司产品具有以下功能特色。
网络爬虫支持广度与深度搜索算法图片及其它相关文件自动下载
索引器索引形式与格式自定义支持直接保存入数据库,自定义隐射关系
分词器基于语义分析,词性、词频标注人名、地名、单位名自动识别、未登录词识别支持词库
接口提供查询、索引维护、应用开发接口提供JAVA、ASPNET、PHP、Perl多语言接口
其它特色
310
f支持外r