1、 信息采集
支持多种文档类型的信息采集(必须支持HTML/WORD/PPT/Excel/Text/PDF等常用文档的信息采集)
对内容增量的索引更新
采集类型、内容的配置管理的能力
Jpg,Tiff(凭证中需要识别的文字部分) 视频、音频(会议等内容)
2、 文档分类
提供多种方式对文档中的实体(如人名 ,机构名称,金融产品等)进行自动提取和处理
可使用由用户按需要开发的文档处理模块
基于文档元数据的分类
各数据源检索结果统一排序
搜索结果页面底部的相关搜索提示,模糊搜索,同音词,前后鼻音等的提示(模糊匹配字典库自动更新、可定义)
检索词高亮和关键字直达
支持个性化搜索:提供搜索条件的保存和分享(分享规则可全局定义,个人主动分享)
基于标准、开放的系统;提供开发接口,和常用模块组件;支持二次开发。(CM平台无权限控制,CM的内容在前端应用中进行权限控制,所以企业搜索平台需要对搜索内容进行区分,在CM中的内容需要为前端应用提供搜索服务,并让前端应用可以根据搜索结果结合前端的权限控制进行展现)
4、 安全方面
支持基于应用授权模型的文档级安全搜索,支持带有权限的搜索(对用户、资源、权限分级管理和控制)
全局控制--关键词过滤
5、 管理功能
可提供搜索情况的分析报表
运行监控
6、 集成和客户化支持
提供搜索端接口和样本应用,支持JAVA、WEBSERVICE和.Net
2、 检索完整性比率要到达99%以上(查全率),对多元化资源的准确定位(查准率);
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。