Introduce
- 结构化数据: 指有规律结构固定格式长度的数据, 如数据库
- 非结构化数据: 指无规律不定长不固定格式的数据, 如邮件
- 半结构化数据: XML/HTML等, 可按需求以不同形式处理
非结构化数据又一种叫法叫全文数据。
全文检索大体分两个过程,索引创建(Indexing)和搜索索引(Search)。
- 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
- 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
全文检索就存在三个重要问题:
- 索引里面究竟存些什么?(Index)
- 如何创建索引?(Indexing)
- 如何对索引进行搜索?(Search)
What fuck in these Index
- 存的是 符号表 通俗的说是个映射表
- 从字符串到文件的映射是文件到字符串映射的反向过程,于是保存这种信息的索引称为 反向索引 。
- 左边的一系列为词典也叫Key
- 右边的一系列为倒排表也叫Value
建索引的好处是一次建立, 多次使用, 如果建索引的频率过于频繁反而会拖累整体性能