使用Solr构建企业级的全文检索（三）---------Schema定义-白红宇

上一篇文章介绍了Solr的管理界面，使用这个管理界面我们我们可以方便的了解现在Solr的运行情况，也可以查看目前的系统是如何配置的，你甚至可以通过它做一些测试和调试，但是也仅止于此，系统的配置你还必须通过各种各样的配置文件。要使Solr可以处理我们自己的文档，第一步要做的就是配置Schema。

Schema是Solr业务逻辑的核心，一个文档包含哪些字段，字段是否被索引，如何索引，如何被查询都在Schema中定义。我们可以在Solr的conf目录下找到schema.xml这个文件，这个文件中就是Schema的定义。需要注意的是一个Solr的实例只能有一个Schema。Schema的定义很像是数据库中的一张表，你在表里面定义字段，比如text字段，数据类型是nvarchar这样。不同的是，在数据库里面，你只能使用系统预设的字段类型来定义字段，而在Solr的schema中你不但可以定义字段，而且还可以定义自己的字段类型，并且定义字段类型往往是最重要的。

我们可以浏览一下这个schema文件，在<types>节点中的所以内容都是字段定义，这些字段类型一块一块的被定义，在每一块的上边有很详细的定义。对于每行一个定义这样的简单字段类型基本上是Solr的基本数据类型，一般来说你不需要去修改它，这些字段的omitNorms attribute都是true，也就是说他们不会被用来分析，只用来存储数据。如果想要更快的范围查询，请考虑使用t前缀的字段类型。我们来看看下面的一段字段定义的配置：

<
fieldType 
name
="text_general"
 class
="solr.TextField"
 positionIncrementGap
="100"
>
      <analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
-->
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
    </fieldType>  

需要分析的字段类型一般是这样的，name指定了字段类型的名称，就像是数据库的nvarchar这样的名字一样。class指明这个类型对应的是什么的java数据类型，在字段定义中你可以定义分析器，分析器有两种，索引分析器和查询分析器，对于每个字段类型，你只能指定一个查询分析器和一个索引分析器。分析用来对字段的内容进行分词，过滤，转换等等，我们可以看到在分析器的节点内定义了一系列的处理步骤，这些步骤是有序的。从分析器的类型也就可以直观的了解到，索引分析器用于建立索引时，查询索引器用于查询时。如果字段类型仅指定了一个分析器，并且没有指定类型，说明索引和查询都使用这个分析器。

有了字段类型，我们就可以定义需要处理的文档的所具有的字段了。我们可以看到，在schema文件中本身已经定义了很多的字段，它们都位于<fields>节点内。这些字段是为例子数据文档准备的，如果你需要的处理文档足够简单并且本身是英文的，那么你甚至都不需要修改Schema文件，直接利用这些字段就可以了。当然只是偷懒的做法，如果用于练习是足够了，如果用于生产环境，还是把不需要的字段删掉吧。删除的时候注意，不要把dynamicField的内容删掉了，这些dynamicField是又特殊含义的，他们的名字都像name="*_i"一样有个"*_"的前缀。如果你不想在schema中定义这个字段又想存贮这个字段的值，那么在向Solr传地文档内容的时候，把字段名名为"_i"后缀，那么字段的值就会按<dynamicField name="*_i" type="int" indexed="true" stored="true"/>定义的动态字段的属性来存储，同样的道理，查询也是一样的。在字段定义时，你可以指定几个attribute，那么当时是指字段的名字，type指定的是字段的类型，字段的类型当然指的就是前面定义的类型，这个类型决定了该字段的内容如何被索引和查询，indexed是个布尔值，指示该字段是否被索引，stored指示该字段的内容是否被存储，如果你的查询只是返回是否命中，并不返回字段的内容或者高亮内容中的某些部分的，可以将该属性的值设定为false，multiValued指示该字段是否存储多个值。

defaultSearchField用来指定，如果查询时没有指定字段名称时查询哪个字段的索引值。

solrQueryParser 指示如果查询中包含了两个term，并且没有指定逻辑运算符的时候我们默认用什么逻辑运算符，一般来说我们都会默认是OR。

上边就Schema的定义了，后边我写Solr处理中文文档的时候，会稍微详细的再介绍一下这个部分，如果你处理的只是英文文档的话，类型基本不用修改了，只用定义自己需要的字段就可以了。

本文转自纶巾客博客园博客，原文链接：http://www.cnblogs.com/guanjinke/archive/2011/12/12/2285364.html，如需转载请自行联系原作者