汽车大脑目前学到的有用经验

1. 可以使用已经存在的相似模型和数据迅速积累正负样本

这有点像迁移学习,使用一个相似的模型,预测一批case,然后人工处理其中一部分score比较高或者低的,这样的话,得到的数据中含有期待的正负样本比例会比较高

2. 自己准备的测试case和最常问的case并不重叠

这次本来请标注组准备了不少的测试case,但是发现真正内测的时候,真正问的问题和标注组准备的问题,并不重合,一般人问的都太简单了。

3. 数据量很关键,召回也很关键

再好的语义模型,没有召回合适的候选集,也无法发挥作用,es的bm25并不能充分发挥数据,还是需要结合向量一起来。

4. 负样本很重要

通过去掉关键词和包含领域关键词的这种做法,我们迅速积累了大批的对比数据,这对提高语义准确度起了很关键的作用,这样模型就能迅速学到关键内容起到的作用。两句话很相似,但是缺少了核心领域词,语义就是不一致。