No Description

tujintao d9e302c832 revise 10 months ago
__pycache__ f7370b266f README完善 11 months ago
logs 2dbd23b419 revise 1 year ago
main_clear b3dd34355a revise 11 months ago
model_data b739ee875f 知识点映射配置修改 10 months ago
README.md 9077d165b4 revise 10 months ago
comparison.py b739ee875f 知识点映射配置修改 10 months ago
comprehensive_score.py b739ee875f 知识点映射配置修改 10 months ago
config.py b739ee875f 知识点映射配置修改 10 months ago
data_preprocessing.py 13a1d22664 新增多维度分类 11 months ago
db_train_app.py 583dce2118 revise 10 months ago
dim_classify.py f7370b266f README完善 11 months ago
dim_classify_app.py 9464a79ecd revise 11 months ago
formula_process.py 6d60a081d1 revise 1 year ago
guc_conf.py dca9c3b06b revise 1 year ago
heap_sort.py d9e302c832 revise 10 months ago
hm_ir_train_app.py b715bceb22 公式搜索 1 year ago
hnsw_app.py 13a1d22664 新增多维度分类 11 months ago
hnsw_model.py 780b7f61f8 revise 1 year ago
hnsw_model_train.py 6d60a081d1 revise 1 year ago
hnsw_retrieval.py f7370b266f README完善 11 months ago
info_retrieval.py d9e302c832 revise 10 months ago
ir_db_establish.py 17e398a7ce revise 1 year ago
log_config.py dca9c3b06b revise 1 year ago
physical_quantity_extract.py 13a1d22664 新增多维度分类 11 months ago
restart_server.py 13a1d22664 新增多维度分类 11 months ago
retrieval_app.py 13a1d22664 新增多维度分类 11 months ago
retrieval_monitor.py 13a1d22664 新增多维度分类 11 months ago
server_start.sh 17e398a7ce revise 1 year ago
setup.py 6d60a081d1 revise 1 year ago
word_segment.py 6d60a081d1 revise 1 year ago

README.md

考试院查重文档说明:

初始化方式:

注:若keyword_mapping.json不存在,则首先运行 python comparison.py # 计算知识点/物理量映射ID

python db_train_app.py # mongodb数据清洗与向量化/计算物理量/知识点转ID/计算求解类型

python hm_ir_train_app.py # hnsw模型/关键词检索/公式查重模型初始化

启动方式:

1、全部功能重启命令

conda activate dup_search
python restart_server.py

2、部分功能重启命令

conda activate dup_search
python restart_server.py 0/1/2/3

其中:

0表示重启考试院题库查重功能

1表示重启考试院题库HNSW模型检索功能

2表示重启多维度(求解类型/难度)分类模型功能

3表示重启服务监控功能

查重功能主要分三个部分(公式查重、关键词检索、文本查重、语义查重):

〇、数据初始化

  • config.py: 基础配置信息,包含数据库地址、调用接口地址、日志初始化配置、相似度阈值等
  • main_clear/sci_clear.py: 数据清洗模块
  • data_preprocessing.py: 数据预处理代码,包含数据清洗、字段数据拼接、数据向量化等
  • hnsw_model_train.py: 初始化训练HNSW模型

一、公式查重

  • formula_process: 公式规则抽取、训练词袋模型和计算题库所有公式向量

二、关键词检索

  • word_segment.py: 文档分词功能
  • ir_db_establish.py: 构建倒排索引并将结果存入sqlite数据库
  • info_retrieval.py: 使用BM25算法进行关键词检索打分排序

三、文本查重

  • hnsw_retrieval.py: HNSW召回、文本相似查重、语义相似查重
  • hnsw_model.py: HNSW模型加载保存以及查操作
  • hnsw_app: 全学科题库查重接口服务

四、语义查重

  • dim_classify.py: 求解类型分类/难度分类
  • dim_classify_app.py: 求解类型分类/难度分类服务
  • physical_quantity_extract: 物理量规则提取
  • comprehensive_score.py: 题型/求解类型/难度/物理量/知识点打分规则