新word解析结构化

cdZWj e4751ed620 更新 'README.md' 3 роки тому
.idea 50e1b2af55 word结构化 3 роки тому
__pycache__ 50e1b2af55 word结构化 3 роки тому
data 50e1b2af55 word结构化 3 роки тому
img_folder 50e1b2af55 word结构化 3 роки тому
logs 50e1b2af55 word结构化 3 роки тому
res_folder 50e1b2af55 word结构化 3 роки тому
structure 50e1b2af55 word结构化 3 роки тому
templates 50e1b2af55 word结构化 3 роки тому
utils 50e1b2af55 word结构化 3 роки тому
README.md e4751ed620 更新 'README.md' 3 роки тому
ans_structrue_old.py 50e1b2af55 word结构化 3 роки тому
ceshi.py 50e1b2af55 word结构化 3 роки тому
configs.py 50e1b2af55 word结构化 3 роки тому
math_server.py 50e1b2af55 word结构化 3 роки тому
parse_chunk.py 50e1b2af55 word结构化 3 роки тому
photo_upload.py 50e1b2af55 word结构化 3 роки тому
photo_upload_qcloud.py 50e1b2af55 word结构化 3 роки тому
photo_upload_qcloud2.py 50e1b2af55 word结构化 3 роки тому
requirements.txt 50e1b2af55 word结构化 3 роки тому
server3.py 50e1b2af55 word结构化 3 роки тому
server_new.py 50e1b2af55 word结构化 3 роки тому
server_phy.py 50e1b2af55 word结构化 3 роки тому
server_phy2.py 50e1b2af55 word结构化 3 роки тому
server_tools.py 50e1b2af55 word结构化 3 роки тому
server_tools2.py 50e1b2af55 word结构化 3 роки тому
test.py 50e1b2af55 word结构化 3 роки тому

README.md

1.任务说明

​ 对word格式(doc, docx)的理科试卷进行解析结构化

主要支持3大类型:1>>模板格式的教师类用卷(每道题目下面含答案和解析)

​ 2>> 题文和答案分开的形式,即题文单独放一起,答案单独放一起

​ 3>> 只含题文,或题文下只含答案或解析

要求

​ 1>>排版规范,每道题或其答案从前往后,从小到大排列,题号连续不重复;

​ 2>>与题文无关内容删除,特别是试卷中间和结尾的无用信息;

​ 3>>题型行尽量明确;

​ 4>>题文和答案分开的形式中,答案的标题要明显有“参考答案”类似字样,后面无用部分删除;

​ 5>>本文所述试卷仅包含题型行、题干、答案、解析、分析、点睛、点评等,像每个题后面插个变式训练类型的非正式试卷不支持!

结构化返回形式

解析流程

image-20200805185530356

2.环境配置

  • 操作系统:Windows
  • 编程语言:python
  • 开发工具: pycharm
  • 代码托管平台: http://gitz.zhixinhuixue.net:18880/

  • 上线服务器: 182 和 185

  • 所需配套环境或服务:office word 、wordbin 、mathtype6