12345678910111213141516 |
- 学管端word上传:
- 流程:1.分别上传:word-考试题. word-考试答案
- 2.鹿浩浩调用word内容提取工具的接口(name:ocr-只是从word里拿取内容)
- 3.鹿浩浩将提取出的txt文本发送给该接口
- 4.开始结构化:
- (1)找到试卷正文的第一行,将前面的注意事项等非试题内容删掉
- 注:之前word解析,是txt文本先发给前端展示在页面上,让用户先通过页面交互对提取出的文本做调整和删除(用户手动删除了注意事项)
- (2)走和之前一样的结构化流程,不同之处在于《阅读理解》的结构化:
- A.先把4篇阅读切割开
- B.用和图片阅读结构化一样的程序,利用上下文的序列型推理ABCD的思想进行结构化
- 这个和图片的结构化流程不太一样,图片传过来的是OCR数据,有坐标信息,图片的结构化解析过程也是基于很多坐标信息,大量工作是在DataFrame里面完成
- 所以和word解析用了两套程序
-
-
|