说明.txt 832 B

12345678910111213141516
  1. 学管端word上传:
  2. 流程:1.分别上传:word-考试题. word-考试答案
  3. 2.鹿浩浩调用word内容提取工具的接口(name:ocr-只是从word里拿取内容)
  4. 3.鹿浩浩将提取出的txt文本发送给该接口
  5. 4.开始结构化:
  6. (1)找到试卷正文的第一行,将前面的注意事项等非试题内容删掉
  7. 注:之前word解析,是txt文本先发给前端展示在页面上,让用户先通过页面交互对提取出的文本做调整和删除(用户手动删除了注意事项)
  8. (2)走和之前一样的结构化流程,不同之处在于《阅读理解》的结构化:
  9. A.先把4篇阅读切割开
  10. B.用和图片阅读结构化一样的程序,利用上下文的序列型推理ABCD的思想进行结构化
  11. 这个和图片的结构化流程不太一样,图片传过来的是OCR数据,有坐标信息,图片的结构化解析过程也是基于很多坐标信息,大量工作是在DataFrame里面完成
  12. 所以和word解析用了两套程序