更改记录.txt 1.8 KB

12345678910111213141516171819
  1. 2024.6.6 将物理题型预测服务部署至10.19.1.21(GPU服务器),虽然只用了CPU,但推理速度与10.19.1.6(CPU服务器)相比明显快了很多。
  2. 初步对比两台服务器,10.19.1.6核数24,剩余内存很多,10.19.1.21核数8,剩余内存不多,
  3. 但10.19.1.6处理任务多、线程多,且CPU使用达到100%,而10.19.1.21的CPU使用率不高
  4. 2024.7.8-15:
  5. 1、再解析清洗中,遇到表格里面公式的情况,需要对公式的标签"math-tex"进行清洗--->修改html_again_parse.py
  6. 2、入库保存记录中发现存在一些“latex替换为imgurl失败”的情况,
  7. 发现是:从items_list中获取$xxx$公式时,经过查重替换的公式也被提取出来,但替换后的latex与原本的latex不一定写法完全一样
  8. 修改:ruku_opera.py中sub2
  9. 3、再解析清洗中,对于红色标记的公式先保留标记(修改html_again_parse.py),
  10. 但需确定svg生成的图片是否也显示红色?====>已验证:带红色标记的latex生成svg,svg2png后显示黑色
  11. 最后保存入库时,将红色标记去掉--->在ruku_opera.py中修改sub1
  12. 4、试题中的多个连续空格在前端显示时会被折叠成1个,需要将多个空格改为多个 ====>修改washutil.py中的convert_huanhang
  13. 2024.7.11 html清洗时漏掉了<meta charset="utf-8" />的“<” 不能替换为&lt; ====》 修改washutil.py中html_cleal
  14. 2024.9.5 解析工具校对过程中截图粘贴的图片对外不显示问题处理:增加对外域名===>修改文科、理科结构化解析中configs.py中的new_img_ip
  15. 2024.9.12 解答题中出现小题是选择题格式的情况下,当没有给定题型时,在单题结构化的时候需要判断题型,容易判成是选择题的情况,
  16. =====>增加限制条件,修改final_structure.py第48-49行