更改记录.txt 1.0 KB

123456789
  1. 1、再解析清洗中,遇到表格里面公式的情况,需要对公式的标签"math-tex"进行清洗--->修改html_again_parse.py
  2. 2、入库保存记录中发现存在一些“latex替换为imgurl失败”的情况,
  3. 发现是:从items_list中获取$xxx$公式时,经过查重替换的公式也被提取出来,但替换后的latex与原本的latex不一定写法完全一样
  4. 修改:ruku_opera.py中sub2
  5. 3、再解析清洗中,对于红色标记的公式先保留标记(修改html_again_parse.py),
  6. 但需确定svg生成的图片是否也显示红色?====>已验证:带红色标记的latex生成svg,svg2png后显示黑色
  7. 最后保存入库时,将红色标记去掉--->在ruku_opera.py中修改sub1
  8. 4、试题中的多个连续空格在前端显示时会被折叠成1个,需要将多个空格改为多个 ====>修改washutil.py中的convert_huanhang
  9. 2024.7.11 html清洗时漏掉了<meta charset="utf-8" />的“<” 不能替换为&lt; ====》 修改washutil.py中html_cleal