123456789 |
- 1、再解析清洗中,遇到表格里面公式的情况,需要对公式的标签"math-tex"进行清洗--->修改html_again_parse.py
- 2、入库保存记录中发现存在一些“latex替换为imgurl失败”的情况,
- 发现是:从items_list中获取$xxx$公式时,经过查重替换的公式也被提取出来,但替换后的latex与原本的latex不一定写法完全一样
- 修改:ruku_opera.py中sub2
- 3、再解析清洗中,对于红色标记的公式先保留标记(修改html_again_parse.py),
- 但需确定svg生成的图片是否也显示红色?====>已验证:带红色标记的latex生成svg,svg2png后显示黑色
- 最后保存入库时,将红色标记去掉--->在ruku_opera.py中修改sub1
- 4、试题中的多个连续空格在前端显示时会被折叠成1个,需要将多个空格改为多个 ====>修改washutil.py中的convert_huanhang
- 2024.7.11 html清洗时漏掉了<meta charset="utf-8" />的“<” 不能替换为< ====》 修改washutil.py中html_cleal
|