#!/usr/bin/env/python # -*- coding:utf-8 -*- import re from pprint import pprint from washutil import table_label_cleal, find_seq_num # 本文件包含以下函数 # con_ans_split：将传进来的单道题（含答案或解析）按题干、答案、解析拆分 # ans_structure_total：针对答案部分解析结构化汇总 # ans_structure：拆分答案，并根据已拆分好的题目item_res 补上答案和解析 # stem_ans_struc_combine: 题干结构化与答案结构化的合并 # manyans_oneline_split(item_str, one_type_num):对一行多个答案的情况进行拆分 # only_parse_split: 拆分出答案和解析，主要针对答案页中的每个题的答案进行拆分 # get_ans_from_parse: 从已知解析中挑选答案 # def ans_structure_step1(anss, item_type_classify, item_res): # """ # 针对答案部分解析结构化汇总 # anss : 整个答案部分 # :return: dd = {'parse': , 'answer': } # """ # anss = [k for k in anss if k.strip()] # ans_label = [k for k, a in enumerate(anss) if re.match("【答案】", a.strip())] # parse_label = [k for k, a in enumerate(anss) if re.match("【解析】", a.strip())] # if len(ans_label) == 1 and len(parse_label) == 1: # ans1 = anss[ans_label[0] + 1: parse_label[0]] # parse1 = anss[parse_label[0]+1:] # res_ans, flag1 = ans_structure_step2(ans1, item_type_classify, item_res,'group_ans') # res_parse, flag2 = ans_structure_step2(parse1, item_type_classify, item_res, 'group_parse') # if flag1 == flag2 == 1: # for idx, item_r in enumerate(item_res): # if not res_ans[idx]['answer']: # if not res_parse[idx]['answer']: # item_res[idx]['answer'] = "见解析" # else: # item_res[idx]['answer'] = res_parse[idx]['answer'] # else: # item_res[idx]['answer'] = res_ans[idx]['answer'] # # if not res_ans[idx]['parse']: # item_res[idx]['parse'] = res_parse[idx]['parse'] # else: # 解析中的parse肯定有 # item_res[idx]['parse'] = res_ans[idx]['parse']+"
【解析】"+res_parse[idx]['parse'] # return item_res # elif flag1 == 2: # return "【答案】组中题型数量与题目中不一致,请重点检查题目序号,重新手输题目序号" # elif flag2 == 2: # return "【解析】组中题型数量与题目中不一致,请重点检查题目序号,重新手输题目序号" # else: # return '【答案】组和【解析】组中题型数量与题目中均不一致,请重点检查题目序号,重新手输题目序号' # else: # res_ans, flag1 = ans_structure_step2(anss, item_type_classify, item_res) # if flag1 == 1: # for idx, item_r in enumerate(item_res): # item_res[idx]['answer'] = res_ans[idx]['answer'] # item_res[idx]['parse'] = res_ans[idx]['parse'] # else: # # return "答案中题目数量与题目中不一致,①请重点检查题目序号,重新手输题目序号;②将参考答案开头没用的信息去掉;" \ # # "③是否有遗漏答案或答案格式不对；④答案中若存在一行多个答案时，保证每个题的答案间要留有多个空格！" # return res_ans # return item_res # # # def ans_structure_step2(anss, item_type_classify, item_res, *group): # """ # 拆分答案，并根据已拆分好的题目item_res 补上答案和解析 # 有的答案放在表格里，如选择题、填空题、判断题，有的一行多个答案 # 思路：1.先按一行没有多个题答案的情况取答案，数量与题干不同时 >>>> 2.再按一行多个答案的情况取答案： # 1）先判断表格，拿到表格的答案；2）一行多个答案 # anss: 一组按所有不重复题号的答案 # item_type_classify: 题目中对各题型的统计 # :return: [{'parse': , 'answer': },{},{}] # """ # while not anss[0]: # anss = anss[1:] # if re.match(".+?省.+?试[卷题]|[^a-zA-Z]*?【专题】", anss[0]): # anss = anss[1:] # # # 预处理：对答案部分的题号进行处理，将(\d)类型的题号改为\d、类型 # sub_item_no = [int(no[0]+no[2]) for no in # re.findall(r'\n\s*([1-9]|[1-4][0-9])\s*[.．、､]|\n\s*([1-9]|[1-4][0-9])\s*[.．、､].+?\s+([1-9]|[1-4][0-9])\s*[.．、､].+?', # "\n" + "\n".join(anss))] # if len(sub_item_no) <= 2: # sub_item_no = [int(no[0]+no[2]) for no in re.findall(r'\n\s*$([1-9]|[1-4][0-9])$\s*[.．、､]?' # r'|\n\s*$([1-9]|[1-4][0-9])$\s*[.．、､]?.+?\s+$([1-9]|[1-4][0-9])$\s*[.．、､]?.+?', # "\n" + "\n".join(anss))] # if len(sub_item_no) > 3: # anss = re.sub(r'\n\s*$([1-9]|[1-4][0-9])$\s*[.．、､]?', "\n" + r"【@\1､", "\n" + "\n".join(anss)) # anss = re.sub(r'(\n【@([1-9]|[1-4][0-9])､.+?\s+)$([1-9]|[1-4][0-9])$\s*[.．、､]?', r"\1【@\3､", anss) # anss = anss.replace("【@", "").split("\n")[1:] # # # --------- 一行多个答案的情况----存在一行中有选择题和填空题答案，填空题答案尽量每题占一行---------- # all_item_ans = [] # table_ans = [] # ans_no = [] # while anss and "table" in anss[0]: # 答案以表格形式呈现, 表格应放在前两行位置，不要插在答案中间 # row_list = [] # 要求表格形式为横纵分明，不存在合并 # for tt in re.finditer('(((?!()).)*)', anss[0], re.S): # 先划分每行 # tt_list = re.split(r'

|||', tt.group(1)) # 再划分每列 # # row_list.append([col for col in tt_list if col.strip()]) # 也有可能答案为空 # row_list.append(tt_list) # if row_list: # print("^^^^^^存在答案放在表格里的情况！^^^^^^^") # if len(row_list) % 2 != 0: # print('表格形式呈现的答案不是偶数行') # else: # # print("row_list:", row_list) # for k, v in enumerate(row_list): # # print('-----',v) # if (k + 1) % 2 == 1: # 奇数行==》答案序号行 # item_no = [int(i) if re.sub(r"[^\d]", "", i) else -1 for i in v] # item_no_st = [num for num, i in enumerate(item_no) if i != -1] # 可能开头是-1 # ans_no.extend([i for i in item_no if i != -1]) # 表格序号 # table_ans.extend(row_list[k + 1][item_no_st[0]: item_no_st[-1] + 1]) # 表格答案 # anss = anss[1:] # # 先按一行没有多个题答案的情况取答案 # anss_str = table_label_cleal("\n" + "\n".join(anss)) # if re.search(".+?
", anss_str) is None: # anss_str = anss_str.split("")[-1].replace("", "") # anss_str = re.sub(r"([A-H])\s*[.．](\s*([1-4][0-9]|[1-9])\s*[.．、､])", r"\1 \2", anss_str) # anss_str = re.sub(r"([；;])(\s*([1-4][0-9]|[1-9])\s*[．、､])", r"\1 \2", anss_str) # # rest_item_split = re.split(r'\n+\s*[1-4][0-9]\s*[.．、､]|\n+\s*[1-9]\s*[.．、､]', anss_str) # if not rest_item_split[0]: # rest_item_split = rest_item_split[1:] # all_item_ans.extend(table_ans) # all_item_ans.extend(rest_item_split) # print("表格答案：", table_ans) # pprint(all_item_ans) # # ------------先按没有一行多个答案的情况------------------- # if item_type_classify and len(all_item_ans) == sum(list(item_type_classify.values())): # res1 = [] # for num1, one_ans in enumerate(all_item_ans): # parse = only_parse_split(one_ans, item_res[num1]["item_topic_name"], item_res[num1]['content']) # res1.append(parse) # return res1, 1 # elif not item_type_classify and len(all_item_ans) == len(item_res): # res1 = [] # for num1, one_ans in enumerate(all_item_ans): # parse = only_parse_split(one_ans, item_res[num1]["item_topic_name"], item_res[num1]['content']) # res1.append(parse) # return res1, 1 # else: # 答案个数与题目不一致时,再按一行多个答案处理(题目个数正常，答案个数比题目少时) # print('-----存在一行多个答案的情况-----') # all_item_ans = [] # all_item_ans.extend(table_ans) # # 再按一行多个答案的情况取答案 # manyans_oneline_split = re.split(r'\n\s*[1-4][0-9]\s*[.．、､]|\n\s*[1-9]\s*[.．、､]' # r'|(? len(row_ans): # ans_no.extend(list(range(temp_no[0]-len(row_ans), temp_no[0]))) # ans_no.extend(temp_no) # else: # print("答案序号有问题！！") # ans_no.extend(['']*len(row_ans)) # ans_no.extend(temp_no) # # print("manyans_oneline_split:************") # # pprint(manyans_oneline_split) # print("ans_no:", ans_no) # all_item_ans.extend(manyans_oneline_split) # combine_res = stem_ans_struc_combine(item_type_classify, item_res, all_item_ans, ans_no, group) # # if not combine_res: # # return '答案数量与题干数量不一致，请检查题干和答案中的题号,是否有遗漏答案或答案格式不对；' \ # # '答案中若存在一行多个答案时，保证每个题的答案间要留有多个空格！', 2 # # return combine_res # def stem_ans_struc_combine(item_type_classify, item_res, all_item_ans, ans_no, group): # """ # 题干结构化与答案结构化的合并 # :return: # """ # print("item_type_classify:", item_type_classify) # print("题干中的题目数量：", len(item_res)) # print("答案中的题目数量：", len(all_item_ans)) # if item_type_classify and len(all_item_ans) == sum(list(item_type_classify.values())): # res1 = [] # for num1, one_ans in enumerate(all_item_ans): # parse = only_parse_split(one_ans, item_res[num1]["item_topic_name"], item_res[num1]['content']) # res1.append(parse) # return res1, 1 # elif not item_type_classify and len(all_item_ans) == len(item_res): # res1 = [] # for num1, one_ans in enumerate(all_item_ans): # parse = only_parse_split(one_ans, item_res[num1]["item_topic_name"], item_res[num1]['content']) # res1.append(parse) # return res1, 1 # else: # print('答案数量与题干数量不一致，请检查题干和答案中的题号,是否有遗漏答案或答案格式不对；', # '答案中若存在一行多个答案时，保证每个题的答案间要留有多个空格！', 2) # print("试题个数：", len(item_res)) # print("答案中的题号：", ans_no) # # ----------------------是否正确对上序号还需进一步验证！！！！！！！！！！------------------------------- # res1 = []; simp_res = [] # err_n = 0 # 与题目id没对上号的个数，默认答案一般也是从前往后排序 # for k, one_item in enumerate(item_res): # 以题目为主 # search_range = ans_no # if k+3-err_n <= len(ans_no): # search_range = ans_no[k-err_n:k+3-err_n] # elif k-err_n < len(ans_no): # search_range = ans_no[k-err_n:] # # print("答案的搜索范围search_range:",search_range) # if one_item['item_id'] in search_range: # 在对应位置前 # ans_no_st = [k1+k-err_n for k1, v1 in enumerate(search_range) if v1 == one_item['item_id']] # 默认取第一个作为对应答案 # # print("答案的位置{0}：{1}, ----对应题目id:{2}".format(ans_no_st, all_item_ans[ans_no_st[0]],one_item['item_id'])) # parse = only_parse_split(all_item_ans[ans_no_st[0]], one_item["item_topic_name"], one_item['content']) # one_item['answer'] = parse['answer'] # one_item['parse'] = parse['parse'] # res1.append(one_item) # if group == 'group_ans': # simp_res.append({'parse': "", 'answer': parse['answer'],'item_id':one_item['item_id']}) # if group == 'group_parse': # simp_res.append({'parse': parse['parse'], 'answer': parse['answer'],'item_id':one_item['item_id']}) # else: # err_n += 1 # one_item.update({'parse': "", 'answer': ""}) # res1.append(one_item) # if group: # simp_res.append({'parse': '', 'answer': '', 'item_id': one_item['item_id']}) # if simp_res: # return simp_res, 1 # # return res1, 2 # def one2more_ans_split(item_list, item_type): # """ # 对一行多个答案的情况进行拆分 # :return: # """ # manyans_oneline_split = [] # while item_list and \ # len(re.findall(r"(^|\s+)[1-9][0-9]?\s*[.．、､]\s*(【答案】|答案\s*[：:]?)?\s*[A-D]", item_list[0])) > 1: # print('选择题存在一行多个答案的情况！！！') # 主要以选择题的为主 # # # 处理 1.xxx 2.xxx 3.xxx # ans_line1 = item_list[0] # if not item_type or item_type.replace("题", "") in ["单选", "多选", "选择", "单项选择", "多项选择"]: # ans_line1 = re.sub(r"[^A-D\d.．、､()]", "", item_list[0]) # # if re.match(r"[1-9][0-9]?[.．、､][A-D]", ans_line1): # 第一个答案为选择题的情况 # one_ans_split = re.split(r'^\s*[1-9][0-9]?\s*[.．、､]|\s+[1-9][0-9]?\s*[.．、､]', item_list[0]) # if not one_ans_split[0]: # one_ans_split = one_ans_split[1:] # manyans_oneline_split.extend(one_ans_split) # else: # 第一个答案为非选择题或没有序号的情况 # one_ans_split = re.split(r'^\s*[1-9][0-9]?\s*[.．、､]|\s+[1-9][0-9]?\s*[.．、､]', item_list[0]) # if not one_ans_split[0]: # one_ans_split = one_ans_split[1:] # if manyans_oneline_split and not manyans_oneline_split[-1]: # 序号和答案跨行的情况 # manyans_oneline_split[-1] = one_ans_split[0] # manyans_oneline_split.extend(one_ans_split[1:]) # else: # manyans_oneline_split.extend(one_ans_split) # item_list = item_list[1:] # # if item_list: # # ans_line1 = re.sub(r"[^A-D\d.．、､]", "", item_list[0]) # # if manyans_oneline_split and not manyans_oneline_split[-1]: # print('答案要求：题目序号不在行首时不要与该题答案跨行') # # # 填空题答案也可能一行多个 # if item_type == '填空题': # 在题干题型明确时 # one_type_ans_split = re.split(r'\n\s*[1-9][0-9]?\s*[.．、､]|(?\s*$', item_parse): # item_parse = re.sub('\n\s*\s*$', "", item_parse) # item_ans = "" # if item_type.replace("题", "") in ["单选", "多选", "选择", "单项选择", "多项选择"]: # ans = re.search(r'故选\s*[：:]?\s*' # r'|故选\s*[：:]?\s*([A-Z;；和与、､\s]+)', item_parse.replace("$", "")) # if ans: # item_ans = ans.group(1) if ans.group(1) is not None else ans.group(2) # item_ans = re.sub(r"[.;；．]\s*$", "", item_ans) # elif not ans: # item_ans = "见解析" # elif item_type: # ans0 = re.search(r'故选\s*[：:]?\s*([A-Z;；和与、､\s]+)[.．；;。]?$', item_parse) # 试验题中可能还有选择题 # ans01 = re.search(r'故选\s*[：:]\s*', item_parse) # 选择题的题型可能前面分错 # ans1 = re.search(r'(故|因[而此]|所以)\s*[：:]?\s*(答案分?别?[为是填]?|填)\s*[：:]?\s*(((?!()[.．]?\s*(\n|$)', item_parse, re.S) # ans22 = re.search(r'(故|因[而此]|所以)\s*[：:]?\s*(答案分?别?[为是填]?|填)\s*[：:]?\s*([^∴∵因所故即【】]+?)([.．]\s*(\n|$)|$)', item_parse) # ans21 = re.search(r'综上所述\s*[：:]\s*([^∴∵故因所即【】]+?)[.．；;]\s*$', item_parse) # ans3 = re.search(r'(故|因[而此]|所以|∴)\s*[：:]?.+?[为是填]\s*[：:]?\s*([^∴∵故因所即【】]+?)([.．；;，,]\s*$|[.．]\s*\n)', item_parse) # ans31 = re.search(r'(故|因[而此]|所以|∴)\s*([^当为是填∴∵故因所即则【】]+?)[.．；;]\s*$', item_parse) # ans32 = re.search(r'(故|因[而此]|所以)\s*[：:]?[^当为是填∴∵故因所即【】]+?[为是填]\s*[：:]?\s*()[.．]?\s*(\n|$)', # item_parse, re.S) # ans4 = re.search(r'\n\s*[＝=]([^＝\n]+?)[.．]?\s*$', item_parse) # ans42 = re.search(r'[＝=](?!")(((?!([故＝∴即]|原式|因[而此]|所以|\n|=[^"])).)+?)[.．]?\s*$', item_parse) # ans41 = re.search(r'原式\s*[＝=].+?[＝=](?!")(((?!(＝|=[^"])).)+?|\s*)([.．]?\s*$|[.．]\s*\n)', item_parse) # if not (item_type == '填空题' and len(re.findall(r"_{2,}|_+([^_]*?)_+", res_con)) == 1) and \ # len(re.findall(r"[（(]\d[)）]|[\n:：;；。】]([（(](i{1,3}|[ⅰⅱⅲⅳⅠⅡⅢIV①②③④])[)）]|[①②③④]\s*(?![+-]))", # item_parse.replace(" ", ""))) > 1 or "证明" in item_parse: # item_ans = "见解析" # elif ans0: # item_ans = ans0.group(1) # elif ans01: # item_ans = ans01.group(1) # elif ans1 or ans11: # item_ans = ans1.group(3) if ans1 else ans11.group(2) # elif ans2: # item_ans = ans2.group(3) # elif ans22: # item_ans = ans22.group(3) # elif ans21: # item_ans = ans21.group(1) # elif (ans3 or ans31 or ans32) and '证明' not in item_parse: # if ans3: # item_ans = ans3.group(2) # if ans31: # item_ans = ans31.group(2) # if ans32: # item_ans = ans32.group(2) # elif (ans4 or ans41 or ans42) and '证明' not in item_parse: # if ans4: # item_ans = ans4.group(1) # if ans41: # item_ans = ans41.group(1) # if ans42: # item_ans = ans42.group(1) # else: # item_ans = "见解析" # return item_ans # def con_ans_split(one_item_list, item_topic_name, topic_no): # """ # 将传进来的单道题（含答案或解析）按题干、答案、解析拆分 # :param one_item_list: [str,str,str] 每个元素为一行数据, ocr一行行识别, 保留每行数据;如果是word,直接用wordbin拿到html格式进行解析 # :param item_topic_name:题型 # :param topic_no:题号 # :return: one_item:{"content":xxxx,"answer":xxx,"parse":xxx} # """ # pattern1 = re.compile(r"【(.*?)\s+(.*?)】|【(.*?)(.*?)】") # con0 = re.sub(r"】[:：]", "】", "#&#".join(one_item_list)) # 是否换行后面再考虑 # con0 = re.sub(r"\[来源.*?\]", "", con0).replace("\xa0", " ").replace("\u3000", " ") # while re.search(pattern1, con0): # con0 = re.sub(pattern1, r"【\1\2】", con0) # 去掉【】中的图片和空格 # # big_struc_dict = {"item_topic_name": item_topic_name, "topic_no": topic_no} # if re.search("【(答案|[解分][析答]|详解)】", con0): # label = re.findall("【(答案|[解分][析答]|详解|点[评睛])】", con0) # label_split = re.split(r"【答案】|【[解分][析答]】|【详解】|【点[评睛]】", con0) # big_struc_dict1 = dict(zip(label, label_split[1:])) # big_struc_dict1['con'] = label_split[0] # # 将键值为空的键删掉 # big_struc_dict.update({k: v for k, v in big_struc_dict1.items() if v.replace("#&#", "").strip() != ""}) # else: # big_struc_dict['con'] = con0 # # return big_struc_dict if __name__ == '__main__': # oneitem = {'content': '7．化简÷的结果是（\u3000\u3000）\n' # 'A．B．C．D．\n'} # res = one_item_parse(oneitem, '单选题') # oneitem = ["1．下列说法正确的是（　　）","A．射线是高速运动的电子流","B．氢原子可通过吸收光子实现从低能级向高能级跃迁", # "C．太阳辐射能量的主要来源是太阳内部发生的重核裂变","D．的半衰期是3.8天，1克经过7.6天后全部发生衰变", # "【答案】B","【解析】","【分析】","【详解】","A．γ射线是电磁波，故A错误；","B．按照波尔理论，氢原子吸收光子后，将从低能级向高能级跃迁，故B正确;", # "C．太阳辐射能量的主要来源是太阳中发生的轻核聚变，故C错误；","D．的半衰期是3.8天，7.6天是2个半衰期，根据可知，有发生衰", # "变，还剩下克没有衰变，故D错误。","故选B。"] # num = 1 # item_type = '选择题' # res = con_ans_split(oneitem, item_type, num) # pprint(res) one_ans = '故答案为：3．\n' parse = only_parse_split(one_ans, "填空题") print(parse) # a = dict(zip(["2","2","3"], [2,4,6])) # print(a) con = '【分析】首先根据分式值为零的条件，可得；然后根据因式分解法解一元二次方程的步骤，求出x的值为多少即可．\n【解答】解：∵分式的值为0，\n

∴\n

解得x=3，\n

即x的值为3．\n

故答案为：3．\n【点评】（1）此题主要考查了分式值为零的条件' con = re.search(r'(故|因[而此]|所以)\s*[：:]?\s*(答案分?别?[为是填]?|填)\s*[：:]?\s*(((?!(