no-time99 d931143ae4 get word 4 vuotta sitten
..
Readme.md d931143ae4 get word 4 vuotta sitten
config.py d931143ae4 get word 4 vuotta sitten
correct.py d931143ae4 get word 4 vuotta sitten
filepath2text.py d931143ae4 get word 4 vuotta sitten
img2text.py d931143ae4 get word 4 vuotta sitten
pdf2text.py d931143ae4 get word 4 vuotta sitten
ppt2text.py d931143ae4 get word 4 vuotta sitten
requirements.txt d931143ae4 get word 4 vuotta sitten
server.py d931143ae4 get word 4 vuotta sitten
toTxt.py d931143ae4 get word 4 vuotta sitten
utils.py d931143ae4 get word 4 vuotta sitten
word2html.py d931143ae4 get word 4 vuotta sitten
word2text.py d931143ae4 get word 4 vuotta sitten

Readme.md

英语word格式试卷内容获取

该程序主要是为了获取word格式内容,由word生成html文件,并清洗html返回文本。

Requirements

  • python3.6
  • office2010+
  • word_bin
  • mathtype
  • bottle
  • requests
  • beautifulsoup4

Project Structure

OCR
|   server.py	#服务启动程序
|   filepath2text #route_filename函数为获取word内容的入口,转为html文件,清洗html格式,

Run

线上服务
python server.py