Python实现PDF扫描件生成DOCX或EXCEL功能

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

Python实现PDF扫描件生成DOCX或EXCEL功能

　　1。问题描述
　　应项目需求需要获取PDF扫描文件的内容，但寻遍整个网络能达到这种功能的产品，都要会员充值。苦于囊中羞涩也只好编写功能代码来实现了。
　　如PDF中表格图片图1效果生成图2
　　2。实现流程
　　整个步骤为：读取PDF文件生成图片ORC获取图片内容写入Excel
　　3。功能代码3。1pdf转为图片importfitzpdf转为图片fromaipimportAipOcr图片文字识别importtime程序运行时间间隔以避免出错importdocx将识别结果保存为docx文件fromdocx。oxml。nsimportqn设置docx文件的字体你的APPIDAKSKAPPIDxxxxxxAPIKEYxxxxxxxxSECRETKEYxxxxxxxxxxxxxxxxxxxxxxxclientAipOcr（APPID，APIKEY，SECRETKEY）将PDF转化为图片pdfPathpdf文件的路径imgPath图像要保存的路径zoomxx方向的缩放系数zoomyy方向的缩放系数rotationangle旋转角度zoomx和zoomy一般取相同值，值越大，图像分辨率越高返回目标pdf的名称和页数，便于下一步操作defpdfimage（pdfPath，imgPath，zoomx10，zoomy10，rotationangle0）：获取pdf文件名称namepdfPath。split（）〔1〕。split（。pdf）〔0〕打开PDF文件pdffitz。open（pdfPath）获取pdf页数numpdf。pageCount逐页读取PDFforpginrange（0，num）：pagepdf〔pg〕设置缩放和旋转系数transfitz。Matrix（zoomx，zoomy）。preRotate（rotationangle）pmpage。getPixmap（matrixtrans，alphaFalse）开始写图像pm。writePNG（imgPathnamestr（pg）。png）pdf。close（）returnname，num将图片读取为docx文件imgPath图像所在路径生成的docx也保存在图像所在路径中name为pdf名称（不含后缀）num为pdf页数name和num均可由上一个函数返回defReadDetaildocx（imgPath，name，num）：建立一个空doc文档docdocx。Document（）设置全局字体doc。styles〔Normal〕。font。nameu宋体doc。styles〔Normal〕。element。rPr。rFonts。set（qn（w：eastAsia），u宋体）读取图片forninrange（0，num）：iopen（imgPathnamestr（n）。png，rb）time。sleep（0。1）imgi。read（）messageclient。basicAccurate（img）contentmessage。get（wordsresult）将内容写入doc文档foriinrange（len（content））：doc。addparagraph（content〔i〕。get（words））保存doc文档doc。save（imgPathname。docx）defpdftodocx（pdfPath，imgPath，zoomx10，zoomy10，rotationangle0）：print（正在将pdf文件转换为图片。。。）调用函数一将pdf转换为图片，并获得文件名和页数name，numpdfimage（pdfPath，imgPath，zoomx，zoomy，rotationangle）print（转换成功！）print（正在读取图片内容。。。）调用函数二逐页读取图片并逐行保存在docx文件中ReadDetaildocx（imgPath，name，num）print（名为｛｝。pdf的pdf文件共有｛｝页，已成功转换为docx文件！。format（name，num））pdf储存路径pdfpathJRT01972020金融数据安全数据安全分级指南。pdf图片和生成的docx文件的储存路径imgpathrG：imges调用函数pdftodocx（pdfpath，imgpath）3。2表格图片文字识别到excelimportpandasaspdimportnumpyasnpimportre图片识别fromaipimportAipOcr时间模块importtime网页获取importrequests操作系统接口模块importosimagepath获取文件夹中所有图片defgetimage（）：images〔〕存储文件夹内所有文件的路径（包括子目录内的文件）forroot，dirs，filesinos。walk（imagepath）：path〔os。path。join（root，name）fornameinfiles〕images。extend（path）returnimagesdefImageExcel（APPID，APIKEY，SECRETKEY）：调用百度AI接口clientAipOcr（APPID，APIKEY，SECRETKEY）循环遍历文件家中图片imagesgetimage（）forimageinimages：以二进制方式打开图片imgopenopen（image，rb）读取图片imgreadimgopen。read（）调用表格识别模块识别图片tableclient。tableRecognitionAsync（imgread）获取请求IDrequestidtable〔result〕〔0〕〔requestid〕获取表格处理结果resultclient。getTableRecognitionResult（requestid）处理状态是已完成，获取下载地址whileresult〔result〕〔retmsg〕！已完成：time。sleep（2）暂停2秒再刷新resultclient。getTableRecognitionResult（requestid）downloadurlresult〔result〕〔resultdata〕print（downloadurl）获取表格数据exceldatarequests。get（downloadurl）根据图片名字命名表格名称xlsxnameimage。split（。）〔0〕。xlsx新建excel文件xlsxopen（xlsxname，wb）将数据写入excel文件并保存xlsx。write（exceldata。content）ifnamemain：imagepathrG：imgsAPPIDxxxxxxxxAPIKEYxxxxxxxSECRETKEYxxxxxxxxxxxxxxxxxxxxxxImageExcel（APPID，APIKEY，SECRETKEY）4。案例说明
　　我这里是获取JRT01972020金融数据安全数据安全分级指南。pdf扫描文件，将内部表格数据写入到excel文件。

发挥优势实力，新机配置无可挑剔，和同样定位的老机有什么区别？如果说现在的手机行业呈现出持续发展的凶猛态势，那么这种观点只是表面现象，因为如果从深层来看同质化已经渗透到手机行业的每一个角落，无论什么品牌都会做一些轻量级同质化的事情。但是，……郎平携老公与前女排队长惠若琪聚会，染了黄头发，尽显贵妇模样就在昨天，前女排队长惠若琪给大家分享了与郎平一起聚餐的照片，自从郎指导退役以后，很少在公众场合露面，这次惠若琪分享的照片，让大家从另一个角度看到了郎平的状态。……维吾尔族姑娘能和汉族的小伙通婚吗？当地姑娘说出实情虽说我国是多民族国家，但是对于大众来说，空闲的时候走出去看看，了解一下我国的风土人情特色，人文环境。（此处已添加小程序，请到今日头条客户端查看）毕竟对于大众来说，人们的生……ESPN专家团预测新赛季MVP字母哥第一东契奇恩比德随后ESPN专家团近日对新赛季的诸多事情进行了一些预测。注：第一选票5分，第二选票3分，第三选票1分，括号内为第一选票率。常规赛MVP：1、扬尼斯阿德托昆博43分……我感觉我自由了8。1307：17玩了两局联盟手游后，我删除了手机里的所有游戏。下班回到家洗完澡和往常一样躺在沙发上，吹着空调感觉一天的疲惫都烟消云散了。拿起手机熟练的打开了英雄联……仲夏的蒸拌茄子，软糯绵密，清爽解腻，特别适合没有胃口的你家有菜园子，我每天都要摘好几把长豆角，四五个胖茄子。三天下雨两天晒，隔天去菜地，豆角就老了。蒸豆角、烧茄子连续吃了一个月茄子豆角，只有这道蒸拌茄子怎么也吃不腻，最合我心意……女孩们，请记住你的格局越大，身边的破事才会越少余秋雨说：人的格局一大，就不会在生活琐碎里沉沦。我站在一楼有人骂我，我听到很生气。我站在10楼，有人骂我，我听不清，我还以为他在和我打招呼我站30楼，有人骂我……超大屏电视买哪家？看销量就知道现在超大屏电视逐渐成为市场主流，十年前大家买电视时选择的主要是43，50，55这些尺寸，五年前大多是55，65，75，而现在客厅最小都是75吋，很多家庭都换上了85吋、98吋。……没有一定的文化都不敢上厕所所见所得，都很科学阅读文字前，请先关注，必回关。谢谢！现在很多创意饭店或者一些有文化底蕴的旅游景点，都喜欢别出心裁的搞些生僻的文创，让人不明觉厉，自惭文化不够。……飞盘运动爆火出圈，是否蕴含新的服装品类机会？现在年轻人聚会就玩剧本杀？你out了！今天给你安利，当下年轻人中最火的社交运动飞盘！越来越多人开始运动部分同款整理正逢全民健身日，昨天艾瑞咨询发布了《2……什么时间是最佳的测血糖时间？这4个最佳时间点一定要知道前面给大家说了一些测血糖的注意事项，有朋友问到，我应该什么时间测血糖呢？今天就来给大家说一下测血糖的四个最佳时间点吧。首先我们要知道测血糖的意义是什么？通过监测血糖……蜡笔小新我与博士的暑假没有终点的七日之旅已开放Steam页面蜡笔小新我与博士的暑假没有终点的七日之旅已开放Steam页面NintendoSwitch港区售价：316。4页面显示计划发行于2022年8月关于这款游戏由于广……

<<<<<<－>>>>>>

女性初潮一般多少岁？女性初潮年龄如何预测？女性初潮的年龄一般大致差不多，相差不了几岁，那么，女性初潮一般多少岁呢？女性初潮一般是多少女孩子月经初潮年龄一般在1314岁，可早至1112岁。根据个人身体差异来说，大多……衣服上的荧光剂怎么去除荧光剂给身体带来什么负担市场上不合格的荧光剂使用对身体是不好的，很多东西上都会接触到，那么衣服上的荧光剂怎么去除呢，荧光剂给身体带来什么负担呢。衣服上的荧光剂怎么去除衣服上如果染到了荧光剂，建议……荧光剂会被皮肤吸收吗脸上有荧光剂的表现大家都知道荧光剂如果使用不当对身体是有害处的，那么荧光剂会被皮肤吸收吗，脸上有荧光剂的表现是什么呢，下面一起来看看吧。荧光剂会被皮肤吸收吗少量荧光剂一般不会被皮肤吸收的。……伊藤美诚再次出山，日本最高赛事近千人参赛，剑指张本智和的妹妹日本狂徒伊藤美诚再见天日，华裔张本智和在日本受到重用，身兼三项将参加日本的最高赛事，届时会有近千人参赛，但创造历史的却是中国人？日本全锦赛为什么能引起这么大的轰动？是何方神圣超……肠胃不好会引起什么症状？怎样判断自己肠胃不好？肠胃不好是对人有很大影响的，同时有一些并发症，下面5号网的小编为你们介绍肠胃不好会引起什么症状？怎样判断自己肠胃不好？肠胃不好会引起什么症状以下都是肠胃不好的症状，……官宣！中超5年老外援突然解约！放弃1年合同，告别最后1个老东聚焦中超CBA，独一无二球迷媒体点击右上角关注，不会后悔的。。。近日，中超34岁外援艾哈迈多夫在接受采访时流露出退役的想法，没想到短短几天过后就正式告别职业赛场。虽……踩点成为历史第一，赛季结束后波波维奇恐怕会退役马刺从90年代至今都是一支强队，哪怕是没有球星的情况下，还是能够进入季后赛。从邓肯开始，这支球队都少不了波波维奇，而在本赛季，波波将会完成历史第一的冲击。赛季开始前，波波维奇执……日本狮王眼药水怎么样？狮王眼药水好用吗？日本狮王眼药水很迷你的小瓶，第二次购买了，个人戴美瞳用起来很清凉，很舒适。那么日本狮王眼药水怎么样？狮王眼药水好用吗？产品介绍这款产品的长处是特别的滋润，强力推荐给长期在……有几种人要特别当心肺炎？这些人病死率很高现在宝宝一旦感冒，我们最害怕的就是他们得肺炎，而冬天也正是肺炎的高发期。下面5号网小编带大家来看一下有几种人要特别当心肺炎？这些人病死率很高。有几种人要特别当心肺炎一是0……赛前跟圣枪哥五五开，赛后被男枪18，张嘉文峡谷延迟不习惯在英雄联盟这款游戏当中，男枪其实是一个非常强势的点，因为技能机制的原因，不管是在高分段当中还是在低分段当中，都特别的强，尤其是在低分段当中，炸鱼是特别实用，因为男枪这一名英雄的……喝开水兑冷水好不好？开水兑冷水是阴阳水不宜喝吗？很多人喝水的时候，都会用开水兑冷水喝。那么，喝开水兑冷水好不好呢？不宜喝阴阳水现在很多人都用饮水机喝水，冬天，人们为了喝温开水，在饮水机还没烧开的时候就倒着喝，或者接一半……酒精肝会腹泻吗？酒精肝会发烧吗？很多人的酒精肝都是通过体检检查出来的，那么究竟酒精肝的症状是什么呢，下面5号网的小编为你们介绍酒精肝会腹泻吗？酒精肝会发烧吗？酒精肝会腹泻吗酒精性脂肪肝的临床表现与肝脏脂……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网