5分钟快3首页    注册   登录
5分钟快3 = way to explore
5分钟快3 是一个5分钟快3关于 分享和探索的地方
现在注册
已注册用户请  登录
iwukong
5分钟快3  ›  程序员

有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

  •  
  •   iwukong · 11 天前 · 1399 次点击
    有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

    比如披露易里的抓取 pdf 的报表
    第 1 条附言  ·  8 天前
    要在线抓取披露易里的 PDF,然后提取里面数据,然后生成 EXCEL,不要5分钟快3下载 下来的
    20 条回复    2020-08-04 22:03:50 +08:00
    redeemer1001
        1
    redeemer1001   11 天前
    没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
    Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5.
    摘自 http://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26
    shiny
        2
    shiny   11 天前
    做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者5分钟快3关键词 匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有5分钟快3公司 没有把格式写的完完全全一样。
    要是数据项第三方库有,用第三方的更省事,比如 tushare
    ladypxy
        3
    ladypxy   11 天前 via iPhone
    Word 打开 pdf,直接复制到 excel
    jumpshen
        5
    jumpshen   11 天前 via iPhone
    正好也在查这方面的资料
    whileFalse
        6
    whileFalse   11 天前
    OCR 试试?
    0ranger
        7
    0ranger   11 天前 via iPhone
    白描 ocr 据说可以,不过5分钟快3我 没成功
    whi147
        8
    whi147   11 天前 via iPhone
    最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
    whi147
        9
    whi147   11 天前 via iPhone
    还有 wxexcel
    hwlhwlxyz
        10
    hwlhwlxyz   11 天前
    如果不是图片的话,5分钟快3我 用过 tabula,还挺好用的,不知道5分钟快3你 的格式是什么样子的。http://github.com/tabulapdf/tabula
    heguangyu5
        11
    heguangyu5   11 天前 via iPhone
    mupdf +1

    mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用5分钟快3工具 ,做格式转换、文字、图片、字体提取都很好用。
    iwukong
        13
    iwukong   8 天前
    @dayeye2006199 这的花多少钱
    iwukong
        14
    iwukong   8 天前
    @jumpshen 找到了吗
    iwukong
        15
    iwukong   8 天前
    @ladypxy 1 万份咋办
    ladypxy
        16
    ladypxy   8 天前
    @iwukong python 写个程序自动调用 word 啊,网上大把代码
    iwukong
        17
    iwukong   8 天前
    @whi147 成功了吗 那些数据网站如何做的 5分钟快3Win d chioce 理杏仁等
    dayeye2006199
        18
    dayeye2006199   8 天前
    @iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
    whi147
        19
    whi147   8 天前 via iPhone
    @iwukong 工作代码不易公开,成功是肯定成功的,5分钟快3你 就看下5分钟快3我 用的几个库,自己也能摸索出来
    iwukong
        20
    iwukong   7 天前
    @dayeye2006199 关键5分钟快3我 是想要的是
    1.自动抓取网上的
    2.自动入库
    他这个只是每一个一个抓取吧
    5分钟快3关于   ·   FAQ   ·   API   ·   5分钟快35分钟快3我 们 的愿景   ·   广告投放   ·   感谢   ·   实用小5分钟快3工具   ·   2954 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:15 · PVG 20:15 · LAX 05:15 · JFK 08:15
    ♥ Do have faith in what you're doing.