pdf提取表格內(nèi)容源碼,一個(gè)pdf提取表格內(nèi)容的源碼,由Python語(yǔ)言編寫(xiě),參考文檔為教育部閱讀指導(dǎo)目錄,用戶(hù)可以通過(guò)源碼原理來(lái)制作能提取任意表格內(nèi)容的源碼,下面給出這款pdf提取表格內(nèi)容的源碼資源,有需要的朋友們可以參考學(xué)習(xí)。
源碼程序由論壇用戶(hù)制作分享。
pdf提取表格內(nèi)容源碼功能
一個(gè)從pdf文檔中提取出表格數(shù)據(jù),并另存為excel文件的python程序
pdf提取表格內(nèi)容源碼說(shuō)明
教育部基礎(chǔ)教育課程教材發(fā)展中心首次向全國(guó)中小學(xué)生發(fā)布閱讀指導(dǎo)目錄
http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/202004/t20200422_445605.html
最下面的附件
pdf中按小學(xué)、初中、高中推薦了三套生閱讀指導(dǎo)目錄。
我們根據(jù)頁(yè)碼,來(lái)分別存為3個(gè)EXCEL文件。
源碼一覽
# -*- coding: utf-8 -*-
import pdfplumber
import pandas as pd
pdf = pdfplumber.open("2020.pdf")
full_df = pd.DataFrame()
for i in range(1, 6):
second_page = pdf.pages[i]
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table[1:], columns=table[0])
print(table_df)
full_df = pd.concat([full_df, table_df])
full_df.to_excel('小學(xué)段.xlsx')
full_df = pd.DataFrame()
for i in range(6, 11):
second_page = pdf.pages[i]
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table[1:], columns=table[0])
print(table_df)
full_df = pd.concat([full_df, table_df])
full_df.to_excel('初中段.xlsx')
full_df = pd.DataFrame()
for i in range(11, 15):
second_page = pdf.pages[i]
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table[1:], columns=table[0])
print(table_df)
full_df = pd.concat([full_df, table_df])
full_df.to_excel('高中段.xlsx')