回答

收藏

PDf转md

工具 工具 121 人阅读 | 0 人回复 | 2025-09-28

微软的新出的markitdown。
github.com/microsoft/markitdown

pdf转md有奇效,Adobe Acrobat DC转不出来文字的pdf。它可以秒出文本。

方便提取文字,

适合那些不是ocr的方案。纯图片要ocr的它也没办法。

以前我用PyMuPDF(fitz),总感觉不够直接

  1. import os
  2. from markitdown import MarkItDown

  3. def convert_pdfs_to_markdown(directory):
  4.     # 创建MarkItDown对象
  5.     markitdown = MarkItDown()

  6.     # 检查目录是否存在
  7.     if not os.path.isdir(directory):
  8.         print(f"错误:目录 {directory} 不存在。")
  9.         return

  10.     # 遍历目录中的所有文件
  11.     for filename in os.listdir(directory):
  12.         if filename.endswith(".pdf"):
  13.             pdf_path = os.path.join(directory, filename)
  14.             markdown_filename = os.path.splitext(filename)[0] + ".md"
  15.             markdown_path = os.path.join(directory, markdown_filename)

  16.             # 打印操作提示
  17.             print(f"正在转换文件:{pdf_path}")
  18.             print(f"Markdown文件将保存为:{markdown_path}")

  19.             # 使用markitdown转换PDF到Markdown
  20.             try:
  21.                 result = markitdown.convert(pdf_path)
  22.                 with open(markdown_path, 'w', encoding='utf-8') as md_file:
  23.                     md_file.write(result.text_content)
  24.                 print(f"转换成功:{markdown_path}")
  25.             except Exception as e:
  26.                 print(f"转换失败:{e}")

  27.     print("所有PDF文件转换完成。")

  28. # 用户输入PDF文件目录
  29. pdf_directory = input("请输入PDF文件所在的目录:")
  30. convert_pdfs_to_markdown(pdf_directory)
复制代码







分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

143 积分
25 主题
热门推荐