#开源项目 微软开源 MarkItDown 项目,支持将 PDF、办公文档、音频、图像、各种 CSV/JSON/HTML/XML 转换为 Markdown 格式。其用途是开发者可以将各种格式的数据转为 MD 格式方便后续索引和文本分析等。该项目采用 MIT 许可证。查看全文:https://ourl.co/107095

Markdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。

  • PDF
  • PowerPoint / PPTX
  • Excel / XLSX
  • Word / DOCX
  • 图片 / EXIF 元数据和 OCR
  • 音频 / EXIF 元数据和语音转录
  • HTML / 维基百科等的特殊处理
  • 其他基于文本的格式例如 CSV、JSON、XML 等

诸如图片和音频是没法直接转换为文本格式的,在这种情况下借助人工智能就可以很方便的使用了,例如图片使用 EXIF 元数据和 OCR 进行光学识别,音频则可以使用 AI 进行语音转录为文本。

那这个项目有什么用的?其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等,确实有实际使用场景。

该项目采用 MIT 许可证进行开源,有兴趣的开发者们可以在这里获取项目:https://github.com/microsoft/markitdown

可以使用 pip 安装:pip install markitdown

从源头安装:pip install -e .

API 用法也非常简单:

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

也可以使用大型语言模型来描述图像,这种情况下需要提供模型客户端和参数等:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)