跳转到主要内容

安装并配置插件

1

安装插件

登录您的 Dify 平台,前往 工具插件市场,搜索 SoMark 插件并添加。
2

配置插件参数

安装完成后进入插件配置页面:
  • Base URL:使用 SoMark API 时填写 https://somark.tech/api/v1; 私有化部署时填写本地部署的 Base URL。
  • API Key:使用 SoMark API 时填写;私有化部署无需填写。
Dify 的插件运行环境需要能够访问您配置的 Base URL。请检查网络、代理和 DNS。不要在 Base URL 后追加具体接口路径,插件会自动调用对应接口。
3

保存配置

填写完成后点击保存,插件即可在工作流中使用。dify-SoMark工具授权配置

在工作流中使用 SoMark 插件

1

添加 SoMark 文档解析工具节点

在 Dify 工作流编辑器中,点击 + 添加新节点,选择工具,找到并添加 SoMark > SoMark 文档解析 节点。dify-添加SoMark工具节点
2

配置输入变量

文件 输入框中点击变量图标 {x},选择上游节点中定义的文件变量(例如开始节点的 sys.files)。 你也可以按需配置其他可选参数(例如 输出格式图片格式表格格式 等);未填写时会使用默认值。不选择 输出格式 时,默认同时输出 MarkdownJSON。具体含义见下方「输入参数」表。 Base URLAPI Key 由插件配置自动注入,此处无需填写。dify-配置输入变量
3

在下游节点引用输出

节点执行完成后,其输出变量可在所有下游节点(LLM、文本分割、代码节点等)中使用。在任意下游节点的输入框中点击 {x},即可选择 SoMark 文档解析节点的输出变量。

插件参数与输出

输入参数

参数类型必填说明
文件文件支持的文件:PDF、PNG、JPG、JPEG、BMP、TIFF、JP2、DIB、PPM、PGM、PBM、GIF、HEIC、HEIF、WEBP、XPM、TGA、DDS、XBM、DOC、DOCX、PPT、PPTX。最大 200 MB / 300 页。
输出格式多选选择一个或多个输出格式。支持:MarkdownJSON。如果不选择,则默认输出 MarkdownJSON
图片格式单选图片输出格式。支持:URLBase64None。默认值:URL
公式格式单选公式输出格式。支持:LaTeXMathMLASCII。默认值:LaTeX
表格格式单选表格输出格式。支持:HTMLMarkdownImage。默认值:HTML。在 Markdown 模式下,合并单元格会被拆分为独立单元格,并填充相同内容。
化学结构式格式单选化学结构式输出格式。支持:Image。默认值:Image
文字跨页拼接True / False将跨页文本合并为连续段落。默认值:False
表格跨页拼接True / False将跨页表格合并为连续表格。默认值:False
标题层级识别True / False识别标题层级结构,例如 H1/H2/H3。默认值:False
返回文中图True / False返回文字段落中的图片。默认值:False
返回表中图True / False返回表格单元格中的图片。默认值:True
图片理解True / False对文档中的图片进行语义理解和结构化描述。默认值:True
保留页眉页脚True / False保留页眉页脚而不是默认过滤掉。默认值:False

输出变量

变量说明
markdown解析后的文档内容(Markdown 格式),保留原始版面结构,包含标题、表格、列表、公式和图片
json_str解析结果的 JSON 字符串,包含文本块、表格、公式、图片、坐标位置和页码等结构化信息,适合在代码节点中解析后做高级处理
textDify 内置变量,本插件不填充
filesDify 内置变量,本插件不填充