Merge pull request #1 from ExtReMLapin/patch-2

ExtReMLapin · web-flow · commit 61b0ae99efd6 · 2025-09-23T11:28:51.000+02:00
Allow markdown serializer to inline OCR text instead of images placeh…
diff --git a/docling_core/transforms/serializer/markdown.py b/docling_core/transforms/serializer/markdown.py
@@ -421,6 +421,7 @@ def _serialize_image_part(
         doc: DoclingDocument,
         image_mode: ImageRefMode,
         image_placeholder: str,
+        image_join_text: str = "\n",
         **kwargs: Any,
     ) -> SerializationResult:
         error_response = (
@@ -457,6 +458,12 @@ def _serialize_image_part(
                 text_res = image_placeholder
             else:
                 text_res = f"![Image]({str(item.image.uri)})"
+        elif image_mode == ImageRefMode.INLINE:
+            total_text = []
+            for item, level in doc.iterate_items(root=item, traverse_pictures=True):
+                if isinstance(item, TextItem):
+                    total_text.append(item.text)
+            text_res = image_join_text.join(total_text) if total_text else image_placeholder
         else:
             text_res = image_placeholder