Merge branch 'main' into custom-tools

landing-ai · Apr 23, 2024 · 3aca8c7 · 3aca8c7
2 parents 0f3a55c + cec32f7
commit 3aca8c7
Show file tree

Hide file tree

Showing 4 changed files with 27 additions and 8 deletions.
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "poetry.core.masonry.api"
 
 [tool.poetry]
 name = "vision-agent"
-version = "0.2.1"
+version = "0.2.2"
 description = "Toolset for Vision Agent"
 authors = ["Landing AI <[email protected]>"]
 readme = "README.md"

diff --git a/tests/test_tools.py b/tests/test_tools.py
@@ -36,7 +36,7 @@ def test_clip():
  assert result["scores"] == [1.0]
 
 
-def test_image_caption():
+def test_image_caption() -> None:
  img = Image.fromarray(ski.data.coins())
  result = ImageCaption()(image=img)
- assert result["text"] == ["a black and white photo of a coin"]
+ assert result["text"]
diff --git a/vision_agent/agent/vision_agent.py b/vision_agent/agent/vision_agent.py
@@ -8,7 +8,12 @@
 from PIL import Image
 from tabulate import tabulate
 
-from vision_agent.image_utils import overlay_bboxes, overlay_heat_map, overlay_masks
+from vision_agent.image_utils import (
+ convert_to_b64,
+ overlay_bboxes,
+ overlay_heat_map,
+ overlay_masks,
+)
 from vision_agent.llm import LLM, OpenAILLM
 from vision_agent.lmm import LMM, OpenAILMM
 from vision_agent.tools import TOOLS
@@ -481,6 +486,17 @@ def log_progress(self, description: str) -> None:
  if self.report_progress_callback:
  self.report_progress_callback(description)
 
+ def _report_visualization_via_callback(
+ self, images: Sequence[Union[str, Path]]
+ ) -> None:
+ """This is intended for streaming the visualization images via the callback to the client side."""
+ if self.report_progress_callback:
+ self.report_progress_callback("<VIZ>")
+ if images:
+ for img in images:
+ self.report_progress_callback(f"<IMG>{convert_to_b64(img)}</IMG>")
+ self.report_progress_callback("</VIZ>")
+
  def chat_with_workflow(
  self,
  chat: List[Dict[str, str]],
@@ -577,9 +593,12 @@ def chat_with_workflow(
  )
 
  if visualize_output:
- visualized_output = all_tool_results[-1]["visualized_output"]
- for image in visualized_output:
- Image.open(image).show()
+ viz_images: Sequence[Union[str, Path]] = all_tool_results[-1][
+ "visualized_output"
+ ]
+ self._report_visualization_via_callback(viz_images)
+ for img in viz_images:
+ Image.open(img).show()
 
  return final_answer, all_tool_results
 

diff --git a/vision_agent/image_utils.py b/vision_agent/image_utils.py
@@ -108,7 +108,7 @@ def convert_to_b64(data: Union[str, Path, np.ndarray, ImageType]) -> str:
  data = Image.open(data)
  if isinstance(data, Image.Image):
  buffer = BytesIO()
- data.convert("RGB").save(buffer, format="JPEG")
+ data.convert("RGB").save(buffer, format="PNG")
  return base64.b64encode(buffer.getvalue()).decode("utf-8")
  else:
  arr_bytes = data.tobytes()