cross-modal

Analyze the unstructured data with Towhee, such as reverse image search, reverse video search, audio classification, question and answer systems, molecular search, etc.

nlp machine-learning embeddings image-classification cross-modal audio-classification video-tagging

Updated Feb 9, 2024
Jupyter Notebook

krantiparida / awesome-audio-visual

Star

A curated list of different papers and datasets in various areas of audio-visual processing

awesome localization awesome-list cross-modal source-separation audio-visual mutli-modal

Updated Jan 30, 2024

roboflow / multimodal-maestro

Star

Effective prompting for Large Multimodal Models like GPT-4 Vision, LLaVA or CogVLM. 🔥

object-detection cross-modal multimodality instance-segmentation lmm gpt-4 visual-prompting prompt-engineering vision-language-model llava segment-anything gpt-4-vision

Updated Feb 13, 2024
Python

caoyue10 / aaai17-cdq

Star

The implementation of AAAI-17 paper "Collective Deep Quantization of Efficient Cross-modal Retrieval"

deep-learning cross-modal quantization similarity-search

Updated Mar 15, 2017
Python

yisun98 / SOLC

Star

Remote Sensing Sar-Optical Land-use Classfication Pytorch Pytorch高分辨率遥感语义分割/地物分割/地物分类

pytorch remote-sensing segmentation cross-modal multi-modal multi-source deeplabv3 land-use-classification oa-kappa sar-optical

Updated May 6, 2024
Python

Zengyi-Qin / Weakly-Supervised-3D-Object-Detection

Star

Weakly Supervised 3D Object Detection from Point Clouds (VS3D), ACM MM 2020

tensorflow point-cloud lidar stereo transfer-learning cross-modal unsupervised-learning object-proposals kitti monocular 3d-object-detection weakly-supervised-detection ws3d vs3d acm-mm-2020 unsupervised-object-detection

Updated Mar 24, 2023
Jupyter Notebook

rohitrango / objects-that-sound

Star

Unofficial Implementation of Google Deepmind's paper `Objects that Sound`

machine-learning deep-neural-networks deep-learning embeddings deeplearning deepmind cross-modal audio-video audioset

Updated May 7, 2018
Python

JizhiziLi / RIM

Star

[CVPR 2023] Referring Image Matting

image-segmentation cross-modal matting multimodal image-matting

Updated Apr 17, 2023

kywen1119 / DSRAN

Star

Code for journal paper "Learning Dual Semantic Relations with Graph Attention for Image-Text Matching", TCSVT, 2020.

computer-vision pytorch cross-modal tcsvt image-text-matching

Updated Oct 25, 2022
Python

DRSY / MoTIS

Star

[NAACL 2022]Mobile Text-to-Image search powered by multimodal semantic representation models(e.g., OpenAI's CLIP)

naacl ai retrieval lsh ios-swift image-search k-means cross-modal clip knn semantic-search knowledge-distillation k-means-clustering random-projection vector-search

Updated May 11, 2023
Swift

GT-RIPL / Xmodal-Ctx

Star

Official PyTorch implementation of our CVPR 2022 paper: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

image-captioning cross-modal clip vision-and-language