Code Embeddings for RAG

A Retrieval-Augmented Generation (RAG) system for analyzing, searching, and fixing code with LLMs.

Overview

This project provides a system to analyze a codebase by:

Parsing Python code files to extract functions, classes, methods, and docstrings
Generating embeddings using sentence transformers
Storing embeddings in Qdrant vector database
Retrieving relevant context for LLM to answer code-related questions

Features

Parse Python files into semantic segments (functions, classes, methods)
Generate embeddings using sentence-transformers
Store embeddings in Qdrant vector database
Search code semantically by natural language
Generate contextual information for LLM prompts
Command-line interface for easy interactions

Requirements

Python 3.8+
Qdrant server (can be run locally or accessed remotely)
Dependencies listed in requirements.txt

Installation

Clone the repository

Create a virtual environment:

python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

Install the requirements:
```
pip install -r requirements.txt
```
Start Qdrant server:
```
docker run -p 6333:6333 qdrant/qdrant
```

Usage

Using the CLI

The demo.py script provides a command-line interface:

# Embed code files or directories
python demo.py embed /path/to/code --force

# Search for relevant code
python demo.py search "how does the custom calculation work?"

# Generate context for LLM
python demo.py context "explain the database initialization"

# Run complete demo
python demo.py demo

Using the library in your code

from app.main import CodeEmbedder

# Initialize with data directory
embedder = CodeEmbedder(data_dir="./data")

# Embed a directory of code
embedder.embed_directory("/path/to/code")

# Search for similar code
results = embedder.search("database initialization", top_k=5)
for code_id, similarity, code_text in results:
    print(f"{code_id}: {similarity}")
    print(code_text)

# Generate context for LLM
context = embedder.get_context_for_llm("how to parse Python code?")

# Get structured query results for programmatic use
structured_results = embedder.query_codebase("how to initialize the database?")

How It Works

Parsing: Python files are parsed using AST (Abstract Syntax Tree) to extract meaningful code segments.
Embeddings: Sentence-transformers (all-MiniLM-L6-v2 by default) creates embeddings for each code segment.
Storage: Embeddings are stored in Qdrant, a vector database optimized for similarity search.
Search: Natural language queries are converted to embeddings and searched by similarity.
Context: Relevant code is formatted into a context string that can be fed to an LLM.

Dependencies

sentence-transformers
numpy
qdrant-client

License

MIT

Name	Name	Last commit message	Last commit date
Latest commit sudipme first commit Mar 1, 2025 a207af6 · Mar 1, 2025 History 1 Commit
app	app	first commit	Mar 1, 2025
test	test	first commit	Mar 1, 2025
.DS_Store	.DS_Store	first commit	Mar 1, 2025
.gitignore	.gitignore	first commit	Mar 1, 2025
.python-version	.python-version	first commit	Mar 1, 2025
README.md	README.md	first commit	Mar 1, 2025
demo.py	demo.py	first commit	Mar 1, 2025
pyproject.toml	pyproject.toml	first commit	Mar 1, 2025
requirements.txt	requirements.txt	first commit	Mar 1, 2025
test_query.py	test_query.py	first commit	Mar 1, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Code Embeddings for RAG

Overview

Features

Requirements

Installation

Usage

Using the CLI

Using the library in your code

How It Works

Dependencies

License

About

Releases

Packages

Languages

sudipme/index_codebase

Folders and files

Latest commit

History

Repository files navigation

Code Embeddings for RAG

Overview

Features

Requirements

Installation

Usage

Using the CLI

Using the library in your code

How It Works

Dependencies

License

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages