Spaces:

OnurKerimoglu
/

rag_chat

Running

App Files Files Community

OnurKerimoglu commited on Nov 16, 2024

Commit

15895e5

1 Parent(s): 848c55f

added notebooks/similarity_search_with_chromadb.ipynb

Browse files

Files changed (1) hide show

notebooks/similarity_search_with_chromadb.ipynb +166 -0

notebooks/similarity_search_with_chromadb.ipynb ADDED Viewed

	@@ -0,0 +1,166 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os, sys\n",
+    "from langchain_community.embeddings import HuggingFaceEmbeddings\n",
+    "import langchain\n",
+    "from langchain.document_loaders import PyPDFLoader\n",
+    "from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter\n",
+    "from langchain_community.vectorstores import Chroma\n",
+    "import shutil"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Settings\n",
+    "doc_fname = \"../docs/The hundred-page machine learning book.pdf\"\n",
+    "persist_directory = '../docs/chroma/'\n",
+    "collection_name = '100p_ML_book'\n",
+    "create_new_db = False\n",
+    "\n",
+    "chunk_size =1000\n",
+    "chunk_overlap = 200\n",
+    "embedding = HuggingFaceEmbeddings()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "if create_new_db:\n",
+    "    loader = PyPDFLoader(doc_fname)\n",
+    "    pages = loader.load()\n",
+    "\n",
+    "    r_text_splitter = RecursiveCharacterTextSplitter(\n",
+    "        # separators=['\\n'],\n",
+    "        # separators=[\"\\n\\n\"], #, \"\\n\", \"(?<=\\. )\"], # , \" \", \"\"],\n",
+    "        # separators=[\"(?<=\\. )\"], # , \" \", \"\"],\n",
+    "        chunk_size=chunk_size,\n",
+    "        chunk_overlap=chunk_overlap,\n",
+    "        #length_function=len\n",
+    "    )\n",
+    "    splits = r_text_splitter.split_documents(pages)\n",
+    "    print(splits[1])\n",
+    "    print(f\"len(pages): {len(pages)}, len(splits) = {len(splits)}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "if create_new_db:\n",
+    "    #!rm -rf ./docs/chroma\n",
+    "    shutil.rmtree(persist_directory, ignore_errors=True)\n",
+    "    vectordb = Chroma.from_documents(\n",
+    "        documents=splits,\n",
+    "        embedding=embedding,\n",
+    "        persist_directory=persist_directory,\n",
+    "        collection_name=collection_name\n",
+    "    )\n",
+    "    # vectordb.persist()\n",
+    "else:\n",
+    "    vectordb = Chroma(\n",
+    "        collection_name=collection_name,\n",
+    "        persist_directory=persist_directory,\n",
+    "        embedding_function=embedding\n",
+    "    )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(vectordb._collection.count())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Similarity Search"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "question = \"How does multi-label classification work?\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "docs = vectordb.similarity_search(question,k=3)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "len(docs)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "docs[0].page_content"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for doc in docs:\n",
+    "    print(doc.metadata)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "langchain_311",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.1"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}