向量資料庫完全指南：AI 時代的知識儲存革命

luk 收錄於 Artificial-Intelligence

2025-01-16 約 900 字預計閱讀 5 分鐘

為什麼 AI 需要「向量」？

想像你要在圖書館找書，傳統方式是看書名和關鍵字。但如果你想找「跟這本書意思相近的其他書」呢？

這時候，你需要一個能理解「意義」而非只看「文字」的系統。向量（Vector） 就是讓機器理解「意義」的關鍵技術。

本文將帶你從零理解：

什麼是向量？為什麼文字可以變成數字？
向量資料庫與傳統資料庫有何不同？
如何在實際專案中使用向量資料庫？

🎯 什麼是向量（Embedding）？

核心概念：用數字表示意義

向量是一串數字，用來表示文字、圖片、音訊等資料的語義資訊。

# 文字轉向量的例子
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

text1 = "Django 是網頁框架"
vector1 = model.encode(text1)
# 輸出：[0.23, -0.45, 0.67, 0.12, -0.89, ...] (384 維)

text2 = "Flask 是網頁框架"
vector2 = model.encode(text2)
# 輸出：[0.25, -0.43, 0.69, 0.10, -0.91, ...] (384 維)

text3 = "貓很可愛"
vector3 = model.encode(text3)
# 輸出：[-0.12, 0.87, -0.34, 0.56, 0.23, ...] (384 維)

視覺化理解：意義的地圖

雖然實際向量有數百維，但我們可以用 2D 圖來理解：

           貓 ●
             │
       狗 ●──┤   都是寵物
             │   距離近
          兔子 ●


                    ● Django
                   ╱
        網頁框架 ●
                   ╲
                    ● Flask
                    
                    
                    
                              ● 汽車（距離遠）

關鍵洞察：

相似的概念 → 向量在空間中靠得近
不相關的概念 → 向量在空間中離得遠

向量的神奇特性

1. 語義相似度

from sklearn.metrics.pairwise import cosine_similarity

# 計算相似度
similarity_12 = cosine_similarity([vector1], [vector2])[0][0]
similarity_13 = cosine_similarity([vector1], [vector3])[0][0]

print(f"Django vs Flask: {similarity_12:.3f}")  # 0.89（很相似）
print(f"Django vs 貓: {similarity_13:.3f}")     # 0.12（不相似）

2. 向量運算

向量還能做數學運算，產生語義上的類比：

# 著名的例子
國王 - 男人 + 女人 ≈ 皇后

# 實際應用
vector("Python") - vector("程式語言") + vector("飲料") ≈ vector("咖啡")

🗄️ 向量資料庫 vs 傳統資料庫

傳統資料庫：精確匹配

-- MySQL 查詢
SELECT * FROM articles 
WHERE title LIKE '%Django%';

特點：

✅ 精確、快速
❌ 無法理解語義
❌ 找不到同義詞（「Django」≠「網頁框架」）

向量資料庫：語義搜尋

# 向量資料庫查詢
query = "如何做網站"
query_vector = encoder.encode(query)

results = vector_db.search(
    query_vector=query_vector,
    top_k=5
)
# 返回最相似的 5 個結果
# 可能包含：「Django 教學」、「網頁開發入門」、「前端框架」

特點：

✅ 理解語義
✅ 找到相關內容（即使關鍵字不同）
✅ 支援多語言（中文查詢找到英文結果）
⚠️ 近似搜尋（非絕對精確）

📐 向量資料庫的核心技術

1. 相似度計算

向量資料庫的核心是計算兩個向量的距離。

餘弦相似度（Cosine Similarity）

最常用的方法，計算兩個向量的夾角：

import numpy as np

def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    return dot_product / (norm1 * norm2)

# 值域：-1 到 1
# 1 = 完全相同
# 0 = 無關
# -1 = 完全相反

歐幾里得距離（Euclidean Distance）

直接計算空間中的直線距離：

def euclidean_distance(vec1, vec2):
    return np.sqrt(np.sum((vec1 - vec2) ** 2))

# 值域：0 到 ∞
# 0 = 完全相同
# 越大 = 越不相似

2. 索引結構：如何快速搜尋？

問題：如果有 1000 萬個向量，如何快速找到最相似的 10 個？

暴力搜尋：逐一比對 1000 萬次 → 太慢！

向量資料庫使用特殊的索引演算法：

HNSW（Hierarchical Navigable Small World）

想像一個多層的高速公路網路：

第 3 層（高速公路）: ●───────●───────● (粗略定位)
                      │       │       │
第 2 層（一般道路）:  ●──●──●──●──●──● (中等精度)
                      │  │  │  │  │  │
第 1 層（小巷）:      ●●●●●●●●●●●●●● (精確定位)

搜尋過程：

從最高層開始（粗略定位）
逐層往下搜尋（逐漸精確）
最底層找到最相似的結果

優勢：

搜尋時間：O(log N)（非常快！）
準確率：95%+
被 Pinecone、Weaviate 等廣泛使用

IVF（Inverted File Index）

將向量空間分成多個「區塊」：

區塊 1: 動物相關 ● ● ●
區塊 2: 食物相關 ● ● ●
區塊 3: 科技相關 ● ● ●
區塊 4: 運動相關 ● ● ●

搜尋過程：

查詢向量 → 判斷屬於哪個區塊
只在該區塊內搜尋（大幅減少比對次數）

優勢：

適合超大規模資料（數億級）
FAISS（Facebook AI）的核心技術

🛠️ 向量資料庫實戰

情境：建立企業文檔問答系統

目標：讓 AI 回答公司內部文件的問題

步驟 1：準備文檔

documents = [
    "Django 是基於 Python 的網頁框架，使用 MVT 架構",
    "使用 pip install django 安裝 Django",
    "python manage.py runserver 啟動開發伺服器",
    "Django ORM 讓你用 Python 操作資料庫",
    "React 是前端 JavaScript 框架"
]

步驟 2：轉換成向量並存入資料庫

import chromadb
from sentence_transformers import SentenceTransformer

# 初始化編碼器
encoder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 初始化向量資料庫
client = chromadb.Client()
collection = client.create_collection("company_docs")

# 編碼並存入
for i, doc in enumerate(documents):
    vector = encoder.encode(doc)
    collection.add(
        ids=[f"doc_{i}"],
        embeddings=[vector.tolist()],
        documents=[doc]
    )

print("✅ 向量資料庫建立完成！")

步驟 3：語義搜尋

# 使用者問題
query = "如何操作資料庫？"
query_vector = encoder.encode(query)

# 搜尋最相關的文檔
results = collection.query(
    query_embeddings=[query_vector.tolist()],
    n_results=3
)

print("📊 搜尋結果：")
for i, doc in enumerate(results['documents'][0]):
    print(f"{i+1}. {doc}")

# 輸出：
# 1. Django ORM 讓你用 Python 操作資料庫 ← 最相關！
# 2. Django 是基於 Python 的網頁框架，使用 MVT 架構
# 3. python manage.py runserver 啟動開發伺服器

神奇之處：

查詢用了「操作資料庫」
文檔用了「ORM」、「Python」、「資料庫」
關鍵字不完全匹配，但語義相關！

步驟 4：結合 LLM 生成答案（RAG）

from openai import OpenAI

client_openai = OpenAI()

# 取得搜尋結果作為上下文
context = "\n".join(results['documents'][0])

# 讓 GPT 根據上下文回答
response = client_openai.chat.completions.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "你是專業的技術助手，請根據提供的文檔回答問題。"},
        {"role": "user", "content": f"參考資料：\n{context}\n\n問題：{query}"}
    ]
)

print("\n🤖 AI 回答：")
print(response.choices[0].message.content)

# 輸出：
# "根據文檔，Django 提供了 ORM（Object-Relational Mapping）功能，
#  讓你可以使用 Python 程式碼來操作資料庫，而不需要直接寫 SQL 語句。"

🏆 主流向量資料庫比較

1. Chroma 🎨

# 特點：輕量、易用、適合新手
import chromadb

client = chromadb.Client()
collection = client.create_collection("my_collection")

優勢：

✅ 完全免費開源
✅ 本地運行，保護隱私
✅ 安裝簡單（pip install chromadb）
✅ 適合小到中型專案（< 100 萬筆）

劣勢：

❌ 效能不如雲端方案
❌ 不適合超大規模

適用場景：個人專案、學習、原型開發

2. Pinecone ☁️

# 特點：雲端、高效能、易擴展
import pinecone

pinecone.init(api_key="your-api-key")
index = pinecone.Index("my-index")

優勢：

✅ 雲端託管，無需維護
✅ 自動擴展（支援數十億向量）
✅ 速度極快
✅ 提供向量管理介面

劣勢：

❌ 需付費（免費層有限制）
❌ 資料在雲端（隱私考量）

適用場景：生產環境、大規模應用、快速迭代

3. Weaviate 🔓

# 特點：開源、功能完整、可自架
import weaviate

client = weaviate.Client("http://localhost:8080")

優勢：

✅ 開源免費
✅ 功能豐富（支援多模態、GraphQL）
✅ 可自架或使用雲端
✅ 效能優秀

劣勢：

❌ 學習曲線較陡
❌ 自架需要運維知識

適用場景：企業級應用、需要完全控制、複雜查詢需求

4. FAISS ⚡

# 特點：Meta 開源、極致效能
import faiss

index = faiss.IndexFlatL2(384)  # 384 維向量

優勢：

✅ 完全免費開源
✅ 速度最快（C++ 實作）
✅ 支援 GPU 加速
✅ 適合超大規模（數十億向量）

劣勢：

❌ 只是演算法庫，不是完整資料庫
❌ 需要自己處理持久化、分散式等

適用場景：研究、效能極致要求、客製化系統

5. Milvus 🚀

# 特點：雲原生、可擴展、生產級
from pymilvus import connections, Collection

connections.connect("default", host="localhost", port="19530")

優勢：

✅ 開源免費
✅ 支援分散式部署
✅ 雲原生架構
✅ 效能強大

劣勢：

❌ 架設相對複雜
❌ 需要較多系統資源

適用場景：大型企業、高並發、數億級資料

📊 選擇指南

快速決策樹

Q: 資料量多大？
├─ < 10 萬 → Chroma（本地即可）
├─ 10 萬 ~ 100 萬 → Chroma 或 Weaviate
├─ 100 萬 ~ 1000 萬 → Pinecone 或 Weaviate
└─ > 1000 萬 → Milvus 或 FAISS

Q: 預算如何？
├─ 免費 → Chroma, FAISS, Weaviate (自架)
├─ 小預算 → Pinecone (免費層 → 付費)
└─ 充足 → Pinecone, Weaviate Cloud

Q: 技術能力？
├─ 新手 → Chroma, Pinecone
├─ 中級 → Weaviate
└─ 高級 → FAISS, Milvus（客製化）

Q: 隱私需求？
├─ 必須本地 → Chroma, FAISS, Weaviate (自架)
└─ 可接受雲端 → Pinecone, Weaviate Cloud

實際建議

學習/原型開發

pip install chromadb
# 5 分鐘內開始使用

小型生產專案

# Pinecone（簡單）或 Weaviate（開源）

大型企業應用

# Milvus（自架）或 Pinecone（雲端）

🔮 進階主題

1. 混合搜尋（Hybrid Search）

結合向量搜尋（語義）和關鍵字搜尋（精確）：

# Weaviate 範例
results = client.query.get("Article", ["title", "content"]).with_hybrid(
    query="Django 教學",
    alpha=0.7  # 0.7 語義 + 0.3 關鍵字
).do()

2. 向量壓縮

減少儲存空間和加速搜尋：

# 量化（Quantization）
# 原本：32-bit 浮點數（4 bytes）
# 壓縮：8-bit 整數（1 byte）
# 空間減少 75%，速度提升 2-4 倍

3. 多模態向量

同時處理文字、圖片、音訊：

from transformers import CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")

# 文字和圖片使用同一向量空間
text_vector = model.encode_text("一隻貓")
image_vector = model.encode_image(cat_image)

# 可以用文字搜尋圖片！
similarity = cosine_similarity(text_vector, image_vector)

🏁 總結

向量資料庫的核心價值

傳統資料庫	向量資料庫
精確匹配	語義理解
關鍵字搜尋	相似度搜尋
無法處理同義詞	自動理解相關概念
單語言	跨語言
`SELECT WHERE`	`FIND SIMILAR`

關鍵要點

向量 = 意義的數字表示
- 讓機器能「理解」而非只是「匹配」
向量資料庫 = AI 時代的搜尋引擎
- RAG 系統的核心基礎設施
- 從關鍵字時代邁向語義時代
選擇建議
- 新手：Chroma
- 生產：Pinecone 或 Weaviate
- 大規模：Milvus 或 FAISS
未來趨勢
- 多模態整合（文字+圖片+音訊）
- 更高效的壓縮演算法
- 邊緣裝置上的向量搜尋