Vision AI

從圖片、文件和影片中擷取深入分析資訊

透過 API 使用先進的視覺模型，自動執行視覺類工作、簡化分析程序，並取得可做為行動依據的洞察資料。您也能在代管環境中進行無程式碼模型訓練，輕鬆建構自訂應用程式，同時兼顧成本效益。

新客戶最多可獲得價值 $300 美元的免費抵免額，開始試用 Vision AI 和其他 Google Cloud 產品。

您也能嘗試部署 Google 推薦的文件摘要製作與 AI/機器學習圖片處理解決方案。

總覽

什麼是電腦視覺？

電腦視覺是人工智慧 (AI) 的一個領域，可讓電腦和系統解讀及分析視覺化資料，並從數位圖片、影片和其他視覺化輸入內容中取得有意義的資訊。常見的應用實例包括：偵測物件、處理視覺化內容 (圖片、文件和影片)、理解與分析資料、搜尋產品，分類和搜尋圖片，以及審核內容等。

先進的多模態生成式 AI

Google Cloud 的 Vertex AI 提供 Gemini，這一系列先進的多模態模型能夠理解絕大多數輸入內容、結合不同類型的資訊，並生成幾乎任何輸出內容。Gemini 最適合用來處理含有影像、文字和程式碼的工作，Gemini Pro Vision 則擅長執行各種與視覺相關的工作，例如辨識物件、理解數位內容，以及生成字幕/說明文字等。這類模型可透過 API 存取。

聚焦視覺的生成式 AI

有了 Vertex AI 的 Imagen，開發人員就能透過 API，使用 Google 最先進的圖片生成式 AI 功能。這項產品的部分主要功能包括：使用文字提示生成圖片 (受限制的正式發布版)；使用文字提示編輯圖片 (受限制的正式發布版)；提供圖片的文字說明 (又稱為圖像說明生成功能，正式發布版)，以及微調主題模型 (受限制的正式發布版)。進一步瞭解主要功能和推出階段。

立即可用的 Vision AI

Cloud Vision API 是現成可用的 API (REST 和 RPC)，採用 Google 預先訓練的電腦視覺機器學習模型，可讓開發人員輕鬆將常見的視覺偵測功能整合至應用程式，包括為圖片加上標籤、偵測臉部和地標、光學字元辨識 (OCR)，以及煽情露骨內容偵測。

套用至圖片的每項功能都是一個計費單位，而您每個月都可免費使用 1,000 個單位的 Cloud Vision API 功能。歡迎參閱定價詳細資料。

文件解讀生成式 AI

Document AI 是文件解讀平台，結合電腦視覺和其他技術 (例如自然語言處理技術等)，可從掃描的文件中擷取文字與資料，再將非結構化資料轉換為結構化資訊與業務洞察。

這個平台提供多種經過最佳化調整的預先訓練處理器，適合用於不同類型的文件。您也能透過 Document AI Workbench，輕鬆建構專屬處理器，藉此分類、分割和擷取文件中的結構化資料。

4:37

Document AI 簡介

立即可用的 Vision AI 影片處理功能

Video Intelligence API 以電腦視覺技術為核心，讓您能輕鬆處理、分析及理解影片內容。

這個 API 的預先訓練機器學習模型會自動識別串流影片中的大量物件、地點和動作，而且品質相當卓越。如果將 Video Intelligence API 用於一般用途，例如審核及推薦內容、封存媒體和放送內容相關廣告，就能享有高效率的體驗。您也可使用 Vertex AI Vision 訓練自訂機器學習模型，滿足獨特的需求。

6:21

示範：如何使用 Video Intelligence API 建立可搜尋的影片封存

立即可用的 Vision AI 技術，可用於商業產品搜尋

Vision API Product Search 是一項經特別設計的服務，隨附於 Google Cloud Vision AI 工具套件中，能讓使用者透過自有圖片搜尋產品。這項服務就像專為產品打造的圖片搜尋引擎，目前支援下列產品類別：居家用品、服飾、玩具、民生消費用品和一般用品。

目視檢測 AI

目視檢測 AI 會自動處理製造業和其他工業環境的目視檢測工作。這個系統採用先進的電腦視覺和深度學習技術，可分析圖片和影片、識別異常狀況、偵測並找出瑕疵，以及檢查組裝產品是否缺少零件或有不良零件。

您不必具備技術專業知識，只要提供少量加上標籤的圖片，就能訓練自訂模型，在生產線中有效地執行推論，並持續運用來自廠區的最新資料更新模型。

5:15

示範 - 目視檢測 AI 的運作方式為何？

統合式 Vision AI 平台

Vertex AI Vision 是全代管的應用程式開發環境，可讓開發人員輕鬆建構、部署及管理電腦視覺應用程式，進而處理多種形式的資料，例如文字、圖片、影片和表格型資料。這個環境能夠將建構時間從數天縮短為幾分鐘，且費用是目前產品/服務的十分之一。

您可以建構並部署自訂模型，然後透過 CI/CD 管道執行管理和擴充工作。另外，Vertex AI Vision 也與多項熱門開放原始碼工具整合，例如 TensorFlow 和 PyTorch 等。

58:59

示範 - Vertex AI Vision 的運作方式

資料隱私權和安全性

Google Cloud 提供領先業界的功能，讓客戶能控管自己的資料，清楚掌握資料的存取時間和方式。

Google Cloud 客戶是其客戶資料的擁有者。我們採用最嚴謹的安全措施，確保客戶資料的安全，並提供相關工具和功能協助您自行控管資料。客戶資料並非屬 Google 所有，您才是資料的擁有者。我們只會根據您的協議內容處理您的資料。

詳情請前往隱私權資源中心。

比較電腦視覺產品

服務	適用情境	主要功能與特色
Cloud Vision API	輕鬆快速地整合基本視覺功能。	預先建構的功能，例如為圖片加上標籤、偵測臉部和地標、光學字元辨識、安全搜尋等。按用量計費，符合成本效益。
Document AI	從掃描的文件和圖片中擷取深入分析資訊，將文件工作流程自動化。	融入 OCR (採用生成式 AI)、自然語言處理、機器學習技術，可協助理解文件、擷取文字、識別實體及分類文件。
Video Intelligence API	影片內容分析、內容審核及推薦、媒體封存檔和內容相關廣告。	物件偵測與追蹤、情境理解、動作辨識、臉部偵測和分析、文字偵測與辨識。
Vision API Product Search	提供以圖片為基礎的產品搜尋和推薦服務，提升電子商務體驗。僅適用於特定產品類別。	識別並分類圖片中的產品。
目視檢測 AI	將製造業與工業環境的目視檢測工作自動化	偵測異常狀況、偵測並找出瑕疵，以及檢查組件。
Vertex AI Vision	依特定需求建構及部署自訂模型。	使用資料準備工具、訓練及部署模型，以及全面控管解決方案。需具備專業知識。
Gemini Pro Vision	視覺分析和理解、多模態問題回答。	搜尋資訊、辨識物件、理解數位內容、生成結構化內容、生成字幕/說明文字和推論。
Vertex AI 的 Imagen	取得自動產生的圖片說明。圖片分類及搜尋。內容審核及推薦。	圖像生成、圖像編輯、圖像說明生成和多模態嵌入。請參閱這份完整清單，瞭解各項功能及其推出階段。

這些產品已針對不同用途經過最佳化調整，讓您能藉助預先訓練的模型快速取得成果，並輕鬆視需要進行微調。

Cloud Vision API

適用情境

輕鬆快速地整合基本視覺功能。

主要功能與特色

預先建構的功能，例如為圖片加上標籤、偵測臉部和地標、光學字元辨識、安全搜尋等。

按用量計費，符合成本效益。

Document AI

適用情境

從掃描的文件和圖片中擷取深入分析資訊，將文件工作流程自動化。

主要功能與特色

融入 OCR (採用生成式 AI)、自然語言處理、機器學習技術，可協助理解文件、擷取文字、識別實體及分類文件。

Video Intelligence API

適用情境

影片內容分析、內容審核及推薦、媒體封存檔和內容相關廣告。

主要功能與特色

物件偵測與追蹤、情境理解、動作辨識、臉部偵測和分析、文字偵測與辨識。

Vision API Product Search

適用情境

提供以圖片為基礎的產品搜尋和推薦服務，提升電子商務體驗。僅適用於特定產品類別。

主要功能與特色

識別並分類圖片中的產品。

目視檢測 AI

適用情境

將製造業與工業環境的目視檢測工作自動化

主要功能與特色

偵測異常狀況、偵測並找出瑕疵，以及檢查組件。

Vertex AI Vision

適用情境

依特定需求建構及部署自訂模型。

主要功能與特色

使用資料準備工具、訓練及部署模型，以及全面控管解決方案。需具備專業知識。

Gemini Pro Vision

適用情境

視覺分析和理解、多模態問題回答。

主要功能與特色

搜尋資訊、辨識物件、理解數位內容、生成結構化內容、生成字幕/說明文字和推論。

Vertex AI 的 Imagen

適用情境

取得自動產生的圖片說明。

圖片分類及搜尋。

內容審核及推薦。

主要功能與特色

圖像生成、圖像編輯、圖像說明生成和多模態嵌入。

請參閱這份完整清單，瞭解各項功能及其推出階段。

這些產品已針對不同用途經過最佳化調整，讓您能藉助預先訓練的模型快速取得成果，並輕鬆視需要進行微調。

運作方式

Google Cloud 的 Vision AI 工具套件結合電腦視覺與其他技術，能理解及分析影片，並輕鬆整合至應用程式中的視覺偵測功能，包括為圖片加上標籤、偵測臉部和地標、光學字元辨識 (OCR)，以及標記煽情露骨內容等。
這些工具可透過 API 取得，其他部分則可根據特定需求自訂。

免費試用 Vision AI

示範

瞭解如何將電腦視覺用於你的檔案

常見用途

偵測原始檔案中的文字並自動製作摘要

使用生成式 AI 產生大型文件的摘要

如右側架構圖所示，將新 PDF 文件加入 Cloud Storage 值區時，會觸發這項解決方案部署的管道。這個管道會從文件擷取文字並據以建立摘要，然後將摘要儲存在資料庫中，方便您查看及搜尋。

您可使用兩種方式叫用應用程式：透過Jupyter 筆記本上傳檔案，或直接前往 Google Cloud 控制台的 Cloud Storage 叫用。

透過 Google Cloud 控制台部署

預估部署時間：11 分鐘 (設定需 1 分鐘，部署需 10 分鐘)。

操作說明

使用生成式 AI 產生大型文件的摘要

如右側架構圖所示，將新 PDF 文件加入 Cloud Storage 值區時，會觸發這項解決方案部署的管道。這個管道會從文件擷取文字並據以建立摘要，然後將摘要儲存在資料庫中，方便您查看及搜尋。

您可使用兩種方式叫用應用程式：透過Jupyter 筆記本上傳檔案，或直接前往 Google Cloud 控制台的 Cloud Storage 叫用。

透過 Google Cloud 控制台部署

預估部署時間：11 分鐘 (設定需 1 分鐘，部署需 10 分鐘)。

圖片式電子商務 Product Search

讓消費者更容易發掘產品

Vision API Product Search 可讓零售商在建立的各個產品中納入一組參考圖片，以多種視角呈現產品，然後將這些產品加入產品組合。

使用者以自有圖片查詢產品組合時，Vision API Product Search 會運用機器學習技術，比較使用者用來查詢的圖片與零售商產品的產品組合圖片，然後傳回視覺上和語意上類似的搜尋結果排名清單。

試用 Vision API Product Search

操作說明

讓消費者更容易發掘產品

Vision API Product Search 可讓零售商在建立的各個產品中納入一組參考圖片，以多種視角呈現產品，然後將這些產品加入產品組合。

使用者以自有圖片查詢產品組合時，Vision API Product Search 會運用機器學習技術，比較使用者用來查詢的圖片與零售商產品的產品組合圖片，然後傳回視覺上和語意上類似的搜尋結果排名清單。

試用 Vision API Product Search

建立圖片處理管道

在無伺服器架構上進行可擴充的圖片處理作業

如右側圖表所示，這項解決方案使用預先訓練的機器學習模型，分析使用者提供的圖片，並生成圖片註解文字。部署這項解決方案，即可建立圖片處理服務，來協助處理不安全或有害的使用者自製內容、將書面文件的文字數位化，以及偵測並分類圖片物件等。

您可以查看安全性設定及其他設定，瞭解如何配合不同的需求，調整影像處理服務。

透過 Google Cloud 控制台部署

預估部署時間：12 分鐘 (設定需 2 分鐘，部署需 10 分鐘)。

操作說明

在無伺服器架構上進行可擴充的圖片處理作業

如右側圖表所示，這項解決方案使用預先訓練的機器學習模型，分析使用者提供的圖片，並生成圖片註解文字。部署這項解決方案，即可建立圖片處理服務，來協助處理不安全或有害的使用者自製內容、將書面文件的文字數位化，以及偵測並分類圖片物件等。

您可以查看安全性設定及其他設定，瞭解如何配合不同的需求，調整影像處理服務。

透過 Google Cloud 控制台部署

預估部署時間：12 分鐘 (設定需 2 分鐘，部署需 10 分鐘)。

使用生成式 AI 自動產生圖片說明

Imagen 的圖像說明生成功能可生成圖像說明文字，為您提供更多可供儲存及搜尋的圖像詳細中繼資料，還能自動生成字幕來支援無障礙用途，以及提供產品和視覺素材資源的簡短說明。

這項功能目前支援英文、法文、德文、義大利文和西班牙文。您可以透過 Google Cloud 控制台或 API 呼叫，使用這項功能。

試用圖像說明生成功能

操作說明

Imagen 的圖像說明生成功能可生成圖像說明文字，為您提供更多可供儲存及搜尋的圖像詳細中繼資料，還能自動生成字幕來支援無障礙用途，以及提供產品和視覺素材資源的簡短說明。

這項功能目前支援英文、法文、德文、義大利文和西班牙文。您可以透過 Google Cloud 控制台或 API 呼叫，使用這項功能。

試用圖像說明生成功能

串流處理影片

使用 Vertex AI Vision 從串流影片中取得洞察資訊

使用應用程式分析影片資料前，先透過 Vertex AI Vision 中的串流服務建立持續資料流管道。接著，Google 預先訓練的模型或您的自訂模型會分析擷取的資料。經串流處理的分析輸出內容會儲存在 Vertex AI Vision 倉儲中，您可在其中使用進階 AI 技術輔助搜尋功能，查詢非結構化媒體內容。

試用 Vertex AI Vision

參考架構 - 如何使用 Vertex AI Vision 和其他 Google Cloud 工具串流處理影片

操作說明

使用 Vertex AI Vision 從串流影片中取得洞察資訊

使用應用程式分析影片資料前，先透過 Vertex AI Vision 中的串流服務建立持續資料流管道。接著，Google 預先訓練的模型或您的自訂模型會分析擷取的資料。經串流處理的分析輸出內容會儲存在 Vertex AI Vision 倉儲中，您可在其中使用進階 AI 技術輔助搜尋功能，查詢非結構化媒體內容。

試用 Vertex AI Vision

運用生成式 AI 從文件中擷取文字和洞察資訊

運用 Document AI 從存在細微差異的文件中取得洞察資訊

Document AI Custom Extractor 採用基礎模型，能以更快、更準確的方式從文件中擷取出文字和資料 (無論是一般或特定領域的內容)。只要利用 5 到 10 份文件輕鬆微調，即可提高成效。

如要訓練自己的模型，請使用基礎模型為資料集自動加上標籤，藉此縮短導入實際工作環境的時間。

您也可以選擇使用預先訓練的專用處理器。如要查看完整的處理器清單，請按這裡。

部署 Document AI API

操作說明

運用 Document AI 從存在細微差異的文件中取得洞察資訊

Document AI Custom Extractor 採用基礎模型，能以更快、更準確的方式從文件中擷取出文字和資料 (無論是一般或特定領域的內容)。只要利用 5 到 10 份文件輕鬆微調，即可提高成效。

如要訓練自己的模型，請使用基礎模型為資料集自動加上標籤，藉此縮短導入實際工作環境的時間。

您也可以選擇使用預先訓練的專用處理器。如要查看完整的處理器清單，請按這裡。

部署 Document AI API

執行高精確度的目視檢測工作

透過目視檢測 AI 將品質檢查作業自動化

目視檢測 AI 的每個環節都經過最佳化，讓您輕鬆完成設定並快速查看投資報酬率。與一般用途的機器學習平台相比，加上標籤的圖片數量需求最高少 300 倍，就能開始訓練高效能檢查模型，而準確率高出 10 倍。您不需要具備技術專業知識就能訓練模型，並在地端部署環境執行。最棒的是，模型可運用來自廠區的資料流，持續更新，在您發現新用途時提供準確度更高的結果。

試用目視檢測 AI API

操作說明

透過目視檢測 AI 將品質檢查作業自動化

目視檢測 AI 的每個環節都經過最佳化，讓您輕鬆完成設定並快速查看投資報酬率。與一般用途的機器學習平台相比，加上標籤的圖片數量需求最高少 300 倍，就能開始訓練高效能檢查模型，而準確率高出 10 倍。您不需要具備技術專業知識就能訓練模型，並在地端部署環境執行。最棒的是，模型可運用來自廠區的資料流，持續更新，在您發現新用途時提供準確度更高的結果。

試用目視檢測 AI API

定價

Vision AI 計價方式	每項視覺產品/服務都有一組專屬功能或處理器，計價方式不盡相同。如要進一步瞭解價格，請參閱詳細定價頁面。
免費方案	產品/服務	優惠價格	詳細資料
Vision API	前 1,000 個單位每月免費用量		詳細定價頁面
Document AI	不適用價格因處理器而異。	超過 5,000,001 頁 Enterprise Document OCR Processor 的每月用量	詳細定價頁面
Video Intelligence API	前 1,000 分鐘每月免費用量	超過 100,000 分鐘每月	詳細定價頁面
Vertex AI Vision	不適用價格因功能而異。		詳細定價頁面
Imagen - 多模態嵌入			$0.0001 美元每個圖片輸入內容的費用
Imagen - 圖像說明生成			$0.0015 美元每張圖片的費用
Gemini Pro Vision			詳細定價頁面

Vision AI 計價方式

每項視覺產品/服務都有一組專屬功能或處理器，計價方式不盡相同。如要進一步瞭解價格，請參閱詳細定價頁面。

Vision API

產品/服務

前 1,000 個單位

每月免費用量

優惠價格

詳細資料

詳細定價頁面

Document AI

產品/服務

不適用

價格因處理器而異。

優惠價格

超過 5,000,001 頁

Enterprise Document OCR Processor 的每月用量

詳細資料

詳細定價頁面

Video Intelligence API

產品/服務

前 1,000 分鐘

每月免費用量

優惠價格

超過 100,000 分鐘

每月

詳細資料

詳細定價頁面

Vertex AI Vision

產品/服務

不適用

價格因功能而異。

優惠價格

詳細資料

詳細定價頁面

Imagen - 多模態嵌入

產品/服務

優惠價格

詳細資料

$0.0001 美元

每個圖片輸入內容的費用

Imagen - 圖像說明生成

產品/服務

優惠價格

詳細資料

$0.0015 美元

每張圖片的費用

Gemini Pro Vision

產品/服務

優惠價格

詳細資料

詳細定價頁面

Pricing Calculator

集中提取所有必要工具的資料，方便您估算專案費用。

估算費用

客製化報價

貴機構如需根據獨特需求索取客製化報價，請與我們的銷售團隊聯絡。

索取報價

開始進行概念驗證

Vision AI

從圖片、文件和影片中擷取深入分析資訊

重要數據

什麼是電腦視覺？

先進的多模態生成式 AI

聚焦視覺的生成式 AI

立即可用的 Vision AI

文件解讀生成式 AI

立即可用的 Vision AI 影片處理功能

立即可用的 Vision AI 技術，可用於商業產品搜尋

目視檢測 AI

統合式 Vision AI 平台

資料隱私權和安全性

瞭解如何將電腦視覺用於你的檔案

偵測原始檔案中的文字並自動製作摘要

使用生成式 AI 產生大型文件的摘要

操作說明

使用生成式 AI 產生大型文件的摘要

圖片式電子商務 Product Search

讓消費者更容易發掘產品

操作說明

讓消費者更容易發掘產品

建立圖片處理管道

在無伺服器架構上進行可擴充的圖片處理作業

操作說明

在無伺服器架構上進行可擴充的圖片處理作業

使用生成式 AI 自動產生圖片說明

操作說明

串流處理影片

使用 Vertex AI Vision 從串流影片中取得洞察資訊

操作說明

使用 Vertex AI Vision 從串流影片中取得洞察資訊

運用生成式 AI 從文件中擷取文字和洞察資訊

運用 Document AI 從存在細微差異的文件中取得洞察資訊

操作說明

運用 Document AI 從存在細微差異的文件中取得洞察資訊

執行高精確度的目視檢測工作

透過目視檢測 AI 將品質檢查作業自動化

操作說明

透過目視檢測 AI 將品質檢查作業自動化

Pricing Calculator

客製化報價

開始進行概念驗證

新客戶最多可獲得價值 $300 美元的免費抵免額，開始試用 Vision AI 和其他 Google Cloud 產品

Document OCR 每月可免費處理 1,000 頁

瞭解如何使用 Video Intelligence API 串流播放直播影片

瞭解如何在 Vertex AI Vision 中建構物件偵測工具應用程式

取得 Vision API Product Search 的程式碼範例