⑴ baidu 圖片搜索的工作原理
和搜索引擎一樣啊
⑵ 淘淘搜圖片搜索購物網站的工作原理是什麼
【淘淘搜】是國內第一個基於視覺計算的圖片購物搜索網站!其工作原理是由圖像分析軟體自動抽取圖像的顏色、形狀、紋理等特徵,建立特徵索引庫,用戶只需將要查找的圖像的大致特徵描述出來,就可以找出與之具有相近特徵的圖像。
⑶ 圖片搜索的工作原理是什麼大神們幫幫忙
元搜索引擎(Meta Search Engine 簡稱MSE),是一種建立在獨立搜索引擎基礎上,調用其它獨立搜索引擎的引擎,亦稱"搜索引擎之母(The mother of search engines)"。在這里,"元"(Meta)為"總的"、"超越"之意,元搜索引擎就是對多個獨立搜索引擎的整合、調用、控制和優化利用。相對於元搜索引擎,可被利用的獨立搜索引擎稱為"源搜索引擎"(Source Search Engine),或"成員搜索引擎"(Component Search Engine)。從功能上來講,元搜索引擎像是一個過濾通道:以多個獨立搜索引擎的輸出結果作為輸入,經過一番提取、剔除、萃取等操作,形成最終結果,然後將最終結果輸出給用戶。 搜索引擎的工作原理基本都是一樣的,利用一個叫網路蜘蛛的程序在網路上爬行,自動地遍歷Web來獲得的網路信息並保存到本地伺服器中.因此,我們通常所說的搜索引擎並不是真正的在搜索互聯網,而是通過用戶提供的關鍵詞,搜索引擎再根據此關鍵詞進行對其伺服器的資料庫進行搜索.為了保證用戶查找信息的精度和及時,搜索引擎需要建立並維護一個龐大的索引資料庫,從而能夠迅速的從中找到相關的信息.搜索引擎的工作過程一般來說可以看作三大步:從互聯網上爬取網頁->預處理->查詢服務
⑷ 百度圖片搜索引擎原理是如何實現的
圖片搜索的原理有三個步驟
1. 將目標圖片進行特徵提取,描述圖像的演算法很多,用的比較多的是:SIFT描述子,指紋演算法函數,bundling features演算法,hash function(散列函數)等。也可以根據不同的圖像,設計不同的演算法,比如圖像局部N階矩的方法提取圖像特徵。
2. 將圖像特徵信息進行編碼,並將海量圖像編碼做查找表。對於目標圖像,可以對解析度較大的圖像進行降采樣,減少運算量後在進行圖像特徵提取和編碼處理。
3. 相似度匹配運算:利用目標圖像的編碼值,在圖像搜索引擎中的圖像資料庫進行全局或是局部的相似度計算;根據所需要的魯棒性,設定閾值,然後將相似度高的圖片預保留下來;最後應該還有一步篩選最佳匹配圖片,這個應該還是用到特徵檢測演算法。
其中每個步驟都有很多演算法研究,圍繞數學,統計學,圖像編碼,信號處理等理論進行研究。
根據Neal Krawetz博士的解釋,原理非常簡單易懂。我們可以用一個快速演算法,就達到基本的效果。
這里的關鍵技術叫做"感知哈希演算法"(Perceptual hash algorithm),它的作用是對每張圖片生成一個"指紋"(fingerprint)字元串,然後比較不同圖片的指紋。結果越接近,就說明圖片越相似。下面是一個最簡單的實現:
第一步,縮小尺寸。
將圖片縮小到8x8的尺寸,總共64個像素。這一步的作用是去除圖片的細節,只保留結構、明暗等基本信息,摒棄不同尺寸、比例帶來的圖片差異。
第二步,簡化色彩。
將縮小後的圖片,轉為64級灰度。也就是說,所有像素點總共只有64種顏色。
第三步,計算平均值。
計算所有64個像素的灰度平均值。
第四步,比較像素的灰度。
將每個像素的灰度,與平均值進行比較。大於或等於平均值,記為1;小於平均值,記為0。
第五步,計算哈希值。
將上一步的比較結果,組合在一起,就構成了一個64位的整數,這就是這張圖片的指紋。組合的次序並不重要,只要保證所有圖片都採用同樣次序就行了。
得到指紋以後,就可以對比不同的圖片,看看64位中有多少位是不一樣的。在理論上,這等同於計算"漢明距離"(Hammingdistance)。如果不相同的數據位不超過5,就說明兩張圖片很相似;如果大於10,就說明這是兩張不同的圖片。
具體的代碼實現,可以參見Wote用python語言寫的imgHash.py。代碼很短,只有53行。使用的時候,第一個參數是基準圖片,第二個參數是用來比較的其他圖片所在的目錄,返回結果是兩張圖片之間不相同的數據位數量(漢明距離)。
這種演算法的優點是簡單快速,不受圖片大小縮放的影響,缺點是圖片的內容不能變更。如果在圖片上加幾個文字,它就認不出來了。所以,它的最佳用途是根據縮略圖,找出原圖。
實際應用中,往往採用更強大的pHash演算法和SIFT演算法,它們能夠識別圖片的變形。只要變形程度不超過25%,它們就能匹配原圖。這些演算法雖然更復雜,但是原理與上面的簡便演算法是一樣的,就是先將圖片轉化成Hash字元串,然後再進行比較。
⑸ 圖像搜索的圖像原理
WWW圖像搜索引擎需要為在Web上瀏覽過的圖像建立索引信息,能夠進行圖像分析和判別,為圖像加註釋,存儲抽取出的索引信息建立索引庫,理想的圖像搜索引擎還應該能支持基於內容的圖像檢索。 圖像識別方法:
1、自動查找圖形文:可以通過兩個HTML標簽,即IMG SRC和HREF來檢測是否存在可顯示的圖像文件,IMG SRC表示「顯示下面的圖像文件」,而HREF則表示「下面是一個鏈接」,這兩種標簽經常導向一個圖像文件。搜索引擎通過檢查文件擴展名來判斷鏈接的是否是圖像文件。如果文件擴展名是.GIF或.JPG,那它就是一個可顯示的圖像。
2、人工干預找出圖像並進行分類:由人工對網上的圖像及站點進行選擇。這種方法可以產生准確的查詢體系,但勞動強度太大,限制了處理圖像的數量。由於圖像不同於文本,需要人們按照各自的理解來說明其蘊含的意義,因此圖像檢索比起文本的查詢和匹配要困難得多。目前的圖像搜索引擎大多支持關鍵詞檢索和分類瀏覽兩種檢索方式,部分可提供可視屬性檢索,但也很有限。它們主要的檢索途徑有以下幾種:
a. 基於圖像外部信息:即根據圖像的文件名或目錄名、路徑名、鏈路、ALT標簽以及圖像周圍的文本信息等外部信息進行檢索,這是目前圖像搜索引擎採用最多的方法。在找出圖像文件後,圖像搜索引擎通過查看文件名或路徑名確定文件內容,但這取決於文件名或路徑名的描述程度。
b. 基於圖像內容特徵描述:這是一種語義層次的匹配。需要人工對圖像的內容(如物體、背景、構成、顏色特徵等)進行描述並分類,給出描述詞。檢索時,將主要在這些描述詞中搜索你的檢索詞。這種查詢方式是比較准確的,一般來講可以獲得較好的查准率。但需人工參與,勞動強度大,因而限制了可處理的圖像數量,並且需要一定的規范和標准,效果取決於人工描述的精確度。
c. 基於圖像形式特徵的抽取:由圖像分析軟體自動抽取圖像的顏色、形狀、紋理等特徵,建立特徵索引庫,用戶只需將要查找的圖像的大致特徵描述出來,就可以找出與之具有相近特徵的圖像。這是一種基於圖像特徵層次的機械匹配,特別適用於檢索目標明確的查詢要求(例如對商標的檢索)。產生的結果也是最接近用戶要求的。但目前這種較成熟的檢索技術主要應用於圖像資料庫的檢索,在網上圖像搜索引擎中應用這種檢索技術還具有一定的困難。
⑹ 圖片搜索的基於原理
對類型1,通常是通過Alt等錨來索引,搜索的,您可以訪問搜索引擎,比如網路、GOOGLE。在搜索框內輸入搜索文字,點擊右側的「圖片搜索」按紐,即可獲得相關圖片搜索結果。《淺談圖片搜索引擎的實現》中提出了跨越性的圖片搜索的實現,具有很高的參考價值。
對類型2,涉及了資料庫管理、計算機視覺、圖像處理、模式識別、信息檢索和認知心理學等諸多學科,其相關技術主要包括:圖像數據模型、特徵提取方法、索引結構、相似性度量、查詢表達模式、檢索方法等。相似圖片的檢測主要涉及特徵表示和相似性度量這兩類關鍵技術。圖像特徵的提取與表達是基於內容的圖像處理技術的基礎。從廣義上講,圖像的特徵包括基於文本的特徵(如關鍵字、注釋等)和視覺特徵(如顏色、紋理、形狀等)兩類。由於我們需要處理相似圖片的識別,這里主要介紹圖像視覺特徵的提取和表達。
視覺特徵又可分為通用的視覺特徵和領域相關(局部/專用)的視覺特徵。前者用於描述所有圖像共有的特徵,與圖像的具體類型或內容無關,主要包括顏色、紋理和形狀;後者則建立在對所描述圖像內容的某些先驗知識(或假設)的基礎上,與具體的應用緊密有關,例如人的面部特徵或指紋特徵等。由於領域相關的圖像特徵主要屬於模式識別的研究范圍,並涉及許多專業的領域知識,在此我們就不再詳述,而只考慮通用的視覺特徵。
對於某個特定的圖像特徵,通常又有多種不同的表達方法。由於人們主觀認識上的千差萬別,對於某個特徵並不存在一個所謂的最佳的表達方式。事實上,圖像特徵的不同表達方式從各個不同的角度刻畫了該特徵的某些性質。
⑺ Google 圖片搜索的原理是什麼
Google圖片搜索的原理,一般是三個步驟:
1. 將目標圖片進行特徵提取,描述圖像的演算法很多,用的比較多的是:SIFT描述子,指紋演算法函數,bundling features演算法,hash function(散列函數)等。也可以根據不同的圖像,設計不同的演算法,比如圖像局部N階矩的方法提取圖像特徵。
2. 將圖像特徵信息進行編碼,並將海量圖像編碼做查找表。對於目標圖像,可以對解析度較大的圖像進行降采樣,減少運算量後在進行圖像特徵提取和編碼處理。
3. 相似度匹配運算:利用目標圖像的編碼值,在圖像搜索引擎中的圖像資料庫進行全局或是局部的相似度計算;根據所需要的魯棒性,設定閾值,然後將相似度高的圖片預保留下來;最後應該還有一步篩選最佳匹配圖片,這個應該還是用到特徵檢測演算法。
⑻ 百度圖片的以圖搜圖功能工作原理什麽什麽
圖像搜索引擎需要為在Web上瀏覽過的圖像建立索引信息,能夠進行圖像分析和判別,為圖像加註釋,存儲抽取出的索引信息建立索引庫,理想的圖像搜索引擎還應該能支持基於內容的圖像檢索。
圖像識別方法
1、自動查找圖形文:可以通過兩個HTML標簽,即IMG
SRC和HREF來檢測是否存在可顯示的圖像文件,IMG
SRC表示「顯示下面的圖像文件」,而HREF則表示「下面是一個鏈接」,這兩種標簽經常導向一個圖像文件。搜索引擎通過檢查文件擴展名來判斷鏈接的是否是圖像文件。如果文件擴展名是.GIF或.JPG,那它就是一個可顯示的圖像。
2、人工干預找出圖像並進行分類:即人工對網上的圖像及站點進行選擇。這種方法可以產生准確的查詢體系,但勞動強度太大,限制了處理圖像的數量。由於圖像不同於文本,需要人們按照各自的理解來說明其蘊含的意義,因此圖像檢索比起文本的查詢和匹配要困難得多。目前的圖像搜索引擎大多支持關鍵詞檢索和分類瀏覽兩種檢索方式,部分可提供可視屬性檢索,但也很有限。它們主要的檢索途徑有以下幾種:
a.
基於圖像外部信息:即根據圖像的文件名或目錄名、路徑名、鏈路、ALT標簽以及圖像周圍的文本信息等外部信息進行檢索,這是目前圖像搜索引擎採用最多的方法。在找出圖像文件後,圖像搜索引擎通過查看文件名或路徑名確定文件內容,但這取決於文件名或路徑名的描述程度。
b.
基於圖像內容特徵描述:這是一種語義層次的匹配。需要人工對圖像的內容(如物體、背景、構成、顏色特徵等)進行描述並分類,給出描述詞。檢索時,將主要在這些描述詞中搜索你的檢索詞。這種查詢方式是比較准確的,一般來講可以獲得較好的查准率。但需人工參與,勞動強度大,因而限制了可處理的圖像數量,並且需要一定的規范和標准,效果取決於人工描述的精確度。
c.
基於圖像形式特徵的抽取:由圖像分析軟體自動抽取圖像的顏色、形狀、紋理等特徵,建立特徵索引庫,用戶只需將要查找的圖像的大致特徵描述出來,就可以找出與之具有相近特徵的圖像。這是一種基於圖像特徵層次的機械匹配,特別適用於檢索目標明確的查詢要求(例如對商標的檢索)。產生的結果也是最接近用戶要求的。但目前這種較成熟的檢索技術主要應用於圖像資料庫的檢索,在網上圖像搜索引擎中應用這種檢索技術還具有一定的困難
⑼ 搜索引擎搜索圖片的原理
這個很簡單,如果你擔心你的網站沒有被收錄或者是網路、谷歌的爬蟲還沒有訪問(發現)你的網站,你可以做一個詳細的網站地圖,好讓爬蟲輕松將你的網站結構分析清楚並且錄入系統。還有一個方法就是將你的網站向網路提交( http://www..com/search/url_submit.html)經過確認後,就有可能被錄入了!!