如今,各種類(lèi)型的企業(yè)都致力于采用人工智能和機器學(xué)習項目,但要發(fā)揮其真正的潛力,則需要克服重大的技術(shù)障礙。雖然計算基礎設施通常是重點(diǎn),但存儲設施也同樣重要。以下是對象存儲(而不是文件或塊存儲)適用在加強人工智能和機器學(xué)習工作負載的三個(gè)主要原因:
1.可擴展性
當有大量不同的數據源可供學(xué)習時(shí),采用人工智能和機器學(xué)習技術(shù)最有效。數據科學(xué)家利用這些豐富的數據來(lái)訓練領(lǐng)域模型。在“大數據的五個(gè)V”(數量、類(lèi)型、速度、準確性和價(jià)值)中,前兩個(gè)(數量和類(lèi)型)最為重要。簡(jiǎn)而言之,人工智能和機器學(xué)習依賴(lài)于大量不同的數據(圖像、文本、結構化和半結構化數據)來(lái)構建有用的模型,提供準確的結果,并最終提供業(yè)務(wù)價(jià)值。
對象存儲是很具擴展性的存儲架構,特別適合支持人工智能和機器學(xué)習所需的大量數據。對象存儲旨在通過(guò)水平擴展方法實(shí)現無(wú)限增長(cháng),從而使企業(yè)可以通過(guò)在需要的位置和時(shí)間添加節點(diǎn)來(lái)增加部署。由于對象存儲使用單個(gè)全局名稱(chēng)空間,因此也可以一次在多個(gè)地理位置上進(jìn)行這種擴展。另一方面,文件和塊系統通常采用擴展方法。這意味著(zhù)這些平臺通過(guò)向單個(gè)節點(diǎn)添加更多計算資源來(lái)實(shí)現垂直擴展,這最終會(huì )受到限制。他們無(wú)法通過(guò)部署其他節點(diǎn)來(lái)增加計算資源,從而無(wú)法有效地水平擴展。
2. API
健壯靈活的數據API對于人工智能和機器學(xué)習非常重要,如上所述,它們使用了多種數據類(lèi)型。存儲平臺需要支持API來(lái)容納各種數據。此外,人工智能和機器學(xué)習的創(chuàng )新越來(lái)越多地在公共云上進(jìn)行,但是仍然有相當一部分人工智能和機器學(xué)習在內部部署數據中心或私有云中發(fā)生,這取決于用例的具體情況(例如,科學(xué)研究和醫療保健等領(lǐng)域通常最適合私有云)。這意味著(zhù)組織需要一個(gè)存儲API,以支持公共云和本地/私有云中的工作負載。
文件和塊存儲平臺所支持的API受限制,部分原因是它們是較舊的架構。相比之下,對象存儲使用云平臺中固有的高級API,該API設計為以應用程序為中心,與文件和塊存儲相比,它支持范圍更廣的API,其中包括版本控制、生命周期管理、加密、對象鎖定和元數據。此外,支持人工智能和機器學(xué)習用例的新對象存儲API(例如對流數據的支持和對海量數據集的查詢(xún)的支持)也是可能的。
通過(guò)圍繞Amazon S3的對象存儲API的標準化,可以更輕松地在內部部署和公共云中集成軟件。企業(yè)可以輕松地將人工智能和機器學(xué)習部署從內部部署/私有云環(huán)境擴展到公共云,或者將云原生的人工智能和機器學(xué)習工作負載遷移到內部部署環(huán)境,而不會(huì )損失功能。這種雙模式方法使組織可以合作且可互換地利用內部部署/私有云和公共云資源。
由于S3 API已成為對象存儲的事實(shí)上的標準,因此許多軟件工具和庫都可以利用該API。這允許共享代碼、軟件和工具,以促進(jìn)人工智能和機器學(xué)習社區中更快的開(kāi)發(fā)。示例包括流行的機器學(xué)習平臺,例如具有內置S3 API的TensorFlow和Apache Spark。
3.元數據
與API一樣,使用人工智能和機器學(xué)習的組織必須利用無(wú)限的可自定義的元數據,這一點(diǎn)至關(guān)重要。元數據只是關(guān)于數據的數據,在最基本的層面上,是在何時(shí)何地創(chuàng )建的數據,以及是誰(shuí)創(chuàng )建的數據。但是元數據可以描述更多內容:用戶(hù)可以創(chuàng )建任意的元數據標記來(lái)描述他們想要的任何屬性。
數據科學(xué)家需要豐富的元數據來(lái)查找特定數據以構建和使用其人工智能和機器學(xué)習模型。隨著(zhù)更多信息添加到數據中,元數據注釋可逐步積累知識。
文件和塊存儲僅支持有限的元數據,例如上述基本屬性。這在很大程度上可以歸結為可擴展性,因為文件和塊系統未配備快速無(wú)縫的增長(cháng)功能,如果存儲系統支持依賴(lài)大量數據集的人工智能和機器學(xué)習應用程序的豐富元數據,則自然會(huì )發(fā)生這種情況。但是,對象存儲支持無(wú)限的、完全可自定義的元數據,從而使查找用于人工智能和機器學(xué)習算法的數據更加容易,并從中獲得更好的見(jiàn)解。
以一家醫院在X光圖像上使用圖像識別應用程序為例:使用元數據,可以使用TensorFlow模型分析添加到對象存儲系統中的每個(gè)圖像,然后為每個(gè)圖像分配更加精細的元數據標簽(例如,損傷類(lèi)型、基于骨骼大小或生長(cháng)的患者年齡或性別等)。TensorFlow模型可以在元數據上進(jìn)行訓練,并對其進(jìn)行分析,得出新的患者見(jiàn)解(例如與五年前相比,如今20歲到30歲的婦女患上的骨科疾病更多)。
幾乎每一家財富500強公司都在考慮采用人工智能和機器學(xué)習,可以想象這些技術(shù)將在可預見(jiàn)的將來(lái)成為最重要的企業(yè)IT計劃。然而,要使人工智能和機器學(xué)習計劃獲得回報,企業(yè)必須利用正確的存儲基礎設施。對象存儲由于其可擴展性、對各種API(特別是S3)的支持以及豐富的元數據,是人工智能和機器學(xué)習的優(yōu)秀支柱。