https://www.photoroom.com/inside-photoroom/so-you-want-to-rent-an-nvidia-h100-cluster-2024-consumer-guide
-Photoroom , 照片編輯新創
-一開始就打B2B市場,疫情期間就成為許多中小電商愛用產品,生成式AI的出現對於公司是大助力,在既有的編輯功能下讓客戶擁有更快更多的編輯功能
-2023年的ARR為50m,公司2024年的目標是ARR 100m,而這家公司在ARR只有20m的時候就已經實現盈利
-文章表示透過測試Infiniband速度全面優於乙太網互連,隨著節點擴大,差距也在擴大,IF昂貴但可靠,不可靠的網路造成訓練崩潰就會導致資源浪費
-乙太網路整體上並不穩定,但如果cluster慢5%,而成本便宜10%,同時穩定的狀態下,使用乙太網路是值得的
-文章建議有機會的話,買一些H200,聽說售價與H100相同,雙倍內存代表速度更快
-GPU利用率是使用者要去克服的,隨著對cluster的熟悉,預計未來會上升
-訓練需要數據,數據的位置很重要,用串流傳輸(streaming)是不切實際的,每月可能就要1.6m的cost