GAIS - 即時新聞

Hugging Face公布多模態模型家族SmolVLM新成員，其中規模最小的SmolVLM-256M，強調以不到1GB的GPU RAM就能在單一圖片上執行推論

...隨著核心技術逐漸成熟，AI進入應用擴展與商業化階段。此階段重點在於針對特定行業進行技術定製化開發。多模態AI系統正結合文字、圖像與語音數據，拓展娛樂、設計及醫療等多領域應用場景。特斯拉自動駕駛系統的商業

...信賴AI推動策略，都顯示出「混合模式」投資策略的有效性。展望未來，AI投資重點將更集中大規模語言模型、多模態AI及邊緣運算等技術突破。隨著技術深化應用，數據治理、倫理規範與跨國合作將成政策制定者和投資機構關

...：高槓桿策略：高槓桿策略專注技術發展最前沿且資本高度密集的領域，如生成式AI、大型語言模型（LLM）和多模態AI。高槓桿策略的成功取決對技術趨勢和市場需求準確預判，同時需要分散投資以降低風險。此策略適合尋求

...工作自動化，例如縫紉機或工業機器人。而生成式AI有所不同，它非常靈活，能處理圖像、聲音、文本及其他多模態的資料，並根據這些資料提供答案。然而，AI並不像傳統工具那樣可靠，例如同樣的任務執行兩次，可能會得

...禁錮在此，他選擇在LLM和應用層兩個熱潮之外，選擇走自己的路，投入視覺的賽道，圍繞AIGC（生成式AI）建立多模態演算法平台。王長虎說，AI的核心還是內容，圍繞在AIGC（生成式AI）也會涉及版權問題、內容理解問題、發行

...「The Cauldron」及文件掃描數據集「Docmatix」對這兩款模型進行訓練。這些數據集由Hugging FaceM4團隊建立，專注於多模態AI技術的研發，為SmolVLM提供了充足的圖像與文本配對訓練資源。性能超越大模型Idefics80B Hugging Face團隊表示，

...應用場景的需求。目前，RedCap市場正在快速發展，新基訊很高興能與芯原合作，為客戶帶來更多首屈一指的5G多模數據機IP產品。」芯原執行副總裁兼客製化晶片平台事業部總經理汪志偉表示：「5G RedCap晶片成本和速率與4G相

...新型蛋白質。團隊用現有蛋白質的資料為產生新蛋白質的基礎，以 ESM3 AI 模型（為一種類型聊天機器人模型的多模態生成式語言模型）對從 3.15 億條蛋白質序列、2.36 億個蛋白質結構，以及 5.39 億個蛋白質註解所產生的符元（

...們在螢幕上看到的按鍵、選單、文句，模擬人們看著螢幕畫面並操作鍵盤、滑鼠來達成目的。CUA 建立在長期的多模態理解和推理基礎研究上，將高階 GUI 感知與結構化問題解決結合在一起，Operator 可將一項任務分解成多步驟的

...動員相關生態系。就現況來看，推動／輔導單位透過GAI推廣和教育訓練，目前帶動的大多是個人片段式應用的多模態助理服務，但是產業AI化的重點內涵應該是透過AI所賦能的創新流程或業務，目前則著力有限。從之前推動中小

...理人功能「Perplexity Assistant」，可以為使用者執行各式多步驟任務，包括叫車、訂餐廳或搜尋影片等，由於是多模態，因此可根據語音、鏡頭畫面下指令。目前此助理功能提供給 Android 裝置，Android 所有用戶只要在 Play Store 將

...AI（人工智慧）功能已成為消費者選購手機的關鍵考量之一。三星於Galaxy S25旗艦系列率先導入多模態AI助理，改變人與手機、乃至世界的互動模式，搭載高通Snapdragon 8 Elite行動平台，將Galaxy 的終端AI處理效能推

...，協助人們自然輕鬆地與裝置互動，並以深得信賴的隱私保護，令人備感安心。」Galaxy S25旗艦系列AI助理支援多模態應用，具備文字、語音、圖像和影片的理解能力；而升級版「搜尋圈（Circle to Search）」不僅使手機螢幕搜尋更

...供）▼圖說：Galaxy S25 Ultra推出鈦空藍、鈦黑、鈦銀與鈦灰。（如下圖，三星提供）Galaxy S25旗艦系列AI助理支援多模態應用，具備文字、語音、圖像和影片的理解能力。其中，升級版「搜尋圈（Circle to Search）」，能快速辨識螢幕

...工具，為全球開發者帶來更多技術支持。此次升級涵蓋「通義千問」家族的新一代模型「Qwen 2.5系列」，以及多模態人工智慧模型如「Qwen-VL系列」與聚焦在視覺生成的「通義萬象」，並可藉由其生成式人工智慧開發平台「百鍊

...都能利用碎片時間吸收知識。提供生成表格功能、能快速歸納重點的寫作智慧助理。（圖／台灣三星提供）AI多模態搜尋的進化智慧選取功能的升級，讓使用者選取一段文字或圖片後，系統能主動提供後續建議。例如，選取一

...務，例如翻譯、修改文章等。再往下發展，OpenAI針對程式碼、圖像、聲音等不同類型的原始資料改進模型，往多模態（multimodal）方向前進，現在的ChatGPT已經從文字，延伸至其他模態的資料，不管是上傳圖片後以文字回覆，還

...中，，像是影片生成模型Sora服務正式上線，新一代推理模型o1也正式推出，同時增加了圖片輸入的能力，跨入多模態輸入的階段，ChatGPT現在可以控制iPhone 16的相機功能，來取得畫面和聲音，取得更多真實世界的資料。

...指出，2024 年台灣人工智慧實驗室將 FedGPT 引入醫療、金融、教育等領域，2025 年 FedGPT 作為 AI 代理，整合影視多模態模型與自動語音對話技術，具備圖片、影片和音檔解析、人臉辨識與物件偵測等能力，拓展其在企業場景的應