前面文章廣播的AI新聞化?廣播的下一步 (更新時間:2025/3/25)提到了目前像是News98、中廣、城市廣播網似乎都開始有AI語音播報新聞的趨勢。

正好2025/3/26-28是Digitimes的三天AI EXPO 2025(臺灣AI博覽會)活動,第三天的演講有AI語音的業者宏正(ATEN)參入,引發了我的興趣。之前沒特別注意ATEN有加入這個產業之中,因為ATEN是長期以來做KVM(Keyboard、Video、Mouse)整合的業者,說到有做這個我也是才驚覺,原來除了網際智慧(自然輸入法的公司)外,外面ATEN已有一些導入案例了。

ATEN以「ATEN優聲學」作為品牌,目前最知名案例應該屬ETtoday新聞雲、臺灣吧,其中的介面直接上雲端平台處理,裡面主要以中英語為主,相當適合台灣在地企業/用戶使用。

目前總AI聲優有18人,其中臺語有2(1男1女)、國語有16(8男8女)、英語有18(9男9女)。其實已經相當可以取代一般如新聞類的播放。因為通常新聞類就是感情不需太過強調,主要是平順、字正腔圓、不吃螺絲即可。

台灣目前的AI語音方案(更新時間:)

介面來說,與自然輸入法的AI不會差距太大。也都有音量、速度、語調的調整、插入停頓、符號停頓倍率等

ATEN介面.png

價格方面,ATEN採取雲端服務,價格比較親民,有所謂的完全免費,限制多,也有付費後每次可合成約1000字的字數,從牌價與方案,我認為ATEN並不是要主動讓使用者吃到飽,而是有目的性的,短篇使用而已。

螢幕擷取畫面 2025-03-26 162835.png


另一方面,我們來看網際智慧的服務,他們基本上有很多種解決方案,最主要我以「文字MP3專業版」(即離線版),以及「VoAI絕好聲創」(線上版)可與ATEN做比擬。

在功能上,「文字MP3專業版」提供100種語言及600種AI聲優,也就是把整個背後資料庫的拿手絕活都放上來給用戶使用,缺點則是連朗讀段落(我稱為「試聽」)都要算點數。其有非常簡單的混音功能,例如可自己插入背景音檔與外部音檔。其優勢是多國語言(非臺語)可自由混用。

螢幕擷取畫面 2025-03-27 002532.png

 

文字MP3介面.png

而雲端版的「VoAI絕好聲調」則提供30種男女聲優,與ATEN的國臺英語的聲優三聲調的聲優比較類似,總共是12男、18女。而12男中又有2個幼童男音、18女中有1個幼童女音,算是特別之處。

VoAI聲優群-2.png

介面上,從離線軟體介面變為瀏覽器介面,也是相當類似,但介面更為輕柔不顯生硬,角色可任意替換。

螢幕擷取畫面 2025-03-26 161628.png

其介面的進階功能則是將音調、語速、句間停頓都放在這裡。基本上競業間的功能不會差異太大。

VoAI介面2.png

價格上文字MP3從之前價格很高的情形已下修,檯面上有兩種,480元/月與3800元/年。

文字MP3價格.png

另外VoAI絕好聲調大致有3種檯面價及三種報價,因為放在兩個網頁上,顯得有點雜亂,分別為900元/2月、3600元/年(一般版)、6000元/年(進階版)、API串接服務、訂製模型、企業報價。

VoAI聲優價格1.png

VoAI聲優價格2.png

綜上,我們發現VolAI(雲端版)的方案雖然VolAI較貴,但文字MP3(離線版)是試聽時就須計費,所以計價基準仍有差異。整體而言ATEN的計費很有優勢,缺點在只能用在「台灣」(國語、台語、英語)。但網際智慧主要就是主打聲音更多,連幼童男、幼童女都有聲線,因此若有「廣播劇」的需求,網際智慧方案確實很有利。

  VoAI(雲端) 文字MP3(離線) ATEN優聲學(雲端)
  方案1 方案2 方案3 方案1 方案2 星光會員 銀質會員 金質會員 商務會員
字數 10,000 60,000   150,000 1,200,000 30,000 240,000 360,000 24,000,000
Podcast次數 10 30 120            
其他           單次250字 單次1000字 單次1000字 單次2000字
            每月2500字 每月20000字 每月30000字 每月2000000字
            同時合成1則 同時合成1則 同時合成2則 同時合成20則
價格 900 3,600 6,000 480 3,800 0 499 699 7,990
價/字 0.09 0.06   0.0032 0.0031 0 0.002 0.0019 0.0003
價/月 450 300 300 480 316.6 0 499 699 7,990

我們也可以發現,目前各家都已逐步將台語作為重要的語言在做發展,未來是否會有客家語甚至原住民語會有,則未可知,但至少市場上一定是以族群多的開發為主體。

當然陽明交大的線上版台語語音生成客語語音生成也都免費上線,對於教育(考試)發展會有立即的幫助,也是另一選擇。

總之,目前對於AI語音生意已漸有雛型,並有兩大業者在比拚,而且愈來愈趨向於雲端服務。這種生態在會議語音辨識也是同樣的狀況,例如長問科技(離線版)與迪威智能(雲端版),而且各大公司也都在做這種內部雲端服務。何種擅長與有利,其實就看不同的使用族群的感覺,就像是微軟從Office一定要365雲端,變成還是有離線版的,Adobe也是近來一直被說雲端版的計價方式坑錢而炎上。

只是AI語音愈來愈厲害後,仍要注意詐騙情事的層出不窮,老人甚至是一般人都不會辨識出來,真的是非常需要注意。

arrow
arrow
    創作者介紹

    小魚Roger 發表在 痞客邦 留言(0) 人氣()