前面文章廣播的AI新聞化?廣播的下一步 (更新時間:2025/3/25)提到了目前像是News98、中廣、城市廣播網似乎都開始有AI語音播報新聞的趨勢。
正好2025/3/26-28是Digitimes的三天AI EXPO 2025(臺灣AI博覽會)活動,第三天的演講有AI語音的業者宏正(ATEN)參入,引發了我的興趣。之前沒特別注意ATEN有加入這個產業之中,因為ATEN是長期以來做KVM(Keyboard、Video、Mouse)整合的業者,說到有做這個我也是才驚覺,原來除了網際智慧(自然輸入法的公司)外,外面ATEN已有一些導入案例了。
ATEN以「ATEN優聲學」作為品牌,目前最知名案例應該屬ETtoday新聞雲、臺灣吧,其中的介面直接上雲端平台處理,裡面主要以中英語為主,相當適合台灣在地企業/用戶使用。
目前總AI聲優有18人,其中臺語有2(1男1女)、國語有16(8男8女)、英語有18(9男9女)。其實已經相當可以取代一般如新聞類的播放。因為通常新聞類就是感情不需太過強調,主要是平順、字正腔圓、不吃螺絲即可。
介面來說,與自然輸入法的AI不會差距太大。也都有音量、速度、語調的調整、插入停頓、符號停頓倍率等
價格方面,ATEN採取雲端服務,價格比較親民,有所謂的完全免費,限制多,也有付費後每次可合成約1000字的字數,從牌價與方案,我認為ATEN並不是要主動讓使用者吃到飽,而是有目的性的,短篇使用而已。
另一方面,我們來看網際智慧的服務,他們基本上有很多種解決方案,最主要我以「文字MP3專業版」(即離線版),以及「VoAI絕好聲創」(線上版)可與ATEN做比擬。
在功能上,「文字MP3專業版」提供100種語言及600種AI聲優,也就是把整個背後資料庫的拿手絕活都放上來給用戶使用,缺點則是連朗讀段落(我稱為「試聽」)都要算點數。其有非常簡單的混音功能,例如可自己插入背景音檔與外部音檔。其優勢是多國語言(非臺語)可自由混用。
而雲端版的「VoAI絕好聲調」則提供30種男女聲優,與ATEN的國臺英語的聲優三聲調的聲優比較類似,總共是12男、18女。而12男中又有2個幼童男音、18女中有1個幼童女音,算是特別之處。
介面上,從離線軟體介面變為瀏覽器介面,也是相當類似,但介面更為輕柔不顯生硬,角色可任意替換。
其介面的進階功能則是將音調、語速、句間停頓都放在這裡。基本上競業間的功能不會差異太大。
價格上文字MP3從之前價格很高的情形已下修,檯面上有兩種,480元/月與3800元/年。
另外VoAI絕好聲調大致有3種檯面價及三種報價,因為放在兩個網頁上,顯得有點雜亂,分別為900元/2月、3600元/年(一般版)、6000元/年(進階版)、API串接服務、訂製模型、企業報價。
綜上,我們發現VolAI(雲端版)的方案雖然VolAI較貴,但文字MP3(離線版)是試聽時就須計費,所以計價基準仍有差異。整體而言ATEN的計費很有優勢,缺點在只能用在「台灣」(國語、台語、英語)。但網際智慧主要就是主打聲音更多,連幼童男、幼童女都有聲線,因此若有「廣播劇」的需求,網際智慧方案確實很有利。
VoAI(雲端) | 文字MP3(離線) | ATEN優聲學(雲端) | |||||||
方案1 | 方案2 | 方案3 | 方案1 | 方案2 | 星光會員 | 銀質會員 | 金質會員 | 商務會員 | |
字數 | 10,000 | 60,000 | 150,000 | 1,200,000 | 30,000 | 240,000 | 360,000 | 24,000,000 | |
Podcast次數 | 10 | 30 | 120 | ||||||
其他 | 單次250字 | 單次1000字 | 單次1000字 | 單次2000字 | |||||
每月2500字 | 每月20000字 | 每月30000字 | 每月2000000字 | ||||||
同時合成1則 | 同時合成1則 | 同時合成2則 | 同時合成20則 | ||||||
價格 | 900 | 3,600 | 6,000 | 480 | 3,800 | 0 | 499 | 699 | 7,990 |
價/字 | 0.09 | 0.06 | 0.0032 | 0.0031 | 0 | 0.002 | 0.0019 | 0.0003 | |
價/月 | 450 | 300 | 300 | 480 | 316.6 | 0 | 499 | 699 | 7,990 |
我們也可以發現,目前各家都已逐步將台語作為重要的語言在做發展,未來是否會有客家語甚至原住民語會有,則未可知,但至少市場上一定是以族群多的開發為主體。
當然陽明交大的線上版台語語音生成、客語語音生成也都免費上線,對於教育(考試)發展會有立即的幫助,也是另一選擇。
總之,目前對於AI語音生意已漸有雛型,並有兩大業者在比拚,而且愈來愈趨向於雲端服務。這種生態在會議語音辨識也是同樣的狀況,例如長問科技(離線版)與迪威智能(雲端版),而且各大公司也都在做這種內部雲端服務。何種擅長與有利,其實就看不同的使用族群的感覺,就像是微軟從Office一定要365雲端,變成還是有離線版的,Adobe也是近來一直被說雲端版的計價方式坑錢而炎上。
只是AI語音愈來愈厲害後,仍要注意詐騙情事的層出不窮,老人甚至是一般人都不會辨識出來,真的是非常需要注意。