數據庫雙機熱備(http://www.expresscluster.net.cn/)
從2011年推出至今,IBM大數據平臺核心產品BigInsights在國內已經擁有許多合作伙伴,并涌現出不少優(yōu)秀的應用運行在BigInsights大數據平臺上。在剛剛結束的2013 IBM技術峰會上,來自深圳穎源科技的時俊杰先生向TechTarget中國記者介紹了基于IBM BigInsights的大數據分析應用落地經驗。
在IBM BigInsights平臺上開發(fā)了一套股市情緒分析系統(tǒng)。基于行為金融學理論和客觀的機器學習算法,對股市漲跌數據、社交媒體言論數據進行采集和挖掘。分析得出的結果能夠幫助投資者去洞察股市的情緒,從而預測市場。
股市情緒分析系統(tǒng)背后包含了信息采集系統(tǒng)和情緒分析引擎,前者會通過開放接口高效地采集所需要的投資者對于股市的評價以及對于市場漲跌情緒的表達;后者包含一系列復雜的語義分析算法。而在這兩個核心功能的背后,IBM BigInsights提供了非??煽坎⑶医训钠髽I(yè)級大數據后臺支持,包括企業(yè)級的Hadoop功能、文本分析的加速器、可視化管理工具、易于使用的開發(fā)工具以及系統(tǒng)管理界面等。
我們可以把BigInsights看作是IBM的Hadoop發(fā)行版,它在支持原生態(tài)的Hadoop數據存儲功能之外,還提供了一系列針對IBM軟件進行優(yōu)化的工具,比如DB2、Cognos的連接。然而Hadoop本身是一個開放的生態(tài)系統(tǒng),Apache社區(qū)也提供了相當豐富的工具集,比如ZooKeeper以及2.0版本中的YARN等。更重要的是,Apache Hadoop是免費的,用戶無需向供應商購買許可證就可以搭建自身的Hadoop大數據平臺。
針對在開源Hadoop和BigInsights之間的選擇問題,時俊杰的回答十分干脆,穎源科技在搭建分析應用之初就沒有考慮過使用開源Hadoop,因為開源雖然免費,但碰到一個問題可能很長時間都解決不了,因為技術支持跟不上。時俊杰認為,開源Hadoop只適合具有強大技術儲備的互聯網公司使用。而傳統(tǒng)企業(yè)級用戶很可能無法達到預期效果,他們更適合使用像IBM BigInsights這樣的成熟的解決方案。
在穎源科技的大數據分析應用中,IBM BigInsights相比于開源Hadoop的優(yōu)勢主要體現在以下幾個方面:1、它是企業(yè)級的Hadoop平臺,能夠消除單點故障;2、提供了性能保證,分析速度大幅提升;3、提供了可擴展的、豐富的信息集成工具;4、提高了生產效率以及可管理性;5、容易學習并掌握,提供了豐富的培訓資源。
這套基于IBM BigInsights的股市情緒分析系統(tǒng)將在近期發(fā)布。時俊杰介紹,未來這一應用也將考慮添加更多的數據源,并在更多的維度上進行情緒分析,為用戶提供更精準的體驗,包括BigInsights以及Stream在內的IBM大數據平臺在國內不同領域已經積累了很多合作伙伴,穎源科技就是其中之一。未來IBM還會緊密地與合作伙伴一起,推動不同行業(yè)的大數據應用真正落地。