數(shù)據(jù)庫雙機(jī)熱備(http://www.expresscluster.net.cn/)
從2011年推出至今,IBM大數(shù)據(jù)平臺核心產(chǎn)品BigInsights在國內(nèi)已經(jīng)擁有許多合作伙伴,并涌現(xiàn)出不少優(yōu)秀的應(yīng)用運(yùn)行在BigInsights大數(shù)據(jù)平臺上。在剛剛結(jié)束的2013 IBM技術(shù)峰會上,來自深圳穎源科技的時(shí)俊杰先生向TechTarget中國記者介紹了基于IBM BigInsights的大數(shù)據(jù)分析應(yīng)用落地經(jīng)驗(yàn)。
在IBM BigInsights平臺上開發(fā)了一套股市情緒分析系統(tǒng)?;谛袨榻鹑趯W(xué)理論和客觀的機(jī)器學(xué)習(xí)算法,對股市漲跌數(shù)據(jù)、社交媒體言論數(shù)據(jù)進(jìn)行采集和挖掘。分析得出的結(jié)果能夠幫助投資者去洞察股市的情緒,從而預(yù)測市場。
股市情緒分析系統(tǒng)背后包含了信息采集系統(tǒng)和情緒分析引擎,前者會通過開放接口高效地采集所需要的投資者對于股市的評價(jià)以及對于市場漲跌情緒的表達(dá);后者包含一系列復(fù)雜的語義分析算法。而在這兩個(gè)核心功能的背后,IBM BigInsights提供了非??煽坎⑶医训钠髽I(yè)級大數(shù)據(jù)后臺支持,包括企業(yè)級的Hadoop功能、文本分析的加速器、可視化管理工具、易于使用的開發(fā)工具以及系統(tǒng)管理界面等。
我們可以把BigInsights看作是IBM的Hadoop發(fā)行版,它在支持原生態(tài)的Hadoop數(shù)據(jù)存儲功能之外,還提供了一系列針對IBM軟件進(jìn)行優(yōu)化的工具,比如DB2、Cognos的連接。然而Hadoop本身是一個(gè)開放的生態(tài)系統(tǒng),Apache社區(qū)也提供了相當(dāng)豐富的工具集,比如ZooKeeper以及2.0版本中的YARN等。更重要的是,Apache Hadoop是免費(fèi)的,用戶無需向供應(yīng)商購買許可證就可以搭建自身的Hadoop大數(shù)據(jù)平臺。
針對在開源Hadoop和BigInsights之間的選擇問題,時(shí)俊杰的回答十分干脆,穎源科技在搭建分析應(yīng)用之初就沒有考慮過使用開源Hadoop,因?yàn)殚_源雖然免費(fèi),但碰到一個(gè)問題可能很長時(shí)間都解決不了,因?yàn)榧夹g(shù)支持跟不上。時(shí)俊杰認(rèn)為,開源Hadoop只適合具有強(qiáng)大技術(shù)儲備的互聯(lián)網(wǎng)公司使用。而傳統(tǒng)企業(yè)級用戶很可能無法達(dá)到預(yù)期效果,他們更適合使用像IBM BigInsights這樣的成熟的解決方案。
在穎源科技的大數(shù)據(jù)分析應(yīng)用中,IBM BigInsights相比于開源Hadoop的優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面:1、它是企業(yè)級的Hadoop平臺,能夠消除單點(diǎn)故障;2、提供了性能保證,分析速度大幅提升;3、提供了可擴(kuò)展的、豐富的信息集成工具;4、提高了生產(chǎn)效率以及可管理性;5、容易學(xué)習(xí)并掌握,提供了豐富的培訓(xùn)資源。
這套基于IBM BigInsights的股市情緒分析系統(tǒng)將在近期發(fā)布。時(shí)俊杰介紹,未來這一應(yīng)用也將考慮添加更多的數(shù)據(jù)源,并在更多的維度上進(jìn)行情緒分析,為用戶提供更精準(zhǔn)的體驗(yàn),包括BigInsights以及Stream在內(nèi)的IBM大數(shù)據(jù)平臺在國內(nèi)不同領(lǐng)域已經(jīng)積累了很多合作伙伴,穎源科技就是其中之一。未來IBM還會緊密地與合作伙伴一起,推動不同行業(yè)的大數(shù)據(jù)應(yīng)用真正落地。