NoSQLとBig Data


前記事

データ格納の今後について考える前のおさらい

今後のデータ格納は、NoSQLかと言う話、個人的にはそうはならないと言うか性質が違うよと言う話。
あとesriの動向

個人的には、[HTML5]とか[ビッグデータ]とか[クラウド]とかはセールスマンが言うべき(?)単語であってバズワードだとは思うが。。
とりあえずDBMSに格納できるのにビッグデータとか言っちゃうのは何とかならないのだろうか。
今までと変わらないのに「特別ななにか」に仕立て上げたいのは理解できるが半分以上詐欺成分で出来ていそうだ。
プライベートクラウドも相当胡散臭いが。。(それ、ただのサーバじゃ…)

ちなみにesriはこんな感じ、Hadoopが主流の模様

http://blogs.esri.com/esri/arcgis/2013/08/16/st_geometry-aggregate-functions-for-hive-in-spatial-framework-for-hadoop/

http://blogs.esri.com/esri/arcgis/2013/08/09/vehicle-trip-discovery-with-gis-tools-for-hadoop/

NoSQLデータ格納は色々あるが、基本的にどんなものかというと ( KVS / カラム指向 / ドキュメント指向)
RDBMSからトランザクション等(持ってるものはあるが)の一部機能を削って、SQLアクセスを辞めて高速化しましょうと言う話。

2010年ごろには「 Moving Away from NoSQL」と言う発言で終わっているって訳でもないけど限定的な使い方しかできないよね、と言う話になっている。
なので今現在は、戦国時代だが用途に応じてOpenSource系ならこれ等淘汰されていくだろう。

NoSQLの速度比較している記事もネットに転がっているので確認すると良い。
ついでにSQLite検証して一番速かったりと言う記事を見るが、マシン間・プロセス間の通信がなくSELECTのみマルチスレッド対応 (プロセスは非対応)な
SQLiteは比較対象となりえないのではないかと思うのだが、余分な要素を排除すればそれは速くなる。

ではどういう風になにに役立てればいいかと言う事を考えて行くべきものなのでまずは特性を理解していこうという話。

今のところセンサ情報等処理追いつかないペースで入ってくるものを集約分析してまとめた状態をRDBMS格納で良いのでは
無かろうかと、並列分散でキャッシュ作成(画像生成)がHadoopのプロセス側で出来れば…esriに期待

覚えなきゃと焦っている人は、まだ確定系がないのでRDBMSが進化してNoSQLなんてイランと言う話になるかもと言う事に
ならんではないかもしれないので (あるいは覚えたものが消え去る) 念頭に置いておこう。

NoSQL関連の情報はいくらでもある
http://www.paolocorti.net/2009/12/06/using-mongodb-to-store-geographic-data/

カテゴリー: 雑記, 設計, 動向 タグ: , パーマリンク