大量データ処理 (1.7億レコードほど)


1億7千万件ほどのポイントデータを10万件ほどの道路データにくっつける処理。
元データは下記記事
https://jpusergis.wordpress.com/2014/07/15/new-york-city-taxi-cab-data/

取り敢えず適当にやっても7 × 24時間では結果が返ってこなさそう ( 168時間以上 )
やはりなんか考えないと駄目そうだね。

SELECT * INTO
 road_pickup 
FROM
(
SELECT
 row_id,
(SELECT TOP 1
 OBJECTID
FROM
 すきーま.ROAD AS DstPt
WHERE
 FeatureTyp = N'0' AND SegmentTyp = N'U' AND
 DstPt.SHAPE.STIntersects(OrgPT.pickup.STBuffer(500)) = 1
ORDER BY
 DstPt.Shape.STDistance(OrgPT.pickup)
) DST_OID
FROM
 nyc_taxi_trip OrgPT
) JOIN_TAB
カテゴリー: 開発, 設計 タグ: パーマリンク