MongoDB 聚合

聚合操作過程中的數據記錄和計算結果返回。聚合操作分組值從多個文檔，並可以執行各種操作，分組數據返回單個結果。在SQL COUNT（*）和group by 相當於MongoDB的聚集。

aggregate() 方法

對於在MongoDB中聚集，應該使用aggregate()方法。

語法:

aggregate() 方法的基本語法如下

>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

例子:

在集合中，有以下的數據：

{
   _id: ObjectId(7df78ad8902c)
   title: 'MongoDB Overview', 
   description: 'MongoDB is no sql database',
   by_user: 'yiibai yiibai',
   url: 'http://www.gitbook.net',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 100
},
{
   _id: ObjectId(7df78ad8902d)
   title: 'NoSQL Overview', 
   description: 'No sql database is very fast',
   by_user: 'yiibai yiibai',
   url: 'http://www.gitbook.net',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 10
},
{
   _id: ObjectId(7df78ad8902e)
   title: 'Neo4j Overview', 
   description: 'Neo4j is no sql database',
   by_user: 'Neo4j',
   url: 'http://www.neo4j.com',
   tags: ['neo4j', 'database', 'NoSQL'],
   likes: 750
},

現在從上麵的集合，如果想顯示一個列表，有很多用戶寫的教學，那麼使用 aggregate() 方法，如下所示：

> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])
{
   "result" : [
      {
         "_id" : "yiibai yiibai",
         "num_tutorial" : 2
      },
      {
         "_id" : "yiibai yiibai",
         "num_tutorial" : 1
      }
   ],
   "ok" : 1
}
>

上述使用的情況相當於SQL查詢 select by_user, count(*) from mycol group by by_user

在上麵的例子中，我們已分組字段 by_user 文檔，並在每個的次數by_user先前的值總和遞增。冇有聚集表達式列表。

表達式	描述	實例
$sum	總結從集合中的所有文件所定義的值.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg	從所有文檔集合中所有給定值計算的平均.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min	獲取集合中的所有文件中的相應值最小.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max	獲取集合中的所有文件中的相應值的最大.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push	值插入到一個數組生成文檔中.	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet	值插入到一個數組中所得到的文檔，但不會創建重複.	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first	根據分組從源文檔中獲取的第一個文檔。通常情況下，這才有意義，連同以前的一些應用 “$sort”-stage.	db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last	根據分組從源文檔中獲取最後的文檔。通常，這才有意義，連同以前的一些應用 “$sort”-stage.	db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

管道概念

在UNIX 命令 shell 管道是指一些輸入和輸出作為輸入下一個命令等執行操作的可能性。 MongoDB 聚合框架也支持同樣的概念。有一組可能的階段，每個這些的一組文檔作為輸入，並產生一個結果集的文件（或最終生成的JSON文檔在管道末端）。然後又再次被用來為下一階段等。

可能的階段聚合框架如下：

$project: 用於選擇從收集的一些具體字段。
$match: 這是一個濾波操作，因此可以減少量，作為下一階段的輸入給定的文檔。
$group: 如上所討論的，這不實際的聚合。
$sort: 文件排序。
$skip: 與此有可能向前跳過的文件列表中的一個給定的的文檔數量。
$limit: 這限製了的文檔數量看一下由從當前位置開始的給定數
$unwind: 這是用來平倉文檔的中使用數組。使用數組時，數據是一種pre-joinded，再次有個彆文件，此操作將被取消。因此，這個階段，數量會增加文件的下一階段。