Joe 好奇心遊記: 從錄音人的觀點看 Stereo, Hi-Fi

從錄音人的觀點看 Stereo, Hi-Fi

20121124 台中國際 Hi-Fi 音響展講座內容分享

前言

接到好意的邀請時，先給了這個"從錄音人的觀點看 Stereo, Hi-Fi"比較天馬行空講座題目，打算有空時，再花一點時間思考，把範圍縮小集中到某個方向。

若是幾個小時的分享，我大概不太需要長時間準備，只要帶著歷史錄音檔，說到哪，示範播音到哪，應該沒什麼問題。但限制50分鐘，要有中心主題，又不希望涵蓋範圍太窄，這就有內容選擇的難處。以下是我花了四五個晚上，每晚5-6小時準備的內容。

思考後，決定了內容的方向。

媒體已進步到 Wikipedia，其快速、即時、廣泛分享知識的特性，絕不是十年才再版一次的印刷版百科全書所能比擬。但是，[多數決的民主不等於是真理]，多數人同意的觀點，儘管放在 Wikipedia 無人異議，若無實證，仍只是許多人的 "個人意見"、"一說"、"假設"，這是印刷版、有專家一條一條目查證後方才放行的百科全書可以更令人信賴的原因。

集眾人之智的 Wikipedia 可信度尚且如此，個人/公司的網站，或是印刷媒體，也不可能因為其出版流通份數多就認為可以照單全收。現在印刷媒體流通廣、速，受到許多消費者依賴作為購買音響軟、硬體的憑據，這是一種方便。但古人言，儘信書，不如無書。若奉這些依賴廣告、雜誌消售量、網站流量.....作為營生的名家、主筆為真理，我看不太妥當。

許多音響迷儘管聽了長時間的 Hi-Fi，但對 stereo 的呈現到底應該是如何，可能不下百家之言。

我決定分享的內容，就是以錄音人的角度，分享 stereo 有兩種 : "被記錄"、或是 "製造" 出來，這兩者有差別，提供給音響人評判軟體的參考，日後在讀唱片評鑑時，有能力獨立思考/分辨，哪些立論是可尊敬的個人品味、哪些是可參考個人感想，哪些是值得思考的客觀描述、哪些是宣傳、哪些是 xxxxxx。

郭沫若指責林語堂：

“叫青年讀古書，而他自己卻連《易經》也看不懂。非但中文不好，連他的英文也未見得好。”

林反駁道：

“我的英語好不好，得讓英國人或美國人，總之是懂英語的人去批評。

至于《易經》，郭沫若也是讀的，我林語堂也是讀的。

我林語堂讀了不敢說懂，郭沫若讀了卻偏說懂，我與他的區別就在這里。”

先聲明 :

分享的內容，等於是我的讀書筆記、或是我實作心得、或是針對某些立論/假說花功夫去求證的考據結果、或是我對某一觀點的思考、或只是單純地說說我的喜好。我無意、也不應該，企圖將我個人的意見，傳達作為真理或作為專家之言。我可以問心無愧的說，錄音的書，我確實讀了不少。但更可以誠實的承認，我真讀懂的，可以專家面貌立言的，恐怕一本也沒有。

如同講座題目，這是我的 "觀點"。我又在這個部落格的開頭先聲明 "個人心得，許多是偏見，可別當真"

人不是神，人一定有偏見。我在這兒，就是要認真地說說我的偏見，與他家偏見齊列，供讀者多元參考。

總之，唱片、音響大家都聽，我也是聽的，若是我說，我聽了、又偏說懂，請讀者來罵我。

以下 : 投影片在前，說明的旁白在後

因為時間有限，許多觀點只能說 what，無法解釋 why，請聽眾理解。

1980年代中，我到了美國。在一片荒蕪的沙漠中，硬用地下水灌溉、數百畝、只有我孤單一人的農場打工，等待學校開學。很偏僻，電視收不到訊號。

買了小收音機，聽聽古典音樂廣播，看看書，排解晚上的無聊。一日，看著書，突然意識到收音機播的音樂，某個樂器不見了。放下書仔細聽，真的沒有。這時才發現，不像聽慣的大音響，小小收音機是無法重播交響樂團的所有細節。原先以為有聽到的內容，有很大部分是自己心理作用，將遺失的細節在心中補足。這是我第一次意識到心理音響學這回事。

以下要分享的內容，有很多與心理音響學有關。

請記住，您認為您聽到的聲音，往往是 物理音響 + 心理音響的總合。若您不能意識到自己的聽覺(sensation)是處在 "物理音響狀態"、或是 "心理音響狀態"，要作客觀的音響分辨，恐怕是有點難。

Stereo 字源是希臘，網路上有人這樣說明 .... is a method of sound reproduction that creates an illusion of directionality and audible perspective. 意思是說，在音響上，stereo 是可以令人產生幻象，從其可辨別音源方向、感受到音像的重播方式。

從錄音人的觀點，提到 stereo，直覺反應是 "明確的音像"，若作不到這一點，作mono 錄音、用一支喇叭重播就可以了，不必大費周章作 stereo 錄音、用兩支喇叭重播。

常常處在"心理音響狀態"的音樂人，通常有好的音樂內容(content)，意即好的演出，就可以滿足。單聲道、雙聲道，在音響上如何呈現，音樂人通常不是那麼在乎。

照理說，有能力將自己 "切換" 在"物理音響狀態"的音響人，既已被歸類為玩家級，在乎的是內容呈現的方式，那麼、一支、兩支、多支喇叭應該播出什麼樣的聲音，理當在玩家"玩"的範圍之內。

家中的音響，之所以有多支喇叭，而不是一支，為的就是能產生 stereo 音像。

廣義地說，stereo 指的是“使人能辨別音源方向”的能力，所以，只要是多聲道，都可以廣義地稱為 stereo，而不單指雙聲道。

對錄音人來說，stereo 是一種編碼/解碼的系統。

對音響人來說，stereo 音響應該是一種解碼系統

怎麼編碼，就怎麼解碼。雙聲道收音，就雙聲道播放。5.1編碼，5.1播放。7.1編碼，7.1播放。

沒有編碼，就無法解碼。若胡亂編碼，音像就胡亂呈現。這一種的，不是 stereo。

在這樣的系統中，錄音的工作，就是將現場的音像，用技術的手段，適當地編碼到錄音中，使其重播時，可以重現音像的幻覺。

對玩音響的人來說，您買的唱片，號稱 stereo，您可曾想過，那個錄音師是怎麼對 stereo 編碼 ? 若 "怎麼編碼，就怎麼解碼" 是個合乎邏輯的思考，那重播的音場/音像，應該是什麼樣子 ? 根據什麼為準 ?

去看錄音人如何為音像編碼前，我們先來看看人體如何辨別聲音來源方向。

人體只有左右兩個耳膜，作為聲音的感應器，可是對音源的方向的定位能力，是三度空間的。聲音從上、下、左、右、前、後，人都能判別。

能夠判別的原因 :

左、右耳有距離，可以依聲音抵達左右耳不同的時間差、音壓差、相位差，分辨左右的方向。

耳朵的耳廓向前，前、後不對稱，所以耳膜收音時，人可憑經驗、學習知道音源前後。

肩、胸只在耳朵下方，所以人體在耳朵這個位置的上、下構造不對稱，加上人體通常在地面上活動，耳朵離地有固定距離，聲音從上、下來，經過的反射路徑不同，人也可憑經驗、學習分辨音源上下。

上面所述，聲音經過人體頭部附近的器官，聲波本質產生改變後才傳入耳膜，這個使聲音產生變異的現象，是人類只用兩個耳膜，可以辨別3D音源方向的原因，科學家叫作 Head Related Transfer Function ( HRTF )

工程師理解 HRTF 之後，馬上就有了對策，在60、70年前就發展了能夠重現 3D錄音/重播的系統。

這個錄音方式，俗稱 "假人頭" 錄音 ( Dummy Head )，正式一點名稱是 binaural

它的邏輯很簡單，既然聲音到耳膜前會經過人體產生 HRTF 效應，那就作個假人體，在耳道內收音，事後在耳道內重播還原。

上右圖，不只是個頭，還有上半身軀，麥克風放在左右耳道內，這樣的方式，模擬的 HRTF 現象是比較完整的，頭、胸、肩部位對聲音的影響，都有模擬到。

上左圖，肩還在，但胸、軀不見了。HRTF 功能還大部分保留，但對於從上、下方向來的聲音的編碼強度大大地弱化了，對一般耳機來說，3D的編碼能力不太足，但2D的編碼能力是完美的。

套個現代的詞，這是標準的 "反向工程" 的例子 (reverse engineering)。

如何反向工程呢 ? 耳膜在耳道內收音，好、那我就將麥克風安置在那裡收音。

既然人耳是用耳膜聽音，且聲音是從耳道收錄，那就用耳膜的位置、同時也是收錄的位置、且外界干擾最少的耳機將聲音重播到耳膜。

尤其最近幾年大行其道的 "耳道式" 耳機，離耳膜更近，應該是最適合重播假人頭錄音的工具。

上圖是個假人麥克風，在牆的左邊收音，中間隔道牆，訊號穿過牆到右邊的耳機重播，在耳機內可以辨別聲音從上、下、左、右、前、後各方向來的幻象，右邊這個真人，透過耳機，彷彿是站在牆左邊聽到左邊房間的聲音。這是模擬 "聽的環境" 的重播方式，效果很理想。

它的美好，也是它美中不足之處。這種錄音，一定要耳機重播才有可能重現3D的定位，若用兩支喇叭重播，對不起，不管用的。在二聲道喇叭，它的效果只會類似下面會提到的其他 stereo 收音技術，只有2D的解碼還原能力。這是假人頭錄音在過去幾十年沒有大大風行的原因。

到了iPad/ iPhone 的時代，年輕人聽的，多半是耳機，假人頭的錄音，現在應該正逢其時。

假人頭的麥克風，用的最多的大概是德國 Neumann 的這組。注意它的胸、肩、軀都省略了。從上、下兩方向來的聲音，只單單靠耳朵的構造上下不對稱的特質來"編碼"，我的看法是上下編碼的 "強度" 降低了。

除了假人頭以外的雙麥克風技術，對3D的音場，只有能力作成2D編碼，對於音源上下高度的資訊，沒有能力對其編碼、重播。

這是為什麼在這裡先說明了假人頭的收音技術，是因為它是"只用兩個麥克風的條件下"，有能力在收音時作3D編碼，用耳機解碼還原3D音像的單一特例。這個編碼，是由物理機構的人頭模型所造成的，不是麥克風本身的作用。

若是假人頭的錄音，我們只用一邊耳機重播，另一支耳朵蓋起來，結果會如何 ?我沒有尋找過答案，但我認為，前後、上下的辦認的重播的能力仍在，只有左右的辨認能力弱化，甚至全無，效果應該和單耳失聰的人的聽覺相同。

到目前為止，我們談到 stereo，都是依其廣義的解釋，是3D的。

以下的內容，我們將 stereo 的定義縮小到，只用兩支喇叭重播條件下的雙聲道(立體聲)，所能呈現的 Stereo。

麥克風向四面八方收錄3D空間聲音的特性有很多種，如左邊這一排、不同收音特性的麥克風例子。

不管是哪一種收音特性，單獨一支麥克風收音之後，從一支喇叭重播時，在麥克風左側、右側、後側的音源，重播時，音像通通在喇叭軸線上排成一列，錄音時在麥克風前、後的樂器，重播時通通都在前方，聽眾只能辨別聲音的遠近，無法分辨前後、左右、上下。

換個方式說，一支麥克風去收舞台交響樂團，左邊小提琴，右邊大提琴，後面位置高一點的銅管、木管...後面1F、3F觀眾的掌聲，在喇叭重播，音像通通在正前方，無法辨別左右、上下。

這個例子說明了單支麥克風對3D空間的編碼能力，只能將3D的資訊，編成1D 的碼（無法辨別左右、上下，只能辨別遠近)。不只如此，編成的碼，還不是完整的 1D，只有半個 1D（無法辨別前後）。

將這單支麥克風編成的碼，不管用幾支喇叭去解碼還原，只能解出半個 1D、只能辨別遠近的音像。

把單支麥克風編碼能力的半個1Ｄ，想像成合起來的摺扇(像上圖其中任一條單獨的紅線)。

有兩支麥克風時，不論兩支麥克風組成的方式為何(上圖左邊一排,不同的stereo收音方式)，對3度空間的音場編碼能力有如打開的扇子，能編碼成一個扇形的2D平面(上圖兩個紅線形成的夾角)。

這個夾角，一般來說，在兩支喇叭重現音場/音像時，通常只有約60度夾角的解碼還原能力。有人認為角度應該更廣，在某些特定條件下，我也不反對這個觀點。不過，再怎麼廣，不會超過180度，所以，兩支麥克風/兩支喇叭的系統，能對3D空間編碼、解碼的能力極限，不過就是2D平面的一半(Y軸向紅線那一邊的半邊XY平面)。

這時候，可以辨別出左右的音像了，但是聲源的前後、上下資訊，雙麥克風無法編碼，雙喇叭也就無從解碼。若看到唱片評論、或錄音師，宣稱某個唱片、或雙聲道的音響系統，可以聽到音源音高度的資訊，這個時候，請聽眾細心去看看，他的收音編碼、解碼重播，是用什麼方法達成3D重播，立論基礎為何 ?

上圖有個圓球，看起來像假人頭，但若內置兩支麥克風，它能夠編碼的資訊，一樣只有2D平面的一半，在耳機內也不會重現3D空間感。

若要將高度資訊(3D的Z軸)作紀錄並還原重播，至少要三支或以上的麥克風組合、並且有三支喇叭以上、對應的重播組合，才有能力達成。

不論幾支麥克風收音，若只有兩支喇叭，重現音像的能力仍只是 2D 平面的一半。

上圖左，是四個麥克風頭各向著不同方向組合在一起，以四軌的方式，收錄3D全空間的聲音，並加上特製的解碼器/程式，可以將原始四軌訊號編碼成 N 個聲道，可以編成單、雙、三、四、五....N個聲道，編成幾聲道、就用幾支喇叭重播，可以還原3D空間的音場/音像，讓聽者辨別前後左右上下各方向音源。

這種方法，是英國學者 Michael Gerzon 在1960年代發明，稱為 Ambisonic，實驗證明其重現3D的能力，但編碼/解碼所需的訊號處理裝置，在當年電腦不普及的條件下，只能用類比線路去達成，所費甚高，效果也未必能達到最佳化，使得這種錄音/重播方式，普及有困難。現在這個時代，電腦、尤其是 DSP 成本大幅下降，Ambisonic 可能會漸漸流行。

要注意的是，即便是用 Ambisonic 錄音(或任何方式、任何支數的麥克風的錄音)，若只用兩支喇叭重播，還原的音場仍只有2D平面的一半。

喇叭的支數，限制了重現音場的維數(Dimension)。兩支喇叭，只能重現2D平面的一半

對錄音人來說，stereo 就是透過麥克風對音場/音像的一種 "透視"。好像攝影的透視一樣。

左上圖，一個平常不過的團體照，提供了一個的影像的幻象，說它是幻象，因為看到人有前有後，景深有分前後，每一個人物在 "透視" 中的位置，是在現場排排站，在攝影的那一瞬間，自然透過鏡頭 "記錄" 而成，結果是一張平面(2D)的紙，而不是複製的立體(3D)塑像。

下右圖，就不一樣了，是在不同地點、時間，單獨為每一個拍照，大夥人並沒有在現場人擠人排排站，而是事後再用 photoshop 人工方式去安排每個人在畫面中的位置、比例、陰影、組合而成。影中人，沒有在同一個時空存在在一起。影中的每一個主體在 "透視" 的相互關係，是人工組合的。

同樣的，stereo音像有兩種 : "現場記錄"、 "人工製造

在錄音工程的多種麥克風技法，只用兩支麥克風的stereo 收音就像上圖，是自然"記錄"不同樂器在現場的互動關係。

使用兩支以上麥克風收音、再混成雙軌的多軌錄音方式，就像上圖下半部用人工組合的方式，在後製時，"製造"出不同樂器之間的互動關係。

Stereo 麥克風收音技術，一般用兩支麥克風，有的，用到三支(例如 Decca Tree)。

前面說 Stereo 收音技術，是自然 "記錄" 音像，原因是，每支麥克風基本上都對整個音場收音，但藉著麥克風收音特性、角度、位置的不同，讓每一個不同音源在不同的麥克風之間，各自有 "時間差"、"強度差"、"相位差"。收錄這些 "差值"，就是對 stereo 音像 "編碼"。在雙喇叭上重播時，這些 "差值"，會在兩個喇叭間形成半個平面的音像幻象。

***** 2013-03 補充 *****

記錄這些"差值"，就是Stereo編碼的過程。用個例子說明

假設舞台上有 A, B, C 三個樂器演奏，自左至右排開

他們的面前有L,R兩支麥克風，左右分開放置

那 L 與 R 各自收到的訊號是不一樣的，兩者之間有 "差值"，舉例如下

單獨以 L 的角度來說

A, B, C 的聲音抵達到 L 的時間因距離不同，會有時間差、音量差

單獨用一支喇叭播放，可以聽出 A, B, C 的遠近，但無法分左右、無法分前後

或單獨以 R 角度來看, 也是一樣，

但 A,B,C 在 L 上記錄到的近、中、遠的相對關係，在 R 這邊記錄是相反 : 遠、中、近

L, R 各自對 A, B, C 位置的編碼，分別在左、右喇叭播出時，人耳可以從左、右兩喇叭播出不同的訊號聽出差值，這是解碼的過程，提供一個 stereo 幻象

***************

若是以 A 的角度來說，

A 的聲音分別抵達 L, R 時，因為距離不同，所以時間、音量不同，所以在 A-L, A-R 兩者之間所記錄的時間、音量是不同的，在 A-L,A-R 兩者之間的 "差值"，就是 L, R 對 A 記錄其在2D平面上的位置所作的編碼。在兩支喇叭重播時，人耳可以聽出這個 "差值"，形成 "音像"，可以感覺 A 在左右兩支喇叭間的位置。

這樣就完了嗎? 當然不止

若說 A 的聲音到左牆的第一個反射波分別到 L, R，那就有一組新的"差值" : A1-L, A1-R 被記錄下來

完了嗎? 當然還沒完

左牆的第 2 道反射波、第 3、4、5........N 道波，都會有不同組的差值 ( An-L, An-R) 被記錄

The End ? Surely not yet.

右牆呢 ? 後牆呢 ? 左牆撞右牆呢 ? 左-右-後 ? .......... 無數的反射再反射的波，都會在 L, R 上形成"差值"、"編碼"。

Wait ! There are more to come !

還有 B, C, 他們也會與 A 一樣，會有無數個差值 ( B-L, B-R, Bn-L, Bn-R, Cn-L, Cn-R.....)

這是台上只有 A, B, C 三項樂器的舉例

若是有百支樂器的交響樂團呢 ?

別煩惱

只要是位置適當的 stereo 麥克風，這 "無限多" 組的 "差值" 都可以被麥克風記錄 (編碼)

若是用多軌、每支樂器單獨配一支麥克風，事後再用人工去 "製造" 每支樂器在 "音像" (stereo image) 中的位置，可以作到真假不分嗎?

當然可以

若是為了快、省事，整個樂團分成左、中、右三大組，每組去作人工的定位、還有人工殘響，結果也可能令大多數人滿意。但真正有現場經驗的人，加上金耳朵，可能還是分辨得出不同。

若每支樂器單獨作定位、殘響，再混音，那時間加數十倍，不是件容易的工程。

************ "差值" *************

在這裡我說的 "差值" 是什麼呢 ?

前面提過，左、右兩支麥克風收到的訊號不同，所以有 "差值"，

這個 "差值" 有三個 : 時間差、相位差、音量差

若是單點 stereo (兩支麥克風在同一位置，麥克風膜向不同方向)，它們收到的差值是音量差和相位差，兩者之間是沒有時間差的

若是兩支麥克風不在同一點，則它們之間的 "差值" 是時間差和音量差。( 有沒有相位差，牽涉到定義的問題，在這裡，以我個人的觀點，先 "暫時" 當作沒有相位差)

*********** 補充完畢 **************

錄音人選用這些 stereo 技法，就好像攝影的人，選用不同鏡頭一樣，不同 stereo 收音方式，會形成不一樣的音像/音場。

上面的投影片內，是一些常用的 stereo 麥克風收音技術，我個人最喜歡單點。

近單點、Decca Tree 也都是各有優點的方法。

相對於 stereo 收音，多軌(multi-track)收音基本上一支麥克風只收一支(組)樂器、且希望排除其他聲部的聲音進入這支麥克風。換句話說，每支麥克風只要收單一對象的聲音，這個對象與整個團體的互動關係，是不希望收錄進去的。這個 "互動關係" 是後製時才用人工的方法 "製造" 出來。

例如大提琴、鋼琴合奏，若用 stereo 收音，兩樂器大小聲比例、左右位置、遠近....關係，會按麥克風收到的 "差值" 記錄下來形成音像。

若是用多軌錄音，各收各的音，最好在小提琴那一軌，完全沒有鋼琴的聲音，反之亦然。那任何一支樂器只在一支麥克風出現，不在其他麥克風中出現，當然無法作比較，"差值" 不存在，當然也就沒有這支樂器的音像定位編碼。換另一個角度看，每支麥克風都只收一支樂器，一般的實際操作，都是將麥克風儘量接近對象，如此一來，每支樂器的聲音，抵達在它前面的麥克風的時間都相同，所以聽起來都一樣遠近。加上，任一支麥克風只收一支樂器，多支樂器不同的遠近關係，在任一支麥克風中都不會被收錄，不同樂器被此之互動關係也就沒有被記錄下來。後製時，必需用人工的方式製造這些 "差值"、"互動關係"。

多軌的音像是虛擬的，這是它的先天不足、同時也是它的優點。技術上來說，在後製時，音色可以個別調整、整體比例可以調整、甚至樂句、單獨一個音、都可以調整。在聲部不平衡的團體，單獨為每一聲部，甚至是每一個人單獨收音，後製時可以任意重組，等於是重新 "演出"，而且，不完美之處，有很大幅度的調整/修正的空間。

不止如此，多軌技術還可以讓各聲部，分別在不同時間先後錄音，後製時才在電腦中組成 "合奏"。這個對沒時間排練的樂團最有用了。

目前的流行音樂，絕大多數是多軌錄音的產物，呈現的 stereo 是 "人工製造" 的。

若用多軌收音，那近距離在每一個樂器放一支麥克風單獨收音，各不相干，後製時再安排各自在音像中左右、遠近、音量比例....，但這是虛擬的，不是真的。前面說多軌是 delusion，因為這些對映關係，在收音時並沒有記錄下來，而是人工產生的。

前面提到 Stereo 收音，對音像編碼的方式是不同麥克風間收錄"時間差"、"音壓差"、"相位差"。那多軌收音排除這些"差值"的編碼，所以必需用人工方式製造這些差值來創造 stereo 音像。其方法，從最原始、最簡單的 pan law，單純只是調整每一軌在左右聲道有音壓差，到現代最新的 convolution reverb 的精密計算，進步神速，非常逼真。不過，樂器數少的時候，這個人工音像的產生逼真，但樂器數一多，要擬真的複雜度就非常高了。

我只作古典音樂錄音，以古典音樂來說，我認為音樂家企圖傳達給聽眾，成為感受(sensation)，是透過在現場空間自然合成的音響，傳達給聽眾。所以，錄音時，應記錄現場自然混合的結果，而不是以人工在後製時重組。

理由 :

例如，殘響短的音樂廳，小提琴家在 staccato 的樂段，大概不會覺得速度是個考慮因素。但在殘響量大、殘響長的廳，樂譜上記的 presto staccato 大概會自動緩下來，因為若過於快速，前音未消失，後音再上來，後音與前音打架，造成樂句的混濁，有知性、有經驗的演奏家應該不會忽視現場音響特性，在演奏技術上完全不作調整。這個例子，用在弦樂器的vibrato、弓法，也同樣適用。

因為音樂家這種在不同音效的場地會有意識、無意識地調整演奏技術、甚至曲目的詮釋，等於 "場地" 變成了音樂家樂器的一部分。這樣，不是單獨只是 "呈現的方式不同"，而是 "演奏內容也為了適應現場有了變化"。

因為這個看法，我作錄音時，第一考慮的是雙麥克風 stereo 收錄 "現場空間自然合成的音響"。這是忠實記錄演奏家原本企圖的最好方式。

多軌技術呢，那個混響、甚至是 "合奏"，都是人工合成的。所以，除非現場受限、或是演奏家已經將後製列為成音的手段，否則我不會用多軌，因為我喜歡 stereo 記錄的 illusion，勝過多軌的 delusion。

錄音時要考慮的，我自己歸納出 C. I. A. 3 大要點。

我認為，評一張唱片時，從錄音技術的角度來看，這 3 大點是最基本的起點。

論到個性，最基本，莫把小提琴錄成中提琴，對許多人來說，它們很像，但對內行的人來說，是不同的樂器。

再往上提一個層次，Stradivarius/Guarneri、Steinway/Boesendorfer...同樣是小提琴、同樣是鋼琴，但不同製琴師、不同廠的樂器，愛樂人可以很清楚辨別，最好在錄音中也可以分辨其不同的特質。

樂器的質感，與收音時麥克風的角度、距離、麥克風種類都有關係。

從錄音人的觀點，"個性" 這一項，需要的是對樂器、音樂本身的理解，多過技術。

前面說過，不同 stereo 收音方式，有如攝影時選用不同鏡頭，成音時的音場/音像是不同的。

第一個不同，就是音場寬度。

第二個不同、音場深度。

按選用的 stereo 收音方式、麥克風位置、音樂廳特性 ....，所形成的音場寬度，寬、窄、疏、密、遠、近....都有可能。

從錄音人的觀點，若我自己錄的音，呈現的音場，應該是上圖的哪一個音像，心中是確定的。若拿自己作的錄音來作喇叭擺位的調整，到底音場的寬度、深度應該在喇叭上有什麼樣的表現，心裡是有個底的。

若不知一張唱片的收音方式、還有錄音師實際 "記錄" 或 "製造" 的音場/音像的企圖是什麼，在這樣的條件下，我不會、也不敢論斷一套音響重播這張唱片的音場/音像是正確、或是不正確。

我只敢放心地決定，我喜歡與否。

拿張市售唱片來作同樣的事，我若沒有唱片錄音的收音資訊，音場應該多寬多深，那就非常費心猜了。有時唱片上的照片看得見錄音現場，那還可以用麥克風的擺位來猜猜錄音師的企圖，若連文字都沒有，我自己覺得錄音經驗越多，越覺得音場/音像這件事，不可隨意下定論。

自己作不少同場音樂會不同 stereo 收音的 A-B Test，本來認為聽多經驗多了，去判斷別人的錄音企圖呈現的音場應該更得心應手，聽多了後，反而覺得瞎猜不好，蓋各種收音方式的差異微妙，除非同一演出有各種收音作 A-B Test，否則單靠一個版本要判斷錄音師的企圖，我是還沒到家的專家，作不來。

有些樂評，音樂演奏、詮釋的評論以外，在沒有錄音技術資訊作後盾的情形下，還能對音場音像定位這些特質論斷其正確與否一番，我真希望有朝一日我也有那個能耐。

要論斷一個錄音的音場、音像，不太容易的原因，除了收音方式的微妙差異以外，另外就是電腦 "製造" 現實生活中不存的音樂廳的能力太好了。

像個水族箱的錄音室，後製成國家音樂廳 ? 沒問題。不過，這種人工音效，稍有經驗的耳朵就可聽得出來。

小廳 stereo 收錄的音像/音場，事後擴大變成大廳，No problem !! 嘿嘿，要聽出來是人工作的，不太容易喔 !! 因為音像/音場的資訊/編碼，是真實收錄的，把小廳人工加碼擴成大廳效果後，仍有一部分的真實性。

這裡有個 Blumlein stereo 收錄，台北木樓合唱團在台北中山堂的實際例子。受限於席位的限制，麥克風無法拉開夠遠，所以現場收錄的殘響稍稍不足，在事後加一點的人工殘響的例子。

大部分的殘響是收錄的，少部分是人工的。那個混聲、演出，都是自然 "記錄" 下來，不是我事後添加。是他們的演出、不是我的。獨唱的歌手是阿福，彩排試錄時決定了他站出來的位置，在麥克風與合唱團之間，不是單獨為他架一支 solo 麥克風再混聲進去的。

https://soundcloud.com/twconcerts/20091209-muller-grandfathers

從錄音人的觀點，一開頭說，stereo 是為音像/音場編碼/解碼的過程。

若編碼好，還原的音像就好。若編碼不好，音像不可能理想。

若是多軌，要作到每支樂器單獨定位明確，技術上作得到，可是要很多工夫。

固然這種虛擬音場特性很進步，聽起來像是個大廳，市售的唱片，音場(寬、深)的人工效果通常是令人無法分辨真假的，但是音像(每支樂器單獨的定位)可就是另外一回事了。

在市面上隨手以一張沒有錄音技術資訊的唱片作喇叭調整的參考片，我個人認為，彷彿是地上隨手撿一支木棍拿來當標準尺度量一樣不可靠。

我個人從錄音實務上去看何謂理想的 stereo :

真正一流 stereo 錄音，好過一流的多軌錄音

但是，好的 stereo/不作特效的錄音，必需在現場花時間試錄，時間、金錢雙重的成本，是個大問題。而且必需場地、演出都完美的條件下才能 "記錄" 到一流/完美的聲音。

讀者可以想想，一個交響樂團作唱片錄音 ( recording session ):

一早幾位人員到音樂廳，在各聲部佈線、可能架數十支麥克風，好辛苦，作多軌收音。團員抵達，開錄，聲部不平衡，沒關係，事後調整。長笛那個音忘了吹，沒關係，等一下團體散了之後補錄一下.......，分成幾個樂段，分別演出個數次，好了，收音完成。其他的，後製再來 "製造"。

若是 stereo 錄音，只有兩支麥克風，但是所有不完美的條件，後製時能更動的很少，所以在現場尋找最佳麥克風位置，就必需在整個樂團為了試錄的目的作演奏的情形下為之。如此一來，音樂家與錄音師都必需早早抵達現場，上百人在現場忙了幾個小時，終於，麥克風位置找到了，然後，開錄。

對行程滿滿的專業樂團，一整天的錄音行程，與三個小時的行程，當然後者的可行性比較高。

即便同是 stereo 收音，不同方法對音像的敏感度不同，也使得時間成本大大不同。有些 stereo 收音方式，對音像的記錄不是那麼敏感(對音源方向性編碼能力較弱者)，所以對於位置的選擇也不特別敏感，若事先知道音樂會內容，音樂會開演前半個小時，架在大約的地方就可以開工。

相反地，對音像敏感度高(重播時音源方向重現性準確的)的收音方式，尤其是單點收音，不論事先是否知道內容，一定要全程彩排時試錄，才能反覆試錄之後，決定最佳麥克風位置。

晚上 7 點半的音樂會，錄音的人下午 1 點就到場試錄，與6:30才到場，哪一個成本比較高 ?

所以，我的觀點 : 現實生活中，沒有所謂 "正確的錄音"、很少有 "完美的錄音"，大多是 "最佳妥協的錄音"。

在何處妥協、何處不可妥協，那不只是錄音技術的問題，更多的是音樂美學的素養。這也是區分音樂人、音響人的界線。

在多軌錄音、電腦特效遍佈唱片架的時代，返璞歸真的 stereo 收音、不作人工音效的錄音，聽起來如何 ?

這裡有個完全 "直錄" 的例子，不作任何人工加料，完全單純 "記錄" 現場的錄音

巴哈的小提琴無伴奏

照片是錄音的場地，小提琴家就站在圖中黑衣女孩的位置。

用了兩支一樣型號的 Blumlein 麥克風，相同方向收音，一支距離 100 cm，另一個 130 cm

Blumlein 麥克風前後都收音，所以現場的殘響是收錄的，不是人工加進去的。下面的例子亦同。

姑且不論你喜歡哪一個，從我在現場的作錄音的觀點，130 cm那一支的聲音很接近現場中近距離聽眾聽到的感受。

再重申一次 : 是小提家的演出，不是我的，我只是記錄，沒有用電腦特效參與演出

這位音樂家希望暫時匿名，所以我就不提名了。

https://soundcloud.com/twconcerts/da-t-20120323-bach-sonata-no1

https://soundcloud.com/twconcerts/da-t-20120323-bach-sonata

這是台南藝術大學的演奏廳，鋼琴是 Steinway D-274。殘響不長，但量大，對於這個音樂會的演奏組合、曲目，剛剛好。當日試錄時，我從耳機聽著，直覺我不必在後製加油添醋，可能是個完美的 stereo錄音，回家聽，果真是如此。

錄音時鋼琴在舞台正中，單點 Blumlein stereo 麥克風在舞台中央右側約2公尺的台下，斜著向前鋼琴收音，距離約 3公尺。

是音樂家的演出，不是我的，我只是記錄，沒有用電腦特效參與演出

雙鋼琴 : 蕭雅馨、蕭雅云

https://soundcloud.com/twconcerts/souvenirs-ballet-suite-for

https://soundcloud.com/twconcerts/souvenirs-ballet-suite-for-1

https://soundcloud.com/twconcerts/souvenirs-ballet-suite-for-2

https://soundcloud.com/twconcerts/souvenirs-ballet-suite-for-3

同一場

女高音 : 張瑞芬伴奏 : 蔡葡芳

https://soundcloud.com/twconcerts/20120306-soprano-widmung

女高音獨唱時，麥克風向中心移近一點，但仍是斜著正對著女高音。

兩者，在喇叭呈現的音像，應該在喇叭之間的中央，鋼琴應該是寬的，但不寬於喇叭的寬度。

上圖是 2011年 8 月為吳昭良老師所組的三重奏作錄音時的現場，Blumlein 麥克風最終的位置，在圖上白圈的位置，離演奏者約 6 公尺。

最後的成音，只作了些許 EQ，但沒有加人工殘響，呈現的成音是現場收錄的。

是音樂家的演出，不是我的，我只是記錄，沒有用電腦特效參與演出

與吳昭良老師相同的曲目，Decca 出品、鄭京和姐弟的三重奏。

正中央是 Neumann SM69 的麥克風，它可以切換成為 Blumlein，但也可以切成只向前收音的 XY、或 M/S，我在此不敢隨便猜它是切在哪一設定。另外在大提琴、小提琴，各架一支麥克風，我只能推論鋼琴也應有專用的麥克風。

看到這樣的安排，我只能猜成音是下列三者之一

1. 成音只用中央那支，以 Blumlein、XY、M/S 的方式，作純的的 stereo 收音

2. 中央那支不用，只用三支獨立的麥克風作多軌混音，

3. 所有的麥克風都混在一起，所以，音像有一部分是收錄的、一部分是人工編製的

在講座現場，我將吳昭良老師的錄音，與鄭京和的錄音，選取一小段，編輯成 A-B Test 播放。但那是個封閉、講座進行中不對外開放的空間，沒有公開播放的法律考量。

讀者請若真有興趣，請自己找這張唱片來比比看。

即便是 Stereo 錄音，不同的方法，音像寬度、音場深度差異也很大。

這個例子是在國家音樂廳的小廳的實況錄音。小廳正中央掛有一對 Schoeps 的 ORTF，與我的 Blumlein 同時收錄。可以比較兩者的音像寬度、音場深度

ORTF 如前述，是在舞台正中央，但我的Blumlein 為了適應大提琴向著第一小提琴而坐的角度、四聲部的平衡，架到舞台下，小提琴右手外側，從台下正面看，它在四重奏的畫面之外，斜斜地對向舞台中央。

兩者都是原始收音，只有將兩者的音量調整到一致，沒有作任何音效。

這是 Schoeps ORTF

https://soundcloud.com/twconcerts/nostalgia-ortf

這是我的 Blumlein

https://soundcloud.com/twconcerts/nostalgia-blumlein

這是兩者的 A-B Test，可以比較音像的寬度、深度的不同

旋律先出現的是 ORTF，立即反覆在後的是 Blumlein

https://soundcloud.com/twconcerts/ortf-b-nostalgia-a-b-a-b-2

同一場錄音，不同曲目，一樣， ORTF 先，Blumlein 在後反覆

https://soundcloud.com/twconcerts/1-20120714-ortf-raw-vs

錄音的場合，演出是第一優先，沒有時間讓錄音的人擺擺弄弄作一堆麥克風的實驗。

在同一場合用不同麥克風技術同時收錄的機會有一些，但不多。取得演奏家同意在此播放作試聽樣品的更少。

所以，很遺憾，無法在此為各位播放更多的 A-B Test，呈現不同麥克風收音形成不同的音像/音場。

前面的兩個例子---- 吳老師三重奏 vs. 鄭氏三重奏、 ORTF vs. Blumlein -----，若您的 stereo 喇叭擺位適當，應該聽得出音像的分佈所有不同。若您可以聽出音像分佈差異很大，那麼，拿一張音像資訊不明的唱片，當成喇叭調整的依據，可靠嗎 ?

您買來的試聽片，到底在錄音時編碼進去的音像/音場是什麼樣子 ? 您知道嗎？

今天我帶給聽眾的內容，還有試聽片段，只是要說明一個觀點 :

若不知錄音時將 stereo 編碼成什麼模樣，調整音響時，要確定 stereo 呈現音場的目標是有困難的。

在資訊不足的條件下，調出來的音響所呈現的音場，只能說是 "我喜歡"。

"只要我喜歡，沒什麼不可以"。對的，喜歡就好，這是音響 "玩" 得出樂趣的所在。

但若將這個 "我喜歡"，推論成 "正確的錄音"、"正確的音響調整"。我自己不會這樣作。

前面說過了，科技進步，若水族箱似的錄音室都可以變成國家音樂廳，除此以外，能作的事，還多著呢。唱過高檔 KTV 的人，都應該可以體會這是什麼意思。

前面說了一堆 stereo 觀點，那 Hi-Fi 呢　？

fidelity 說的是 "複本對原件忠實"。這個字現代的用法，最常用的是夫妻關係之間的忠實。

有名的英國音響技術人 Michael Gerzon 說過兩段話，我想在這裡說一說。

在1970年代，與人論戰錄音技術時，Gerzon擁護單點收音，他說 :

論到單點收音 vs 多軌收音

"The creative flexibility of multitrack is bought at the expense of sacrificing certain desirable qualities of sound; as always in technical matters, one never gets something for nothing."

“多軌的靈活性，是以犧牲某些我們想要的聲音特質所換得的；幾乎不例外地，在技術上，有得必有失”

"If you disagree on these points, then you clearly find a very different meaning in classical music from me"

“若您不同意這幾點，顯然您在古典音樂上所領受到的意義，與我的大不相同”

前面的一段話，他是為了對抗 "獨尊多軌錄音" 所立的觀點 : "技術上的方便常是以犧牲音樂本質為代價"。 one never gets something for nothing (天下沒有白吃的午餐)，

我認為，不論選用任何錄音技術，都有其優點、與必需付出的代價(缺點)，錄音師必需在音樂人、音響人對立的觀點中，作一個妥協。

第二段，說的是若想要得到技術上的方便或效果，通常付的代價是犧牲音樂的本質。若錄音人認為犧牲音樂本質是可接受的，那這位錄音人對古典音樂的認知，與 Michael Gerzon 對古典音樂的認知的本質一定不同。

回頭看我前面所舉的例子 : 小提琴家會隨著現場殘響特性不同，調整演奏的技術、甚至樂曲銓釋。這個現場演出的特質，是演出音樂的本質。

從這個例子，我對 Michael Gerzon 後面這段話的理解是 : 錄音本來目的是要作一份忠實於原貌的聲音複本(hi-fidelity的本意)，但為了與技術妥協或求技術上的方便，在收音時未將聲音本質的全貌收錄，事後用人工手段補足，這樣一來，音樂的本質被犧牲了 ------- 手段變成目的了。

我作錄音之後，對 Hi-Fi 的觀點 (單論古典音樂)

1. 商業發行的錄音，常常不是 Hi-Fi，因為完全不含 "人工製造" 成分的錄音媒體很少。常常，最嚴謹定義(如 Michael Gerzon的認知)的古典音樂本質已經被改變了

2. 所謂的 fidelity，若是像婚姻關係的忠實，那作錄音時，一定有許多誘惑，想要作更“美”、但其實是對音樂本質是更“差”。某些誘惑所帶來刺激但不忠實音效的快感，是必需要割捨的，那是為了要維持忠實 fidelity，該付出的代價。

3. 沒有人說一定要忠於音樂本質、或一定要忠實還原現場。純粹音效帶來的快感/美感，也可以帶來心靈正面的樂趣，但請不要誤認它是 Hi-Fi

4. 許多因為不得以的因素所作出來非-Hi-Fi 的錄音，只要音樂是好的，欣賞時，藉著聽覺切換到 "心理音響" 的模式，我也能甘之如飴。面對這樣的好音樂，我不會與 Hi-Fi 混為一談。好的演出、與忠實的重播呈現，是兩回事。

5. 有實力的音樂演出，若條件許可，應該認真考慮真正 Hi-Fi 的錄音，莫讓錄音師隨意參與演出

6. 對音響迷，不是真正 Hi-Fi 的錄音，常常不是真正合適作為調整音響的參考。

對於音響的調整，尤其是喇叭的擺位，調整後音場/音像的目標，應該是什麼，與參考軟體是習習相關的。

Stereo 收音的軟體，對喇叭的擺位要求，與用人工製造的 stereo，在目標音場的定義上，是有差異的。

心理音響學，像是個鬼魅，如真似幻，使人音響擺弄了大半天，以為已經在康莊大道上。

若沒有合適的錄音媒體、及錄音背景技術資訊 ( 知道如何編碼 > 才能知道如何解碼 )，隨便道聽途說拿來作調整音響的參考，這是問道於盲。

我希望我的錄音一樣對音樂忠實，它是我追求的目標。

分享到此。

2013年9月3日 星期二

從錄音人的觀點看 Stereo, Hi-Fi

2013年9月3日星期二