GitHub9800
diff --git a/‎chapter2_基础/2.1采集与读取.mdown‎
Lines changed: 170 additions & 0 deletions b/‎chapter2_基础/2.1采集与读取.mdown‎
Lines changed: 170 additions & 0 deletions
diff --git a/‎chapter2_基础/2.2语音编辑.mdown‎
Lines changed: 71 additions & 0 deletions b/‎chapter2_基础/2.2语音编辑.mdown‎
Lines changed: 71 additions & 0 deletions
diff --git a/‎chapter2_基础/2.3声强与响度.mdown‎
Lines changed: 111 additions & 0 deletions b/‎chapter2_基础/2.3声强与响度.mdown‎
Lines changed: 111 additions & 0 deletions
@@ -0,0 +1,170 @@
+
+## 语言录制
+~~~py
+import pyaudio
+import wave
+
+CHUNK = 1024
+FORMAT = pyaudio.paInt16
+CHANNELS = 2
+RATE = 16000
+RECORD_SECONDS = 2
+WAVE_OUTPUT_FILENAME = "Oldboy.wav"
+
+p = pyaudio.PyAudio()
+
+stream = p.open(format=FORMAT,
+                channels=CHANNELS,
+                rate=RATE,
+                input=True,
+                frames_per_buffer=CHUNK)
+
+print("start recording......")
+
+frames = []
+
+for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
+    data = stream.read(CHUNK)
+    frames.append(data)
+
+print("end!")
+
+stream.stop_stream()
+stream.close()
+p.terminate()
+
+wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
+wf.setnchannels(CHANNELS)
+wf.setsampwidth(p.get_sample_size(FORMAT))
+wf.setframerate(RATE)
+wf.writeframes(b''.join(frames))
+wf.close()
+~~~
+## 语音播放
+~~~py
+"""PyAudio Example: Play a WAVE file."""
+
+import pyaudio
+import wave
+
+CHUNK = 1024
+FILENAME = 'C2_1_y.wav'
+
+
+def player(filename=FILENAME):
+    wf = wave.open(filename, 'rb')
+
+    p = pyaudio.PyAudio()
+
+    stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
+                    channels=wf.getnchannels(),
+                    rate=wf.getframerate(),
+                    output=True)
+
+    data = wf.readframes(CHUNK)
+
+    while data != b'':
+        stream.write(data)
+        data = wf.readframes(CHUNK)
+
+    stream.stop_stream()
+    stream.close()
+
+    p.terminate()
+
+
+player(FILENAME)
+~~~
+
+## 读取并可视化
+~~~py
+import librosa  # 填充，默认频率为22050，可以改变频率
+from scipy.io import wavfile  # 原音无损
+import numpy as np
+import librosa.display
+import matplotlib.pyplot as plt
+fs, data = wavfile.read('C2_1_y.wav')  # 原始频率，原始数据
+print("长度 = {0} 秒".format(len(data) / fs))
+data1, sample_rate = librosa.load('C2_1_y.wav')
+print("长度 = {0} 秒".format(len(data1) / sample_rate))
+plt.figure(figsize=(14, 5))
+librosa.display.waveplot(data1, sample_rate)
+plt.show()
+~~~
+## 通用基础类
+~~~py
+import pyaudio
+import wave
+import librosa
+import librosa.display
+import matplotlib.pyplot as plt
+
+
+# from scipy.io import wavfile
+
+class soundBase:
+    def __init__(self, path):
+        self.path = path
+
+    def audiorecorder(self, len=2, formater=pyaudio.paInt16, rate=16000, frames_per_buffer=1024, channels=2):
+        p = pyaudio.PyAudio()
+        stream = p.open(format=formater, channels=channels, rate=rate, input=True, frames_per_buffer=frames_per_buffer)
+        print("start recording......")
+        frames = []
+        for i in range(0, int(rate / frames_per_buffer * len)):
+            data = stream.read(frames_per_buffer)
+            frames.append(data)
+        print("stop recording......")
+        stream.stop_stream()
+        stream.close()
+        p.terminate()
+        wf = wave.open(self.path, 'wb')
+        wf.setnchannels(channels)
+        wf.setsampwidth(p.get_sample_size(formater))
+        wf.setframerate(rate)
+        wf.writeframes(b''.join(frames))
+        wf.close()
+
+    def audioplayer(self, frames_per_buffer=1024):
+        wf = wave.open(self.path, 'rb')
+        p = pyaudio.PyAudio()
+        stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
+                        channels=wf.getnchannels(),
+                        rate=wf.getframerate(),
+                        output=True)
+        data = wf.readframes(frames_per_buffer)
+        while data != b'':
+            stream.write(data)
+            data = wf.readframes(frames_per_buffer)
+
+        stream.stop_stream()
+        stream.close()
+        p.terminate()
+
+    def audiowrite(self):
+        pass
+
+    def audioread(self):
+        data, sample_rate = librosa.load(self.path)
+        return data, sample_rate
+
+    def soundplot(self, data=[], sr=22050, size=(14, 5)):
+        if len(data) == 0:
+            data, _ = self.audioread()
+        plt.figure(figsize=size)
+        librosa.display.waveplot(data, sr=sr)
+        plt.show()
+
+
+sb = soundBase('C2_1_y.wav')
+data, sr = sb.audioread()
+sb.soundplot(data, sr)
+
+~~~
+## matlab版本更新后函数更新
+matlab老版本（如matlab2010）使用的函数名在新版本中已经取消了，对应关系如下：
+|旧|新|
+|--|--|
+|wavrecord|audiorecorder|
+|wavplay|audioplayer|
+|wavwrite|audioplayer|
@@ -0,0 +1,71 @@
+## 信号相加
+读取了语音信号之后可以看到是一个一维数组，可以直接通过一维数组（列表）的形式进行操作。在两个序列长度不一样时候，可以在短的一个序列后补零。
+~~~py
+class soundBase:
+    def __init__(self, path):
+        self.path = path
+
+    def sound_add(self, data1, data2):
+        if len(data1) < len(data2):
+            tmp = np.zeros([len(data2)])
+            for i in range(len(data1)):
+                tmp[i] += data1[i]
+            return tmp + data2
+        elif len(data1) > len(data2):
+            tmp = np.zeros([len(data1)])
+            for i in range(len(data2)):
+                tmp[i] += data2[i]
+            return tmp + data1
+        else:
+            return data1 + data2
+~~~
+
+## 卷积
+卷积是一个常用的计算，两个序列$x_1,x_2$的卷积表达式为：
+$$y(n)=\sum\limits_{k=-\infty}^{\infty}x_1(k)x_2(n-k)$$
+
+对于离散信号来说：
+$$y(n)=\sum\limits_{k=0}^{N}x_1(k)x_2(n-k)$$
+
+计算方式可以参考[一维信号的卷积认识](https://blog.csdn.net/sinat_18131557/article/details/103432004)
+
+## 采样频率的转化
+采样频率的转化是为了做升采样和降采样。降采样是对序列$x(n)$间隔$D-1$个点进行抽取：
+$$x_D(m)=x(Dm)\tag{抽取}$$
+
+其中$D$为正整数。为了米面抽取序列后频谱混叠，通常在抽取前将信号通过一个抗混叠滤波器。
+内插就是在原序列的样本点之间插入$I-1$个值，原始序列为$x(n)$,内插后的序列为$x_I(m)$
+$$x_I(m)=\left\{\begin{array}{ll}
+    x(\frac{m}{I})&,m=0,±I,±2I...\\
+    0&,others
+\end{array}\right.\tag{内插}$$
+
+内插之后，通过低通滤波器，移植混叠信号。
+
+在matlab中都可以通过`resample`函数来进行，通过配置参数的不同即可。在python的实现中，利用`audiowrite`的参数`fs`来实现，在读取信号的时候，输出fs,然后对fs进行变化后写入。
+~~~py
+class soundBase:
+    def __init__(self, path):
+        self.path = path
+
+    def audiowrite(self, data, fs, binary=True, channel=1, path=[]):
+        if binary:
+            wf = wave.open(self.path, 'wb')
+            wf.setframerate(fs)
+            wf.setnchannels(channel)
+            wf.setsampwidth(2)
+            wf.writeframes(b''.join(data))
+        else:
+            if len(path) == 0:
+                path = self.path
+            wavfile.write(path, fs, data)
+
+    def audioread(self):
+        fs, data = wavfile.read(self.path)
+        return data, fs
+
+sb = soundBase('C2_2_y.wav')
+data, fs = sb.audioread()
+sb_cc = soundBase('C2_2_y_conved_2.wav')
+sb_c.audiowrite(data, fs * 2)
+~~~
@@ -0,0 +1,111 @@
+## 声压
+声压是定量描述声波的最基本的物理量，它是由于声扰动产生的逾量压强，是空间位置和时间的函数。由于声压的测量比较易于实现，而且通过声压的测量也可以间接求得质点振速等其他声学参量，因此，声压已成为人们最为普遍采用的定量描述声披性质的物理量。
+### 有效声压
+通常讲的卢压指的是有效声压，即在一定时间间隔内将瞬时声压对时间求方均根值所得。设语音长度度为$T$， 离散点数为$N$， 则有效声压的计算公式为
+$$P_e=\sqrt{\frac{1}{T}\sum\limits_{n=1}^Nx^2\Delta t}=\sqrt{\frac{1}{N\Delta t}\sum\limits_{n=1}^Nx^2\Delta t}=\sqrt{\frac{1}{N}\sum\limits_{n=1}^Nx^2}$$
+
+
+
+其中$x$表示采样点。只要保证所取的点数$N$足够大，即可保证计算的准确性。用于计算声压级值的语音帧长一般为20ms、50ms、100ms、200ms以及500ms。计算的结果是一个序列。
+
+~~~py
+class soundBase:
+    def __init__(self, path):
+        self.path = path
+
+    def audioread(self, formater='sample'):
+        """
+        读取语音文件
+        2020-2-26   Jie Y.  Init
+        :param formater: 获取数据的格式，为sample时，数据为float32的，[-1,1]，同matlab同名函数. 否则为文件本身的数据格式
+        :return: 语音数据data, 采样率fs
+        """
+        fs, data = wavfile.read(self.path)
+        if formater == 'sample':
+            data, _ = librosa.load(self.path, sr=fs)
+        return data, fs
+
+    def SPL(self, data, fs, frameLen=100, isplot=True):
+        """
+        计算声压曲线
+        2020-2-26   Jie Y.  Init
+        :param data: 语音信号数据
+        :param fs: 采样率
+        :param frameLen: 计算声压的时间长度(ms单位)
+        :param isplot: 是否绘图，默认是
+        :return: 返回声压列表spls
+        """
+
+        def spl_cal(s, fs, frameLen):
+            """
+            根据数学公式计算单个声压值
+            $y=\sqrt(\sum_{i=1}^Nx^2(i))$
+            2020-2-26   Jie Y. Init
+            :param s: 输入数据
+            :param fs: 采样率
+            :param frameLen: 计算声压的时间长度(ms单位)
+            :return: 单个声压数值
+            """
+            l = len(s)
+            M = frameLen * fs / 1000
+            if not l == M:
+                exit('输入信号长度与所定义帧长不等！')
+            # 计算有效声压
+            pp = 0
+            for i in range(int(M)):
+                pp += (s[i] * s[i])
+            pa = np.sqrt(pp / M)
+            p0 = 2e-5
+            spl = 20 * np.log10(pa / p0)
+            return spl
+
+        length = len(data)
+        M = fs * frameLen // 1000
+        m = length % M
+        if not m < M // 2:
+            # 最后一帧长度不小于M的一半
+            data = np.hstack((data, np.zeros(M - m)))
+        else:
+            # 最后一帧长度小于M的一半
+            data = data[:M * (length // M)]
+        spls = np.zeros(len(data) // M)
+        for i in range(length // M - 1):
+            s = data[i * M:(i + 1) * M]
+            spls[i] = spl_cal(s, fs, frameLen)
+
+        if isplot:
+            plt.subplot(211)
+            plt.plot(data)
+            plt.subplot(212)
+            plt.step([i for i in range(len(spls))], spls)
+            plt.show()
+        return spls
+
+
+sb = soundBase('C2_3_y.wav')
+data, fs = sb.audioread()
+sb.SPL(data, fs)
+~~~
+### 声压级
+声音的有效声压与基准声压之比，取以10为底的对数，再乘以20，即为声压级，通常以符号$L_p$表示，单位为dB。
+$$L_p=20\lg\frac{P_e}{p_{ref}}(dB)$$
+
+其中，$P_e$为待测声压的有效值，$P_{ref}$为参考声压，在空气中一般取$2\times 10^{-5}Pa$。
+
+
+
+## 声强
+在物理学巾，声波在单位时间内作用在与其传递方向垂直的单位面积上的能量称为声强。日常生活中能听到的声音其强度范围很大，最大和最小之间可达$10^{12}$倍。
+### 声强级
+
+用声强的物理学单位表示声音强弱很不方便。当人耳听到两个强度不同的声音时，感觉的大小大致上与两个卢强比值的对数成比例。因此，用对数尺度来表示声音强度的等级，其单位为分贝(dB) 。
+$$L_I=10\lg (I/I_0)(dB)$$
+
+在声学中，$I_0=1\times 10^{-12}W/m^2$。
+### 声压与声强的关系
+对于球面波和平面波，声压与声强的关系是：
+$$I=P^2/(\rho·c)$$
+其中，$\rho$为空气密度，$c$为声速，在标准大气压和20摄氏度的环境下，$\rho·c=408 Pa·s/m$，这个数值叫国际单位值，也叫瑞丽，称为空气对声波的特性阻抗。
+
+## 响度
+响度描述的是声音的响亮程度，表示人耳对声音的主观感受，其计量单位是宋。定义为声压级为40dB的1 kHz纯音的响度为1 Son (宋) 。人耳对声音的感觉，不仅和声压有关，还和频率有关。声压级相同，频率不同的声音，听起来响亮程度也不同。如空压机与电锯，同是100dB声压级的噪声，昕起来电锯声要响得多。按人耳对声音的感觉特性，依据卢压和频率定出人对声音的主观音响感觉量，称为响度级，单位为方，符号phon。根据国际协议规定，OdB声级的1000 Hz纯音的晌度级定义为0 phon。其他频率声音的声级与响度级的对应关系，要从等响度曲线才能查出。