调用Azure AI的实时语音转文字功能

作者: zZ_d205 | 来源:发表于2024-10-28 15:55 被阅读0次

利用Python实现语音识别功能，只需3个步骤！
PHP与语音识别功能现在也是很普遍了
浅谈产品分析-腾讯翻译君
伯索云学堂实时课堂功能模块介绍
挖到宝啦，好多人要的软件，免费搞来了！
调用一句话，播放指定文字
湖中剑 GitHub周刊 #6 | 2021-09-01
国家大力扶持人工智能，再不学习就晚了！
闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的
用人工智能赋能在线教育，知识圈上线语音测评功能

<!DOCTYPE html>
<html>

<head>
    <title>Voice to Text - Azure Speech</title>
    <!-- Add Azure Speech SDK -->
    <script src="https://aka.ms/csspeech/jsbrowserpackageraw"></script>
    <style>
        body {
            font-family: Arial, sans-serif;
            max-width: 800px;
            margin: 20px auto;
            padding: 20px;
        }

        .config-section {
            margin-bottom: 20px;
            padding: 15px;
            background-color: #f5f5f5;
            border-radius: 5px;
        }

        .config-section input {
            width: 300px;
            padding: 8px;
            margin: 5px 0;
            border: 1px solid #ddd;
            border-radius: 4px;
        }

        .controls {
            margin-bottom: 20px;
            display: flex;
            gap: 10px;
        }

        button {
            padding: 10px 20px;
            font-size: 16px;
            cursor: pointer;
            background-color: #4CAF50;
            color: white;
            border: none;
            border-radius: 5px;
            transition: background-color 0.3s;
        }

        button:hover {
            background-color: #45a049;
        }

        button:disabled {
            background-color: #cccccc;
            cursor: not-allowed;
        }

        #stopButton {
            background-color: #f44336;
        }

        #stopButton:hover {
            background-color: #da190b;
        }

        .output-container {
            border: 1px solid #ddd;
            padding: 20px;
            border-radius: 5px;
            min-height: 200px;
            margin-bottom: 20px;
        }

        #interim {
            color: #666;
            font-style: italic;
        }

        .status {
            margin-top: 10px;
            font-size: 14px;
            color: #666;
        }

        .listening {
            color: #4CAF50;
            animation: pulse 1.5s infinite;
        }

        @keyframes pulse {
            0% {
                opacity: 1;
            }

            50% {
                opacity: 0.5;
            }

            100% {
                opacity: 1;
            }
        }
    </style>
</head>

<body>
    <h1>Voice to Text Streaming</h1>

    <div class="config-section">
        <h3>Azure Speech Service Configuration</h3>
        <div>
            <label for="subscriptionKey">Subscription Key:</label><br>
            <input type="password" id="subscriptionKey" placeholder="Enter your subscription key"><br>
            <label for="region">Region:</label><br>
            <input type="text" id="region" placeholder="e.g., eastus"><br>
        </div>
    </div>

    <div class="controls">
        <button id="startButton">Start Voice Input</button>
        <button id="stopButton" disabled>Stop Voice Input</button>
    </div>

    <div class="output-container">
        <div id="final"></div>
        <div id="interim"></div>
    </div>
    <div class="status" id="status">Status: Ready</div>

    <script>
        const startButton = document.getElementById('startButton');
        const stopButton = document.getElementById('stopButton');
        const finalDiv = document.getElementById('final');
        const interimDiv = document.getElementById('interim');
        const statusDiv = document.getElementById('status');
        const subscriptionKeyInput = document.getElementById('subscriptionKey');
        const regionInput = document.getElementById('region');

        let recognizer;
        let finalTranscript = '';

        startButton.addEventListener('click', () => {
            const subscriptionKey = subscriptionKeyInput.value;
            const region = regionInput.value;

            if (!subscriptionKey || !region) {
                alert('Please enter both subscription key and region');
                return;
            }

            try {
                // Create speech configuration
                const speechConfig = SpeechSDK.SpeechConfig.fromSubscription(subscriptionKey, region);
                speechConfig.speechRecognitionLanguage = 'zh-CN';

                // Create audio configuration
                const audioConfig = SpeechSDK.AudioConfig.fromDefaultMicrophoneInput();

                // Create speech recognizer
                recognizer = new SpeechSDK.SpeechRecognizer(speechConfig, audioConfig);

                finalTranscript = '';
                finalDiv.textContent = '';
                interimDiv.textContent = '';

                // Handle recognition results
                recognizer.recognizing = (s, e) => {
                    interimDiv.textContent = e.result.text;
                };

                recognizer.recognized = (s, e) => {
                    if (e.result.reason === SpeechSDK.ResultReason.RecognizedSpeech) {
                        finalTranscript += e.result.text + '\n';
                        finalDiv.textContent = finalTranscript;
                        interimDiv.textContent = '';
                    }
                };

                recognizer.canceled = (s, e) => {
                    if (e.reason === SpeechSDK.CancellationReason.Error) {
                        statusDiv.textContent = `Error: ${e.errorDetails}`;
                    }
                    stopRecognition();
                };

                // Start continuous recognition
                recognizer.startContinuousRecognitionAsync(
                    () => {
                        startButton.disabled = true;
                        stopButton.disabled = false;
                        statusDiv.textContent = 'Status: Listening...';
                        statusDiv.classList.add('listening');
                    },
                    (err) => {
                        statusDiv.textContent = 'Error: ' + err;
                        stopRecognition();
                    }
                );

            } catch (err) {
                statusDiv.textContent = 'Error: ' + err.message;
                stopRecognition();
            }
        });

        stopButton.addEventListener('click', () => {
            if (recognizer) {
                recognizer.stopContinuousRecognitionAsync(
                    () => {
                        stopRecognition();
                    },
                    (err) => {
                        statusDiv.textContent = 'Error stopping: ' + err;
                        stopRecognition();
                    }
                );
            }
        });

        function stopRecognition() {
            stopButton.disabled = true;
            startButton.disabled = false;
            statusDiv.textContent = 'Status: Stopped';
            statusDiv.classList.remove('listening');
            if (recognizer) {
                recognizer.close();
            }
        }
    </script>
</body>

</html>```

利用Python实现语音识别功能，只需3个步骤！
调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。首先在官网下载了关于语音听写的SDK，...
PHP与语音识别功能现在也是很普遍了
文章正文语音识别的功能的应用场景将语音实时识别为文字，适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、...
浅谈产品分析-腾讯翻译君
1.概要腾讯翻译君是2016年上线的一款手机版实时语音对话翻译软件，可提供多国语言文字、语音翻译功能，具有...
伯索云学堂实时课堂功能模块介绍
实时课堂是伯索云学堂中的直播功能，高度还原传统黑板板书，实现实时语音互动。实时课堂有两种课堂形式：语音实时课堂和视...
挖到宝啦，好多人要的软件，免费搞来了！
大家好，我是小阿浩~ 这几天好多人问我有没有语音转文字工具今天给大家分享一款语音转文字软件一个多功能语音转...
调用一句话，播放指定文字
一、说明最近项目中用到播放文字语音功能，经过搜索总结，做了一个简单封装，实现调用一句话播放制定文字功能。下载地址...
湖中剑 GitHub周刊 #6 | 2021-09-01
1. 推荐 1.1 MockingBird：AI实时中文语音克隆本周 Star增长：950+，累计：3500+ ...
国家大力扶持人工智能，再不学习就晚了！
人工智能时代的未来 AI还有多远？无人驾驶、人脸识别、语音识别、实时翻译、智能安防…… 随着AI技术的不断发展...
闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的
前文回溯，之前一篇：含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3....
用人工智能赋能在线教育，知识圈上线语音测评功能
2月13日，知识圈上线了语音测评功能，用AI人工智能赋能在线教育。语音评测功能指的是课程自带的AI测评可以帮助老师...