תוכן עניינים:

וִידֵאוֹ: מאירוסמית 'לפברוטי

2023 מְחַבֵּר: Peter Bradberry | [email protected]. שונה לאחרונה: 2023-05-21 22:33
איך קול הזמר מפיק את הצלילים המדהימים האלה?.
השנה היא 1974, והארי קול עוקב אחר זוג שעובר בכיכר יוניון צפופה בסן פרנסיסקו. הוא משתמש במיקרופוני רובה כדי להקליט בחשאי את שיחתם, אך בשלב קריטי להקת כלי הקשה סמוכה מטביעה את השיחה. בסופו של דבר הארי צריך להשתמש בגאדג'ט בלתי סביר כדי לחלץ את המילים כמעט בלתי נשמעות, "הוא היה הורג אותנו אם יקבל את ההזדמנות", מההקלטות.
קטע זה של פלילי פלילי אודיו היה מדע בדיוני כשהופיע בסרט השיחה לפני יותר משלושה עשורים. האם זה אפשרי היום ?.
מיון הפטפולים משיחות מרובות מכונה בשמה העממי "בעיית מסיבות הקוקטיילים", וחוקרים עשו מספר רב של פתרונות לעבר פתרונה בעשר השנים האחרונות. מאזינים אנושיים יכולים לכוון באופן סלקטיבי את כל מי שאינו הדובר מעניין כאשר מספר דוברים מדברים. שלא כמו אנשים, מכונות לא היו אמינות לשמצה בזיהוי דיבור בנוכחות רעש, במיוחד כאשר הרעש הוא דיבור ברקע. טכנולוגיית זיהוי הדיבור הופכת בכל מקום יותר ויותר ומשמשת כעת להכתבת טקסט ופקודות למחשבים, טלפונים ומכשירי GPS. אבל בהצלחה לקבל שום דבר חוץ מקשקש אם שני אנשים מדברים בבת אחת.
שפע של מחקרים עדכניים התמקד בבעיית מסיבות הקוקטיילים. בשנת 2006 ארגנו מרטין קוק מאוניברסיטת שפילד באנגליה ות-ווון לי מאוניברסיטת קליפורניה, סן דייגו, "אתגר" להפרדת דיבור, משימה שנועדה להשוות גישות שונות להפרדה והכרה של הדיבור המעורב של שניים. מדברים. מאז חוקרים ברחבי העולם בנו מערכות שיתחרו זו בזו ונגד אמת המידה האולטימטיבית: מאזינים אנושיים.
כאן אנו סוקרים את האתגרים החישוביים של הפרדת דיבור ומתארים את הטכניקות המשמשות להתמודדות עם הבעיה. בפרט אנו מתארים את פעולתו של האלגוריתם "העל-אנושי" אליו נכנסו שלושה מאתנו (יחד עם עמיתנו טראוסטי ט 'קריסטיאנסון מגוגל) באתגר ההפרדה. לאחר מכן אנו מתארים אלגוריתם עוקב, שיכול לפתור ביעילות בעיות הפרדה מורכבות יותר עם יותר משני רמקולים שייקח עידנים להתפרק עם הגישה המקורית. (ראה גם "פתרון בעיית מסיבת הקוקטיילים" מהגיליון של סיינטיפיק אמריקן באפריל 2011).
1. נסה זאת בעצמך
כדי לקבל מושג במה עומדים אלגוריתמי הפרדת הדיבור, בדוק אם אתה יכול לשמוע את מילות היעד באיזה דיבור חופף מהסוג המשמש באתגר. כל המשפטים המדוברים בדוגמאות משתמשים באוצר מילים מצומצם מאוד ובעל מבנה פשוט זהה לדוגמה זו: "מקם אדום כעת ב- C שניים." (המשפטים עשויים להיראות פחות מוזרים אם אתה מדמיין שהם הוראות לגבי מה לעשות עם אסימונים צבעוניים במשחק לוח).
בכל תערובת אחד המדברים מציין "לבן". המטרה שלך היא להבחין בשילוב האותיות ומספרים ("C שניים" בדוגמה) המדוברים במשפט על "לבן".
קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
- קובץ MP3
אוצר המילים המוגבל והדקדוק הפשוט מאפשרים למחקר להתמקד באתגר של הפרדת הדיבור החופף מבלי לדרוש את התשתית הדרושה להכרה באמירות מסובכות יותר. האלגוריתמים עיבדו כמה אלפי דוגמאות בדיקה כאלה, אשר השתנו בכמה דרכים. בחלק מהדוגמאות, מדבר ה"מטרה "וה"מסכה" היה רם באותה מידה, אך בעיקר הם נבדלו מעט או מתונים בנפח. המטרה והמסיכה יכולים להיות מגדרים שונים או מאותו מין, או שהם יכולים אפילו להיות אותו אדם המדבר את שני המשפטים. המאזינים האנושיים מתקשים ביותר כאשר המטרה היא אותו אדם, כשהם מדברים בערך באותו עוצמה או מעט נמוכים יותר מהמסווה.
2. כיצד ספקטרוגרמות מייצגות דיבור
קובץ MP3
כדי להפריד בין הדיבור של מספר דיבורים או לזהות את הדיבור של אדם אחד, מחשבים מייצגים את אות הקול לפי הספקטרום שלו - האנרגיה בצליל בכל תדר. ספקטרוגרמה מראה כיצד הספקטרום משתנה לאורך זמן, כאשר הצבע בכל נקודה מציין את אנרגיית הקול בתדר ובאותו זמן. הספקטרוגרמה מעבירה את כל המידע הדרוש לזיהוי הדיבור. למעשה, מדען המחשבים ויקטור זי מהמכון הטכנולוגי של מסצ'וסטס נהג ללמד שיעור כיצד לתמלל דיבור רק על ידי התבוננות בספקטרוגרמה.
כדי להפיק ספקטרוגרמה, התוכנה מחלקת את אות הקול לקטעי זמן קצרים וחופפים הנקראים מסגרות, כל אחד מהם אורך כ- 40 אלפיות השנייה (1/25 של שנייה). החפיפה מונעת אובדן מידע בתחילת ובסוף כל פריים. ספקטרום הצליל נקבע עבור כל פריים. לפיכך ספקטרוגרמה היא סדרה של ספקטרום אישי, אחד לכל פריים. זיהוי דיבור והפרדת דיבור פועלים בדרך כלל על ידי מעבר לאורך ספקטרוגרמה מסגרת אחת בכל פעם.
3. ספקטרוגרמה של דיבור חופף
קובץ MP3
- קובץ MP3
- קובץ MP3
ערבוב מקורות שמע ביחד דומה למזוג חלב לקפה. ברגע שהם משתלבים יחד, אין דרך פשוטה להפריד ביניהם. בכל מסגרת זמן, הספקטרום מכל מקור בעצם מצטרף. באופן עקרוני, חלוקת הצליל לשני חלקים היא שרירותית כמו לשאול, "אם x פלוס y שווה 10, מה הם x ו- y?".
במסיבת קוקטיילים אמיתית, אתה מקבל מידע נוסף על ידי שתי אוזניים. הצליל השונה מעט שמזוהה על ידי כל אוזן אומר לך משהו על הכיוונים שממנו נשמעים הצלילים, שיכולים לעזור לך לבחור מדבר אחד מהקהל. אבל לא תקבל סיוע כזה אם שני האנשים באותו כיוון כללי וגם מחשב לא מעבד הקלטה עם מיקרופון יחיד. אתגר הפרדת הדיבור התמקד בגרסה "חד-טבעית" זו של הבעיה.
למרבה המזל, כפי שעולה מהתבוננות בספקטרוגרמות, לצלילי הדיבור יש הרבה מבנה. כל הגישות להפרדת דיבור מנצלות את המבנה הזה במידה מסוימת.